TeleMediaSpider - Telegram 频道资源爬虫

开发 · 06-08
TeleSpider Telegram spider gramjs downloader 爬虫 纸飞机
如果您觉得文章或项目对您有帮助,戳我请博主喝一杯咖啡叭!
  1. www 3 天前

    配置文件填写后,运行exe 显示登录信息,然后就卡住了 ┌──────┬────────┬──────┬──────┐
    │ 频道 │ 文件名 │ 进度 │ 大小 │
    ├──────┼────────┼──────┼──────┤
    │ │ │ │ │
    └──────┴────────┴──────┴──────┘
    [2024-12-18T16:16:28.726] [INFO] - Running gramJS version 2.23.9
    [2024-12-18T16:16:28.731] [INFO] - Connecting to 149.154.175.53:80/TCPFull...
    [2024-12-18T16:16:28.737] [INFO] - Connection to 149.154.175.53:80/TCPFull complete!
    [2024-12-18T16:16:28.738] [INFO] - Using LAYER 184 for initial connect

    1. LiesAuer (作者)  3 天前
      @www

      一直都是这样吗?这个列表只有采集到图片视频等资源才会显示出来的,文本消息不会显示在这个表里,如果长时间没有东西出来,可能是频道建立前期就没发什么图片视频资源,可以换个图多的频道测试是否是功能异常。

  2. tinker 11-18

    为什么运行一段时间就会停止,重启又恢复!没有报错信息,频道信息和文件名那一块的信息都是空的

    1. LiesAuer (作者)  11-18
      @tinker

      这个问题确实存在,还在排查到底是gram.js库的问题还是什么问题,目前的解决方案就是定时重启,隔一两个小时这样子,可以用脚本或者其他工具实现都行。

  3. pansoo 10-27

    大佬,这个只能下载文件吗?能不能保存频道消息

    1. LiesAuer (作者)  10-27
      @pansoo

      暂时只是下载文件的,下个版本才会加入保存信息功能

  4. Miller 10-11

    最好再多加一个查漏补缺的功能(捂脸(/ω\)),因为抓取了3天才下载完,只差一百多张,但是不知道是差了哪些id,应该是有的格式没包含,比如gif之类的,不过刚好抓取的频道里只有几张gif,可以单独下,媒体里缺少了一些图片和视频应该。

    1. LiesAuer (作者)  10-11
      @Miller

      这个可以加入重爬功能,已经下载的资源就跳过

  5. Miller 10-11

    大佬,好像不会爬取jpeg文件,图片和视频数量对不上,是不是图片和视频的格式没有全部包含,怎么样增加抓取格式呢,跪求大佬更新下有效值的抓取格式所包含范围。

    1. LiesAuer (作者)  10-11
      @Miller

      目前是按照gram.js这个库解析抓取的,消息字段会存在image对象,按道理jpeg也是支持的,能找到缺了哪些图片吗,不然不好测

  6. cola 10-11

    大佬,可以爬取电报频道的评论内容嘛

    1. LiesAuer (作者)  10-11
      @cola

      可以做到,但目前没有这个功能

  7. Miller 10-08

    https://img13.chkaja.com/files/20241008/6e480579763dc720.png
    在TeleMediaSpider-win所在文件夹打开Windows PowerShell也不能成功执行命令,肿么办,T T
    求大佬教一下,怎么正确执行。

    1. Miller 10-08
      @Miller

      不执行命令的话频道页面是空的

    2. LiesAuer (作者)  10-08
      @Miller

      你的程序是什么名字就输入什么名字,因为你下载下来的文件名叫“TeleMediaSpider-win”,所以在windows下,正确的执行命令是“./TeleMediaSpider-win.exe --list”。

      1. Miller 10-08
        @LiesAuer

        大佬我终于会了,用cmd命令cd /d G:\cco,感谢大佬指点!

      2. Miller 10-08
        @LiesAuer

        https://img13.chkaja.com/files/20241008/26bdf943631af1af.png
        我按照TeleMediaSpider-win.exe --list的写法还是不可以,呜呜

        1. LiesAuer (作者)  10-08
          @Miller

          要输入“./TeleMediaSpider-win.exe --list”,你前面没输完整,这个不能漏的,这是PowerShell的用法。

  8. zzu 09-30

    有个报错
    [2024-09-30T11:39:13.845]
    [INFO]
    Running gramJS version 2.23.9
    [2024-09-30T11:39:13.855]
    [INFO]
    Connecting to 149.154.175.54:80/TCPFu11...
    [2024-09-30T11:39:13.871]
    [INFO]
    Connection to 149.154.175.54:80/TCPFu11 complete!
    [2024-09-30T11:39:13.872]
    [INFO]
    Using LAYER 184 for initial connect
    [2024-09-30T11:39:18.871]
    [INFO]
    connection closed
    [2024-09-30T11:39:18.872]
    [WARN]- Connection closed while receiving data
    Error: Not connected
    at ConnectionTCPFu11.recv(C:\snapshot\Te1eMediaSpider\node_modules\te1egram\network\connection\Connection.js:71:15)
    at async MTProtoSender.recvLoop (C:\snapshot\Te1eMediaSpider\node_modules\te1egram\network\MTProtoSender.js:365:24)
    [2024-09-30T11:39:19.890]
    [INF0]

    Started reconnecting
    [2024-09-30T11:39:19.891]
    [WARN]
    [Reconnect] Closing current connection...
    [2024-09-30T11:39:19.892]
    [INFO]Disconnecting from 149.154. 175.54:80/TCPFu11...
    [2024-09-30T11:39:19.894]
    [INFO]
    Connecting to 149.154.175.54:80/TCPFu11...
    [2024-09-30T11:39:19.897]
    [INFO]
    Connection to 149.154.175.54:80/TCPFu11 complete!
    [2024-09-30T11:39:19.899]
    [INFO]Handling reconnect!
    1. LiesAuer (作者)  09-30
      @zzu

      这个应该是梯子问题吧,库自带重连的,问题不大。

  9. zzu 09-30

    https://img.chkaja.com/258a8713265ef0b3.jpg

    登录后卡在这里 命令输入也没有反应 是打开方式不对吗

    1. LiesAuer (作者)  09-30
      @zzu

      终端输入TeleMediaSpider --list也是没有任何反应嘛?我前两天也发现会有个别频道会导致GetChannels接口无限卡住,目前还没查到什么原因。

      1. zzu 10-01
        @LiesAuer

        输入不了内容 用调试模式运行的话 控制台像是一直在刷新

        1. LiesAuer (作者)  10-06
          @zzu

          TeleMediaSpider --list是终端运行的,正常爬虫运行后是无法输入任何东西的。

  10. MIX 09-27

    都配置好了之后开始爬取始终不显示文件,终端中的列表为空是什么问题呢,大佬方便帮忙解答一下吗,我这边的频道id是-100开头的是正确的吗

    1. oo 09-29
      @MIX

      吧-去掉吧应该要

      1. LiesAuer (作者)  09-30
        @oo

        负的一般是机器人拿到的id

    2. LiesAuer (作者)  09-27
      @MIX

      tg是有负id的,但是频道id我还没见到过负的,这个可能得看下什么情况

  11. 马克一下,感觉正好需要这个爬虫。哈哈

Theme Jasmine by Kent Liao