全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1146|回复: 13
打印 上一主题 下一主题

[经验] 分享下采集tg频道资源做站

[复制链接]
跳转到指定楼层
1#
发表于 2024-1-13 17:43:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 xianmeng 于 2024-1-13 17:57 编辑

使用python的telethon模块登录自己的tg号来进行采集频道
直接上代码

https://662688.xyz/code.zip

简单解释一下 主要代码就是下面的 其他的函数 我就用来写入数据库而已 不需要的可以直接删除
我采集的是网盘资源 图片我直接忽略了 如果要采集图片的话 自行gpt 即可解决
limit参数是 你要采集这个频道多少信息 采集完就自动结束了 我这里是1500
api_id , api_hash 这两个自行在这里申请 https://my.telegram.org/auth?to=apps
如果是用bot机器人的话 就不需要 首次运行代码 需要填写点信息
chat的话就是频道/群组的id 当然也可以用名字 不过不建议 https://t.me/getidsbot 转发一条信息给这个机器人 就可知道id
偏移值就是 他采集的顺序是从最新的消息开始
比如最新消息是 38000条 我到3W条的时候 tg不返回信息了 我偏移值就填30000 重新运行脚本 就可以接着采下去了


当然功能不限制于这些
tg真号可以采集频道信息/上传文件/下载文件......
机器人的话不能采集频道信息 可上传下载 其他还没试

我还写有一个自动下载和上传文件/视频 然后转发到指定群聊




还可以实时看到进度 不过速度实在不行 200K 我就放弃了
然后后面改成直接上传文件id 实现秒发 就是我转发视频给机器人 然后机器人发到指定频道/群聊 这样就不会显示转自哪个频道

直接上代码(参考一下 gpt自行修改)

https://662688.xyz/code1.zip

采了一天信息 7个频道 才采了5W信息 有时候会中断需要重新运行脚本来继续采集 还没发现问题 之后观察一下 应该是tg那边限制了




顺便做了个接口
https://www.662688.xyz/api/get_zy?keyword=繁花
5#
发表于 2024-1-13 18:24:28 | 只看该作者
点赞,虽然用不上,但是谢谢你让我知道了Telethon这个东西
6#
发表于 2024-1-13 18:31:26 来自手机 | 只看该作者
那种限制下载的能不能用这个下载?
7#
 楼主| 发表于 2024-1-13 18:57:24 | 只看该作者
peng123 发表于 2024-1-13 18:31
那种限制下载的能不能用这个下载?

还没见过限制下载的  感觉应该不行 得试试
8#
发表于 2024-1-13 19:02:26 | 只看该作者
可以在有新的消息自动采集吗
9#
发表于 2024-1-13 19:03:05 | 只看该作者
基于 tdl 写过一个机器人, 可以自动备份限制下载媒体的频道, 跑了2天号没了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-6 00:57 , Processed in 0.064198 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表