全球主机交流论坛

标题: 10软妹求几个省心关关采集规则 [打印本页]

作者: biubiu    时间: 2018-4-4 17:51
标题: 10软妹求几个省心关关采集规则
目前手里只有两个规则,有一个还是一大堆广告

测试过滤广告都花了不少功夫

不知道dalao有没有写好过滤广告规则的采集规则

先钱10软妹,实在没分了

事成之后可以追加100金币
作者: 251768938    时间: 2018-4-4 17:51
PY我QQ
作者: coxyblog    时间: 2018-4-4 18:36
规则自己写不就好了么?只采集需要的部分,呃,虽然我没用过你说的那个采集软件。。。
作者: 今晚我是你的    时间: 2018-4-4 18:38
都差不多,随便找点,比如八一中文
作者: biubiu    时间: 2018-4-4 18:44
coxyblog 发表于 2018-4-4 18:36
规则自己写不就好了么?只采集需要的部分,呃,虽然我没用过你说的那个采集软件。。。 ...

广告好像挺难过滤了

上次过滤一条规则,样式不一样的广告都招出来十几条,这还只是我找到的
作者: 二暖的萌萌君    时间: 2018-4-4 20:31
规则好说 还是对你用的是哪里的服务器比较感兴趣、、、
作者: biubiu    时间: 2018-4-4 21:13
二暖的萌萌君 发表于 2018-4-4 20:31
规则好说 还是对你用的是哪里的服务器比较感兴趣、、、

hosthatch的750G大盘鸡,再用do或者vu开几台机器远程采集,网站速度不好就上反代

不过现在问题还在采集这块,最近还总弹出错误
  1. 无法从传输连接中读取数据: 远程主机强迫关闭了一个现有的连接
复制代码


不知道是不是因为对一个规则采集太猛的原因,抑或是数据库方面问题
作者: 二暖的萌萌君    时间: 2018-4-4 21:16
biubiu 发表于 2018-4-4 21:13
hosthatch的750G大盘鸡,再用do或者vu开几台机器远程采集,网站速度不好就上反代

不过现在问题还在采集 ...

采集太快了 建议减少线程尝试
作者: windowscrb    时间: 2018-4-4 21:17
自己写个爬虫就好了。
作者: biubiu    时间: 2018-4-4 21:24
二暖的萌萌君 发表于 2018-4-4 21:16
采集太快了 建议减少线程尝试

还是真是太快了吗

头一次接触采集,我是对一个规则开了十多个区间进行采,因为远程和网站是分开的,单个线程速度有限


看来还是得多规则同时采啊
作者: 二暖的萌萌君    时间: 2018-4-5 00:36
biubiu 发表于 2018-4-4 21:24
还是真是太快了吗

头一次接触采集,我是对一个规则开了十多个区间进行采,因为远程和网站是分开的 ...

对的 一个网站不要同时太多 会导致采集为空的
作者: biubiu    时间: 2018-4-5 10:49
二暖的萌萌君 发表于 2018-4-5 00:36
对的 一个网站不要同时太多 会导致采集为空的

多谢,建议,回头我多开几台小鸡试试分开采集

dalao有兴趣可以回复下,把这100分领了,上次这个问题没找到答案,分还在搁置中
http://www.91ai.net/thread-440131-1-1.html




欢迎光临 全球主机交流论坛 (https://91ai.net/) Powered by Discuz! X3.4