全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 3126|回复: 11
打印 上一主题 下一主题

正在大量抓取google 有图比 tumblr 大战300回合

[复制链接]
suzizi 该用户已被删除
跳转到指定楼层
1#
发表于 2017-5-18 11:22:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
3#
发表于 2017-5-18 11:32:42 | 只看该作者
有git吗?代码分享下一起抓
5#
发表于 2017-5-18 11:55:03 | 只看该作者
不难,一天几百W轻松的

难的是数据清洗,还有数据展示优化

如果这么大数据放一个数据库里,多线程调用,我了个去,那才是难

(爬虫其实一天上千W的数据也是很容易的,多节点,分布式部署SO EASY)

PYTHON GO NODE.JS 都是很简单的
6#
发表于 2017-5-18 11:56:08 | 只看该作者
目前只是单机

先采集主要数据后再分布式
suzizi 该用户已被删除
7#
 楼主| 发表于 2017-5-18 11:59:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
8#
发表于 2017-5-18 12:01:01 | 只看该作者
suzizi 发表于 2017-5-18 11:59
动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

搞IP池吧。
9#
发表于 2017-5-18 12:35:15 | 只看该作者
suzizi 发表于 2017-5-18 11:59
动不动就出验证码了 烦躁。

清洗就是伪原创吧   我感觉很容易啊, 因为本身采集的数据都是按关键词分类 ...

找那些有 JSON API这类的,爽一些

要挖掘背后的东西,

验证码是烦,也没办法,

大神一般都是有办法跳过的,或者自动识别,再或者打码
10#
发表于 2017-5-18 12:56:20 | 只看该作者
怎么爬不是问题,问题是爬什么
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-15 11:26 , Processed in 0.107499 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表