我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:白小姐 > 分布式网 >

python如何搭建分布式爬虫呀

归档日期:08-04       文本归类:分布式网      文章编辑:爱尚语录

  问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框架 什么算法 来实现?

  问题2: 比如我有60个爬虫,他们怎么和控制中心通信 有什么框架 或者算法来实现吗展开我来答

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部爬虫本质上不需要分布式。因为你要爬一个网站通常5-10个线程足够了,再多就是对网站压力测试了。

  你只需要将任务分配到不同的机器上,然后各运行各自己的,结果合并一下就可以。 这个与nutch人map, reduse也没有什么差别。只是手工分,手工合并。当然也可以用脚本分,脚本合并,脚本远程启动。有一个远程控制模块,似乎叫rpy。很简单,很容易上手。可以远程控制一个模块。

  数据库用postgresql不是很好。因为爬行结果放在关系型数据库里太吃力。特别是网页内容。通常是URL放在redis里。 内容放在文件系统里,你可以用hadoop+hdfs+thrift方案放在hadoop里。

  如果使用了hadoop,就干脆模仿nutch的流程,把python脚本也交给hadoop去管理好了。

  当然我个人觉着rpy方式更简单。 里面控制与通信都是现成的。10分钟就学会了。

本文链接:http://frankstella.net/fenbushiwang/1007.html