Channel: IT社区推荐资讯 - ITIndex.net

X Mark channel Not-Safe-For-Work? cancel confirm NSFW Votes: (0 votes)

X Are you the publisher? Claim or contact us about this channel.

X 0

Showing article 4456 of 11813 in channel 27974975
Channel Details:

Title: IT社区推荐资讯 - ITIndex.net
Channel Number: 27974975
Language: Chinese
Registered On: August 4, 2014, 5:35 pm
Number of Articles: 11813
Latest Snapshot: February 13, 2025, 7:10 am
RSS URL: http://itindex.net:80/feed.jsp
Publisher: https://itindex.net/
Description: IT社区推荐资讯 - ITIndex.net
Catalog: //itindex2.rssing.com/catalog.php?indx=27974975

↧

新浪微博分布式爬虫分享

March 16, 2016, 8:38 am

≫ Next: 美团风险控制系统综述

≪ Previous: Activiti - 设置会签

代码请移步GitHub： SinaSpider

（上面有跳转链接，别再问我代码在哪里了）

爬虫功能：

此项目实现将单机的新浪微博爬虫（见《新浪微博爬虫分享（一天可抓取 1300 万条数据）》）重构成分布式爬虫。
Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿。

环境、架构：

开发语言：Python2.7
开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。
数据库：MongoDB 3.2.0、Redis 3.0.501
（Python编辑器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio）
爬虫框架使用 Scrapy，使用 scrapy_redis 和 Redis 实现分布式。
分布式中有一台机充当Master，安装Redis进行任务调度，其余机子充当Slaver只管从Master那里拿任务去爬。原理是：Slaver运行的时候，scrapy遇到Request并不是交给spider去爬，而是统一交给Master机上的Redis数据库，spider要爬的Request也都是从Redis中取来的，而Redis接收到Request后先去重再存入数据库，哪个Slaver要Request了再给它，由此实现任务协同。

使用说明：

Python需要安装好Scrapy、pymongo、json、base64、requests。
Master机只需要安装好Redis即可（内存要求大点），Slaver机需要安装python环境和MongoDB来存储数据。如果想要将数据都存储到一台机子上，直接改一下爬虫程序（pipeline）里面MongoDB的IP即可，或者建议搭建一个MongoDB集群。Redis和MongoDB都是安装好即可，不需要配置。
将你用来登录的微博账号和密码加入到 cookies.py 文件中，里面已经有两个账号作为格式参考了。
可以修改scrapy里面setting的设置，例如间隔时间、日志级别、redis的IP等等。
以上配置完以后运行 Begin.py 即可。重申Master机不需要跑程序，它的功能是利用Redis进行任务调度。Slaver机跑爬虫，新增一台Slaver机，只需要把python环境和MongoDB搭建好，然后将代码复制过去直接运行就行了。

转载请注明出处，谢谢！（原文链接： http://blog.csdn.net/bone_ace/article/details/50904718）

作者：Bone_ACE 发表于2016/3/16 15:38:48 原文链接

阅读：207 评论：0 查看评论

↧

Trending Articles

《沈冰自述——我和周永康的故事》全本

February 8, 2015, 9:08 pm

Moog - Subsequent 25

January 16, 2020, 12:00 am

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

March 9, 2013, 11:02 am

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

July 16, 2019, 11:03 pm

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

April 24, 2019, 6:56 am

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

October 28, 2019, 8:49 pm

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

December 28, 2017, 6:55 pm

acermark龍璿國際展出多款包裝設備

April 18, 2016, 6:02 am

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

October 15, 2018, 6:03 am

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

September 4, 2013, 2:57 am

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

June 23, 2020, 2:17 am

MAS v2.8 magicgenius 汉化版 - 11.11更新

November 10, 2024, 5:46 pm

出售: Monster Cable Interlink Reference 2

May 23, 2018, 2:00 am

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

August 17, 2015, 1:12 am

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

December 21, 2016, 9:38 pm

[转载]煞貢、直星、人專吉日\金神七煞歌

March 3, 2016, 6:37 am

HAKERS哈克士戶外 12月8~14日廠拍

December 6, 2016, 3:52 am

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

June 16, 2019, 8:10 am

<請教>行駛中安卓機會重新開機

August 5, 2018, 7:25 am

Udp2raw-tunnel 及其一键安装脚本

October 23, 2017, 6:46 pm

© 2025 //www.rssing.com