Movatterモバイル変換

JasonPEP/SinaSpiderPublic

forked fromLiuXingMing/SinaSpider

NotificationsYou must be signed in to change notification settings
Fork0
Star0

新浪微博爬虫（Scrapy、Redis）

0 stars 1.5k forks Branches Tags Activity

Star

Notifications

You must be signed in to change notification settings

Branches Tags

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
Sina_spider1		Sina_spider1
Sina_spider2		Sina_spider2
Sina_spider3		Sina_spider3
.gitignore		.gitignore
README.md		README.md
pipelines.py		pipelines.py

Repository files navigation

##Sina_Spider1: 《新浪微博爬虫分享（一天可抓取 1300 万条数据）》####Sina_Spider2: 《新浪微博分布式爬虫分享》####Sina_Spider3: 《新浪微博爬虫分享（2016年12月01日更新）》##

Sina_Spider1为单机版本。

Sina_Spider2在Sina_Spider1的基础上基于scrapy_redis模块实现分布式。

Sina_Spider3增加了Cookie池的维护，优化了种子队列和去重队列。

三个版本的详细介绍请看各自的博客。遇到什么问题请尽量留言，方便后来遇到同样问题的同学查看。也可加一下QQ交流群：。

-------------------20161215更新：
有人反映说爬虫一直显示爬了0页，没有抓到数据。
1、把settings.py里面的LOG_LEVEL = 'INFO'一行注释掉，使用默认的"DEBUG"日志模式，运行程序可查看是否正常请求网页。
2、注意程序是有去重功能的，所以要清空数据重新跑的话一定要把redis的去重队列删掉，否则起始ID被记录为已爬的话也会出现抓取为空的现象。清空redis数据运行cleanRedis.py即可。
3、另外，微博开始对IP有限制了，如果爬的快可能会出现403，大规模抓取的话需要加上代理池。

About

新浪微博爬虫（Scrapy、Redis）

Releases

No releases published

Packages

No packages published

Languages

Python100.0%

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages

Languages

Movatterモバイル変換

JasonPEP/SinaSpider

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages0

Languages

Packages