GitHub 上有哪些优秀的 Python 爬虫项目？第1页

crackinterview 网友的相关建议:

大型爬虫项目：

Photon

一个高速的爬虫程序。最大的特点是它不是像普通爬虫那样只爬取结构和静态资源，Photon被偏向设计为信息收集爬虫，它有非常灵活的规则设置和利于阅读的导出结果。

Photon提供的各种选项可以让用户按照自己的方式抓取网页。

它最厉害的地方在于数据提取

默认情况下，Photon在抓取时会提取以下数据：

网址（范围内和范围外的）

带参数的网址（http://example.com/gallery.php?id=2）

情报（电子邮件，社交媒体帐户，亚马逊水桶等）

文件（pdf，png，xml等）

JavaScript等文件

基于自定义正则表达式模式的字符串

提取的信息按下图方式保存。

PySpider

一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。

它可以实现：

python 脚本控制，可以用任何你喜欢的html解析包（内置 pyquery）
WEB 界面编写调试脚本，起停脚本，监控执行状态，查看活动历史，获取结果产出
数据存储支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
队列服务支持RabbitMQ, Beanstalk, Redis 和 Kombu
支持抓取 JavaScript 的页面
组件可替换，支持单机/分布式部署，支持 Docker 部署
强大的调度控制，支持超时重爬及优先级设置
支持python2&3

令狐老师的算法小抄

允许我推荐一下自家的Github。刷题超过3000+的FB大佬令狐老师，在仓库里分享了一套自己爆肝整理的算法模板（Java+Python两种模板）。碰到对应的知识点的题目可以直接套用，刷题都变得有趣了许多！

近期还有更新新手题库和面试必刷100题库，刷题还没头绪的同学可以试试。

实用型爬虫项目：

financical.py

财务报表下载小助手。

动态示意图：

video_downloader

爱奇艺等主流视频网站的VIP视频破解助手(暂只支持PC和手机在线观看VIP视频！)

感谢Python3二维码生成器作者：https://github.com/sylnsfar/qrcode

编译好的软件下载连接：https://pan.baidu.com/s/1bqSTNJL 密码:p8bs

解压密码：http://cuijiahua.com

无需Python3环境，在Windows下，解压即用！

BSGS_Rent

爬取并分析北上广深链家网租房房源全部数据，得出租金分布，租房考虑因素等建议（北上广深租房图鉴）

主要的文件有：

house_data_crawler.py：爬取北上广深租房房源数据的代码（带说明和注释，需要安装mongodb）
info.py：租房类型和各城市各区域的信息，供house_data_crawler.py调用
北上广深租房图鉴.ipynb：Jupyter notebook代码，对北上广深租房数据进行分析
data_sample.csv：租房数据，这里只随机选择了12000条，每城市3000条

12306

用Python抢火车票简单代码，有爬虫基础就很好操作。

webspider

本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫，实现了定时任务，出错重试，日志记录，自动更改Cookies等的功能，并使用ECharts + Bootstrap 来构建前端页面，来展示爬取到的数据。

downloader.py

一个可以用于下载图片、视频、文件的小工具，有下载进度显示功能。稍加修改即可添加到自己的爬虫中。

biqukan.py

《笔趣看》盗版小说网站，爬取小说工具

webspider

本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫，实现了定时任务，出错重试，日志记录，自动更改Cookies等的功能，并使用ECharts + Bootstrap 来构建前端页面，来展示爬取到的数据。

geetest

爬虫最大的敌人之一是什么？没错，验证码！Geetest作为提供验证码服务的行家，市场占有率还是蛮高的。

动态示意图：

Nyspider

各种爬虫---大众点评,安居客，58，人人贷，拍拍贷, IT桔子,拉勾网，豆瓣,搜房网,ASO100,气象数据,猫眼电影,链家,PM25.in...

spider

以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息。windows7 32位上测试，目前每24个小时，可收集数据为10万左右

CVPR2019

2019计算机视觉顶会CVPR全部论文PDF论文爬虫

bdwenku-spider

百度文库word文章爬取，学生党超实用！支持txt，word，pdf，ppt类型资源的下载

其它有趣的Python爬虫小项目：

LiveStream

爬取了西瓜直播（今日头条旗下APP）各类型游戏的主播直播数据107.5万条，并分析直播平台和游戏主播行业是否真如我们想象般的暴利。适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者

Zhihu -Spider

知乎关系网爬虫

LaborDay

按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据，并且分析五一哪些景点会人挤人，哪些景点值得一去。同样适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者学习。

KrisWu

随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条，并分析该条微博的真假转发比例，以及大家对于这首歌的情感倾向如何

ESL

爬取了外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条，万行教师人才网上的英语老师招聘数据5780条，以及微信群成员信息498条，分析外教教师的招聘状况。洋外教的工资学历情况一目了然。

Wechat_article_collector

一个微信公众号文章采集器，用于采集微信公众号文章并保存至word文档。

项目很简单，主要包括以下文件：

article_collector.py：主文件，用于爬取公众号文章以及把文章储存为word文档；
add_hyperlinks.py：用于在word文档中添加超链接
gzh.txt：待爬取的公众号列表
比心.JPG：用来撒狗粮的，不用管

one_hour_spider

一小时入门Python3网络爬虫。

内容有包括：

网络小说下载(静态网站)-biqukan

优美壁纸下载(动态网站)-unsplash

爱奇艺VIP视频下载

PUBG-juediqiusheng-data_analysis

项目主要分析绝地求生72万场比赛的数据，并结合数据给出吃鸡攻略，用数据吃鸡！

主要的文件为：

20G 绝地求生比赛数据集分析.ipynb：Jupyter Notebook格式，代码和说明都在这里
erangel.jpg：绝地海岛艾伦格地图
miramar.jpg：热情沙漠米拉玛地图

Weibo_Comment_Pics

这个项目主要是模拟登录微博手机网页端，爬取指定微博下面的评论数据，并且下载评论中的表情包图片

主要的文件为：

photo_crawler.py：代码（带说明和注释）

cookie.txt：爬取电脑端网页时的cookie，具有时效性，需要自行更新

XSStrike

XSStrike是一个Cross Site Scripting检测套件，配备四个手写解析器，一个智能有效载荷生成器，是一个强大的模糊引擎和一个非常快速的爬虫。

GitHub 上有哪些优秀的 Python 爬虫项目？的其他答案点击这里

GitHub 上有哪些优秀的 Python 爬虫项目？第1页

大型爬虫项目：

令狐老师的算法小抄

实用型爬虫项目：

其它有趣的Python爬虫小项目：

相关话题

前一个讨论

下一个讨论

相关的话题

GitHub 上有哪些优秀的 Python 爬虫项目？ 第1页

大型爬虫项目：

令狐老师的算法小抄

实用型爬虫项目：

其它有趣的Python爬虫小项目：

相关话题

前一个讨论

下一个讨论

相关的话题

GitHub 上有哪些优秀的 Python 爬虫项目？第1页