请选择 进入手机版 | 继续访问电脑版
查看: 85|回复: 0

6个爬虫开源项目,帮你爬天爬地怕空气

[复制链接]

132

主题

134

帖子

713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
713
发表于 2022-10-29 18:59:15 | 显示全部楼层 |阅读模式


今天盘点6个爬虫开源项目。他们可以帮你爬天,爬地,怕空,爬微博,爬Bilibili,知乎,*站。

提前声明,请勿利用这些项目从事非法商业活动,仅用于科研!

01

微博爬虫

这个开源项目程序可以连续爬取一个或多个新浪微博用户(如李文迪、五一凡)的数据,并将结果信息写入文件或数据库。书面信息几乎囊括了用户微博的所有数据,包括用户信息和微博信息两大类。

地址:/dataabc/weiboSpider

爬取结果可以写入文件和数据库。写入的具体文件类型如下:

它还支持下载微博中的图片和视频。具体可下载文件如下:

首先需要修改config.json文件,然后爬取,程序会自动生成一个weibo文件夹,以后我们爬取的所有微博都会存储在这里。

然后程序在这个文件夹下生成一个名为“微博名”的文件夹,明星微博的所有爬取结果都在这里。该文件夹包含一个csv文件、一个txt文件、一个json文件、一个img文件夹和一个video文件夹。img文件夹用于存放下载的图片,video文件夹用于存放下载的视频。如果设置了保存数据库功能,信息也会保存在数据库中。有关数据库设置,请参阅设置数据库部分。

02

Python爬虫教程

Python爬虫教程系列租泛目录,从0到1学习Python爬虫租泛目录,包括浏览器抓包、手机APP抓包,如fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及验证码识别、Python使用MySQL、MongoDB数据库、多线程多进程爬虫使用、css爬虫加密逆向破解、JS爬虫逆向、分布式爬虫、爬虫项目实战实例等。

地址:/wistbean/learn_python3_spider



03

爬行动物收藏

本开源项目收集了各种爬虫,包括Blibli、博客园、百度百科、北游人、百度云盘、Boss、壳牌、豆瓣、CSDN、抖音、GitHub、京东、知乎、拉狗、链家、微信公众号、网易云等等,所有你能想到的国内外网站爬虫,你可以先来这里看看有没有开源的爬虫。

地址:/facert/awesome-spider

04

智能爬虫平台

该开源平台以流程图的形式定义爬虫,是一个高度灵活、可配置的爬虫平台。您可以在该平台上配置各种爬虫。

地址:/ssssssss-team/spider-flow



接下来,开始以流程图的形式配置一些变量和参数,点击开始爬取你想要的数据。



05

Java 爬虫

Spiderman是一个Java开源的网页数据提取工具,可以收集指定的网页,并从这些网页中提取有用的数据。

Spiderman主要使用XPath、正则表达式等技术来提取数据。

地址:/l-weiwei/spiderman

06

爬虫大全

这个开源项目包括各种网站和电子商务数据爬虫。包括:淘宝产品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、趵突网、全景网、豆瓣音乐、省药监局、搜狐新闻、机器学习文集、福发资产集、汽车之家、国家统计局、百度关键词索引、蜘蛛侠目录、今日头条、豆瓣影评️️️。

地址:/AJay13/ECommerceCrawlers



豪侠泛目录站群程序,专业泛目录,站群,二级目录,泛站群程序!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表