01 专为 AI 准备的爬虫神器
这个应该是 GitHub 上 Star 最多的爬虫开源项目了,斩获 47K Star。
Crawl4AI 是专为 AI 设计的开源网页爬虫与解析工具,稳居 GitHub 爬虫神器首位。
它以比传统方案快 6 倍,性能极速。能够输出对 AI 友好的数据格式(Markdown),爬取后可以直接怼到 AI 进行训练,
同时支持灵活的浏览器控制能力,完全开源,支持 Docker 一键部署,相当炫酷。
开源地址:https://github.com/unclecode/crawl4ai
02自媒体平台爬虫神器
这个自媒体平台爬虫神器,太火了,现在已经在 GitHub 上斩获 23.8K 的 Star。
它功能非常强大,支持这些平台内容的一键爬取:
小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫,百度贴吧爬虫,知乎爬虫。
除了爬帖子,还支持创作者主页和评论信息,而且还能把评论一键生成词云图,炫酷极了。
而且开发者提供了详细的部署使用方法,快去瞧瞧吧。
开源地址:https://github.com/NanmiCoder/MediaCrawler
教程:https://nanmicoder.github.io/MediaCrawler/
03可视化爬虫
不用写一行代码,这个开源的可视化爬虫软件,已经在 GitHub 上获得 39K 的Star。
开源地址:https://github.com/NaiboWang/EasySpider
打开你想要采集的网页,直接用鼠标右键点击你感兴趣的内容,软件会弹出菜单,告诉你可以对这个内容做什么操作,比如采集数据。
点击后软件就会像一个小机器人一样,自动帮你把网页上所有选定的信息抓取下来,并且整理成清晰的结构化数据。
相当方便啊。
EasySpider 就是一个让你无需编程知识,通过鼠标点点选选就能轻松抓取网页数据的可视化工具。
真正实现了「所见即所得」的数据采集,如果你有从网页上收集信息的需求,它绝对值得你一试!
04自动化浏览器插件
GitHub 斩获 18.9K 的 Star!
Automa 是一款开源的浏览器插件,它可以通过可视化拖拉拽的方式配置浏览器自动化操作,根本不需要写代码。
拖拖拽拽,就能搞出来一个自动化流程,帮你网页数据抓取、表单自动填充、重复执行任务、屏幕截图及定时任务调度等。
开源地址:https://github.com/AutomaApp/automa
而且有很多现成的工作流模板,套上就能用很方便。