我用过不少MCP,自然语言prompt调用确实很好用,但关于数据采集的不多,好像bright data mcp还可以,是专门用于爬虫的工具,亮数据开发的,可能是你想要的东西。
这个mcp有反爬虫处理技术,比如解锁验证码、切换IP池、模拟真人浏览器指纹等,所以不需要你再写脚本去处理。它的这个mcp可以浏览、采集、搜索目标网页,用自然语言就可以让大模型执行爬虫任务,挺稳定。
我总结下来主要有以下几个:user agent识别、人机验证、cookies追踪、js动态加载、行为指纹识别、IP检测等。虽然requests和selenium采集电商、社交媒体数据确实好用,但处理反爬很麻烦,还需要设置来源头、ip代理池等等。
我研究生做社媒关系分析课题时,需要采集大量社交媒体用户发帖评论数据,当时用的是第三方采集平台亮数据的网页抓取浏览器,它能模拟真实用户的浏览器,且直接内置了动态住宅ip代理池,不需要自己去布置,而且可以自动化解锁验证码、人机验证,相当于处理了90%的爬虫工作,你只需要写selenium代码去接接口,指挥浏览器采集数据即可,这帮了我大忙,当时只用了一两天的时间就把数据部分搞定了,还不错的。