在现代 AI 研究中,尤其是大型语言模型(LLM)训练和应用中,数据的获取与处理是一个关键环节。
为了帮助开发者更高效地抓取和整理网络数据,Crawl4AI 诞生了。这是一个专为 LLM 优化的开源网页爬虫工具,其便捷的使用方式与强大的功能,使得网页数据采集变得前所未有的轻松。
Crawl4AI 是一款基于 LLM(大型语言模型)的开源网页爬虫工具,它的设计初衷是为开发者提供一个简单易用、功能强大的数据抓取解决方案,特别是为了满足 AI 研究中的数据采集需求。
通过仅需几行代码,用户便能实现高效的网页爬取和数据提取。
使用 pip 安装:
pip install crawl4ai
使用 Docker 安装:
构建 Docker 镜像并运行:
docker build -t crawl4ai .
docker run -d -p 8000:80 crawl4ai
从 Docker Hub 直接运行:
docker pull unclecode/crawl4ai:latest
docker run -d -p 8000:80 unclecode/crawl4ai:latest
Crawl4AI 的使用非常简单,仅需几行代码就能实现强大的功能。以下是使用 Crawl4AI 进行网页数据抓取的示例:
import asyncio
from crawl4ai import AsyncWebCrawler
async def main():
async with AsyncWebCrawler(verbose=True) as crawler:
js_code = ["const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();"]
result = await crawler.arun(
url="https://www.nbcnews.com/business",
js_code=js_code,
css_selector="article.tease-card",
bypass_cache=True
)
print(result.extracted_content)
if __name__ == "__main__":
asyncio.run(main())
Crawl4AI 适合以下场景:
Crawl4AI 是一个功能强大且易用的网页爬虫工具,它为大型语言模型和 AI 应用量身打造,提供了丰富的功能和灵活的配置选项。
从结构化输出到多种提取策略,Crawl4AI 为开发者在数据抓取领域带来了极大的便利。
GitHub:https://github.com/unclecode/crawl4ai