首页
学习
活动
专区
圈层
工具
发布

#爬虫

网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

【2025/07/02】GitHub 今日热门项目

用户9613193

🥇 人气王: microsoft / generative-ai-for-beginners └─ 88.3K stars | Jupyter Noteboo...

1600

【2025/07/03】GitHub 今日热门项目

用户9613193

🥇 人气王: mrdoob / three.js └─ 107.1K stars | JavaScript 项目

3200

【2025/07/04】GitHub 今日热门项目

用户9613193

🥇 人气王: mrdoob / three.js └─ 107.3K stars | JavaScript 项目

2000

GEO教科书都在推荐的llms.txt,为什么大模型爬虫根本不读?

仙踪问道

llms.txt是由Answer.AI联合创始人Jeremy Howard于2024年9月提出的一个Markdown格式文件,放在网站根目录(如 https:/...

1600

A股投资助手|行业研报 爬虫 实时行情 智能对话分析 实战分享 A股研报整合工具、股票行情分析系统、投资数据知识库、A股智能助手、行业研究报告平台

代码简单说

A股研报整合工具、股票行情分析系统、投资数据知识库、A股智能助手、行业研究报告平台

2300

2016-2025年所有安卓微信安装包历史版本,从微信5.2-8.0全整理了!

代码简单说

我用的是当年老牌安卓应用市场:豌豆荚,它的老版本中心还在,并且保留了原始签名的官方 APK 包。我通过自动爬虫脚本拉取后,手动整理重命名。

2600

用Python爬下2025中国大学排名,我才发现985也有层次

代码简单说

上周末我在刷B站的时候,看到一个up主讲“985也有鄙视链”时信誓旦旦地列出了中国大学的排名,我当时心里嘀咕了一下:他说的靠谱吗?正好我最近在学 Python ...

2210

Python爬虫自动切换代理IP完整代码模板

永不掉线的小白

爬虫自动换代理IP的逻辑特别简单:准备一批可用代理IP → 每次请求随机挑一个用 → 自动检测IP能不能用 → 删掉失效IP、补充新IP。全程自动化,不用手动干...

4310

亚马逊 AI Agent 数据质量优化实践:从数据管道角度解决 AI 决策失准问题

Devnullcoffee

企业在构建亚马逊 AI Agent 时,往往面临一个令人沮丧的现象:接入了 GPT-4 或 Claude 等顶级大语言模型,系统提示词经过反复打磨,Agent ...

5510

在Java中使用XxlCrawler时防止被反爬的几种方式

夜郎King

通过以上的配置大体可以实现一个使用了代理模式访问目标的XxlCrawler。除了待用IP代理池的方式,还可以通过组建爬虫集群,通过分布式来进行批量抓取,这样分散...

5600

Python爬虫代理IP设置大全:requests、aiohttp、selenium主流库实操指南

永不掉线的小白

爬虫开发中,代理IP是解决IP封禁、高频访问限流、地域访问限制的核心手段。很多新手在实操时,常会出现代理配置无效、连接超时、隐私泄露、异步请求代理不生效等问题,...

11710

62K Star 登顶 GitHub——Crawl4AI 为什么是 LLM 时代的爬虫标准答案

智能时代蛮子

LLM 应用(RAG、Agent、数据标注)需要大量高质量网页数据,但现有爬虫工具(Scrapy、BeautifulSoup)输出的是 HTML/JSON,需要...

15300

从零搭建专属代理IP池(零基础完整实战教程)

永不掉线的小白

代理IP池能够批量抓取、校验、存储并轮换可用代理IP,有效解决爬虫开发、接口测试、多账号运营等场景中常见的IP封禁、访问限流问题。自建代理IP池具备免费可控、灵...

11910

大规模数据采集避坑指南:住宅代理IP轮换+会话管理完整落地配置

永不掉线的小白

做大规模爬虫和批量数据采集,最头疼的问题无非是:429限流、频繁验证码、IP成片封禁、会话乱跳漏数据。多数情况并不是代码并发逻辑有问题,而是代理IP质量差、IP...

7610

【AI 逆向专栏】AI 新探索:拆解某里 234 混淆

K哥爬虫

本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一...

14810

bb-browser-你的浏览器就是 API(不需要密钥,不需要爬虫,不需要模拟)

wangmcn

做过网页自动化、AI Agent 开发的人,大多都有过这样的经历:用 Selenium/Playwright 写的脚本,好不容易搞定了登录,却被网站的反爬机制频...

18710

告别手动切换IP:动态住宅代理自动化调度方案(附Python实战代码)

永不掉线的小白

在网络爬虫、公开数据采集、跨境站点监测、舆情抓取等场景中,IP封禁、访问限流、会话失效是开发与运维人员高频遇到的问题。多数新手开发者会采用手动切换IP、固定定时...

14010
领券