首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >java怎样爬取js动态请求的数据?

java怎样爬取js动态请求的数据?

提问于 2020-04-28 10:11:07
回答 1关注 0查看 261

动态加载的数据获取不到(cd.fangfaxian.com)

回答 1

大Hero

发布于 2025-06-26 06:58:09

遇到Java爬虫抓取JS动态请求数据的问题,其实很多同学都有类似困扰。大部分网页数据直接在HTML里就能拿到,但有些网站(比如你说的cd.fangfaxian.com)用JS动态加载内容,导致你用常规的HttpClient或Jsoup只能拿到空壳页面。

通常解决思路有两个:一种是用浏览器自动化工具,比如Selenium,可以模拟完整的浏览器行为,等页面JS渲染完再获取数据;另一种是通过分析网页的网络请求,找到数据实际加载的接口(比如XHR或Fetch请求),直接用Java发起同样的HTTP请求获取数据,这样效率更高。

如果你发现请求接口还被反爬,比如IP封禁或参数校验,可以考虑配合一些高质量的代理IP服务辅助抓取,比如亮数据这样的工具,可以帮助突破IP限制和部分风控,让你更顺利拿到目标数据。这样组合用起来,采集动态数据会轻松很多。

和开发者交流更多问题细节吧,去 写回答
相关文章
Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]
在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子。
全栈程序员站长
2022/07/18
2.2K0
Java爬虫系列四:使用selenium-java爬取js异步请求的数据[通俗易懂]
018:websocket实时动态数据爬取
Web 领域中,用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。
李玺
2021/11/22
1.9K0
018:websocket实时动态数据爬取
爬取千万条基金数据是怎样的体验?
昨天的文章《我用 Python 预测了股票价格》中就提了一嘴,最近爬了一些股票和基金数据。
朱小五
2020/07/16
1.6K0
爬虫系列(16)Scrapy 框架-爬取JS生成的动态页面。
有的页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得
野原测试开发
2019/07/10
5.5K0
爬取简书用户的动态
0 前言 我在简书关注的一位大佬发了一篇文章,文章大意是一个简书用户假意约稿,其实是想让别人关注微信公众号,大佬写代码去爬取该用户的动态,发现该用户真的是在骗人。 具体细节请看文章:https://www.jianshu.com/p/35a85ee14f7b 我把大佬的代码复制到本地运行,发现没有把第一页的动态保存下来,于是添加了一点点代码把代码完善了一下。 1 环境说明 Win10 系统下 Python3,编译器是 Pycharm,需要安装 requests、lxml这两个包。 这里只介绍 Pycha
伪君子
2018/07/12
6390
Java实现爬取京东手机数据
最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上。项目没什么太难的地方,就是考验你对HTML源码的解析,层层解析,同标签选择器seletor进行元素筛选,再结合HttpCLient技术,成功把手机数据爬取下来。
呆呆
2021/10/08
1.1K0
武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态
5、其他的信息可以爬取也可以不爬取,看情况吧,如果有需要的话,可以在文章底部留言,我会另外更新上去
小小鱼儿小小林
2020/06/24
1.2K0
武汉疫情系列(1)|java爬取丁香园|JAVA爬取丁香医生的全国新型肺炎疫情实时动态
神箭手js爬取房天下
/* 神箭手云_爬虫开发 支持原生JavaScript 开发教程:http://docs.shenjian.io/develop/crawler/doc/concept/crawler.html */ var configs = { domains: ["fang.com"], // scanUrls: ["https://xinshikongguojigongyu.fang.com/office/xiangqing/"], scanUrls: [], contentUrlRegexes: [/https:\/\/.*/], //内容页url正则 helperUrlRegexes: [/https:\/\/.*/], //列表页url正则 可留空 autoFindUrls: false, enableJS: true,
用户2337871
2019/12/20
2.9K0
Python学习笔记(四) 爬取网站数据(静态,动态)
Python学习笔记(四) 爬取网站数据(静态,动态) 1. 知识点 threading :python3版本之后的新线程函数 requests: 自带函数,用于请求网络地址 os: 自带函数,用于操作文件相关 openpyxl: 开源第三方的excel导出的库,需要手动下载pip install openpyxl BeautifulSoup:html 代码美化工具 2. 基本函数的使用 2.1 网站静态数据爬取(需要熟悉h5标签元素选择器) 访问网站之后通过页面审查元素的方式,查看Element部分
java攻城狮
2020/10/10
7950
nodejs通过动态代理爬取招聘网数据
关于爬虫,主流技术是用python,然而随着node的出现,那些对python了解有限的前端同学,用node来实现一个爬虫也不失为一个不错的选择。
小白学大数据
2023/04/18
4290
APP数据爬取
所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器
花落花相惜
2021/12/05
1.2K0
Java实现简单爬虫——爬取疫情数据
        在项目中使用到了jsoup和fastjson jsoup用于创建一个连接(绘画) 用于获取和解析HTML页面
陶然同学
2023/02/24
6240
Java实现简单爬虫——爬取疫情数据
爬取千千音乐动态传输内容
对于千千音乐的首页的歌单进行爬取,创建以歌单为名字的文件夹并且下载歌单内的所有歌曲保存至本地
小小咸鱼YwY
2019/07/24
7020
使用 Scrapy + Selenium 爬取动态渲染的页面
在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值. 本文分享scrapy的介绍和如何配合selenium实现动态网页的爬取。
霍格沃兹测试开发Muller老师
2022/06/06
2.2K0
Node.js 爬取网页图片
利用 Node.js 爬取一个网页,通过第三方模块 cheerio.js 分析这个网页的内容,最后将这个网页的图片保存在本地。
conanma
2022/01/05
4.8K0
使用 Scrapy + Selenium 爬取动态渲染的页面
在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值. 本文分享scrapy的介绍和如何配合selenium实现动态网页的爬取。
霍格沃兹测试开发Muller老师
2022/12/29
1.7K0
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据 一、项目Maven环境配置 相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.2.RELEASE</version> </parent> <properties> <java.version>1.8</java.version> <
呆呆
2021/10/08
7920
爬取公主连结Re:Dive官方动态
游戏资讯QQbot,涉及到了很多关于爬虫,接口,Json,SQL数据库,Java Spring,Maven,GitLab的使用和小知识点。
杨丝儿
2022/03/20
4600
爬取公主连结Re:Dive官方动态
网络爬虫 | 动态渲染信息爬取--Ajax
在许多网页上显示数据并不是服务端一次性返回,而是向服务器单独发送一个或多个异步请求,服务端才会返回JSON格式数据信息。
数据STUDIO
2021/06/24
7690
Python爬虫(二十)_动态爬取影评信息
本案例介绍从JavaScript中采集加载的数据。更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import time import json #数据下载器 class HtmlDownloader(object): def download(self, url, params=None): if url is None: return None
用户1174963
2018/01/17
1.1K0

相似问题

怎样在不使用API的前提下爬取Twitter数据?

2828

使用python爬取Reddit数据出现错误?

1144

基于Python的股票数据爬取?

1259

如何用python爬取数据并保存到excel?

2405

您好请问爬取新浪新闻的API 具体在哪里?我想爬取娱乐板块的?

2327
交个朋友
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维工作实战群
高并发系统设计 运维自动化实践
加入[架构及运维] 腾讯云技术交流站
云架构设计 云运维最佳实践
换一批
相关问答用户
五八同城 | Java程序员擅长2个领域
懂车帝 | Java开发擅长1个领域
腾讯云 | 产品运营
科大讯飞 | 资深系统架构师擅长4个领域
擅长1个领域
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档