腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
是否更容易
抓取
AMP版本的网页?
、
、
、
、
我知道AMP协议要求Javascript的精简版本,我也知道Javascript (在一定程度上)使网站管理员能够检测/防止
抓取
。因此,从逻辑上讲,我认为
抓取
AMP网站会更容易一些。
浏览 11
提问于2019-04-08
得票数 0
1
回答
如何在使用BeautifulSoup浏览网页时提取javascript中的
内容
、
、
、
我在某处读到BS只解析HTML
内容
,而不解析
JS
部分。我该怎么做呢?要快速遍历,请查找我想要
抓取
的ModuleId 372309。谢谢!! <script type="text/javascript" src="//www.walmart.com/c/midas/hl.
js
"></script"
浏览 2
提问于2014-04-13
得票数 0
1
回答
从html页面不显示数据的url读取数据
、
r = s.get(link) print(soup.prettify()) 但是我看不到网页的
内容
浏览 1
提问于2020-02-05
得票数 0
1
回答
在
Python
中爬行网页并调用javascript函数
、
、
、
、
我需要
抓取
一个网站,然而,它的
内容
是动态的。
Python
中有没有可以调用
js
函数的包?例如,假设我在
JS
中有一个链接和
JS
函数1、2和3,我应该在该网页上调用,并且在所有
JS
函数调用之后我需要最终的网页。
浏览 16
提问于2019-02-12
得票数 0
1
回答
在
python
中浏览/解析html页面
、
、
、
、
我正在使用
Python
3,到目前为止,我有Request用于简单的网页加载、自定义get和post消息,BeautifulSoup用于解析HTML树,我正在考虑尝试机械化来进行简单的网页交互。是否有某种集合的地方,所有的
Python
库挂起?因为我有时会发现很难找到我要找的东西。
浏览 3
提问于2014-04-17
得票数 1
回答已采纳
2
回答
将
Python
脚本连接到Nodejs
、
完成Node.
js
新手入门。最近,我接到一个任务,用
python
在web上
抓取
一个网站,然后使用Node.
js
中的
python
-shell包将
python
脚本连接到Node.
js
。我已经完成了
抓取
部分,但对Node.
js
没有任何先验知识。你能指导我如何解决这个问题吗?
浏览 0
提问于2020-01-07
得票数 0
2
回答
使用
Python
通过AJAX
抓取
网页
、
、
我知道使用
Python
的Beautiful Soup
抓取
HTML的基础知识。但是,页面会进行AJAX调用,以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用
python
来“
抓取
”这些信息?我需要什么工具,除了HTML我还应该知道什么?(我目前正在阅读有关JavaScript和AJAX的文章)。更新:几天后,我提出了一个在
Python
语言中结合使用Selenium和PhantomJS的解决方案。基本上,我使用Selenium转到每个链接,等待页面加载,然后
抓
浏览 0
提问于2013-11-02
得票数 0
1
回答
抓取
网站未返回正确的源代码
、
、
、
我正在尝试用
Python
抓取
一个quizlet匹配集。我想用class:TermText
抓取
所有的<span>标签import requestsraw最终返回的
内容
根本不包含任何标签或卡片当我检查网站的源代码时,它显示了我需要的所有TermText跨度,这意味着它不是
JS
加载的。因此,我不明白为什么我的HTML是错误的,因为它没有包含任何我需要的html。
浏览 18
提问于2020-07-31
得票数 1
回答已采纳
2
回答
使用
Python
抓取
Javascript
、
、
、
、
我需要从以下网站
抓取
等待时间: 对我来说,Selenium看起来有点过头了,因为我不需要单击任何东西-
内容
加载,只是不是直接在我可以
抓取
的HTML中。PhantomJS需要用
JS
编写,我读到人们在将其移植到亚马逊网络服务或非图形用户界面服务器时遇到了问题。 我见过Ghost.py,它看起来和BS4兼容,所以可能是最简单
浏览 2
提问于2014-02-23
得票数 0
1
回答
Selenium不工作在服务器上,因为它在本地机器上工作。
、
、
、
我最近完成了Selenium
Python
刮板。当我在我的个人机器上运行它时,它运行的非常好,但是当我在服务器上运行它时,结果是不一样的。display = Display(visible=0, size=(800, 600))在本地机器上运行时,它完全
抓取
了由JavaScript生成的HTML,但当我在服务器上运行它时,它没有
抓取
JavaScript生成的HTML
内容
,因此我只得到了一个不包含任何
JS
生成
内容
的部分页面。屏幕截图显示页面被部分加载,<e
浏览 5
提问于2016-06-15
得票数 3
1
回答
使用Scrapy和
Python
抓取
JS
生成的
内容
、
有一个网页是用
JS
:生成的默认情况下,scrapy只获取超文本标记语言,而不执行
JS
。我怎样才能改变它?
浏览 14
提问于2018-01-16
得票数 0
回答已采纳
1
回答
运行一个Flask服务器是否可以防止Node.
JS
中的web
抓取
?
、
、
、
我有兴趣尝试一个网络
抓取
项目。目标站点使用Javascript动态加载和更新
内容
。大多数在线讨论都表明,在尝试这样一个项目时,node.
js
、casper.
js
、phantom.
js
和nightmare.
js
都是相当流行的工具。Node.
js
似乎是最常用的。如果我正在运行一个烧瓶服务器,并且希望显示一个node.
js
的结果,例如,在我的站点上以表格格式刮擦,这是可能的吗?我会遇到兼容性问题吗?或者,为了保持一致性,我应该尝试使用基于
python
浏览 6
提问于2017-04-19
得票数 0
回答已采纳
1
回答
selenium.common.exceptions.WebDriverException:消息: TypeError: p[0]未定义
、
、
我正在尝试开发一个网络
抓取
工具。我有一个
python
脚本和一个javascript code.
Python
脚本调用javascript代码。我的javascript代码从网页中检索相关
内容
。并将该
内容
返回给
python
脚本。当我们在浏览器上手动运行Javascript代码时,它运行得很好。代码:
js
= open("generalized.
js
", "r&qu
浏览 20
提问于2017-12-13
得票数 0
2
回答
BeautifulSoup web
抓取
,无结果
、
、
我在试着从https://hk.appledaily.com/search/apple..。我需要从div class="flex-feature"但它只返回[]..。希望大家能帮忙,谢谢! from bs4 import BeautifulSoup results = soup.find_all(
浏览 40
提问于2020-10-06
得票数 2
回答已采纳
2
回答
Python
3网络
抓取
问题(关于
JS
)
、
、
我很纠结于尝试
抓取
一个网站(使用
Python
/Selenium),其中包含部分
JS
构建的链接和
内容
。在我的例子中,我想要获取的链接如下:{{link_ID}}def URL_from_
JS
(URL): print(new_URL) #for testing reasons driv
浏览 2
提问于2016-04-12
得票数 2
5
回答
LinkedIn网络
抓取
、
、
、
是否有人知道适用于LinkedIn站点当前格式的任何web
抓取
工具或技术,或者如何弯曲API以进行更灵活的分析?最好是基于R或网络,但肯定对其他方法开放。
浏览 0
提问于2015-05-13
得票数 11
回答已采纳
1
回答
Python
抓取
动态
内容
、
、
、
我一直在努力搜索kith.com搜索结果,但是我得到了基本的示例代码。尝试使用scrapy、requests和selenium,但我没有设法使它们工作。from requests_html import HTMLSession r = session.get("https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created") print(r) 据我所见,render
浏览 3
提问于2020-02-07
得票数 0
回答已采纳
1
回答
python
抓取
ajax
内容
、
、
我想分析网站的利率,但我不能从<td>元素中提取数据。from selenium import webdriver driver.get('https://www.gpw.pl/wskazniki_spolek_full')print table driv
浏览 1
提问于2017-04-03
得票数 1
3
回答
从
Python
控制浏览器
、
、
、
、
我正在寻找一种从
Python
控制浏览器的方法,即填写表单字段并提交它们,可能会调用
JS
函数。我看了一下,但据我所知,PyWebKitGtk只允许你将浏览器显示为图形用户界面元素,而不是界面。我用
Python
编写了我的程序逻辑,我不想把它移植到
JS
。除此之外,即使我使用纯
JS
“bookmarklet”,它们也不能读/写我的本地文件系统,不是吗?此外,页面上的一些
内容
是使用AJAX生成的,所以我正在寻找一种解决方案,让javascript正常运行。我需要为我的研究项目
抓取<
浏览 0
提问于2010-06-14
得票数 2
回答已采纳
1
回答
从带有角
JS
标记(如ng-view )的web获取文本。
、
、
、
、
然而,我观察到的scrapy只适用于div、body、head等HTML标记,而不适用于角形
js
标记(如ng-view ),如果在ng-view标记中有任何元素,当我对页面进行右键单击并执行查看源时,标签内的
内容
就不会出现,它会显示为<ng-view> </ng-view>,所以我如何使用
python
预先在这个ng-view tags.Thanks中废弃元素。
浏览 1
提问于2015-06-05
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python项目实战:抓取大型网站JS特效模板
python爬虫:散文网站内容抓取实战案例附源码
Python爬虫学习:抓取电影网站内容的爬虫
Python多进程方式抓取基金网站内容的方法分析
用Python抓取百度翻译内容并打造自己的翻译脚本!
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券