腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3698)
视频
沙龙
1
回答
使用
Python
抓取
,
requests.get
()
响应
超过
27位
数字
的
不完整
值
、
、
、
、
我正在尝试
使用
python
抓取
购物者
的
商品信息。在预览和
响应
中,当我从chrome inspect检查它时,图像显示了完整
的
值
(32位)。但是当我从
requests.get
()获得
响应
值
时,这个
值
只显示了27位
数字
。在预览和
响应
中,'images‘
浏览 49
提问于2021-06-07
得票数 0
1
回答
不完全HTML-在一些
使用
请求
的
站点上
的
响应
& BeautifulSoup或Selenium
、
、
、
我正在
使用
Python
中
的
请求和BeautifulSoup从一些urls中
抓取
信息。但是有些站点只返回部分HTML
响应
,缺少页面的内容。这就是不起作用
的
代码:from bs4 import BeautifulSoupr =
requests.get
(url) soup = BeautifulSoup(r.content,
浏览 0
提问于2021-01-09
得票数 2
回答已采纳
1
回答
检查页面内容是否已更改
的
最好方法?
、
、
、
我有一个爬虫,可以
抓取
成千上万
的
页面,并索引/解析页面的内容,我正在努力
的
一件事是检查页面的内容是否已经更新,以一种有效
的
方式,而不必爬行和检查页面的内容。显然,我可以加载整个页面,然后重新解析所有内容,并将其与我存储在数据库中
的
内容进行比较。然而,这是非常低效
的
,并且
使用
了大量
的
计算,导致了高昂
的
托管账单。我在考虑比较散列,这样做
的
问题是,如果页面更改了单个字节或字符,散列就会不同。例如,如果页面显示页面
浏览 1
提问于2015-01-28
得票数 5
1
回答
数据刮取器: div标签
的
内容为空(??)
、
、
、
、
我正在
抓取
一个网站上
的
数据来获取一个
数字
。这个
数字
每隔一秒钟就会动态变化,但在检查时,会显示该
数字
。我只需要捕获这个
数字
,但是包含这个
数字
的
div包装器不返回
值
。我遗漏了什么?(请不要对我太苛刻,因为我对
Python
和数据
抓取
非常陌生)。 我有一些代码可以工作,并返回一段假定包含我想要
的
数据
的
html,但一点也不有趣,div包装器没有返回
值
。im
浏览 22
提问于2019-06-22
得票数 1
回答已采纳
1
回答
遍历javascript对象以查看文本(如
python
requests.text)
、
、
我们目前正在尝试将代码从
Python
网络
抓取
器转移到Node.js网络
抓取
器。来源为Pastebin API。
抓取
时,
响应
是一个javascript对象,如下所示: [ scrape_url: 'https://scrape.pastebin.com/api_scrape_item.php?脚本
使用
requests库从Pastebin
的
API请求数据并访问粘贴
的
实际主体,除了上面的参数之外,我们还
浏览 19
提问于2020-01-29
得票数 0
回答已采纳
1
回答
验证来自cURL
的
完整
响应
、
、
有时,当
使用
多个并发连接和
抓取
我
的
PHP脚本中
的
cURL时,会返回
不完整
的
网页。curl_getinfo()中有没有一些
值
可以让我知道一个网页是100%被
抓取
还是只有90%被
抓取
?返回页面的内容大小标题是返回内容
的
实际大小,还是整个页面的大小?如果是这样,我可以根据
响应
的
实际大小检查content-size。 谢谢!
浏览 0
提问于2013-04-12
得票数 0
回答已采纳
2
回答
Python
requests.get
() VS Powershell Invoke-WebRequest -Uri
、
我正在测量我
的
网站
的
页面加载时间。我
使用
了
Python
的
requests.get
(url)方法,它偶尔会给我带来巨大
的
响应
时间(12+秒)。但是当我尝试
使用
PowerShell,Invoke-WebRequest -Uri时,它永远不会
超过
1秒。r =
requests.get</em
浏览 1
提问于2016-12-18
得票数 0
1
回答
你能从网站上刮出一个变化
的
颜色吗?
、
、
、
我正在
使用
beautifulSoup从一个网站上
抓取
一些
值
,它可以擦除
数字
,只是我不能从
数字
中刮出背景颜色。(背景颜色随
值
的
变化而变化,非常重要) soup = BeautifulSoup(page.text, "l
浏览 1
提问于2019-06-12
得票数 0
回答已采纳
2
回答
Python
requests.get
仅在我未指定页码时
响应
、
、
我正在用
python
抓取
web数据,
使用
的
是请求和漂亮
的
汤。我发现我
抓取
的
网站中有2个只有在我没有指定页码
的
情况下才会
响应
。/537.36 (KHTML, like Gecko)} r =
requests.get
('https://www.milkround.com/jobs/graduate-software-engineertable = soup.
浏览 3
提问于2021-06-02
得票数 0
1
回答
从HTML标记中
抓取
javascript
、
、
我正在尝试从这个网站http://www.smfederation.org.sg/membership/members-directory
的
所有字母表(Ato Z和0-9)中
抓取
名字 但名字似乎隐藏在href ="javascript:void(0)"中 下面是我
的
代码 import requests url = "http://www.smfederation.org.sg/me
浏览 10
提问于2019-12-04
得票数 0
回答已采纳
1
回答
如何在网站页面的表格上显示
抓取
的
更新数据?
、
、
、
、
我输入这段代码来
抓取
更新后
的
数据(
数字
)。我不知道如何在网站
的
桌子上展示它们。我知道我应该
使用
(Django或flask),但我不知道如何同时
使用
它们:)。我只想把这些更新后
的
数字
放在桌子上。我在Vs Code上
使用
HTML和
python
。下面是我
的
抓取
代码: import requests getpage=
r
浏览 11
提问于2021-04-16
得票数 0
4
回答
为什么我不能用
Python
加载一个Facebook应用程序页面?
、
、
我正在设计一个链接
抓取
程序,它可以
抓取
给定URL
的
基本链接预览字段,如页面标题、描述和图像等。到目前为止,我已经有了一个非常好
的
工作版本,
使用
了
Python
库和。大多数url看起来都很完美,但是当我尝试Facebook应用程序
的
url时,我会得到一个与直接从浏览器访问它不同
的
HTML
响应
。我试图了解Facebook应用程序页面是如何向我
的
浏览器提供某种HTML
响应
的
,以及如何将另一
浏览 2
提问于2012-03-15
得票数 0
回答已采纳
1
回答
为什么此代码中
的
http-
响应
的
html文件
不完整
?
、
、
、
我试图通过
使用
python
和模块“”和"BeautifulSoup“从网站(BeautifulSoup)获取一些数据,但我似乎得到了一个
不完整
的
html文件作为
响应
。例如,当我用浏览器检查html文件时,我得到
的
html文件中
的
表标记与原始html文件相比,在
响应
代码时缺少行数。所以我
的
问题是:原因是什么,我怎样才能解决这个问题?下面是我用来在表标记中获取数据
的
代码:fro
浏览 1
提问于2020-12-26
得票数 0
回答已采纳
1
回答
requests.get
() (
Python
,Requests module)会暂停脚本直到
响应
到达吗?
、
这个问题是关于
Python
的
请求模块
的
。 for url in url_list: response =
requests.get</e
浏览 0
提问于2015-08-29
得票数 8
回答已采纳
1
回答
UDP bittorrent跟踪器
的
Python
抓取
、
我正在
使用
Erin Drummond
的
python
脚本来
抓取
bittorrent tracker (),但是我在
抓取
UDP跟踪器时似乎遇到了问题。问题是返回
的
“完整”
数字
始终是10或更小。这对我来说似乎不太现实,因为据我所知,这是跟踪器注册了一个torrent
的
完整下载
的
次数。我用100d
的
infohashes进行了测试,以确保这不只是一个巧合。我一直在调整本地网络
的
缓冲区大小(4096而不是204
浏览 4
提问于2013-11-05
得票数 4
1
回答
无法在代理中打开链接
、
我实际上是
使用
代理从一些网站
抓取
数据,但问题是有时一些proy url没有返回任何东西,程序在几次尝试后停止,我需要一些逻辑来克服这个问题,所以即使IP没有
响应
,程序应该更新IP并再次尝试打开页面,我
使用
TOR作为
python
中
的
代理。这是我
的
网站开通代码: mainPage =
requests.get
("http://proxy_IP/?
浏览 4
提问于2016-07-27
得票数 1
回答已采纳
1
回答
超时后继续尝试请求
、
我刚刚开始
使用
Python
来
抓取
数据。但是我下面的代码在工作期间会冻结,我想这是因为有些url没有
响应
任何东西;我想如果我再试一次这个url就可以了。我
的
问题是,如果我只是修改代码,比如reshomee =
requests.get
(homeUrl,headers=headerss,timeout=10),那么这个代码在10秒后是否再次尝试这个url,而没有
响应
?我不禁要问这个问题,因为我不知道如何尝试这段代码,因为url会冻结非常罕见和随机
的
代码。谢
浏览 2
提问于2017-11-23
得票数 0
回答已采纳
2
回答
使用
for循环从多个页面中
抓取
Web
、
、
、
、
我已经创建了网页
抓取
工具,从列出
的
房子中挑选数据。问题是:在这个网页中,最后一个“页面”可以一直不同。例如,如果我
的
范围是(1-74),它将多次打印最后一页,因为如果
超过
最大
值
,页面总是加载最后一页。
浏览 2
提问于2020-12-21
得票数 0
1
回答
API在浏览器中工作,但在
python
中不起作用。
、
我是
python
的
新手,我正在从提取
的
数据中连接API。当
使用
浏览器或VBA时,API工作得很好,但是当我
使用
python
时,它会返回下面的错误消息: ConnectionError: HTTPSConnectionPool( host ='api.github.com',port=443):最大重试
超过
url: /events (由NewConnectionError引起(‘:未能建立新连接: WinError 10060连接尝试失败,
浏览 0
提问于2018-10-16
得票数 0
1
回答
lxml和xpath:返回“[<0x29a9998>处
的
元素x]”而不是预期
值
、
、
、
我正在尝试
抓取
TD Asset Management页面(以下示例;我不能发布
超过
两个链接),以便检索“价格原样”
值
,即此HTML片段中
的
美元金额:>>> tree = html.fromstring(page.text) 最后,尝试
使用
从Chrome
的
"Inspect Element“工具中获得
的
相关元素<e
浏览 0
提问于2015-06-14
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券