使用Python抓取，requests.get()响应超过27位数字的不完整值

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试使用python抓取购物者的商品信息。在预览和响应中，当我从chrome inspect检查它时，图像显示了完整的值(32位)。但是当我从requests.get()获得响应值时，这个值只显示了27位数字。在预览和响应中，'images‘

浏览 49提问于2021-06-07得票数 0

1回答

不完全HTML-在一些使用请求的站点上的响应& BeautifulSoup或Selenium

、、、

我正在使用Python中的请求和BeautifulSoup从一些urls中抓取信息。但是有些站点只返回部分HTML响应，缺少页面的内容。这就是不起作用的代码：from bs4 import BeautifulSoupr = requests.get(url) soup = BeautifulSoup(r.content, &#x

浏览 0提问于2021-01-09得票数 2

回答已采纳

1回答

检查页面内容是否已更改的最好方法？

、、、

我有一个爬虫，可以抓取成千上万的页面，并索引/解析页面的内容，我正在努力的一件事是检查页面的内容是否已经更新，以一种有效的方式，而不必爬行和检查页面的内容。显然，我可以加载整个页面，然后重新解析所有内容，并将其与我存储在数据库中的内容进行比较。然而，这是非常低效的，并且使用了大量的计算，导致了高昂的托管账单。我在考虑比较散列，这样做的问题是，如果页面更改了单个字节或字符，散列就会不同。例如，如果页面显示页面

浏览 1提问于2015-01-28得票数 5

1回答

数据刮取器: div标签的内容为空(??)

、、、、

我正在抓取一个网站上的数据来获取一个数字。这个数字每隔一秒钟就会动态变化，但在检查时，会显示该数字。我只需要捕获这个数字，但是包含这个数字的div包装器不返回值。我遗漏了什么？(请不要对我太苛刻，因为我对Python和数据抓取非常陌生)。我有一些代码可以工作，并返回一段假定包含我想要的数据的html，但一点也不有趣，div包装器没有返回值。im

浏览 22提问于2019-06-22得票数 1

回答已采纳

1回答

遍历javascript对象以查看文本(如python* requests.text)*

、、

我们目前正在尝试将代码从Python网络抓取器转移到Node.js网络抓取器。来源为Pastebin API。抓取时，响应是一个javascript对象，如下所示： [ scrape_url: 'https://scrape.pastebin.com/api_scrape_item.php?脚本使用requests库从Pastebin的API请求数据并访问粘贴的实际主体，除了上面的参数之外，我们还

浏览 19提问于2020-01-29得票数 0

回答已采纳

1回答

验证来自cURL的完整响应

、、

有时，当使用多个并发连接和抓取我的PHP脚本中的cURL时，会返回不完整的网页。curl_getinfo()中有没有一些值可以让我知道一个网页是100%被抓取还是只有90%被抓取？返回页面的内容大小标题是返回内容的实际大小，还是整个页面的大小？如果是这样，我可以根据响应的实际大小检查content-size。谢谢!

浏览 0提问于2013-04-12得票数 0

回答已采纳

2回答

Python requests.get() VS Powershell Invoke-WebRequest -Uri

、

我正在测量我的网站的页面加载时间。我使用了Python的requests.get(url)方法，它偶尔会给我带来巨大的响应时间(12+秒)。但是当我尝试使用PowerShell，Invoke-WebRequest -Uri时，它永远不会超过1秒。r = requests.get</em

浏览 1提问于2016-12-18得票数 0

1回答

你能从网站上刮出一个变化的颜色吗？

、、、

我正在使用beautifulSoup从一个网站上抓取一些值，它可以擦除数字，只是我不能从数字中刮出背景颜色。(背景颜色随值的变化而变化，非常重要) soup = BeautifulSoup(page.text, "l

浏览 1提问于2019-06-12得票数 0

回答已采纳

2回答

Python requests.get仅在我未指定页码时响应

、、

我正在用python抓取web数据，使用的是请求和漂亮的汤。我发现我抓取的网站中有2个只有在我没有指定页码的情况下才会响应。/537.36 (KHTML, like Gecko)} r = requests.get('https://www.milkround.com/jobs/graduate-software-engineertable = soup.

浏览 3提问于2021-06-02得票数 0

1回答

从HTML标记中抓取javascript

、、

我正在尝试从这个网站http://www.smfederation.org.sg/membership/members-directory的所有字母表(Ato Z和0-9)中抓取名字但名字似乎隐藏在href ="javascript:void(0)"中下面是我的代码 import requests url = "http://www.smfederation.org.sg/me

浏览 10提问于2019-12-04得票数 0

回答已采纳

1回答

如何在网站页面的表格上显示抓取的更新数据？

、、、、

我输入这段代码来抓取更新后的数据(数字)。我不知道如何在网站的桌子上展示它们。我知道我应该使用(Django或flask)，但我不知道如何同时使用它们:)。我只想把这些更新后的数字放在桌子上。我在Vs Code上使用HTML和python。下面是我的抓取代码： import requests getpage= r

浏览 11提问于2021-04-16得票数 0

4回答

为什么我不能用Python加载一个Facebook应用程序页面？

、、

我正在设计一个链接抓取程序，它可以抓取给定URL的基本链接预览字段，如页面标题、描述和图像等。到目前为止，我已经有了一个非常好的工作版本，使用了Python库和。大多数url看起来都很完美，但是当我尝试Facebook应用程序的url时，我会得到一个与直接从浏览器访问它不同的HTML响应。我试图了解Facebook应用程序页面是如何向我的浏览器提供某种HTML响应的，以及如何将另一

浏览 2提问于2012-03-15得票数 0

回答已采纳

1回答

为什么此代码中的http-响应的html文件不完整？

、、、

我试图通过使用python和模块“”和"BeautifulSoup“从网站(BeautifulSoup)获取一些数据，但我似乎得到了一个不完整的html文件作为响应。例如，当我用浏览器检查html文件时，我得到的html文件中的表标记与原始html文件相比，在响应代码时缺少行数。所以我的问题是:原因是什么，我怎样才能解决这个问题？下面是我用来在表标记中获取数据的代码：fro

浏览 1提问于2020-12-26得票数 0

回答已采纳

1回答

requests.get() (Python，Requests module)会暂停脚本直到响应到达吗？

、

这个问题是关于Python的请求模块的。 for url in url_list: response = requests.get</e

浏览 0提问于2015-08-29得票数 8

回答已采纳

1回答

UDP bittorrent跟踪器的Python抓取

、

我正在使用Erin Drummond的python脚本来抓取bittorrent tracker ()，但是我在抓取UDP跟踪器时似乎遇到了问题。问题是返回的“完整”数字始终是10或更小。这对我来说似乎不太现实，因为据我所知，这是跟踪器注册了一个torrent的完整下载的次数。我用100d的infohashes进行了测试，以确保这不只是一个巧合。我一直在调整本地网络的缓冲区大小(4096而不是204

浏览 4提问于2013-11-05得票数 4

1回答

无法在代理中打开链接

、

我实际上是使用代理从一些网站抓取数据，但问题是有时一些proy url没有返回任何东西，程序在几次尝试后停止，我需要一些逻辑来克服这个问题，所以即使IP没有响应，程序应该更新IP并再次尝试打开页面，我使用TOR作为python中的代理。这是我的网站开通代码： mainPage = requests.get("http://proxy_IP/?

浏览 4提问于2016-07-27得票数 1

回答已采纳

1回答

超时后继续尝试请求

、

我刚刚开始使用Python来抓取数据。但是我下面的代码在工作期间会冻结，我想这是因为有些url没有响应任何东西；我想如果我再试一次这个url就可以了。我的问题是，如果我只是修改代码，比如reshomee = requests.get(homeUrl，headers=headerss，timeout=10)，那么这个代码在10秒后是否再次尝试这个url，而没有响应？我不禁要问这个问题，因为我不知道如何尝试这段代码，因为url会冻结非常罕见和随机的代码。谢

浏览 2提问于2017-11-23得票数 0

回答已采纳

2回答

使用for循环从多个页面中抓取Web

、、、、

我已经创建了网页抓取工具，从列出的房子中挑选数据。问题是:在这个网页中，最后一个“页面”可以一直不同。例如，如果我的范围是(1-74)，它将多次打印最后一页，因为如果超过最大值，页面总是加载最后一页。

浏览 2提问于2020-12-21得票数 0

1回答

API在浏览器中工作，但在python中不起作用。

、

我是python的新手，我正在从提取的数据中连接API。当使用浏览器或VBA时，API工作得很好，但是当我使用python时，它会返回下面的错误消息： ConnectionError: HTTPSConnectionPool( host ='api.github.com'，port=443)：最大重试超过url: /events (由NewConnectionError引起(‘：未能建立新连接: WinError 10060连接尝试失败，

浏览 0提问于2018-10-16得票数 0

1回答

lxml和xpath:返回“[<0x29a9998>处的元素x]”而不是预期值

、、、

我正在尝试抓取TD Asset Management页面(以下示例；我不能发布超过两个链接)，以便检索“价格原样”值，即此HTML片段中的美元金额：>>> tree = html.fromstring(page.text) 最后，尝试使用从Chrome的"Inspect Element“工具中获得的相关元素<e

浏览 0提问于2015-06-14得票数 1

点击加载更多