使用BeautifulSoup进行网页抓取似乎访问了错误的页面

、、、

我一直试图将网络抓取作为一个小项目。我正在尝试访问网页上的产品，并打印出它们已售出的次数。我的代码：import requests as req links = soup.find_all() print(link.get(

浏览 5提问于2019-08-02得票数 0

1回答

抓取aspx页面的Python代码是什么？

、、、、

我的要求是将mcode传递给下面的web aspx查询，然后将结果网页打印到pdf。在上面的url中，唯一的变量是99999。因此，我的目标是每次传递mcode，然后将生成的aspx页面打印为pdf。请原谅我的简体语言，因为我对此还不熟悉。

浏览 2提问于2020-03-18得票数 0

1回答

如何通过Python使用urllib和re检索实时价格数据

、

我试图从请求价格数据，但我遇到了与类似的问题，价格数据本身不是html的一部分。因此，当我运行基本的urllib代码来提取数据时：url = 'https://www.dukascopy.com' headers = {'User-Agent回到，用户Mark找到了另一个从中调用数据的url。这也可以用来收集这里的数据吗？

浏览 5提问于2016-12-31得票数 3

1回答

有没有可能用代码自动向下滚动网页？

、、、

我正在为一个特定的网页做网页抓取，我注意到我的代码只抓取了只显示第一个滚动的部分。当进一步向下滚动时，页面会自动显示更多信息。下面是似乎控制这种算法的代码。some_links_here" title="Go to next page" rel="next">Load More</a>

浏览 1提问于2019-10-31得票数 0

1回答

在使用servlet的页面上使用requests.get()

、、、

我正在尝试使用Python语言中的requests库和BeautifulSoup从下面的网页中抓取数据。不幸的是，该网站似乎使用servlet来检索数据，我不太确定如何处理它。我已经尝试了直接从结果页面进行两种查询： http://a810-bisweb.nyc.gov/bisweb/PropertyProfileOverviewServlet?bin=1014398&

浏览 13提问于2020-11-05得票数 0

回答已采纳

1回答

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

、、

为了提取我需要的文本，我能够在我的条件执行中使用Beautifulsoup的find_next_sibling来刮除大部分的网页。但是，对于一个特定的页面，网页是空的，因此Python报告了错误：由于空页似乎是由我计划抓取的</e

浏览 6提问于2015-10-29得票数 1

回答已采纳

1回答

使用find在python中抓取单个html表

、、、

我是python的新手，正在尝试从网页上抓取一个表格。我已经通过Chrome中的"inspect“访问了html。网页在这里： import bs4from bs4 import BeautifulSoup as soup= uClient.read() #perform html parsing

浏览 0提问于2017-11-16得票数 0

1回答

有没有办法像Facebook那样在自扩展页面上使用BeautifulSoup？

、、、

当你接近底部时，一些网页可能会通过ajax扩展，Facebook就是一个众所周知的例子。我特别感兴趣的是截屏电影的电影列表页面。它确实有一个结尾，但当你向下滚动时，你可以看到它在添加电影。有没有办法使用BeautifulSoup来获取页面上的所有内容？

浏览 18提问于2018-08-24得票数 0

3回答

无法使用BeautifulSoup抓取数据

、、、

我正在使用Selenium登录到网页，并获得网页进行抓取，我能够获得该页面。我已经在html中搜索了我想要抓取的表。table cellspacing="0" class=" tablehasmenu table hoverable sensors" id="table_devicesensortable"> 脚本是这样的：rawpage=driver.page_sou

浏览 0提问于2018-02-21得票数 1

1回答

我有一个Google表，它使用=IMPORTXML函数从网站中获取数据。我还有一个Python脚本，它可以从Google表中获取数据。整件事都起作用了，但我现在正试着精简它。这整件事是从谷歌单张的手工过程开始的。它现在是自动化的，但它不漂亮。1)使用Python抓取网站的最佳方法是什么？我想让这一切都在一个脚本中运行。像这样的东西会是一个好的解决方案吗？ 2)目前，对google的查询被编码为单独运

浏览 1提问于2018-01-22得票数 0

1回答

网络抓取:没有使用BeautifulSoup(page.content，'html.parser')返回正确的内容

、、

我试图从AJIO网站上进行抓取，但Python获取的内容似乎与我在检查确切网页的元素时看到的内容不完全相同。在后端创建HTML页面的页面上似乎存在某种java代码，但是当我尝试用Python获取页面内容时，它会向我展示java代码，而不是确切的HTML页面。有人能对此提出解决方案吗？下面是我正在使用的代码。在下面的代码中，我在最

浏览 8提问于2021-12-28得票数 0

回答已采纳

3回答

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

、、、

有没有一种简单的方法来抓取谷歌，并为给定的搜索写出前N个(比如说1000个) .html (或其他任何)文档的文本(只是文本)？举个例子，想象一下搜索短语“大灰狼”，只下载前1000个点击量中的文本--也就是说，实际上是从这1000个网页中下载文本(但只下载那些页面，而不是整个网站)。我假设这将使用urllib2库？如果有帮助的话，我会使用Python 3.1。

浏览 2提问于2011-03-16得票数 10

回答已采纳

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的抓取<em

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

BS4返回到Cloudflare网站，而不是实际的网站

、、、

这是我的代码。这是有效的，但当代码打印时，它会打印DDOS攻击网站，而不是加载之后的网站。我甚至尝试做一个time.sleep(5)来帮助计时。我怎么才能克服这一点。import requestsimport time url = 'https://www.psacard.com/cert/49628062User-Agent': 'Mozilla/5.0 (X11; Ubun

浏览 26提问于2021-01-15得票数 0

1回答

BeautifulSoup4返回错误的超文本标记语言？

、、

我正在尝试使用Beautifulsoup在Indeed.com上通过网络抓取招聘信息。但是，当我抓取URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同。这会导致我的应用程序获得一些不在我试图抓取的网页上的招聘信息。我已经检查了BeautifulSoup在变量"soup“中返回的HTML代码(见

浏览 0提问于2019-07-10得票数 2

1回答

使用python从urls列表中进行Web抓取

、

我正在试着从列表中剔除一些房地产网站的列表。我写了一些简单的代码来从一个url获取数据，但是当我尝试使用列表'url1'，'url2‘时，我什么也得不到。我也在尝试csv列表，但我仍然一无所获。“”“import requestsfrom bs4 import BeautifulSoup url = 'https://www.zillow.com61.0.3163.100 Safari/

浏览 0提问于2020-02-26得票数 0

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

、、、

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了

浏览 19提问于2019-03-25得票数 1

回答已采纳

1回答

使用BeautifulSoup进行网页抓取时出现429错误

、、、

首先，我不得不说，我对使用Python进行Web抓取非常陌生。我正在尝试使用这些代码行来收集数据from bs4 import BeautifulSouphtml_page = requests.get(baseurl).text soup = BeautifulSoup(html_page, 'html.parser

浏览 3提问于2018-08-02得票数 1

回答已采纳

2回答

使用BeautifulSoup进行网页抓取:表格不在页面源中

、

我正在尝试从位于以下网页上的表中抓取数据： from bs4 import BeautifulSoup as soup my_url = 'http://ontariohockeyleague.com从检查网页来看，表格位于这个主块中，但无论出于什么原因，BeautifulSoup都不会读取它。data-league=&q

浏览 16提问于2018-07-19得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

抓取aspx页面的Python代码是什么？

如何通过Python使用urllib和re检索实时价格数据

有没有可能用代码自动向下滚动网页？

在使用servlet的页面上使用requests.get()

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

使用find在python中抓取单个html表

有没有办法像Facebook那样在自扩展页面上使用BeautifulSoup？

无法使用BeautifulSoup抓取数据

Python中的查询

网络抓取:没有使用BeautifulSoup(page.content，'html.parser')返回正确的内容

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

BS4返回到Cloudflare网站，而不是实际的网站

BeautifulSoup4返回错误的超文本标记语言？

使用python从urls列表中进行Web抓取

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

使用BeautifulSoup进行网页抓取时出现429错误

使用BeautifulSoup进行网页抓取:表格不在页面源中

BeautifulSoup和Scrapy crawler有什么区别？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐