BeautifulSoup webscraping find_all( )：作为最后一个元素追加的排除元素

文章/答案/技术大牛

发布

1回答

python、web-scraping、beautifulsoup

我正在尝试从reuters.com检索财务信息，特别是公司的长期增长率。我想要抓取的元素并不是出现在所有网页上，在我的示例中，不是针对Ticker 'AMCR'。所有抓取的信息都应附加到列表中。我已经知道如果元素不存在就排除它，但是不是将它附加到列表中应该存在的位置，而是将"NaN"附加为最后一个元素，而不是添加到它应该位于的位置。impor

浏览 6提问于2019-07-10得票数 2

回答已采纳

1回答

我如何从一篇文章中抓取所有段落，而不仅仅是一个段落？

html、python-3.x、beautifulsoup

我认为它这么做的原因是因为它抓住了第一个标签，就像我告诉它的那样，并且打印相同的标签，和它的名字一样的其他标签。我试图用.find替换.find_all，但是我得到了一个属性错误。我如何抓住所有的段落，而不仅仅是一个段落？文章：import requests 'User-Agent'

浏览 11提问于2021-01-02得票数 0

回答已采纳

1回答

如何在dataframe中检索和存储第2行和第3行元素

python、pandas、beautifulsoup、python-requests

我对Python中的Pandas、Webscraping和BeautifulSoup都很陌生。当我正在学习使用requests和BeautifulSoup进行一些基本的网页抓取时，我对将html表的第2和第3元素分配到熊猫数据框架中的任务感到困惑。假设我有一张桌子：到目前为止，我的代码如下：from bs4 import BeautifulSoup import re

浏览 0提问于2021-10-19得票数 1

2回答

检索Python网页中的所有字符串

python、beautifulsoup

我试图使用BeautifulSoup从网页中检索所有字符串，并返回所有检索到的字符串的列表。查找所有具有非空文本的元素，将文本追加到结果列表并返回它。我很难实现这一点，因为我无法在BeautifulSoup中找到任何方法来实现它。使用BeautifulSoup的" find_all“方法查找我正在寻找的所有属性，如"p”表示段落，"a“表示链接

浏览 2提问于2021-11-24得票数 0

回答已采纳

2回答

如何在python脚本中导入.py

python、beautifulsoup

我试图在python脚本中直接导入BeautifulSoup库，但我无法安装它，因为我在语法DS213+中使用它，所以我尝试这样做： soup = BeautifulSoup(html) for link in soup.find_all('a'):line 17, in <module> sou

浏览 3提问于2014-02-24得票数 0

回答已采纳

1回答

同时尝试刮两个页面时出错- Python，bs4

python、python-3.x、web-scraping

我试图从一个(主要)网站的一些电影的链接，然后，从这些链接的内容刮刮。from bs4 import BeautifulSoup as soup文件跟踪(最近一次调用)：文件"/Users/calinap/Pyc

浏览 1提问于2020-04-15得票数 0

1回答

Python抓取fetech href链接

python、beautifulsoup

gr-hyperlink" href="/genres/art">Art</a>,这是我的密码import numpy as npfrom urllib import urlopen from bs4 import Beauti

浏览 2提问于2020-07-12得票数 0

回答已采纳

3回答

url分割与美汤

python、python-3.x、web-scraping、beautifulsoup

fiyat:asc&stoktakiler=1&tp=1"html_icerigi = response.content</div>] 我需要的只是最后一行中的数字13 (最后一个</

浏览 3提问于2022-07-04得票数 1

回答已采纳

2回答

在美丽的汤中打印最后一次<td>

python、beautifulsoup、html-table、html-parsing

我必须从一个复杂的HTML文档中读取，其中一个表没有ID，每个表都有未定义的tr标记数。我想在最后一个<tr>标记的td中打印文本。在解析树时，我找不到打印最后一个子文件的任何内容。bgcolor="#FFFFFF"> <td>4.1</td> <td>4

浏览 5提问于2014-03-28得票数 2

回答已采纳

1回答

标识下一个循环周期元素名称

python、beautifulsoup

我想用BeautifulSoup遍历html元素的列表，但对于每个元素，我还想检查树中下一个元素的name<<html> <p>1</p> <p>2</

浏览 2提问于2014-08-04得票数 0

1回答

BeautifulSoup获取href

python、tags、beautifulsoup

</span>如果我只有一个标签，我可以这样做，但是这里有两个标签。我也可以得到文本'next'，但这不是我想要的。另外，有没有一个很好的API的描述和例子。我正在使用，但我在寻找更有条理的东西。

浏览 8提问于2011-04-28得票数 279

1回答

TypeError：“str”对象不可调用

python、beautifulsoup、bs4

我在我的程序中添加了几行代码，以便使用BeautifulSoup将html转换为json，但是这些添加的代码行出现了错误。import httplib, urllibimport json x = json.dumps(dict(htmldata))我收到<e

浏览 0提问于2015-09-26得票数 1

1回答

Python -从HTML页面捕获所有表

python、html、email、beautifulsoup

我有带有嵌入HTML表格的电子邮件，还有使用BeautifulSoup提取表和表中数据的代码，我的问题是有时只有当有更多的表时，它才能成功捕获一个表。 table = bs4.BeautifulSoup(html).() for cell in row.find_all("td")] for row in

浏览 3提问于2017-06-06得票数 0

回答已采纳

1回答

使用BeautifulSoup查找具有相同CSS类的多个元素

python、web-scraping、beautifulsoup

我尝试使用BeautifulSoup的find_all()来搜索具有标签"div“和类"wisbb_name”的元素。我要抓取的超文本标记语言来自。Fiers</div>print(el.g

浏览 19提问于2017-07-22得票数 1

回答已采纳

1回答

BeautifulSoup- find_all-订单保存

python、beautifulsoup

我正在尝试解析一个具有相同名称的不同类的网站。我想要学习第一个类的元素(如网页所示)。但是，find_all或find不会保留解析的顺序。下面是我的find_all实现import urllib.request searchQueryFK = "https://www.flipkart.comq

浏览 1提问于2018-03-13得票数 3

1回答

在Python语言中使用BeautifulSoup进行网络抓取

python、web-scraping、beautifulsoup

countryId=IND').read()div = crawler.find('div', {"id": "standardRates"}) 使用上面的代码，它列出了您可以在图像中看到的所有标记/元素。td')，如下所示： div = crawler.find('div', {"id

浏览 3提问于2017-02-25得票数 0

2回答

用美汤从span中提取元素

python、html、web-scraping、beautifulsoup

我正在尝试从这个网站中提取在下面的图片中用红色圈起来的元素：但是，它仍然给出了一个错误："ResultSet对象没有属性'find‘。您可能把一个元素列表当作一个单独的元素来处理。当您要调用find()时，您调用了find_all()吗？“ 我的想法是将搜索范围缩小到"td“标记，并使用find从"span”标记中获取元素，但我无法让它工作。我尝试

浏览 4提问于2021-10-02得票数 1

回答已采纳

3回答

BeautifulSoup -获取类型的第n个标记

python、beautifulsoup

当我使用soup.findAll('table')时，会得到一个错误：是否有一种方法可以在某些代码中获取n标记，或者另一种不需要遍历所有表的方法编辑我正在将对象解压缩为两个值，这时有更多的值。我以为这只会给我列表中的前两件事，但当然，它一直给我上面提到的错误。我不知道返回值是一个列表，并认为它是一个特殊的

浏览 3提问于2012-12-30得票数 16

回答已采纳

2回答

Python / Beautifulsoup:当前元素的HTML路径

python、beautifulsoup

对于一个班级项目，我的工作是提取网页上的所有链接。这就是我到目前为止所拥有的。from bs4 import BeautifulSoup, SoupStrainer soup = BeautifulSoup复杂之处在于:对于每个<a>元素，我的项目都需要知道当前链接的整个“树结构”。换句话说，我想知道所有以前的元

浏览 19提问于2020-04-11得票数 0

2回答

无法从python中的html页面提取文本

python、beautifulsoup、html-parsing

我读到了关于BeautifulSoup的文章，并试图使用它。但我无法提取具有给定类名“company-desc-and-排序容器”的文本。我甚至不能从html页面中提取标题。这是我尝试过的代码：import requests r = requests.ge

浏览 5提问于2016-12-20得票数 1

回答已采纳

点击加载更多