删除python webscraping循环结果中不需要的元素

文章/答案/技术大牛

发布

2回答

、、、

article_tags_topics'}) Topics.append(a) print(Topics) 没有代码问题，但以下是我用前面的代码获得的内容的摘录explore-topics/forests">Forests</a>, <a href="/explore-topics/climate-change">Climate change</a&

浏览 14提问于2021-01-22得票数 1

回答已采纳

3回答

无法从单元素列表创建字典。

、、

我是python编程和webscraping方面的新手，我能够从网站上获得相关信息，但它只生成一个元素，其中包含列表中所需的所有信息。问题是我不能删除这个元素列表中不需要的东西。我不确定是否有可能从单个元素list.Is中创建python字典，如下例所示：任何帮助都是非常感谢的

浏览 5提问于2017-12-04得票数 0

回答已采纳

2回答

Python-3.x简单XPath库

、、

我正在尝试使用Python解析非常简单的XML。import xml.etree.ElementTree as ETresult是不

浏览 1提问于2013-04-03得票数 3

回答已采纳

1回答

Python抓取: soup.select的问题

、

我正在开发一个python脚本，用于从特定站点( )中刮取数据这次我使用soup.select方法，类名为W(100%) M(0)，我的代码如下所示：import pandas as pdtable = soup.select(table:has(-soup-contains("W(100%) M(0)")))这并

浏览 4提问于2022-09-13得票数 0

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

、、、

我想从google.com中抓取网页结果。我遵循了这个问题的第一个答案，。不幸的是，我得到了连接错误。我碰巧也查过其他网站，它没有连接。是因为公司的代理设置吗？文件"c:\users\appdata\local\programs\python\python37\webscraping\lib\site-packages\requests\api.py"，第75行，在get返回请求(‘get’，url，params=params，**

浏览 1提问于2018-10-29得票数 0

1回答

如何完全删除python中包含类的HTML标记？

、、、

我有一个网络刮刀，从CNN，福克斯，和英国广播公司在BeautifulSoup的文章。然后，在进行了一些预处理之后，我将原始文章返回给API。但是，我不知道如何完全删除包含Python中令人讨厌的类的HTML标记。我尝试了lxml清理器，但是我可以删除标记，但不仅仅是包含某个类的标记。如果在本例中我试图删除“帮助”，我想要一个脚本，该脚本将转换如下所示的HTML： <p class="

浏览 1提问于2022-03-08得票数 0

回答已采纳

3回答

有没有一种方法可以使用python中的selenium在<div>中获取值？

、、、、

我是python和webscraping的新手，所以我不确定元素中<div>之间的值的名称是什么。<div class="syllable">value</div> 有没有办法在python中使用selenium使用XPath将介于<div>之间的值赋给一个字符串变量?例如，元素中的" valu

浏览 3提问于2020-12-08得票数 0

1回答

同时尝试刮两个页面时出错- Python，bs4

、、

我试图从一个(主要)网站的一些电影的链接，然后，从这些链接的内容刮刮。我得到了一个错误：文件跟踪(最近一次调用)：文件"/Users/calinap/PycharmProjects/WebScrapin

浏览 1提问于2020-04-15得票数 0

1回答

如何将文件保存到包含“&”等特殊字符的路径中？(“&”与英文键盘中键入的“&”不同)

、、

我需要将一个文件写入包含R中一个特殊字符的特定路径，路径类似于：C:/Users/Technology ＆ Innovation/Webscraping files/US_data/data我发现“&”和“&”

浏览 2提问于2020-11-12得票数 2

2回答

如何创建一个for循环来填充DataFrame？

、、

我已经开始学习python，并偶然发现了一个利用python的机会，这是我在工作中的优势。这是我试图运行的代码Traceba

浏览 4提问于2022-05-27得票数 0

1回答

我如何从一篇文章中抓取所有段落，而不仅仅是一个段落？

、、

这里的初学者。我刚刚开始学习Python，我正在学习网络抓取，我想抓取每一段，然后将它们写在文本文件或csv上。每个段落都有相同的标签名，所以我认为for循环会遍历该名称的每个标记，并从每个标签和中提琴中获取文本！除了它只显示第一段15+次数..。我认为它这么做的原因是因为它抓住了第一个标签，就像我告诉它的那样，并且打印相同的标签，和它的名字一样的其他标签。我试图用.find替换.find_all

浏览 11提问于2021-01-02得票数 0

回答已采纳

21回答

如何从数组中删除空白元素？

、

我有以下数组我希望从数组中删除空白元素，并希望得到以下结果：有没有像compact这样不需要循

浏览 14提问于2011-05-04得票数 312

回答已采纳

3回答

如何使用Python使用Selenium从多个div类中提取文本

、、

我试图从中获取文本类的价格值for ratevalue in rateText:未发现结果：回溯(最近一次调用)：文件"D:\project\totempop\webscraping\asrPOP.py"，第22行，在rateText=WebDri

浏览 11提问于2022-04-21得票数 1

1回答

块中的python* webscraping抓取结果*

、、、、

我想编写一个python工具，它可以自动下载给定的固定站点的HTML。我试着使用漂亮的汤，然而，解析的HTML没有显示内容，而是询问我是否是一个机器人等等，这意味着我的网络刮刀被检测到并被封锁(我可以访问火狐的网站很好)。我还能做些什么来避免被检测到(例如旋转代理，随机点击，无头铬，，其他没有被检测到的网络抓取工具.)？我在网上发现的一些东西可能是造成这一现象的原因：缺少javasc

浏览 2提问于2020-12-04得票数 1

1回答

如果满足条件，如何在python中只重复函数的某一部分？

、

我正在写一个网络抓取脚本，它做不同的事情，取决于什么是从网站上删除。问题是我不知道该怎么做。我在谷歌上搜索了一下，似乎使用while循环是解决方案。但是我不知道如何在我的代码中</

浏览 7提问于2022-10-10得票数 0

回答已采纳

2回答

为什么这个CSS选择器不返回结果？

、、、

我正在跟随一个自动使用python的webscraping示例，但是我的CSS选择器没有返回任何结果。for i in range(numopen):谷歌是否修改了搜索链接的存储方式通过检查搜索页面元素，我发现这个选择器没有理由不能工作。

浏览 6提问于2020-06-01得票数 0

回答已采纳

6回答

删除python列表中的元素并避免移位

、

我在python中有一个列表，每次元素满足一定条件时，我都会删除该元素。问题是，for循环似乎跳过了一些元素。我认为这是因为列表在删除后移到左边。那么，如何正确删除列表中的项？这是我的密码 if elem == 0: print(l

浏览 8提问于2019-11-20得票数 2

回答已采纳

1回答

Soup.find和findAll在hockey-reference.com上找不到表格元素

、、

一般来说，我只是webscraping和python的初学者，所以很抱歉答案是显而易见的，但我不知道我在上找不到任何表元素。我最初的想法是，这是整个soup.text被注释掉的结果，所以按照我在另一篇类似文章中找到的一些建议，我替换了注释字符，并确认当我将div保存到文本文件并进行搜索时，它们已被删除。在尝试进一步搜索时，我从我的.find中取出了ID，并执行了一次findAll，

浏览 1提问于2018-08-20得票数 0

3回答

提高NumPy阵列上的操作性能

、

我使用numpy.delete从while循环内的数组中删除元素。仅当数组不为空时，此while循环才有效。这段代码运行得很好，但是当数组中有超过1e6个元素时，速度会大大减慢。ix = where((array >= x) & (array <= y))[0]我试着让这段代码更高效，但是我找不到一种好的方法来加速while循环。我认为，这里<

浏览 0提问于2012-05-15得票数 9

回答已采纳

4回答

从另一个字典python中删除一个字典

、

如果A和B是两个字典，使用python，有没有办法从字典B中删除字典A中的元素？dictB的所有元素。for循环的东西，那么很好。也不需要在删除之前检查父字典是否有密钥，因为子字典是从父字典派生出来的。因此，不必考虑keyError。父字典是一个静态字典，不应受该方法的影响。相反，返回的字典应该存储在另一个简化的</em

浏览 2提问于2011-07-18得票数 3

回答已采纳

点击加载更多