如何在python中从html源代码中提取p类(web scraping)？

文章/答案/技术大牛

发布

1回答

、

我尝试从下面的"p类“html源文件中提取电话号码，我能够提取带有重复项的整个文本块。有人可以帮助吗?如何提取电话号码而不重复任何帮助是非常感谢的。="tel:+4952531717">0 52 53 / 17 17</a>, <a class="it" href="tel:+4952531717">0 52 53 / 17 17</a>

浏览 6提问于2021-02-25得票数 0

回答已采纳

1回答

如何通过爬虫获取简单信息

、、

我正在尝试做一个简单的爬虫，通过这个页面，然后继续提取19个链接从见约部分。这是我设法做到的，但我也试图从这19个链接中的每一个提取第一段，这是它停止“工作”的地方。我从第一页得到的是同一个段落，而不是每一页。这就是我到目前为止所拥有的。我知道这样做可能有更好的选择，但我想坚持使用BeautifulSoup和简单的python代码。'html.parser') try: p =

浏览 5提问于2021-03-02得票数 2

回答已采纳

1回答

无法将数据放入Pandas.It DataFrame.Whenever中我尝试将这两个数据放入Pandas未完成

、、、

我无法创建data_list和data_1_list.Whenever的数据框我这样做没有收到错误，但整个数据中只有一行是shown.Pls在您自己的code.It中尝试无法在words.You中解释尝试创建数据框并打印它，您将看到它并未全部打印import lxmlimport html5lib for des in soup.find_all(&

浏览 2提问于2020-06-09得票数 0

1回答

如果内容包含一些字符串，如何使用python将内容与html标记一起删除

、、

我目前正在处理一些html格式的数据。<P ALIGN=CENTER>tags that I don't want</A></P>我只想将标记为<P> //some body paragraphsthat I need</P>的部分作为字符串读取到

浏览 2提问于2018-03-19得票数 0

1回答

我正在试着做一个简单的爬虫，从这个链接的“看关于”部分提取链接 https://en.wikipedia.org/wiki/Web _ 抓取 ..。这是总共19个链接，我已经设法使用美丽汤提取。然而，我将它们作为列表中的相对链接，我还需要通过将它们变成绝对链接来修复它们。预期的结果将如下所示： ? 然后我想使用同样的19个链接，并从中提取更多的信息。例如，19个链接中每个链接的第一段。urllib.parse import urljoin

浏览 21提问于2021-03-01得票数 0

回答已采纳

1回答

在Anaconda环境中从cron运行python代码

、、

当我从linux命令行启动脚本时，它工作得很好：我将进程添加到crontab文件中：PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:&#x

浏览 0提问于2018-01-02得票数 1

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

1回答

如何在PHP中获得最终输出的HTML？

我想要从WordPress中获取整个HTML页面的HTML源代码--从HTML中提取关键字(然后使用关键字作为Twitter )。 $meta_tags = getMetaTags($buffer

浏览 0提问于2018-09-15得票数 1

1回答

获取<span>属性值

、、、

我有一大段html代码，我想提取span的一个名为"data-content“的属性的每个值。import requests results = Beau

浏览 27提问于2021-02-03得票数 0

回答已采纳

9回答

VSCode中未发现的Python单元测试

、、

我编写了一个名为scraping_test.py的python测试文件，并使用unittest编写了一个测试类，名为TestScrapingUtils with open(test_page_name) as test_page_file: test_mosque= bs4(test_page_fil

浏览 15提问于2017-12-24得票数 12

0回答

Python BeautifulSoup找不到表ID

、、

urlopenpage = urlopen(site) stats = soup.find('table', id = 'totals

浏览 4提问于2017-06-08得票数 1

回答已采纳

1回答

我如何在球拍中刮起一页的标题？

、、、

我用以下代码获得了页面的html：#lang racket/base (require (planet neil/html-parsing:3:0)) (define p (get-pure-port (string->url "https://www.rosettacode.org/wiki/Web

浏览 5提问于2022-07-03得票数 0

回答已采纳

1回答

无法使用回调获取结果

、、、

我在node中编写了一个脚本，使用两个不同的函数getPosts()和getContent()在其中提供回调，以便打印调用独立函数getResult()的结果。在我的脚本中定义的选择器是完美的。request');

浏览 0提问于2019-04-09得票数 0

回答已采纳

2回答

如何使用Python实时显示网页动态数据？

、、、

我正在使用HTML和CSS为Python程序制作GUI前端(类似于使用web浏览器配置路由器)。该程序将用户给出的值分配给变量，并使用这些变量进行计算，输出结果。如果用户更改字段中的值，则所有其他字段都是同时更新的字段，等等。如何构建通过和CSS显示的应用

浏览 3提问于2015-02-28得票数 1

回答已采纳

3回答

为什么BeautifulSoup不能在Google上获得所有html呢？

、

当在Google上搜索某物时，所有的链接和标题都会放在h3标签中。然而，如果我尝试使用“美丽汤”，则不会出现任何h3标记，而且似乎丢失了许多标记。我不认为这是一个JavaScript问题。

浏览 11提问于2020-11-08得票数 0

回答已采纳

3回答

web抓取工具或库，可自动查找未设置规则的文本内容

、、、

是否有web抓取工具或库可以自动检测重复的HTML块并抓取块中的文本内容，从而消除了人工输入规则- CSS选择器或xpath来查找内容的需要？这是基于这样的假设:现代内容网站是由PHP或Python等服务器端语言动态生成的。内容几乎总是由模板中的for循环呈现，因此总是可以找到重复的HTML块。</div> <p>...</

浏览 3提问于2012-07-25得票数 0

1回答

Python -从复杂的HTML中自动抓取表格

、、、、

我正在尝试自动从网站上的每个表格中抓取所有数据，并将每个表格输出到excel中的选项卡中。/web-scraping-html-tables-with-python-c9baba21059和Python - Web Scraping HTML table and printing to CSV在使用这个URL时，我很难同时提取底层数据和表头。HT

浏览 24提问于2020-04-16得票数 0

1回答

如何应用循环从"DIV“标签中提取内容，同时使用漂亮汤？

、、、、

最近，我发现了一种非常巧妙的使用bs4进行web抓取的方法，该方法具有非常好的组织结构。让我们说这是我们的html代码：<div class="a"> <a href="www.yelloaes.com">'hi'</a> </div>我们将从这个标签中提取信息，现在这意味着我必须循环通过这个从所有页面中

浏览 4提问于2016-07-30得票数 1

1回答

如何循环到达各类链路，提取R中的属性容量座位

、、、、

实际上，我想为这个链接中的每个class提取class属性。如果单击每个类，您将看到属性capacity，它显示了seats编号。001 15如何在R中创建一个循环来获取每个subject的每个class的capacity (seats)属性。这个问题是我上一篇文章https://stackoverfl

浏览 3提问于2020-10-26得票数 0

回答已采纳

1回答

使用Python在打开html时捕获DNS请求

、、、

我正在寻找确定DNS请求，将在打开一个html文件(使用Python)。具体地说，我希望看到哪些领域的资源将被加载，如果该网页在网络浏览器中打开。(我有数百万个html文件，我想确定每个文件都会尝试从哪个域加载外部资源)。我假设一定有一个Python包可以帮助实现这一点，但似乎找不到它-寻找正确方向的点，而不是完全开发的代码。

浏览 1提问于2015-07-19得票数 0

点击加载更多