在python中使用web抓取漂亮的汤提取名称时不匹配

在Python中进行网络抓取时，通常会使用到一些库，如requests来发送HTTP请求，以及BeautifulSoup或lxml来解析HTML文档。如果你在使用这些工具提取网页上的数据时遇到了不匹配的问题，可能是由于以下几个原因：

HTML结构变化：网页的结构可能会随着时间变化，导致之前使用的选择器不再适用。
动态内容加载：有些网页的内容是通过JavaScript动态加载的，直接抓取可能无法获取到完整的数据。
编码问题：网页的编码可能与你的解析器默认的编码不一致，导致解析错误。
反爬虫机制：一些网站会实施反爬虫措施，如检查User-Agent或使用JavaScript混淆等。

解决方法

检查HTML结构

首先，确保你使用的选择器仍然匹配网页上的元素。你可以使用浏览器的开发者工具来检查元素的HTML结构。

import requests
from bs4 import BeautifulSoup

url = '你的目标网址'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 假设我们要提取的是汤的名称
# 请根据实际情况替换下面的选择器
soup.find_all('你的选择器')

处理动态内容

对于动态加载的内容，可以使用Selenium来模拟浏览器行为。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get(url)

# 等待页面加载完成
driver.implicitly_wait(10)

# 获取页面源代码
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 提取数据
soup.find_all('你的选择器')

driver.quit()

处理编码问题

确保请求时指定正确的编码。

response = requests.get(url, headers={'Accept-Charset': 'utf-8'})

应对反爬虫机制

设置合适的User-Agent，并适当添加请求延迟。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)

示例代码

以下是一个完整的示例，结合了上述的一些建议：

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import time

url = '你的目标网址'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 尝试直接使用requests和BeautifulSoup
try:
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    names = soup.find_all('你的选择器')
except Exception as e:
    print(f"直接抓取失败: {e}")

# 如果直接抓取失败，尝试使用Selenium
if not names:
    driver = webdriver.Chrome()
    driver.get(url)
    time.sleep(10)  # 等待页面加载
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    names = soup.find_all('你的选择器')
    driver.quit()

# 输出提取到的名称
for name in names:
    print(name.text)

请根据实际情况替换你的目标网址和你的选择器。如果你遇到了具体的错误信息，可以根据错误信息进一步调试代码。

参考链接

希望这些信息能帮助你解决问题。如果还有其他问题，请随时提问。

在python中使用web抓取漂亮的汤提取名称时不匹配

、、

我正在尝试使用下面的程序从下面的链接中提取所有医生的名字。在网页上有13个医生，但我只能从13个医生中提取出10个，我尝试了很多方法，但都没有得到想要的结果。有人能帮我一下吗？提前谢谢你！soup.find_all("div",{"class": "card dl"}) headings 标题的结果

浏览 24提问于2021-03-02得票数 0

回答已采纳

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到的第

浏览 4提问于2021-05-02得票数 1

1回答

数据挖掘-在终端中挖掘Facebook配置文件和返回数据

、、、

我对python编码有点陌生，我有一个项目，我决定编写一些代码，当输入一个Facebook用户URL时，它将返回他们的配置文件必须提供的所有数据。任何帮助都将是非常感谢的，或者如果您有类似的代码，我很想观察。我正在寻找在python中执行此操作。

浏览 4提问于2022-03-29得票数 -1

1回答

如何从这个html中提取链接

、、

我是HTML的新手，我正在尝试用漂亮的汤抓取一些web数据。我能得到这样的标题value.find(&

浏览 1提问于2020-08-13得票数 0

1回答

利用漂亮汤刮网时的颜色编码

、、

我正在使用Python中的漂亮汤来做web 抓取。网站上的文字有红色字体颜色的名字，我需要有颜色代码。我正在使用网站上的文本作为我的培训数据的纳(仅为正确的名称)。我怎么才能用漂亮汤得到颜色码呢？现在我的代码看起来是这样的。

浏览 2提问于2021-08-07得票数 1

回答已采纳

4回答

如何将web scraping python项目转换为桌面应用程序？

、、

我已经在漂亮汤的帮助下用python创建了一个web scraping项目，但我希望我的项目能作为桌面应用程序工作。因此，我可以运行该应用程序，并在特定的url上执行web抓取。有没有可能使用python和美汤，或者我必须用不同的语言制作这个项目？

浏览 0提问于2020-04-05得票数 0

1回答

为什么python输出与目标网站的html不匹配

、、、

我试着在网上抓取一个目标网站，上面有产品的详细信息，比如价格、名称、jpeg等，但是通过python使用漂亮汤得到的信息似乎与目标网站(使用F12)中的html不匹配。我尝试过在beautifulsoup函数中使用html.parser和lxml，但这两者似乎没有什么不同。我试着在谷歌上搜索类似的问题，但没有找

浏览 12提问于2019-06-25得票数 1

回答已采纳

2回答

Python漂亮汤在Web抓取中的提取价值

、、、、

如何从下面的代码中提取‘HTML1.00TK= 779.8’值？

浏览 2提问于2020-11-11得票数 0

1回答

我可以在app.run中抓取或提取数据吗

、、、、

我使用的是python和漂亮汤，我需要在app.run({"data":Id":"124330049","stock":83})下提取一些数据。当我尝试查找这些值时，它使用find返回一个空列表。我可以在app.run中提取/抓取数据吗？

浏览 13提问于2019-03-12得票数 0

1回答

使用Python中的美观汤从元素中获取文本值

、

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。= detaildom

浏览 5提问于2021-07-16得票数 1

回答已采纳

2回答

用硒美汤寻找元素

、、、

一般来说，我对网络抓取和数据科学是个新手。根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本我知道feature没有允许我直接输入xpath来查找元素的特性在这种情况下

浏览 18提问于2019-07-24得票数 0

回答已采纳

1回答

如何在亚马逊网络服务EC2上打破漂亮的汤过程，以免它被杀死？

、、、

我想运行一个python进程，其中包括在一些.org网站上全天候使用漂亮的汤进行web抓取。它在大多数网站上都运行得很流畅，但也有一些罕见的例外，就像你从下图中看到的那样，Network中有一个峰值。python进程(而不是实例)被终止。在抓取时，我避免使用任何.pdf或.jpg...这样CPU使用率就不会超过

浏览 0提问于2021-11-27得票数 0

1回答

Python抓取td类跨度

、、、、

新来的Python和Web抓取..。我一直在寻找刮擦突出显示的一段代码，以便我可以检索数字1.16，7.50和14.67，但没有joy在使用td，类，表-matches_pageSoup.find_all_ of .有人知道我在这里错过了什么吗我用的是漂亮的汤。

浏览 2提问于2018-02-25得票数 0

回答已采纳

1回答

如何编写爬虫从instagram抓取数据？

、、、、

出于研究目的，有没有办法抓取/监控instagram数据？那么任何人都可以有一些建议吗？或者可以给我一些相关的爬行任务的参考资料？

浏览 0提问于2016-08-29得票数 0

1回答

解析具有可读性的新闻Urls

、、、、

我正在尝试使用https://zapier.com或https://ifttt.com之类的东西自动从新闻urls中提取数据。其主要目标是在google电子表格中获得一个漂亮的新闻urls文本版本。尝试使用像"importXML“这样的函数失败，因为我需要分析不同结构的urls。，因为zapier允许使用javascript或python</

浏览 10提问于2019-02-09得票数 0

5回答

最近，我发现了一个用于连接到新R包 API的LinkedIn。不幸的是，从一开始，LinkedIn API似乎是非常有限的；例如，您只能获得公司的基本数据，这与个人的数据是不同的。我想获取某一公司所有员工的数据，您可以使用在现场手动操作，但是通过API是不可能的。如果import.io是识别LinkedIn分页，那么它将是完美的(参见页面末尾)。是否有人知道适用于LinkedIn站点当前格式的任何web</

浏览 0提问于2015-05-13得票数 11

回答已采纳

1回答

如何使用beautifulSoup对堆栈溢出问题进行web抓取标记？

、

= link.get('href') for i in link: title = link.string print(title) 输出: python浮点舍入python非谷歌合作python flask python漂亮汤python nonetype python ubuntu等。在从堆栈溢出站点提取数据时，我们在<

浏览 0提问于2018-03-17得票数 0

2回答

Python相当于Javascript的jQuery或Node的cheerio？

、、、、

我正在寻找一个库，它的API和用法类似于jQuery或Cheerio。我的用例是：解析包含javascript/css文件引用的任何脚本或链接标记的文件。

浏览 8提问于2013-03-21得票数 6

回答已采纳

2回答

在Azure上计划web抓取作业并在ADLS上存储结果

、、

我有一个python作业，它使用漂亮的汤从job上抓取数据。我尝试使用U-SQL执行脚本，但我一直收到一般的错误消息：我没有过多地研究这个错误，因为我不确定是否有可能通过U-SQL来抓取web。这是否可以使用U-SQL，如果不可以，我可以使用哪个Azure资源来计划此脚

浏览 2提问于2018-01-03得票数 0

2回答

python从web应用程序读取数据

、

我不是python方面的专家，但实际上我可以读取网页并检索标签中的精确值，但我需要的信息是在web应用程序上，而不是在网页的源代码中。我不是一个eb应用程序的专家，我想知道如果我检索的值显示在应用程序与python。下面是应用程序图片的链接："“

浏览 0提问于2014-06-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在python中使用web抓取漂亮的汤提取名称时不匹配

解决方法

检查HTML结构

处理动态内容

处理编码问题

应对反爬虫机制

示例代码

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐