如何使用Python和BeautifulSoup将数据抓取到下一页

使用Python和BeautifulSoup可以很方便地进行数据抓取，包括抓取下一页的数据。下面是一个示例代码：

import requests
from bs4 import BeautifulSoup

def scrape_data(url):
    # 发送HTTP请求获取页面内容
    response = requests.get(url)
    if response.status_code == 200:
        # 使用BeautifulSoup解析页面
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 提取你需要的数据
        data = soup.find('div', class_='data-container').text
        
        # 打印数据
        print(data)
        
        # 查找下一页的链接
        next_page_link = soup.find('a', class_='next-page').get('href')
        
        if next_page_link:
            # 构造下一页的URL
            next_page_url = url + next_page_link
            # 递归调用抓取下一页的数据
            scrape_data(next_page_url)

# 调用函数开始抓取数据
start_url = 'https://www.example.com'
scrape_data(start_url)

这段代码演示了如何使用Python和BeautifulSoup抓取数据，并且在抓取完当前页面的数据后，通过查找下一页的链接实现了抓取下一页数据的功能。

在这个示例中，首先使用requests库发送HTTP请求获取页面内容，然后使用BeautifulSoup库解析页面。通过find函数和CSS选择器定位到需要的数据和下一页的链接，并进行相应的处理。

需要注意的是，这只是一个示例代码，实际情况下可能需要根据具体的网页结构和数据抓取需求进行适当的修改。同时，还需要注意网页的robots.txt文件以及网站的使用条款，确保你的抓取行为符合法律和伦理规范。

在腾讯云产品中，推荐使用云函数（Serverless Cloud Function）和云数据库（TencentDB）来存储和处理抓取的数据。云函数可以实现无服务器的自动化抓取任务，而云数据库则提供了高可用性和可扩展性，能够有效地存储和管理大量的数据。具体的产品介绍和文档链接如下：

希望这个回答能够帮助到你，如有其他问题，请随时提问。

用BeautifulSoup超链接访问表格数据

、、、、

对于使用BeautifulSoup，我仍然有一些不理解的地方。我可以用它来解析网页的原始HTML，这里是"example_website.com"： from bs4 import BeautifulSoup # load BeautifulSoup class import requests r = requests.get("http://example_website.com") data = r.text soup = BeautifulSoup(data) # soup.find_all('a') grabs all element

浏览 2提问于2015-10-14得票数 2

回答已采纳

1回答

用Python抓取网站的第二页不起作用。

、、、、

假设我想刮掉数据。我可以在Python2.7中很好地使用urlopen和BeautifulSoup。现在，如果我想用从第二页抓取数据。我得到的是第一页的数据！我使用Chrome的“查看页面源”查看第二页的页面源，内容属于第一页！如何从第二页中刮取数据？

浏览 4提问于2015-05-14得票数 1

回答已采纳

1回答

从多个网页(文本文件中的URL)提取文本

、

(环境:Python2.7+ BeautifulSoup 4.3.2) 我正在使用Python和BeautifulSoup来获取这个网页及其后续页面上的新闻标题。我不知道如何让它自动跟随后续/下一页，所以我把所有的URL放在一个文本文件，即web list.txt中。 http://www.legaldaily.com.cn/locality/node_32245.htm http://www.legaldaily.com.cn/locality/node_32245_2.htm http://www.legaldaily.com.cn/locality/node_32245_3.htm 。。

浏览 2提问于2014-01-22得票数 1

回答已采纳

1回答

将Python3.6的问题擦掉为只返回第一页

、、、、

我正在尝试使用Python从公共站点获取数据。在那个网站上有不同类型的搜索。有一种按字母搜索的类型。当我用字母'A‘搜索它时，它发送一个GET请求到页面，该页面从url下面返回一个响应。 http://www.museumsusa.org/museums/?k=1271393%2cAlpha%3aA%3bDirectoryID%3a200454 但它显示了第一页。我在第一页就能得到所有的数据。但当我点击第二页时。它通过_postback函数o JavaScript将get请求发送到用于GET请求但参数不同的同一个url。 data={ '__EVENTTARGET':&

浏览 1提问于2017-08-19得票数 1

回答已采纳

1回答

从web中获取的最终数据--多个页面

、、

我想要创建一个熊猫数据page，它包括满足条件的所有行(并且我成功地做到了)，从一个多页面的网站.But中刮取，最后的结果是我得到的熊猫数据只有在循环中声明的范围的最后一页中的行。如果有人指出错误在哪里，而不是所有页面的结果，只有最后一页，我将非常感激。 import requests import pandas from bs4 import BeautifulSoup headers= {'User-Agent': 'Mozilla/5.0'} for num in range (1,3): url =' https://biznes.

浏览 4提问于2021-02-17得票数 2

回答已采纳

1回答

如何使用python从本地xml文件中提取特定的xml标记？

、、、、

我对与xml、python和抓取数据交互非常陌生，所以请原谅我:我有一个xml文件，其中保存了从evernote中保存的笔记。我已经能够将BeautifulSoup和lxml加载到我的python环境中。我还能够加载xml文件并打印这是我的代码，直到打印： from bs4 import BeautifulSoup from xml.dom.minidom import parseString file = open('myNotes.xml','r') data = file.read() dom = parseString(data) print data

浏览 10提问于2013-11-16得票数 1

回答已采纳

1回答

无法修改现有逻辑以解析下一页的标题

、、

我在python中创建了一个脚本，使用请求模块在启动titles搜索时获得不同条目的duckduckgo.com。我的搜索关键字是板球。我的脚本正在完美地从第一页解析titles。我在从下一页解析titles时遇到了困难，因为two fields of params正在奇怪地增长，比如's': '0'和'dc': '-27'。然而，其余的字段是静态的。为了解析第一页中的titles，我尝试了如下(工作)： import requests from bs4 import BeautifulSoup URL = "ht

浏览 0提问于2019-07-27得票数 1

回答已采纳

2回答

具有多页的javascript表上的Python BeautifulSoup

、、、

我曾经有一个python脚本，可以使用Mechanize和BeautifulSoup正确地从下表中拉出数据。然而，这个网站最近将表格的编码改为javascript，我在使用它时遇到了麻烦，因为表格有多个页面。例如，在上面的链接中，我如何从表的第1页和第2页获取数据？FWIW，URL不会改变。

浏览 3提问于2012-01-18得票数 1

回答已采纳

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

、、

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

1回答

不能使用请求从下一页中刮取名称

、、、、

我试图使用python脚本解析从一个网页中遍历多个页面的名称。用我目前的尝试，我可以从它的登陆页上得到名字。但是，我不知道如何使用请求和BeautifulSoup从下一页获取名称。我到目前为止的尝试： import requests from bs4 import BeautifulSoup url = "https://proximity.niceic.com/mainform.aspx?PostCode=YO95" with requests.Session() as s: r = s.get(url) soup = BeautifulSoup(r.

浏览 5提问于2020-02-11得票数 1

回答已采纳

1回答

Python中的Pagnation (美人汤)

、

我是Python的新手，虽然我已经成功地抓取了第一页，但我被困在了如何在页面中移动的问题上。到目前为止，我的第一页代码如下： import requests import csv from bs4 import BeautifulSoup page = requests.get("http://books.toscrape.com/") soup = BeautifulSoup(page.content, 'html.parser') books = soup.find("section") book_list = books.find_all(

浏览 3提问于2020-05-31得票数 1

1回答

网站源代码中没有的数据来自哪里?如何使用BeautifulSoup获取这些数据？

、、、

我正在尝试使用BeautifulSoup和Python从一个地方政府网站上提取数据，但它下载的源代码缺少我想要的信息。我知道如何使用BeautifulSoup，我可以拉出我想要的源代码的任何部分并在python中使用它，但我想要的数据不在那里。发生的情况是，页面中的所有标记都带有相应的id，但却没有任何值。我每次访问Chrome上的页面源代码时都会看到这一点。每次我转到检查过的页面时，数据都被放在您认为应该呈现页面的位置。在源中为空但在inspect页中的某些数据在<td>标记上没有id。它有一个普通的、原封不动的<td>。我知道网站从数据库中提取数据，因为我是一个帮

浏览 0提问于2019-12-06得票数 0

1回答

使Python成为一个有大量链接的网页，抓取每个链接并查看它们是否有特定的文本。

我有一个关于Python的问题，我希望这个问题能得到纠正。我不是要被调羹，但是任何建议都会非常有帮助。我正在做一个小型项目，在那里我“爬行”加拿大士兵死亡的WW1数据库，看看哪些页面缺少信息。我试图让Python转到每个士兵页面，看看“传记”部分是否是空的。到目前为止，这是我的代码(不是我的，稍后我会给出信用并链接原始页面)。这是非常混乱的，它可能会使高级开发人员在沮丧中撕扯他们的头发，但请容忍我。 import requests from bs4 import BeautifulSoup import time url_to_scrape = 'http://www.cana

浏览 3提问于2016-10-01得票数 0

1回答

重写行而不是添加到新行

、、、、

大家好，我正在做一个网页抓取的网站，其中有多个页面(做9页)和写数据在一个csv文件。每个页面都有24行数据，共216行数据，用于9页，但我只得到24行数据，我认为这是第9页数据，python只是再次重写数据&同样，对于同一行中的每一页，而不是附加it.so，请帮助我弄清楚如何使python在ex中追加每个页面数据。这是我的代码： import requests from bs4 import BeautifulSoup from csv import writer for page in range(1,10): url = 'https://www.flipkart

浏览 4提问于2022-09-23得票数 0

回答已采纳

1回答

抓取具有多个页面的站点，这些页面保留相同的url？

我第一次在python中尝试webscraping。我使用beautifulsoup4包来做到这一点。我见过其他一些人说，如果您想从具有多个页面的站点获取所有数据，则需要使用for循环，但在这种情况下，当您从一个页面转到另一个页面时，URL不会改变。我该怎么做呢？如果有任何帮助，我们将不胜感激。以下是我的python代码： import requests from bs4 import BeautifulSoup response = requests.get("https://wpcarey.asu.edu/people/departments/finance") s

浏览 14提问于2020-04-08得票数 0

1回答

请求-从基于api的网站获取数据

、、、

我想从那里得到所有的评论。首先，我使用以下代码： import requests from bs4 import BeautifulSoup r = requests.get( "https://www.traveloka.com/hotel/singapore/mandarin-orchard-singapore-10602") data = r.content soup = BeautifulSoup(data, "html.parser") reviews = soup.find_all("div", {"class&

浏览 2提问于2016-09-26得票数 0

1回答

从动态加载的页面(无限滚动)中刮取web内容

、、、、

我试图从这个网站收集所有的图片文件名：我已经收集了一个python cat_dict中的所有类别名称和它们的id号。所以我的策略是遍历每个类别页面，调用数据加载API并保存每个页面的响应。我已经将标识为请求URL，它加载下一页内容。但是，当我使用请求库请求这个URL时，我会得到一个404。在加载下一页内容时，我需要做什么才能获得正确的响应？ import requests from bs4 import BeautifulSoup cat_page = 'https://www.shipspotting.com/photos/gallery?category=' for

浏览 1提问于2022-07-11得票数 0

回答已采纳

1回答

爬行通过分页机械化巨蟒

、

我正在使用机械化和python来抓取网站和获取数据。到目前为止，我能够提交表单并从该页面获取内容。但我无法触发点击“下一页”链接和获取数据。我的代码如下： import re import mechanize from bs4 import BeautifulSoup br = mechanize.Browser() br.set_handle_robots(False) br.open("http://portal.uspto.gov/EmployeeSearch/") br.select_form(name="SearchEmployeeDataBean"

浏览 3提问于2015-04-28得票数 1

回答已采纳

2回答

刮下几页

、、、、

我有一个代码可以在python (从yelp)中搜索酒店的评论。代码完美地刮起了第一页的评论，但是，我正在努力刮下下一页。 While循环不工作，每个循环中刮取的数据是相同的(第一页的数据)。 import requests from lxml import html from bs4 import BeautifulSoup url = 'https://www.yelp.com/biz/fairmont-san-francisco-san-francisco?sort_by=rating_desc' while url: r = requests.get(ur

浏览 1提问于2019-05-05得票数 0

回答已采纳

2回答

无法识别使用selenium的下一页的“点击”内容

、、

我正在尝试使用python - selenium和bs4从雅虎搜索中获得搜索结果。我已经能够成功地获得链接，但我无法单击底部的按钮转到下一页。我尝试了一种方法，但在第二页之后无法识别。链接如下： https://in.search.yahoo.com/search;_ylt=AwrwSY6ratRgKEcA0Bm6HAx.;_ylc=X1MDMjExNDcyMzAwMgRfcgMyBGZyAwRmcjIDc2ItdG9wLXNlYXJjaARncHJpZANidkhMeWFsMlJuLnZFX1ZVRk15LlBBBG5fcnNsdAMwBG5fc3VnZwMxMARvcmlnaW4DaW

浏览 32提问于2021-06-24得票数 0

回答已采纳

3回答

urlopen('http.....').read()中的read()做了什么？[urllib]

、、

嗨，我正在读"Web Scraping with Python (2015)“。我看到了以下两种打开url的方法，分别使用和不使用.read()。请参阅bs1和bs2 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('http://web.stanford.edu/~zlotnick/TextAsData/Web_Scraping_with_Beautiful_Soup.html') bs1 = BeautifulSoup(html.read(), '

浏览 3提问于2016-03-08得票数 8

回答已采纳

1回答

如何用美丽的汤做简单的分页循环

、、

我需要你的帮助，就如何做分页和循环在5个不同的网页，但使用相同的网址()，只有最后一个字的网址谁改变了页面的数目。我可以刮第一页的数据，但是我不明白如何获得其他URL和在一个循环中刮掉的所有数据，并在脚本的一次执行中拥有类似于250首歌曲的内容！ import requests from bs4 import BeautifulSoup req = requests.get('http://www.chartsinfrance.net/charts/albums.php') soup = BeautifulSoup(req.text, "html.parser&

浏览 2提问于2020-06-17得票数 0

2回答

无法解析第三页的名称

、、、、

我在python中创建了一个脚本，使用请求模块和BeautifulSoup库从网站中获取不同成员的名称。脚本可以完美地从第一页和第二页获取名称。然而，它从第三页开始刮取相同的名字。我能注意到的是，下一个页面逻辑在__EVENTTARGET的值之内，比如dnn$ctr410$MemberSearch$grdMembers$ctl00$ctl02$ctl01$ctl07和dnn$ctr410$MemberSearch$grdMembers$ctl00$ctl02$ctl01$ctl09等等。脚本可以相应地增加数字，但是第二页之后的结果保持不变。要填充此的结果，只需单击search按钮而不更改任何

浏览 3提问于2020-05-11得票数 0

回答已采纳

1回答

如何计算出子类别中的“下一页”并逐页访问

、、、、

在访问子类别中的下一页时，我遇到了问题，我需要逐页整理信息。但是，在我的代码中，我只能处理每个子类别的第一页。有人能帮我如何访问子类别的下一页吗？谢谢你的进阶。 import re import urllib import urllib2 import time import sys from datetime import datetime, date from BeautifulSoup import BeautifulSoup #list categories=[] details=[] tools=[] pages_details=[] division =[

浏览 3提问于2014-04-10得票数 0

回答已采纳

2回答

可以打印但不能返回html表："TypeError: ResultSet对象不是迭代器“

、、、

这里是Python新手。Python2.7和漂亮汤3.2.1。我正试着从一页简单的纸上刮一张桌子。我可以很容易地让它打印，但我不能让它返回到我的视图函数。以下工作： @app.route('/process') def process(): queryURL = 'http://example.com' br.open(queryURL) html = br.response().read() soup = BeautifulSoup(html) table = soup.find("table")

浏览 4提问于2014-07-11得票数 1

回答已采纳

2回答

在Python中线程多个SQL查询的良好实践/设计是什么？

、、

我从网站中提取信息，并使用Pythonwith和将其存储到数据库中。该网站由大约15个不同的城市组成，每个城市都有10至150页的网页。总共大约有500页。对于每个城市的每个页面，我使用BeautifulSoup打开站点，提取所有必要的信息，然后执行insert into或update SQL查询。目前我不使用线程，浏览所有500页需要几分钟，因为Python程序. 打开一页。提取信息。执行SQL查询。打开下一页。理想情况下，我希望负载平衡线程，例如，有10个并发线程，每个线程打开大约50页。但我认为这可能太复杂了，无法编码。因此，相反，我在考虑在每个城

浏览 2提问于2012-02-09得票数 2

回答已采纳

1回答

使用Python请求页面的第二次加载

、、

我很高兴地用Python、requests和BeautifulSoup从www.century21.com中删除了房地产数据。在站点中有分页，我能够放弃第一页的结果，但是当我尝试对第二页做同样的操作时，我得到了第一页的数据作为输出。下面是第一页结果的示例：以下是同一搜索术语的第二页的结果：我注意到，当我在浏览器中手动单击第二个URL打开它时，第一个URL的结果显示了几秒钟，然后页面似乎完全加载并显示了第二个页面的结果。可以想象，Python正在获取第二个页面的第一个加载的结果，而这个结果恰好与第一个页面的结果相同。同样，如果我请求第三页的结果，第四，等等。下面是我的密码。如果您运行它

浏览 1提问于2016-03-26得票数 1

回答已采纳

1回答

在Python中从分页URL获取上一页和下一页表

、、、、

我试图迭代地从这个website上的每个页面爬取表。使用下面的代码，我只能提取一个页面： import requests import json import pandas as pd import numpy as np from bs4 import BeautifulSoup url = 'http://bjjs.zjw.beijing.gov.cn/eportal/ui?pageId=308894' website_url = requests.get(url).text #soup = BeautifulSoup(website_url, 'lxml

浏览 32提问于2020-01-23得票数 0

回答已采纳

1回答

使用BeautifulSoup & Selenium解析HTML内容

、、

from selenium import webdriver from selenium.webdriver.support.ui import Select from bs4 import BeautifulSoup import csv import requests import re driver2 = webdriver.Chrome() driver2.get("http://www.squawka.com/match-results?ctl=10_s2015") soup=BeautifulSoup(driver2.page_source) print so

浏览 6提问于2016-05-03得票数 1

回答已采纳

1回答

用多页从表中抓取数据

、、

我试图从AGMARKNET网站上刮取数据。表被分成11页，但是所有的页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是AGMARKNET没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup解析HTML代码，并且我能够刮取初始表，但这只包含前500个数据点，但我想要完整的11页数据。我被困住了也很沮丧。链接和我的当前代码如下。任何方向都会有帮助的，谢谢。@αԋɱҽԃαмєяιcαηαη import requests import pandas as pd url = 'https://agmarknet.

浏览 11提问于2022-10-18得票数 0

1回答

JSON数据网络抓取

、、、

我正试图从here上盗取职位。使用Beautifulsoup，我可以从第一页抓取职位。我不能从剩下的页面中抓取职位。使用Developertool >网络，我知道内容类型是JSON。 import requests import json import BeautifulSoup from os import link import pandas as pd s = requests.Session() headers = { 'Connection': 'keep-alive', 'sec-ch-ua': '^

浏览 14提问于2021-06-14得票数 1

2回答

从前两页抓取网页内容，并使用python和BS4将刮过的数据导出到csv。

、、、

我是python的新手，使用Python3.6.2，我正在尝试使用特定的关键字从前2页抓取数据。到目前为止，我能够将数据导入Python空闲窗口，但我在将数据导出到CSV.I方面遇到了困难，我尝试过使用BeautifulSoup 4和熊猫，但无法导出。以下是我迄今所做的事情。任何帮助都将不胜感激。 import csv import requests from bs4 import BeautifulSoup import pandas as pd url = "http://www.amazon.in/s/ref=nb_sb_noss?url=search- alias%3D

浏览 2提问于2017-07-26得票数 0

回答已采纳

1回答

使用分页从GEO DataSets获取搜索结果的url链接

、、、、

我想从这个搜索结果页面获得每篇文章的所有链接：但是我在获取下一页的网址时遇到了问题。来自<div class="pagination">，它说： <a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" acces

浏览 0提问于2017-10-05得票数 0

1回答

为包含_dopostback方法的多个页面抓取网站，并且网页的网址不会更改

、、、

我正在使用BeautifulSoup从中抓取总共有两页信息，要浏览这些页面，顶部和底部都有几个链接，比如1,2。 href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$GridView2'，‘Page$2’) 问题是，当我们尝试从一个页面导航到另一个页面时，Url并不只更改粗体文本的更改，即对于第1页它是Page$1，对于第2页它是Page$2。如何使用BeautifulSoup迭代多个页面并提取信息？表单数据如下所示。 ctl00$ContentPlaceHolder1$UpdatePanel1|ctl0

浏览 4提问于2021-05-23得票数 3

回答已采纳

1回答

如何在不手动指定页码的情况下从rest请求返回所有页面？

、、、、

我从分页API中检索数据并将其转换为.JSON格式，并且我想检索响应中的所有页面，而不必指定URL中的页码。API接受每个页面的页码和结果(最大)。250)作为投入。我了解到，典型的解决方案是使用指定下一页地址的键遍历页面。但是，这个API似乎没有在输出中包含下一个页面参数(参见下面的示例响应)。我只能认为最后一页(即总页)参数在这里会有用吗？我如何在不指定页码的情况下刮掉所有的页面？我的脚本： import requests import json url = "https://api-v2.pitchbook.com/deals/search?keywords=m

浏览 8提问于2022-07-11得票数 0

1回答

如果下一页加载了java脚本，没有URL更改，我如何使用python刮取下一页数据？

、、

我正在尝试使用python在上刮网页。我已经成功地刮到了第一页，但是我无法转到下一页，因为下一页URL是相同的，下一页是用javascript加载的。 import requests import bs4 as bs url ='https://scamalert.sg/scam-details' r = requests.get(url) htmlcontent = r.content soup = bs.BeautifulSoup(htmlcontent, 'html.parser') for tag in soup.find_all('h4&#

浏览 6提问于2020-05-10得票数 0

1回答

使用Python3和BeautifulSoup 4转到下一页

、

我正在尝试使用Python3和BeautifulSoup 4从一个网站的多个页面上的表格中解析数据。一切都运行得很好，除了一些页面的表格超过了页面的长度。该页面只显示了20个条目，要获得额外的条目，需要单击表底部的下一个条目，以移动到下一个页面，在该页面中表数据将继续。我尝试过使用 nextPage = re.compile(b'Next</a>') 和 nextPageUrl = nextPage.findall(webContent) 我知道这不是BeautifulSoup。我尝试过这样做，因为我不知道如何使用BeutifulSoup来做到这一点。然而，它不起作

浏览 0提问于2013-06-08得票数 0

回答已采纳

1回答

不知道如何继续下一页，在锚标签中给出链接就是用python美汤打开别的东西。

、

想要去下一页报废每个公司的详细信息，而不是得到如何去下一页的链接在不变。我尝试了锚tag.the代码中给出的链接，如下所示。 from bs4 import BeautifulSoup import requests r = requests.get('http://gidclodhika.com/company-lists/Automobile--Spares--and--Accessories/16') soup = BeautifulSoup(r.text,'lxml') links = soup.find('ul',{"

浏览 13提问于2019-02-02得票数 0

回答已采纳

1回答

扫描多个页面的数据时出错

、、、

我用python编写了一个脚本，从网页中获取数据。该网站在60页中显示其内容。我的刮刀可以解析第二页的数据。当我试图更改payload参数中的页码或创建一个循环以从少数几个页面获取数据时，它会立即中断。如何以这样的方式修改我的脚本，以便它能够从所有的页面，而不仅仅是从第二个页面中获取数据。提前谢谢。链接到具有数据的站点：用以下脚本替换的链接：我想，页码就在这里： ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages:1 下面是完整的脚本(仅适用于第2页)： import requests from bs4

浏览 2提问于2017-12-13得票数 1

回答已采纳

1回答

无法从具有复杂布局的下一个页面中抓取内容

、、、

我一直试图使用请求模块从中抓取表格内容。该表的数据分布在多个页面上。我希望继续分析，直到下一页都用完为止。要填充该网页上的表，只需选择Baltimore作为县，日期范围从08-08-2020到01-01-2021，然后按search按钮将所有内容保留下来。下面的脚本可以解析几个页面(12或更多)中的数据，然后中断。那里没有下一个页面按钮，所以我不明白如何修改脚本中的逻辑以获取下一个页面。要继续下一页，必须在__EVENTTARGET值内使用页码。这就是我一直在尝试的： import requests from bs4 import BeautifulSoup coreid = '

浏览 9提问于2021-12-22得票数 0

回答已采纳

1回答

Beautifulsoup4未返回页面上的所有链接

、、、、

我正在用Python3.5开发一个网络爬虫。使用请求和Beautifulsoup4。我正在尝试获得所有主题的链接在论坛的第一页。并将它们添加到列表中。我有两个问题： 1)不确定如何使用beautifulsoup获得链接，我无法进入链接本身，只有div 2) Beautifulsoup似乎只返回了几个主题，而不是所有的主题。 def getTopics(): topics = [] url = 'http://forum.jogos.uol.com.br/pc_f_40' source_code = requests.get(url) plain_text = source_c

浏览 1提问于2015-10-28得票数 1

1回答

对于循环冗余，重复1页中的数据

、、

我试图在每个页面中获取来自网站的所有数据，所以我在一个循环中创建了一个循环。例如，我做了一个4页的循环，每2页获取一次top数据。但是，我没有在每页得到2个数据，而是在第一页得到了修改。代码 from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver.chrome.options import Options url = 'http://example.com' driver = webdriver.Chrome(executable_path="C:\\

浏览 0提问于2020-03-06得票数 0

1回答

使用美丽的汤从未知数量的页面中抓取数据

、、

我想解析一些信息，从网站，有数据分散在几个页面。问题是我不知道有多少页。可能有2页，但也可能有4页，甚至只有一页。当我不知道会有多少页时，我如何遍历页面呢？不过，我知道url模式，它类似于下面的代码。另外，页面名不是普通数字，但是它们在'pe2'中的第2页和'pe4'中的第3页等等，所以不能只是循环范围(数字)。我试图修复的循环的虚拟代码。 pages=['','pe2', 'pe4', 'pe6', 'pe8',] import requests from bs4 i

浏览 1提问于2017-04-04得票数 4

回答已采纳

1回答

刮掉所有的Flipkart.com手机

、、

我正试着刮掉www.flipkart.com上所有的手机。现在，我想做的是，我可以从这里刮起所有的手机。 http://www.flipkart.com/mobiles/pr?p[]=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid 现在，问题是，在这个网站，我不得不按‘显示更多的结果’来看到更多的结果。但是，我如何使用代码来做到这一点呢？我在python中使用BeautifulSoup包。我的代码到现在为止： import bs4 import re import urllib2 import sys link = 'http

浏览 0提问于2012-12-08得票数 3

回答已采纳

3回答

Web从ajax页面抓取数据

、、、、

我正在尝试从here上抓取职位。我正在学习python抓取技术，但我遇到了抓取像这样的Ajax页面的问题。我能够使用第一页的以下代码获得开发人员工具的响应数据。如何从这些数据中提取职位。 from bs4 import BeautifulSoup import requests import json s = requests.Session() headers={"User-Agent":"Mozilla/5.0"} r=s.get('https://epco.taleo.net/careersection/alljobs/jobsearch.f

浏览 54提问于2021-07-21得票数 1

1回答

如何在python中显示Pandas DataFrame上的一些数据？

、、、、

我已经收集了一些每日更新的数据(只有数字)。--我想在一个好的表(数据帧)中展示它们。我不知道怎么用潘达斯。我正在使用python，最终结果应该像一个表，上面有定义的键。谢谢下面是我的python代码： import requests from bs4 import BeautifulSoup url = 'https://www.worldometers.info/coronavirus/country/Austria/' page = requests.get(url) soup = BeautifulSoup(page.text , 'html.parser

浏览 2提问于2021-04-21得票数 0

2回答

分解信号的每个周期

、、、

我有一个实验台，在那里我可以检索到压缩机功率的数据。我使用python和pandas导入csv。所以它是一个带有索引datetime的pandas数据帧和一个带有P_comp的浮点列。我想定义并计算每个周期的曲线下面积： ? 目前，我手动完成，这真的很烦人，我绘制所有数据，手动选择存在周期性稳定状态的范围，然后使用np.trapz对此范围进行P_comp积分。我试过scipy.signal，但我不确定它是不是一个很好的工具来完成这项工作。你有什么想法吗？

浏览 10提问于2020-04-16得票数 0

2回答

使用python通过分页表刮取数据

、、

我正在谷歌金融的历史页面上搜索股票()中的数据。我可以刮掉当前页面上的30行。我面临的问题是，我无法浏览表中的其余数据(31-241行)。如何进入下一页或链接。以下是我的代码： import urllib2 import xlwt #to write into excel spreadsheet from bs4 import BeautifulSoup # Main Coding Section stock_links = open('stock_link_list.txt', 'r') #opening text file for reading

浏览 0提问于2015-02-06得票数 1

回答已采纳

1回答

用BeautifulSoup分页

、、

我试图从以下网站获得一些数据。对于表中的每一种药物，我将需要深入研究，并有名称和其他一些具体特征，如类别、结构化指示(请单击药物名称以查看我将使用的功能)。我编写了以下代码，但问题是我无法使代码处理分页(正如您看到的，超过2000页！)。 import requests from bs4 import BeautifulSoup def drug_data(): url = 'https://www.drugbank.ca/drugs/' r = requests.get(url) soup = BeautifulSoup(r.text ,"lxml")

浏览 2提问于2017-12-08得票数 1

回答已采纳

2回答

使用python和beatifulsoup抓取在线论坛线程的页面

、

我试着从一个在线论坛中建立一个urls列表。在我的例子中，使用BeautifulSoup是必要的。目标是包含线程的每个页面的URL列表，例如 [http://forum.pcgames.de/stellt-euch-vor/9331721-update-im-out-bitches.html, http://forum.pcgames.de/stellt-euch-vor/9331721-update-im-out-bitches-2.html, http://forum.pcgames.de/stellt-euch-vor/9331721-update-im-out-bitches-3

浏览 27提问于2019-03-18得票数 0

回答已采纳