Webscraping in R:如何按照“下一步”按钮抓取页面？

文章/答案/技术大牛

发布

1回答

、

我也更喜欢依赖以下软件包的解决方案-library(rvest)library(purrr)我的最终目标是抓取前我想从第一页开始，我假设，使用“下一步”按钮在所有5页中移动，但我很难找到不遗漏第一页的方法。data.frame(Doc_ID = html_text(html_nodes(page, ""))) 如果有人能给我任何关于替代方法的指导(

浏览 1提问于2019-11-28得票数 0

1回答

Selenium当网站分页依赖于Javascript时如何抓取网站表？

、、

我是webscraping的新手，到目前为止，我只遇到过在“下一步”按钮中有分页链接的抓取网站。但是当我点击“下一步”按钮时，网站的分页按钮链接不会改变。fbclid=IwAR0-V615fp0ujUH8BRr3Zu4erfAtsCz0-RHUgjMIvhjpGsaya-S9v7xI_-8") 但此website在加载next按钮时不会更改链接。

浏览 29提问于2021-09-28得票数 0

回答已采纳

1回答

通过Scrapy或Excel查询搜索的Python via抓取？

、、、

我的问题与发现通过Scrapy执行Python Web抓取的总体效率有关，而不是简单地通过Microsoft Excel为特定任务执行Web查询搜索。我想做的是自动从NFL网站上提取数据。

浏览 2提问于2018-10-18得票数 1

1回答

使用selenium Python迭代搜索多个搜索词

、

我正试着在LexisNexis上搜索一下，然后抓取结果。我需要从所有页面中抓取结果，所以我希望selenium执行搜索，抓取数据，然后单击next并重新执行。此外，我希望它对多个术语进行这种搜索。

浏览 11提问于2018-09-06得票数 0

2回答

涉及单击的网络抓取问题(使用R)

、

我正在尝试通过网络抓取以下网站：我正在使用R来对网站进行网络抓取。特别是，我试图从这个网站上复制所有医生的名字和专业。然而，我正在处理的主要问题是，当我按下箭头/下一步按钮时，url链接不会改变。我不能使用任何基本的技术来抓取这个页面。我该如何解决这个问题？如果我收集的所有数据都放在一个数据矩阵/电子表格中，那就太好了。

浏览 0提问于2013-04-24得票数 1

1回答

如何获取.asp页面下一页的网址？

、、、

我正在尝试抓取这个链接上的数据：如何在自动抓取工作中获得更具体的URL？谢谢。

浏览 0提问于2018-04-21得票数 1

2回答

如何刮除未更改页url但next按钮在同一url页下添加数据的网站

、、、

我有一个网址：在该页面上有一个“下一步结果”按钮，它加载另外20个数据点，同时仍然显示第一个数据集，而不更新URL。我编写了一个脚本来在python中抓取这个页面，但是它只抓取前22个数据点，尽管单击了"nex

浏览 5提问于2016-07-26得票数 2

1回答

用python抓取javascript驱动的“下一步”按钮的麻烦

、、

我正在尝试抓取一个网站，以学习python和网络抓取。特别是，我试图在这个页面上抓取足球数据：我的主要问题是如何抓取主数据表的所有页面，而不仅仅是第一个页面。我正在尝试使用selenium并分析当我点击“下一步”按钮时我的浏览器发送的请求，但我遇到了一些问题。感谢您的关注。

浏览 2提问于2018-08-30得票数 1

1回答

我对python / web scraping是个超级新手，我正在尝试使用beautifulsoup来查找各种网页中列出的所有事件(日期)，然后将它们输出到CSV文件中。这些是我一直在尝试的网页。 https://ir.monday.com/news-and-events/events https://investor.okta.com/events https://investors.atlassian.com/events-and-presentations/default.aspx 任何帮助都将不胜感激！

浏览 14提问于2021-09-24得票数 0

1回答

使用Rvest从网站中抓取网页链接

、、、

我是r和Webscraping的新手。我目前正在抓取一个房地产网站(https://www.immobilienscout24.de/Suche/S-T/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search)，但我没有设法抓取具体报价的链接。当使用下面的代码时，我得到了每个链接附加到网站，我不太确定我如何过滤它的方式，它只抓取20地产提供的

浏览 24提问于2019-10-01得票数 0

回答已采纳

1回答

使用CSS选择器和Python对表中的多行单元格进行and抓取

、、

因此，我在网页上抓取一个页面()，其中表中有多行单元格：我使用下面的代码来抓取每一列(下面的一列恰好刮掉了名称)：from lxml.cssselect importCSSSelector import requests

浏览 5提问于2016-08-24得票数 2

回答已采纳

1回答

如何防止facebook不缓存图片？

、

在我的网站上，我使用这个meta<meta property="og:title" content="..." /> <meta property="og:description" content=&

浏览 2提问于2013-04-29得票数 0

回答已采纳

1回答

dreamweaver中的Facebook评论

、

我想知道如何使用facebook评论，即使页面/ URL是相同的，昨天在同一个url上的文章的评论在今天的文章上的评论也会不同

浏览 2提问于2013-08-15得票数 0

1回答

未处理或不允许抓取HTTP状态代码

、、、

page=1网址抓取所有的鞋子数据，按照下一步按钮一直到第7页。但是当我尝试这样做的时候，我得到的是HTTP状态码不能处理或不允许的错误。 ? ?

浏览 19提问于2020-10-16得票数 0

2回答

casperjs:如何使用ajax更新捕获循环中的页面

、、

我有一个页面，通过ajax更新(所以没有页面加载)通过一个‘下一步’按钮。我想点击“下一步”按钮(一个onclick js函数)，每次抓取页面源代码并重复N次。this.click('.next-btn'); count++; 这会捕获源代码，但会一直获取相同的源代码，而不是通过单击“下一步”按钮获得更新后的

浏览 2提问于2013-09-30得票数 1

1回答

除非按下搜索按钮，否则url无法获取数据

我正在尝试用python进行网络抓取。除非按下搜索按钮，否则链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?那么，如何为python webscraping解决这个问题呢？code=883“来网络抓取股票数据，但由于url不起作用而失败。除非我手动按下搜索按钮，否则不会显示详细数据。你知道怎么修复它吗？

浏览 33提问于2019-10-01得票数 0

1回答

使用python抓取URL不变的多个表的最佳资源

、、

我想在有下一步链接的网页上抓取表格，但是当你点击这些下一步按钮时，URL不会改变。使用python (BeautifulSoup，请求)学习抓取这类表的最好/最简单的资源是什么？例如，我如何抓取上的表。

浏览 1提问于2017-11-15得票数 0

3回答

Sharethis和Facebook like按钮拉出旧的元描述

、、、

我正在使用下面的代码，只是标准的FBML喜欢按钮，安装它，工作正常，然后我改变了Meta描述，但按钮仍然拉旧的而不是新的。顺便说一句，类似的事情也发生在Sharethis按钮上，旧的样式按钮拉出旧的元描述，新的则拉出新的元描述。

浏览 2提问于2011-08-25得票数 0

回答已采纳

2回答

当它像这个href="#“一样使用时，"#”的含义

、、、、

我一直在关注这个来学习如何使用Scrapy。我正在使用作为我的示例站点来测试web抓取。其中一个函数: SgmlLinkExtractor接受一个参数，该参数是“下一步”页面按钮的href。问题是，对于greenbook，如果您通过firefox检查元素，那么"next“页面按钮的href是一个"#”1)这样使用"#“是什么意思: href="#” 2)如何解决这个问题

浏览 0提问于2013-07-04得票数 3

回答已采纳

1回答