Webscraping抓取终结点

文章/答案/技术大牛

发布

1回答

、

您好，我想知道如何才能找到一个隐藏的端点的网站，存储产品的网址。我希望有人能帮助我或给我指明正确的方向

浏览 16提问于2020-05-15得票数 1

1回答

我想开始用python编码，以便建立一个在线数据库。更具体地说，我想运行一个从其他网站(他们显然愿意分享他们的内容)收集数据的网站，以便集中信息。我以前曾经涉足过编程，对编程语言也有基本的了解，所以我可以很好地理解如何学习变量、类等。让我困惑的是它的概念化以及如何实现它。也许我可以单独概述一下我的想法，你们可以告诉我这是否有意义：我想托管一个运行类似django的网站，这样就可以执行python脚本或应用程序，从其他网站收集信息，剪切出重要的信息，然后整齐有序地显示出来。这也应该涉及一个可搜索的数据库。现在，这是我需要SQL来做的事情吗？或任何其他数据库编程语言？我以前从未使用过数据库。

浏览 20提问于2019-01-12得票数 0

1回答

如何杀死正在执行的异步函数

、、

因为这个web抓取需要每一天执行一次，所以我想杀死它，因为出于某种原因(如果还在运行)，相同的函数被执行了很多次。这是我的代码： this.scrapeWithPuppeteer() this.scrapeWithPuppeteer() } let webscraper = new Webscrapin

浏览 0提问于2019-08-30得票数 2

回答已采纳

2回答

更改URL字符串中的单个值

、、

我正在学习网络抓取，我正在example.webscraping.com上练习。我可以从一个页面中提取我想要的信息，但我想知道如何以最简单的方式遍历多个页面。= 4: source =requests.get('http://example.webscraping.com/places/default/index/pagenum=%s').text

浏览 2提问于2019-11-06得票数 0

1回答

通过Scrapy或Excel查询搜索的Python via抓取？

、、、

我的问题与发现通过Scrapy执行Python Web抓取的总体效率有关，而不是简单地通过Microsoft Excel为特定任务执行Web查询搜索。我想做的是自动从NFL网站上提取数据。

浏览 2提问于2018-10-18得票数 1

1回答

Webscrape w/o美汤

、、、、

我的任务是抓取以特定字母开头的单词的站点，并返回匹配的单词列表，最好使用正则表达式。感谢您的时间，这是我到目前为止的代码。import urllib fhand = urllib.urlopen(website).read() line = fhand.strip() print line webscr

浏览 0提问于2016-12-03得票数 0

2回答

Webscraping抓取Youtube页面

、、、、

我试着通过一个链接从网上抓取一个youtube频道的名字。

浏览 21提问于2020-11-28得票数 1

回答已采纳

1回答

如何确定是否需要从API请求或抓取页面？

、、

我昨天问了这个问题：Webscraping assistance。答案是完美的，但它引出了另一个问题，那就是我怎么知道这个API是可用的，而抓取页面是完全不必要的？

浏览 22提问于2019-10-11得票数 0

回答已采纳

1回答

使用Rvest从网站中抓取网页链接

、、、

我是r和Webscraping的新手。我目前正在抓取一个房地产网站(https://www.immobilienscout24.de/Suche/S-T/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search)，但我没有设法抓取具体报价的链接。当使用下面的代码时，我得到了每个链接附加到网站，我不太确定我如何过滤它的方式，它只抓取20地产提供的链接。

浏览 24提问于2019-10-01得票数 0

回答已采纳

4回答

Python webscraping抓取被阻止

、、、

我还能做些什么来避免被检测到(例如，轮换代理、轮换用户代理、随机点击、其他未被检测到的网络抓取工具……)？我已经尝试使用我的手机IP，但得到相同的结果。GUI网络抓取工具不是一个选项，因为我需要用python来控制它。如果可能，请给出一些可实现的代码。

浏览 102提问于2020-11-02得票数 2

回答已采纳

1回答

使用Reactjs进行webscraping抓取

、、、

我正在尝试建立一个使用Reactjs的网络抓取应用程序。我在普通的JS中使用了nightmare.js，我确实得到了想要的输出。但是，当我尝试添加一个按钮和创建函数时，它并不能很好地工作。

浏览 0提问于2017-05-19得票数 2

回答已采纳

1回答

Selenium Webscraping抓取JavaScript元素

、、、

我正在尝试使用selenium和PhantomJS来刮掉JavaScript生成的一些元素。from selenium.webdriver.support.ui import WebDriverWaitfrom selenium import webdriverimport time

浏览 1提问于2018-03-21得票数 1

回答已采纳

2回答

Python Beautifulsoup webscraping抓取脚本

、

我想从这个网站上抓取信息。我想提取联系人的基本信息，如全名，职位，电话，电子邮件，公司。

浏览 35提问于2019-04-22得票数 0

0回答

R Webscraping抓取数据集

、、、

我正在尝试建立一个来自联合国粮食及农业组织网站()的数据集。在此页面中包含一组国家/地区的链接。单击此链接中的任何一个都可以转到特定国家的页面，其中包含有关该国家本身的新闻。我们的想法是在数据集中包含：Country url (e.g. <http://www.fao.org/countryprofiles/index/en/?iso3=AFG>)News title (e.g

浏览 5提问于2017-11-26得票数 0

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

、、、

我想从google.com中抓取网页结果。我遵循了这个问题的第一个答案，。不幸的是，我得到了连接错误。我碰巧也查过其他网站，它没有连接。是因为公司的代理设置吗？请注意，我正在使用虚拟env "Webscraping“。(").text回溯(最近一次调用)：文件"c:\users\appdata\local\programs\python\python37\webscraping，第75行，在get返回请求(‘get’，ur

浏览 1提问于2018-10-29得票数 0

1回答

UnhandledPromiseRejectionWarning: RequestError:错误: URI "0“无效

、

我是nodejs的新手，正在尝试编写这个web抓取器，我遇到了以下错误。它要求返回promise，但我尝试了，但都没有结果。不确定我是否使用了正确的包。在这一点上，异步中的承诺对我来说很难理解。PS C:\Users\farid\Desktop\Node Projects\webscraping> node --trace-warnings .\node_modules\request\index.js:53:10) at C:\Users\farid\Desktop\Node Projects\webscraping\ind

浏览 3提问于2020-12-31得票数 0

回答已采纳

1回答

如何对与图像组合在一起的文本进行How抓取

、

所以我对webscraping完全是个新手，而且一般都不擅长编码，但我就是不能理解webscraping是如何工作的，它看起来就是这么混乱？无论如何，我正在尝试使用HtmlAgilityPack从 (幻影和TSM FTX)上抓取团队名称。

浏览 0提问于2021-07-04得票数 0

1回答

Python Webscraping抓取循环页面

、、

当我抓取一个页面时，我得到了我想要的结果。"e:\Programmieren\Projects\Webscraping\laola1_scraper.py"，回溯(最近一次调用)：job_title = jobs.find('h2'，class

浏览 6提问于2022-02-10得票数 1

回答已采纳

2回答

Web抓取和承诺

、、、、

我正在使用cheerio和node进行web抓取，但我对promises有一个问题。我可以从一个页面上抓取一个文章列表，但在这个列表中，我们有更多的单页链接。我也需要为列表上的每个项目抓取单页。flexJob = `https://www.flexjobs.com`

浏览 0提问于2018-05-04得票数 0

1回答

不知道如何下载合适的库，或者开始使用漂亮的汤来进行python web抓取？

、、、、

绝对是使用pycharm和python3.8的初学者，我想开始webscraping，但我还没有理解任何关于如何实际获得使用漂亮汤的所有先决条件的教程。我可以使用pycharm的内置终端吗？只是整体上对开始抓取web的整个过程感到困惑。

浏览 0提问于2020-03-10得票数 0

点击加载更多