webscraping中的多线程python请求

文章/答案/技术大牛

发布

1回答

、

我有这段代码(来自)，但我想知道你们中是否有人知道如何加快结果过程？它获取一个网站的词汇表条目，并用它们创建文本文件，但因为我将用几种语言对几个网站做同样的操作，所以目前它有点太慢了。

浏览 13提问于2019-11-29得票数 1

回答已采纳

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

、、、

我想从google.com中抓取网页结果。我遵循了这个问题的第一个答案，。不幸的是，我得到了连接错误。我碰巧也查过其他网站，它没有连接。是因为公司的代理设置吗？文件"c:\users\appdata\local\programs\python\python37\webscraping\lib\site-packages\requests\api.py"，第75行，在get返回请求(‘get’，url，params=params，**

浏览 1提问于2018-10-29得票数 0

1回答

网络抓取python错误(NameError:未定义名称'reload‘)

、

尝试用python做一些web抓取，但得到了一个错误。我不确定这个trackback错误是什么意思，我在Python3中运行它，有人能帮我吗？回溯(最近一次调用)：未定义重新加载(Sys)中的文件"/home/l/gDrive/AudioBookReviews/WebScraping/GoodreadsScraper.py"，第3行NameErrorheader) def read_from_txt_fi

浏览 18提问于2019-09-01得票数 1

回答已采纳

1回答

csv - python抓取的多个读数

、、

我有下面的代码： from instaloader import Instaloader, Profile profile = Profile.from_username(L.context, PROFILE) print(profile.followers) 我想通过csv传递多个用户，脚本将为每个用户运行。谢谢。

浏览 18提问于2021-01-16得票数 0

1回答

错误2002 (HY000)：无法通过Lubuntu20.04LTS上的socket '/var/run/mysqld/mysqld.sock‘(2)连接到本地MySQL服务器

、、

(scrapy_course) andylu@andylu-Lubuntu-PC:~/Desktop/Misc_python_scripts/Scrapy_Webscraping_Course/books_crawler下一首,我尝试连接到mysql：( andylu@andylu-Lubuntu-PC:~/Desktop/Misc_python_scripts/Scrapy_Webscraping_Course/books_crawler最后

浏览 0提问于2020-12-06得票数 0

2回答

是否可以使用javascript在我的网站上加载另一个网站的og:图像和页面标题？

、、

some=42 (不是我的网站)的源代码是<meta property="og:image" content="httpssome=42，获取TEXT I WANT和https://image-i-want.com/image.png并将它们分别放在下面的代码中？

浏览 0提问于2020-08-10得票数 0

回答已采纳

2回答

将刮取的数据加载到Postgresql中

、

我已经结合了一些关于网络抓取的教程，并制作了一个简单的网页爬虫，这是刮新张贴的问题在这里所以。我想将它们加载到我的postgresql数据库中，但是我的爬虫给我看的解码错误有问题。(self.methods[methodname], obj, *args) File "/home/petarp/.virtualenvs/webscraping/local/lib/

浏览 3提问于2015-06-09得票数 1

回答已采纳

1回答

世博会内的网络抓取

、、

我正在考虑写一个手机应用程序来显示一些从网站上提取的数据。我想使用世博会，因为我已经熟悉Javascript，但我从来没有写过或工作过的应用程序。我正在尝试弄清楚是否有可能在应用程序中使用类似Express的东西，并在屏幕上显示从Express中提取的数据。谢谢!

浏览 18提问于2020-08-12得票数 0

1回答

Python抓取: soup.select的问题

、

我正在开发一个python脚本，用于从特定站点( )中刮取数据这次我使用soup.select方法，类名为W(100%) M(0)，我的代码如下所示：import pandas as pd File "/Users/ryanngan/PycharmProjects/Webscr

浏览 4提问于2022-09-13得票数 0

1回答

Python - webscraping -多线程-线程限制？

、、、

我有一个从网站检索搜索结果的代码。 t.start()for thr in th:该脚本的问题是，如果我运行此代码，我的笔记本电脑将挂起，因为它将生成3406个线程。我的问题是如何确定特定笔记本电脑上的最佳线程数？

浏览 0提问于2018-10-18得票数 1

1回答

Selenium webdriver在意外退出后无法重新启动

、、、

在几天前的最后一次使用之后，我还没有能够启动python的selenium webdriver的实例。我尝试在python3.5内核上运行的是：driver = webdriver.Chrome()File "/Users/myuser/webscraping/env/lib/python3.5/

浏览 5提问于2016-09-06得票数 0

1回答

寻找方向，以便建立一个在线网络抓取器数据库

、、

我想开始用python编码，以便建立一个在线数据库。更具体地说，我想运行一个从其他网站(他们显然愿意分享他们的内容)收集数据的网站，以便集中信息。我以前曾经涉足过编程，对编程语言也有基本的了解，所以我可以很好地理解如何学习变量、类等。让我困惑的是它的概念化以及如何实现它。也许我可以单独概述一下我的想法，你们可以告诉我这是否有意义：我想托管一个运行类似django的网站，这样就可以执行python脚本或应用程序，从其他网站收集信息，剪

浏览 20提问于2019-01-12得票数 0

1回答

webkitbrowser注入javascript修改输入文本值时出错

、、、、

我在使用Python2.7中的WebkitBrower从网页获取输入文本的值时遇到了问题。下面是示例代码： user_agent='Mozilla/5.0 (compatible; MSIE 9.0; TOB 6.11; Windows NT 6.1

浏览 2提问于2015-01-01得票数 1

回答已采纳

2回答

AttributeError：“”module“”对象没有“”whois“”属性“”

、、

我尝试执行以下代码：w = whois.whois('webscraping.com')我得到了上面的错误。为什么？

浏览 3提问于2016-12-15得票数 1

1回答

使用Soap +请求的Python WebScraping

、

我试图使用Python中的soap获取链接的信息。我可以得到整个数组的信息，但我不知道如何操纵信息的方式，我想。例如:我想显示在线名称(Nome)和状态。

浏览 0提问于2019-04-14得票数 1

回答已采纳

2回答

更改URL字符串中的单个值

、、

我正在学习网络抓取，我正在example.webscraping.com上练习。我可以从一个页面中提取我想要的信息，但我想知道如何以最简单的方式遍历多个页面。然而，即使创建一个整数并尝试将其作为字符串输入到URL中，该url上有一个计数器，以便在每个完整的循环周期后更改url，我也没有任何运气。此外，webloop是一个函数，在该函数中，我使用for循环从站点提取所有我想要的数据。谢谢你到目前为止的建议。作为将来的参考，如果我想浏览像

浏览 2提问于2019-11-06得票数 0

2回答

将大字符串输出转换为字典

、、、

我有一个类似于这样的函数，当给出一个url时，它会在who.is上查找域： w = whois.whois(url)因此，只要看一下它，我就能看到布局是用来把它变成字典的，但我不知道如何用尽可能有效的方式来实现它。我需要删除不想要的文本底部，并删除所有的换行符和缩进。单独做并不是很有效率。我希望能够将任何url传递给函数，并有一个可以使用的字典。任何帮助都会很感激的。但是，我根本不知道如何删除底部的</

浏览 2提问于2017-05-10得票数 0

回答已采纳

5回答

使用crontab运行selenium (python)

、、、

我有一个python脚本，它使用下一行selenium调用chrome。ff = webdriver.Chrome('/home/user01/webScraping/CollectAndGo/chromedriver') python脚本是从shell脚本调用的。python /home/user01/webScraping/CollectAndGo/cgcom.py

浏览 8提问于2014-05-28得票数 18

回答已采纳

1回答

从selenium打开后无法从页面源检测json

、、

在搜索字母'a‘之后，我使用selenium获取“动态内容”，然后将表保存到json文件中。Keysdriver=webdriver.Chrome(executable_path="chromedriver")d

浏览 2提问于2019-01-18得票数 0

回答已采纳

1回答

在python中通过Beautifulsoup抓取和下载修改了名称的Pdf文件

、、、

pentagon-papers" folder_location = r'E:\webscrapingopen(filename, 'wb') as f:然而，我希望文件的名称不像文件名，但作为他们的描述。例

浏览 10提问于2021-05-19得票数 0

回答已采纳

点击加载更多