计算引擎中有许多VM实例用于抓取,它们可以在某些站点中被阻塞,然后我们尝试使用NordVPN更改IP。我们正在尝试创建一个Python脚本,以便在检测到阻塞时自动执行IP更改。目前,我们正在使用我们最近发现的这个Python包:,但是我们得到了下一个错误:
Connecting you to Denver ...
An unknown error occurred while connecting to a different server!
An unknown error occurred while connecting to a different server! Retrying
import requests
from lxml import html
page = requests.get('http://www.cnn.com')
html_content = html.fromstring(page.content)
for i in html_content.iterchildren():
print i
news_stories = html_content.xpath('//h2[@data-analytics]/a/span/text()')
news_links = html_content.xpath(&
我正在尝试抓取一个网站,我正在使用python中的Tor模块来生成代理,然后使用requests模块抓取网站。但是,带有代理的请求模块由网站识别,并返回一个api页面(带有显示一些api信息的消息的html)。但是,当我使用没有代理的请求(使用我的原始ip地址)时,我得到了正确的响应。我的问题是:为什么网站如何正确识别来自代理的呼叫必须被阻止,并且来自原始ip (我当前的ip)必须被接受。
import requests
from stem import Signal
from stem.control import Controller
def renew_connection():