我在Virtualbox VM中将HAProxy和Nginx配置到一个运行systemd的Debian 8上。
问题是,由于端口冲突,Nginx安装失败。HAProxy首先安装并在端口80上运行,与Nginx的默认启动端口相同。
# apt-get install -y nginx-full
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following extra packages will be installed:
geoip-database
我希望以这种方式处理nginx中的请求,所以当爬虫获得请求的页面时,我需要通过请求的URL发送单个页面应用程序的静态版本,否则就会动态生成index.html。静态和动态页面位于不同的文件夹(必需)中,因此我在这种情况下使用$src变量。
我的配置:
server {
listen 443 ssl http2;
server_name www.example.com;
set $src "/www";
set $crawler 0;
if ($http_user_agent ~* "examplebot|anotherbot|crawler
我试着使用Scrapy来抓取一些网站上大约70k个项目。但每次它抓取了大约200个项目后,其余的项目都会弹出错误:
scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed
我相信这是因为我的爬虫被网站屏蔽了,我试着使用随机用户代理建议的,但根本解决不了问题。有什么好的建议吗?