腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
ASP.NET内核中的异步任务
、
、
、
我需要运行我的
爬虫
从我的网络管理。我有两个想法要做:
爬虫
将是我的网站的一部分,我会在后台运行它。我觉得这是个更好的解决办法。应用
程序
用
C
#编写,在
Linux
上使用.NET内核。
浏览 3
提问于2016-06-11
得票数 0
3
回答
C
++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,
程序
如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
在
Linux
服务器上使用Selenium运行Scrapy Web Crawler
、
、
、
、
我用scrapy和selenium(python)开发了一个网络
爬虫
。它可以在我的本地成功运行。我很好奇,我可以把我的整个
爬虫
项目上传到我的
linux
服务器上,然后像在本地一样运行吗?只有一个问题是在我的本地,当
程序
运行时,它会打开浏览器,模仿人类的动作,但在
linux
服务器上,就像你知道的,我们没有浏览器可以打开。 所以我们可以这样做吗?
浏览 1
提问于2016-02-26
得票数 0
1
回答
Scrapy spider不存储状态(持久状态)
、
当我第一次尝试时,我遵循了给定的url .But,它运行得很好,我以Ctrl+
C
结束它,当我试图恢复它时,爬行会在第一个url上停止。
浏览 20
提问于2016-08-30
得票数 3
1
回答
使用Qt作为纯终端应用的Web
爬虫
、
、
我在GUI环境中使用Qt创建了一个用于特定任务的简单web
爬虫
。现在,我想将它自动化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用
程序
,但没有成功。(
Linux
终端)。我读过一些类似的问题,我认为这是不可能的,但我仍然有一些疑问。 根据的说法,我可以在终端上运行我的网络
爬虫</e
浏览 0
提问于2012-09-20
得票数 1
2
回答
使用scrapy python的.net框架
、
、
、
我正在做我的最后一年的项目,在这个项目中,我想使用
C
#作为前端语言,并使用Python来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
1
回答
有一个流行的工具来抓取网络数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
2
回答
重定向爬行器
然而,有时我会收到各种机器人和
爬虫
的访问。我如何温和地将它们重定向到其他地方而不“伤害他们的感情”? 我在想,我应该用机器人的名字建立一个数组,并根据它运行每个代理信息,如果在数组中找到,就重定向。
浏览 6
提问于2012-01-14
得票数 4
1
回答
网站数据
爬虫
,发布数据和遍历
、
、
我想编写这样一个
爬虫
。那么,哪种工具/语言最适合实现这一点呢?我已经精通java和
C
语言,所以任何基于它们的东西都会很有帮助。
浏览 1
提问于2013-03-27
得票数 0
3
回答
非常简单的
C
++网络
爬虫
/蜘蛛?
、
我试图在
C
++中做一个非常简单的网页
爬虫
/蜘蛛应用
程序
。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习
C
++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
2
回答
网络
爬虫
程序
C
# .Net
、
我不确定这是不是真的叫做网络
爬虫
,但这就是我想要做的。我想找到所有的网址,其中有相同的第一部分。有没有办法获得以www.mywebsite.com开头的所有urls的列表我只知道主网址www.mywebsite
浏览 0
提问于2013-06-27
得票数 1
回答已采纳
1
回答
我的Dockerize应用
程序
不工作。错误: /bin/sh:./
爬虫
:未找到
、
我用golang写了一个
程序
来解析一些网站。它正常工作了。然后我篡改了这个
程序
并试图运行它。现在,它将显示以下错误: FROM golang:1.16-buster AS build RUN GOOS=
linux
go build -o crawler cmd
浏览 5
提问于2021-08-18
得票数 0
1
回答
客户端操作系统上的DNS查询是否序列化?
、
、
即使您在
Linux
或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去?那么,是否有任何.NET应用
程序
接口或一般情况下,它可以并行工作,根据我的
程序
给出的请求数量?想象一下一个网络
爬虫
场景,我需要每秒大量的dns查询,在一些早期的网络
爬虫
出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
、
我使用具有无限循环的python制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了
Linux
命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
1
回答
如何创建包含驱动
程序
的python selenium应用
程序
?
、
我使用selenium和漂亮的汤来解析和爬行pages.My的问题是,如果我必须制作一个应用
程序
,或将其部署在某个iis服务器上(或任何其他我不知道的方式,比如它是如何工作的),我甚至不确定它是否像我从移动应用
程序
方法中所说的那样工作铬驱动
程序
和铬二进制文件。chrome驱动是可用的,但Chrome二进制是我安装chrome后才能获得的东西。在我用谷歌搜索的为数不多的几个东西中,我发现我需要使用docker来运送它。那么,是否必须在服务器上安装chrome才能让
爬虫
运行??如何将二进制文件与应用
程序
一起发
浏览 2
提问于2019-12-11
得票数 3
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
我需要找到一种方法来爬行我们公司的web应用
程序
之一,并从它创建一个静态网站,可以烧录到cd上,供旅行的销售人员用来演示网站。有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
Scrapy暂停并启动
但是,如果crawler在服务器的后台静默运行,则无法执行ctrl+
c
据我所知,ps -df会找到
爬虫
程序
的进程,并以一种迫使
爬虫
程序
关闭的方式杀死-s 9 id。但这将不可避免地中断
爬虫
的一些收尾工作。JOBDIR=crawls/somespider-1将在下次启动时丢失。我能做些什么来安全地停止
爬虫
?
浏览 23
提问于2019-08-16
得票数 0
3
回答
如何从另一个网站“抓取”内容
、
我的一个朋友问我这个问题,我无法回答。它的工作原理是这样的,你像something.com这样进入你的网站,然后我们的网站抓取该网站上的内容,比如图片,然后所有这些都上传到我们的网站上。然后,即使支持something.com的服务器宕机,人们也可以在我们的site.com/omething.com上查看该站点的精确副本。
浏览 2
提问于2010-08-01
得票数 0
回答已采纳
2
回答
Robots.txt,如何只允许访问域根,而不允许更深?
我希望允许
爬虫
访问我的域的根目录(即index.html文件),但不允许更深层次的访问(即无子目录)。我不想在robots.txt文件中单独列出和拒绝每个子目录。
浏览 0
提问于2011-03-06
得票数 13
1
回答
如何将
Linux
配置为使用TCP进行DNS查询?
当我为10万个域运行我的网络
爬虫
时,很多DNS查询都是通过UDP进行的,我的ISP阻止了我的流量,以为我在做DDoS攻击。是否可以将
Linux
配置为使用TCP而不是UDP来进行DNS查找查询?这需要在GLIBC层以透明的方式完成,所以我不需要更改应用
程序
。
浏览 0
提问于2016-03-07
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Linux中编译和运行C/C+程序,简单示例教懂你
用C跑爬虫
一个简单的Linux下的C语言socket程序
入门的C程序和C+程序
Python如何编写爬虫程序,附高级爬虫实现思路
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券