腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
整个UNIX OS中用于文件监视/报告的守护进程
、
、
、
我必须编写一个Unix/
Linux
守护进程,它应该跨不同的位置监视任何文件目录中的特定文件集(例如*.log),并将其报告给我。然后,我必须读取所有新修改的文件,然后对它们进行处理,并将
抓取
的数据推送到Elasticsearch中。 对如何实现这一点有什么建议吗?我尝试了各种Perl模块(例如File::ChangeNotify、File::Monitor),但我需要
指定
目录,这是我不想要的:我需要动态生成文件列表,还需要
内容
。
浏览 2
提问于2015-12-11
得票数 0
1
回答
XPATH -如何提取每个html元素中的文本,而不考虑类
我正在尝试从没有统一结构的网页中
抓取
一些
内容
。我想要做的是告诉XPATH按照它看到的顺序
抓取
html标记中的任何
内容
并返回结果,而不必
指定
div名称等,因为它们是不同的,也不是非常统一。所以我需要知道如何说“按照在标签中找到的顺序返回任何html
内容
,不管它们是classes、em、强标签等等。我使用XPATH的唯一经验就是
指定
实际的div名称,例如: //div[@id='tab_info']
浏览 1
提问于2017-07-29
得票数 0
1
回答
使用Nutch 2.1从某个页面获取facebook点赞数量
、
、
、
、
我想问,有没有什么方法可以让我使用Nutch 2.1爬虫在facebook的公共页面上发布URL的次数/发布的URL和评论在Facebook上被点赞的次数?
浏览 2
提问于2013-01-17
得票数 4
3
回答
将Java应用程序绑定到接口
、
、
我通过两个接口拥有对GNU/
Linux
服务器的root访问权限。我正在使用Jericho和HtmlUnit来
抓取
一些网页。我想
指定
哪个接口应该用于HTTP连接。
浏览 2
提问于2013-06-06
得票数 2
2
回答
保存网站,在浏览器中打开保存的.htm文件,编辑其css/html,查看实时更改
、
、
、
我正在学习网页设计,我想在chrome和firefox开发工具中做你能做的事情,但是让它保存在我的系统中,并保持更改,并在我选择的编辑器中编辑。有什么能让我做到的吗?
浏览 0
提问于2014-07-31
得票数 2
1
回答
屏幕
抓取
器:决定在关闭JFrame后首先执行什么。Windows和
Linux
的区别
、
、
、
、
我实现了一个屏幕
抓取
器。当屏幕
抓取
JFrame关闭时,它刚才覆盖的屏幕部分将被
抓取
(捕获)。这在使用Oracle的标准Java的Windows中工作得很好。然后,需要将JFrame从屏幕上移除,以便
抓取
器可以捕获下面的桌面。 同样的代码在使用OpenJDK的
Linux
中不起作用,其结果是
抓取
器捕获定义
抓取
区的瞬态JFrame的
内容
。
浏览 0
提问于2014-03-14
得票数 0
1
回答
文本到语音的特定页面元素?
、
、
、
我想转换像这样的网页,让程序对注释进行过滤,而不是包含"permalink,source“或不相关的页面元素。
浏览 0
提问于2015-11-05
得票数 3
1
回答
文件路径中的正则表达式
、
、
我需要在tfileinputdelimited内的文件路径名中输入正则表达式 我有一个文件观察器,它在目录中寻找要添加的新文件。我希望新文件有类似的单词,例如文件1被称为apple1.csv,另一个将在另一个时间添加的文件被称为apple2.csv我想要一种方法,以便告诉talend提取包含单词apple的文件,而不管之前或之后是什么。 现在我有: tmap tmap -> tmap迭代-> tmap输入输入分隔的-> tmap -> tdboutput 我认为tfileinputdelimited应该有一个正则表达式,因为现在我选择了一个特定的文件 ?
浏览 14
提问于2019-02-09
得票数 0
回答已采纳
2
回答
哪个
Linux
发行版最适合Nutch-Hadoop?
、
我们正在尝试找出哪个
Linux
发行版最适合Nutch-Hadoop集成?我们计划使用集群来
抓取
Nutch中的大型
内容
。如果你需要更多关于这个问题的澄清,请告诉我。 谢谢你。
浏览 2
提问于2010-06-01
得票数 2
3
回答
在线调整挂载ext3逻辑卷的大小
、
、
我在SLES10上,并试图扩展我所做的/usr的大小:似乎起作用了。现在,当我试图做:我得到:我也试过:其结果是: warning - device size 157...., specified 288.... error invalid argument: seeking to 1181
浏览 0
提问于2009-07-09
得票数 3
回答已采纳
1
回答
Apache NUTCH,相关爬行
、
、
我正在使用Apache NUTCH 2.2.1爬行网站,它为我提供了在SOLR上索引的
内容
。当NUTCH获取
内容
时,有上下文信息,如“联系我们”,“法律声明”或其他一些不相关的信息(通常来自上部菜单,左侧菜单或页面页脚),我不需要索引。其中一个解决方案是自动选择
内容
中最相关的部分进行索引,这可以由自动摘要生成器来完成。有一个名为"summary-basic“的插件,它是用来做这个的吗?如果是这样,它是如何配置的?
浏览 1
提问于2014-11-20
得票数 0
1
回答
在hasNext中
指定
字符串模式(字符串模式)
、
、
我想知道是否可以在hasNext(字符串模式)中
指定
扫描
内容
。例如,我想检索正在扫描的行的前三个字符。那么,是否有一种方法可以
指定
诸如在这里我想
抓取
行的前3个字母字符。
浏览 2
提问于2013-09-22
得票数 1
回答已采纳
2
回答
使用PhantomJS进行网页
抓取
、
、
有没有一种方法可以完全像浏览器一样执行网页中的所有JavaScripts,而不
指定
要执行哪个函数?在我看到的大多数例子中,这些似乎
指定
了你想要从
抓取
的网页中执行JavaScript的哪一部分。我需要
抓取
所有的
内容
并像浏览器一样执行所有的JavaScripts,然后得到最终执行的代码,我们可以使用google inspect看到这些代码?
浏览 1
提问于2014-12-15
得票数 3
回答已采纳
3
回答
从CSV获取事件数
、
、
、
、
输出目标Cisco IOS - 4Microsoft IIS 5.0 < 5.1 - 2Apache 2.0.44 (
Linux
)Cisco IOSCisco IOS
Linux
Kernel 2.4.20Microsoft
浏览 6
提问于2016-12-16
得票数 0
2
回答
如何防止搜索引擎只索引我的页面的一部分
、
、
做这件事最好的方法是什么?是否在使用javascript加载后设置此部分?
浏览 0
提问于2009-06-23
得票数 0
回答已采纳
2
回答
为什么代码不能
抓取
HTML类中的任何
内容
?
、
、
、
、
在inspect期间,我可以看到
内容
位于类article-wrap中,如截图中突出显示的那样:但是当我尝试
抓取
其中的文本
内容
时,我什么也得不到:为什么会这样呢?我是否
指定
了错误的类?如果是,我需要
指定
哪个类?要知道应该
指定
哪个类(或标签、或div等),最简单的方法是什么?
浏览 2
提问于2018-05-23
得票数 0
1
回答
机械化主机名匹配
、
、
、
我正在使用Mechanize来
抓取
一个站点,并且得到了与主机名不匹配相关的错误。我发现问题的根源是在我
抓取
的站点上正在使用SNI,我想
指定
主机名以确保使用正确的证书。custom_user_agent以下是我认为我需要添加的
内容
(或类似的
内容
),以确保使用正确的证书: OpenSSL::SSL::SSLSocket.hostnam
浏览 19
提问于2016-07-18
得票数 2
2
回答
抓取
整个网站
内容
我正在将
内容
源
指定
为内部非sharepoint网站但是,一个完整的爬网只能在网站的根目录下
抓取
22个页面(有100个),除非我
指定
了‘自定义-
指定
页面深度和服务器跳数:’并将‘页面深度’和‘限制服务器跳数
浏览 0
提问于2009-04-30
得票数 0
1
回答
如何在soup.find_all中只获取有限的数量?
、
、
我正在
抓取
我想要的所有
内容
,然而,soup.find_all中有太多的条目(即使在尝试使用'span‘和class_=
指定
之后)。看起来,
抓取
所有的500是导致我的程序滞后,这不是理想的。
浏览 2
提问于2017-09-28
得票数 0
回答已采纳
2
回答
在PHP中包含问题
、
、
我需要打开allow_url_include。我该怎么做呢?我既可以访问php.ini,也可以访问.htaccess。我试着添加了在.htaccess和在php.ini中。有没有办法使用curl/get page函数作为变通方法?
浏览 1
提问于2009-06-19
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自学python爬虫二:如何正常操作urllib2通过指定的URL抓取网页内容
用 python 抓取知乎指定回答下的视频
wps表格怎么查找指定内容
Linux软件安装到指定目录方法
Python读取指定首尾内容的数据
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券