腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
自动网络
爬虫
、
我正在编写一个
爬虫
,需要从许多网站获取
数据
。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)
数据
的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
2
回答
意见
挖掘
-哪种
数据
库类型?
、
、
我正在进入一个项目,进行意见
挖掘
(
数据
挖掘
、网页
挖掘
、->意见
挖掘
),以获得所包含的单词的语义方向。我们将使用
爬虫
来获取页面的意见。
浏览 0
提问于2009-11-23
得票数 1
回答已采纳
1
回答
用于web分析的
数据
集API
、
、
、
、
在
数据
挖掘
视图中,我知道有Twitter API,您可以从中实现
爬虫
程序并收集
数据
。提前感谢您提供的任何信息。
浏览 3
提问于2014-08-30
得票数 1
5
回答
sharkscope或PTR
数据
究竟是如何
挖掘
所有这些手的呢?
、
这些网站(和)每天从PokerStars和Full Tilt等安全扑克网络中
挖掘
数以千计的
数据
。他们是否有一个运行应用程序的服务器群,这些应用程序打开数百个表(窗口),然后以某种方式对正在玩的牌进行
爬虫
/
数据
挖掘
? 在编程方面,这是如何工作的?
浏览 0
提问于2010-10-25
得票数 19
回答已采纳
1
回答
无需通过index.php即可在Cakephp中包含模型
、
、
我正在使用CakePHP建立一个网站,其中有一个从不同网站
挖掘
数据
的
爬虫
。问题是,我希望能够从命令行调用
爬虫
(因为它可能需要几个小时的芬兰语),我希望在保存
数据
时使用CakePHP中的模型。
浏览 0
提问于2010-06-05
得票数 0
回答已采纳
1
回答
什么是最好的服务器语言来编程一个网络
爬虫
?
、
、
、
将是编写bes
爬虫
程序所需的be。(它应该用于
数据
挖掘
)谢谢
浏览 0
提问于2012-01-01
得票数 -2
回答已采纳
2
回答
是否有抓取纸的摘要的API?
、
如果我有一长串纸名,我怎么能从互联网或任何
数据
库中得到这些论文的摘要?有谁知道有什么API可以给我一个解决方案吗?我试图抓取谷歌学者,然而,谷歌阻止了我的
爬虫
。
浏览 0
提问于2014-05-17
得票数 15
回答已采纳
1
回答
如何使用wget从网站下载图片
、
嗨,我想从一个网站下载所有的图像,但只有一些我正在使用。但这最终只是试图下载整个网站,并且不确定为什么。我想要下载所有的图片从下的类别“幻想”,只有那个类别。
浏览 1
提问于2014-02-27
得票数 0
5
回答
Java中是否有用于文本分析/
挖掘
的API?
、
、
、
、
我做了一个网络
爬虫
,现在我需要一些东西来分析下载的
数据
。需要方法来计算页面中的单词数量,相似的单词,
数据
类型和其他与文本相关的资源。 Java中有用于文本分析的API吗?编辑:文本
挖掘
,我想要
挖掘
文本。Java的API提供了这一点。
浏览 2
提问于2011-07-23
得票数 25
回答已采纳
1
回答
PRAW:将注释和提交对象序列化为JSON
、
、
我目前正在使用praw开发一个reddit
爬虫
,用于
数据
挖掘
。我想抓取来自subreddits的评论和提交,然后将它们保存在
数据
库或文件中,最好是以json格式保存,以便以后使用。
浏览 0
提问于2014-07-15
得票数 1
回答已采纳
1
回答
我能否将facebook
数据
用于我的
数据
挖掘
项目?
、
、
首先,我将讲述我希望在
数据
挖掘
项目中实现什么,然后我将提出问题。 我正在考虑使用facebook来寻找来自特定位置和特定社区的特定用户。这是合法的吗,我的意思是我可以使用我的
爬虫
来抓取那些用户的公共
数据
。
浏览 2
提问于2012-11-27
得票数 0
回答已采纳
2
回答
检测网页中同构元素的列表
、
、
、
我需要检测页面DOM中连续的相同元素的序列。这些元素可以是div元素、li元素或span元素,也可以包含其他元素。这些元素有一个共同的事实,即它们是连续出现的,具有相同的内部结构。谢谢。
浏览 3
提问于2014-07-04
得票数 0
回答已采纳
1
回答
在低RAM VPS上执行高处理任务的最佳方法是什么?
、
、
现在,我已经在一个mysql
数据
库上运行了
爬虫
和各种优化算法,/Data
挖掘
算法。 我想我需要更好的计算机来完成这些任务,但我不能为此购买VPS,因为它将非常昂贵。
浏览 0
提问于2011-06-04
得票数 0
1
回答
为什么大写字符会导致我的编码URL中的重定向(和GWT重定向错误)?
我看到了带有编码字符的URL的奇怪的重定向行为。例如,以下两个URL仅因第一个编码字符中的"e/E“而不同(即"%e2”与"%E2")。"200 OK“HTTP状态,页面加载精细的会在浏览器中重定向,页面使用web-sniffer.net重定向到正确的(小写“e”),内容长度为零。我看不出在.htaccess中有什么理由让小
浏览 0
提问于2009-12-24
得票数 1
回答已采纳
5
回答
快速网络
爬虫
、
、
、
我想进行大规模的
数据
挖掘
。为此,我需要一个快速
爬虫
。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。编辑:解决方案是组合multiprocessing和threading模块。
浏览 4
提问于2011-10-05
得票数 8
回答已采纳
2
回答
如何检测MySQL上每小时运行的内容?
、
、
Munin每小时都会在MySQL查询中显示出巨大的增长,但我无法检测到是什么原因造成了这种情况。我正在运行5.6.30版本。 显示sql查询的Munin图:
浏览 3
提问于2016-04-28
得票数 1
回答已采纳
2
回答
在heroku上使用网络
爬虫
的经验
、
是否有人有使用海葵等宝石编写网页
爬虫
的经验,并将它们部署到heroku供您自己使用?这样一个持续运行的程序会违反heroku的TOA/TOS吗?
浏览 2
提问于2013-05-09
得票数 4
5
回答
如何根据友谊信息抓取Facebook?
、
、
是否有可能根据友谊信息为Facebook编写
爬虫
?更新(2011年2月16日):一本新书“
挖掘
社交网络”刚刚出版。其中有一章专门讨论如何使用Python
挖掘
Facebook。干杯。
浏览 2
提问于2010-01-07
得票数 26
回答已采纳
2
回答
通过搜索引擎进行Web
挖掘
、
、
我可以很容易地写一个脚本来自动查询Google并提取我需要的
数据
,但是要获得一些
数据
(例如联系电话号码),我需要沿着一个链接到一个列表特定的网站并四处寻找
数据
,而我从来没有写过这样动态的网络
爬虫
。在给定任意HTML的情况下,有哪些常见的
数据
挖掘
和/或机器学习技术和工具来提取一段信息的“最佳猜测”?
浏览 0
提问于2010-11-10
得票数 1
回答已采纳
2
回答
网络
爬虫
数据
存储在哪里?
、
、
我有一个简单的web
爬虫
,从根开始(给定url),下载根页面的html,然后扫描超链接并抓取它们。我目前将html页面存储在SQL
数据
库中。第二个问题是,我需要一个高效的
数据
结构来存储html页面,并能够在它们上运行
数据
挖掘
操作(目前使用的是SQL
数据
库,希望听到其他建议)。 我使用的是.Net框架、C#和MS。
浏览 3
提问于2012-01-17
得票数 14
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据挖掘敲门砖-Python爬虫入门
《Python网络爬虫与数据挖掘小课堂》——part2
《Python网络爬虫与数据挖掘小课堂》——part3
《Python网络爬虫与数据挖掘小课堂》——part4
Python小白怎样选择爬虫、Python工程师、数据挖掘、机器学习
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券