腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
怎样在不使用API的前提下
爬
取
Twitter
数据
?
、
、
、
、
由于现在Twitter API
数据
爬
取
付费,所以我想在不使用Twitter API的情况下使用python
爬
取到特定关键词的Twitter
数据
或者Reddit
数据
,有什么好办法吗?
浏览 546
提问于2024-01-06
1
回答
如何用python
爬
取
数据
并
保存
到excel?
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的
数据
并
保存
到excel中。用相同代码
爬
取
网页豆瓣top250的
数据
可以
爬
取到excel中,但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。
浏览 335
提问于2021-01-09
1
回答
Crawler4j计算页面深度
、
、
、
我正在用groovy & grails和
mongodb
开发一个网络爬虫,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
如何处理UUIDS?
、
、
、
我有一组
数据
,其中包括网址,公司名称和一些其他有关公司的信息。我读取这些
数据
,获取URL,抓取它们,并用随机生成的UUID
保存
抓取的
数据
。问题是当我想重新抓取
数据
的时候。我将有一组新的
数据
-which可能是重复的-因此将生成一个新的UUID和一个新的记录。但这并不是我所期望的。我想要做的是看看哪些东西已经被
爬
取
,并更新它们,而不是添加新的记录。另外,这并不是读取URL并查看URL是否已被
爬
取
,因为公司可能会更改其UR
浏览 1
提问于2017-09-21
得票数 0
1
回答
Nutch API建议
、
、
我目前的需求相对简单:我需要一个能够将
数据
保存
到磁盘的爬虫程序,并且我需要它能够仅重新
爬
取
站点的更新资源,并跳过已经
爬
取
的部分。有没有人有在Java中直接使用Nutch代码的经验,而不是通过命令行。
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
2
回答
我如何“获得”
数据
的所有酒吧/俱乐部在美国的
数据
库。Yelp API?
、
、
、
、
我要做的是创建一个美国所有酒吧的
数据
库。我需要这个
数据
库半定期更新(大约每周),以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。
浏览 0
提问于2011-01-18
得票数 1
1
回答
你好 可以把您那个
爬
取
二手房价信息的那些个源代码发我一份不?
、
、
Scrapy
爬
取
二手房信息+可视化
数据
分析 谢谢
浏览 95
提问于2021-12-30
0
回答
能否用腾讯云函数更新小程序云
数据
库?
、
、
、
、
小程序云函数不支持python,所以想用python写腾讯云函数
爬
取
数据
更新小程序云
数据
库
浏览 334
提问于2020-09-10
1
回答
Manifoldcf文档爬行速度慢
、
、
、
、
我们使用ManiFoldCF documentum连接器从DCTM存储库中抓取
数据
,并将抓取的
数据
写入
MongoDB
。使用节流值500触发了
爬
网。但是
爬
网速度非常慢,连接器每分钟只能提取170个文档。安装MCF的服务器配置有足够的内存和8个逻辑核心(CPU)。有人能帮我们提高爬行速度吗?
浏览 19
提问于2019-01-16
得票数 0
0
回答
ddproperty历史
数据
采集?
之前从一个国外站看到过抓取泰国房产
数据
的抓取,https://www.barkingdata.com/?crawlers/ddproperty-crawler.html 不知道国内有没有谁搞过这个 ,要
爬
取
18年之前的历史
数据
浏览 76
提问于2022-05-10
5
回答
微信小程序如何从MySQL获取
数据
显示到小程序上?
、
、
我是一个研究小程序3天的 新手,就是现在想做一个类似于网易新闻样式的小程序,前台从eclipse
爬
取
数据
到MySQL,然后小程序读取MySQL中的
数据
显示到小程序中。
浏览 7368
提问于2018-05-07
回答已采纳
2
回答
大神有没有研究过美团的_token生成方法?
、
、
如题,我最近在做一个
数据
分析,想要用到美团的美食信息,于是就想用python
爬
取
美团的
数据
,但是在构造爬虫的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2250
提问于2018-09-12
1
回答
SQL全文索引,ASCII控制字符
、
、
、
在进一步的调查中,我发现可疑
数据
包含ASC控制字符()。我的表是一个简单的平面结构,如果任何行包含这些字符中的一个,则不会显示结果。 只要我替换
数据
中的字符,结果就会出现。我可以从
数据
库中删除这些字符,但如果能确认并了解原因会更好。任何帮助都将不胜感激。
浏览 0
提问于2013-09-02
得票数 0
1
回答
nutch + mysql集成
当nutch在索引阶段完成它的循环(即
爬
取
-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch使用我的代码将所有抓取的
数据
(我相信他将它们作为NutchDocument对象)
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
1
回答
如何在使用节点时爬行jquery站点
、
、
、
我应该
爬
但我怎么才能爬上这个网站。我想它是用jQuery的。有些人说你应该使用ajax。但是我将包含
mongodb
的
数据
库,所以我将使用node.js,如何才能做到这一点?
浏览 8
提问于2016-10-05
得票数 1
回答已采纳
1
回答
转换浏览器cookies并在cURL
爬
网中使用
、
、
首先,这样做的目的是
爬
取
我们的一个登录应用程序,并获取有关作业运行的
数据
,而我可能无法通过任何其他方式获取这些
数据
。
浏览 3
提问于2015-11-18
得票数 0
1
回答
将GSA配置为仅对文件元
数据
进行
爬
网,而不对内容进行
爬
网
、
在GSA (Google Search Appliance)中,我正在研究如何让它只搜索元
数据
(名称、类型、大小、上次修改时间等),而不是文件的内容。归根结底,文件的元
数据
是公开的,但文件的内容是受限制的。虽然这似乎是一个安全方面的问题,但它稍微多了一点,因为我不希望GSA在索引中存储任何关于文件内容的信息。假设GSA服务器不受信任,无法
保存
内容。这只适用于整个
数据
集的一小部分。 关于如何将GSA和连接器配置为仅
爬
取
元
数据
而不是内容,您有什么想法吗?
浏览 2
提问于2012-02-23
得票数 0
回答已采纳
1
回答
关于正则表达式的问题?
、
、
、
、
图片哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要的
数据
浏览 117
提问于2023-09-27
2
回答
Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢?
、
、
请任何人让我知道,我如何才能识别更新的网址去重新抓取?当页面要重新爬行时,我只想抓取页面的更新内容,而不是已经抓取的旧内容。提前谢谢。普拉亚..。
浏览 0
提问于2012-04-20
得票数 0
2
回答
您可以使用键值存储作为应用程序的主
数据
库吗?
、
、
、
但是,我不确定您是否可以将其用作主要(或至少是唯一的)
数据
存储。也就是说,您需要其他能够
保存
可搜索/可查询
数据
的东西。 我是不是遗漏了什么?为了查询您的
数据
,您需要有索引,但据我所知,键值存储没有索引功能。我是否需要手动实现索引,或者我是否试图使用错误的工具来完成这项工作?
浏览 0
提问于2010-10-17
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬取数据不保存,就是耍流氓(3)
将爬取的数据保存到MySQL 数据库
Scrapy 爬虫(3):爬取数据不保存,就是耍流氓
实现《顶点小说网》全站爬取及MongoDB数据库存储
淘宝数据爬取
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券