腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Elasticsearch HTTP API或
python
API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个
技术
问题。真正的问题如下所示。哪种
技术
更适合我的场合?elasticsearch
python
API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
1
回答
如何在
python
中创建基本语义搜索
、
、
、
、
我想用
Python
写一个基本的语义网络
爬虫
,我知道语义应用程序使用RDF文件,但还有什么?我安装了一些
Python
RDF模块,并且开始学习它们是如何工作的。你能向我介绍一下语义应用程序中使用的
技术
和技巧吗?
浏览 0
提问于2011-08-08
得票数 5
回答已采纳
1
回答
抓取器正在获取相关链接。
、
我已经创建了一个使用scrapy.The
爬虫
爬虫
的网站和抓取链接。**所使用的
技术
:**
Python
,Scrapy Error抓取相对urls,因为刮刀器无法抓取网页。我要
爬虫
只取无源网址。
浏览 2
提问于2021-06-29
得票数 1
1
回答
抓取
爬虫
:无法将多个urls存储到postgres中
、
、
我使用刮伤
python
.I创建了一个
爬虫
,我想将由
爬虫
获取的多个urls存储到postgres table.When中,启动
爬虫
,抓取urls并将表创建到postgres中,但是数据没有被存储。使用的
技术
: Scrapy错误:我无法存储所有的urls.The
爬虫
并不适用于所有的网站。
浏览 0
提问于2021-12-15
得票数 0
2
回答
测试我的网站在程序中是如何显示的
、
、
、
、
网站不仅可以被浏览器上的用户访问,还可以被程序、机器人和
爬虫
访问。我有一个运行在上的带有
python
的网站,它具有由
python
程序通过组合、合并和循环字符串生成的非静态HTML页面。
python
生成内容完全是为了方便、简洁和易于维护,并且完全由url设置。 一些搜索引擎无法对动态页面进行索引。我想知道这些页面是否符合“动态”,即它们是否可以被这类机器人为通常的元数据和内容进行爬行或索引,并且通常希望有一种方法来检查任何url在机器人或
爬虫
中是如何出现的,比如搜索引擎使用的url,这样我就可以看到某个如果
浏览 5
提问于2012-01-09
得票数 0
回答已采纳
2
回答
如何使用
Python
将德语单词转换为英语?
、
我正在尝试抓取一个德语网站,我需要将抓取的数据从德语转换为英语。现在,我所做的是我点击了第三方网站来为我做这个过程。在此,我附上了我尝试过的代码,如下所示:import urllib2import reimport stringimport socket base_url = 'http://translate.reference.com/
浏览 0
提问于2015-05-02
得票数 3
1
回答
最好的
爬虫
确定与
技术
建设?
Builtwith.com和类似的服务(收费)提供了使用SalesForce或NationBuilder等特定
技术
构建的域列表。有一些
技术
,我感兴趣的,与建设不扫描,可能是因为他们太小的市场存在。如果我们知道某个网页的某些签名显示了一种
技术
是用于一个网站,什么是最好的方式来识别尽可能多的这些网站?我们预计有1000个网站,我们感兴趣的是那些排名前一千万的网站。(我们不认为最大的网站使用这种
技术
。) 我有一个开源网络
爬虫
列表-- --但是我的用例似乎与
爬虫
的许多常规标准不同,因为我们只想
浏览 2
提问于2017-03-28
得票数 3
回答已采纳
1
回答
Scrapy Crawler:避免重复抓取URL
、
我创建了一个
爬虫
使用Scrapy.The
爬虫
正在抓取网址的网站。使用的
技术
:
Python
Scrapy问题:我有重复的URL。我需要的输出是:我希望
爬虫
抓取网站的网址,但不爬行重复网址的。
浏览 32
提问于2021-06-29
得票数 0
3
回答
Kentico 10使用的Web Crawler引擎
、
根据文档,是否有更多关于Kentico 10使用的网络
爬虫
技术
/引擎的信息?我之所以问这个问题,是因为我想把它用于一个定制的
爬虫
项目,这个项目可以位于Kentico之外,并且仍然允许它与Kentico平台具有内在的兼容性。
浏览 0
提问于2017-08-31
得票数 7
回答已采纳
1
回答
用于建立网站结构和功能模型的图表
、
、
模型的目的是向
技术
人员(其他软件开发人员和工程师)传达网站的体系结构和功能。我倾向于使用的图表是组件图(用于通信体系结构)和序列图(用于传递HTTP请求的功能)。你过去用过哪些图表来向
技术
人员传达网站的架构和功能?
浏览 0
提问于2013-04-07
得票数 4
1
回答
如何使用web
爬虫
获取开放url和获取其内容
、
我正在尝试使用网络
爬虫
从体育、主页、世界、商业和
技术
中获取新闻内容,我有这样的代码,它可以抓取页面的标题和url,如何获取页面的url并打开它并获取它的正文内容。#
python
codefrom bs4 import BeautifulSoup page = requests.get
浏览 2
提问于2021-11-30
得票数 0
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
2
回答
SEO + ViewState =只适用于
爬虫
?是隐形吗?
、
、
这里有足够多的问号,所以我想避免这种
技术
。我对这两种情况都不满意,也找不到更多关于这个话题的东西。我潜在的解决方案是,只有当ViewState是一个
爬虫
时,才将UserAgent移动到页面底部,从而将这些
技术
结合起来。
爬虫
不使用ViewState,所以将ViewState
浏览 0
提问于2013-05-01
得票数 2
3
回答
聚合器是如何构建的?
、
、
、
比方说,我想要从许多来源(可以是旅行、
技术
或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢?或者Kayak.com如何聚合他们的数据?(这是一项旅游聚合服务。)
浏览 2
提问于2009-05-29
得票数 14
1
回答
在性能方面,为什么facebook不一次加载所有的JS文件?
、
所以,虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件),但我的问题是更通用的网站和网络
爬虫
的状态。我们应该担心这些
技术
(通过ajax加载主要内容)会影响网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/js/css)似乎是个好主意,但如果
爬虫
不能使用(当然是内容),就不是一个好主意。 谢谢!
浏览 2
提问于2013-03-18
得票数 3
1
回答
抓取AJAX请求
、
、
基于日志,
爬虫
试图像正常gets一样访问这些AJAX方法,因此我的应用程序会记录错误。我将这些AJAX方法设置为不可爬行,这意味着当请求不是AJAX调用时,我将返回404。这是最好的方法吗?
浏览 4
提问于2014-11-03
得票数 0
3
回答
寻找关于搜索引擎背后的理论的好书
、
、
我正在做一个项目,要求我理解搜索引擎在网络上使用的不同
技术
。我是全新的学科,我正在寻找有用的资源和书籍的主题。如有任何建议,敬请见谅。
浏览 0
提问于2011-09-03
得票数 8
回答已采纳
2
回答
风暴
爬虫
-
技术
栈和Apache Nutch
、
、
、
我听说Apache可以解决这个问题,但遗憾的是,它所需要的
技术
栈已经相当陈旧了。我不想把hadoop从2.6降到更早的版本,Elasticsearch降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我使用Hadoop2.6、ElasticSearch2.0和Hbase 1.1.3,有人能告诉我是否可以使用风暴
爬虫
0.9吗?
浏览 3
提问于2016-04-06
得票数 1
回答已采纳
1
回答
试图创建一个简单的
python
web
爬虫
、
我已经决定学习
python
2.7编码的数据分析,并一直在youtube上观看许多教程,以了解基本知识。我正处于这样的阶段,我想为了教育目的而创建简单的网络
爬虫
,只是为了学习不同的
技术
,并且只是习惯了一些编码。 我遵循一个网站
爬虫
教程,但我不确定一些事情。
浏览 0
提问于2016-10-31
得票数 0
回答已采纳
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大佬分享爬虫的例子,教你快速掌握Python爬虫技术!
自学Python爬虫技术需要做哪些准备?
Python爬虫入门3 爬虫必备Python知识
Python爬虫
Python爬虫:多线程下载技术电子书
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券