腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用Solr-spark和Alluxio进行
索引
:无法访问Alluxio中的文件
、
、
、
、
我正在使用java将文档
索引
到solr。当我
索引
计算机中的文件时,我的代码工作得很好。但是当我尝试
索引
位于alluxio中的文件时,我遇到了一个异常"No fileSystem for scheme: alluxio“。我已经在我的pom中添加了alluxio依赖项。loadDocuments( 在SparkRead中,我从
浏览 7
提问于2018-07-13
得票数 0
1
回答
FailedCount: 1.在
Hadoop
上运行Lucene search
、
、
我使用一个大文本文件中的每个记录对Lucene的
索引
执行搜索,然后根据需要处理结果并写入输出。
hadoop
jar $
HADOOP
_HOME
浏览 1
提问于2012-07-29
得票数 0
1
回答
如果我们要用
Hadoop
和Solr做一个搜
索引
擎,NUTCH的作用是什么?
、
、
我想做一个搜
索引
擎。我想在其中爬行一些网站,并将其
索引
和信息存储在
Hadoop
中。然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于
hadoop
的搜
索引
擎。以下是我的一些问题:2) Solr有什么用?如果NUTCH完成了抓取,并将抓取的
索引
和信息存储到
Hadoop
中,那么
浏览 2
提问于2012-09-06
得票数 3
1
回答
如何在DRUID中格式化TSV文件?
、
和这部分是我的实际数据: Bob bobj@gmail.com 1468839687比利琼斯BillyJ@gmail.com 1468839769 "type" : "index_
hadoop
", "ioConfig" : { "inputSpec1)我注意
浏览 5
提问于2016-07-21
得票数 0
1
回答
Sphinx和大数据
、
、
、
、
我想使用全文搜
索引
擎,我决定成为Sphinx。但我正在使用
hadoop
和大数据平台,而Sphinx Search与mysql DB兼容,无法处理大数据。那么,有没有办法将Sphinx用于大数据环境,如
hadoop
或HDFS或任何其他nosql数据库?
浏览 2
提问于2015-10-07
得票数 0
2
回答
在
Hadoop
上运行Lucene/Solr的最佳方式是什么?
、
、
、
、
我们在一个具有1TB EBS卷的Amazon Web Services EC2实例上运行Solr来存储
索引
,这样我们就可以轻松地启动具有相同(只读)
索引
的其他服务器。但是,我们的
索引
很快就会超过1TB,而我并不是真的想要对多个EBS卷进行条带化来保存
索引
。而且,重新生成
索引
的速度非常慢。我希望将
索引
生成--可能是托管--转移到
Hadoop
,最好是亚马逊的Elastic MapReduce,不过如果需要的话,我可以设置单独的
Hadoop
服务器。在
浏览 0
提问于2011-06-01
得票数 3
1
回答
nutch
索引
器FileNotFoundException:数据不存在
、
、
我正在运行nutch来抓取和
索引
solr。at org.apache.
hadoop
.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)at org.apache.
hadoop
.mapred.JobClient$2.run(JobClient.java:983) at org.apache.
hado
浏览 1
提问于2017-10-27
得票数 0
1
回答
如何构建基于
hadoop
和lucene的分布式搜索
、
、
我正准备使用lucence和
hadoop
制作分布式搜索模块,但我对以下内容感到困惑:
浏览 2
提问于2013-12-08
得票数 1
1
回答
PySpark + ElasticSearch:读取多个
索引
/类型
、
、
我正在使用Elasticsearch-
hadoop
连接器运行PySpark和Elasticsearch。我可以使用以下方法从所需的
索引
中读取: "es.nodes": "127.0.0.1", inputFormatClass="o
浏览 1
提问于2016-04-15
得票数 0
回答已采纳
1
回答
如何从Elasticsearch读取数据到Spark?
、
、
、
、
/bin/pyspark --driver-class-path=/path/to/elasticsearch-
hadoop
.jarrdd = sc.newAPIHadoopRDD("org.elasticsearch.
hadoop
.mr.EsInputFormat", "org.apache.
hadoop
.io.Null
浏览 1
提问于2016-03-14
得票数 1
回答已采纳
1
回答
使用
hadoop
和相关技术对大量不同格式的文档进行
索引
和搜索
、
、
在我们的组织中,我们试图围绕大数据、、
Hadoop
、和相关的生态系统开发一些能力。 我们正在考虑做一个概念的证明,我们的目标是存储,
索引
和搜索大量的PDF文件,电子邮件文档和word文档。如果是,那么它是
hadoop
用例吗?如果是这样的话,我们应该追求什么技术呢?我们尝试将PDF存储在HDFS中,并通过mapper作业并行地创建lucene
索引
,并将
索引
存储在数据节点本地临时目录中。但我们不确定我们是否做对了,如何使它成为适当的大数据
Hadoop
用例,以及如何在技术堆栈上做出决定,无论是
浏览 1
提问于2014-08-07
得票数 0
1
回答
如何在
hadoop
中进行lzo压缩?
、
我使用的
Hadoop
版本是0.20.2。("mapred.compress.map.output", "true") "org.apache.
hadoop
.io.compress.LzoCodec"); 当我在
Hadoop
中运行jar文件时,它显示了一个不能写入映射输出的异常。
浏览 2
提问于2013-02-11
得票数 1
2
回答
Hadoop
来创建一个
索引
,并将它添加到分布式SOLR中。这个是可能的吗?我该用Nutch吗?..Cloudera?
、
、
、
、
我可以使用MapReduce框架创建
索引
并以某种方式将其添加到分布式Solr中吗? 如果可以的话,我需要选择MapReduc
浏览 2
提问于2010-11-21
得票数 2
回答已采纳
1
回答
用
Hadoop
2.6.0-cdh5.7.1 (map-reduce)加载德鲁伊中的批数据时出错
、
,并在其中加载批处理数据时获得了错误,如下所示: java.lang.RuntimeException:at io.druid.indexer.JobHelper.runJobs(JobHelper.java:343) ~[d
浏览 1
提问于2016-10-20
得票数 0
2
回答
如何使用Solr搜索
hadoop
集群中的数据库
、
、
我目前在
hadoop
集群中有许多数据库,希望将这些数据库中的一些表
索引
到Solr
索引
中以进行搜索。有没有办法做到这一点?或者是否有某种机制可以在
hadoop
本身中执行这种搜索?
浏览 2
提问于2012-06-20
得票数 1
回答已采纳
1
回答
Apache,HBase,
Hadoop
,Solr,Gora中的混乱
、
、
、
、
Solr: Solr可以用于为Apache爬行的网页建立
索引
。它有助于搜索
索引
网页。戈拉和ZooKeeper:我不确定。HBase是一个键值对DB还是仅仅是
Hadoop
的一个接口?或者我应该问,没有
Hadoop
HBase还能存在吗?如果
浏览 3
提问于2015-03-26
得票数 0
1
回答
当在AWS上的
Hadoop
输出上使用LZO时,它是否对文件(存储在S3上)进行
索引
,以便将来自动拆分?
、
、
、
我想在我的弹性地图减少作业的输出上使用LZO压缩,该输出存储在S3上,但不清楚这些文件是否被自动编入
索引
,以便将来在此数据上运行的作业将文件拆分为多个任务。例如,如果我的输出是一堆TSV数据行,在1GB的LZO文件中,未来的映射作业将只创建一个任务,或者类似于(1GB/blockSize)任务(即文件未被压缩时的行为,或者如果目录中有一个LZO
索引
文件)吗编辑:,如果这不是自动完成的,那么建议如何使我的输出被LZO
索引
?在将文件上传到S3之前进行
索引
吗?
浏览 3
提问于2012-10-22
得票数 4
回答已采纳
2
回答
Hadoop
是否适合为50 to数据集中的100字节记录提供服务?
、
我们有一个问题,即
Hadoop
是否适合不需要运行应用程序,但需要非常快的读写少量数据的简单任务。要求是能够以每秒30的速率写入具有两个
索引
的大约100-200字节长的消息,同时能够以大约每秒10的速率读取(通过这两个
索引
进行搜索)。总数据量预计将达到50-100 gb,并将通过删除较旧的记录来保持此速率(类似于删除超过14天的记录的每日任务)谢谢你,尼克
浏览 2
提问于2012-06-15
得票数 0
3
回答
Hadoop
Map/Reduce -执行以下操作的简单使用示例
、
、
、
我想利用
Hadoop
来完成这项任务。我的想法是,将会有“作业”,它从MySQL中提取,比如说,100条记录(行)的块,根据给定的搜索条件对它们进行验证,返回符合条件的(ID)。 赞成/反对?我知道有人可能会认为我应该使用简单的SQL功能,但问题是JSON对象结构相当“笨重”,如果我把它作为SQL模式,将至少有3-5个表连接,这(我试过了,真的)造成了相当令人头疼的问题,并且构建所有正确的
索引
消耗;-)即使这样,每个SQL查询都必须进行分析才能利用
索引
,否则使用全扫描从字面上来说是一种痛苦。对于这样的结构,我们唯一的“向上”方法就是
浏览 0
提问于2010-04-22
得票数 2
回答已采纳
1
回答
是否可以使用elasticsearch-
hadoop
/spark动态创建带有格式化日期的Elasticsearch
索引
?
、
、
虽然我可以做到这一点,但我无法理解的是如何写入一个动态命名的
索引
,该
索引
格式为‘index _name-{ts_col:{YYYY dd}’,其中'ts_col‘是数据集中的一个日期时间字段。在创建
索引
之前,它似乎首先检查
索引
是否存在,但它传递的是未格式化的
索引
名,而不是动态创建的
索引
名称。我已经尝试使用模块使用相同的语法创建
索引
,但是它不能处理动态
索引
名。是否有任何解决方案可供我使用,或者我是否必须在spark中循环我的数据集以找到所表示的
浏览 23
提问于2017-02-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop Hadoop中的推测执行
Hadoop 介绍
你也能看懂Hadoop——Hadoop生态体系
Hadoop基础 1
Hadoop之MapReduce
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券