腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
9
回答
为什么像Vertica/InfoBright/GreenPlum这样的面向列的数据库会对Hadoop大惊小怪?
、
、
、
馈送Hadoop集群并使用该集群将数据馈送到Vertica/InfoBright数据仓库有什么意义? 所有的供应商都在说“我们可以连接Hadoop",但我不明白这有什么意义。在Hadoop中存储并迁移到InfoBright中有什么意义?为什么不让应用程序直接存储在Infobright/Vertica DW中? 谢谢!
浏览 6
提问于2011-11-25
得票数 5
1
回答
Hadoop平台下的测试
、
、
、
在进行web开发时,我们可以使用工具和方法来测试我们的应用程序,例如单元测试(jUnit,rspec,.),TDD,BDD,process,端到端/回归/集成测试,H2 (如在过程数据库中),. 但在Hadoop和大数据世界里, --如何测试hadoop/ hive /pig代码?的意思是,如果我有一个示例输入,那么当我触发一些hive或pig脚本时,我将验证输出是否与预期的一样。 关于更多的细节,是否有办法快速获得这些自动化测试的反馈?更具体地说,如何在内存中运行HDFS?在带有SQL数据库的Java中,我们使用H2来获得这种快速反馈。 或者更广泛地说,人们在Hadoop平台上使用的测试策略
浏览 3
提问于2014-06-06
得票数 3
回答已采纳
1
回答
同步仪表板平台:如何快速制作仪表板?
、
、
、
、
我设置了同步仪表板平台来处理一些导入的测试数据(同步大数据)。 我用Hadoop使用Integration进行导入(文件以Avro格式存储)。 然后,我通过Spark将Avro数据从Hadoop放到Hive表(将Avro转换为表),总共有400行。 然后,我在仪表板平台上使用这个Hive2作为数据资源。 然后,我试图获取数据,它的工作非常缓慢。 有人能指点我怎么弄清楚吗?默认情况下,同步中的设置。 谢谢!
浏览 3
提问于2017-06-29
得票数 0
3
回答
蜂巢-它适合建一个数据仓库吗?
、
、
因此,和大多数企业公司一样,我们在Hadoop中建立了一个数据仓库,在Hive中支持用户查询,现在,经过几个月的用户接受测试之后,每个人都对最终用户使用它不是标准(Oracle/Netezza)数据库进行即席数据分析感到有点惊讶。虽然我知道这可能是一种非常愚蠢的项目执行方式(我们应该在构建产品之前研究用例和最佳匹配技术),而且我知道Hadoop与单节点机器有何不同的基本技术方面。我仍然想了解,在任何情况下,使用Hadoop/Hive是否对数据仓库有意义?例如, 查询性能是否总是存在权衡,或者是否可以通过配置更改、硬件的横向缩放来优化? 它能像Netezza一样快吗?Netezza使用非
浏览 0
提问于2019-01-17
得票数 0
回答已采纳
2
回答
为什么是Hadoop还是火花?有ElasticSearch
、
、
实际上,这里也有类似的问题: 但答案并不能让我满意。 我的问题很简单: 当ElasticSearch存在时,我们为什么要使用Hadoop或Spark? 哈德奥普或星火有,ElasticSearch 没有什么? 如果算法是答案,我相信我在创建算法方面也不比Kimchy好。在Hadoop或Spark中,我们需要创建自己的算法。再说一遍,为什么仍然是Hadoop或火花? 答案是:"Elasticsearch是一个分布式搜索引擎,不应该用作数据仓库。“ 为什么不将其用作数据仓库? 谢谢并致以最良好的问候, 里斯基·苏纳约
浏览 5
提问于2015-03-23
得票数 7
1
回答
色调到底是怎么回事?
、
我是大数据新手。我想知道关于Hue的事。关于Hue,我只知道它是一个管理Hadoop生态系统的web界面。请让我知道,如果我可以安装在我的电脑(Ubuntu精确)。我在伪分布式模式下运行Apache Hadoop 1.2.1,其中包含PIG和HIVE 提前感谢
浏览 0
提问于2014-06-09
得票数 10
回答已采纳
1
回答
IBM BigInsights (IBM Hadoop) vs IBM Watson
、
、
IBM Watson和IBM Inforsphere BigInsights (IBM Hadoop)/Streams之间的区别是什么?沃森带来了什么BigInsights不会带来的东西?
浏览 4
提问于2015-06-17
得票数 4
1
回答
将数据从SQLDB复制到hadoop
、
、
、
、
我正在研究一个用例,我们将把数据从SQL数据库(600TB ~100个表)转换成hadoop格式。我们在SQL DB中没有启用日志。我们决定将数据复制为datamart视图,并每周刷新该视图。复制的数据将每周被删除,以便重写。 此SQL DB用于从datalake派生的报表目的。这个OLTP数据库是一个我们正在逐步取代的旧系统。每周删除复制的数据集并再次复制(刷新)。 80%的数据副本是直接的,没有transformation.20%重新设计。 我们确定了3种选择: 用于处理excludedKafka (informatica) ETL(Informatica)的AirFlow + Beam与
浏览 1
提问于2020-11-17
得票数 0
10
回答
我需要学习Hadoop才能成为一名数据科学家吗?
、
一位有抱负的数据科学家。我对Hadoop一无所知,但当我一直在阅读有关数据科学和大数据的文章时,我看到了很多关于Hadoop的讨论。学习Hadoop成为一名数据科学家是绝对必要的吗?
浏览 0
提问于2014-06-10
得票数 39
回答已采纳
2
回答
剖析猪查询
我试图分析一个猪的查询,但到目前为止还没有任何有用的东西。 我试图测量CPU,磁盘I/O,RAM的使用情况。 有人能指点我吗? Things到目前为止尝试过 海星--与Hadoop作业一起工作,但与猪一起工作--不支持猪查询。 Hprof -与Hadoop作业一起工作,但不使用Pig查询。-只为Hadoop作业生成配置文件 Hadoop和pig作业都在同一个集群中执行。 谢谢你的阅读!!
浏览 2
提问于2012-04-19
得票数 1
2
回答
是否有可能更新已经用S3编写的数据?
、
、
、
、
谢谢你调查我的问题。我很感激。 所以我是这个领域的新手.然而,我正在考虑用S3替换当前使用Hadoop的数据,但在此之前,我想知道是否有可能更新已经用S3编写的数据。 Hadoop作为HDFS,您只写一次,多次读取,这不允许我更新已经写入的数据。我有一个RDB,我想集成到Hadoop中,但是失败了,因为这个RDB需要及时更新。我听说过S3,您可以使用雅典娜或其他允许我更新的中间件,这也许可以解决我前面提到的Hadoop问题。 非常感谢您的阅读,如果您能分享您的知识,我将非常感谢。谢谢:)
浏览 3
提问于2020-09-07
得票数 1
回答已采纳
1
回答
Hadoop,蜂箱,动物园管理员等
、
、
我开始了解hadoop。我对它有了一些了解,但是当我读到关于Hive,Pig和其他Apache工具时,我感到很困惑。因此,有人能简单地概述一下hadoop和Apache的工具(Hive、Pig、等),我想知道它们在处理大数据时是如何和在哪里使用的。
浏览 3
提问于2014-05-20
得票数 0
回答已采纳
1
回答
我们能用卡桑德拉代替哈多普和星火吗?
、
、
、
、
考虑到我们有一个用NodeJS编写的后端,并且使用MySQL和Cassandra作为数据库,如果我们想在系统中添加Spark来做一些数据分析工作,比如推荐,我们是否可以使用Cassandra(我是说使用Spark + Cassandra)并达到与Hadoop( Spark + Hadoop)相同的结果? 我想知道Hadoop能做卡桑德拉不能做的事吗?或者是什么使得使用Hadoop和火花一起使用是必要的?
浏览 0
提问于2022-11-29
得票数 2
2
回答
GCP Hadoop数据仓库?
、
、
我知道Google BigQuery是一个数据仓库,但是Dataproc、Big Table、Pub/Sub被认为是数据仓库吗?这会使Hadoop成为一个数据仓库吗?
浏览 2
提问于2018-09-24
得票数 1
回答已采纳
1
回答
Hadoop、HBase和Hive中的性能问题
、
、
、
我正在将数据从SQL迁移到Hadoop,其中我也使用了HBase & Hadoop。我已经成功地将数据从SQL导入到Hadoop、HBase和Hive。但问题在于系统的性能。在SQL中,我在5-10分钟内得到了数百万条条目的结果,但是从HBase & Hive获取1000万个数据需要花费大约1小时的时间。有人能帮我提高Hadoop系统的性能吗?
浏览 5
提问于2015-11-20
得票数 0
回答已采纳
2
回答
为什么在最新的Hadoop中没有内存计算功能?
、
、
我们都知道,Spark使用RAM存储处理过的数据,Spark和Hadoop都使用RAM进行计算,这使得Spark可以以极快的速度访问数据。但是,如果这是一个有很大区别的东西(除了钨和催化剂),我们可以把它添加到Hadoop中。为什么我们没有仅仅改变Hadoop中的存储例程(在内存中使用它),而不是完全发明一个不同的工具(Apache )?是否还有其他限制阻止Hadoop在内存存储中实现?
浏览 0
提问于2021-01-16
得票数 1
回答已采纳
1
回答
关于向大数据迁移的疑问
、
、
、
我对hadoop有一些疑问 在cloudera发布的一段视频中,一位教师告诉我们,在hadoop有HDFS。每个文件将作为一组卡盘或块存储。每个块将在不同的机器中复制三次,以最小化故障点。每个映射器将处理单个hdfs块。 从这些逻辑中,我感觉到如果我有一个服务器,它有大约100个peta字节的日志,与hdfs不同,这些日志不是存储在传统文件系统中的。 主要疑问1.现在,如果我想使用mapreduce技术有效地分析这个巨大的数据,那么我必须在一个运行hdfs的新服务器中传输数据,并且拥有三倍于旧服务器的存储空间。 在另一段视频中,cloudera..the指导员也清楚地提到,我们
浏览 4
提问于2014-11-25
得票数 0
7
回答
Hadoop Vs数据湖
、
、
我听说了数据湖这个新名词。我在谷歌上查到了 数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。 术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下,组织的数据首先加载到Hadoop平台,然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。 Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的,为什么会出现这个词。或者如何定义数据湖。
浏览 8
提问于2016-03-14
得票数 16
1
回答
ElasticSeach从Apache Hadoop读取数据
、
我们正在尝试将Elasticsearch应用到我们的大数据环境中。目前我们运行的是Apache Hadoop 2.7,包括Hive和Spark。在Hadoop中以Parquest格式存储数据。 当我们在我们的环境中实施ELK时,我们只能将数据存储到Hadoop HDFS中吗?或者,我们必须从Hadoop中提取数据并导入到Elasticsearch中,以便创建索引,但我们在系统中有重复的数据集(Hadoop HDFS和ElasticSearch) 谢谢。
浏览 0
提问于2020-06-14
得票数 1
1
回答
使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
、
、
在我们的组织中,我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。 我们正在考虑做一个概念的证明,我们的目标是存储,索引和搜索大量的PDF文件,电子邮件文档和word文档。首先,我想知道这是一个大数据用例吗? 如果是,那么它是hadoop用例吗?如果是这样的话,我们应该追求什么技术呢? 我们尝试将PDF存储在HDFS中,并通过mapper作业并行地创建lucene索引,并将索引存储在数据节点本地临时目录中。 但我们不确定我们是否做对了,如何使它成为适当的大数据Hadoop用例,以及如何在技术堆栈上做出决定,无论是Hadoop还是no SQL db,还是SOLR等等。 我们的目标
浏览 1
提问于2014-08-07
得票数 0
3
回答
MapReduce连续执行
、
、
、
我正在使用Hadoop将现有的时间序列数据库系统转换为MapReduce模型。该数据库系统具有历史处理能力和实时处理能力.到目前为止,我能够将批处理功能转换为Hadoop。 不幸的是,当涉及到实时处理时,我发现与MapReduce模型存在一些概念上的不一致。 我可以编写我自己的Hadoop的InputFormat接口的实现,它将不断地向映射器提供新的数据,以便映射器能够处理并不断地发出数据。但是,由于在所有映射器都完成其执行之前不会调用reduce()方法,所以我的计算肯定会停留在映射阶段。 我见过一些提到mapred.reduce.slowstart.completed.maps的帖子,但据
浏览 2
提问于2014-02-25
得票数 4
回答已采纳
3
回答
是否有一些Pig实时用例可用?
、
请给我提供实时猪使用案例。银行业和医疗保健行业将会有很大帮助。同样好奇的是,Pig是否可以在Hadoop世界中用作ETL工具。
浏览 1
提问于2016-07-17
得票数 0
4
回答
如何可视化蜂箱数据?
、
、
、
我需要一种可视化的方法来显示蜂巢中的数据。我正在centOS上运行一个自定义多节点hadoop集群,其中包含两个从站(Datanode)和一个主节点(Namenode)。我已经尝试过tableau,但是它只兼容cloudera、hortonworks等打包的集群,而不是像我这样的定制集群。 任何帮助都将不胜感激。 谢谢。
浏览 11
提问于2017-03-23
得票数 0
回答已采纳
3
回答
基于hadoop的数据可视化工具
、
、
、
请建议一些可视化工具,可以在Hadoop上工作。 唯一的问题是,它应该接受Hive。
浏览 4
提问于2014-03-10
得票数 6
回答已采纳
3
回答
对于hadoop来说,java是必需的吗?
、
、
、
有人知道是否有必要了解java来学习hadoop吗?如果有人在hadoop上工作,那么请告诉我们在hadoop工作需要什么? hadoop的确切用途是什么?在hadoop之前有什么?hdfs和gfs有什么区别? 我知道有很多问题,但如果有人能帮忙..。那对我来说会很好。 多谢各位。
浏览 11
提问于2015-09-06
得票数 1
1
回答
Datastax节点基础
、
、
、
我试图在datastax企业集群中设置hadoop节点和cassandra节点。在这一点上,有两件事我不清楚。第一,我需要多少hadoop节点?卡桑德拉节点的数目相同吗?这些数据还存在于卡桑德拉节点上吗?第二,教程提到我应该在hadoop节点上禁用nodes。我还可以在集群中的cassandra节点上使用nodes吗?谢谢。
浏览 3
提问于2014-11-21
得票数 0
回答已采纳
1
回答
hadoop存储目录使用的空间大于HDFS上的总数据。
、
、
我有一个具有复制因子= 3的三节点hadoop集群。 每个系统的/app/hadoop/tmp/dfs/是存储目录。 每个数据节点系统的硬盘容量为221 of。 HDFS的有效数据为62 of,replication 62*3= 186 of。 现在的问题是,尽管660 GB集群上只有186 GB的数据,但我仍然缺乏存储空间: HDFS显示了在可用空间上的巨大差异: datanode1 =7.47GB datanode2 =17.7GB datanode3 =143 GB 为了确保hadoop本地存储使用这些空间,我在每个datanode上运行了这个命令。对于datanode1 du -h -
浏览 6
提问于2012-09-18
得票数 1
1
回答
Hadoop和Google Cloud Storage Connector的问题
、
、
我已经通过google控制台中的Deployment界面部署了一个hadoop集群。(Hadoop 2.x) 我的任务是过滤存储在一个Google Storage (GS)存储桶中的数据,并将结果放到另一个存储桶中。因此,这是一个简单的python脚本的地图作业。请注意,集群和输出存储桶位于同一区域(EU)。 利用Google Cloud Storage Connector,我运行以下流作业: hadoop jar /home/hadoop/hadoop-install/share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar \ -D mapred
浏览 1
提问于2015-11-05
得票数 1
1
回答
Elasticsearch-Hadoop获取非索引数据
、
、
、
、
我有一个elasticsearch集群,它有大量的数据。我想将elasticsearch中的所有数据提取到Hadoop(Hive)中。为了使用Hive外部表从elasticsearch提取数据,我使用了Elasticsearch-Hadoop驱动程序,但是它太慢,总是失败。 我的第一个问题是从现有的elasticsearch集群中获取所有数据。第二个问题是在一天或一小时内复制所有流到HDFS上的elasticsearch中的数据。 我怎样才能做到这些呢? 提前谢谢。
浏览 4
提问于2015-03-13
得票数 1
回答已采纳
1
回答
猪窝Hbase的不同之处
、
、
、
我是hadoop技术的新手。我正在尝试弄清楚这些Pig Hive和Hbase用于哪种类型的数据(结构化、非结构化、半结构化)? 在哪种情况下使用哪种工具更有效?
浏览 3
提问于2015-01-05
得票数 0
1
回答
如何在多个oracle数据库中实现数据分析?
、
、
、
我对数据分析和大数据概念很陌生。我坚持要决定实现我的需求的技术是什么。 我的需要如下: 我的客户正在使用多个oracle数据库作为其组织的ERP后端。这两个数据库具有不同的结构和不同的数据类型。我需要用这两个数据库的数据创建一个数据分析应用程序。什么样的技术可以由我来适应这个实现。我可以使用Hadoop和它的相关应用程序吗? 如果我使用hadoop,如何将我的oracle数据库同步到hadoop。我正在寻找一个解决方案与实时同步。 或者可以使用本机与数据库的连接来实现数据库访问并创建新的应用程序?数据库的规模将在1.5 TB左右。
浏览 1
提问于2017-05-08
得票数 0
回答已采纳
1
回答
寻找规模较小的类似Hadoop的解决方案
、
、
、
我们有一个大约1000 GB (千兆字节)的数据库,我们正在考虑使用Hadoop来执行时间序列分析。问题是Hadoop需要一些时间才能进入,而且对于我们的数据库大小来说,Hadoop实际上是一个超大的解决方案。我的问题是,是否有人知道更小规模的Hadoop类似的解决方案。它还需要一些类似SQL的查询语言。我脑海中唯一浮现的就是JBoss Infinispan.但我想看看是否有其他已知的解决方案。
浏览 1
提问于2013-11-20
得票数 2
2
回答
hadoop与mongodb和hadoop对mongodb
、
、
我试图理解mongoDB和Hadoop之间的关键区别。我理解mongoDB是一个数据库,而Hadoop是一个包含HDFS的生态系统。使用这两种技术处理数据的方式有一些相似之处,但也有很大的不同。 我不明白为什么有人会在Hadoop集群上使用mongoDB,主要是mongoDB比Hadoop具有什么优势。两者都执行并行处理,两者都可以与Spark一起用于进一步的数据分析,那么什么是一个比另一个的增值。 现在,如果要将两者结合起来,为什么要在mongoDB和HDFS中存储数据呢?MongoDB有map/reduce,所以为什么要将数据发送到hadoop进行处理,而且两者都与Spark兼容。
浏览 1
提问于2019-05-07
得票数 0
回答已采纳
1
回答
Ubuntu和Windows
、
、
目前我在Ubuntu工作。大数据。我的系统中没有Windows操作系统。我将在Ubuntu中安装hadoop。但我不知道windows是否必须和ubuntu一起使用。有人能告诉我,如果我可以继续使用hadoop而不带Windows的话,谢谢。
浏览 0
提问于2015-12-21
得票数 -1
1
回答
非集中式数据分析在Ethereum?
、
我感兴趣的是用分析方法(描述性统计、风险/欺诈评分、聚类分析、预测、.)、基本数据分析等方法分析实际交易和/或账户状况(存储)。 我已经理解,我可以将块链级db存储导出到分析数据库(SAS,Hadoop,.)并使用SQL甚至分析语言进行处理,如R、SPSS、SAS等。 但我的问题是:我能不能以一种非集中化的方式去做呢?我能为这样做写一份聪明的合同吗?智能契约是否具有这种能力并访问区块链状态?因为这些都是只读交易,所以要花我的钱吗? 更进一步:我是否可以将查询扩展到Ethereum网络中的所有节点(查询的大规模并行处理)?我知道每个事务都是由每个节点处理的,但是我可以将要完成的分析工作拆分成一种
浏览 0
提问于2016-07-22
得票数 4
3
回答
Hadoop用例场景
、
、
在我的一个项目场景中,我想对像Hadoop这样的大数据平台的使用有一些专家的看法。虽然我对像MySQL这样的数据库有很好的理解,但我在这项技术方面还是一个完全的新手。 我们正在开发一种产品,用于分析来自社交媒体的数据。因此,输入的数据将是大量的tweet、facebook帖子、用户配置文件、YouTube数据和博客等数据。除此之外,我还会有一个web应用程序来帮助我查看和分析这些数据。正如需求所表明的那样,我需要一种实时系统。因此,如果我有一条推文进来,我想让我的网页应用程序可以随时处理它。批处理数据处理可能不是我的应用程序的合适选择。 我的问题是: Hadoop引擎对我来说是个好选择吗?
浏览 0
提问于2014-08-09
得票数 2
2
回答
Cassandra上的数据分析和挖掘
、
、
、
我们在Cassandra中存储了大量来自不同网站的用户交互数据,如cookies、页面访问、广告查看、广告点击等。我们想要做的报道。我们当前的Cassandra模式支持基本的报告和查询。但是,我们也希望构建大型查询,这些查询通常涉及大型列族(包含数百万行)上的连接。 哪种方法最适合这种情况?一种可能性是将数据提取到mySQL等关系数据库中,然后在那里进行数据挖掘。另一种可能是尝试使用hadoop与hive或pig一起运行map reduce查询来达到此目的?我必须承认,我对后者毫无经验。 有没有人体验过其中一个与另一个的性能差异?您会在活动的Cassandra生产实例上还是在备份副本上运行ma
浏览 2
提问于2013-01-26
得票数 14
回答已采纳
1
回答
如何使用neo4j作为hadoop的输入?
、
我有一个很大的neo4j数据库。我需要检查整个图中存在的多个模式,我认为这在hadoop中很容易完成。但是,我不确定将元组从neo4j馈送到hadoop的最佳方式。有什么建议吗?
浏览 1
提问于2014-01-13
得票数 0
2
回答
使用python或hadoop进行数据分析?
、
、
哪种技术可以有效地分析数据hadoop或python?速度介于上述两者之间的是哪种技术?
浏览 61
提问于2018-07-30
得票数 -1
回答已采纳
2
回答
"Hadoop分布“的含义是什么
、
、
、
、
我是刚认识hadoop的。我最近读到了Apache,Pig,Hive,HBase的基础知识。然后我遇到了术语"Hadoop分发“,例如Cloudera、MAPR、HortonWorks。那么,Apache Hadoop (及其回波系统)与"Hadoop分布“的关系是什么? 它是否类似于Java虚拟机规范(文档)和Oracle JVM、IBM (文档的工作实现)?但是我们从Apache获得压缩,这实际上是逻辑实现的。 所以我有点困惑。
浏览 4
提问于2016-02-20
得票数 3
回答已采纳
1
回答
火花控制器与SAP Vora的区别
、
、
、
我有一个带有版本2SP 01的HANA Express服务器和一个带有Hortonworks数据平台2.6的Hadoop集群。在Hadoop集群上,我安装了Vora1.4和SparkController 2.1.1。 我看到了下面的视频,它解释了从一个HANA版本到另一个版本的变化: 在SPS 10中,火花控制器似乎是HANA / Hadoop交互的实际连接器。 但是,可能是,Vora是连接Hadoop和HANA的实际标准解决方案,在我的环境中不再需要火花控制器?或者火花源控制器对Vora有其他的优势/功能吗?
浏览 1
提问于2017-07-12
得票数 1
1
回答
在网络流量嗅探时,有没有办法过滤Hadoop数据包?
、
、
、
、
我的目标是识别与Hadoop集群相关的网络数据包,因为在我使用的集群中,还有其他生成与Hadoop无关的网络流量的服务。 我假设我的Hadoop集群只使用HDFS和MapReduce,而不是像HBase,Pig,Hive等其他应用程序。 有没有办法过滤Hadoop数据包?例如,如果Hadoop使用固定源或目标端口(至少一个,源或目标) 更新:我正在使用Apache Hadoop 1.0.3和libpcap来嗅探数据包
浏览 1
提问于2013-08-19
得票数 3
1
回答
Hadoop:只使用两台机器的缺点?
、
我想对大量数据进行日志解析,并收集分析信息。然而,所有的数据都来自外部来源,我只有两台机器要存储--一台作为备份/复制。 我在尝试使用Hadoop,Lucene..。来实现这一目标。但是,所有的培训文档都提到Hadoop对于分布式处理、多节点非常有用。我的设置不适合那个架构。 在两台机器上使用Hadoop是否有任何开销?如果Hadoop不是一个好的选择,还有其他选择吗?我们看过Splunk,我们喜欢它,但它对我们来说太贵了。我们只想建立我们自己的。
浏览 2
提问于2010-02-12
得票数 2
回答已采纳
1
回答
Cassandra(使用Hadoop)与Spark的性能
、
、
我们在与Cassandra不同的一组节点上运行Spark/Hadoop。我们有10个Cassandra节点和多个spark内核,但Cassandra没有在Hadoop上运行。通过spark(在yarn客户端模式下)从Cassandra获取数据的性能不是很好,从HDFS读取批量数据的速度更快(在Cassandra中为6分钟,在HDFS中为2分钟)。更改Spark-Cassandra参数也没有多大帮助。 在Cassandra上部署Hadoop会解决这个问题并主要影响读取性能吗?
浏览 18
提问于2018-07-27
得票数 0
1
回答
Hadoop localhost:9870浏览器接口不工作
、
、
我需要用Hadoop做数据分析。因此,我安装了Hadoop,配置如下。但是本地主机:9870不起作用。甚至我每次使用namenode时都有格式。本论坛的一些文章和答复提到,9870是从50070更新的。我赢了10,我在这个论坛上也提到了答案,但没有一个有效。设置了Java-home和hadoop-home路径.也设置了通向hadoop的bin和sbin的路径。有人能告诉我我在这里做错了什么吗? 我参考了这个站点来进行安装和配置。 core-site.xml 我也在这个xml中设置了Java路径。 <property> <name>fs.defaultFS</n
浏览 8
提问于2022-04-25
得票数 0
2
回答
WSO2 AM 1.8与WSO2 BAM 2.5的集成
、
、
通过引用本文档,我试图将WSO2 BAM 2.5与WSO2 am 1.8集成。..但是我在windows 7中配置了BAM控制台.I时出错了。任何帮助都可以修复if,提前感谢 误差 2015-01-13 14:34:03,045警告{org.apache.hadoop.security.ShellBasedUnixGroupsMapping} -试图获取用户org.apache.hadoop.util.Shell$ExitCodeException:组的异常 在org.apache.hadoop.util.Shell.runCommand(Shell.java:255) at org.apa
浏览 4
提问于2015-01-13
得票数 0
回答已采纳
1
回答
从Hadoop端查找关系数据库中的数据
、
、
我正在将SSIS解决方案转换为Hadoop,以便在数据仓库中进行ETL处理。 我的预期系统: ETL -登陆和分期(Hadoop) -放置--数据->数据仓库(MySQL) 问题是:在转换阶段,我需要从hadoop端(pig或mapreduce作业)在MySQL中查找数据。有两种解决办法: 1:克隆所有表都需要从MySQL查找到Hadoop。这意味着我们需要维护两个地方的数据。 2:查询直接到MySQL。我担心MySQL服务器上会有很多连接。 解决这个问题的解决方案/最佳实践是什么?还有其他解决办法吗。
浏览 1
提问于2013-10-04
得票数 0
回答已采纳
1
回答
R和Hadoop相关吗?
、
、
、
、
R和Hadoop相关吗?据我所知,这两种方法都用于大规模数据分析和计算。我还注意到Google和Facebook使用R,Mapreduce框架来自Google,他们使用它进行搜索。 R和Hadoop是否具有可比性?如果不是,那么每一个都有什么用途呢?
浏览 0
提问于2011-10-11
得票数 1
回答已采纳
1
回答
Datastax Enterprise 3.2配置单元超时异常
、
、
、
我试图通过Datastax Enterprise运行简单的配置单元查询,但它总是因为超时而失败(在小数据集甚至空表上)。我在AWS上有4个m1.large节点(2x Cassandra和2x Analytics)。如下所示: cqlsh:intracker> select count(*) from event_tracks_by_browser_date LIMIT 100000; count ------- 15030 然后使用hive: hive> select * from event_tracks_by_browser_date where type_id=10; To
浏览 0
提问于2013-12-30
得票数 1
1
回答
$PWD在mapred-site.xml中的含义
、
我需要帮助来理解mapred-site.xml上的以下配置。 <property> <name>mapreduce.application.classpath</name> <value>$PWD/mr-framework/hadoop/share/hadoop/mapreduce/*:$PWD/mr-framework/hadoop/share/hadoop/mapreduce/lib/*:$PWD/mr-framework/hadoop/share/hadoop/common/*:$PWD/mr-framework/h
浏览 2
提问于2016-01-06
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据平台搭建:基于Hadoop的数据分析平台
后 Hadoop 时代,大数据分析路在何方?
一文了解大数据分析利器——Hadoop
基于hadoop的免费大数据平台有哪些?
厦门电信搭建Hadoop大数据平台提升运营效率
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券