hadoop日志分析案例_hadoop日志分析_hadoop 日志分析 - 腾讯云开发者社区

、、、

我们可以只使用Hadoop进行日志记录，还是只使用Hadoop进行报告？因此，我可以尝试不同的东西，比如使用脚本进行日志记录和使用Hadoop进行报告。

浏览 3提问于2011-12-05得票数 0

1回答

我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

、

我们能在流上使用hadoop生成输出吗？我有一个由日志和预约id组成的大文件，如果我使用传统的RDBMS，我可以得到预约id，但需要1或2个小时。日志文件大小为800 GB On意味着在管理员登录到系统时显示此约会id。我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

浏览 4提问于2013-10-25得票数 0

回答已采纳

2回答

Hadoop -保存日志数据和开发GUI

、、

我正在为我的新项目做研究，以下是我的项目、研究和问题的详细情况：项目：保存日志(例如。格式是来自不同来源的TimeStamp、日志条目、位置、备注等。在这里，不同的源类似于，从世界各地不同的系统获取日志数据(只是一个Overview)(After，如1所指定的那样保存Hadoop中的日志条目)，生成按需保存在Hadoop中的日志的报告，如钻取、向上钻取等。注:每分钟大约。它们将是来自系统的50到60 MB的日志条目(我检查过了)。研究和问题：用于将日志条目从不同来源保存到Hadoop中，我们使用ApacheFlum.我们正在创建自己的MR程序和servlet. 除了水槽，他们还有其他

浏览 4提问于2011-12-26得票数 0

1回答

存储和解析文本日志和报告的理想系统

、、、、

我有很多运行网络测试的文本报告和日志文件。我想将这些报告和日志存储在一个数据存储中，在那里我可以解析它们并根据解析的数据运行报告。我还希望这个系统是可扩展的，无论是它接受的报告和日志的类型，还是它可以用于的数据和查询/报告的数量。一位同事建议Hadoop可以满足这一需求，我所在组织的另一个团队表示，他们将Cassandra用于类似的项目(但有更多的数据，其中大部分是机器生成的)。我一直在阅读关于Hadoop and Cassandra的文章，我真的不确定使用这样的东西是不是有点过分，也不确定为每种日志/报告类型使用自定义解析器的关系数据库是否更合理。根据我对Hadoop的理解，无论如何我都

浏览 1提问于2013-03-06得票数 2

回答已采纳

2回答

hadoop如何帮助用户跟踪数据？

、、

我想知道hadoop如何帮助用户数据跟踪。例如，我有一个电子商务应用程序，我希望记录客户执行的每一个活动，例如查看项、添加到购物车或购买项目。是否有使用hadoop记录事件的示例或最佳实践。我之所以想使用hadoop，是因为它的高可用性和可伸缩性，而且记录的数据也将从GBs增长到TBs。还是我错了？因为日志记录应该独立于hadoop，以后对日志数据的分析可以用hadoop完成吗？ Hadoop仅仅是关于MapReduce的吗？如果我可以使用hadoop记录或跟踪活动，那么什么是Map，哪些是还原函数？有人能解释一下这件事吗？

浏览 3提问于2014-04-11得票数 1

回答已采纳

1回答

如何使用nodejs创建日志收集服务？

、

我需要建立一个日志收集系统。我发现常见的日志收集方案包括elk和Hadoop / hive。 1、作为前端开发人员，我是否可以花费一定的时间(例如，一周)来完成简单的构建而不需要服务端的基础？ 2、我可以使用nodejs、mongodb和其他技术栈来构建日志系统吗？

浏览 4提问于2022-09-05得票数 0

回答已采纳

1回答

Hadoop:只使用两台机器的缺点？

、

我想对大量数据进行日志解析，并收集分析信息。然而，所有的数据都来自外部来源，我只有两台机器要存储--一台作为备份/复制。我在尝试使用Hadoop，Lucene..。来实现这一目标。但是，所有的培训文档都提到Hadoop对于分布式处理、多节点非常有用。我的设置不适合那个架构。在两台机器上使用Hadoop是否有任何开销？如果Hadoop不是一个好的选择，还有其他选择吗？我们看过Splunk，我们喜欢它，但它对我们来说太贵了。我们只想建立我们自己的。

浏览 2提问于2010-02-12得票数 2

回答已采纳

1回答

Hadoop :如何将web日志保存到本地文件？

、

我想知道是否可以将作业(容器)的hadoop (yarn) web日志保存到本地文件中？现在我可以在浏览器中检查所有的日志，但是当日志太长时，我的浏览器就会崩溃。而且我也不能访问数据记录。将web日志保存到可在本地分析的文件的最佳方法是什么？

浏览 43提问于2021-02-16得票数 0

4回答

如何收集Hadoop用户日志？

、、

当M/R作业和日志错误发生时，我正在运行，而不是使作业失败。只有几个错误，但是作业是在有数百个节点的hadoop集群上运行的。如何在任务日志中搜索，而不必手动打开web (作业历史)中的每个任务日志？换句话说，如何在分散在集群中的M/R任务日志中自动搜索，这些日志存储在本地的每个节点中？

浏览 10提问于2015-01-29得票数 0

回答已采纳

1回答

关于向大数据迁移的疑问

、、、

我对hadoop有一些疑问在cloudera发布的一段视频中，一位教师告诉我们，在hadoop有HDFS。每个文件将作为一组卡盘或块存储。每个块将在不同的机器中复制三次，以最小化故障点。每个映射器将处理单个hdfs块。从这些逻辑中，我感觉到如果我有一个服务器，它有大约100个peta字节的日志，与hdfs不同，这些日志不是存储在传统文件系统中的。主要疑问1.现在，如果我想使用mapreduce技术有效地分析这个巨大的数据，那么我必须在一个运行hdfs的新服务器中传输数据，并且拥有三倍于旧服务器的存储空间。在另一段视频中，cloudera..the指导员也清楚地提到，我们

浏览 4提问于2014-11-25得票数 0

2回答

Hadoop Hbase工作流

、

我对hadoop还比较陌生，我通过做一些示例练习来了解它，但我有一个关于如何在实践中使用它的问题。许多应用程序似乎都是面向批处理的(例如日志文件数据)，但我不确定hbase如何适应这里？将日志文件数据存储在hbase中，然后对其进行处理并将其输出到其他存储格式是否很常见？将原始日志文件传递到hadoop，然后将输出存储在hbase中是不是更常见？我想我真正的问题是hbase通常用作hadoop的输入或输出，还是两者兼而有之？

浏览 0提问于2012-04-06得票数 2

回答已采纳

1回答

ElasticSeach从Apache Hadoop读取数据

、

我们正在尝试将Elasticsearch应用到我们的大数据环境中。目前我们运行的是Apache Hadoop 2.7，包括Hive和Spark。在Hadoop中以Parquest格式存储数据。当我们在我们的环境中实施ELK时，我们只能将数据存储到Hadoop HDFS中吗？或者，我们必须从Hadoop中提取数据并导入到Elasticsearch中，以便创建索引，但我们在系统中有重复的数据集(Hadoop HDFS和ElasticSearch) 谢谢。

浏览 0提问于2020-06-14得票数 1

1回答

用火花流索引到Elasticsearch时出错，scala case类有超过22个参数

、、

我使用 Streaming 将日志数据写入弹性搜索。我无法用创建case scala，在我的例子中需要超过22个参数的，在Scala2.10中也不支持。因此，使用下面的方法来创建类而不是case类 Scala类 class FactUsage(d_EVENT_TYPE_NR: Long,EVENT_GRP_DESC: String,EVENT_DESC: String,CUST_TYPE_CD: Long,TICKET_RATING_CD: Long,BUS_UNIT_DESC: String,CUST_MKT_SEGM_DESC: String,EVENT_DTTM: String,EVE

浏览 7提问于2017-04-15得票数 0

1回答

从oozie工作流执行配置单元查询时，表未出现异常(E0729)

、、

Script_SusRes.q select * from ufo_session_details limit 5 Workflow_SusRes.xml <?xml version="1.0" encoding="UTF-8"?> <workflow-app xmlns="uri:oozie:workflow:0.4" name="hive-wf"> <start to="hive-node"/> <action name="hive-node&#

浏览 0提问于2015-11-03得票数 0

2回答

分析hadoop集群中被杀的java进程

、、

Java程序在Hadoop集群中执行。它在执行过程中得到OutOfMemoryError，进程停止。我想要分析被杀死的java进程的内存和其他细节。在哪里可以找到被杀死的进程日志文件？我使用sar实用程序分析内存，但它只显示系统内存，而不显示进程内存。

浏览 1提问于2018-03-06得票数 0

1回答

在hadoop中使用ImageJ获取awt无头异常

、、、

我一直试图用ParticleAnalyzer of ImageJ 1.45 / ImageJA构建一个图像处理应用程序。该算法已经在我的mac上进行了完美的测试，但是当我将可运行的jar发送到hadoop集群时，它一直抛出awt的无头异常。我已经在网上查过并尝试过这些方法，但是没有一个解决了问题！另外，我试图在现场捕捉到异常，但是我发现ParticleAnalyzer实际上没有运行(它一直返回0粒子，这是错误的。)我的mac给出了非零的结果！)下面是java代码部分，后面是我从hadoop日志复制的异常。如果有人在Hadoop上使用ImageJ获得成功，请给我一个可靠的代码示例好吗？提

浏览 3提问于2012-10-26得票数 1

1回答

运行用python编写的hive udf时出现的问题

、

我已经用python编写了一个简单的hive，但是当我在hive中运行它时，它会抛出以下错误： Diagnostic Messages for this Task: Error: java.lang.RuntimeException: Hive Runtime Error while closing operators at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.close(ExecMapper.java:260) at org.apache.hadoop.mapred.MapRunner.run(MapRun

浏览 2提问于2016-09-11得票数 0

1回答

IIS日志实时直连到Hadoop

、、、

我正在尝试在Hadoop中为日志聚合做一个POC。我们有多个IIS服务器托管至少100个站点。我想要连续地将日志流式传输到HDFS，并解析数据并存储在Hive中以供进一步分析。 1) Apache KAFKA或Apache Flume是正确的选择 2)流式传输后，使用Apache storm并将数据摄取到Hive中是否更好请提供任何建议，以及此类问题陈述的任何信息。谢谢

浏览 1提问于2016-11-10得票数 0

7回答

从Hadoop中删除文件/文件夹

、、、

我正在数据管道中运行电子病历活动，分析日志文件，当我的管道失败时，我得到以下错误 Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy already exists at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat

浏览 417提问于2013-05-29得票数 17

回答已采纳

1回答

我们能用卡桑德拉代替哈多普和星火吗？

、、、、

考虑到我们有一个用NodeJS编写的后端，并且使用MySQL和Cassandra作为数据库，如果我们想在系统中添加Spark来做一些数据分析工作，比如推荐，我们是否可以使用Cassandra(我是说使用Spark + Cassandra)并达到与Hadoop( Spark + Hadoop)相同的结果？我想知道Hadoop能做卡桑德拉不能做的事吗？或者是什么使得使用Hadoop和火花一起使用是必要的？

浏览 0提问于2022-11-29得票数 2

3回答

亚马逊弹性地图Reduce用于分析s3日志

、、、、

我正在使用EMR来分析web nginx日志。但我需要对日志进行处理，以便将其分为行和列，以便于查询。因此，我用下面的方式制作了两个表- rawlog，processedlog： create table rawlog(line string) row format delimited fields terminated by '\t' lines terminated by '\n' LOCATION 's3://istreamanalytics/logs/'; CREATE EXTERNAL TABLE processedlog ( day

浏览 0提问于2012-06-08得票数 6

2回答

将大日志存储在MongoDB或Hadoop中进行分析与将Zip文件存储在文件服务器上相比有什么优势？

、、、

目前，我们存储了大量的日志(30g/天的x3机器= av。100G)的文件服务器。日志已压缩。搜索日志实际工具是搜索相应的日志(根据timerange)，将它们复制到本地，解压缩，然后在xml中搜索信息和显示。我们正在研究制作一个类似spunk的工具来搜索日志的可能性(它是消息总线的输出:xml-发送到其他系统的消息)。依赖于一个类似mongo的数据库，而不是直接查询压缩的日志文件有什么好处？我们也可以在db中索引一些数据，让程序搜索目标zip文件……是什么带来了mongodb..。或者hadoop更多？

浏览 0提问于2013-01-25得票数 2

回答已采纳

1回答

用Hadoop来组织和存储大数据并使用Hive查询大数据的正确方法是什么？

、、、、

因此，基本上，我有不同平台上的应用程序将日志数据发送到我的服务器。它是一个节点服务器，本质上接受日志条目的有效负载，并将它们保存到各自的日志文件中(作为写流缓冲区，所以速度很快)，并在填充时创建一个新的日志文件。我存储日志的方式实质上是每个“端点”只有一个文件，每个日志文件都由与度量相对应的空格分隔的值组成。例如，player事件日志结构可能如下所示： timestamp user mediatype event 然后日志条目将如下所示 1433421453 bob iPhone play 基于阅读文档，我认为这种格式对Hadoop这样的东西是好的。我认为这样做的方式是将这些日志存储在服务器

浏览 2提问于2015-06-04得票数 0

1回答

Hadoop、HBase和Hive中的性能问题

、、、

我正在将数据从SQL迁移到Hadoop，其中我也使用了HBase & Hadoop。我已经成功地将数据从SQL导入到Hadoop、HBase和Hive。但问题在于系统的性能。在SQL中，我在5-10分钟内得到了数百万条条目的结果，但是从HBase & Hive获取1000万个数据需要花费大约1小时的时间。有人能帮我提高Hadoop系统的性能吗？

浏览 5提问于2015-11-20得票数 0

回答已采纳

1回答

Windows 10上的Apache hadoop安装

、、、

在Windows10上设置没有Cygwin的单节点集群时，我遵循了特定的文档- 我在使用D:\hadoop-2.6.2.tar\hadoop-2.6.2\hadoop-2.6.2\sbin>start-dfs.cmd启动hdfs时遇到以下错误错误消息堆栈跟踪： 17/01/12 12:25:42 FATAL datanode.DataNode: Exception in secureMain java.lang.RuntimeException: Error while running command to get file permissions : ExitCodeExcepti

浏览 0提问于2017-01-12得票数 3

1回答

以受控方式拆分SequenceFile - Hadoop

hadoop以键-值对(记录)格式写入SequenceFile。假设我们有一个很大的无界日志文件。Hadoop将根据块大小拆分文件，并将其保存在多个数据节点上。是否保证每个键值对都驻留在单个块上？或者，我们可能有这样一种情况，即key在节点1上的一个块中，而value(或部分值)在节点2上的第二个块中？如果我们可能会有无意义的完全拆分，那么解决方案是什么？同步标记？另一个问题是: hadoop是自动编写同步标记，还是应该手动编写？

浏览 0提问于2011-12-07得票数 7

回答已采纳

1回答

是否有一篇关于Apache的文章试图像White的Hadoop:权威指南那样全面？

、、

Tom White的“Hadoop :权威指南”已经成为整个Hadoop生态系统的流行指南，并赢得了广泛调查和深入报道Hadoop各个方面的声誉。到目前为止，是否有人试图提供类似的火花？

浏览 0提问于2016-06-04得票数 1

回答已采纳

2回答

es (ElasticSearch- Hadoop )是如何实现Hadoop的？

、、

如果它仅仅是HDFS的Hadoop连接器，那么es-hadoop如何启用Hadoop分析？

浏览 1提问于2015-07-30得票数 1

回答已采纳

1回答

在hcatalog或serde中解析日志文件

、

我是Hadoop的新手。我正在尝试将日志文件加载到HCatalog中。以下是我的日志文件的格式。 Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: welcome.aspx Message: Login successful Time: 2014-10-28 06:32:34Z UserID: arun GroupID: admin Page: main.aspx Message: menu load .. .. 我需要编写一个SerDe来解析它吗?或者这可以通过正则表达式实现吗？

浏览 4提问于2015-04-23得票数 0

1回答

Datastax Enterprise 3.2配置单元超时异常

、、、

我试图通过Datastax Enterprise运行简单的配置单元查询，但它总是因为超时而失败(在小数据集甚至空表上)。我在AWS上有4个m1.large节点(2x Cassandra和2x Analytics)。如下所示： cqlsh:intracker> select count(*) from event_tracks_by_browser_date LIMIT 100000; count ------- 15030 然后使用hive： hive> select * from event_tracks_by_browser_date where type_id=10; To

浏览 0提问于2013-12-30得票数 1

2回答

hadoop和spark有什么区别？

、

随着see在市场上的增长，我可以看到spark在Hadoop上的主要用例如下：机器学习中的迭代算法交互式数据挖掘与数据处理 Spark是一个完全兼容Apache的数据仓库系统，比Hive快100倍。流处理:实时流中的日志处理和欺诈检测，用于警报、聚合和分析。传感器数据处理:从多个源获取和连接数据，内存中的数据集非常有用，因为它们很容易。而且处理得很快。我的问题是：火花会在未来几天取代Hadoop吗？当火花并行运行时，Hadoop同时工作？(这是真的吗？)

浏览 0提问于2015-07-08得票数 3

回答已采纳

1回答

找不到Hadoop日志文件

、

我已经在windows中配置了hadoop-2.7.2。我在%HADOOP_HOME%\logs目录中找不到任何用于hdfs和yarn的日志。在Hadoop-2.5.2中，将有两个日志文件hadoop.log和yarn.log。但是在新的hadoop版本中，似乎没有生成日志文件。如何再次启用这些日志来调试服务。谢谢, 库马尔

浏览 2提问于2016-02-18得票数 0

9回答

为什么像Vertica/InfoBright/GreenPlum这样的面向列的数据库会对Hadoop大惊小怪？

、、、

馈送Hadoop集群并使用该集群将数据馈送到Vertica/InfoBright数据仓库有什么意义？所有的供应商都在说“我们可以连接Hadoop"，但我不明白这有什么意义。在Hadoop中存储并迁移到InfoBright中有什么意义？为什么不让应用程序直接存储在Infobright/Vertica DW中？谢谢！

浏览 6提问于2011-11-25得票数 5

4回答

使用Hadoop开发web分析

、、

我想开发一个web分析平台，以便通过解析apache访问日志来创建有关web流量(页面浏览量、访问量、访问者等)的聚合数据。我只能使用Hadoop和纯Map/Reduce作业吗？使用Hive是过度杀伤力还是“必须”？

浏览 1提问于2011-11-02得票数 2

回答已采纳

2回答

运行hadoop示例代码时出现错误

、

我正在尝试运行示例pi map-red示例代码。在伪分布式模式下运行时，会发生以下错误。我已经按照hadoop站点中的说明完成了所有设置。我已经安装了ssh，并正确设置了配置文件。 hadoop_admin@ubuntu:~/hadoop-1.0.4$ sudo bin/hadoop jar hadoop-examples-1.0.4.jar pi 10 10 Number of Maps = 10 Samples per Map = 10 13/02/13 14:47:34 INFO ipc.Client: Retrying connect to server: localhost/127

浏览 1提问于2013-02-13得票数 1

1回答

用于实时统计的elasticsearch与hbase/hadoop

、、、、

我每周要做数百万份小日志文件：数据挖掘的临时查询连接、比较、筛选和计算值许多使用python的全文搜索使用数百万个文档运行此操作，有时每天运行一次。我的第一个想法是将所有的文档放在HBase/HDFS中，然后运行Hadoop作业，生成统计结果。问题是:一些结果必须是接近实时的。因此，经过一些研究，我发现了ElasticSearch，现在我正在考虑传输所有的数百万个文档，并使用DSL查询来生成统计结果。这是个好主意吗ElasticSearch似乎很容易处理数百万/数十亿的文档。

浏览 1提问于2014-02-26得票数 9

回答已采纳

1回答

Got ipc.Client:在将文件复制到HDFS时中断等待发送参数到服务器

、

我编写了一个perl脚本，其中调用copyFromLocal来上传文件。当它运行时，就会发生WARN ipc.Client: interrupted waiting to send params to server。我检查了刚刚上传的HDFS上的所有文件。看起来它们都被成功复制了。有人知道这个警告是什么意思吗？完整的警告信息 12/10/23 11:41:07 WARN ipc.Client: interrupted waiting to send params to server java.lang.InterruptedException at java.util.con

浏览 3提问于2012-10-23得票数 1

回答已采纳

1回答

从Titan迁移到DataStax企业图

、、

我正在从Titan迁移到Datastax。我有一个大约有5000万个节点的图，由Person、Addresses、Phone等组成我想要计算一个人的节点连接(有多少人有相同的电话，地址等)。在Titan中，我编写了一个Hadoop作业，遍历所有的person节点，然后我可以编写一个gremlin脚本来查看有多少人在这个特定节点上拥有相同的电话所以作为一个输入属性，我有： titan.hadoop.input.format=com.thinkaurelius.titan.hadoop.formats.hbase.TitanHBaseInputFormat titan.hadoop.inpu

浏览 1提问于2016-11-25得票数 1

1回答

与ambari阅读后无法启动NodeManager

、

因此，我删除了我的主机，然后尝试再次添加它。DataNode工作正常，但我无法让Nodemanager工作。删除后，我删除了带有yum的hadoop纱线包，然后使用ambari重新安装了它。现在，当我尝试使用ambari启动Nodemanager时，我得到了以下错误： 2014-05-23 19:40:41,507 - Execute['export HADOOP_LIBEXEC_DIR=/usr/lib/hadoop/libexec && /usr/lib/hadoop-yarn/sbin/yarn-daemon.sh --config /etc/hadoop/con

浏览 1提问于2014-07-10得票数 1

1回答

Datastax节点基础

、、、

我试图在datastax企业集群中设置hadoop节点和cassandra节点。在这一点上，有两件事我不清楚。第一，我需要多少hadoop节点？卡桑德拉节点的数目相同吗？这些数据还存在于卡桑德拉节点上吗？第二，教程提到我应该在hadoop节点上禁用nodes。我还可以在集群中的cassandra节点上使用nodes吗？谢谢。

浏览 3提问于2014-11-21得票数 0

回答已采纳

5回答

在大访问日志(~30 in )中检测可疑/bot IP地址

、、

我有很大的访问日志(~30 IP )，我正在寻找查找可疑/bot IP地址的方法。当然，我们可以用(IP + User_Agent)代替IP。所以我的问题是：查找从任何IP中执行的平均请求号。查找请求比平均值多的IP地址(见前一点) 在白天定期查找正在执行请求的IP地址(例如每小时一次) 关于如何检测bot的建议这个日志相当大，我不认为朗朗可以处理它。我应该使用R后面的某种存储(hadoop或其他类似的存储)吗？我绝对没有处理/分析大数据的经验，所以任何想法、建议和文章都会受到欢迎。

浏览 4提问于2015-10-31得票数 0

1回答

如何启用hdfs和映射的审计日志？

、、、

我是windows中的hadoop-2.6.0用户.我希望启用hdfs和映射日志。我可以通过在hadoop-env.cmd中设置以下属性来启用hdfs审计日志，但无法为mapred启用审核日志。 set HDFS_AUDIT_LOGGER=INFO,RFAAUDIT 如果我在hadoop-env.cmd中设置了上述变量，那么hdfs-audit.log文件存储在%HADOOP_LOG_DIR%中。我想启用映射的审计日志记录。在log4j.properties中可用的%HADOOP_HOME%\etc\hadoop中，我可以看到映射的日志记录属性，如下所示映射审计日志记录 mapred.au

浏览 2提问于2015-05-14得票数 0

回答已采纳

1回答

适用于hadoop核心的maven central与cloudera存储库

、、、

我正在尝试包含来自maven存储库的hadoop-core，有两个存储库包含它，maven central和cloudera maven存储库。有理由选择一个而不是另一个吗？它们也使用不同的版本控制-在maven central中，hadoop core是1.2.1，而在cloudera中有hadoop-core-0.20.2-cdh3u6这样的版本。我似乎搞不清楚这里有什么不同。有什么建议吗？

浏览 2提问于2013-08-05得票数 0

2回答

如何创建从hive表到关系数据库的数据管道

、、、、

背景：我有一个包含日志信息的配置单表" log“。该表每小时加载一次新的日志数据。我想对过去两天的日志做一些快速分析，所以我想将过去48小时的数据提取到我的关系数据库中。为了解决上述问题，我创建了一个由hive SQL查询加载的staging HIVE表。将新数据加载到临时表中之后，我使用sqoop查询将新日志加载到关系数据库中。问题是sqoop正在将数据批量加载到关系数据库中。因此，在任何特定时间，我只有特定小时的部分日志。这会导致错误的分析输出。问题： 1)。如何使此Sqoop数据加载成为事务性的，即，要么导出所有记录，要么不导出任何记录。 2)。什么是构建这个数据管道的

浏览 3提问于2013-02-21得票数 0

回答已采纳

1回答

使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

、、

在我们的组织中，我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。我们正在考虑做一个概念的证明，我们的目标是存储，索引和搜索大量的PDF文件，电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？如果是，那么它是hadoop用例吗？如果是这样的话，我们应该追求什么技术呢？我们尝试将PDF存储在HDFS中，并通过mapper作业并行地创建lucene索引，并将索引存储在数据节点本地临时目录中。但我们不确定我们是否做对了，如何使它成为适当的大数据Hadoop用例，以及如何在技术堆栈上做出决定，无论是Hadoop还是no SQL db，还是SOLR等等。我们的目标

浏览 1提问于2014-08-07得票数 0

1回答

Hadoop localhost:9870浏览器接口不工作

、、

我需要用Hadoop做数据分析。因此，我安装了Hadoop，配置如下。但是本地主机:9870不起作用。甚至我每次使用namenode时都有格式。本论坛的一些文章和答复提到，9870是从50070更新的。我赢了10，我在这个论坛上也提到了答案，但没有一个有效。设置了Java-home和hadoop-home路径.也设置了通向hadoop的bin和sbin的路径。有人能告诉我我在这里做错了什么吗？我参考了这个站点来进行安装和配置。 core-site.xml 我也在这个xml中设置了Java路径。 <property> <name>fs.defaultFS</n

浏览 8提问于2022-04-25得票数 0

1回答

如何将elasticsearch与apache火花流或风暴连接起来？

、、、

我们正在用开源工具构建一个实时的大数据工具。我们的主要目标是通过实时从kafka服务器获取日志来监控和分析网络。我们在教程中看到，我们必须将我们的工具分成两个部分:分析和监督，如下所示。对于监督部分，我们选择了解决方案Elasticsearch和Logstash。关于分析部分，我和我的团队正在比较Apache流和Apache，以便与Elasticsearch一起使用它。尽管Apache是一个真正的实时数据处理工具，比Apache流更快，但它并不提供像Apache这样的机器学习库。这就是为什么我们正在考虑选择Apache火花。弹性网站表明，它存在一个连接器ES-Hadoop来连接E

浏览 6提问于2016-07-08得票数 3

回答已采纳

1回答

hadoop存储目录使用的空间大于HDFS上的总数据。

、、

我有一个具有复制因子= 3的三节点hadoop集群。每个系统的/app/hadoop/tmp/dfs/是存储目录。每个数据节点系统的硬盘容量为221 of。 HDFS的有效数据为62 of，replication 62*3= 186 of。现在的问题是，尽管660 GB集群上只有186 GB的数据，但我仍然缺乏存储空间: HDFS显示了在可用空间上的巨大差异： datanode1 =7.47GB datanode2 =17.7GB datanode3 =143 GB 为了确保hadoop本地存储使用这些空间，我在每个datanode上运行了这个命令。对于datanode1 du -h -

浏览 6提问于2012-09-18得票数 1

1回答

Hadoop Yarn容器日志丢失

、、

我们通常可以在"/var/log/hadoop- yarn /containers“路径中看到yarn容器日志。虽然我可以看到成功作业的日志，但我看不到失败作业的日志。节点管理器日志显示日志被删除。日志： 2017-07-13 14:16:04,170 INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor (DeletionService #1): Deleting path : /var/log/hadoop-yarn/containers/application_1234567890_123

浏览 9提问于2017-07-19得票数 3

1回答

Java error:org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedPartitioner不是org.apache.hadoop.mapred.Partitioner

、、

Exception in thread "main" java.lang.RuntimeException: class org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedPartitioner not org.apache.hadoop.mapred.Partitioner at org.apache.hadoop.conf.Configuration.setClass(Configuration.java:2273) at org.apache.hadoop.mapred.JobConf.setPartit

浏览 13提问于2017-07-18得票数 0