开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

是否可以在MR作业之外将数据写入HDFS，同时仍然使用配置单元进行查询？

是的，可以在MR作业之外将数据写入HDFS，并且仍然可以使用配置单元进行查询。

HDFS（Hadoop分布式文件系统）是一个可扩展的分布式文件系统，用于存储大规模数据集。它具有高容错性、高吞吐量和高可靠性的特点，适用于大数据处理和分析。

在Hadoop生态系统中，除了MapReduce（MR）作业，还可以使用其他工具和方式将数据写入HDFS。以下是一些常见的方法：

使用Hadoop命令行工具（如hadoop fs -put）或Hadoop API将数据直接写入HDFS。这种方式适用于小规模数据或需要手动操作的场景。
使用Flume：Flume是Hadoop生态系统中的一个分布式、可靠的日志收集和聚合系统。它可以将数据从各种源（如日志文件、消息队列）收集并写入HDFS。Flume提供了丰富的配置选项和灵活的数据传输机制。
使用Kafka：Kafka是一个高吞吐量的分布式消息系统，可以将数据流式传输到HDFS。通过将Kafka与HDFS集成，可以实现实时数据写入和查询。
使用Sqoop：Sqoop是一个用于在Hadoop和关系型数据库之间进行数据传输的工具。它可以将关系型数据库中的数据导入到HDFS中，同时支持增量导入和导出。

无论使用哪种方式将数据写入HDFS，都可以使用配置单元进行查询。配置单元是Hadoop生态系统中的一种数据处理框架，用于分布式计算和数据处理。常见的配置单元包括Hive、Pig和Impala。

Hive是一个基于Hadoop的数据仓库基础设施，提供类似于SQL的查询语言（HiveQL）来查询和分析存储在HDFS中的数据。推荐的腾讯云产品是TencentDB for Hive，详情请参考：TencentDB for Hive
Pig是一个用于分析大型数据集的高级平台，它提供了一种脚本语言（Pig Latin）来执行数据转换和分析操作。推荐的腾讯云产品是Tencent Cloud Pig，详情请参考：Tencent Cloud Pig
Impala是一个高性能的SQL查询引擎，可以直接在HDFS上进行实时查询和分析。推荐的腾讯云产品是TencentDB for Impala，详情请参考：TencentDB for Impala

通过使用这些配置单元，可以方便地对HDFS中的数据进行查询和分析，实现更复杂的数据处理任务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

HDFS Federation在美团点评的应用与改进

背景 2015年10月，经过一段时间的优化与改进，美团点评HDFS集群稳定性和性能有显著提升，保证了业务数据存储量和计算量爆发式增长下的存储服务质量；然而，随着集群规模的发展，单组NameNode组成的集群也产生了新的瓶颈：扩展性：根据HDFS NameNode内存全景和HDFS NameNode内存详解这两篇文章的说明可知，NameNode内存使用和元数据量正相关。180GB堆内存配置下，元数据量红线约为7亿，而随着集群规模和业务的发展，即使经过小文件合并与数据压缩，仍然无法阻止元数据量逐渐接近红线。

08

知识分享：详解Hadoop核心架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。　　通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足，后续及时修改。 HDFS的体系架构　　整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过

05

Hadoop与Spark等大数据框架介绍[通俗易懂]

海量数据的存储问题很早就已经出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别。很早以前，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。

01

初识大数据与Hadoop

在大数据时代，基于大数据技术的职位更有钱途，因此成为很多人的职业首选。在大数据技术中，大家常常听到 Hadoop，很多刚开始接触的人会问，什么是 Hadoop？它有什么作用？下面笔者就跟大家唠叨唠叨。

01

Kettle构建Hadoop ETL实践（三）：Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句，还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本篇最后介绍如何在Kettle中提交Spark作业。

02

大数据Hadoop生态圈各个组件介绍（详情）

-coordination and management（协调与管理） -query（查询） -data piping（数据管道） -core hadoop（核心hadoop） -machine learning（机器学习） -nosql database（nosql数据库）

02

Spark【面试】

首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合

01

快速认识Hadoop生态系统

就目前来说Hadoop已经成为处理大数据的问题的必备的组件，许多的大厂都已经在使用Hadoop软件栈处理自己的问题，那为什么Hadoop技术栈这么流行？

03

最新Hive/Hadoop高频面试点小集合

如果其中有一张表为小表，直接使用map端join的方式（map端加载小表）进行聚合。

02

Hive作业产生的临时数据占用HDFS空间大问题处理

Hive作业在运行时会在HDFS的临时目录产生大量的数据文件，这些数据文件会占用大量的HDFS空间。这些文件夹用于存储每个查询的临时或中间数据集，并且会在查询完成时通常由Hive客户端清理。但是，如果Hive客户端异常终止，可能会导致Hive作业的临时或中间数据集无法清理，从而导致Hive作业临时目录占用大量的HDFS空间。本篇文章Fayson主要介绍如何解决清理Hive作业产生的临时文件。

04

飞起来的大象-Hadoop从离线到在线

时代在变迁，市场在变化，周边的软硬件环境也突飞猛进般的发展，同时企业的业务需求也不断升级，从规模到成本都有较高的要求，这刺激Hadoop生态圈的变革。据AMR研究显示，到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下，各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快，顺应潮流，Hadoop生态圈也更为完善和成熟，更是划分出了子生态圈如Spark。正是在这样一个背景下，Hadoop的顺利度过了2014年。2014业内哪些事情值得关注1）大数据解决方案提供商hortonworks上市。大

08

hadoop必知必会的基本知识

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

01

hadoop必知必会的基本知识

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

02

大数据方面核心技术有哪些？新人必读

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

00

Hadoop不适合处理实时数据的原因剖析

Hadoop已被公认为大数据分析领域无可争辩的王者，它专注与批处理。这种模型对许多情形（比如：为网页建立索引）已经足够，但还存在其他一些使用模型，它们需要来自高度动态的来源的实时信息。为了解决这个问题，就得借助Twitter推出得Storm。Storm不处理静态数据，但它处理预计会连续的流数据。考虑到Twitter用户每天生成1.4亿条推文，那么就很容易看到此技术的巨大用途。

02

深入剖析Tez原理

https://hortonworks.com/blog/expressing-data-processing-in-apache-tez/

03

Hudi：Apache Hadoop上的增量处理框架

随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

01

深入理解 Taier：MR on Yarn 的实现原理

我们今天常说的大数据技术，它的理论基础来自于2003年 Google 发表的三篇论文，《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分别对应后来出现的 HDFS，MapReduce， HBase。

02

Hive on Spark参数调优姿势小结

Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来说明。

03

五分钟学后端技术：一篇文章教你读懂大数据技术栈！

链接：https://www.zhihu.com/question/27696290/answer/381993207

00

大数据Hadoop生态圈介绍

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。

02

使用Hive SQL插入动态分区的Parquet表OOM异常分析

当运行“INSERT ... SELECT”语句向Parquet或者ORC格式的表中插入数据时，如果启用了动态分区，你可能会碰到以下错误，而导致作业无法正常执行。

08

Hive on Tez 的安装配置

Hortonworks在2014年左右发布了Stinger Initiative，并进行社区分享，为的是让Hive支持更多SQL，并实现更好的性能。

01

【MapReduce】作业调试

因为yarn集群重启之后，作业的历史运行日志和信息就被清理掉了，对于定位历史任务的错误信息很不友好，所以首先开启History Server用于保存所有作业的历史信息。

03

进击大数据系列（一）：Hadoop 基本概念与生态介绍

大数据（big data），指的是在一定时间范围内不能以常规软件工具处理（存储和计算）的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完，或者压根就没法处理的数据集。

03

数据仓库Hive 基础知识（Hadoop）

Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。一、概述 1-1 数据仓库概念数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反应历史变化（Time Variant）的数据集合，用于支持管理决策

09

Hadoop 超燃之路

以前的存储手段跟分析方法现在行不通了！Hadoop 就是用来解决海量数据的存储跟海量数据的分析计算问题的，创始人 Doug Cutting 在创建 Hadoop 时主要思想源头是 Google 三辆马车

02

【推荐系统算法实战】 Spark ：大数据处理框架

http://spark.apache.org/ https://github.com/to-be-architect/spark

01

Hive_

HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树）->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

02

hadoop生态圈各个组件简介

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

01

Apache Hudi | 统一批和近实时分析的增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

04

0747-5.16.2-YARN日志聚合目录说明

日志聚合是YARN提供的日志集中化管理功能，它能将运行完成的Container任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个集中式存储和分析机制。默认情况下，Container任务日志存在在各个NodeManager上，如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后，日志被转移到的HDFS目录，默认是/tmp/logs。本文将模拟修改该目录，然后又将其修改回默认。

02

达观数据文辉：Hadoop和Hive使用经验

近十年来，随着Hadoop生态系统的不断完善，Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据，利用基于Hadoop的数据仓库解决方案Hive早已是Ha

09

Hadoop

hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves

01

协同过滤推荐算法在MapReduce与Spark上实现对比

MapReduce为大数据挖掘提供了有力的支持，但是复杂的挖掘算法往往需要多个MapReduce作业才能完成，多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程，使得基于MapReduce的算法实现存在严重的性能问题。大处理处理后起之秀Spark得益于其在迭代计算和内存计算上的优势，可以自动调度复杂的计算任务，避免中间结果的磁盘读写和资源申请过程，非常适合数据挖掘算法。腾讯TDW Spark平台基于社区最新Spark版本进行深度改造，在性能、稳定和规模方面都得到了极大的提高，为大数据挖掘任务提供了有力

06

HADOOP生态圈知识概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。

03

多图技术贴：深入浅出解析大数据平台架构

目录：什么是大数据 Hadoop介绍-HDFS、MR、Hbase 大数据平台应用举例-腾讯公司的大数据平台架构 “就像望远镜让我们能够感受宇宙，显微镜让我们能够观测微生物一样，大数据正在改变我们的

hadoop-2：深入探索hadoop3.3.1集群模式下的各个组件

https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions

04

为什么说 Storm 比 Hadoop 快？

“快”这个词是不明确的，专业属于点有两个层面： 1.时延，指数据从产生到运算产生结果的时间，题主的“快”应该主要指这个。 2. 吞吐，指系统单位时间处理的数据量。首先明确一点，在消耗资源相同的情况下，一般来说storm的延时低于mapreduce。但是吞吐也低于mapreduce。 Storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间;因为storm是服务型的作业，也省去了作业调度的时延。所以从

Spark 与 Hadoop 学习笔记介绍及对比

这篇博客将会简单记录Hadoop与Spark对比，HDFS，MapReduce的基本概念，及Spark架构设计，RDD，运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。

03

一览美图数据开发与SQL解析

感谢阅读「美图数据技术团队」的第 16 篇原创文章，关注我们持续获取美图最新数据技术动态。

02

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

05

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

04

EMR入门学习之Hue上创建工作流（十一）

本文将通过一个简单，并且具有典型代表的例子，描述如何使用EMR产品中的Hue组件创建工作流，并使该工作流每天定时执行。

02

Hadoop阅读笔记（四）——一幅图看透MapReduce机制

本文介绍了Hadoop MapReduce的工作机制，包括代码编写、作业配置、作业提交、Map任务分配、Reduce任务分配、作业完成等过程。主要讲解了MapReduce作业的工作机制，包括如何提交作业、任务分配、作业初始化、Shuffle和排序等过程。通过一幅图来直观地展现MapReduce的工作机制，并介绍了如何提交一个MapReduce作业以及作业初始化、Shuffle和排序等过程。

06

Hadoop面试题总结「建议收藏」

mapper调优主要就一个目标：减少输出量我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper优化 1>combine合并：实现自定义combine要求继承reduce类。比较适合map的输出是数值型的，方便进行统计。 2>压缩设置：在提交job的时候分别设置启动压缩和指定压缩方式。

02

Hadoop的生态系统介绍

Hadoop分布式文件系统是Hadoop项目的两大核心之一，是针对谷歌文件系统（GoogleFileSystem,GFS)的开源实现。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

04

基于docker快速搭建hive环境

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。

02

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop，顾名思义它是基于Hadoop生态的一个SQL引擎架构，我们其实常常听到Hive、SparkSQL、Presto、Impala架构，接下来，我会简单的描述一下常用的架构情况。

03

【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

技术架构挑战量大，无法用结构化数据库，关系型数据库经典数据库没有考虑数据多类别比如json 实时性的技术挑战网络架构、数据中心、运维挑战

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭