数据湖构建神器

数据湖是一种大规模、可扩展的数据存储和分析解决方案，它可以存储来自不同来源的结构化、半结构化和非结构化数据。数据湖可以帮助企业实现数据整合、数据治理、数据分析和数据共享等目标，从而提高数据价值和业务价值。

数据湖的构建通常需要以下几个步骤：

数据摄取：将来自不同来源的数据摄取到数据湖中，包括结构化数据、半结构化数据和非结构化数据。
数据存储：将摄取的数据存储到数据湖中，可以使用分布式文件系统、关系型数据库或者NoSQL数据库等。
数据处理：对存储在数据湖中的数据进行处理，包括数据清洗、数据转换、数据聚合等。
数据分析：对处理后的数据进行分析，提取有价值的信息和洞察。
数据共享：将分析结果共享给其他团队或者应用系统。

数据湖的优势包括：

数据整合：数据湖可以整合来自不同来源的数据，实现数据的统一管理和分析。
数据治理：数据湖可以实现数据的治理和管理，包括数据的质量、安全、合规性等方面。
数据分析：数据湖可以支持多种数据分析方式，包括批量分析、交互式分析、实时分析等。
数据共享：数据湖可以实现数据的共享和协作，提高数据的价值和业务价值。

数据湖的应用场景包括：

数据分析：数据湖可以支持多种数据分析方式，包括批量分析、交互式分析、实时分析等。
数据共享：数据湖可以实现数据的共享和协作，提高数据的价值和业务价值。
数据挖掘：数据湖可以支持数据挖掘和机器学习等人工智能技术，实现数据的自动化分析和挖掘。
数据治理：数据湖可以实现数据的治理和管理，包括数据的质量、安全、合规性等方面。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据湖：https://cloud.tencent.com/product/datalake
腾讯云数据仓库：https://cloud.tencent.com/product/dw
腾讯云数据分析：https://cloud.tencent.com/product/dataanalysis
腾讯云数据挖掘：https://cloud.tencent.com/product/datamining
腾讯云数据共享：https://cloud.tencent.com/product/datashare

页面内容是否对你有帮助？

有帮助

没帮助

从头开始建数据湖

、、

我正试图从零开始构建一个“数据湖”。我理解数据湖是如何工作的，以及它的用途；它遍布互联网。但是，当问题出现时，如何从头开始建立一个，就没有来源了。我想知道如果：数据仓库+ Hadoop =数据湖我知道如何运行Hadoop并将数据导入Hadoop。我想在前提数据湖上建立一个示例来演示我的经理。任何帮助都是非常感谢的。

浏览 1提问于2019-02-27得票数 2

回答已采纳

1回答

在AWS中，具有HDFS或S3的数据池之间有什么区别？

、、、

我需要在AWS上构建一个数据湖，但是我不知道S3和HDFS到底有什么不同。我在网上找到了一些答案，但我仍然不明白真正的区别。我还需要知道是否有人在AWS中拥有HDFS和S3的数据湖架构。

浏览 2提问于2019-07-11得票数 1

回答已采纳

1回答

如何构建代表Azure的数据湖(gen 2)的Docker镜像？

、、、

我正在为MS Sql Server使用以下Docker映像... version: "3.2" services: sql-server-db: image: mcr.microsoft.com/mssql/server:latest ports: - 1433:1433 env_file: ./tests/.my_test_env 如何构建Docker镜像来模拟Azure数据湖(第2代)？我使用Python3SDK与数据湖进行交互，文档在这里-- 。

浏览 3提问于2020-08-27得票数 2

2回答

项目构建错误: maven中不可解决的父级POM

项目构建错误:不可解析的父级POM guide.ide.eclipse:guide-ide-eclipses:1.0-SNAPSHOT for guide.ide.eclipse:guide-ide-eclipse:0.0.1-SNAPSHOT:由于缺少以下原因未能解决guide.ide.eclipse:guide-ide-eclipses:1.0-SNAPSHOT的POM： 1) guide.ide.eclipse:guide-ide-eclipses:pom:1.0-SNAPSHOT 丢失了1件所需的神器。神器: guide.ide.eclipse:guide-ide-eclipses

浏览 2提问于2011-07-27得票数 4

1回答

与CTAS相比，创建外部表的利弊是什么？

、、、、

我正在尝试构建一个Azure Data管道，它从Azure数据湖中获取数据并对其进行转换。我希望将转换后的数据存储在Azure SQL数据仓库中(作为事实和维度)。最后，我找到了两种解决方案来使数据在仓库中可用：使用，并在.csv文件中引用位于湖中的转换数据；使用将.csv文件从湖复制到仓库；问题在我看来，这其中的权衡并不明显。一方面，在我看来，第一种选择避免复制到仓库(是吗？)但第二个选项将提供更多的选项，如索引。与CTAS相比，创建外部表的利弊是什么？

浏览 0提问于2019-04-17得票数 1

回答已采纳

1回答

将上传到Nexus

、、

我建立了一个反应应用程序使用创建-反应-应用程序。生产建设是通过以下方式在Jenkins完成的： npm install --prod npm run build 然后我就有了“准备部署”神器。但是我怎样才能在我的Nexus上得到这个神器呢？我可以使用package.json的版本吗？在上传之前，我需要自己做一个拉链或者类似的东西吗？这将是相当不错的历史，它将更容易/更快地从工件上构建码头比再次构建更容易。你们是怎么解决的？谢谢你的回答。

浏览 0提问于2018-12-13得票数 3

1回答

使用Kimball的星型模式和数据集市的数据湖

、、、、

目标术语让我有点困惑:我基于Kimball的数据建模方法构建了database (而不是DW)，现在不确定是否可以使用数据集市定义来命名MPP数据库层。我的假设是，对于mid+大小的组织报告，仍然需要维度建模和星型模式，这与中的推理相同。问题在将Synapse称为数据集市(见下图)是正确的吗？我可以说我没有DW (即使我有星型)，而是数据湖+数据集市？我是否应该基于业务/报告子域(多个数据集市)将Synapse拆分为多个模式？建筑细节更具体地说，在我的例子中： 2-3) ADLS +数据库形成数据湖。所有ETL和星型架构构建都发生在数据湖层。所有逻

浏览 0提问于2020-09-15得票数 1

回答已采纳

1回答

这是验证Azure服务的正确和完整的身份验证方法列表吗？

、、、

我使用Azure来构建我的Java项目。我需要认证一些Azure服务如下：文件存储队列存储服务总线队列服务总线主题数据湖数据湖Gen 2 Blob存储事件中心我在上找到了一个简短的文档，它只提到了大约4种身份验证()方法。但它并不能确认它们用于什么服务。而我仍然担心这些服务是否都能用于上述服务？目前，我想知道Azure中每个服务的auth方法列表，就像我前面提到的那样。请给我建议，非常感谢！

浏览 2提问于2021-01-14得票数 0

回答已采纳

1回答

在IntelliJ 12中构建工件之前执行ant目标？

我有一个ant目标，它创建一个常量保存当前subversion修订号的类。随着Execute on / Before Compilation的设置，修订编号将始终是最新的。但!当您处于开发模式并经常编译和运行时，您不希望在运行ant目标时出现这种烦人的延迟。此外，还会弹出Ant消息窗口。不是很好。显然，我只想在为生产构建之前，在构建WAR文件之前运行ant目标。在Project Settings / Artifacts中，有一个预处理选项卡，可以在构建工件之前运行ant目标。但是，目标只在编译完成后才运行。有没有一种方法可以让IntelliJ 12在编译和创建WAR文件之前执行Ant目标

浏览 1提问于2013-02-08得票数 1

2回答

搜索存储在Azure数据湖中的数据

、、、、

我有以下构建数据湖的用例(例如在Azure中)：我的组织处理濒临破产的公司。一旦一家公司破产，它需要把他们所有的数据交给我们，包括结构化数据(例如CSV)以及半结构化和非结构化数据(例如PDF、Word文档、图像、JSON、.txt文件等)。在这里拥有一个数据湖会有所帮助，因为数据量可能很大，而且不可预测，Azure data看起来是一个相对低成本和可伸缩的存储解决方案。然而，除了存储所有这些数据之外，我们还需要为业务用户提供一个工具，使他们能够搜索所有这些数据。我可以想象出两种搜索类型：搜索特定文件(使用文件名或部分文件名作为搜索条件) 搜索所有文本文件(word文档、.txt

浏览 1提问于2020-01-07得票数 0

1回答

Kappa体系结构是否使用数据湖？

、、、、

Kukreja在“Apache、Delta湖和Lakehouse的数据工程”中说，Kappa体系结构没有数据湖。微软在 (见图)中提到了一家“长期商店”，但没有透露它的实际情况。它使用这些数据来“重新计算”。对我来说，这是一个数据湖。 Kappa体系结构是否使用数据湖？

浏览 10提问于2022-07-21得票数 0

回答已采纳

2回答

MS PowerPlatform:通过流在Azure数据湖中使用数据

、、

编辑:仍然离答案还差得远。感谢你的帮助。我的公司有一些包含我需要的数据的简单列表，我们已经在一个数据湖中拥有了这些.parquet格式的列表。(编辑: Gen2) 我应该构建一个小的PowerApp，它使用这些列表中的一些信息，但我找不到通过流获得其中内容的正确方法。有一个名为"Azure Blob Storage: Get Blob Content“的连接器，它听起来像是正确的连接器，并且确实输出了一个神秘的内容字符串。但是，如何将其转换为实际可读的表，以便我可以使用这些项呢？或者这是错误的连接器吗？ (对所有这些微软的东西来说都是非常新的。我真的不知道这个数据湖是如何设置的，

浏览 14提问于2021-04-21得票数 0

1回答

org.hamcrest.io.FileMatchers是否包含在任何hamcrest构建中？

、、

Hamcrest回购包括org.hamcrest.io.FileMatchers (请参阅)，但它不存在于构建工件hamcrest-all或hamcrest-library (v1.3)中。那个斗牛士怎么了？它在任何JAR神器中都有吗？

浏览 0提问于2014-09-19得票数 2

回答已采纳

1回答

是否跟踪数据池中数据的更改？

、、

最近我发现了数据湖世界，我计划用ADL建立一个数据湖。我不确定的一件事是数据湖应该如何跟踪随时间变化/处理与源不同版本的更改。我遇到过这样的站点，声称数据湖按原样提供数据，其他状态是数据应该是时间戳，或者文件夹结构应该反映时间戳。不管怎样，有什么最佳做法吗？干杯!

浏览 0提问于2019-07-24得票数 0

回答已采纳

1回答

如何从Azure数据湖转换，将数据按日期文件夹分区到delta湖

、、、

我拥有一个由datetime嵌套文件夹划分数据的蔚蓝数据湖gen2。我想向我的团队提供增量湖格式，但是我不确定我是否应该创建一个新的存储帐户，将数据复制成增量格式，或者将当前的蔚蓝数据湖转换为增量湖格式是否是最佳实践。有人能提供关于这件事的任何建议吗？

浏览 2提问于2022-08-09得票数 0

回答已采纳

1回答

我从哪里得到google工件？

所以我试图用maven2从源代码构建芭乐，但它似乎需要‘谷歌’工件作为父。这个神器的上游网站在哪里？(是的，我需要源代码，而不仅仅是工件)。

浏览 3提问于2010-05-10得票数 0

1回答

无法从intellij下载/安装Scala

、

我在intellij中创建了一个maven项目，并试图下载scala。我得到了下面的错误。请帮助我，如果你曾遇到同样的问题与以下细节。得到org.fusesource.jansi jansi 1.11 ..。 *问题摘要:未找到警告模块: org.fusesource.jansi#jansi;1.11 ==== local: tried C:\Users\userx.ivy2\local\org.fusesource.jansi\jansi\1.11\ivys\ivy.xml -神器org.fusesource.jansi#jansi;1.11!jansi.jar： C:\Users\us

浏览 0提问于2018-07-18得票数 2

2回答

如何使用数据工厂截断Dynamics 365实体(并复制到Azure数据湖)？

、、、、

我目前正在使用数据工厂将实体从Dynamics 365批量复制到Azure数据湖。实体每24小时保存为数据湖中的CSV文件。我希望将实体截断为新数据，并附加到数据湖中已经存在的文件中，而不是批量复制。我认为这是SQL数据库的常见操作，但这可以在Dynamics 365和数据湖之间完成吗？

浏览 14提问于2019-05-01得票数 1

2回答

数据湖中的数据保留策略

我是这个Azure数据湖世界的新手。我正在寻找任何必要的先决条件和注意事项，以便使用蔚蓝数据湖.我找到了一个很好的链接，并发现安静有用。现在，我不确定的一件事是数据保持策略在数据湖中。有些人说数据不应该从数据湖中删除/清除，而很少有人有不同的看法。因此，在任何数据湖中，对于数据保留策略(归档、清除)，我们是否需要遵循特定和基本的考虑？我知道用例将是这方面的决定因素，但在作出决定之前，是否有任何高层次的考虑因素，是我的问题。谢谢,

浏览 1提问于2017-02-19得票数 2

回答已采纳

2回答

关于三角洲湖的困惑

我试着阅读了很多关于databricks delta lake的资料。据我所知，它为您的数据存储增加了ACID事务，并通过增量引擎提高了查询性能。如果是这样，为什么我们还需要其他不支持ACID事务的数据湖呢？Delta lakes声称将数据湖和数据仓库这两个世界结合在一起，我们知道，由于它目前对操作的支持，它还不能取代传统的数据仓库。但它应该取代数据湖吗？为什么需要两份数据副本-一份在数据湖中，另一份在德尔塔湖中？

浏览 21提问于2020-07-30得票数 0

回答已采纳

2回答

使用数据湖分析复制数据- U-SQL

、、

我有以下问题。我需要从ADLS(Azure数据湖存储)源复制到接收器ADLS，但只复制最新的文件。每小时，到达源的一个.csv文件，这个文件必须被复制到宿数据湖。例如： event: Hour1 - file_01.csv到达源。任务:复制file_01.csv以接收数据湖。event: Hour2 - file_02.csv到达源。任务:复制file_02.csv以接收数据湖。诸若此类。有没有办法创建一个基于事件的触发器(新文件到达源代码)？这是我的第一个想法。另一种方法是创建一个作业，由Azure Data lake analytics运行。在那里我会提取系统的日期和时间(我不知道怎么

浏览 2提问于2018-04-23得票数 0

2回答

从数据湖中检索数据到分析系统

、、

我们在Hadoop文件系统中创建了一个新的数据湖。数据以ORC的形式存储。目前分析系统直接连接到数据湖来读取这些ORC文件。有没有办法在数据湖和分析系统之间创建一个中间层来服务数据？

浏览 16提问于2018-10-04得票数 0

1回答

从VSTS将人工制品部署到Github时出错

我试图使用托管代理在VSTS中构建maven项目。我想把我的神器部署到github。我正在使用的任务是Powershell。我得到了错误“没有当前分支的跟踪信息”。但是人工猫正在部署到github，但是Build Defination失败了。

浏览 3提问于2017-11-29得票数 0

回答已采纳

7回答

Hadoop Vs数据湖

、、

我听说了数据湖这个新名词。我在谷歌上查到了数据湖是一个大规模的存储库和处理引擎.数据池提供“任何类型的数据的大量存储、巨大的处理能力和处理几乎无限并发任务或作业的能力”。术语数据湖通常与面向Hadoop的对象存储相关联。在这种情况下，组织的数据首先加载到Hadoop平台，然后将业务分析和数据挖掘工具应用于其驻留在Hadoop的商品计算机集群节点上的数据。 Hadoop也做了同样的事情。我们有存储的HDFS和用于计算的MapReduce。我对Hadoop和数据湖有点困惑。两者之间的区别是什么。如果它们是相同的，为什么会出现这个词。或者如何定义数据湖。

浏览 8提问于2016-03-14得票数 16

1回答

如何使用azure函数根据azure数据湖存储中收到的文件创建触发事件

、、、

我在Azure数据湖存储中有一个.csv文件，每当.csv文件加载到数据湖存储中时，我是否可以使用函数应用来触发Azure数据工厂(ADF)事件。当前的ADF支持blob存储的事件，但不支持数据湖。谢谢，拉维

浏览 12提问于2019-05-25得票数 0

2回答

列名映射错误。

、、、、

我试图使用azure数据工厂从on数据湖中提取/加载数据到蔚蓝数据湖。我只是想查询一下所有的列。我的水槽是蔚蓝数据湖Gen2。但是我的列名在源和库上都是错误的。我在on-prem数据湖中的列名类似于user_id、lst_nm等，但在Azure中，它就像、等，这里的user_tbl是我的表名。我不希望将表名添加到列中。

浏览 14提问于2022-02-23得票数 0

2回答

如何使用Azure作为Azure ML的输入数据集？

、

我正在移动数据到Azure数据湖存储和处理它使用Azure数据湖分析。数据是XML格式的，我正在通过读取它。现在，我想从Azure中访问这些数据，看起来Azure数据湖存储目前还不受直接支持。用Azure ML使用Azure的可能方法是什么？

浏览 2提问于2016-03-21得票数 0

回答已采纳

1回答

Azure Databricks DBFS数据集存储在哪里？

、、

我将数据上传到Azure Databricks，可以看到DBFS列表中有数据集，但在Databricks所属的资源组中找不到任何数据集。数据集存储在哪里？此外，如果我创建达美湖，如何从Azure数据工厂调用Delta湖？我看不出三角洲湖存放在哪里。

浏览 11提问于2022-04-14得票数 0

回答已采纳

1回答

是否可以从flink作业触发spark作业并从中获取数据？

、、

我正在使用flink从Azure数据湖中读取数据。但flink无法找到Azure数据湖文件系统。我已经实现了spark来读取Azure Data Lake文件系统文件。因此，我尝试从flink中触发火花，从Azure数据湖中读取数据，并执行一些逻辑操作，然后将列表返回给flink。所以flink可以使用这些数据？是否可以从flink触发spark作业？或者如何配置flink来理解Azure数据湖文件系统。有人能在这方面给我指点一下吗？

浏览 2提问于2017-07-11得票数 0

1回答

用hadoop进行弹性搜索

、

目前，在我的组织中，我们持有弹性搜索中的半结构化数据，我们使用查询进行快速文本搜索和聚合，但是我们有其他产品在其他数据库中，所以我们希望将所有的数据放在像HDFS这样的数据湖中。因此，如果我使用HDFS作为一个数据湖来保存原始数据，那么如何使用弹性搜索呢？我指的是在使用之前的弹性搜索索引数据，那么是否可以将数据保存在数据湖中，然后弹性搜索就可以直接从数据湖查询数据，而不需要将数据存储在弹性中？或者我会把数据保存在数据湖中，然后处理它，然后再用弹性存储它，这样它就可以索引它了吗？总之，我想知道弹性和hadoop干涉的概念。

浏览 3提问于2022-11-21得票数 0

1回答

新的Synapse & Power世界中分析服务的替代方案？

、、

随着Synapse、Power BI的发展和湖房体系结构的兴起，是否有可行的解决方案来构建部门多维数据集以避免Analysis？我想滑到冰球要去的地方，而不是现在。 Power数据集中的新特性能否取代Analysis的某些功能，然后将多维数据集作为Power数据集托管在Power服务中？

浏览 0提问于2021-06-17得票数 0

回答已采纳

1回答

Azure数据库的Azure DevOps CSV工件

、、、

您知道如何将Azure DevOps构建管道工件发送到Azure中的数据库吗？神器是CSV。它是用来创建它的。现在想知道如何将其添加到Azure中的Azure数据库中。我也不确定Azure中的数据库以及CSV工件的最佳方法。不是dba。拥有基础架构背景，并使用Azure DevOps to Azure实现基础架构的自动化。很难从所有的文档中破译出最佳的方法。如果你们能告诉我最好的方法，我将不胜感激。

浏览 1提问于2021-07-15得票数 0

1回答

首先是数据湖还是数据仓库？

、、

我一直困惑着是要创建一个数据湖还是一个数据仓库，希望一些有经验的现实世界的专业人士能给我一些启示。我想用我从多个来源(IoT设备、API等)摄取的数据来存储、可视化和执行机器学习。我读到，在我们所处的当前环境中，企业将同时需要数据湖和数据仓库。我的问题是：我是否应该先创建一个数据湖，然后从湖中转换/处理这些原始数据，并将其摄取到数据仓库中？还是数据湖本身是一个独立的数据处理管道？还是这取决于用例？这就是我一直在想的： 📷 PS:如果这是错误的StackExchange，请告诉我，谢谢:)

浏览 0提问于2022-05-13得票数 2

回答已采纳

1回答

如何控制maven构建的jar中的pom.xml？

、、

当maven构建jar时，它会在META-INF/ pom.xml中放置一个pom.xml。这是神器的原始pom。不会展开或继承变量，也不会列出继承的依赖项。这使得产品jar的信息依赖于构建环境。 jar内部的pom如何配置？最好是对maven-jar-plugin进行一些配置。

浏览 0提问于2010-12-14得票数 9

回答已采纳

2回答

将数据池与已删除的记录同步

、、、、

我正在建设的数据湖，以集成多个数据源的高级分析。在开始时，我选择HDFS作为数据湖存储。但是我有一个更新和删除数据源的要求，我必须与数据湖同步。要理解Data的不可变性质，我将考虑数据源中的LastModifiedDate，以检测该记录是否已更新，并将该记录插入数据湖中具有当前日期。这样做的目的是用最大值(日期)选择记录。但是，我无法理解我将检测删除的记录从来源和我将做什么与数据湖？我应该使用诸如Cassandra之类的其他数据存储并执行delete命令吗？恐怕它会失去不可改变的财产。你能建议我在这种情况下的良好做法吗？

浏览 2提问于2018-04-06得票数 1

2回答

使用Azure数据湖时是否需要数据仓库？

、、、

我正在探索Azure数据湖，我是这个领域的新手。我探索了很多东西，读了很多文章。基本上，我必须从不同来源的数据开发Power仪表板。在典型的Server栈中，我可以编写一个ETL (提取、转换、加载)进程，将我的系统数据库中的数据导入数据仓库数据库。然后利用SSAS等技术，利用Power实现数据仓库。但是我想使用Azure数据湖，我探索了Azure和Azure ( use )。我绘制了如下的架构图。在当前的申请流程中，我遗漏了什么东西吗？我可以使用Power直接从Azure数据湖获取数据，因此不需要数据仓库。我说的对吗？我可以在Azure数据湖创建一个数据库，那

浏览 1提问于2018-03-15得票数 3

回答已采纳

2回答

Azure应用程序无法访问数据湖存储中新创建的文件

、、

我编写了控制台应用程序来监控/分析Azure数据湖存储中的文件。我在Azure活动目录中创建了一个应用程序来访问azure资源。我遵循了给出的所有步骤，让能够访问蔚蓝数据湖存储上的应用程序。我提供了对父目录和数据湖存储的所有幼童文件夹/文件的访问权限。现在，我可以通过我的代码访问文件。我试图通过在代码中使用DataLakeStoreFileSystemManagement Client获取USQL作业在数据湖存储中生成的文件的修改时间和过期时间。我正在使用微软提供的.NET API进行数据湖分析和数据湖存储。我正在为我提供访问的文件获取所有这些信息。但是，当usql作业在蔚蓝数据湖存储中添

浏览 1提问于2018-01-30得票数 0

2回答

如何在Azure数据湖中调度U查询？

、

我想每天在蔚蓝数据湖中执行查询。我们能在蔚蓝数据湖中安排一个U查询吗？

浏览 2提问于2016-12-15得票数 6

回答已采纳

2回答

在流分析中写入数据湖

有没有一种方法可以让我从流分析输出到数据湖，并使用aad应用程序或其他东西，而不是我的帐户，用于写入到数据湖？让用户作为数据湖的写入者是不切实际的。

浏览 3提问于2018-06-19得票数 0

1回答

将Python工件从jenkins上传到Jfrog

、

如何发布从jenkins到jfrog的python项目工件。我有一个python包，我需要在jenkins中构建它，并将它上传给Jfrog。但神器上写着它被腐蚀了。发布从jenkins到Jfrog的python工件的正确方法是什么？

浏览 6提问于2022-08-11得票数 0

1回答

在Gitlab CI/CD的审查阶段访问postgresql

、、

在Gitlab CI/CD过程中，如何在审核阶段(对于审核应用程序)将数据导入postgresql服务器？我目前正在使用Gitlab CI/CD部署到AWS。Postgresql在整个构建阶段都使用。在构建阶段，信息成功地从另一个应用程序导入到postgresql。然后将数据作为SQL文件转储到工件(在两个位置)。 artifacts: paths: - postgres_backup.sql - scripts/postgres/postgres_backup.sql expire_in: 1 day 构建工件即被创建。但是，它们在review -

浏览 18提问于2021-03-10得票数 3

回答已采纳

1回答

Azure Data-lake Analytics中有两个文件夹的目的是什么

、

我是Azure数据湖的新手。下面的屏幕截图有2个文件夹(Storage Account和Catalog)，一个用于Datalake分析和其他数据湖存储。我的问题是，为什么每个文件夹的目的是什么，为什么我们使用U-SQL进行转换，而这可以在数据工厂中完成。请解释从数据存储到数据湖的数据流过程。 enter image description here 谢谢你，艾迪

浏览 18提问于2019-02-15得票数 0

2回答

如何将Azure数据湖中的数据推送到SSAS ( Azure分析服务)？有可能吗？

、

Azure数据湖是我的数据源。我想将数据从azure数据湖推送到Azure分析服务(SSAS)。我怎么能做到这一点？

浏览 1提问于2016-12-02得票数 1

1回答

Azure数据湖2 (adls2)，api用于获取存储在数据湖中的数据的总体大小。

、

我正在寻找一种方法来获取关于数据湖中存储的所有数据的总体大小的数据(蔚蓝数据湖gen2 2- adls2)。是否有人知道如何获取有关数据湖大小(存储了多少数据)的此类信息？试图找到合适的API，但到目前为止没有找到任何东西。会感谢你的任何建议。

浏览 2提问于2019-10-13得票数 1

回答已采纳

1回答

将ARM模板替换为Terraform并使用Visual Studio进行部署

、、

我能够准备由我的资源组成的main.tf文件，这些资源将在Azure上构建(资源组、数据湖、存储帐户、数据工厂)，但需要在现有的已定义ARM模板的Visual Studio解决方案中替换它。发布需要从VS部署和执行terraform文件，但不确定如何做。有没有人能帮我引路？

浏览 14提问于2021-06-04得票数 2

回答已采纳

2回答

如何扩展Azure数据工厂数据流？

、、、、

我可以很容易地使用ADF UI为一个表设置SCD Type2流程，但我没有看到一种简单的方法来扩展到我们已经拥有的数千个数据源。我没有看到任何允许我编写ADF Pipeline/Dataflow并动态配置和触发它们的Java API。我查看了Azure Datalake Gen 2，Azure Databricks等。我在Azure中没有看到任何工具可以让我们取代我们内部构建的UI驱动的数据湖摄取过程。我是不是漏掉了什么？顺便说一句，我们有一个旧的数据湖应用程序，它从数千个数据源(如数据库、日志文件、web应用程序等)中摄取数据，并使用Java、Spark、Kafka等技术在HDFS (一

浏览 13提问于2020-01-11得票数 0

2回答

传统数据湖与AWS湖形成

、、

我一直在为客户建立数据湖，在那里我们将数据从onprem或任何其他来源加载到S3 (一个数据湖)中。我们将在这些原始数据上创建一个AWS Glue目录来创建模式。下一步是使用EMR或AWS Glue进行数据清理，将转换后的数据加载到RDS / REDSHIFT / S3中作为最终目标。根据使用的用例/服务，可以使用数据管道、Glue Jobs或AWS Lambda事件触发器来调度作业。分析人员、其他用户将使用IAM服务提供所需的数据/ S3桶访问，用于Quicksight可视化或使用雅典娜、data等进行数据查询，或在Sagemaker中为ML应用程序使用数据。我的问题是，AWS湖的形

浏览 0提问于2019-08-20得票数 3

1回答

对Azure数据湖和Azure SQL Server的Asp.Net读/写

、、、、

我喜欢创建web应用程序来上传文件，保存到azure数据湖，读/写到azure SQL Server。我使用我的Azure AD客户端I/密钥访问数据湖，我的Azure SQL Server连接字符串，如: Server=tcp:{MyAzureSQLServer}.database.windows.net,1433;Initial目录{MyAzureDatabase}；持久化安全Info=False;MultipleActiveResultSets=False;Encrypt=True;TrustServerCertificate=False;Authentication="Ac

浏览 4提问于2019-01-18得票数 0

1回答

数据湖如何存储数据和格式？

、、、、

我听说数据湖可以存储任何类型的数据:关系型，NoSql，图片/图像，Adobe，Excel。如何以无SQL格式或二叉树存储数据？还是把它像普通硬盘一样保存？如果是这样的话，他们为什么不直接称之为存储，而不是数据湖呢？我正在试图找到“数据湖”的确切存储机制。

浏览 0提问于2018-09-09得票数 2

回答已采纳

1回答

Azure数据湖文件中的逻辑视图

、、

我有一个要求分类的PII和非PII数据从Azure数据湖发电1文件。由于我不想复制数据湖中的物理文件创建，我们是否可以在数据湖中创建逻辑视图，最好与物化视图相比较。更好的技术-天青同步分析/数据库/ VM与火花过程，. 此外，该技术易于与RBAC的Active Directory集成。告诉我可能性。

浏览 4提问于2020-09-11得票数 0

回答已采纳