为了分析的目的,我必须储存一些数据。数据是每月收集的(不是实时的).有不同的100+列的数据。
SQL的可用性很重要。我计划使用Postgres (可能有面向列的扩展),但是这样的数据量(每年超过20 to )是不可行的。我还对Hadoop/Spark进行了研究,但是它看起来有点庞大(考虑到数据是完全结构化的)。您是否愿意建议,为了分析目的,哪些
我刚刚开始进行数据分析,需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时,我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure看起来,项目(b)和(c)可以挂载到工作区中,以检索用于分析的数据。
在Databricks上下文中使用这些存储选
我正在分析Azure SQL数据库中存储过程的性能,但是在使用Azure Data Studio中的分析器时,我看不到一些存储过程,特别是那些具有大型数据集输入的过程。在测试环境中进行调查之后,如果我将输入数据集分散到多个存储过程执行中,我就能够在分析器中看到如下所示的执行:为什么Profiler隐藏具有大输入数据集的存储过程执行?