首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark SQL(七):AQE自适应查询执行(下)

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Spark Exchange算子有两类实现:ShuffleExchangeExec 大规模数据shuffle重分区分发,doExecute 生成Shuffled...

16310

告别 UNION ALL!GROUPING SETS 让你的 SQL 只扫描一次表

ETL 小当家

GROUPING SETS 是 SQL 中 GROUP BY 子句的扩展功能,它的核心作用是:在一次查询中同时执行多个不同维度的分组统计,最后将所有分组的结果合...

10510

一文搞懂物化视图:从原理到实战,查询性能提升 10 倍的秘密

ETL 小当家

物化视图是数据库中的一种特殊对象,它存储了查询结果的物理副本,与普通视图(只保存查询定义)不同。

8310

SQL视图实战指南:高效维护逻辑,告别重复代码

ETL 小当家

视图是从一个或多个表(或其他视图)导出的虚拟表。它本身不包含实际的数据,而是根据定义它的查询语句从相关的表中动态检索数据。可以将视图理解为一个存储起来的查询,查...

7410

谁在摧毁中国的企业软件产业?白嫖,开源,外包,招标,数科,AI...

肥仔鱼

中国的企业软件产业正处在一个“多重压力交汇”的关键十字路口。表面上看,是“白嫖文化”、开源冲击、外包盛行、招标机制扭曲、数科公司挤压、AI颠覆等外部力量在“摧毁...

12110

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

13010

Spark Mlib ALS 交替最小二乘算法(学习笔记)

用户10150864

ALS是交替最小二乘的简称(alternating least squares)的简称。在机器学习的上下文中,ALS特指使用交替最小二乘求解的一个协同推荐算法。...

10010

大数据处理:Pandas+Spark 高效分析海量数据

1xsss

在数字化时代,海量数据已成为企业和组织的核心资产——从用户行为分析到业务决策优化,从金融风控到智能制造,大数据分析的能力直接决定了数据价值的挖掘深度。然而,面对...

12010

【实验笔记】基于 NVIDIA DGX Spark 与 Reachy Mini 构建智能实体Agent

GPUS Lady

在 2026 年 CES 大会上,NVIDIA 发布了一系列开放模型(包括 Nemotron 推理 LLM、Isaac GR00T N1.6 开放推理 VLA、...

15710

谭蔚泓院士/吴芩研究员最新Science|SPARK-seq技术——适配体筛选进入高通量时代

DrugOne

细胞表面蛋白是多数临床可用药靶点,对细胞通讯、信号传导及稳态维持至关重要。但当前针对这类靶点的高亲和力适配体等分子探针生成方法存在明显局限,不仅通量低,还易破坏...

13010

Spark SQL(六):AQE自适应查询执行(上)

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

AQE执行与非AQE执行,在Driver流程上存在显著的区别。以下示例展示非AQE执行与AQE执行的Stage划分和执行

30810

DGX Spark 12月Playbooks重磅更新,助力开发者打造高效个人AI Lab

GPUS Lady

本周,NVIDIA宣布专为开发者打造的“个人AI Lab”——NVIDIA DGX Spark平台,更新了操作手册(playbooks),旨在让这份“实验室操作...

24310

凯哥 | Spark 点火,湖仓起飞:Databricks 如何做成千亿美元“开源印钞机”?

凯哥

Spark 点火,湖仓起飞:Databricks 如何做成千亿美元“开源印钞机”?

28010

spark集成hive

用户4128047

        集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:

11710

spark临时文件较大问题处理

用户4128047

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件...

9810

Hive参数设置

用户4128047

设置为mr则调用Hadoop的mr执行;设置执行引擎为spark则调用spark执行任务。若有条件设置为Spark,因为运行比Hadoop的mr快。

15510

spark中cache和persist算子的区别

用户4128047

基于spark-2.4.0的源码对两个算子进行分析它们之间的区别 首先,看下cache()算子的源码

11610

在windows上pycharm配置spark环境

用户4128047

在pycharm中配置开发环境 a、打开pycharm,创建一个progect,设置run configuration

20010
领券