首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

【PySpark大数据分析概述】02 Spark大数据技术框架

Francek Chen

PySpark作为Apache Spark的Python API,融合Python易用性与Spark分布式计算能力,专为大规模数据处理设计。支持批处理、流计算...

4400

Spark技术中最常见的面试问题-2023面试题库

jack.yang

Apache Spark是一种基于Hadoop和MapReduce技术的开源,支持各种计算技术,以实现快速高效的处理。Spark 以其内存中集群计算而闻名,这是...

5400

Spark源代码分析——谈RDD和依赖关系

jack.yang

为了更好地理解,这里我们使用HDFS上常见的HDFS实现:Hadoop RDD的实现。

7410

Spark 高级:RDD 使用

jack.yang

Spark 提供了数据的核心抽象,称为弹性分布式数据集 (RDD)。此数据集的全部或部分可以缓存在内存中,并在多次计算期间重复使用。RDD实际上是一个分布在多个...

5300

什么是Apache Spark

jack.yang

Apache Spark 是一个闪电般的开源数据处理引擎,用于机器学习和人工智能应用程序,由最大的大数据开源社区提供支持。

7210

Apache Spark 源代码分析之主节点和工作节点间协作流程

jack.yang

Spark 是一个高效的分布式计算框架,但想要更深入地学习它,就需要分析 Spark 的源代码,这不仅可以帮助更好地了解 Spark 的工作过程,还可以提高集群...

10800

实战经验:Apache Spark性能调优的五大秘诀

用户9421738

Apache Spark 于 2013 年开源,至今仍是最受欢迎且功能强大的计算引擎之一。然而,使用Spark也面临着挑战,诸如缩容、数据倾斜和内存溢出等问题。...

10210

StarRocks 助力首汽约车精细化运营

StarRocks

💬 https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/2b42f

500

Hive SQL实现近N周的数据统计查询

朱季谦

先前遇到过一个需求,需要基于HIVE统计近N周范围的数据,例如,统计近7周范围的数据指标。

4410

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

StarRocks

3 月 13 日,StarRocks 社区在新加坡成功举办了第二场 Meetup 活动,主题为“Empowering Customer-Facing Analy...

7210

突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手

AI浩

你是否想过,未来的语音助手不仅能“说话”,还能根据你的需求调整音色、语速甚至情绪?近日,一项名为Spark-TTS的突破性技术横空出世,它基于大语言模型(LLM...

1.3K10

开窗函数 spark sql实现累加、累积计数、累乘

数据仓库晨曦

我们首先想到的是直接使用count(disitnct amount) 的方式来完成,注意:在hive中支持count(distinct amount)over(...

12610

Gluten肝货:Spark Native加速技术完整实践案例总结

用户9421738

目前gluten支持两种backend:clickhouse和velox,本文实践基于gluten与clickhouse组合方式。

7000

详解spark开窗函数

数据仓库晨曦

窗口函数(Window functions)又称分析函数或开窗函数,它允许你在不改变原始行的情况下,对一组相关的行(称为“窗口”)进行计算和分析。与普通的聚合函...

8511

【赵渝强老师】Spark RDD的缓存机制

赵渝强老师

Spark RDD通过persist方法或cache方法可以将计算结果的缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD才会被...

9710

【赵渝强老师】Spark的容错机制:检查点

赵渝强老师

这种模式需要将spark-shell运行在本地模式上。下面的代码使用了本地目录作为RDD检查点的目录

9810

【赵渝强老师】Spark RDD的依赖关系和任务阶段

赵渝强老师

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型:窄依赖和宽依赖。

8110

账户合并

代码小李

给定一组账户,每个账户有一个名称和一组电子邮件地址。电子邮件地址可能会在多个账户中重复出现。如果两个账户有相同的电子邮件地址,则认为这两个账户属于同一用户。请将...

10200

【智能大数据分析 | 实验四】Spark实验:Spark Streaming

Francek Chen

要求实验结束时,每位学生能正确运行成功本实验中所写的 jar 包程序,能正确的计算出单词数目。

15100

【智能大数据分析 | 实验二】Spark实验:部署Spark集群

Francek Chen

能够理解 Spark 存在的原因,了解 Spark 的生态圈,理解 Spark 体系架构并理解 Spark 计算模型。学会部署 Spark 集群并启动 Spar...

12200
领券
首页
学习
活动
专区
圈层
工具