rdd - 标签 - 腾讯云开发者社区-腾讯云

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

#rdd

【赵渝强老师】Spark RDD的依赖关系和任务阶段

赵渝强老师 2025-02-012025-02-01 20:17:58

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型：窄依赖和宽依赖。

7110

Spark编程实验二：RDD编程初级实践

Francek Chen 2025-01-222025-01-22 18:08:44

1、熟悉Spark的RDD基本操作及键值对操作； 2、熟悉使用RDD编程解决实际具体问题的方法。

4200

RDD编程

Francek Chen 2025-01-222025-01-22 18:08:20

Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数，这个URI可以是：本地文件系统的地址、或...

5600

Spark中的RDD是什么？请解释其概念和特点。

GeekLiHua

腾讯｜业务安全工程师 (已认证)

2025-01-212025-01-21 16:54:18

Spark中的RDD（弹性分布式数据集）是一种分布式的、可并行操作的数据结构。它是Spark的核心抽象，用于表示分布式计算过程中的数据集合。

4400

Spark中使用RDD算子GroupBy做词频统计的方法

火之高兴 2024-07-252024-07-25 15:41:36

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

8310

Spark RDD 整体介绍

Freedom123 2024-03-292024-03-29 08:40:31

RDD 介绍 RDD 弹性分布式数据集弹性：具有容错性，在节点故障导致丢失或者分区损坏，可以进行重新计算数据 ...

12910

我攻克的技术难题 - Spark01：初见Spark，又是Hello World？

叫我阿柒啊

腾讯云TDP ｜产品KOL (已认证)

2024-01-212024-01-21 23:54:05

在18年初刚开始接触学习spark的时候，买了一本《Spark大数据处理技术》的书，虽然后来一些Spark开发的知识都是从官网和实践中得来的，但是这本书对我来说...

23510

Spark记录 - 乐享诚美

司夜

腾讯｜后端开发 (已认证)

2023-10-182023-10-18 10:34:35

一、Spark 的5大优势： 1. 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代，并缓存用以后续的频繁访问需求。在数据全部加载到...

14220

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

韩曙亮 2023-10-112023-10-11 20:12:40

RDD#sortBy 方法用于按照指定的键对 RDD 中的元素进行排序 , 该方法接受一个函数作为参数 , 该函数从 RDD 中的每个元素提取...

49310

【Python】PySpark 数据计算 ④ ( RDD#filter 方法 - 过滤 RDD 中的元素 | RDD#distinct 方法 - 对 RDD 中的元素去重 )

韩曙亮 2023-10-112023-10-11 20:12:21

RDD#filter 方法可以根据指定的条件过滤 RDD 对象中的元素 , 并返回一个新的 RDD 对象 ;

48410

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

韩曙亮 2023-10-112023-10-11 20:11:59

再后 , 将 rdd 数据的列表中的元素转为二元元组 , 第一个元素设置为单词字符串 , 第二个元素设置为 1

76220

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

韩曙亮 2023-10-112023-10-11 20:09:57

RDD#map 方法可以将 RDD 中的数据元素逐个进行处理 , 处理的逻辑需要用外部通过参数传入 map 函数 ;

40210

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

韩曙亮 2023-10-112023-10-11 20:09:33

在 PySpark 中 RDD 对象提供了一种数据计算方法 RDD#map 方法 ;

72110

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

韩曙亮 2023-10-112023-10-11 20:08:52

RDD 英文全称为 " Resilient Distributed Datasets " , 对应中文名称是 " 弹性分布式数据集 " ;

49510

Python大数据之PySpark(六)RDD的操作

Maynor 2023-10-082023-10-08 08:33:56

from pyspark import SparkConf, SparkContext import re

34550

Python大数据之PySpark(五)RDD详解

Maynor 2023-10-042023-10-04 18:03:50

rdd2=sc.textFile(“hdfs://node1:9820/pydata”)

68620

因果推断（四）断点回归（RD）

HsuHeinrich 2023-09-072023-09-07 08:48:00

在传统的因果推断方法中，有一种方法可以控制观察到的混杂因素和未观察到的混杂因素，这就是断点回归，因为它只需要观察干预两侧的数据，是否存在明显的断点。

56220

Spark-Core核心算子

ha_lydms 2023-09-042023-09-04 08:16:36

接收一个返回值为布尔类型的函数作为参数。当某个RDD调用filter方法时，会对该RDD中每一个元素应用f函数，如果返回值类型为true，则该元素会被添加到新的...

28630

Spark RDD惰性计算的自主优化

朱季谦 2023-08-222023-08-22 21:31:21

RDD（弹性分布式数据集）中的数据就如final定义一般，只可读而无法修改，若要对RDD进行转换或操作，那就需要创建一个新的RDD来保存结果。故而就需要用到转换...

46710

Spark RDD -> Stage Task

jasong

腾讯｜高级工程师 (已认证)

2023-07-212023-07-21 12:01:01

RDD分为两种: Transformation 转换算子, Action 动作算子

20960