首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#rdd

【赵渝强老师】Spark RDD的依赖关系和任务阶段

赵渝强老师

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型:窄依赖和宽依赖。

7110

Spark编程实验二:RDD编程初级实践

Francek Chen

1、熟悉Spark的RDD基本操作及键值对操作; 2、熟悉使用RDD编程解决实际具体问题的方法。

4200

RDD编程

Francek Chen

Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 本地文件系统的地址、或...

5600

Spark中的RDD是什么?请解释其概念和特点。

GeekLiHua

腾讯 | 业务安全工程师 (已认证)

Spark中的RDD(弹性分布式数据集)是一种分布式的、可并行操作的数据结构。它是Spark的核心抽象,用于表示分布式计算过程中的数据集合。

4400

Spark中使用RDD算子GroupBy做词频统计的方法

火之高兴

测试文件在本地D://tmp/spark.txt,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

8310

Spark RDD 整体介绍

Freedom123

RDD 介绍     RDD 弹性分布式数据集          弹性:具有容错性,在节点故障导致丢失或者分区损坏,可以进行重新计算数据         ...

12910

我攻克的技术难题 - Spark01:初见Spark,又是Hello World?

叫我阿柒啊

腾讯云TDP | 产品KOL (已认证)

在18年初刚开始接触学习spark的时候,买了一本《Spark大数据处理技术》的书,虽然后来一些Spark开发的知识都是从官网和实践中得来的,但是这本书对我来说...

23510

Spark记录 - 乐享诚美

司夜

腾讯 | 后端开发 (已认证)

一、Spark 的5大优势: 1. 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。在数据全部加载到...

14220

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

韩曙亮

RDD#sortBy 方法 用于 按照 指定的 键 对 RDD 中的元素进行排序 , 该方法 接受一个 函数 作为 参数 , 该函数从 RDD 中的每个元素提取...

49310

【Python】PySpark 数据计算 ④ ( RDD#filter 方法 - 过滤 RDD 中的元素 | RDD#distinct 方法 - 对 RDD 中的元素去重 )

韩曙亮

RDD#filter 方法 可以 根据 指定的条件 过滤 RDD 对象中的元素 , 并返回一个新的 RDD 对象 ;

48410

【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

韩曙亮

再后 , 将 rdd 数据 的 列表中的元素 转为二元元组 , 第一个元素设置为 单词 字符串 , 第二个元素设置为 1

76220

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

韩曙亮

RDD#map 方法 可以 将 RDD 中的数据元素 逐个进行处理 , 处理的逻辑 需要用外部 通过 参数传入 map 函数 ;

40210

【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

韩曙亮

在 PySpark 中 RDD 对象 提供了一种 数据计算方法 RDD#map 方法 ;

72110

【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

韩曙亮

RDD 英文全称为 " Resilient Distributed Datasets " , 对应中文名称 是 " 弹性分布式数据集 " ;

49510

Python大数据之PySpark(六)RDD的操作

Maynor

from pyspark import SparkConf, SparkContext import re

34550

Python大数据之PySpark(五)RDD详解

Maynor

rdd2=sc.textFile(“hdfs://node1:9820/pydata”)

68620

因果推断(四)断点回归(RD)

HsuHeinrich

在传统的因果推断方法中,有一种方法可以控制观察到的混杂因素和未观察到的混杂因素,这就是断点回归,因为它只需要观察干预两侧的数据,是否存在明显的断点。

56220

Spark-Core核心算子

ha_lydms

接收一个返回值为布尔类型的函数作为参数。当某个RDD调用filter方法时,会对该RDD中每一个元素应用f函数,如果返回值类型为true,则该元素会被添加到新的...

28630

Spark RDD惰性计算的自主优化

朱季谦

RDD(弹性分布式数据集)中的数据就如final定义一般,只可读而无法修改,若要对RDD进行转换或操作,那就需要创建一个新的RDD来保存结果。故而就需要用到转换...

46710

Spark RDD -> Stage Task

jasong

腾讯 | 高级工程师 (已认证)

RDD分为两种: Transformation 转换算子, Action 动作算子

20960
领券