首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

获取pyspark中数组列中所有True元素的索引

在pyspark中,要获取数组列中所有True元素的索引,可以使用pyspark.sql.functions中的expr函数结合pyspark.sql.functions.arrays_zip函数和pyspark.sql.functions.expr函数来实现。

具体的步骤如下:

  1. 使用pyspark.sql.functions.arrays_zip函数将数组列与自然数列进行配对,并将结果存储在一个新的列中。示例代码如下:
代码语言:txt
复制
from pyspark.sql.functions import arrays_zip, expr

df = df.withColumn("indexed_array", arrays_zip(df.array_column, expr("sequence(size(array_column))")))
  1. 使用pyspark.sql.functions.expr函数结合lambda表达式来筛选出数组列中为True的元素。示例代码如下:
代码语言:txt
复制
df = df.withColumn("filtered_array", expr("transform(indexed_array, x -> IF(x[0], x[1], NULL))"))
  1. 使用pyspark.sql.functions.expr函数结合pyspark.sql.functions.array_position函数来获取数组列中为True的元素的索引。示例代码如下:
代码语言:txt
复制
df = df.withColumn("indexes", expr("transform(filtered_array, x -> array_position(array_column, x))"))

最终,可以通过访问"indexes"列来获取数组列中所有True元素的索引。

示例代码:

代码语言:txt
复制
from pyspark.sql import SparkSession
from pyspark.sql.functions import arrays_zip, expr

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据
data = [("A", [True, False, True]),
        ("B", [False, True, True]),
        ("C", [False, False, False])]

df = spark.createDataFrame(data, ["id", "array_column"])

# 获取所有True元素的索引
df = df.withColumn("indexed_array", arrays_zip(df.array_column, expr("sequence(size(array_column))")))
df = df.withColumn("filtered_array", expr("transform(indexed_array, x -> IF(x[0], x[1], NULL))"))
df = df.withColumn("indexes", expr("transform(filtered_array, x -> array_position(array_column, x))"))

df.show(truncate=False)

运行结果如下:

代码语言:txt
复制
+---+--------------+-----------------+-----------+
|id |array_column  |indexed_array    |indexes    |
+---+--------------+-----------------+-----------+
|A  |[true, false, true]|[[true, 0], [false, 1], [true, 2]]|[0, 2]     |
|B  |[false, true, true]|[[false, 0], [true, 1], [true, 2]]|[1, 2]     |
|C  |[false, false, false]|[[false, 0], [false, 1], [false, 2]]|[]         |
+---+--------------+-----------------+-----------+

上述代码中使用的是pyspark中的DataFrame API进行操作。需要注意的是,为了展示结果,使用了df.show()函数进行打印。

这是获取pyspark中数组列中所有True元素的索引的方法,可以根据实际需求进行调整和扩展。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Python如何获取列表重复元素索引

一、前言 昨天分享了一个文章,Python如何获取列表重复元素索引?,后来【瑜亮老师】看到文章之后,又提供了一个健壮性更强代码出来,这里拿出来给大家分享下,一起学习交流。...= 1] 这个方法确实很不错,比文中那个方法要全面很多,文中那个解法,只是针对问题,给了一个可行方案,确实换个场景的话,健壮性确实没有那么好。 二、总结 大家好,我是皮皮。...这篇文章主要分享了Python如何获取列表重复元素索引问题,文中针对该问题给出了具体解析和代码演示,帮助粉丝顺利解决了问题。...最后感谢粉丝【KKXL螳螂】提问,感谢【瑜亮老师】给出具体解析和代码演示。

13.4K10
  • 查找某个元素数组对应索引

    1 问题 已知一个数组元素为 { 19, 28, 37, 46, 50 } 。用户输入一个数据,查找该数据在数组索引,并在控制台输出找到索引值,如果没有查找到,则输出 -1。...2 方法 首先定义一个数组,在键盘录入要查找数据,用一个变量接收。再定义一个变量,初始值为-1。遍历数组获取数组每一个元素。...然后将键盘输入数据和数组每一个元素进行比较,如果值相同就把该值对应索引赋值给索引变量,并结束循环。最后输8出索引变量。...; }else{ System.out.println("您输入数字" + a + "在数组索引是:" + dataIndex); } }...(a == arr[i]){ return i; } } return -1; } } 3 结语 针对查找某个元素数组对应索引这个问题

    3.1K10

    java输出数组方法_java怎样输出数组所有元素

    文章目录 数组输出三种方式 一维数组: 1. 传统for循环方式 2. for each循环 3. 利用Array类toString方法 二维数组: 1....利用Array类toString方法 数组输出三种方式 一维数组: 定义一个数组 int[] array = { 1,2,3,4,5}; 1....利用Array类toString方法 调用Array.toString(a),返回一个包含数组元素字符串,这些元素被放置在括号内,并用逗号分开 int[] array = { 1,2,3,4,5...,只有一维数组,多维数组被解读为”数组数组”,例如二维数组magicSquare是包含{magicSquare[0],magicSquare[1],magicSquare[2]}三个元素一维数组,magicSqure...本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

    4.7K30

    MySQL索引前缀索引和多索引

    正确地创建和使用索引是实现高性能查询基础,本文笔者介绍MySQL前缀索引和多索引。...,因为MySQL无法解析id + 1 = 19298这个方程式进行等价转换,另外使用索引时还需注意字段类型问题,如果字段类型不一致,同样需要进行索引计算,导致索引失效,例如 explain select...,第二行进行了全表扫描 前缀索引 如果索引值过长,可以仅对前面N个字符建立索引,从而提高索引效率,但会降低索引选择性。...当出现索引合并时表明表上所有是有值得优化地方,判断是否出现索引合并可以观察Extra是否出现了如下信息 Using union(account_batch_batch_no_index,account_batch_source_system_index...); Using where 复制代码 如果是在AND操作,说明有必要建立多联合索引,如果是OR操作,会耗费大量CPU和内存资源在缓存、排序与合并上。

    4.4K00

    java数组删除元素_java删除 数组指定元素方法

    大家好,又见面了,我是你们朋友全栈君。 java删除 数组指定元素要如何来实现呢,如果各位对于这个算法不是很清楚可以和小编一起来看一篇关于java删除 数组指定元素例子。...javaapi,并没有提供删除数组元素方法。虽然数组是一个对象,不过并没有提供add()、remove()或查找元素方法。这就是为什么类似ArrayList和HashSet受欢迎原因。...不过有一点需要注意,数组是在大小是固定,这意味这我们删除元素后,并不会减少数组大小。 所以,我们只能创建一个新数组,然后使用System.arrayCopy()方法将剩下元素拷贝到新数组。...为了避免麻烦,我们使用第二种方法: 我们使用Apache commons库ArrayUtils类根据索引来删除我们指定元素。...其实还是要用到两个数组,然后利用System.arraycopy()方法,将除了要删除元素其他元素都拷贝到新数组,然后返回这个新数组

    8.2K20

    元素作用_获取iframe元素

    大家好,又见面了,我是你们朋友全栈君。...目标网站红薯中文网 获取网页源代码也获取不了这些动态渲染数据 所以用简单,但是有点麻烦方法 使用selenium执行js,或者直接在浏览器里面执行js function kkk(){...76980100是上一个请求获取解密密钥 套用即可 解密之后,里面的参数是对应 context_kw11 这个就是对应元素class,将这个都拿去用selenium执行js方法获取到结果...,保存为字典,最后在用re正则,将所有数据都正则出来 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。...本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

    6.9K30

    Pyspark处理数据带有分隔符数据集

    本篇文章目标是处理在数据集中存在分隔符或分隔符特殊场景。对于Pyspark开发人员来说,处理这种类型数据集有时是一件令人头疼事情,但无论如何都必须处理它。...使用sparkRead .csv()方法读取数据集: #create spark session import pyspark from pyspark.sql import SparkSession...从文件读取数据并将数据放入内存后我们发现,最后一数据在哪里,年龄必须有一个整数数据类型,但是我们看到了一些其他东西。这不是我们所期望。一团糟,完全不匹配,不是吗?...我们已经成功地将“|”分隔(“name”)数据分成两。现在,数据更加干净,可以轻松地使用。...接下来,连接“fname”和“lname”: from pyspark.sql.functions import concat, col, lit df1=df_new.withColumn(‘fullname

    4K30

    排序数组单个元素

    来源: lintcode-排序数组单个元素 描述 给定一个排序数组,只包含整数,其中每个元素出现两次,除了一个出现一次元素。 找到只出现一次单个元素。...遍历数组,对每个元素进行计数,之后返回只出现一次元素. 逐个消除....从index=0开始,与之后每一个元素比较,如果遇到相同,则将两个元素一起移除掉,如果遍历至结尾,还没有和当前元素相同,则返回当前元素. 但是今天我不用这两个方法,使用位运算符来解决....异或(^): 两个操作数,相同则结果为0,不同则结果为1。 比如:7^6=1;怎么计算呢?当然不是直接减法了!...出现两次数字异或之后都为0,拿到0和唯一出现一次数字异或,结果就是所求只出现一次数字. 所以此题机智解法就是:对数组所有数字异或即可.

    2.2K40

    索引URL散

    (hash)也就是哈希,是信息存储和查询所用一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散,这样才能快速地排除已经抓取过网页。...最理想状态是对联网上所有的网页都分配一个哈希地址,可想而知这是一个相当宠大数字,但实际上往往是无法做到这一点。...虽然google、百度都是采用分布式机群进行哈希排重,但实际上也是做不到所有的网页都分配一个唯一散地址。但是可以通过多级哈希来尽可能地解决,但却要会出时间代价在解决哈希冲突问题。...一般情况下所有哈希函数,如果其原始字符串很相似则哈希地址冲突几率就加大,所以同一个网站下网页URL冲突几率也就很大,特别是那些带参数动态网页URL。...而采用MD5再哈希方法明显对散地址起到了一个均匀发布作用。

    1.7K30

    php索引数组数组顺序问题

    先上结论 , php索引数组不是传统从0开始整数索引数组 , 而是一个关联数组 , 是一个有序键值对 ,这个序就是定义时候顺序 $arr=array('a','b') $arr[0] 这个输出肯定是...a $arr=array(1=>'a',0=>'b') $arr[0] 输出b 说明php索引数组 , 也是一个键值对 , 键是0 , 值是b 当用foreach循环时候 , 顺序是按照插入时顺序遍历...输出 1====>a 0====>b 所以从这个里面我们就很可能会出现一个错误 , 当我们想要第一个数组元素时候 $arr[0] 实际上不是真正第一个元素 可以使用reset()来方便地获取数组第一个值...,或者用end()获取最后一个值。...reset()将内部指针会重置到数组开头 first=reset(arr);

    9.3K40

    【Python】元组 tuple ② ( 元组常用操作 | 使用下标索引取出元组元素 | 查找某个元素对应下标索引 | 统计某个元素个数 | 统计所有元素个数 )

    一、元组常用操作 1、使用下标索引取出元组元素 - [下标索引] 使用下标索引取出 元组 tuple 元素 方式 , 与 列表 List 相同 , 也是将 下标索引 写到括号 访问指定位置元素..., 语法如下 : 元素变量 = 元组变量[下标索引] 如果是嵌套元组 , 则使用两个 括号 进行访问 ; 元素变量 = 元组变量[下标索引1][下标索引2] 代码示例 : """ 元组 tuple...常用操作 代码示例 """ # 定义元组字面量 t0 = ("Tom", "Jerry", 18, False, 3.1415926) # 打印元组索引值为 1 元素 print(t0[1])...: Jerry 16 2、查找某个元素对应下标索引 - index 函数 调用 tuple#index 函数 , 可以查找 元组 中指定元素 对应下标索引 ; 函数原型如下 : def index...元组 所有元素 个数 ; 函数原型如下 : def len(*args, **kwargs): # real signature unknown """ Return the number

    1.1K20
    领券