如何删除单列pyspark中包含空值的行

在pyspark中删除包含空值的行，可以使用dropna方法。具体步骤如下：

首先，导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建一个SparkSession对象：

spark = SparkSession.builder.getOrCreate()

加载数据并创建一个DataFrame对象：

df = spark.read.csv("your_file.csv", header=True, inferSchema=True)

请将"your_file.csv"替换为你的数据文件路径，并确保设置了正确的文件格式、文件头、以及是否自动推断模式。

使用dropna方法删除包含空值的行：

df_without_nulls = df.dropna()

如果你只想删除特定列（例如"column1"和"column2"）中包含空值的行，可以使用subset参数：

df_without_nulls = df.dropna(subset=["column1", "column2"])

此时，df_without_nulls是一个删除了包含空值的行的DataFrame对象。

以上是删除包含空值的行的基本方法。在pyspark中，你还可以根据具体需求进行更复杂的空值处理，例如填充空值、删除指定数量的空值行等。你可以根据具体情况选择适合的方法。

推荐腾讯云的相关产品和产品介绍链接地址如下：

腾讯云Spark引擎：提供托管的Apache Spark平台，可用于大规模数据处理和分析。了解更多信息：https://cloud.tencent.com/product/emr
腾讯云数据湖分析（DLA）：用于构建数据湖和进行大数据分析的全托管数据仓库服务。了解更多信息：https://cloud.tencent.com/product/dla
腾讯云数据平台（TDSQL-C）：基于云原生的一站式数据库解决方案，提供高性能、高可用性、弹性扩展的数据库服务。了解更多信息：https://cloud.tencent.com/product/tdsqlc
腾讯云云函数（SCF）：无服务器函数计算服务，可快速构建和运行云端应用程序。了解更多信息：https://cloud.tencent.com/product/scf

Window.rowsBetween -只考虑满足特定条件的行(例如，不为null)

、、、

问题我有一个星火DataFrame，它有一个列，它包含的不是每一行的值，而是某些行的值(在某种程度上是有规律的，例如，根据id只包含5到10行)。现在，我想将一个窗口函数应用到包含涉及前两个行和后面两个行的值的行，这些行也包含值(因此基本上假装所有包含空值的行都不存在=不计入窗口的rowsBetween-range )。实际上，我的有效窗口大小可能是任意的，这取决于包含空值的行数。然而，我总是需要精确的前后两个值。此外，由于包含重要信息的其他列，最终结果应该包含所有行。示例例如，我希望计算前两个值、当前值和下两个值(非空值)的和值，这些值是非空的： from pyspark.sql.w

浏览 0提问于2018-11-20得票数 4

1回答

如何使用pycassa删除一行中的所有列？

、

我有一个包含多个简单列的行，我只需要删除该行中的列，而不删除行键本身。我尝试使用remove('row key')，但它会删除行键本身。如何使用remove()函数删除一行中的所有列？

浏览 6提问于2013-04-16得票数 1

回答已采纳

1回答

排序数组列，其中最后一项等于下一行的第一项。

、、、、

输入： from pyspark.sql import functions as F df = spark.createDataFrame( [( 1, 'aa', [None, 9]), ( 1, None, [ 9, 1]), ( 1, 'bb', [ 1, 4]), ( 1, 'cc', [ 4, 5]), ( 2, 'ee', [None, 2]

浏览 4提问于2022-11-09得票数 0

回答已采纳

1回答

PySpark比较空地图文字

、、、

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为lit()找到可接受的参数(尝试使用返回null的None和返回错误的{} )。我确信这是微不足道的，但我还没有看到任何关于这方面的文档！

浏览 2提问于2019-09-29得票数 2

回答已采纳

1回答

如何更新ms access表

、

如何更新包含单列多行的ms access表。表显示在listview上，每当我从listview中删除一行时，就应该从表中删除该行。我该怎么做呢。使用C#。我创建了一个oledb连接，并从列表视图选中项中删除了一行。这就是代码： if (listView1.CheckedItems.Count > 0) { foreach (ListViewItem lvi in listView1.CheckedItems) listView1.Items.Remove(lvi); } 现在，我如何更新ms acesss表？

浏览 1提问于2009-05-19得票数 1

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。 import pyspark.sql.functions as sf df.filter(sf.col('column_with_lists') != []) 返回以下错误： Py4JJavaError: An error occurred while calling o303.notEqual. : java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，

浏览 17提问于2017-02-24得票数 7

回答已采纳

2回答

删除特定列的空值行，同时在pyspark中执行partitionBy列

、、、、

我有一个这样的电火花数据仓库： +-----+---+-----+ | id| name|state| +-----+---+-----+ |111| null| CT| |222|name1| CT| |222|name2| CT| |333|name3| CT| |333|name4| CT| |333| null| CT| +---+-----+-----+ 对于给定的ID，即使列" name“是空的(如果它的ID不重复)，但如果ID是重复的，我想保留该记录，但是如果ID重复，那么我想检查name列，确保它不包含该ID中的重复项，如果"name”仅

浏览 1提问于2020-05-06得票数 1

回答已采纳

3回答

是否将一个行值与同一列中的所有其他值进行比较？

、

我有一个包含单个值或多个值的单列的表。我需要将一个行值与所有其他值进行比较，如果一个行值等于或存在于SQL中的另一个行值中。我如何在SQL中做到这一点？

浏览 2提问于2018-09-28得票数 0

2回答

如何在pyspark dataframe中返回空值的行？

、、

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点： df = df[df.isnull().any(axis=1)] 但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror： df.filter(df.isNull()) AttributeError：'DataFrame‘对象没有属性'isNull’。如何在不对每一列进行检查的情况下获取具有空值的行？

浏览 25提问于2018-11-27得票数 5

1回答

将pandas DataFrame写入包含一些空行的csv文件中

、

我创建了一个只包含字符串的单列pandas DataFrame。一行为空。当我在磁盘上写入文件时，空行得到一个空引号"“，而我根本不想要引号。以下是如何复制该问题的方法： import pandas as pd df = "Name=Test\n\n[Actual Values]\nLength=12\n" df = pd.DataFrame(df.split("\n")) df.to_csv("C:/Users/Max/Desktop/Test.txt", header=False, index=False) 输出文件应如下所示： Na

浏览 1提问于2013-12-19得票数 4

1回答

Pyspark选择列为NaN的数据

、、

如何才能只选择某个列中有NaN值的行？设置 import numpy as np import pandas as pd # pyspark import pyspark from pyspark.sql import functions as F from pyspark.sql.types import * from pyspark import SparkConf, SparkContext, SQLContext spark = pyspark.sql.SparkSession.builder.appName('app').getOrCreate() sc

浏览 1提问于2020-03-23得票数 0

回答已采纳

2回答

使用lower函数在文本清理中将pyspark dataframe中的单个列中的值转换为小写

、

尝试使用.lower函数将pyspark dataframe单列中的值转换为小写，以便进行文本清理 import pyspark.sql.functions as f f.lower(f.col(col("subject")).show() 获取： SyntaxError: unexpected EOF while parsing

浏览 0提问于2019-02-21得票数 0

2回答

如何使用基于HDFS的Spark进行数据清理

、、、、

目前，我主要研究的是数据挖掘项目中的数据预处理。具体来说，我想使用基于HDFS的PySpark进行数据清理。我对这些东西很陌生，所以我想问问怎么做？例如，HDFS中有一个包含以下条目的表： attrA attrB attrC label 1 a abc 0 2 abc 0 4 b abc 1 4 b abc 1 5 a abc 0 清除所有条目后，第2行<2, , abc, 0

浏览 4提问于2017-02-19得票数 2

回答已采纳

1回答

pyspark中包含空值的行数

、

考虑一个pyspark数据帧，例如 columns = ['id', 'dogs', 'cats'] vals = [(1, 2, 0),(None, 0, 1),(5,None,9)] df=spark.createDataFrame(vals,columns) df.show() +----+----+----+ | id|dogs|cats| +----+----+----+ | 1| 2| 0| |null| 0| 1| | 5|null| 9| +----+----+----+ 我想写一段代码，返回2作为包

浏览 1提问于2018-08-09得票数 0

2回答

如何在新的spark会话中再次读回spark表？

、、、

我可以在表创建后立即读取它，但是如何在另一个spark会话中再次读取它呢？给定代码： spark = SparkSession \ .builder \ .getOrCreate() df = spark.read.parquet("examples/src/main/resources/users.parquet") (df .write .saveAsTable("people_partitioned_bucketed")) # retrieve rows from table as expected spark.sql("

浏览 0提问于2018-01-24得票数 5

6回答

PySpark下降行

、、

如何在PySpark中从RDD中删除行？特别是第一行，因为这往往在我的数据集中包含列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然，我可以通过Bash / HDFS来完成这个任务，但我只想知道这是否可以在PySpark内部完成。

浏览 5提问于2014-07-13得票数 28

回答已采纳

3回答

包含空值的ArrayType行筛选器

、、

我是PySpark的初学者。假设我有一个像这样的Spark dataframe： test_df = spark.createDataFrame(pd.DataFrame({"a":[[1,2,3], [None,2,3], [None, None, None]]})) 现在，我希望筛选数组不包含None值的行(在我的例子中，只保留第一行)。我试着用： test_df.filter(array_contains(test_df.a, None)) 但是它不起作用，并抛出一个错误： AnalysisException：“由于数据类型不匹配，无法解析'array_con

浏览 1提问于2021-11-12得票数 1

2回答

如何删除带有重复值的行，但包含空值的行除外？

、、

我想使用power查询删除包含电子邮件地址的列中具有重复值的行。但我不希望删除具有重复空值或重复空单元格的行。我该如何做到这一点？

浏览 4提问于2017-05-18得票数 0

回答已采纳

3回答

当行变为空时从DataGridView中移除行的最佳方法

我的应用程序中有一个单列DataGridView。如果/当用户将行呈现为空白时(通过编辑单元格)，我希望应用程序立即从网格中删除行。问题是我每尝试一次都会陷入死胡同。实现此行为的最佳方法是什么？我试过：使用CellValidated事件，然后检查该值现在是否为空。抛出“操作不能执行”异常，因为显然，C#不允许您在CellValidated事件中从DataGridView中删除一行。使用CellEndEdit事件，然后检查该值现在是否为空白如果结束单元格编辑的事件是用户在同一网格中单击另一个单元格，则当我试图移除行时，抛出一个“操作无法执行”异常；否则，

浏览 4提问于2013-05-30得票数 2

2回答

在火花中放置行

如何根据行号/行索引值的值删除Pyspark中的行值？我对Pyspark (和编码)很陌生--我尝试过编码一些东西，但是它不起作用。

浏览 1提问于2019-04-08得票数 3

回答已采纳

3回答

为什么计数在空表上不返回0

、、

我需要计算表的行数，但我提示计数(*)的异常行为。在空表上使用多列select时，count(*)不返回结果。但是，如果从select语句中删除其他列(单列选择)，则返回预期结果(0行)。在下面的代码中，您将发现多个测试，以向您展示我所说的内容。下面代码的结构是： 1)表的创建 2)空表测试中的多列select，返回意外结果 3)空表测试中的单列select，返回预期结果 4)填充表测试中的多列选择，返回预期结果问题鉴于这一结果，我的问题是：为什么空表上的多列select不返回0，而单列select返回它？预期结果定义对我来说，预期结果意味着：如果表为空，count(*)返回

浏览 2提问于2019-03-14得票数 5

回答已采纳

9回答

如果火花dataframe的特定列中的所有条目为空，则删除

、、

使用Pyspark，如何选择/保留包含非空值的所有列；或者等效地删除不包含数据的所有列。编辑:根据Suresh请求， for column in media.columns: if media.select(media[column]).distinct().count() == 1: media = media.drop(media[column]) 我在这里假设，如果伯爵是一个，那么应该是南。但我想看看那是不是南。如果还有其他内置的火花函数，请告诉我。

浏览 4提问于2017-08-11得票数 8

2回答

获取group by中的第一个非空值(Spark 1.6)

、、、

如何从group by获取第一个非空值？我尝试在 F.first(F.coalesce("code"))中使用，但是我没有得到想要的行为(我似乎得到了第一行)。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import functions as F sc = SparkContext("local") sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([

浏览 6提问于2016-05-20得票数 6

回答已采纳

1回答

如何将字符串数组转换为带条件的结构数组

、、、、

我有一个单列_c0的pyspark数据帧。 a|b|c|clm4=1|clm5=3 a|b|c|clm4=9|clm6=60|clm7=23 我正在尝试将其转换为选定列的数据帧，如下所示 clm1,clm2,clm3,clm4,clm6,clm7,clm8 a, b, c, 1, null,null,null a, b, c, 9, 60, 23, null 请注意，我删除了clm5并添加了clm8。我使用的代码如下： transform_expr = """ transform(split(_c0, '[|]

浏览 21提问于2020-02-09得票数 1

回答已采纳

1回答

按行删除星火RDD中的重复

、、、

我正在使用做一些工作，并有一个包含在每一行中的重复事务示例的rdd。这将导致模型训练函数因这些重复项而引发错误。我对Spark相当陌生，我想知道如何删除rdd行中的重复项。例如： #simple example from pyspark.mllib.fpm import FPGrowth data = [["a", "a", "b", "c"], ["a", "b", "d", "e"], ["a", "a", &#

浏览 2提问于2016-09-06得票数 0

回答已采纳

1回答

PySpark dataframe:具有四个或多个非空列的筛选记录

、

我有许多PySpark数据格式，其中两个列中的数据是强制性的，其他列是可选的。强制列包含日期和记录ID；最有价值的数据驻留在可选列中。我试图捕捉可选列中元素之间的连接。数据过滤，预过滤器： id col1 col2 col3 date 123 xyz 20160401 234 abc pqr 20160401 345 def hij klm 20160401 456 20160401 在过滤后，数据文

浏览 3提问于2016-04-03得票数 1

1回答

有效地检查所有列的值是否为空(或等效)

、、、、

我有一个dataframe (1910列)，它在某些列中只包含空(或等效)值。我想要一个空计数值为= 3103276687 (等于行计数)的所有列的列表。由于行和列的数量很大，我需要一个高度优化的查询。否则，我的Databricks笔记本就会连续运行几个小时，有时也不会产生结果。我需要所有行都为空的列列表，以便可以删除它们。不要用collect()给出答案，这是一个昂贵的功能。我的代码： from pyspark.sql.functions import col, isnan, when, count df_5 = df_2.select([count(when(col(c).con

浏览 1提问于2022-08-04得票数 1

回答已采纳

1回答

删除空列的快速方法[PySpark]

、、

有没有一种简单的方法可以在pyspark中删除一个巨大的数据集(300+列>100k行)的空列？例如Python语言中df.dropna(axis=1,how='all')

浏览 10提问于2019-10-29得票数 0

回答已采纳

2回答

如何在PySpark中进行这种Pandas过滤？

、、、

我希望保留某些列上所有值为True的组的所有行(即不包含agg)。我在潘达斯就是这样做的： df.groupby('some_column').filter(lambda x: x['some_bool_column'].all()) 但是如何在PySpark中做同样的事情呢？

浏览 11提问于2022-05-03得票数 0

1回答

删除阈值编号为null的列

、、

有一个数据集，并希望使用pyspark进行一些清理。删除空值大于75%的所有列。使用python： df = df.dropna(axis='columns', thresh = int(0.75 * len(df))) 如何使用pyspark实现这一点？

浏览 0提问于2019-05-14得票数 0

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下： from pyspark.sql.types import * from pyspark.sql.functions import * from pyspark.sql import Row def customFunction(row): if (row.prod.isNull()): prod_1 = "new prod" return (row + Row(prod_1)) else: p

浏览 3提问于2016-08-19得票数 7

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

在pyspark DataFrame中创建某个类型的空数组列

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

1回答

如何创建窗体设计器

、、、

手头的问题:我想做一个表单设计器，在那里用户可以拖放不同类型的字段并设计布局，一些类似于的东西，但这里的布局仅限于单列，而我想做的东西用户可以做他们想要的布局。我知道如何在单列视图中做，但无法理解如何实现多列布局，例如:行1可以有3个元素，行2一个元素拉伸到整个长度，行3可以只有2个元素等。我尝试过:我尝试使用jquery UI sortable，使用div创建单列布局，其中可以拖动和重新定位新元素。任何关于如何进一步进行的建议都将是有帮助的我试过在StackOverFlow和谷歌上搜索，但找不到任何类似主题的链接。如果有人能给我指出同样的问题，那也会很有帮助。

浏览 1提问于2013-08-19得票数 1

1回答

读取.xlsx文件时出现PySpark错误：“无法将JSON字符串转换为字段。”

我是PySpark的新手，我试着在PySpark中读取excel文件，但得到了我无法理解的错误。请帮我解决这个问题。我已经附加了代码和错误。 f_name= 'EDI_matching_with_Nielsen_and_AFS_codes_v6.xlsx' path= base_path_nielsen + f_name schema_def= StructType([StructField('Orden', StringType(), 'True'), StructField('OPERATIONAL POINT', Stri

浏览 27提问于2020-02-24得票数 1

1回答

PySpark窗口函数零处理

、、、、

我试图在pyspark==3.2.0中使用窗口函数来处理空值。 csv格式的原始数据是： key1,key2,client_id,event_timestamp 1D7B****-****-****-****-******EC1E09,,9397****-****-****-****-******BFACBB,2021-02-25T16:04:12.391Z 1D7B****-****-****-****-******EC1E09,AE8D****-****-****-****-******3E7E75,9397****-****-****-****-******BFACBB,2021-02-

浏览 3提问于2021-12-25得票数 1

回答已采纳

1回答

删除pyspark中的嵌套列

、、、、

浏览 20提问于2020-06-15得票数 0

回答已采纳

1回答

PySpark:如何根据列的数据类型替换空值？

、

我有一张表格，里面有257列。我试图找出如何根据数据类型更改表中的空值。我正试图在PySpark中做到这一点。而dataframe的名字叫做df。因此，例如，如果列包含日期，则为时间戳数据类型，且该列中的空值必须为1900-01-01 如果它是任何整数或浮点类型，则需要为0。如果是字符串类型，则应该是n/a 谢谢

浏览 5提问于2022-04-15得票数 0

回答已采纳

8回答

列表放入numpy数组

、、

如何将列表的简单列表转换为numpy数组？行是单独的子列表，每一行都包含子列表中的元素。

浏览 0提问于2012-04-27得票数 233

3回答

当值与pyspark中的字符串的一部分匹配时，过滤df

、、、

我有一个很大的pyspark.sql.dataframe.DataFrame，我想保留(所以filter)保存在location列中的所有行，其中的URL包含预先确定的字符串，例如'google.com‘。我试过了： import pyspark.sql.functions as sf df.filter(sf.col('location').contains('google.com')).show(5) 但是这抛出了一个 TypeError: _TypeError: 'Column' object is not callable

浏览 2提问于2017-01-27得票数 66

回答已采纳

2回答

对列列表应用条件的数据帧过滤

、

如果列表中的任何字符串列为空，我想过滤一个pyspark dataframe。 df = df.where(all([col(x)!='' for x in col_list])) ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions.

浏览 16提问于2019-09-08得票数 3

回答已采纳

1回答

通过echo命令发送电子邮件，其中包含来自变量的数据

、、

每天生成一个CSV，其中包含一个包含多行姓名的单列(每个姓名占一行)，我希望将这些姓名作为电子邮件发送到某个通讯组列表。这就是我到目前为止所知道的： #!/bin/bash names=`cat /list_of_names.csv` echo "$names" | mail -s "You got mail" "email@email.com" 问题是电子邮件总是空的。它使用正确的主题行正确发送，但其中没有文本。当我在控制台中手动检查变量时(回显"$names")，所有名称都正确列出。为什么电子邮件是空的？有谁有主意吗

浏览 10提问于2019-01-04得票数 0

1回答

在Pyspark/Hive中处理更改的数据类型

、、、

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？我试图转换成不同的数据类型，但是没有工作，或者我可能做错了什么。输入文件内容: mypath {"id":1，"SA":{"SM"：{"Name"："John"，"Email"：“Jo

浏览 6提问于2020-10-10得票数 0

1回答

带有if条件的Django查询集过滤器

、、

如何仅在满足条件时才在django查询集中应用筛选器。我有一个包含表单列表的过滤器对象。如果forms包含" all“，那么我想获取AnswerDetails模型的所有对象，否则我只想获取表单列表中的u_id 代码： fil = self.d.get('filter', None) f_uid = fil.get('forms',["all"]) if "all" in f_uid: f_uid = [] a = AnswerDetails.objects.filter(proj=_p,

浏览 12提问于2020-09-23得票数 0

2回答

删除查询抛出:关键字错误1062重复条目“X”，但表中没有重复项

、、

我在两个列"user_id“& "project_id”上有一个复合的唯一键。当我尝试对单行或多行运行DELETE查询时，会得到一个错误。 ERROR 1062: 1062: Duplicate entry '87-1736' for key 'index_on_user_id_and_project_id' SQL Statement: DELETE FROM `members` WHERE `id`='39142' 该表有一个单列主键，两个单列唯一索引(用于user_id和project_id)，以及一个user_

浏览 3提问于2015-11-05得票数 5

回答已采纳

2回答

多列中缺少值的熊猫行

、

我有一个包含age、date和location列的数据文件。我想计算一下在所有列中有多少行是空的(不是一些，而是全部在同一时间)。我有以下代码，每一行都是独立工作的，但是如何说age AND date AND location是空的呢？ df‘’age‘..isnull().sum()df’‘date’..isnull().sum()df‘’location‘..isnull().sum() 在移除这三列中缺少值的行之后，我想返回一个dataframe，如下所示，但是合并在一个语句中： Df.mask(行‘’location‘..isnull())df[np.isfinite(df’

浏览 6提问于2017-05-02得票数 0

回答已采纳

1回答

如何从包含字符串、数字和空白单元格的csv导入数据

、

我有一个csv，它包含一个包含大量数据的单列。数据是各种各样的字符串，数字和空格，我想让它保持准确的顺序，包括所有的空单元格。因此，数据的一个示例如下：一个 05 G 12 我尝试过使用importdata，这很好用，问题是我的csv有100多万行，而由于某种原因，使用importdata只能导入到前100k行。任何帮助都将不胜感激！

浏览 0提问于2015-04-14得票数 0

2回答

将文件读取并附加到spark数据文件中

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？ from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import StructType import os, glob spark = SparkSession.builder.\ config("spark.jars.packages","saurf

浏览 1提问于2019-09-06得票数 3

回答已采纳

1回答

PySpark: StructField(...，...，False)始终返回`nullable=true`而不是`nullable=false`

、、、

我是PySpark的新手，正面临一个奇怪的问题。在加载CSV数据集时，我尝试将某些列设置为不可为空。我可以用一个非常小的数据集(test.csv)重现我的案例： col1,col2,col3 11,12,13 21,22,23 31,32,33 41,42,43 51,,53 在第5行，第2列有一个空值，我不想在我的DF中获取该行。我将所有字段都设置为不可空(nullable=false)，但是我得到了一个所有三列都具有nullable=true的模式。即使我将所有三列都设置为不可空，也会发生这种情况！我运行的是Spark的最新版本，2.0.1。代码如下： from pyspark.sql

浏览 0提问于2016-10-07得票数 14

回答已采纳