我是个新手,我正在尝试加载如下所示的CSV文件:
我的csv文件:
article_id title short_desc
33 novel findings support original asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials 我的代码读取csv:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
StructField("article_id", IntegerType()),
StructField("title", StringType()),
StructField("short_desc", StringType()),
StructField("article_desc", StringType())
])
peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)
peopleDF.show(6)

为什么要添加null?
数据集示例,以便您可以复制相同的问题:
发布于 2018-04-24 18:27:38
要读取的excel工作表的单元格具有“合并单元格”。
separate不会将它们作为合并的单元格读取,但它会将行分离开来。在您的例子中,列'article_desc‘垂直地由这样的5个单元格组成,对于其余的列,单元格是空的。因此,您有空值。
如果将所有内容都获取到单个单元格,则可以在不使用空值的情况下读取它。
https://stackoverflow.com/questions/50004017
复制相似问题