首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将CSV导入

将CSV导入
EN

Stack Overflow用户
提问于 2018-04-24 14:18:18
回答 1查看 4.4K关注 0票数 0

我是个新手,我正在尝试加载如下所示的CSV文件:

我的csv文件:

代码语言:javascript
运行
复制
   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials  

我的代码读取csv:

代码语言:javascript
运行
复制
from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

为什么要添加null?

数据集示例,以便您可以复制相同的问题:

DataSet样品

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-04-24 18:27:38

要读取的excel工作表的单元格具有“合并单元格”。

separate不会将它们作为合并的单元格读取,但它会将行分离开来。在您的例子中,列'article_desc‘垂直地由这样的5个单元格组成,对于其余的列,单元格是空的。因此,您有空值。

如果将所有内容都获取到单个单元格,则可以在不使用空值的情况下读取它。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50004017

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档