首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >达克read_csv在熊猫不成功的地方失败

达克read_csv在熊猫不成功的地方失败
EN

Stack Overflow用户
提问于 2017-08-18 01:08:44
回答 1查看 3.1K关注 0票数 10

尝试在熊猫的read_csv文件中使用达斯克的read_csv

代码语言:javascript
运行
AI代码解释
复制
dd.read_csv('data/ecommerce-new.csv')

失败,但有以下错误:

代码语言:javascript
运行
AI代码解释
复制
pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line 2

该文件是使用scrapy的csv文件,其中有两列,一列带有url,另一列带有html(使用"作为分隔符char存储多行)。实际上,被熊猫解析意味着它的格式应该很好。

代码语言:javascript
运行
AI代码解释
复制
html,url
https://google.com,"<a href=""link"">
</a>"

使sample参数大到足以在内存中加载整个文件似乎是可行的,这使我相信当试图推断数据类型时,它实际上失败了(还有这个问题应该已经解决了,https://github.com/dask/dask/issues/1284)

以前有人遇到过这个问题吗?有解决办法吗?

编辑:显然,如果文件在引号之间包含一个换行符,那么这显然是dask的read_csv中的一个已知问题。我找到了一个解决方案,就是把它全部读入记忆中:

代码语言:javascript
运行
AI代码解释
复制
dd.from_pandas(pd.read_csv(input_file), chunksize=25)

这是可行的,但代价是并行性。还有其他解决办法吗?

EN

回答 1

Stack Overflow用户

发布于 2020-01-29 10:24:19

对于2020年来到这里的人来说,dd.read_csv直接为引号内的新行工作。已经修好了。更新到Dask的最新版本(2.18.1和更高版本)以获得这些好处。

代码语言:javascript
运行
AI代码解释
复制
import dask.dataframe as dd
df = dd.read_csv('path_to_your_file.csv')
print(df.compute())

给予,

代码语言:javascript
运行
AI代码解释
复制
                 html                    url
0  https://google.com  <a href="link">\n</a>

对于出于某种原因想要使用旧版本的人,如@mdurant所建议的,您可能希望将blocksize=None传递给dd.read_csv,这将以并行加载为代价。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45752805

复制
相关文章
达克效应
大多数人都是在攀爬愚昧山峰,到顶之后可能就不动了。不动的原因是什么 ?认知停滞。认知停滞,会导致个人对世界的看法难以发生改变。对待新事物,只会用自己的思维框架强行套用,自信心爆棚,根本没有耐心去了解未知的领域。
用户3596197
2019/01/23
2.5K0
英伟达收购Arm宣告失败!
这笔交易受到了监管机构的严格审查,并遭到了竞争对手的竭力反对。 据三位直接了解交易内情的人士对《金融时报》声称,在美国、英国和欧盟三地的监管机构对全球半导体行业的竞争可能因而受到的影响表示严重担忧后,软银以660亿美元将英国芯片公司Arm出售给英伟达的交易于周一正式宣告失败。 这笔交易是全球芯片业有史以来规模最大的一笔交易,英伟达将因此可以控制一家开发的技术用于全球大多数移动设备的公司。一小批依赖Arm芯片设计的大型科技公司反对这次收购,其中包括高通和微软。 据一位知情人士透露,软银将获得高达12.5亿美
云头条
2022/03/18
2960
马斯克的失败,重新定义了成功
纵然是在星舰发射失败之后,马斯克依然赢得了全世界的掌声。这似乎有点不可思议。因为按照正常的逻辑,人们对于失败应该是嗤之以鼻的,更何况是像马斯克这样一个和外界格格不入的人。然而,正是这样一个不太可能的事情,却在我们的身边真实地发生着。
孟永辉
2023/04/27
3030
马斯克的失败,重新定义了成功
pycharm 安装包失败_python安装库为什么不成功
稍等片刻,就安装好了,可以通过调用cmd(window+R,再输入cmd),输入python -m pip list即可查看安装的包。
全栈程序员站长
2022/09/27
1.7K0
pycharm 安装包失败_python安装库为什么不成功
你的变量究竟存储在什么地方?
我相信大家都有过这样的经历,在面试过程中,考官通常会给你一道题目,然后问你某个变量存储在什么地方,在内存中是如何存储的等等一系列问题。不仅仅是在面试中,学校里面的考试也会碰到同样的问题。
ternturing
2018/09/12
1.8K0
你的变量究竟存储在什么地方?
QT程序在发布的时候应注意的地方
---恢复内容开始---     我们用QT开发好的应用程序,如果要发布到其他计算机上运行怎么办呢?我们在用VC编程时,单独运行编译好的可执行文件时,经常会发现提示缺少动态库。用QT编程也不例外,在一定程度上,编写好的QT程序会依赖一些动态链接库,包括MSVC运行库,已经QT自身的一些动态链接库。这是由于程序在编译时采用了动态链接的原因。如果我们在编译初期,就设置为静态编译,那么就不会出现这种情况了。动态链接机制是程序开发的一把双刃剑。     既然问题出现了,我们想着解决的办法。很自然的一种想法就是,程序
24K纯开源
2018/01/18
1.1K0
QT程序在发布的时候应注意的地方
Read_CSV参数详解
pandas.read_csv参数详解 pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (
用户1332619
2018/04/17
2.7K0
c语言几个松散的地方(不足的地方,不严谨的地方,它容易出错的地方)。
c语言是面向过程的语言,是弱类型语言,c语言的源代码基本就是无数个函数的堆砌。 即很多函数就组成c语言源代码了,也即它的源代码基本就是函数构成的。
黑泽君
2018/10/11
7680
nvidia卸载程序失败_英伟达显卡驱动安装失败怎么办?[通俗易懂]
一般用户重新安装系统或者更新显卡驱动后,安装光盘中的英伟达显卡驱动,安装后却提示“NVIDIA安装程序失败”,遇到这样的问题,很多用户会选择重启后重新安装一次,不过都不能解决安装电脑显卡驱动安装失败的故障,下面华海电脑网小编给大家几个解决方法:
全栈程序员站长
2022/08/29
4.3K0
nvidia卸载程序失败_英伟达显卡驱动安装失败怎么办?[通俗易懂]
webkit和blink在blob机制上不同的地方
WebKit.dll!WebCore::BlobURL::createBlobURL(const WTF::String & originString) 行 76 C++ WebKit.dll!WebCore::BlobURL::createPublicURL(WebCore::SecurityOrigin * securityOrigin) 行 47 C++ > WebKit.dll!WebCore::FileReaderLoader::start(WebCore::ScriptExecutionContext * scriptExecutionContext, WebCore::Blob * blob) 行 81 C++ WebKit.dll!WebCore::FileReader::readInternal(WebCore::Blob * blob, WebCore::FileReaderLoader::ReadType type, int & ec) 行 149 C++ WebKit.dll!WebCore::FileReader::readAsText(WebCore::Blob * blob, const WTF::String & encoding, int & ec) 行 113 C++ WebKit.dll!WebCore::jsFileReaderPrototypeFunctionReadAsText(JSC::ExecState * exec) 行 565 C++ > WebKit.dll!WebCore::BlobResourceHandle::BlobResourceHandle(WebCore::BlobData * blobData, const WebCore::ResourceRequest & request, WebCore::ResourceHandleClient * client, bool async) 行 173 C++ WebKit.dll!WebCore::BlobResourceHandle::createAsync(WebCore::BlobData * blobData, const WebCore::ResourceRequest & request, WebCore::ResourceHandleClient * client) 行 143 C++ WebKit.dll!WebCore::BlobRegistryImpl::createResourceHandle(const WebCore::ResourceRequest & request, WebCore::ResourceHandleClient * client) 行 80 C++ WebKit.dll!WebCore::createResourceHandle(const WebCore::ResourceRequest & request, WebCore::ResourceHandleClient * client) 行 59 C++ WebKit.dll!WebCore::ResourceHandle::create(WebCore::NetworkingContext * context, const WebCore::ResourceRequest & request, WebCore::ResourceHandleClient * client, bool defersLoading, bool shouldContentSniff) 行 92 C++ WebKit.dll!WebCore::ResourceLoader::start() 行 218 C++ WebKit.dll!WebCore::ResourceLoadScheduler::servePendingRequests(WebCore::ResourceLoadScheduler::HostInformation * host, WebCore::ResourceLoadPriority minimumPriority) 行 285 C++ WebKit.dll!WebCore::ResourceLoadScheduler::scheduleLoad(WebCore::ResourceLoader * resourceLoader) 行 189 C++ WebKit.dll!WebCore::ResourceLoadScheduler::scheduleSubresourceLoad(WebCore::Frame * frame, WebCore::CachedResource * resource, const WebCore::ResourceRe
龙泉寺扫地僧
2019/02/20
1.4K0
Service Mesh的价值到底在什么地方
今年有幸加入了Service Mesh小组的研发当中,经过几个月的摸索,算是对Service Mesh有了一个初步的认识。旁边也是不停的有朋友问我,Service Mesh价值是什么?为什么我要用这个东西?
灰子学技术
2021/09/22
7530
Pandas read_csv 使用速查表
2021年第一篇技术文章,使用xmind构建了一个速查表,关于Pandas read_csv方法,接下来我会陆续整理一系列这种格式的速查表,希望能为你提供便利。
double
2021/01/06
5260
那年马斯克在苏联
丰色 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 这两天,一批上世纪照片被解禁,当年不为人知的真相浮出水面。 传闻来美国前,马斯克曾是一名苏联工程师。 他贿赂当地的社会名流,并对外自称是Yaroslavl汽车厂的创始人。 彼时在国内,一系列奇闻怪诞的事情却正在发生。 OpenAI的CEO山姆·奥特曼,乘坐UFO访华,并在中国乡野留下了这样一张珍贵影像: 而这时候的某些地区,人们还在为温饱问题努力着。 某天,一支探险队在深山中发现了一头巨大的野生猪。他们捕捉到这些野猪,发现其肉质鲜美,便带回村子
量子位
2023/04/06
2790
那年马斯克在苏联
大数据人才到底值钱在什么地方?
周未跟一做人才外包服务朋友聊天,提到自己正在学习大数据技术的时候。他直接就说到他现在有需求,但就是招不到合适的人才。然后提到说现在大数据人才的价值,收入,待遇方面。可以说基本上将近到IT行业的顶级了。不由得,就开始思考,大数据人才的价值到底在什么地方 大数据思维 个人感觉,这是首先第一个需要有的。因为我们现阶段生活在一个数据爆炸的时代,掌握良好的数据思维是对你的商业决策,乃至IT架构有很大的帮助。比如说,我们现在的数据类型很多,数据量很大。但是我们用到的却很有限,而这些有限的数据又不能够让我们产生效益。所以
小小科
2018/05/02
9580
加密货币交易业务在什么地方开展是最佳的?
新手,如果您想开展加密货币交易业务,但又不知道如何开始,从哪里开始?别担心 - 你并不是独自创建你自己的加密货币交易业务网络。事实上,现在新的加密货币交易业务服务的兴起,比以往任何时候都更有安全性和可靠性,很多人仍然在等待最值得信赖的服务,并且认为,目前最信赖的服务还没有出现过。
金融科技先驱者
2018/05/23
6060
加密货币交易业务在什么地方开展是最佳的?
独家 | AI仍然受困于仇恨言论——但科学家们在衡量每个系统失败的地方正做得越来越好
作者:Karen Hao翻译:朱启轩校对:詹好 本文约1600字,建议阅读5分钟本文介绍了在一项新的研究中,科学家们测试了四种最佳的检测仇恨言论的人工智能系统,他们发现在带有仇恨情绪和没有仇恨情绪的句子时存在的问题。
数据派THU
2021/07/16
5640
清明节偷偷训练“熊猫烧香”,结果我的电脑为熊猫“献身了”!
最近,很多小伙伴都知道,就在清明节假期的最后一天晚上,我偷练“禁术”——熊猫烧香,结果悲剧了。电脑陷于无限重启中,小伙伴们可以看下我写的《千万不要轻易尝试“熊猫烧香”,这不,我后悔了!》。今天,写这篇文章是因为很多小伙伴都很关心我的电脑后续情况如何了。下面就给大家分享下,尝试“熊猫烧香”的后续情节。
冰河
2021/04/16
1.7K0
点击加载更多

相似问题

熊猫/达克阅读半表格文本

13

熊猫的达克-数据分析。IndexError

11

达斯克map_partitions返回熊猫数据帧,而不是达斯克

12

达克达菲像熊猫一样慢慢加入

12

群居与应用熊猫对战达斯克

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文