Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用Arrow管理数据

使用Arrow管理数据

原创
作者头像
生信探索
修改于 2023-04-17 09:36:23
修改于 2023-04-17 09:36:23
4800
举报
文章被收录于专栏:生信探索生信探索

在之前的数据挖掘:是时候更新一下TCGA的数据了推文中,保存TCGA的数据就是使用Arrow格式,因为占空间小,读写速度快,多语言支持(我主要使用的3种语言都支持)

Format

https://arrow.apache.org

Apache Arrow defines a language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware like CPUs and GPUs. The Arrow memory format also supports zero-copy reads for lightning-fast data access without serialization overhead.

Language Supported

Arrow's libraries implement the format and provide building blocks for a range of use cases, including high performance analytics. Many popular projects use Arrow to ship columnar data efficiently or as the basis for analytic engines.

Libraries are available for C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby, and Rust.

Ecosystem

Apache Arrow is software created by and for the developer community. We are dedicated to open, kind communication and consensus decisionmaking. Our committers come from a range of organizations and backgrounds, and we welcome all to participate with us.

R

代码语言:text
AI代码解释
复制
install.packages("arrow")
library(arrow)
# write iris to iris.arrow and compressed by zstd
arrow::write_ipc_file(iris,'iris.arrow', compression =  "zstd",compression_level=1)
# read iris.arrow as DataFrame
iris=arrow::read_ipc_file('iris.arrow')

python

代码语言:Python
AI代码解释
复制
# conda install -y pandas pyarrow
import pandas as pd
# read iris.arrow as DataFrame
iris=pd.read_feather('iris.arrow')
# write iris to iris.arrow and compressed by zstd
iris.to_feather('iris.arrow',compression='zstd', compression_level=1)

Julia

代码语言:text
AI代码解释
复制
using Pkg
Pkg.add(["Arrow","DataFrames"])

using Arrow, DataFrames
# read iris.arrow as DataFrame
iris = Arrow.Table("iris.arrow") |> DataFrame
# write iris to iris.arrow, using 8 threads and compressed by zstd
Arrow.write("iris.arrow",iris,compress=:zstd,ntasks=8)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用Arrow管理数据
Apache Arrow defines a language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware like CPUs and GPUs. The Arrow memory format also supports zero-copy reads for lightning-fast data access without serialization overhead.
生信探索
2023/04/03
3650
Apache Arrow - 大数据在数据湖后的下一个风向标
Arrow本身不是一个存储、执行引擎,它只是一个交互数据的基础库。比如可以用于以下组件
charmer
2021/11/18
5.3K0
Apache Arrow - 大数据在数据湖后的下一个风向标
Apache Arrow 简介
由于历史原因,Snowflake一直使用了JSON作为结果集(ResultSet)的序列化方式,引起了许多问题。首先,JSON的序列化/反序列化的成本实在是太高了:许多cpu cycle都被浪费在了字符串和其他数据类型之间的转换。 不仅仅是cpu,内存的消耗也是十分巨大的,尤其像是Java这样的语言,对内存的压力非常大。其次,使用JSON进行序列化,会导致某些数据类型(浮点数)的精度丢失。
一个会写诗的程序员
2022/01/27
2.5K0
Apache Arrow 简介
数据挖掘:是时候更新一下TCGA的数据了
TCGA在去年更新之后提供了Count、TPM、FPKM三种格式的mRNA表达量数据,同时提供了ensembl gene ID、基因名、基因类型,因此有必要更新一下数据了。
生信探索
2023/02/25
5060
Julia机器学习实战——使用Random Forest随机森林进行字符图像识别
0 Preface 相关参数说明 - Julia: 1.0 - OS: MacOS 训练测试数据百度云链接:点击下载 密码: u71o 文件说明: - rf_julia_charReg - resizeData.py #批量重设置图片尺寸 - test #测试图片文件 - testResized #resized 测试图片文件 - train #训练图片文件 - trainResized #resized 训练图片文件 - sampleTe
莫斯
2020/09/10
1K0
Julia机器学习实战——使用Random Forest随机森林进行字符图像识别
【Python】大数据存储技巧,快出csv文件10000倍!
但无论这些工具包处理数据的时间多快,在碰到例如10G以上的数据时,都还是会耗费一些时间的,快的可能几十秒,慢的可能几十分钟,然后再进行一些特征抽取等等,快的话也得几十分钟,而此时,为了节省时间消耗,我们就需要将这些中间结果线存储到磁盘上面,而不同格式的存储,带来的差别是巨大的,比如:
黄博的机器学习圈子
2021/07/07
3.1K0
【Python】大数据存储技巧,快出csv文件10000倍!
Spark SQL的Parquet那些事儿.docx
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了nullable。
Spark学习技巧
2019/05/14
1.2K0
Julia语言初体验
最近MIT发布的julia 1.0.0版,据传整合了C、Python、R等诸多语言特色,是数据科学领域又一把顶级利器。
数据小磨坊
2018/08/30
5.9K0
Julia语言初体验
Spark调优 | Spark SQL参数调优
Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。
王知无-import_bigdata
2019/08/16
7.7K0
Spark调优 | Spark SQL参数调优
所有物种基因Symbol别名转换为最新Symbol
在数据分析中会经常出现感兴趣的基因不在矩阵中,可能的原因是没有测到和旧版Symbol。因此需要找到旧版Symbol(Alias别名)和最新Symbol(Current Symbol)之间的对应关系。
生信探索
2023/03/25
7690
数据湖(四):Hudi与Spark整合
默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:
Lansonli
2022/05/30
3.3K2
数据湖(四):Hudi与Spark整合
CytoTRACE推测细胞分化状态
CytoTRACE的iCytoTRACE函数需要调用python去除批次效应,因此需要先设置好python环境
生信探索
2023/04/10
1.3K0
【Rust日报】2022-03-15 "Zero To Production In Rust" 发布
"Zero To Production In Rust" 是一套使用 Rust 从零开始构建后端服务的教程,作者 Luca Palmieri 结合他使用 Rust 构建后端支付平台的心得,并倾注了大量时间,终于在近日宣告完成。
MikeLoveRust
2022/03/24
8280
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据
在时间序列工作负载中,应用程序(例如一些实时应用程序查询最近的信息,同时归档旧信息。
为少
2022/03/31
2.2K0
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据
谁是Python/R/Julia数据处理工具库中的最强武器?
Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器,H2O.ai机器学习平台维护的一个项目给出答案。
Python进击者
2021/08/27
1.8K0
谁是Python/R/Julia数据处理工具库中的最强武器?
Julia中的数据分析入门
Julia的入门非常简单,尤其是当您熟悉Python时。在本篇文章中,我们将使用约翰霍普金斯大学系统科学与工程中心在其GitHub存储库中提供的Covid-19数据(https://github.com/CSSEGISandData/)。
deephub
2020/12/11
2.9K0
Julia中的数据分析入门
速度起飞!替代 pandas 的 8 个神库
本篇介绍 8 个可以替代pandas的库,在加速技巧之上,再次打开速度瓶颈,大大提升数据处理的效率。
Python数据科学
2023/08/29
2.1K0
速度起飞!替代 pandas 的 8 个神库
8 Julia IO操作
除了txt格式外,Julia还可以对csv等格式,但Julia自带的数据序列化工具JLD2速度速度更快,扩平台,重点推荐。
猫叔Rex
2020/06/30
9190
8 Julia IO操作
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
本文介绍了基于Spark的SQL编程的常用概念和技术。首先介绍了Spark的基本概念和架构,然后详细讲解了Spark的数据类型和SQL函数,最后列举了一些Spark在实际应用中的例子。
片刻
2018/01/05
26.3K0
Spark(1.6.1) Sql 编程指南+实战案例分析
首先看看从官网学习后总结的一个思维导图 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQ
汤高
2018/01/11
2.5K0
Spark(1.6.1) Sql 编程指南+实战案例分析
相关推荐
使用Arrow管理数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档