社区首页 >问答首页 >想出以矩阵形式处理巨型数据的数据结构(可以把它想象成一个excel表)

想出以矩阵形式处理巨型数据的数据结构(可以把它想象成一个excel表)
EN

Stack Overflow用户
提问于 2012-10-01 05:17:46
回答 4查看 221关注 0票数 0

问题是要想出一个可以与巨大的excel工作表一起工作的数据结构(显然不适合主内存)

假设下面的内容是excel表格的一部分,其中e表示一个空单元格。

代码语言:javascript
代码运行次数:0
复制
  A B C D ...

1 3 9 e e ...

2 e e e e ...

3 e e 5 e ...

4 e e e e ...

5 e e 6 e ...

因此,数据结构应该允许我将excel表存储到内存中(我们知道只有excel表中的值才能放入主内存),并支持以下操作

getByColumn(Column col); -给出某一列的所有值,比如C列的5,6

getByRow(Row row); -给出某一行的所有值,比如第1行的值为3和9,甚至更多

insertCell(Column col, Row row, int value); -插入或覆盖单元格的值

getExcelSheet(FileName); -以压缩形式给出整个excel工作表(数据结构)

这是一种可以想象的数据结构?我正在为面试做准备,这不是家庭作业。WOuld喜欢从不同的人那里获得一些见解。

只是给出一个感觉:假设excel表是1TB,我们有8 8GB的内存。1 the的excel工作表只有许多空单元格,但值分布在不同的单元格中。

EN

回答 4

Stack Overflow用户

发布于 2012-10-01 05:20:44

使用映射/字典将单元格坐标映射到值,对于未明确设置的所有内容,返回默认值EMPTY_CELL。

在此基础上实现所需的方法。

票数 1
EN

Stack Overflow用户

发布于 2012-10-01 09:03:13

有大量关于sparse matrices主题的文献,这是一个被广泛使用的术语,您所说的巨大的Excel工作表。文献涵盖了数据结构以及用于创建和修改数据结构的合适算法;Wikipedia文章为您的研究提供了一个很好的起点。它可能会告诉你足够的信息来为面试做准备。

票数 1
EN

Stack Overflow用户

发布于 2012-10-01 16:53:07

Tass的评论和Mark的回答(对于which +1)的详细说明:

如果你使用维基百科所说的Dictionary Of Keys或DOK (本质上就是Jens的答案),你就可以有效地插入单元格值,但正如你正确评论的那样,getByRow和getByColumn将会相当慢。

一个更好的选择是维基百科所说的坐标列表或COO:一组三元组(rowindex,columnindex,value)。实际上,您可能会将其存储为三个数组。为了快速插入,保留一组排序和未排序的条目,并插入到未排序的集合中;每当未排序的条目的数量超过阈值T(可能取决于非空单元格的总数K)时,将它们排序到已排序的集合中。

您可能希望将它们全部按行索引进行排序,并将另一个具有索引的数组保存到数组中,以提供按列索引排序的版本。

对于getByRow,您将获取按行索引排序的数组的正确部分,并在未排序的集合中进行搜索。

所有这些都假设您确实有足够的内存来为矩阵中的每个非空条目存储几个单词。如果不是,则需要将其与某种外部存储器方法相结合。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12667836

复制
相关文章
golang 判断元素是否存在数组中
现在只能这样写,因为还没有泛型嘛。Intfunc IsContainInt(items []int, item int) bool { for _, eachItem := range items { if eachItem == item { return true } } return false} stringfunc IsContain(items []string, item string) bool { for _, ea
IT工作者
2022/08/06
7.1K0
MongoDB 数组在mongodb 中存在的意义
在MOGNODB 的文档设计和存储中,存在两个部分 1 嵌套 2 数组,所以如果想设计好一个MONGODB 在理解业务,读写比例,查询方式后,就需要介入到更深层次的理解嵌套的查询方式,嵌套多层后的性能问题, 数组其实比嵌套带来更多的问题,所以今天我们的从数组开始。
AustinDatabases
2022/04/05
4.2K0
MongoDB  数组在mongodb 中存在的意义
ReentrantReadWriteLock不存在锁升级,只存在锁降级
private static ReentrantReadWriteLock readWriteLock = new ReentrantReadWriteLock(true); private static ReentrantReadWriteLock.ReadLock rl= readWriteLock.readLock(); private static ReentrantReadWriteLock.WriteLock wl= readWriteLock.writeLock(); /** 同一个
johnhuster的分享
2022/03/28
2620
[剑指offer] 数组中只出现一次的数字
一个整型数组里除了两个数字之外,其他的数字都出现了偶数次。请写程序找出这两个只出现一次的数字。
尾尾部落
2018/09/04
9090
SQL函数 TRIM
TRIM 从提供的值的开头和/或结尾去除指定的字符。默认情况下,去除字母是区分大小写的。当遇到未在字符中指定的字符时,从任一端停止字符剥离。默认是从字符串表达式的两端去除空格。
用户7741497
2022/08/02
2.3K0
stringtokenizer java,Java中的StringTokenizer「建议收藏」
java.util.StringTokenizer类允许您将字符串分成令牌。这是打破字符串的简单方法。
全栈程序员站长
2022/09/22
5330
使用 Python 从作为字符串给出的数字中删除前导零
在本文中,我们将学习一个 python 程序,从以字符串形式给出的数字中删除前导零。
很酷的站长
2023/02/23
7.5K0
使用 Python 从作为字符串给出的数字中删除前导零
找出数组中只出现一次的数字
可以使用异或或来解决这个问题,因为两个相同的数异或之后就是0,0与一个数异或还是这个数,而且异或满足交换律
用户9996207
2023/01/13
6050
SQL函数 LENGTH
LENGTH 返回一个整数,表示给定字符串表达式的字符数,而不是字节数。字符串表达式可以是字符串(从中删除尾随空格)或数字( IRIS 将其转换为规范形式)。
用户7741497
2022/04/08
2K0
PostgreSQL 从库 standby 为何要切断你的“需求”
首先要说的是,这个“数”友的问题是,他们公司使用的是SQL SERVER 由于各种不满(此处省略N多文字),然后他们要换数据库,如果换成PG会如何,他们在从库会有很多的复杂查询的问题。所以才有了这篇文字。
AustinDatabases
2020/02/21
6380
PostgreSQL  从库 standby  为何要切断你的“需求”
☆打卡算法☆LeetCode 151. 颠倒字符串中的单词 算法解析
单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。
恬静的小魔龙
2022/08/07
6550
☆打卡算法☆LeetCode 151. 颠倒字符串中的单词 算法解析
Python将字符串转换为列表
We can convert a string to list in Python using split() function.
全栈程序员站长
2022/09/06
6K0
SQL函数 TO_CHAR(二)
可以使用 TO_CHAR 将以下 tochar 表达式时间值转换为格式化的时间字符串:
用户7741497
2022/08/01
2.3K0
Js判断数组中是否存在某个元素「建议收藏」
Item:要查找的值;start:可选的整数参数,缺省则从起始位子开始查找。 indexOf();返回元素在数组中的位置,如果没有则返回-1;
全栈程序员站长
2022/11/02
6.5K0
切断的进给、速度和倒角注意事项
切断是车间中最常见的车床应用之一。今天,我们将讨论各种挑战和技巧,以使您的分离应用程序更高效且无故障。
lrglu
2022/03/30
1.1K0
切断的进给、速度和倒角注意事项
php in_array 判断数组中是否存在此元素
判断数组中是否存在此元素在php中很简单,直接使用 in_array即可。用法如下 :
1_bit
2020/10/23
1.9K0
NodeJs前导课
NodeJs前导课 了解后端 后端分层 node的思想 具有模块化 了解后端 后端分层 web层 接收和发送Http请求,还需要校验参数是否合法,将参数封装成对象,也可以成为web层,controller层 业务逻辑层 xxxService,也称为服务成,处理业务逻辑 DAO层 DB,存取数据 持久层 文件,数据库 这里的数据库有两种,一种是关系型数据库(Msql),还有一种是非关系型数据库(MongoDB) node的思想 具有模块化 需要require和 module.exports 在前
envoke
2020/09/17
2880
np.isin判断数组元素在另一数组中是否存在
np.isin用法 np.isin(a,b) 用于判定a中的元素在b中是否出现过,如果出现过返回True,否则返回False,最终结果为一个形状和a一模一样的数组。 但是当参数invert被设置为True时,情况恰好相反,如果a中元素在b中没有出现则返回True,如果出现了则返回False. import numpy as np # 这里使用reshape是为了验证是否对高维数组适用,返回一个和a形状一样的数组 a=np.array([1,3,7]).reshape(3,1) b=np.arange(9)
演化计算与人工智能
2020/08/14
2.9K0
使用嵌入式SQL(三)
主机变量是将文字值传入或传出嵌入式SQL的局部变量。 最常见的是,主机变量用于将本地变量的值作为输入值传递给Embedded SQL,或者将SQL查询结果值作为输出主机变量传递给Embedded SQL查询。
用户7741497
2022/06/06
3K0
SQL函数 LPAD
LPAD 用前导填充字符填充字符串表达式。它返回填充到长度字符数的字符串的副本。如果字符串表达式的长度超过 length 个字符,则返回字符串被截断为 length 个字符。
用户7741497
2022/04/11
7110

相似问题

从数组中移除前导/尾随零点的索引

10

bin2hex()切断尾随的零点

13

如何从数组元素中删除前导和尾随空格?

50

MongoDB -从对象数组中移除前导和尾随空间

18

从字段中移除前导和尾随空格

22
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文