腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何使用Hadoop处理视频数据
、
现在我有了一些大视频数据。我想用Map/Reduce解码hadoop中的视频数据。 我想使用的解码类库是ffmpeg。但函数av_open_input_file只能读取本地文件,不能读取HDFS上的文件。 因此,如果我想解码视频数据,我应该初始化struct AVFormatContext。现在我拿不到这个struct了。如何读取视频文件头,初始化AVFormatContext?并逐个字节地读取视频数据并最终解码?
浏览 2
提问于2012-11-21
得票数 0
2
回答
什么是ZooKeeper以及zookeeper是如何工作的?
我现在正在读Apache ZooKeeper。我在互联网上看了很多文档和文章,但我越来越困惑于ZooKeeper到底是如何工作的? 目前,我知道ZooKeeper为跨节点同步提供了一个基础设施,应用程序可以使用它来确保跨集群的任务是序列化或同步的。它维护了一种由“znode”组成的树型文件系统。例如,我有一个集群,它是一个主服务器和两个从服务器,并且在所有服务器中,这种树文件系统结构总是相同的?如果我在其中一个追随者服务器上创建一个新的znode,整个集群会被同步吗? 另一个问题是,每个znode只能包含1M数据,因为ZooKeeper不是设计为容纳非常大的数据值的大型数据存储。但是,如果我需
浏览 0
提问于2014-01-16
得票数 0
1
回答
Web应用程序架构问题(大型数据库,指数级)。使用Azure表或SimpleDB?
、
、
、
我有一个存储大量文本数据的web应用程序。数据库目前以每周1 1GB的速度增长。我预计随着我们获得更多客户,这一数字将呈指数级增长,因此本周为1 4GB,下周为2 4GB,下周为4 4GB,然后是8 4GB,等等…… 目前,此数据存储在大小为10 MS的单个MS SQL 2008数据库中。现在性能很好,到目前为止没有问题。 但是,随着数据库的不断增长,我担心几个月后会发生什么。我希望确保我们能够扩展,并且性能不会受到影响。 此外,我们需要为数据库找出一个好的备份策略,而不是太昂贵。 我正在考虑将存储转移到Amazon的Simple DB上,或者将我们的web应用程序转移到Azure上,并使用A
浏览 2
提问于2010-07-12
得票数 0
1
回答
关于配置单元表存储
有没有人能帮我理解下面这一点。 我已经创建了一个不是分区表的HIVE表,但我在一个10节点集群中工作,那么在这种情况下,该表(表是一个大表)的数据是否会分布在不同的数据节点上?或者它将只存在于一个节点中?? 如果它分布在不同的数据节点上,那么我们如何才能看到\hive\warehouse文件夹下的一个文件呢? 另外,请不要说明这个存储是如何分配给一个分区表的。
浏览 2
提问于2015-02-26
得票数 0
2
回答
将多个文件系统(在多台计算机上)连接到一个大卷中
、
、
、
设想情况: 有10台计算机,每台都有raidZ2 (10+2)配置的12x2TBHDD(当前),因此,在每台计算机中,我有一台大约。20体积 现在,需要将这10台独立的计算机(单独的raid组)加入到一个大容量中。 推荐的解决方案是什么? 我在考虑FCoE (10‘m以太网)。所以,购买每台计算机FCoE (10 on以太网卡)和-在硬件方面还需要更多吗?(可能是另一台计算机,FCoE交换机?比如思科Nexus?) 主要问题是:在每台计算机上需要安装和配置什么?目前,它们有freebsd/raidz2 2,但如果需要,可以将其更改为Linux/Solaris。 任何有用的资源,如谈论如何从较小
浏览 0
提问于2012-06-03
得票数 3
回答已采纳
1
回答
Redis能保存30个TB数据吗?
、
Redis是我工作的一个很好的解决方案,但问题是Redis需要大量内存来保存数据。我的数据太大了。有什么办法可以保存这么大的数据吗?Redis可以压缩这些数据以保存吗?谢谢!
浏览 3
提问于2017-02-08
得票数 2
4
回答
用于存储大文件的NoSQL数据库?
、
、
我需要将非常大的(超过512Mb)二进制文件存储到NoSQL数据库中。哪种特定的NoSQL数据库实现允许这种情况?
浏览 1
提问于2010-11-24
得票数 15
回答已采纳
1
回答
如何将内存中的文件部件缓存为Spark中的RDD?
、
、
我需要流读取到非常大的文件(在TBs中)。为了达到更高的吞吐量,如果我们能够缓存文件部分在内存中。Spark可以在分布式内存中缓存数据。如何使用spark缓存文件部件? 文件大于任何一台计算机的本地存储空间,也大于集群中内存总容量的总和。
浏览 1
提问于2014-05-08
得票数 1
回答已采纳
2
回答
卡桑德拉(Hbase)的memtable (memstore)中的数据排序
、
我知道输入到系统的数据首先放在内存中(memtable或memstore)。在缓冲区中,根据行键和列名对数据进行排序。当缓冲区大小达到一定的限制时,数据将被刷新到磁盘。如果将缓冲区大小限制配置为大值(~256 MB),则数据点的数目必须非常大(~数千万)。为此目的所使用的数据结构和排序算法是什么?
浏览 5
提问于2015-11-09
得票数 1
回答已采纳
2
回答
海量数据的推荐系统
、
、
我正在使用真实的用户数据实现一个电影推荐系统。我打算采用协同过滤的方法。然而,这种方法通常需要一个巨大的矩阵来存储用户的评分电影。因为我有超过一万部电影和十万用户。我不可能创建这么大的稀疏矩阵。我想知道每个人是如何在如此大量的数据中实现协同过滤的?谢谢!
浏览 3
提问于2013-03-12
得票数 2
回答已采纳
1
回答
包含代码的MapReduce实时项目
我想看看代码的大mapreduce作业。请给我一些关于真正的mapreduce项目和实时使用案例的想法
浏览 0
提问于2014-06-25
得票数 0
1
回答
对于时间序列日志数据,哪种解决方案更好
、
、
、
我需要一些关于选择NOSQL解决方案和如何为我的数据设计模式的建议。现在我正在考虑Hbase,但如果你认为这不是一个好的选择,请给我建议。 我有大约10 in (稍微少一点)日志数据的文本。格式是这样的。 | key1 | key2 | timestamp | column1 | column2 | column3 | column 4 | 以下是我的要求。 我需要通过{key1,key2}获取数据,结果将是{时间戳、column1}或{时间戳、columnN}数组。每个数组的大小不会超过一千。 需要使用日期范围筛选器获取数据。 key1的唯一计数可能超过10亿。这就是为什么数据如
浏览 2
提问于2014-07-07
得票数 0
2
回答
如何在应用程序和windows服务之间共享相同的设置(或配置)(即使它们在不同的PC上运行)
、
、
我正在用C#开发一个大的解决方案。有些项目是.NET Framework4.0(大部分是),另一些是.NET Framework4.6.2。 此解决方案具有WinForm应用程序和Windows。 我的问题是,所有这些应用程序共享数据库连接、字符串、服务器IP等,我必须修改每个配置文件来更新所有这些配置设置。 我也希望对这些设置进行加密,不允许用户修改它们。 我想使用windows的Registry加密的SQL数据库,或者使用Web接口的另一个windows服务来请求这些设置。 你推荐我什么? 顺便说一句,所有这些程序都将安装在不同的PC上,所以我必须使用这个解决方案来解决所有这些PC,或者也
浏览 0
提问于2017-03-09
得票数 1
回答已采纳
1
回答
Hadoop生态系统: Pig/Hive需要的Map Reduce
、
、
、
互联网上有一大堆hadoop生态系统的图片,所以我很难理解这些工具是如何协同工作的。 例如,在附图中,为什么猪和蜂巢基于map减少,而其他工具,如spark或storm在纱线上? 你能帮我解释一下这个吗? 谢谢!BR
浏览 0
提问于2018-05-03
得票数 0
3
回答
面向客户的本地化数据库
、
我工作的公司,刚刚搬到AWS --目前他们有一个非常大的中央数据库,其实例目前位于美国。 然而,他们的一个客户要求他们所有的数据都保存在欧盟。因此,在爱尔兰创建AWS实例不是问题,问题在于数据库以及如何管理它。 我们正在考虑为欧洲客户建立另一个在欧盟运行的数据库,并使用不同的主键步骤,以便在未来需要合并这两个位置时,主键不会发生冲突。 问题是,如果我们有一个在美国和欧盟都使用我们的系统的客户,我们将不得不为这个用户创建2个帐户,而且由于连接时间太长,跨两个地区的报告是不可能的。 有没有别的办法来安排这件事?
浏览 0
提问于2012-08-03
得票数 1
6
回答
你用Apache Kafka做什么?
我想问问我对卡夫卡的理解是否正确。 对于非常大的数据流来说,传统的数据库是不够的,所以人们使用Hadoop或Storm之类的东西。卡夫卡坐在上面所说的数据库,并提供...directions的实时数据应该去哪里?
浏览 11
提问于2016-05-17
得票数 23
回答已采纳
1
回答
本地网络上的数据挖掘
、
我有以下情况。我想把我的库达计划分成两个程序。第一台PC将进行大的计算,并收集它所需的数据。第二台PC一些简单的计算+数据查看。是否有标准的cuda命令通过网络发送数据。如果不是的话,最好的方法是什么呢?
浏览 3
提问于2014-03-18
得票数 2
回答已采纳
1
回答
AppFabric缓存是否支持持久WCF持久服务?
、
、
我们有配置为使用SqlPersistenceProvider的持久服务。对于每次对WCF持久服务的调用,总共需要大约3到4秒,其中只有200ms是实际的处理时间。其余的时间仅用于序列化(它的大对象)或将大对象保存到sqlserver。 任何人,请指导我设置AppFabric缓存1.1来代替默认的sqlpersistenceprovider? AppFabric是否支持这一点?我对AppFabric非常陌生。 附件是跟踪屏幕截图,显示了处理时间为200毫秒 SQL Server保存、加载时间分别为3、2秒。
浏览 0
提问于2012-07-25
得票数 0
回答已采纳
2
回答
分布式哈希表技术和比特币区块链有什么区别?
、
、
、
、
这个问题可以在比特币论坛上提出,但我试图从编程的角度来理解。 有一些技术用于分布式存储,比如分布式哈希表(比如kademlia或类似的)。比特币区块链与分布式哈希表有何不同?或者可能是分布式哈希表技术支撑了比特币区块链?或者,为什么与DHT相比,比特币区块链被誉为如此大的突破?
浏览 2
提问于2014-10-17
得票数 25
回答已采纳
3
回答
是否有任何ORM框架支持跨数据库/跨服务器连接?
、
、
、
、
我有两个服务器: 服务器A: MySql 表A 钥匙-a 外键-b 服务器B: MsSql 表B 键-b 外键-a 据推测,我有两个具有处理关系的方法的对象: 表A->getRelatedTableB(); 表B->getRelatedTableA(); 这在大多数ORM中很容易实现。但是,如果我想获得一大组对象,每个数据库服务器只有一个查询,那该怎么办?理想情况下,框架将对此进行抽象,并执行逻辑连接,这样开发人员就可以假装对数据库一无所知。类似于: FinderObject->g
浏览 2
提问于2009-07-27
得票数 0
1
回答
下载或使用这样大的数据集
、
、
、
这个的大小非常大。 以下是我面临的一些问题: 我的PC机没有那么强大,可以处理和处理这么大的数据集。 我的互联网连接下载速度不快。 我的驱动器只剩下10 GB,所以也不能用Colab获取这个数据集。 无法将数据集上传到Kaggle以获取404问题。 所以,基本上,我的问题是我应该如何处理这类数据集,当然也更有效率。 我试图用Kaggle提供dataset链接中的URL链接来创建dataset,但结果显示:不幸的是,我们无法创建您的数据集。原因:发生了内部错误。
浏览 3
提问于2022-11-19
得票数 0
2
回答
需要在web场中的页面刷新之间将数据块保存在ASP.NET中,而无需使用inprpc或状态服务器
、
、
、
、
我有一个在服务器群中运行的asp.net应用程序。所以进程内会话退出了。没有状态服务器。存在sql server数据库(不能用于状态服务器)。没有强制相同的web服务器服务能力,因此不能保证哪个web服务器将为下一个页面提供服务。 我需要在页面之间保存一个数据块(大对象状态)。我不想使用viewstate,因为数据可能很大,并且不想让它通过网络传输。我可以使用数据库保存数据,并在视图状态中使用线路上的记录id,然后检索下一页的数据。 有没有更好的解决方案?
浏览 0
提问于2009-08-11
得票数 1
回答已采纳
1
回答
将git裸存储库存储为存档
是否可以将git裸存储库存储在压缩文件中而不是文件夹结构中?(而且仍然能够推拉它们。) 背景是,我需要在类似dropbox的文件夹同步系统上同步存储库。许多小文件的同步比一个中等大的文件的同步要慢得多,裸存储库中的更改也会导致同步文件夹中的同步冲突。
浏览 0
提问于2018-03-20
得票数 1
回答已采纳
2
回答
抓取并发或分布式爬网
、
、
我想用scrapy抓取相当大的网站。在某些情况下,我已经有了抓取的链接,而在其他情况下,我需要提取(抓取)它们。我还需要在运行时访问数据库两次。一次是为了确定是否需要抓取url (蜘蛛中间件),一次是为了存储所提取的信息(项目流水线)。理想情况下,我可以运行并发或分布式爬行,以加快速度。使用scrapy运行并发或分布式爬网的推荐方式是什么?
浏览 5
提问于2015-05-28
得票数 4
2
回答
亚马逊网络服务数据库结构- MySQL和DynamoDB
、
、
、
我希望为我的转换数据运行一个DynamoDB数据库,为需要SQL Join查询的数据运行一个mysql数据库。 为了尽量将大容量/大型表排除在MySQL之外(保持更好的性能),我将把一些数据移到DynamoDB中,这些数据有时需要在MySQL中引用数据。 在DynamoDB中查询某些数据并查询MySQL,然后在PHP语言(或另一种服务器端语言)中执行最终的数据比较,从而将所需的数据返回给客户端/浏览器,这是不是很糟糕的编程/查询? 我猜最基本的问题是:必须查询NoSQL和SQL数据库,然后用php (或服务器端语言)查询结果……这是正常的还是不好的主意? thx 注意:这样做的主要目的是进行数
浏览 4
提问于2012-12-21
得票数 0
回答已采纳
1
回答
大型对象的分布式缓存
、
、
、
、
我想要在一组机器之间共享一个非常大的对象,例如以兆字节甚至几个千兆字节的数量级。该对象将被写入一次,但可能会被多次读取。也许一种天真的方法是使用像这样的通用存储。然后,分布式解决方案更有前途。但是,主要关注的是将该结构复制到所有机器上。 有没有人知道这个问题的解决方案?也许有些候选人是: 事先谢谢你。
浏览 4
提问于2013-01-29
得票数 10
回答已采纳
2
回答
适用于企业管理系统的GAE DataStore与Google Cloud SQL
、
、
我正在构建一个使用gae的企业管理系统的应用程序。我已经使用gae和数据存储构建了几个应用程序,但从来没有一个应用程序需要大量用户输入事务以及需要管理和管理报告。我最大的担心是,当我需要创建交叉表和其他详细报告(或商业智能报告和数据操作)时,我将面临堆积如山的gae数据存储查询和数据拉取限制问题。这真的只是架构偏好,还是有数量上的考虑? 在过去,我使用C++/c#/Java构建系统,而使用Oracle/MySql/MSSql (带有一个缓存层,用于提高复杂或频繁访问的数据库结果的性能)。 我一直在读,我们将抛弃关系数据的旧思维,进入天空中的大McHashTable的新世界……但是新的并不总是更
浏览 0
提问于2012-06-06
得票数 14
回答已采纳
1
回答
有没有办法减少Scrapy的内存消耗?
、
、
、
我试图刮一个相当大的网站(约100万页)与Scrapy。蜘蛛工作很好,它能够刮几千页之前,不可避免地崩溃,因为内存不足。 我尝试过的事情: 使用-s JOBDIR=<DIRECTORY>:这给了我最初的改进,我能够爬行大约是前面方法的两倍的URL数量。然而,即使有了这个选项,Scrapy的内存消耗也会缓慢增加,直到它被内存不足的杀手杀死为止。 防止不必要的功能,例如通过将日志限制从DEBUG提高到INFO来防止过多的输出。 使用产语句而不是返回数组。 将返回的数据保持在绝对最小值。 在加强器机器上运行蜘蛛:这可以帮助我爬行更多,但不可避免的是,它会在稍后的某个时
浏览 5
提问于2017-08-19
得票数 7
2
回答
Ignite使用的内存比预期的多
、
我正在使用Ignite构建一个数据计算框架。一个很大的问题是内存使用量比预期的要多一点。在Ignite外部使用1G内存的数据将在Ignite缓存中使用超过1.5G。 我已经关闭了备份和copyOnRead。我没有使用查询功能,所以没有额外的索引空间。我还计算了用于每个缓存和缓存条目的额外空间。总的内存使用量仍然没有加起来。 每个缓存条目的数据值是一个包含原始数组的大映射列表。每个条目大小约为120MB。 会有什么问题呢?是数据结构还是配置?
浏览 0
提问于2016-12-03
得票数 3
1
回答
典型的分布式KVS是什么样子的?
、
、
据我理解,分布式KVS通常如下所示: 有一个领导者负责管理元数据。 有多个追随者管理数据。 客户与领导互动 当客户要求向领导者写入数据时,它会决定哪个节点应该拥有数据,然后通过某种哈希算法(例如一致哈希)传递数据。 此外,领导将数据复制到其他节点,以便在发生中断时不会丢失数据。 这是我的理解。我的观点是,在这个体系结构中,数据不是复制到所有的跟随节点。 然而,在etcd中,它使用Raft复制了所有的数据。据我理解,它不应该被称为分布式kvs,而应该只是一个主副本复制。 有关于分布式kvs的定义吗?如果它们由多个服务器组成,那么它们是否应该被称为分布式kvs?请告诉我
浏览 2
提问于2021-12-03
得票数 1
1
回答
使用SQL Server从API优化响应时间
我有一个项目,要求响应时间应在0.5秒的负载下,作为3000并发用户; 我几乎没有使用Server聚合的API。当我们用3000 with测试它时,平均响应时间约为15秒。另外,由于SQL导致的500错误无法处理这么多请求。我们当前的实例是r4.2xLarge8CPU和61GB内存。 所有代码都是异步的,没有阻塞操作。我们在负载均衡器后面运行我们的应用程序,在这种情况下,每个实例有10个实例,300个CCU。实例利用率约为30%。目前的瓶颈是SQL server。 我看不出什么解决办法。设置一些大的SQL,集群或切分,我不太确定。我在这方面不坚强。 或者使用缓存进行请求。我们主要是只读数据,我
浏览 0
提问于2019-08-02
得票数 0
2
回答
缓存字符串与缓存编译模式的Pattern.compile()
、
、
、
我有一套模式来匹配每一个请求来决定该做什么。模式的数量现在是60,但很快就会增长到1000多个。 我从数据库中获取模式,并使用无穷大来缓存我的模式。 Pattern.compile()非常快,我不确定是否应该缓存编译模式或字符串。Pattern似乎是Serializable。缓存Pattern对象有什么问题吗? 编辑 我用的是遥控器。它是一个分布式缓存。
浏览 1
提问于2018-09-19
得票数 1
回答已采纳
1
回答
如何管理大型数据集(约95 to )
、
、
我计划在我将用于某些项目的数据集上进行一些数据分析。所讨论的数据集是ZINC20。现在,我不需要所有的东西,所以我要写一些函数,根据特定的特性过滤分子。我的问题是,首先我如何处理这么大量的数据?即使我迭代每个“部分”并将过滤过的分子添加到csv或tsv中,它可能仍然相当大。 在软件或数据类型方面有什么有用的建议吗?谢谢!
浏览 0
提问于2022-10-12
得票数 0
2
回答
Map and Reduce with large datasets =它在实践中是如何工作的?
、
、
我将非常感谢您的建议: 说:"...a大型服务器场可以使用MapReduce在几个小时内对of级的数据进行排序……“和"...The主节点接受输入,将其划分为更小的子问题,并将这些问题分发到工作节点...“ 我完全不明白这在实践中是如何工作的。假设我有一个包含1PB数据的SAN(存储)。我如何通过“主机”有效地将大量数据分发给从机?这是我不能理解的事情。假设我有一个从SAN到Master的10Gibt连接,以及从Master到slave的1Gbit连接,我一次最多只能“扩展”10Gbit。我如何在几个小时内处理to,因为我首先必须将数据传输到"reducer/worke
浏览 3
提问于2011-04-12
得票数 2
回答已采纳
2
回答
星火如何在提交后接受输入
、
我正在设计一个应用程序,它需要非常快的响应,并且需要从hadoop文件系统中检索和处理大量数据(>40G),只要输入(命令)。 我在想,如果可以使用spark在分布式内存中捕获这么多的数据,并让应用程序一直运行下去的话。如果我给应用程序一个命令,它可以根据输入开始处理数据。 我认为捕捉这么大的数据不是问题。但是,如何让应用程序运行,并接受输入呢? 据我所知,在“火花-提交”命令之后什么也做不了.
浏览 5
提问于2016-11-02
得票数 2
回答已采纳
2
回答
AppFabric本地缓存性能
、
、
我目前正在测试AppFabric分布式缓存,它工作得很好。 但是,在性能测试Local Cache特性时,我发现性能没有差别。 出于性能测试的目的,我将从OutputCache生成的大页面存储到AppFabric中,并且注意到在启用或不启用本地缓存的情况下具有相同的性能。 其他人也有类似的经历吗? 我使用基于超时的本地缓存,ttl为300,objectcount为100000。
浏览 3
提问于2010-11-25
得票数 5
1
回答
在Hadoop或分布式计算框架中管理多个集群
、
、
、
、
我有五台电脑联网在一起。其中一台是主计算机,另外四台是从机。 每台从计算机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的奴隶中运行四个不同的集群程序。然后,将结果带回主计算机进行进一步处理(如可视化)。 我最初想使用Hadoop。但是,我找不到任何好的方法将上面的问题(特别是输出结果)转换为Map框架。 有什么好的开源分布式计算框架,我可以轻松地完成上面的任务吗? 提前谢谢。
浏览 0
提问于2018-10-26
得票数 3
回答已采纳
1
回答
谷歌如何存储其PageRank矩阵?
、
、
我很想知道谷歌是如何存储PageRank算法中使用的矩阵的;我正在寻找一种数据结构,用于存储一个非常大(不适合于任何一台计算机的内存)稀疏矩阵,并且高效地(还不确定这意味着什么)对其执行操作。 如果有白纸可用,请张贴一个链接或标题(我做了一些研究,但找不到一个),如果没有,如果你可以张贴链接,或仅仅名称的论文或书籍,将有助于我开始。 在我最初的研究中,我发现了稀疏的逐行格式1,并且我开始阅读稀疏矩阵技术2,所以如果我在这里正确的话,请让我看看。 1 Chang,1969 Curtis and Reid,1971 Gustavson,1972 2 Pissanetzky,1984年
浏览 0
提问于2013-10-22
得票数 0
1
回答
在像Git这样的“分布式版本控制系统”中,“分布式”字的含义是什么?
、
为了找到答案,我已经阅读了问题,但是这个问题是不同的,它是在比较“分布式版本控制系统”和其他“分布式系统”时出现的。 当我看到诸如“分布式数据库”、“分布式缓存”和“分布式计算”这样的词“分布式”时,我发现数据或计算实际上是通过网络分布的。在这里,“分布式”一词的意思是“分割(不总是一样)”。例如,在Hazelcast中,“分布式缓存系统”中的密钥实际上是在提供的节点之间分配的。但我在“分布式版本控制系统”中没有发现这种相似之处。 在“分布式版本控制系统”中,是否有“分布式”的意思? 如果是,那么什么是分布式的(因为我没有看到代码或提交历史中的划分)?
浏览 0
提问于2018-11-05
得票数 0
回答已采纳
3
回答
HadoopFS (HDFS)作为分布式文件存储
、
我正在考虑使用HDFS作为我们的客户端视频托管服务的水平缩放文件存储系统。我主要担心HDFS不是为这个需求而开发的,这更多的是“一个开源系统,目前正在需要处理大量数据的情况下使用”。我们不想处理数据,只是存储它们,在HDFS的基础上创建一些类似于亚马逊内部小型S3模拟的东西。 也许重要的时刻是,存储的文件大小将相当大,从100Mb到10Gb。 有没有人使用HDFS来达到这样的目的?
浏览 0
提问于2011-05-26
得票数 5
1
回答
Eclipse与BitBucket的最简单使用
、
我在Eclipse中创建了一个简单的java项目,并希望使用BitBucket for vcs。我将是该项目的唯一开发人员。这不是一个大而重要的项目。我将只使用提交、更新和还原。我不会分叉/克隆/合并任何东西。在任何时候,我的本地存储库都将具有与BitBucket中的存储库相同的文件版本。如果我只使用eclipse而不使用终端或BitBucket的网站,那就太好了。 对最简单的用法有什么帮助吗?
浏览 1
提问于2013-11-28
得票数 0
1
回答
如何在spring中缓存?
、
我在春季mvc.But中使用缓存,因为服务器每天重置2次,缓存的数据将被销毁。如何将缓存的数据存储在不发生这种情况的文件夹中?
浏览 0
提问于2014-10-23
得票数 0
回答已采纳
1
回答
读取副本重读是否影响masterDB?
、
、
我们在读端有一个非常重的负载,每天有2个小时的大DB表,这会影响到Db,所以作为解决方案,我已经为它创建了Read副本。 如果应用程序在读取副本上获取大量数据,那么MasterDB是否会对加载产生影响,或者它将按原样工作。
浏览 0
提问于2018-07-12
得票数 1
回答已采纳
2
回答
分布式缓存-基本概念
、
我正在尝试理解分布式缓存的基本概念及其用法。 首先,分布式缓存是一群机器,它们共同充当所有客户端的大缓存,还是客户端保留其本地缓存,一个协调器简单地向所有客户端发送更新,说明如何同步其本地副本? 其次,如果缓存是一组维护缓存数据的分布式机器,为什么我们不直接向DB发送查询,而是通过网络将请求发送到缓存?我猜性能开销可能是相似的…… 最后,分布式缓存的主要好处是什么,即为什么人们不坚持传统的本地缓存模型? 非常感谢您提供的所有答案/资源。
浏览 0
提问于2013-05-28
得票数 11
回答已采纳
2
回答
在区块链中保存文件的最佳实践
、
、
、
、
将文件保存为区块链数据的一部分的最佳实践是什么?我有非常大的文件要保存。 难道我们不能将这些文件保存在云存储上(像dropbox这样的集中式解决方案),并使用文件散列将它们与区块链数据链接起来吗?或者使用像IPFS这样的分布式文件存储更好?或者在安全性、容量、性能和容错性方面有更好的解决方案。
浏览 0
提问于2018-05-18
得票数 8
1
回答
如何并行地实现" by“函数,或者最好是通过sparkR实现
、
、
、
、
我需要在一个非常大的数据集上应用"by“函数。数据看上去如下: id value1 value2 1 245 446 1 592 567 1 356 642 ... ... 2 231 421 2 423 425 2 421 542 我需要为每个id在value1和value2之间计算一些内容,以便: by(dataset, id, function(input) myfun(input$value1, input$value2) 但是,数据非常大。
浏览 4
提问于2015-12-19
得票数 0
回答已采纳
1
回答
地理定位数据的NoSQL引擎/服务推荐
、
首先,我是新来的这个领域我们称之为大数据,所以我的问题可能是天真的。 为了构建一个处理地理位置数据的应用程序,可以是:纬度和经度坐标以及地理SQL Server列类型。 我需要简化以下内容: 可伸缩性:准备好接收大量数据,将服务器添加到系统中是很容易的。 接近要求:例如,在一个圆中有多少个点(以米的比例尺)。 数据必须在写入后才能快速访问。 我一直在寻找现有的解决方案,它们是"Hadoop友好“(Hortonworks,Cloudera)和可用的DBMS,比如Cassandra。我发现了一些有趣的信息,但我仍然认为很难决定选择哪一个。它还需要NodeJS & .NET的驱动程序
浏览 0
提问于2015-05-05
得票数 4
11
回答
是否有版本控制系统允许您永久删除文件?
、
我需要保留一些大文件的版本(一些演唱会)。 我不需要,也不能将文件的所有版本都保存在版本下。我希望能够在某个时刻从我的VCS大文件版本中删除。 我希望保留在版本控制下的文件是大的.zip文件或ISO镜像。这些文件可能包含可执行软件或数据(地震数据、SAR图像、GNSS数据),它们由我公司的软件供应商提供。 我可以使用什么控制版本系统?
浏览 1
提问于2009-01-27
得票数 7
1
回答
我们如何处理Hadoop DB中处理过的数据(输出)?
、
、
我是Hadoop的新手,如果我的问题太不成熟,我深表歉意。 我知道Hadoop用于分析大型数据集上的数据。最后,我们如何处理分析的数据,创建报告和演示文稿? 例如,在SSRS报告的情况下,报告将基于使用SQL查询从RDBMS中提取的结果数据生成。 但是,在基于Hadoop的数据库中是如何工作的呢?在客户端,如果请求特定的报告,这需要来自Hadoop DB的数据点,那么流程会是怎样的?我确信客户端不会直接在hadoop中运行Job来获取生成报告所需的数据,因为hadoop作业需要更多的时间来处理。 我的问题是,通过在hadoop DB上运行MR作业,处理的数据(结果集)是否存储在任何中间数据库中
浏览 2
提问于2015-12-23
得票数 0
2
回答
hadoop中的分析实现
、
、
目前,我们已经有了基于mysql的分析。我们每隔15分钟读取日志,对其进行处理并添加到mysql数据库中。 随着我们的数据不断增长(在一种情况下,到目前为止增加了900万行&每月增加50万行),我们计划将分析转移到无sql数据库。 根据我的研究,Hadoop似乎更适合我们处理日志&它可以处理非常大的数据集。 然而,如果我能从专家那里得到一些建议,那就太好了。
浏览 0
提问于2014-04-12
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Gartner 19Q2外部存储数据发布,分布式存储大爆发
分布式存储大爆发:IPDS分布式存储项目正在振兴
是结合了分布式数据存储
分布式存储:IPFS/Filecoin是如何帮你存储数据的!
分布式文件存储数据库 MongoDB
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券