首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

海量数据的存储与访问瓶颈解决方案-数据切分

在当今这个时代,人们对互联网的依赖程度非常高,也因此产生了大量的数据,企业视这些数据为瑰宝。而这些被视为瑰宝的数据为我们的系统带来了很大的烦恼。这些海量数据的存储与访问成为了系统设计与使用的瓶颈,而这些数据往往存储在数据库中,传统的数据库存在着先天的不足,即单机(单库)性能瓶颈,并且扩展起来非常的困难。在当今的这个大数据时代,我们急需解决这个问题。如果单机数据库易于扩展,数据可切分,就可以避免这些问题,但是当前的这些数据库厂商,包括开源的数据库MySQL在内,提供这些服务都是需要收费的,所以我们转向一些第三方的软件,使用这些软件做数据的切分,将原本在一台数据库上的数据,分散到多台数据库当中,降低每一个单体数据库的负载。那么我们如何做数据切分呢?

06
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据持久化层场景实战:业务场景+数据库分区+冷热分离概述

    ◆  冷热分离 本文讲的第一个场景是冷热分离。简单来说,就是将常用的“热”数据和不常使用的“冷”数据分开存储。 本章要考虑的重点是锁的机制、批量处理以及失败重试的数据一致性问题。这部分内容在实际开发中的“陷阱”还是不少的。 首先介绍一下业务场景。 ◆  1.1 业务场景:几千万数据量的工单表如何快速优化 这次项目优化的是一个邮件客服系统。它是一个SaaS(通过网络提供软件服务)系统,但是大客户只有两三家,最主要的客户是一家大型媒体集团。 这个系统的主要功能是这样的:它会对接客户的邮件服务器,自动收取发到几个

    02

    致敬平凡的程序员--《SOD框架“企业级”应用数据架构实战》自序

    上面两句话不知道是哪位名人说的,又或者是广大劳动人民总结的,反正我很小的时候就常常听到这两句话,这两句话也成了我的人生格言,而且事实上我也是一个生活过得比较简单的平凡人物,当然这不能说我跟“伟大”有什么关系,我觉得绝大部分人都是像我一样的平凡人物,但正是这些绝大多数平凡的人,创造了我们现在这个美好的世界,说他们是伟大的一点也不过分。在我身边,也有一群平凡的程序员,用他们日复一日,加班加点,简单而平凡的工作,编写了许多有价值的商业软件,付出了青春和汗水,除了相应的薪水,还有什么更大的回报吗?不排除程序员中有一些出类拔萃的人,他们取得了工作上的成功,在能力上获得了很大的成长,当了公司高管又或者是自己创业,事业上取得了一定成就。但是这些出类拔萃的程序员是很少的,在本书第一章,笔者根据《2018年中国程序员生存现状报告》进行了分析,年薪超过30万的程序员不超过10%,年薪10万左右的占比最高,并且年薪10万到15万之间5到10年工作经验的程序员占比最高。如果按照社会上普遍的以收入来衡量一个人是否成功的标准,大部分程序员的职业人生都是不成功的,他们并没有随着工作年限的增长而获得相应成长,这是一个无奈的现实。然而换一个角度来看待,大部分程序员虽然每天都做着简单而重复的“增删改查”工作,但他们用平凡的工作为自己服务的公司创造了利润,为社会创造了价值。

    02

    RavenDB文档建模--琐碎的注意事项--缓存查询属性

    缓存查询属性是我们在实际开发中会遇到的,什么是缓存查询属性呢?举个例子来说,在电子商城的订单系统中每个账户都有自己的订单数据,有时用户需要查看自己截止到目前所订单的数量,那么这个账户的订单数量可以被视为 查询属性,因为从众多的订单中统计出某个账户的订单数量是一件会消耗很多资源的命令,因此会将这个订单数量存储在缓存中(例如存储在RavenDB中),在后续查询中我们不需要再次从数据库中查询,只需要在缓存冲查询即可,这就叫做 缓存查询属性。 缓存查询属性的行为开起来很常见也很有意义,但是着是一个不良的行为。为什么这么说呢?首先在大部分领域中这种类似的属性并不是客户必须有的部分(可有可无),也不是客户文档必须包含的部分,其次,为了保证这个属性会在相关内容变更(例如订单删除和新增)时也跟着更改,我们就需要在相关内容发生变化时也去改变它的内容,等于说我们要对数据库多进行N次的操作,然后将更新的数据在存入缓存中,这样就会增大失败的概率,接着,我在进行开发设计前还需要考虑哪些操作会改变查询属性,如果是比较简单的项目还好,那如果是大型项目呢?里面的操作错综复杂,如何保证覆盖所有的操作? 缓存查询属性这个问题其实是一个业务和成本方面的问题,在大多数情况下我们只是想在页面中展示这个值,并且要从关系型数据库中查询出这个值的话可能会很昂贵,因此很多人会将这个值直接放在缓存中。在 RavenDB 中我们可以使用 MapReduce 聚合操作来处理,我们根本就不需要缓存这种属性,也减少了成本,MapReduce的使用因为是一个很大的模块,因此我将放在后面专门开始一个专题来讲解。在解决完缓存查询属性的问题后,下一步我们该考虑如何处理并发的问题和并发问题对建模的影响,这个问题我将放在下一篇文章讲解。

    02

    海量数据切分,这么搞就完事儿了

    当今社会是一个信息大爆炸的社会,大家都在用各类应用软件,也因此产生了大量的数据,企业把这些数据当做宝贝,然而这些被视为宝贝的数据往往是我们技术人员的烦恼,这些海量的数据存储和访问成为了系统设计与使用的瓶颈,而这些数据往往存储在数据库中,然后传统的数据库又是存在不足的。单个数据库是存在性能瓶颈的,并且扩展起来十分困难,在当今这个大数据的时代,我们就必须要解决这样的问题。如果单机数据库易于扩展,数据可切分,就可以避免这些问题,但是当前的这些数据库厂商,包括开源的数据库MySQL在内,提供这些服务都是要收费的。所以我们一般转向第三方的软件,使用这些软件来给我们的数据做数据切分,将原本一台数据库上的数据,分散到多台数据库中,降低每一个单体数据库的负载。那么我们如何做数据切分呢?接下来,跟着老猫来看一下切分的方案。

    02

    pet的结构单元_三层架构

    在进行系统设计时,除了对安全、事务等问题给与足够的重视外,性能也是一个不可避免的问题所在,尤其是一个B/S结构的软件系统,必须充分地考虑访问量、数据流量、服务器负荷的问题。解决性能的瓶颈,除了对硬件系统进行升级外,软件设计的合理性尤为重要。 在前面我曾提到,分层式结构设计可能会在一定程度上影响数据访问的性能,然而与它给设计人员带来的好处相比,几乎可以忽略。要提供整个系统的性能,还可以从数据库的优化着手,例如连接池的使用、建立索引、优化查询策略等等,例如在PetShop中就利用了数据库的Cache,对于数据量较大的订单数据,则利用分库的方式为其单独建立了Order和Inventory数据库。而在软件设计上,比较有用的方式是利用多线程与异步处理方式。 在PetShop4.0中,使用了Microsoft Messaging Queue(MSMQ)技术来完成异步处理,利用消息队列临时存放要插入的数据,使得数据访问因为不需要访问数据库从而提供了访问性能,至于队列中的数据,则等待系统空闲的时候再进行处理,将其最终插入到数据库中。 PetShop4.0中的消息处理,主要分为如下几部分:消息接口IMessaging、消息工厂MessagingFactory、MSMQ实现MSMQMessaging以及数据后台处理应用程序OrderProcessor。 从模块化分上,PetShop自始自终地履行了“面向接口设计”的原则,将消息处理的接口与实现分开,并通过工厂模式封装消息实现对象的创建,以达到松散耦合的目的。 由于在PetShop中仅对订单的处理使用了异步处理方式,因此在消息接口IMessaging中,仅定义了一个IOrder接口,其类图如下:

    01
    领券