数据信息化的应用与项目中,通常都会遇到报表需求,数量少的,零星需要做的,可能手工就搞定了,数量多的,长期做的,基本都会选用一个报表工具,因为长期做,就必须考虑成本了,找一个称手的工具来降本增效是非常重要的
很多软件都有开源的,报表工具也一样,但是开源报表都不好用,要么功能不全要么功能很差,需要自己编程去补足功能,而且操作复杂,开发效率低下
我们知道,BI的终极目标是做数据分析,这些花哨的可视化效果也是要为数据分析服务的,那么,从数据角度上看,这些BI有多大区别呢?
自助报表需求已经是越来越普遍,各行业的应用软件中,不管是主动还是被动,都在思考并在努力实现自助报表功能
来源:数据蒋堂 作者:蒋步星 本文长度为1168字,建议阅读4分钟 本文通过剖析数据库的现状,探查怎样看待存储过程的移植困难问题。 存储过程移植困难是经常被诟病的,在罗列存储过程的缺点时,这一条几乎从来不会被遗漏。 存储过程的移植确实很困难,一般业务逻辑复杂到需要写存储过程的地步,总会不可避免地用到数据库独有的特性和语法,更换数据库时这部分代码就需要重写。如果只是简单地替换函数名和参数规则(如日期转换等),那成本还不高;如果用到了新数据库不支持的某种特性(如窗口函数),那还要重新设计算法来编写计算
报表工具不就是为了解决手工开发报表效率低、困难多等这些让人头痛的难题的吗?怎么用了大牌工具还会头痛,是功能不行解决不了这些问题?
确实是大部分软件都有开源的,从系统到数据库到各类工具、应用,都有开源,而且开源的东西大都比较流行,拥趸众多
用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。
自从AlphaGo赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有着大量的“人工”,还有相当多不能自动化的事情。 这里的"人工"主要体现在两个方面: 1. 数据准备 现代的人工智能技术,或者说机器学习,其基本方法和N多年前的数据挖掘并没有什么太大的不同,也还是将大量数据喂给计算机用于训练模型,模型生成之后就可以用于自动化处理,看起来就像有了智能。 然而,用于实际业务的机器学习项目,并不像Alph
本文共1200字,建议阅读8分钟。 用SQL写代码时一般不用再关心变量、循环的具体动作,但要操心表、字段这些概念上的计算过程。
因为用错了报表工具,或者没有用对姿势。 疼在哪里? 报表工具不就是为了解决手工开发报表效率低、困难多等这些让人头痛的难题的吗?怎么用了大牌工具还会头痛,是功能不行解决不了这些问题? 不,并不是 好的报表工具确实可以很好地解决制表方面的困难,但是报表开发的难题,并不全在制表上, 还有相当一部分在数据准备上,应用中的报表,有 80% 的数据来源和计算都比较简单,很多一个简单的 SQL 语句就搞定了,但还有 20% 的情况中,数据准备工作就没有那么好做了,一些过程式的多步骤复杂计算,常常要写很长的多层嵌套的 SQ
T+0 的概念,运用比较广泛的是在金融领域,T(Transaction)表示交易日期,+0 就是指交易当天,+N 就代表交易的 N 天后
本文共1400字,建议阅读8分钟。 大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。
本文共1100字,建议阅读8分钟。 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考。
本文共1800字,建议阅读8分钟。 我们把数据存储到文件中,只要有好的计算引擎,基于文件计算将获得更优性能。
本文字数为1151字,阅读全文约需5分钟 本文为《数据蒋堂》第二期,为你解释为什么非结构化数据分析是忽悠。 大数据概念兴起的同时也带热了非结构化数据分析。传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大。有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了。 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像、文本网页、办公文档、设备日志、....;每类数
本文共2282字,建议阅读7分钟 本文为大家解读结构化数据的前沿动态。 [导读]数据库是当前数据分析中最重要的数据存在形式,但受其封闭性和关系代数四十年没有关键性发展等影响,现今很难满足多数据计算量的计算需求。演讲嘉宾蒋步星将针对结构化数据常见的集合和有序运算以及大数据计算等实际业务需求,分析探讨关系代数在描述和实施计算时面临的困难,研究结构化数据的计算特点后提出更有适应性的计算模型,并进一步形成更有开放性的计算能力提交方案,最后再简单分享对新一代数据仓库的展望。 本讲座选自润乾软件创始人蒋步星于2
本文共1300字,建议阅读6分钟。 本文与你探讨多维分析初始状态时该预先汇总哪些组合。
本文共1100字,建议阅读7分钟。 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。
报表的性能很重要,是一个总被谈及的问题,跑的慢的报表用户体验恶劣,无法忍受。解决这些慢的性能问题,也成了项目方和工程师头疼的事情。一出状况,就得安排技术好的,能力强的工程师去救火,本来利润就薄,还得不断的追加人工成本,而且工程师有时候也无能为力,并不是所有的性能问题都能靠程序员能力解决的
作者:蒋步星 来源:数据蒋堂 本文共2600字,建议阅读10分钟。 报表开发人员如何规避安全漏洞问题? 所有的报表工具都会提供参数功能,主要都是用于根据用户输入的查询条件来选取合适的数据。比如希望查询
来源:数据蒋堂 作者:蒋步星 本文长度为1600字,建议阅读4分钟 本文从四个方面分析独立计算层的优势。 [导读]我们在上一期【数据蒋堂】报表应用的三层结构一文中解释了报表应用结构中数据计算层的必要性,以及可以使用报表工具自定义数据源接口来实现计算层。本期我们就来讨论一下使用报表工具的自定义数据源是否可以方便地实现数据计算层以及独立计算层的优势。 在计算层中要完成一些复杂的计算逻辑,因此要有可编程的能力,而基于自定义接口可以采用报表工具的宿主语言(即用于开发报表工具的程序设计语言)进行开发,在功能方
事物都是普遍联系的,很难有一个独立的事物不和其它发生关联,数据表也一样,很多有业务意义的查询都会涉及多个数据表的关联
转载来源:数据蒋堂 作者:蒋步星 本文共1495字,建议阅读3分钟。 本文蒋步星老师从时间与空间上讲解了1T数据到底有多大。 一英里不是个很长的距离,一立方英里相对于地球也不会让人觉得是个很大的空间。然后我说,这个空间内能装下全世界所有人,你会不会觉到很惊讶?不过这话不是我说的,是美国作家房龙在一本书里写的。 业内有个著名的数据仓库产品,叫Teradata,20多年前起这个名字,显然是想给人能处理海量数据的感觉。可现在,论用户还是厂商,谈论数据量时都常常以T为单位了,动不动就有几十上百T甚至PB级的数据
本文共2600字,建议阅读9分钟。 如果能物理地减少数据存储量,也就自然而然地减少了外存访问量。
本文共1500字,建议阅读7分钟。 如何在多表情况下生成大规模测试数据时还能保证合理的关联性呢?
来源:润乾软件 作者:蒋步星 本文长度为2600字,建议阅读5分钟 本文为你分析索引清理背后的技术原理。 索引是经常用到的技术,但有些程序员对索引的原理了解不深,发现数据查询性能有问题立刻就想起建索引,但效果常常也不尽人意。那么到底什么时候该用索引以及该怎么用?我们来分析索引清理背后的技术原理就知道了。 基本原理 索引技术的初衷是为了快速从一个大数据集中找出某个字段等于确定值(比如按身份证号找出某个人)的记录。一个规模(行数)为N的数据集,用遍历查找则需要比较N次,而如果数据是按该字段值(在索引中称
来源:润乾软件 作者:蒋步星 编辑:刘晴敏 本文字数为2219字,建议阅读6分钟 本文由蒋步星讲述了报表性能优化的问题。 应用系统中的报表,作为面向业务用户的窗口,其性能一直被高度关注。用户输入参数后都希望立即就能看到统计查询结果,等个十几二十秒还能接受,等到三五分钟的用户体验就非常恶劣了。 那么,报表为什么会慢,又应当从哪里入手进行性能调优呢? 数据准备 当前应用中的报表大都用报表工具开发,当报表响应太慢时,不明就里的用户就会把矛头指向使用报表工具的开发人员或者报表工具厂商。其实,大多数情况
来源:数据蒋堂 作者:蒋步星 本文长度为1800字,建议阅读4分钟 本文谈谈OLAP,并分析OLAP应当具备的功能。 被狭义化的OLAP OLAP是商业智能应用中重要的组成部分,这个词从字面上理解是在线分析的意思,也就是由用户,特别是业务人员,面对数据进行各种分析操作。 但是,现在的OLAP概念被严重狭义化了。说到OLAP,基本上仅指多维分析,也就是针对一个事先建设好的数据立方体,按指定维度层次进行汇总并呈现成表格或图形,再辅以钻取、聚合、旋转、切片等操作以变换维度层次及汇总范围。多维分析的基本思路认为
来源:数据蒋堂 作者:蒋步星 本文长度为1700字,建议阅读3分钟 本文为你分析报表应用的三层结构。 在传统的报表应用结构中,报表工具一般都是与数据源直接连接,并没有一个中间的数据计算层。确实,大部分情况下的报表开发并不需要这一层,相关的数据计算在数据源和呈现环节分别处理就够了。不过,在开发过程中,我们发现,有一部分报表的计算既不适合在数据源也不适合在呈现环节实现,这类报表在数量上并不占多数,但耗用的开发工作量占比却很大。 有过程的计算 报表工具都可以完成计算列、分组排序等运算,有些报表工具还提供了
本文共5500字,建议阅读10+分钟。 一个物理表的数据量太大时,就会影响查询和计算的性能。
本文共1800字,建议阅读8分钟。 我们不能解决通用的大排序问题,但在特定场合下却能设计出好算法提高性能
来源:数据蒋堂 作者:蒋步星 本文长度为1800字,建议阅读5分钟 本文分三个层面讨论自助BI是否能够真正满足用户需求。 从早期的多维分析(OLAP)到近年来的敏捷BI,BI产品厂商一直在强调自助能力,宣称可以由业务人员自己分析数据,而用户方也常常有强烈的此类需求,双方一拍即合,很容易形成购买行为。但是,BI产品的自助功能真的能让业务用户自己随心所欲地分析数据吗? “分析”这个词并没有一个业界公认的严格定义,所以不能说这些BI产品是否过份宣传了。不过,就大多数缺乏BI应用经验的用户所期望的工作内容而
报表工具是一个历史比较悠久的软件类产品了,已经有20年以上的发展历史了,在这20多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值
在报表项目中,经常会碰到数据库压力非常大影响整个系统性能的问题。由以下的传统方案的结构示意图能够看出。所有数据存储和源数据计算都放在数据库完毕。当并发訪问量较大的时候,尽管每一个报表的数据量不大,还是会造成数据库压力过大。成为性能的瓶颈。多数数据库厂商提供的jdbc接口数据传输比較缓慢。在并发量较大的情况,对报表系统性能的影响也非常明显。
来源:数据蒋堂 作者:蒋步星 本文长度为1873字,建议阅读5分钟 本文讲述计算机的封闭性如何导致了臃肿的数据库。 许多大型用户的数据库(仓库)在运行多年之后,都会积累出很多的数据表,严重者数以万计。这些数据表年代久远,有些已经忘记建设原因,甚至可能已不再有用,但因为很难确认而不敢删除。这给运维工作带来巨大的负担。伴随着这些表还有大量的存储过程仍在不断地向这些表更新数据,占用大量计算资源,经常要迫使数据库扩容。 这些表真的是业务需要吗?业务会复杂到需要成千上万的表才能描述吗? 有过开发经验的人都知道
工具,本身就是为了解决各种重复性工作效率低下的问题而诞生的产物,报表工具也是工具,所以它的诞生,它的使命,也是为了提效!是为了提升数据信息化项目中报表的开发效率而诞生的 但不同的工具,开发方式不同,效率自然也分高下。效率高的,不仅做起来简单方便,还能给项目上节省很多成本;效率低的,开发起来费事费力,不仅工程师受不了,常年累月无形中浪费掉的人工成本,企业也受不了 那怎么才能选一个开发效率高的呢?开发效率应该怎么考察呢? 很多人在考察报表工具时,会关注工具是不是有流畅的可视化操作界面(厂家也喜欢宣传这一点,零编
来源:数据蒋堂 作者:蒋步星 本文长度为2240字,建议阅读5分钟 本文通过剖析存储过程的优点,探查存储过程的潜在风险及应用场景。 存储过程是数据库领域中应用非常广泛的技术,关于它的利弊讨论由来已久,我们这里针对存储过程的两个公认度较高的优点进行剖析,从而更清楚存储过程的潜在风险及应用场景。 存储过程利于界面与逻辑分离! 界面与逻辑分离是现代应用开发的一个基本准则。相对于后台数据处理逻辑,界面会有更多样性的环境,如PC、手机等,而且业务稳定性也不强,经常会改。如果能把两者分离,开发和维护界面时绑着数
来源:数据蒋堂 作者:蒋步星 本文长度为2400字,建议阅读3分钟 本文针对只读的分析计算任务探讨列存的缺点。 列存是常见的数据存储技术,在许多场景下也确实很有效,因而也被不少数据仓库类产品采用,在业内列存也常常就意味着高性能。 可是,列存真有这么好吗?搜索一下,容易找到的列存缺点一般是针对数据修改的,而对于只读的分析计算任务,却很少能见到较详细的讨论。我们在这里来研究一下这个问题。 对内存计算意义不大 列存的原理很简单:由于磁盘不适合跳动式读取,采用行式存储时在读取数据时会扫描所有列,而一次运算可
目前,随着企业对数据越来越重视,报表软件的应用越来越广泛。企业报表的需求越来越多变,就需要好用的免费报表软件,报表软件必须具备简捷、专业、灵活的特点,这里就给大家测评几款免费报表软件,供大家做参考。
BI商业智能这个概念已经提出好几十年了,这个概念本身比较宽泛,不同人也有不同的理解和定义,但落实到技术环节,特别是面向业务用户的环节,所称的BI,基本就是指的多维分析或者自助报表
工具,本身就是为了解决各种重复性工作效率低下的问题而诞生的产物,报表工具也是工具,所以它的诞生,它的使命,也是为了提效!是为了提升数据信息化项目中报表的开发效率而诞生的
报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值
作者 CDA 数据分析师 前言 2017年7月29日,由CDA数据分析师主办,以“跨界互联 数据未来”为主题的CDAS 2017第四届中国数据分析师行业峰会在北京中国大饭店隆重举行。 7月29日当天,除了引人眼球的主会场以外,当天同步开放11个分论坛,我们将逐一推送每个分论坛的盛况,以及演讲嘉宾速记稿整理,给每一个CDA成员奉上干货。 CDAS 2017中国数据分析师行业峰会的下午数据库与技术实战分论坛中,来自去哪儿、润乾科技、宜信等七位专家与教授,分享了数据库与技术实战自己的心得体会。 大会
近几年,人工智能和大数据开始热起来。无数培训班靠讲 Python、机器学习等课大赚其财,大学里的那些稍沾点边的商科专业都开始设立建模预测的课程。在企业里收到的简历也是越来越多地号称耍过神经网络、深度学习,经历过 N 多建模预测的项目。未来的职场,看起来会有满世界的数据科学家。
市场上有许多以BI为旗帜的产品,但它们实际上是纯数据工具。选择BI产品时,很多人都会眼花缭乱。我简单地从技术来源对市场上的BI工具进行分类,以便于理解。
领取专属 10元无门槛券
手把手带您无忧上云