本系列是数据可视化基础与应用的第01篇,主要介绍数据可视化概述,包括数据可视化的历史,原理,工具等。
信息科学领域面临的一个巨大挑战是数据爆炸。据IDC Global DataSphere统计,2021年全球数据总量达到了84.5ZB,预计到2026年,全球结构化与非结构化数据总量将达到221.2ZB。
1GB (Gigabyte 吉字节 又称“千兆”)=1024MB
1TB (Trillionbyte 万亿字节 太字节)=1024GB
1PB (Petabyte 千万亿字节 拍字节)=1024TB
1EB (Exabyte 百亿亿字节 艾字节)=1024PB
1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024EB = 十万亿亿字节
从信号获取的角度看,数据是对目标观察和记录的结果,是关于现实世界中的时间、地点、事件、其他对象或概念的描述。在表达为有用的形式之前,数据本身没有用途。关于数据,不同的学者给出了不同的定义,大致分为以下几类。
数据即事实:数据是未经组织和处理的离散的、客观的观察。由于缺乏上下文和解释,所以数据本身没有含义和价值。如果将事实定义为真实的、正确的观察,那么并不是所有的数据都是事实,错误的、无意义的和非感知的数据不属于事实。
数据即信号:从获取的角度理解,数据是基于感知的信号刺激或信号输入,包括视觉、听觉、嗅觉、味觉和触觉。由于每种感官对应某个信号通道,所以数据也被定义为某个器官能接收到的一种或多种能量波或能量粒子(光、热、声、力和电磁等)。
数据即符号:无论数据是否有意义,数据都可定义为表达感官刺激或感知的符号集合,即某个对象、事件或所处环境的属性。代表性符号,如单词、数字、图表和图像视频等,都是人类社会中用于沟通的基本手段。因此,数据就是记录或保存的事件或情境的符号。
数据(Data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
如15,2020这些,如果只看到数字,我们很难明白其意义。
如果我们得知:“小明,15岁,。。。”这些数字就有了意义,我们称之为信息。
数据可以是连续的值,比如声音、图像,称之为模拟数据。
也可以是离散的,如符号、文字,称之为数字数据。
在现今的生活中,人们每天都要接触到大量的数据,以及由数据构成的文字、符号、声音、图像等信息。
知识具有系统性、规律性和可预测性。
例如,通过观测记录行星出现位置和出现时间,对数据进行分析、挖掘,计算得到星球运动的规律,这称之为信息。
针对信息进行总结和提炼,得到开普勒三定律,知识由此产生。
知识使人们更加清晰地了解世界和生活,通过知识不断改变周围的世界——而所有一切的基础就是数据。
(1)开普勒第一定律:所有的行星围绕太阳运动的轨道都是椭圆,太阳处在所有椭圆的一个焦点上。这就是开普勒第一定律,又称椭圆轨道定律。
(2)开普勒第二定律:对于每一个行星而言,太阳和行星的连线在相等的时间内扫过相等的面积。这就是开普勒第二定律,又称面积定律。
(3)开普勒第三定律:所以行星轨道的半长轴的三次方跟公转周期的二次方的比值都相等。这就是开普勒第三定律,又称周期定律。
见微知著。
见微知著是一个汉语成语,最早出自战国·韩非子《韩非子·说林上》。该成语的意思是指见到细微的苗头,就能预知事物发展的方向。能透过微小的现象看到本质,推断结论或结果。
中国古代思想家韩非子把箕子看到君主帝辛用象牙筷子,预感到腐败之风会盛行的这种联想,说成“圣人见微以知萌,见端以知末”。
箕子 jī zǐ 生词本 基本释义 详细释义 jī zǐ 箕子(? - 前 年),子姓,名胥余,殷(今河南省安阳市)人,商王文丁的儿子,商王帝乙的弟弟,商王帝辛的叔父。
首先,我们来了解一下可视化的概念。
可视化对应的英文词汇有Visualize和Visualization
Visualize是动词,原意是“设想”,表示生成可视化图像,利用可视化方式传递信息;
Visualization是名词,原意是“形象化 ”,表示可视化过程,对某个原本不能描述的事物形成一个可感知的画面的过程。
在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有价值的信息。
数据可视化将抽象的、复杂的、不易理解的数据转化为人眼可识别的图形、图像、符号、颜色、纹理等,
这些转化后的数据通常具备较高的识别效率,能够有效地传达出数据本身所包含的有用信息。
比起枯燥冰冷的数据,人类对于大小、位置、形状、颜色深浅等能够更好、更快的认识。
经过可视化之后的数据能够加深人们对于数据的理解和记忆。
对下面这些数据怎么理解?
图1
图2
图3
大数据时代,数据遍布于我们生活的每一个角落。对于大多数人来说,真正有意义的并不是数据本身,而是数据背后蕴含的信息。
要想探索和理解那些大型的数据集,可视化是最有效的途径之一。
我们利用视觉获取的信息量,远远比别的感官要多得多
数据可视化能够帮助我们对数据有更加全面的认识。
这个动态的图形展示了国内各地区生产总值每一年的排名情况。
通过这个动态的图片,我们可以直观地感受到生产总值排名前十五的各个地区,从2000年到2017年间每一年的变化情况。
【金山文档】 image10
https://kdocs.cn/l/cfXJ6x2MweeH
数据可视化能够在小空间中展示大规模数据
数据可视化能够在小空间中展示大规模数据;
这个表格包含一家连锁超市的订单明细数据,其数据量非常大,通过数据可视化,把各个省份的销售额和利润额进行汇总,在地图上展示出来,便可以更加直观地对各个省份的销售成绩进行对比分析。
文字解读
台词是:“我本可以获得社会地位,我本可以是个竞争者,我本可以是任何有头有脸的人,而不是一个毫无价值的游民!”
左边这幅图通过圆圈之间的交集完美地展示了这句台词所表达的意思。
来自于著作《乱世佳人》:“Frankly, my dear, I don't give a damn 坦白说,亲爱的,我一点也不在乎。”右上角的图形通过两个不相交的圆形,准确地表达出台词的含义。
《教父》:“我会给他一点好处,他无法拒绝。”右下角的图形也有效地表达出台词中的深层含义。
这些简单的图形提炼出文字中的语义,能够明确地、有效地传递信息,加深人们对于文字的理解和记忆。
再来看看一个真实的案例,有效的数据可视化可以起到非同凡响的作用。
这是著名的南丁格尔玫瑰图,这两幅南丁格尔玫瑰图反映了1855年前后战场上的士兵死亡情况。其中:
扇形的外层,蓝色区域表示每月死于感染的士兵数量,
扇形的中间层,红色区域表示每月直接死于战场的士兵数量,
扇形的中间的灰色区域,表示每月死于其他原因的士兵数量。
该图有2个非常明显的特征:
(1)两幅图中蓝色的区域的面积明显大于其他颜色的面积。
这说明受伤的士兵因为感染而死亡的数量远远大于直接在战斗中阵亡的人数。
(2)左边这幅中的扇形面积远小于右边这幅图。
左图是卫生委员会到达战区后的战士死亡情况,左图的战士死亡数量大幅度降低,说明积极改善医院医疗卫生状况,显著降低了英军的死亡率。
160多年前,南丁格尔护士正是使用这幅图,让政府高层和维多利亚女王直观地感受到:改善医疗状况可以显著地降低死亡率这一事实,
政府从而支持南丁格尔关于加强公众医疗卫生建设的提案,进而挽救了千万百姓的生命。
自古以来,记录信息的有效方式之一是用图形的方式描述各种具体或抽象的事物。
这些图形都是几百年前的科学家手绘的图形,这些图形在今天依然居然参考价值。
左图是列奥纳多·达芬奇(Leonardo DaVinci,1452年~1519年)绘制的人体解剖图,
中图是自然史•博物学家威廉.柯蒂斯(William Curtis,1746年~1799年)绘制的植物图,
右图是1616年伽利略关于月亮周期的绘图,记录了月亮在一定时间内的变化。
今天,有了计算机技术,我们已习惯了使用各种可视化的方式记录信息。
通过这幅图,田径赛场上可以清晰、准确、迅速地判定运动员的名次和成绩。
可视化极大降低了数据理解的复杂度,有效提升了信息认知的效率,从而有助于人们更快地分析和推理出有效信息。
1854年伦敦爆发了一场霍乱,英国医生John Snow绘制的一张街区地图,这就是著名的“伦敦鬼图”,
该图分析了霍乱患者分布与水井分布之间的关系,发现在一口井的供水范围内患者明显偏多,
医生John Snow据此找到了霍乱爆发的根源是一个被污染的水泵,拆除了水泵,霍乱才得以控制。
933年亨利·贝克(Henry Beck)设计的伦敦地铁图成为地铁路线的标准可视化方法,沿用至今。
早期的地铁图跟 普通地图一样,虽然信息充分,但是非常复杂,难以找到需要的信息。
亨利·贝克设计的伦敦地铁图具有三个比较明显的特征:
以颜色区分路线;
路线大多以水平、垂直、45度角三种形式来表现;
路线上的车站距离与实际距离不成比例关系。
其简明易用的特点在1933年出版后迅速为乘客接受,并成为今日交通线路图形的一种主流表现方法。
这幅图是武汉市地铁交通图,它的设计也是符合这三个特征。
图中每条线路一目了然,在有限的空间内显示全部站点信息,屏蔽掉了普通地图中的干扰信息,
达到了有效传播信息的目的。
2*6371*3.14=40076KM=40076000M
40076000\/0.1 = 400760000 = 4.0076亿杯
数据可视化的流程以数据流向为主线,其核心流程主要包括数据采集、数据处理和变换、可视化映射和用户感知四大步骤。整个可视化过程可以看成是数据流经过一系列处理步骤后得到转换的过程。用户可以通过可视化的交互功能进行互动,通过用户的反馈提高可视化的效果。
1)数据采集
可视化的对象是数据,而采集的数据涉及数据格式、维度、分辨率和精确度等重要特性,这些都决定了可视化的效果。因此,在可视化设计过程中,一定要事先了解数据的来源、采集方法和数据属性,这样才能准确地反映要解决的问题。
2)数据处理和变换
这是数据可视化的前期准备工作。原始数据中含有噪声和误差,还会有一些信息被隐藏。可视化之前需要将原始数据转换成用户可以理解的模式和特征并显示出来。所以,数据处理和变换是非常有必要的,它包括去噪、数据清洗、提取特征等流程。
3)可视化映射
可视化映射过程是整个流程的核心,其主要目的是让用户通过可视化结果去理解数据信息以及数据背后隐含的规律。该步骤将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素,如标记、位置、形状、大小和颜色等。因此,可视化映射是与数据、感知、人机交互等方面相互依托,共同实现的。
4)用户感知
可视化映射后的结果只有通过用户感知才能转换成知识和灵感。用户从数据的可视化结果中进行信息融合、提炼、总结知识和获得灵感。数据可视化可让用户从数据中探索新的信息,也可证实自己的想法是否与数据所展示的信息相符合,用户还可以利用可视化结果向他人展示数据所包含的信息。用户可以与可视化模块进行交互。交互功能在可视化辅助分析决策方面发挥了重要作用。
直到今天,还有很多科学可视化和信息可视化工作者不断地优化可视化工作流程。
上图是由Haber和McNabb提出的可视化流水线,描述了从数据空间到可视空间的映射,包含了数据分析、数据过滤、数据可视映射和绘制等各个阶段。这个流水线常用于科学计算可视化系统中。
目前已经有许多数据可视化工具,而且大部分都是免费的,可以满足用户的各种可视化需求。数据可视化工具大致分为入门级工具(Excel)、信息图表工具(D3、Visual.ly、Raphaël、Flot、Echarts、Tableau)、地图工具(Modest Maps、Leaflet、PolyMaps、Openlayers、Kartograph、Quanum GIS)和高级分析工具(Processing、NodeBox、R、Python、Weka和Gephi)等。
Excel是微软公司的办公软件Office家族的系列软件之一,该软件通过工作簿存储数据,可以进行各种数据的处理、统计分析和辅助决策操作,已经被广泛地应用于管理、统计、金融等领域。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。