前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据可视化完美指南-R-python

数据可视化完美指南-R-python

作者头像
生信宝典
发布于 2019-11-07 07:15:29
发布于 2019-11-07 07:15:29
87600
代码可运行
举报
文章被收录于专栏:生信宝典生信宝典
运行总次数:0
代码可运行

从数据到图表

有什么样的数据做什么样的图

作者提供了一张树状图,帮助并引导我们找到合适自己数据的的可视化方式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
What kind of data do you have? Pick the main type using the buttons below.
Then let the decision tree guide you toward your graphic possibilities.

这便是有名的网站:https://www.data-to-viz.com/。

Yan Holtz 和Conor Healys两个人关系很好,一起在业余时间开发了这个网站。基于RPython做的源代码,这里我们不仅可以得到大量优秀的源代码,同时我们可以得到一张决策树,用于知道如何使用代码。这两个人相当厉害了,不仅仅给大家了工具,还叫大家如何使用。作为无私的分享,如果对大家有用,请在文章中致谢他们。如果我们需要交流代码,和谁交流呢?那必须是Yan Holtz,这位主要负责代码部分。Conor Healys负责图形设计工作。

可视化架构

原图地址:https://www.data-to-viz.com/img/poster/poster_big.png

基于网站我们来做一个示例

大部分情况,我们的数据都是二维数据框:下面就二维数据框的数据,变量指定为有顺序的变量,我们进行出图。

基于有顺序的二维数据框的出图

这是基于时间序列的一份二维数据。作者提供了数据下载地址. as.Date函数将数据转化为时间序列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Libraries
library(tidyverse)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## -- Attaching packages ----------------------------------------------------------------------------------------------------------- tidyverse 1.2.1 --
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## √ ggplot2 3.2.0     √ purrr   0.3.2
## √ tibble  2.1.3     √ dplyr   0.8.3
## √ tidyr   0.8.3     √ stringr 1.4.0
## √ readr   1.3.1     √ forcats 0.4.0
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## -- Conflicts -------------------------------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(hrbrthemes)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## NOTE: Either Arial Narrow or Roboto Condensed fonts are required to use these themes.
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##       Please use hrbrthemes::import_roboto_condensed() to install Roboto Condensed and
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##       if Arial Narrow is not on your system, please see https://bit.ly/arialnarrow
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(plotly)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
##
## Attaching package: 'plotly'
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## The following object is masked from 'package:ggplot2':
##
##     last_plot
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## The following object is masked from 'package:stats':
##
##     filter
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## The following object is masked from 'package:graphics':
##
##     layout
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(patchwork)
# install.packages("babynames")
library(babynames)
library(viridis)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## Loading required package: viridisLite
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# ?as.Date
# Load dataset from github
data <- read.table("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/3_TwoNumOrdered.csv", header=T)
data$date <- as.Date(data$date)

这里仅仅提取最后的十个数据进行点线图的可视化

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Plot
data %>%
  tail(10) %>%
  ggplot( aes(x=date, y=value)) +
    geom_line(color="#69b3a2") +
    geom_point(color="#69b3a2", size=4) +
    ggtitle("Evolution of Bitcoin price") +
    ylab("bitcoin price ($)") +
    theme_ipsum()

这里使用最后的60个数据进行可视化

这里做了折线图和点线图。我们ggplot出图就是这么随意,图形相加就是拼图。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 # Plot
p1 <- data %>%
  tail(60) %>%
  ggplot( aes(x=date, y=value)) +
    geom_line(color="#69b3a2") +
    ggtitle("Line chart") +
    ylab("bitcoin price ($)") +
    theme_ipsum()

p2 <- data %>%
  tail(60) %>%
  ggplot( aes(x=date, y=value)) +
    geom_line(color="#69b3a2") +
    geom_point(color="#69b3a2", size=2) +
    ggtitle("Connected scatterplot") +
    ylab("bitcoin price ($)") +
    theme_ipsum()

p = p1 + p2
p

散点图展示时间序列

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Plot
data %>%
  tail(60) %>%
  ggplot( aes(x=date, y=value)) +
    geom_point(color="#69b3a2", size=2) +
    ggtitle("Line chart") +
    ylab("bitcoin price ($)") +
    theme_ipsum()

R语言学习 - 散点图绘制

分组时间序列可视化

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 library(babynames)

# Load dataset
data <- babynames %>%
  filter(name %in% c("Ashley", "Amanda")) %>%
  filter(sex=="F")

#plot
data %>%
  ggplot( aes(x=year, y=n, group=name, color=name)) +
    geom_line() +
    scale_color_viridis(discrete = TRUE, name="") +
    theme(legend.position="none") +
    ggtitle("Popularity of American names in the previous 30 years") +
    theme_ipsum()

geom_segment函数突出展示变化趋势

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 library(grid) # needed for arrow function
library(ggrepel)

# data
tmp <- data %>%
  filter(year>1970) %>%
  select(year, name, n) %>%
  spread(key = name, value=n, -1)

# data for date
tmp_date <- tmp %>% sample_frac(0.3)

tmp%>%
  ggplot(aes(x=Amanda, y=Ashley, label=year)) +
     geom_point(color="#69b3a2") +
     geom_text_repel(data=tmp_date) +
     geom_segment(color="#69b3a2",
                  aes(
                    xend=c(tail(Amanda, n=-1), NA),
                    yend=c(tail(Ashley, n=-1), NA)
                  ),
                  arrow=arrow(length=unit(0.3,"cm"))
      ) +
      theme_ipsum()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 data <- read.table("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/3_TwoNumOrdered.csv", header=T)
data$date <- as.Date(data$date)

p1 <- data %>%
  tail(10) %>%
  ggplot( aes(x=date, y=value)) +
    geom_line(color="#69b3a2") +
    geom_point(color="#69b3a2", size=4) +
    ggtitle("Not cuting") +
    ylab("bitcoin price ($)") +
    theme_ipsum() +
    ylim(0,10000)

p2 <- data %>%
  tail(10) %>%
  ggplot( aes(x=date, y=value)) +
    geom_line(color="#69b3a2") +
    geom_point(color="#69b3a2", size=4) +
    ggtitle("Cuting") +
    ylab("bitcoin price ($)") +
    theme_ipsum()

p1 + p2

reference

https://www.data-to-viz.com/graph/connectedscatter.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
基于 HBase & Phoenix 构建实时数仓(5)—— 用 Kafka Connect 做实时数据同步
本篇演示安装配置 Kafka connect 插件实现 MySQL 到 Hbase 的实时数据同步。依赖环境见本专栏前面文章。相关软件版本如下:
用户1148526
2024/03/21
5850
基于 HBase & Phoenix 构建实时数仓(5)—— 用 Kafka Connect 做实时数据同步
从 MySQL 到 ClickHouse 实时数据同步 —— MaterializeMySQL + Materialized View
本篇演示使用 ClickHouse 的 MaterializeMySQL 数据库引擎和物化视图,实时将 MySQL 库表中的数据同步到 ClickHouse 的库表中。相关软件版本如下:
用户1148526
2024/04/20
4K0
从 MySQL 到 ClickHouse 实时数据同步 —— MaterializeMySQL + Materialized View
基于 HBase & Phoenix 构建实时数仓(4)—— Kafka 集群安装部署
Kafka 是一个完整的消息系统,常用于实时系统中的消息中转和数据持久化。Kafka 集群安装部署依赖于 Zookeeper,本专栏前面文章介绍了 Zookeeper 安装部署及运行,参见 “安装部署 Zookeeper 集群”。本篇继续介绍在相同主机环境下安装部署 Kafka 集群。
用户1148526
2024/03/12
2350
ClickHouse 集群部署(不需要 Zookeeper)
(1)安装 ClickHouse Server 和 ClickHouse Client
用户1148526
2024/04/18
8.3K2
基于 HBase & Phoenix 构建实时数仓(2)—— HBase 完全分布式安装
完全分布式 HBase 集群的运行依赖于 Zookeeper 和 Hadoop,在前一篇中已经详细介绍了他们的安装部署及运行,参见“基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署”。本篇继续介绍在相同主机环境下安装配置完全分布式 HBase 集群。
用户1148526
2024/03/09
4420
基于 HBase & Phoenix 构建实时数仓(2)—— HBase 完全分布式安装
基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署
172.18.4.126 node1 172.18.4.188 node2 172.18.4.71 node3 172.18.4.86 node4
用户1148526
2024/03/08
4470
基于 HBase & Phoenix 构建实时数仓(1)—— Hadoop HA 安装部署
Mysql实时数据变更事件捕获kafka confluent之debezium
如果你的后端应用数据存储使用的MySQL,项目中如果有这样的业务场景你会怎么做呢?
XING辋
2019/03/26
3.5K0
Mysql实时数据变更事件捕获kafka confluent之debezium
湖仓一体电商项目(三):3万字带你从头开始搭建12个大数据项目基础组件
​上篇已经大概讲述大数据组件版本和集群矩阵配置说明,有不清楚的同学,可以阅读上一篇
Lansonli
2022/07/31
1.3K0
湖仓一体电商项目(三):3万字带你从头开始搭建12个大数据项目基础组件
大数据Flink进阶(九):集群基础环境搭建
Flink可以运行在所有类unix环境中,例如:Linux,Mac OS 和Windows,一般企业中使用Flink基于的都是Linux环境,后期我们进行Flink搭建和其他框架整合也是基于linux环境,使用的是Centos7.6版本,JDK使用JDK8版本(Hive版本不支持JDK11,所以这里选择JDK8),本小节主要针对Flink集群使用到的基础环境进行配置,不再从零搭建Centos系统,另外对后续整合使用到的技术框架也一并进行搭建,如果你目前已经有对应的基础环境,可以忽略本小节,Linux及各个搭建组件使用版本如下表所示。
Lansonli
2023/03/30
1.3K0
大数据Flink进阶(九):集群基础环境搭建
大数据ClickHouse(十四):Integration系列表引擎
ClickHouse提供了许多与外部系统集成的方法,包括一些表引擎。这些表引擎与其他类型的表引擎类似,可以用于将外部数据导入到ClickHouse中,或者在ClickHouse中直接操作外部数据源。
Lansonli
2022/08/30
7170
大数据ClickHouse(十四):Integration系列表引擎
kafka 连接器实现 Mysql 数据同步 Elasticsearch
Mysql 作为传统的关系型数据库,主要面向 OLTP,性能优异,支持事务,但是在一些全文检索,复杂查询上面并不快。Elasticsearch 底层基于 Lucense 实现,天然分布式,采用倒排索引存储数据,全文检索效率很高,使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。
Se7en258
2021/05/18
2.7K0
kafka 连接器实现 Mysql 数据同步 Elasticsearch
基于 HBase & Phoenix 构建实时数仓(3)—— Phoenix 安装
继续上一篇,本篇介绍在同一环境中安装 Phoenix,并连接上篇部署的 HBase 集群。
用户1148526
2024/03/09
5170
Kafka——分布式的消息队列
Producers – 生产者 生产者将数据发布到他们选择的主题。生产者负责选择要分配给主题中哪个分区的消息 可以以循环方式完成此操作,仅是为了平衡负载,也可以根据某些语义分区功能(例如基于消息中的某些键)进行此操作。
时间静止不是简史
2020/07/24
1.4K0
Streaming Data Changes from MySQL to Elasticsearch
MySQL Binary Log包含了针对数据库执行DDL(Data Definition Language)和DML(Data Manipulation Language)操作的完整事件,其被广泛应用于数据复制和数据恢复场景。本文所分享的就是一种基于MySQL Binary Log特性实现增量数据近实时同步到Elasticsearch的一种技术。要想实现增量数据的同步,仅仅有binary log是不够的,我们还需要一款变更数据捕获(CDC,Change Data Capture)工具,可能大家很快就会想到阿里巴巴开源的Canal。没错,但本文今天给大家分享一款新的开源工具:Debezium。Debezium构建于Kafka之上,它为MySQL、MongoDB、PostgreSQL、Orcale和Cassandra等一众数据库量身打造了一套完全适配于Kafka Connect的source connector。首先,source connector会实时获取由INSERT、UPDATE和DELETE操作所触发的数据变更事件;然后,将其发送到Kafka topic中;最后,我们使用sink connector将topic中的数据变更事件同步到Elasticsearch中去,从而最终实现数据的近实时流转,如下图所示。
程序猿杜小头
2022/12/01
1.6K0
Streaming Data Changes from MySQL to Elasticsearch
大数据Kafka(三):Kafka的集群搭建以及shell启动命令脚本编写
为了方便将来进行一键启动、关闭Kafka,我们可以编写一个shell脚本来操作。将来只要执行一次该脚本就可以快速启动/关闭Kafka。
Lansonli
2021/10/11
3.5K0
大数据Kafka(三):Kafka的集群搭建以及shell启动命令脚本编写
Debezium kafka connector 运行报错1236
今天发现stag环境kafka connector运行报错( curl 172.18.1.1:8083/connectors/order-center-connector/status)
XING辋
2019/07/19
2.2K0
数据同步工具之FlinkCDC/Canal/Debezium对比
数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。
王知无-import_bigdata
2021/10/27
13.9K0
ClickHouse 实战笔记 第01期:Kafka 数据同步到 ClickHouse
这一期首先聊聊 Kafka 数据同步到 ClickHouse 的其中一个方案:通过 Kafka 引擎方式同步,下面进入实际操作过程(环境:CentOS7.4):
数据库交流
2022/04/25
3.3K0
ClickHouse 实战笔记 第01期:Kafka 数据同步到 ClickHouse
Debezium结合kafka connect实时捕获mysql变更事件写入elasticsearch实现搜索流程
本文将会实现一套完整的Debezium结合Kafka Connect实时捕获MySQL变更事件写入Elasticsearch并实现查询的流程.
XING辋
2019/03/26
7.5K4
Debezium结合kafka connect实时捕获mysql变更事件写入elasticsearch实现搜索流程
Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。
王知无-import_bigdata
2021/04/21
1.6K0
Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析
推荐阅读
相关推荐
基于 HBase & Phoenix 构建实时数仓(5)—— 用 Kafka Connect 做实时数据同步
更多 >
LV.1
这个人很懒,什么都没有留下~
目录
  • 有什么样的数据做什么样的图
    • 可视化架构
    • 基于有顺序的二维数据框的出图
    • 这里仅仅提取最后的十个数据进行点线图的可视化
    • 这里使用最后的60个数据进行可视化
    • 散点图展示时间序列
    • 分组时间序列可视化
    • geom_segment函数突出展示变化趋势
    • reference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档