首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能LeadAI

    机器学习实战 | 数据探索

    数据的输入质量决定了输出的最后结果,数据探索、预处理、特征选择、降维等特征工程占了项目的70%的时间。那么如果我们确定了商业目的,该如何一步一步渐进式进行特征工程呢? 接下来,确定变量的数据类型和类别。 举一个例子,让我们更清楚地了解这一步。 假设我们想预测学生是否会玩板球(参考下面的数据集),需要识别预测变量、目标变量,变量的数据类型和变量类别。 ? 那么 ? Data_exploration_2.png 2、单变量分析 在这个阶段,我们逐个探索变量。 执行单变量分析的方法取决于变量类型是分类类型还是连续类型。 卡方检验:计算方法可以参考前面文章 确定自变量和因变量的相关性 p值为0:表示两个变量是相关的 p值为1:表示两个变量是独立的 7、Categorical&Continuous 在探索分类和连续变量之间的关系时

    1.2K50发布于 2018-03-08
  • 来自专栏FreeBuf

    数据安全分析思想探索

    要做数据安全分析,数据收集是基础,数据收集之后,就要对数据进行治理,数据治理的意义就是服务于数据分析阶段,而数据分析的源头在于收集了哪些数据。 因此在数据分析过程中,这三个阶段是循环的过程。好比买菜、洗菜、炒菜。买菜的过程就是数据收集的过程,洗菜就是数据治理的过程,炒菜就是数据分析的过程。 通过爬虫也好,通过日志也好、通过旁路流量也好,都可以收集数据数据收集阶段是数据治理阶段和数据分析阶段的基础。(买菜是洗菜和做菜的基础。) 二、数据治理 数据收集上之后,属于原始数据,对于小型数据平台,可能直接就存储于ES了。对于大型数据分析平台而言,日志都是发送到采集器上,由采集器对日志进行初步处理后,再将处理过的日志发到数据平台。 数据的洗菜部分,我简单总结了一下,包括: 1.数据的冗余 2.数据的挑选 3.数据的质量 4.数据的分类 5.数据的含义 6.数据的变量 7.数据的可用性 8.数据的完整性 2.1 数据的冗余

    88340发布于 2018-07-31
  • 来自专栏数据派THU

    【经典书】数据科学探索

    现在是进入数据科学领域的最佳时机。但是你从哪里开始呢?数据科学是一个广泛的领域,包括统计学、机器学习和数据工程等方面。人们很容易变得不知所措,或最终只学习数据科学的一小部分或单一的方法。 https://www.manning.com/books/exploring-data-science 《探索数据科学》由五个章节组成,向你介绍了数据科学的各个领域,并解释了哪种方法最适合每个领域。 当您探索不同的建模实践时,您将看到如何在数据科学中使用R、Python和其他语言的实际示例。 数据科学是一个涉及统计学、机器学习和数据工程等方面的广泛领域。 我们的书《实用数据科学与R》向读者介绍了R语言中的基本预测建模。但是,我们的意图绝不是暗示数据科学家可以将自己限制在一个问题领域或一种实现语言。现在是进入数据科学的大好时机。免费工具和材料的数量激增。 它们涵盖了与数据科学相关的各种主题,突出了各种领域和编程语言。我们希望这些选择能让您更好地了解许多可用的工具,以解决特定的数据科学问题。

    34120编辑于 2022-05-18
  • 来自专栏IMWeb前端团队

    数据字段防卫探索

    数据字段防卫探索 这个标题不知道怎么取,估计没人看得懂,还是直接看背景吧 -_-!! 还记得老师曾经这样教导我们: 在编写函数的时候,一定要检测参数是否合理 对于前端来说,cgi数据也是一样的,永远不能相信cgi传过来的数据! 方案一:抽象cgi数据 类似orm那样,预先定义model(cgi数据)的schema,如果定义了schema,那我们就可以添加默认值机制了 这个方案的本质就是对cgi数据添加了一层加工层,让cgi数据变得可信 优点:抽象cgi数据不仅可以做数据字段防卫,还可以做很多事情 缺点:太重,毫无疑问的 方案二:重定义undefined 比如我们可以这样: window.undefined = { length 方案三:封装获取数据字段的接口 获取数据字段不是原生的object.key,而是util.get(object, key),在get方法里面进行防卫处理 优点:实现统一简单 缺点:改变了原来的编程习惯

    75150发布于 2017-12-29
  • 来自专栏编程

    Python数据分析-数据探索

    主题 数据探索 接着上一节的内容~ 二、数据特征分析 5. 相关性分析 (1)直接描述散点图 从散点图可以比较直观地看书两个变量的相关性。 负线性相关、不相关) (2)绘制散点图矩阵 可对多个变量同时进行相关关系的考察 (3)计算相关系数 这里的相关系数有很多,如Pearson相关系数、spearman相关系数、判定系数等等 三、python主要数据探索函数 python中用于数据探索的库主要是pandas和matplotlib,而pandas提供大量的函数,也作为重点来进行介绍 1. 基本统计特征函数(均属pandas) (1)sum(),计算数据样本的总和(按列计算) (2)mean(),计算算数平均数 (3)var(),计算方差 (4)std(),计算标准差 (5)corr(), 、‘--’为虚线 (2)pie(),绘制饼形图,matplotlib/pandas (3)hist(),绘制二维条形直方图,matplotlib/pandas (4)boxplot(),绘制样本数据的箱形图

    1.5K90发布于 2018-03-02
  • 来自专栏二猫の家

    【GEE】2、探索数据

    对 Google 地球引擎中可用的所有栅格执行各种级别的数据清理和图像预处理,但对于本模块,我们将专注于更广泛的探索,为一些示例生态应用程序寻找合适的数据集。 华盛顿和爱达荷州边界上的美国国家高程数据集。 3图像采集探索 现在我们已经了解了我们可以使用的数据集的深度和广度,我们可以花点时间详细探索一个集合。 我们将探索 Google Earth Engine 中更独特的可用数据集之一:MODIS Daily Snow Cover 集合。这些数据使我们能够查看一年中任何一天给定像素的积雪百分比。 3.3探索集合属性 找到并加载我们的集合后,了解对使用遥感数据感兴趣的生态学家可用的图像集合元数据非常重要。元数据对于我们如何确定给定特定研究系统或感兴趣区域的图像或图像集合的适当性很重要。 4结论 总之,我们刚刚开始探索使用 Google 地球引擎触手可及的海量数据。我们还介绍了一些重要的元数据,它们可以增强您的搜索并帮助确定您的图像集是否已准备好进行分析。

    74241编辑于 2023-11-05
  • 来自专栏IMWeb前端团队

    数据字段防卫探索

    本文作者:IMWeb 黎清龙 原文出处:IMWeb社区 未经同意,禁止转载 数据字段防卫探索 这个标题不知道怎么取,估计没人看得懂,还是直接看背景吧 -_-!! 还记得老师曾经这样教导我们: 在编写函数的时候,一定要检测参数是否合理 对于前端来说,cgi数据也是一样的,永远不能相信cgi传过来的数据! 方案一:抽象cgi数据 类似orm那样,预先定义model(cgi数据)的schema,如果定义了schema,那我们就可以添加默认值机制了 这个方案的本质就是对cgi数据添加了一层加工层,让cgi数据变得可信 优点:抽象cgi数据不仅可以做数据字段防卫,还可以做很多事情 缺点:太重,毫无疑问的 方案二:重定义undefined 比如我们可以这样: window.undefined = { length 方案三:封装获取数据字段的接口 获取数据字段不是原生的object.key,而是util.get(object, key),在get方法里面进行防卫处理 优点:实现统一简单 缺点:改变了原来的编程习惯

    40920发布于 2019-12-04
  • 来自专栏机器学习/数据可视化

    数据处理基石:pandas数据探索

    Pandas数据探索 本文介绍的是Pandas数据探索。 当我们生成或者导入了数据之后,通过数据探索工作能够快速了解和认识数据基本信息,比如数据中字段的类型、索引、最值、缺失值等,可以让我们对数据的全貌有一个初步了解。 ] 数据大小size 数据大小表示的是数据中总共有多少个数据,即shape方法的结果中两个数值相乘 df.size # 56=7*8 数据维度ndim 表示数据是多少维,比如二维,三维等 [008i3skNgy1gri41qj5tjj30kg08074s.jpg ] 数据基本信息info 显示数据类型、索引情况、行列数、列属性名称、占用的内存等信息;Series数据没有该方法 [008i3skNgy1gri436hn5rj30y00gw77c.jpg] 数据类型 累积最大值 df.skew() # 样本偏度 (第三阶) df.kurt() # 样本峰度 (第四阶) df.quantile() # 样本分位数 (不同 % 的值) 总结 本文主要是对Pandas中的数据探索做了一个详细介绍

    84800发布于 2021-06-14
  • 来自专栏机器学习/数据可视化

    数据处理基石:pandas数据探索

    Pandas数据探索 本文介绍的是Pandas数据探索。 当我们生成或者导入了数据之后,通过数据探索工作能够快速了解和认识数据基本信息,比如数据中字段的类型、索引、最值、缺失值等,可以让我们对数据的全貌有一个初步了解。 ] 数据大小size 数据大小表示的是数据中总共有多少个数据,即shape方法的结果中两个数值相乘 df.size # 56=7*8 数据维度ndim 表示数据是多少维,比如二维,三维等 [008i3skNgy1gri41qj5tjj30kg08074s.jpg ] 数据基本信息info 显示数据类型、索引情况、行列数、列属性名称、占用的内存等信息;Series数据没有该方法 [008i3skNgy1gri436hn5rj30y00gw77c.jpg] 数据类型 累积最大值 df.skew() # 样本偏度 (第三阶) df.kurt() # 样本峰度 (第四阶) df.quantile() # 样本分位数 (不同 % 的值) 总结 本文主要是对Pandas中的数据探索做了一个详细介绍

    84700发布于 2021-06-14
  • 来自专栏产品研究所

    03-数据分组-探索酒类消费数据

    利用python进行金融数据分析 基本配置 import pandas as pd pd.set_option('display.width',1000) url1 = 'https://raw.githubusercontent.com

    1.3K30发布于 2019-05-28
  • 来自专栏机器学习与统计学

    【R语言进行数据挖掘】数据探索

    1、观察数据 这一章我们将会用到‘iris’(鸢尾花)数据集,这个数据集属于R中自带的数据,因此不需要额外的加载。 首先,查看数据的维度和结构,使用函数dim()和names()可以分别得到数据的维度和数据的列表名称也就是变量名称。使用函数str()和函数attribute()可以查看数据的结构和属性。 ,使用tail()可以查看数据的后面几行。 > iris[1:5,] # 查看1-5行数据 > head(iris) # 查看前6行数据 > tail(iris) # 查看后6行数据 其次,我们可以通过单独的列名称检索数据,下面的代码都可以实现检索 ‘Sepal.Length’(萼片长度)这个属性的前面10个数据

    1.1K10发布于 2019-04-10
  • 来自专栏数据科学与人工智能

    Python语言做数据探索教程

    本文总结Python语言做数据探索的知识。 类似R语言做数据探索,利用Python语言做数据探索。 1 数据导入 2 数据类型变换 3 数据集变换 4 数据排序 5 数据可视化 6 列联表 7 数据抽样 8 数据去重 9 数据聚合运算 10 数据缺失值识别和处理 11 数据合并 1 数据导入 数据格式常有 数据类型变化是数据处理的一种常用操作。 5 数据可视化 数据可视化可以更加容易方便地认识和理解数据。 Python做数据可视化的常用库:matplotlib和seaborn。 对于一份销售职员数据集 ? 数据抽样可以快速方便地理解数据

    1.6K50发布于 2018-02-28
  • 来自专栏生信技能树

    使用MultiAssayExperiment结构探索TCGA数据

    install("TCGAutils") library(curatedTCGAData) library(MultiAssayExperiment) library(TCGAutils) 首先查看TCGA数据库有哪些数据 37个数据集 主要的癌症简称,以及其各个癌症内部的数据集形式,如下所示: Available Cancer codes: ACC BLCA BRCA CESC CHOL COAD DLBC ESCA 探索临床信息 前面的MultiAssayExperiment结构的变量,可以被很多函数来处理,包括 getSubtypeMap 和 sampleTables。 我们的突变信息和两个拷贝数信息,都需要有临床信息才能进行生物学意义探索。 BRCA数据集的TNBC亚型的表达量矩阵 前面我们提到过,如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。

    41420编辑于 2022-07-26
  • 来自专栏文渊之博

    探索SQL Server元数据(二)

    背景   上一篇中,我介绍了SQL Server 允许访问数据库的元数据,为什么有元数据,如何使用元数据。这一篇中我会介绍如何进一步找到各种有价值的信息。以触发器为例,因为它们往往一起很多问题。 那么如何找到触发器的数据?   以sys.system_viewsis表开始。让我们查询出数据库中使用触发器的信息。可以告知你当前SQL Server版本中有什么触发器。 普通的DML触发器能被定义来执行替代一些数据修改(Insert,Update或者Delete)或者在数据修改之后执行。每一个触发器与只与一个对象管理。 许多数据库人员不赞成冗长触发器的定义,但他们可能会发现,根据定义的长度排序的触发器列表是研究数据库的一种有用方法。 表是元数据的许多方面的基础。它们是几种类型的对象的父类,其他元数据如索引是表的属性。我们正在慢慢地努力去发现所有关于表的信息。期待下期

    1.8K20发布于 2018-08-03
  • 来自专栏实时计算

    数据治理——搭建大数据探索平台

    数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着业务的增加,分析人员的增加,数据探索服务的价值就会越来越大。 一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。 为什么数据探索服务很重要? 还有谁在使用这些数据? 没有数据探索服务的世界 数据科学家最多将三分之一的时间用于数据探索。 如果没有数据探索服务,数据科学家需要和同事沟通,浏览他们可以访问的对象进行搜索。 数据探索服务 数据探索服务意味着向用户提供一种工具,使其可以了解平台中的数据及其质量。让我们来了解下具体的实现。 这是一个以伟大的挪威探险家的名字命名的数据探索服务,Lyft的数据探索服务旨在解决通过在元数据中搜索有价值的信息。它提供的是用户数据探索服务的搜索界面。

    1.2K10发布于 2021-04-13
  • 来自专栏腾讯技术工程官方号的专栏

    数据备份存储技术探索

    前言 2016中国大数据产业峰会上,pony以腾讯的天津数据中心的事例,讲述了数据中心的存储和安全,考虑备灾中心的建设问题。公司从战略高度关注数据中心的数据安全性。 数据中心的数据安全性是一个多方面的问题,从IDC的风,火,水,电的建设,再到从小到一个存储bit,再到一个sector,一个硬盘,一台存储服务器,一个存储服务器集群再到一个数据中心。 作为备份数据中心,应该具有以下几个特点: 1、由于备份数据中心不需要承载实时的业务,所以性能不需要太高; 2、数据容量大,所以需要存储介质成本低,密度高,功耗低,总体TCO低; 3、数据需要保存的时间长 ,所以需要长时间可靠的存储介质,运营维护简单可靠; 4、能快速恢复数据,备份的数据大,同时异地的网络传输带宽小的矛盾,所以需要备份的数据能快速运输,以方便数据搬运。 介质上被烧蚀和未烧蚀的两种状态对应着两种不同的二进制数据。识别存储单元这些性质变化,即读出被存储的数据

    4.4K71发布于 2018-01-26
  • 来自专栏文渊之博

    探索SQL Server元数据(一)

    简介   在数据库中,我们除了存储数据外,还存储了大量的元数据。它们主要的作用就是描述数据库怎么建立、配置、以及各种对象的属性等。 本篇简单介绍如何使用和查询元数据,如何更有效的管理SQLServer 数据库。   对一些有经验的数据库开发和管理人员而言,元数据是非常有价值的。 这些完全符合Edgar Codd 的关系型数据库试试的十三条准则直译。这个准则就是定义动态在线目录,它就是“关于数据数据”,也叫作元数据。   翻译:像普通数据一样,在逻辑层的数据表达了对数据库的描述,以便于授权用户能应用相同的SQL语言来查询元数据,就如同查询常规数据一样。 系统视图 Information Schema 这个架构是一套视图,视图中是当前数据库的信息。每一个数据库中都有这个架构,只能看到当前数据库的对象信息。可以直接访问这些架构的数据在主要的关系型数据中。

    1.2K20发布于 2018-08-03
  • 来自专栏生信喵实验柴

    随机抽样以及数据探索

    - shuffle[-c(52:54)] one <- shuffle[c(T,F,F)] two <- shuffle[c(F,T,F)] three <- shuffle[c(F,F,T)] 三、探索数据

    40310编辑于 2022-10-25
  • 来自专栏FreeBuf

    数据安全探索者之路

    本文转自公众号:网络空间安全之路—— 数据是新时代的生产要素;保护数据原生价值,实现数据的所有权保护、交换与管理;完善数据在收集、使用、存储等阶段的全生命周期安全;研究分析复杂物理数据交互场景中的数据安全攻防机理 数据驱动的应用场景正在不断地推陈出新,因此对数据安全防护的要求也在不断提高。从一个数据安全技术研究与探索者的角度,我认为只有从真实场景的实际安全需求出发,才能寻找到最具价值的前沿研究领域。 鉴于此,我们团队也一直在为揭示数据安全防护面临的安全与性能间的冲突与挑战进行多方面的探索。 这项研究的出发点,来源于实际生活中,数据搜索功能是无处不在的,数据搜索可以方便的让我们在大量的数据集中,快速索取到我们感兴趣的数据。 令人欣慰的是,我们的许多早期成果都得到了学术界和行内从业者的认可,这些认可也激励了我们进一步探索更卓越的密文检索相关密码学原语设计。

    49010编辑于 2023-03-30
  • 来自专栏全栈程序员必看

    探索SQL Server元数据(一)

    简介   在数据库中,我们除了存储数据外,还存储了大量的元数据。它们主要的作用就是描述数据库怎么建立、配置、以及各种对象的属性等。 本篇简单介绍如何使用和查询元数据,如何更有效的管理SQLServer 数据库。   对一些有经验的数据库开发和管理人员而言,元数据是非常有价值的。 这些完全符合Edgar Codd 的关系型数据库试试的十三条准则直译。这个准则就是定义动态在线目录,它就是“关于数据数据”,也叫作元数据。 翻译:像普通数据一样,在逻辑层的数据表达了对数据库的描述,以便于授权用户能应用相同的SQL语言来查询元数据,就如同查询常规数据一样。 每一个数据库中都有这个架构,只能看到当前数据库的对象信息。可以直接访问这些架构的数据在主要的关系型数据中。其中架构视图不包含数据库部署信息。 对于不同的关系型数据库之间的处理工作这个架构尤其重要。

    74420编辑于 2022-07-12
领券