4.双击自动填充数据 要用函数自动填充同列数据,不要去长按鼠标然后拼命往下拉到最后一栏——如果你的表格有几百行呢?双击算好单元格的右下小十字,轻松填完整列数据。 ?...7.用CountIF 和 SumIF 概括统计数据 CountIF 是一个函数算法,统计在特定范围内,满足既定条件的单元格的个数。其中的第一个参数,是你想统计的范围;而第二个参数则是你的条件。...SUMIF(range,criteria,sum range) 8.用VLOOKUP找出你想要的数据 VLOOKUP是按列查找函数,最终返回该列所需查询列序所对应的值。...此处我们可以看到一个数据表,第一列是法学院排名。我们可以用VLOOKUP来创建一个排名前五的学校的查询。...9.用“&”合并单元格 我们现在拥有一列姓和一列名,我们可以使用“&”符号来创建一列合并姓和名的数据。在Excel中,“&”指将两个或两个以上的文本合并。别忘了在姓和名中间键入一个空格。
4双击自动填充数据 要用函数自动填充同列数据,不要去长按鼠标然后拼命往下拉到最后一栏——如果你的表格有几百行呢?双击算好单元格的右下小十字,轻松填完整列数据。 ?...7用CountIF 和 SumIF 概括统计数据 CountIF 是一个函数算法,统计在特定范围内,满足既定条件的单元格的个数。其中的第一个参数,是你想统计的范围;而第二个参数则是你的条件。...8用VLOOKUP找出你想要的数据 VLOOKUP是按列查找函数,最终返回该列所需查询列序所对应的值。此处我们可以看到一个数据表,第一列是法学院排名。...第一个参数得输入要查找的值,此处我们使用了我们需要的排名数。第二个参数这里,输入我们要查找的区域(绝对引用)。第三个参数,需要输入返回数据在查找区域的第几列数。...9用“&”合并单元格 我们现在拥有一列姓和一列名,我们可以使用“&”符号来创建一列合并姓和名的数据。在Excel中,“&”指将两个或两个以上的文本合并。别忘了在姓和名中间键入一个空格。
由于列的名称很长,让我们重命名它们。 重命名列 ? 删除列 ? 删除数据框不需要的列。数据中的所有列不一定都相关。在这个数据中,受欢迎程度、门的数量、车辆大小等列不太相关。...缺失值: ? 上述结果表明,在12个变量中,Fuel_type、HP和cylinder这3个变量有缺失值。 让我们检查一下列中缺失数据的百分比 ? 有许多方法可以处理这些缺失的值。 1....插补 我们可以删除存在缺失值的行,也可以将缺失值替换为平均值,中位数或众数等值。 由于丢失的数据百分比非常少,我们可以从数据集中删除那些行。 ?...原来的行数是11914,现在剩下的行数是11813。 统计摘要 现在,让我们找出数据集的统计总结或五点总结。五点总结给出描述性总结,包括每个变量的均值、中位数、众数、编号、行数、最大值和最小值。 ?...散点图 使用Pairplot找出变量之间的关系。它绘制每个变量之间的散点图。散点图也可以单独使用。而pairplot将给出一行中所有数值变量之间的关系图。 ? 尾注 以上所有步骤都是EDA的一部分。
Excel中的数据透视表可谓是数据分析师们的得力助手,学会Excel的数据透视表能够让数据分析师们高效地进行数据统计汇总、字段计算、更新数据源等操作。...筛选:需要进行分组的字段,也相当于所谓的filter 列:列值。 行:行值。 值:看具体要统计什么内容。可以根据需要选择统计的方式,例如,求和、计数、求均值等等。 ?...例如,我们现在想要分析仓位与生存的关系,我们可以把字段Survived放在列,把Parch放在行,然后统计PassengerID的个数。...值得统计方式默认是【求和】,我们需要进行调整将其调整为【计数】,选中需要调整的数据,单击鼠标右键,点击【值汇总依据】,然后选择【计数】,其调整方法如下图所示。 ?...说到这里你可能都想直接去算百分比了,别着急,强大的透视表当然不会少了这个功能的。我们只需要选择需要调整格式的数据区域,点击鼠标左键,选择【显示值方式】,点击【行汇总的百分比】即可变为百分比格式。 ?
行标签,survived 字段拖入 列标签 - 还需要统计人数,人名总是有的,因此把 name 字段拖入 数值区域 - 透视表立刻出结果,行标签 放入的字段的唯一值,被显示在透视表左侧。...列标签 放入的字段的唯一值,被显示在透视表的上方 只看数值看不出门路,设置百分比吧: - 点中透视表任意一格,鼠标右键 - 按上图指示完成 - 女性 生还率远高于 男性!!...: Excel 透视表中的 列标签 - 参数 values:Excel 透视表中的 数值区域 - 参数 aggfunc:Excel 透视表中的 数值区域 的字段的统计方式(Excel 默认是计数) "...2个参数,因为 pandas 中添加这2列是非常简单 "Excel 透视表是百分比呀" pandas 透视表功能没有参数设置,因为本身透视出来的还是一个 DataFrame ,这可以利用之前学到的一切技巧来为这个...这种设置不会影响数据类型,比如把此结果输出到 Excel ,仍然是小数 - 行9:每行(axis=1)做运算(apply),行中每个数字(r) 除以(/) 行中剔除最后一个数据(r[:-1])的总和(sum
行标签,survived 字段拖入 列标签 - 还需要统计人数,人名总是有的,因此把 name 字段拖入 数值区域 - 透视表立刻出结果,行标签 放入的字段的唯一值,被显示在透视表左侧。...列标签 放入的字段的唯一值,被显示在透视表的上方 只看数值看不出门路,设置百分比吧: - 点中透视表任意一格,鼠标右键 - 按上图指示完成 - 女性 生还率远高于 男性!!...:Excel 透视表中的 列标签 - 参数 values:Excel 透视表中的 数值区域 - 参数 aggfunc:Excel 透视表中的 数值区域 的字段的统计方式(Excel 默认是计数) "好像少了点东西...pandas 中添加这2列是非常简单 "Excel 透视表是百分比呀" pandas 透视表功能没有参数设置,因为本身透视出来的还是一个 DataFrame ,这可以利用之前学到的一切技巧来为这个...这种设置不会影响数据类型,比如把此结果输出到 Excel ,仍然是小数 - 行9:每行(axis=1)做运算(apply),行中每个数字(r) 除以(/) 行中剔除最后一个数据(r[:-1])的总和(sum
3.忽略默认值,不去处理 用平均值填充缺失值 •选择B列数据,计算平均值 •将平均值单独复制一行(选择值粘贴),务必复制,否则将会出现循环引用。...然后输入三个参数(数据,规则,返回结果列) 3.数据合并 数据拆分是指将一列数据分为多列,而数据合并是指将多列数据合并为一列。...1.添加的数据标签默认都是数值,某些情况下需要用百分比等其它形式展示,可以进行修改 右键图表,唤出菜单,选择设置数据标签格式。 •将空色框内的标签进行修改,将”值“改为”百分比“,则修改成功。...表中不要有空值 原始数据不要出现空行/空列。如数据缺失,或为“0”值,建议输入“0”而非空白单元格。 如下图所示,表的第一行为空白,会导致透视表字段出错,表中间有空行,会导致透视表中有空值。...字段设置有以下两个要点:即,透视表的列和行分别显示什么数据、数据的统计方式是什么。 字段设置 •移动字段 首先,字段可以从字段列表中直接拖拽添加到下方区域。
然后勾选逐列,输出位置,确定。 从输出的相关系数矩阵中可以看出,X1与X2之间相关关系并不明显,而X2、X3之间存在中度负相关关系。...在输出选项中设置输出位置,最后是输出结果选项,残差选项中包含残差、残差图、标准残差,线性拟合图。以及正态概率图,我们全部选中,然后确定看下输出结果。...回归的输出结果中给出了很多信息; 其中列表形式给出的主要有: 回归统计:Multiple R、R Square、Adjusted R、标准误差以及观测值; 方差分析表: 自由度(df),回归平方和、...(看来三个变量的都不显著,本来嘛,随机生成的数据都显著了才不正常呢)。 残差表及Y值的百分比排位。...excel的回归结果所有能输出的信息就这些,当然作为非专业数据统计软件,很多高级的检验方法与修正过程都没有相应的内置程序,只能手动计算变量,不过还是能够给我们的数据分析工作带来一些便利!
3)选择合适的图形反映北京各个区住宅区房屋分布情况 操作步骤: 1)基本描述统计 打开excel数据文件house_price.xlsx 选择描述统计,单击“确定”按钮。 ? ?...2)直方图 根据描述统计的结果,在空白列构造间隔为0.5的等差数列作为接收区域D1:D19,最大值为9,最小值为0。 ?...选择数据,单击“数据”选项卡,选择“数据分析”选项框中的“直方图”选项 输入区域选择房屋价格avgprice列$B$2:$B$186,接收区域选择第一步构造的接收数据,即D1:D19数据。...“排位与百分比排位”分析工具可以产生一个数据表,在其中包含数据集中各个数值的顺序排位和百分比排位。...排位与百分比排位结果 (3)其中的百分比排位为:小于该值的个数/(小于该值的个数+大于该值的个数) 如88,小于该值的有7个,大于该值的有2个,百分比排位为7/9=77.78%,该工具截去了十分位数。
你将会注意到有些值是缺失的。 为了找出每一列中有多少值是缺失的,你可以使用isna()函数,然后再使用sum(): ?...类似地,你可以通过mean()和isna()函数找出每一列中缺失值的百分比。 ? 如果你想要舍弃那些包含了缺失值的列,你可以使用dropna()函数: ?...这三列实际上可以通过一行代码保存至原来的DataFrame: ? 如果我们想要划分一个字符串,但是仅保留其中一个结果列呢?比如说,让我们以", "来划分location这一列: ?...选取行和列的切片 让我们看一眼另一个数据集: In [93]: titanic.head() Out[93]: ?...你可以点击"toggle details"获取更多信息 第三部分显示列之间的关联热力图 第四部分为缺失值情况报告 第五部分显示该数据及的前几行 使用示例如下(只显示第一部分的报告): ?
然后,你可以使用read_clipboard()函数将他们读取至DataFrame中: 和read_csv()类似,read_clipboard()会自动检测每一列的正确的数据类型: 让我们再复制另外一个数据至剪贴板...为了找出每一列中有多少值是缺失的,你可以使用isna()函数,然后再使用sum(): isna()会产生一个由True和False组成的DataFrame,sum()会将所有的True值转换为1,False...类似地,你可以通过mean()和isna()函数找出每一列中缺失值的百分比。...我们可以通过链式调用函数来应用更多的格式化: 我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。...你可以点击"toggle details"获取更多信息 第三部分显示列之间的关联热力图 第四部分为缺失值情况报告 第五部分显示该数据及的前几行 使用示例如下(只显示第一部分的报告):
简单来说,Excel首行各字段就可以理解成维度,互联网行业的PV、UV、活跃数也能算作维度。图表的绘制依赖多个维度的组合。...双向条形图:用于对比同一个项目下两个不同数据的表现。 ? 折线图 折线图是排列在工作表的列或行中的数据可以绘制到折线图中。...箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后,连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。...用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。...适合:展示项目进度 局限:只适合展现数据的累计情况,不适用于数据的分布特征等 相似图表: 水球图:展现单个百分比数据的图表类型 ? 百分比圆环图:展现单个百分比数据的图表类型 ?
2.Excel制作过程 结合以上两张图,我们知道利用Excel的数据透视表功能就制作该报表:选中数据表中任意一个单元格,点击插入数据透视表,然后按以下步骤执行: 将合同生效日字段放在页区域(筛选今年)...将单位字段放在透视表的行区域。 ? 当处理到单位字段时我们会发现,表中每一笔贷款都有三家网点进行业绩分成。我们需要将分成比例也考虑进去。所以透视表中的行区域及值区域不能简单的放入单位1和贷款金额。...三个数值的计算方法分别为: 分成贷款金额1=贷款金额*分成比例1 分成贷款金额2=贷款金额*分成比例2 分成贷款金额3=贷款金额*分成比例3 然后将单位1及分成贷款金额1拖放到透视表的行区域及值区域。...从以下运行结果来看,data4数据表格共5019行,贷款金额及贷款用途都含有5019行非空值,说明者两列都没有空值出现。而单位及分成比例只有2041行数据为非空。其他行为空值。...注意到分成比例并非百分比格式,我们需要将其转化为百分比(除以100)。插入新列可以使用insert()函数,也可以直接以索引的方式进行。为了演示,我们分别选择不同的方法插入百分比列及分成贷款金额列。
此外,绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数,比如一班学生比二班学生多20人。 相对数是指由两个有联系的指标对比计算而得到的数值,是用以反映客观现象之间数量联系程度的综合指标。...计算相对数的基本公式是: 相对数=自身数值数值/与其进行对比的数值 2.3 百分比与百分点 百分比是相对数中的一种,他表示一个数是另一个数的百分之几,也成为百分率或者百分数,百分点则是指不同时期以百分数的形式表示的相对指标的变动幅度...举个简单的例子:在学校高三誓师大会上,校长振臂高呼,今年我们的一本升学率是60%,比去年50%整整提高了10% 学习完百分比和百分点概念的你们是不是可以很轻松的发现其中的问题,对于幅度的变化不宜使用百分数来表示...,帮助人们在纷繁复杂的现象中找出关键点,推动问题的解决。...Excel函数法去重 COUNTIF函数–COUNTIF 是一个统计函数,用于统计满足某个条件的单元格的数量; countif(区域,条件),在B2输入=COUNTIF(A:A,A2)表示在A行中共有多少个
第一行:#1.2,表示版本号,自己准备文件时照抄就行; 第二行:两个数分别表示gene NAME的数量和样本数量(矩阵列数-2); 矩阵:第一列是NAME;第二列Description,没有的话可以全用...样品分组信息 第一行:三个数分别表示:34个样品,2个分组,最后一个数字1是固定的; 第二行:以#开始,tab键分割,分组信息(有几个分组便写几个,多个分组在比较分析时,后面需要选择待比较的任意2组);...第二列,官方提供的格式是URL,可以是任意字符串。后面是基因集内基因的名字,有几个写几列。列与列之间都是TAB分割。...EDGE:该处有3个统计值,tags=59%表示核心基因占该基因集中基因总数的百分比;list=21%表示核心基因占所有基因的百分比;signal=74%,将前两项统计数据结合在一起计算出的富集信号强度...Excel第一列是GO名称,第二列是GO条目中包含的基因数目,第三列是筛选后每个GO中还有多少基因属于表达数据集文件中的基因,不满足参数(15-500)的条目被抛弃,显示为Rejected不纳入后续分析
生信技能树 科研图表介绍 图片 1.热图 图片 输入的数据是数值型矩阵/数据框 颜色变化表示数值的大小 一般冷色调表示小的数字,暖色调表示大的数字 热图中包括聚类树,因此热图中的行列顺序与原数据不同,但是行和列内的数据无变化...箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。...处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。...图片 PCA图中,图中不同颜色代表不同分组,图上的一个小点表示一个样本,点与点之间的距离表示样本间的相似程度。离得近就更相似,离得远差异大。...dim1和dim2表示主成分,主成分的数字表示揭示变化方向的百分比。一些场景中要求两个数字之和大于90%,表达矩阵中不做要求。 图中的大点表示中心点,中心点用于观测组间差别。
-19-Crawler 的其中一份 csv 地区疫情统计数据,实际上这个项目只是定时到丁香园网站上爬取某个时刻的数据。...数据大致如下: - 一行记录表示,某时间点(updateTime)某地区(cityName)的各项疫情指标 - 由于网站上显示的是当前最新累计数据,因此本数据的统计指标同样是累计数值 面对几万行多列的数据...--- # 自动找最相似的名字 这是一个代表性的例子: 首先我们需要一个方法,用来判断2个文本的相似度: 剩下的思路就很简单了: - 每个存在缺失城市编码的城市,到所属省份中的每个城市名字中,进行上述的相似度输出...- 行11:按 省份+缺失表的城市名 分组,取相似度最大记录的索引 - 行12:取出记录 直接输出到 Excel 看看: - 看最右边的列,是相似度。...可以看到,高相似度的行的匹配结果是对的 - 而最低的几个相似度的结果中,大概只有上面红框的4行记录不知道对不对。
第一行:#1.2,表示版本号,自己准备文件时照抄就行; 第二行:两个数分别表示gene NAME的数量和样本数量(矩阵列数-2); 矩阵:第一列是NAME;第二列Description,没有的话可以全用...样品分组信息 第一行:三个数分别表示:34个样品,2个分组,最后一个数字1是固定的; 第二行:以#开始,tab键分割,分组信息(有几个分组便写几个,多个分组在比较分析时,后面需要选择待比较的任意2组);...第二列,官方提供的格式是URL,可以是任意字符串。后面是基因集内基因的名字,有几个写几列。列与列之间都是TAB分割。...25%进行数据过滤) LEADING EDGE:该处有3个统计值,tags=59%表示核心基因占该基因集中基因总数的百分比;list=21%表示核心基因占所有基因的百分比;signal=74%,将前两项统计数据结合在一起计算出的富集信号强度...Excel第一列是GO名称,第二列是GO条目中包含的基因数目,第三列是筛选后每个GO中还有多少基因属于表达数据集文件中的基因,不满足参数(15-500)的条目被抛弃,显示为Rejected不纳入后续分析
我们可以通过df[:10].to_csv()保存前10行。我们还可以使用df.to_excel()保存和写入一个DataFrame到Excel文件或Excel文件中的一个特定表格。...计算性别分组的所有列的平均值 average = df.groupby(‘Sex’).agg(np.mean) ? 统计数据 我们可能熟悉Excel中的数据透视表,可以轻松地洞察数据。...注意:使用len的时候需要假设数据中没有NaN值。 description()用于查看一些基本的统计细节,如数据名称或一系列数值的百分比、平均值、标准值等。...类似地,我们可以使用df.min()来查找每一行或每列的最小值。 其他有用的统计功能: sum():返回所请求的轴的值的总和。默认情况下,axis是索引(axis=0)。...mean():返回平均值 median():返回每列的中位数 std():返回数值列的标准偏差。 corr():返回数据格式中的列之间的相关性。 count():返回每列中非空值的数量。
描述性统计和数据汇总 理解大型数据集的一种方法是计算整个数据集或有意义子集的描述性统计数据,如总和或均值。...默认情况下,它们返回沿轴axis=0的系列,这意味着可以获得列的统计信息: 如果需要每行的统计信息,使用axis参数: 默认情况下,缺失值不包括在描述性统计信息(如sum或mean)中,这与Excel...在数据框架的所有行中获取统计信息有时不够好,你需要更细粒度的信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们的示例数据框架df,让我们找出每个大陆的平均分数。...例如,下面是如何获得每组最大值和最小值之间的差值: df.groupby(["continent"]).agg(lambdax: x.max() - x.min()) 在Excel中获取每个组的统计信息的常用方法是使用透视表...index和columns分别定义数据框架的哪一列将成为透视表的行和列标签。