首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数学和统计方法

如果观察值有偶数个,通常取最中间的 两个数值的平均数作为中位数。 3、众数:出现次数最多的那个数 4、加权平均数:加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。...加权平均值的大小不仅取决于 总体中各单位的数值(变量值)的大小,而且取决于各数值出现的次数(频数),由于各数值出现的次数对其在平均数中的影响起着权衡 轻重的作用,因此叫做权数。...将一维数组转成Pandas的Series,然后调用mode()方法 将二维数组转成Pandas的DataFrame,然后调用mode()方法 Numpy的axis参数的用途 axis=0代表行...,axis=1代表列 所有的数学和统计函数都有这个参数,都可以使用 我们想按行或按列使用时使用这个参数 import numpy as np a = np.array([[1,3,6],[9,3,2],...axis=1求每行的和。 • 行:每行对应一个样本数据 • 列:每列代表样本的一个特征 数组对应到现实中的一种解释: • 对于机器学习、神经网络来说,不同列的量钢是相同的,收敛更快。

13010

盘一盘 Python 系列特别篇 - 实战正则表达式

该字符串还是很长,但至少已经缩减到 Table 层面了,Table 无非就是由若干行组成的嘛,让我们把注意力放在每行的代码上。...第二步 - 获取 Table 中每行的字符串 细看一下,我们发现一个规律,即每行代码以 开始,以 结束,如下图所示。 ? 那定义其模式就简单了,r'每行字符串中的各种信息 我们来看看表格,发现所有行分三种模式: 第一行:都是粗体字,而且分两行写 中间行:第一个是字符串,后面都是数字 最后一行:第一个是字符串,后面都是数字 ?...re.compile(first_row_pat)mid_row_obj = re.compile(mid_row_pat)last_row_obj = re.compile(last_row_pat) 将每行获取出来的元素存在列表中...最后将结果转换成数据帧(DataFrame),用 Pandas。 第四步 - 整理成 DataFrame 先引入 Pandas 包,并把 table1 转成 DataFrame。

70170
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    15个能使你工作效率翻倍的Jupyter Notebook的小技巧

    技巧1-使用常用快捷键快速导航 了解这些快捷方式可以帮助你节省时间。我已经用黄色强调了我常用的那些,并且发现它们非常有用。如果忘记了快捷方式,则始终可以转到命令模式并按H键查看完整列表。...您可以在页面顶部的下拉框中执行此操作,也可以转到命令模式并按M键。一旦进入单元格即为标记,只需将图片拖放到单元格中即可。 ? 一旦将图像放入单元格,就会出现一些代码。...技巧7-使用多行光标 假设您有多行代码,如下所示,并且希望删除每行代码中的所有数字。不要逐行删除每个数字,你可以一次全部删除! ? 按住Alt键并选择整个单元格内容。...按左箭头,您将看到现在有光标(下面代码片段中的黑线),每行一个。从这里,你可以删除所有的数字在一次点击删除键。如果要将光标移到末尾,请使用右箭头键 ?...技巧11-扩展Pandas中显示的列和行数 Pandas表中显示的行和列数量有限,可以根据自己的喜好进行自定义。 在这里,我将行和列的最大输出设置为500。

    2.8K20

    NumPy进阶修炼80题|41-60

    41 数据创建 题目:生成6行6列的二维数组,值为1-100随机数 难度:⭐ 答案 data = np.random.randint(1,100, [6,6]) 42 数据查找 题目:找到每列的最大值...每个元素的出现次数 难度:⭐⭐ 答案 np.unique(data,return_counts=True) 45 数据计算 题目:计算data每行元素大小排名 难度:⭐⭐ 答案 data.argsort...) 49 数据计算 题目:计算data第二行中不含第三行的元素的元素 难度:⭐⭐ 答案 a = data[1:2] b = data[2:3] index=np.isin(a,b) array=a[...难度:⭐⭐ 答案 data1 = data1[~np.isnan(data1).any(axis=1), :] 55 数据计算 题目:计算data1第一行出现频率最高的值 难度:⭐⭐⭐ 答案 vals...Pandas中的多变,所以全部大概在80题左右,本周会更新完毕,如果你也喜欢这种形式的习题可以给我点个在看,我们下期见。

    47420

    Python数据处理,pandas 统计连续停车时长

    定期找些简单练习作为 pandas 专栏的练习题 知识点 DataFrame.apply 以及 axis 的理解 分组计数 DataFrame.iloc 切片 如下一份停车场数据: 每行表示某时间段...(总是1个小时)每个停车位停放是那辆车(内容视为车牌吧) 需要以下结果: 共2个需求: 需求1:停车次数(蓝色行):一天中,每个停车位分别有多少不同的车停放,如下: 分别有8量不同车牌,因此这个停车位的..."停车次数"是8 就算同一天有相同的车在不同时段停放,只算一次 需求2:连续停车小时(白色行):由于有些车是停放多于1小时才开走,统计一天中,连续停放n(1至10)小时的数量 如下: 第一个停车位中,...就是去重计数 ---- 需求2 按理解,我们需要首先统计每个车牌的出现次数,分组统计即可: 我这只考虑一列的处理情况,因为所有列批量处理只需要调用 apply 即可 这里同样可以使用 Series.value_counts...value(上图蓝框) 是连续n小时停车出现的次数 把这个过程定义为一个函数: 行6:选出一列执行看看效果 最后,通过 apply 就能处理所有的列: 注意 行索引(蓝框) 是"连续n小时停车" 但是

    1.4K50

    深入理解pandas读取excel,txt,csv文件等命令

    如果读取某文件,该文件每行末尾都有带分隔符,考虑使用index_col=False使panadas不用第一列作为行的名称。...{‘foo’ : 1, 3} -> 将1,3列合并,并给合并后的列起名为"foo" infer_datetime_format 如果设定为True并且parse_dates 可用,那么pandas将尝试转换为日期类型...当对表格的某一行或列进行操作之后,在保存成文件的时候你会发现总是会多一列从0开始的列,如果设置index_col参数来设置列索引,就不会出现这种问题了。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件中如果出现中文编码错误 需要设定 encoding 参数 为行和列添加索引 用参数names添加列索引,用...在将网页转换为表格时很有用 这个地方出现如下的BUG module 'pandas' has no attribute 'compat' 我更新了一下pandas 既可以正常使用了 [cg9my5za47

    12.3K40

    深入理解pandas读取excel,tx

    如果读取某文件,该文件每行末尾都有带分隔符,考虑使用index_col=False使panadas不用第一列作为行的名称。...{‘foo’ : [1, 3]} -> 将1,3列合并,并给合并后的列起名为"foo" infer_datetime_format 如果设定为True并且parse_dates 可用,那么pandas将尝试转换为日期类型...当对表格的某一行或列进行操作之后,在保存成文件的时候你会发现总是会多一列从0开始的列,如果设置index_col参数来设置列索引,就不会出现这种问题了。...data = pd.read_csv("data.txt",sep="\s+") 读取的文件中如果出现中文编码错误 需要设定 encoding 参数 为行和列添加索引 用参数names添加列索引...在将网页转换为表格时很有用 这个地方出现如下的BUG module 'pandas' has no attribute 'compat' 我更新了一下pandas 既可以正常使用了 ?

    6.2K10

    Python与Excel协同应用初学者指南

    恭喜你,你的环境已经设置好了!准备好开始加载文件并分析它们了。 将Excel文件作为Pandas数据框架加载 Pandas包是导入数据集并以表格行-列格式呈现数据集的最佳方法之一。...可以在下面看到它的工作原理: 图15 已经为在特定列中具有值的行检索了值,但是如果要打印文件的行而不只是关注一列,需要做什么? 当然,可以使用另一个for循环。...然后,对于位于该区域的每个单元格,打印该单元格中包含的坐标和值。每行结束后,将打印一条消息,表明cellObj区域的行已打印。...另一个for循环,每行遍历工作表中的所有列;为该行中的每一列填写一个值。...5.用值填充每行的所有列后,将转到下一行,直到剩下零行。

    17.4K20

    建议收藏:12个Pandas数据处理高频操作

    简单说说 总结分享 > 1 统计一行/一列数据的负数出现的次数 > 2 让dataframe里面的正数全部变为0 > 3 统计某列中各元素出现次数 > 4 修改表头和索引 > 5 修改列所在位置insert...pip install pandas 在Python代码中使用pandas首先需要导入,: import pandas as pd 创建一个示例数据: # 统计一行/一列数据的负数出现的次数 df...一列数据的负数出现的次数 # 获取到每一行的复数个数 # 要获取列的话,将axis改成0即可 num_list = (df < 0).astype(int).sum(axis=1) num_list...> 2 让dataframe里面的正数全部变为0 # 直接了当 df[df>0] = 0 df > 3 统计某列中各元素出现次数 默认情况,直接统计出指定列各元素值出现的次数。...> 12 对于列/行的操作 删除指定行/列 # 行索引/列索引 多行/多列可以用列表 # axis=0表示行 axis=1表示列 inplace是否在原列表操作 # 删除df中的c列 df.drop(

    2.7K20

    KNN算法实现手写数字识别

    素材模型:(源码+素材最后会贴上githup的链接) KNN 手写数字识别 实现思路: 将测试数据转换成只有一列的0-1矩阵形式 将所有(L个)训练数据也都用上方法转换成只有一列的0-1矩阵形式...把L个单列数据存入新矩阵A中——矩阵A每一列存储一个字的所有信息 用测试数据与矩阵A中的每一列求距离,求得的L个距离存入距离数组中 从距离数组中取出最小的K个距离所对应的训练集的索引 拥有最多索引的值就是预测值...## 取每行中的每一列 data[0,32*i+j]=int(hang[j]) ## 给data值 # print(pd.DataFrame(data))...因为我为了提高效率没有使用pandas里面的Dataframe来操作数据。...)-xunlians ## 用tile把测试集tests重构成一个 data_hang行、1列的1维数组 q=np.sqrt((zu**2).sum(axis=1)).argsort()

    71930

    knn算法实现手写数字识别的背景_knn手写数字识别60000训练集

    素材模型:(源码+素材最后会贴上githup的链接) KNN 手写数字识别 实现思路: 将测试数据转换成只有一列的0-1矩阵形式 将所有(L个)训练数据也都用上方法转换成只有一列的0-1矩阵形式...把L个单列数据存入新矩阵A中——矩阵A每一列存储一个字的所有信息 用测试数据与矩阵A中的每一列求距离,求得的L个距离存入距离数组中 从距离数组中取出最小的K个距离所对应的训练集的索引 拥有最多索引的值就是预测值...## 取每行中的每一列 data[0,32*i+j]=int(hang[j]) ## 给data值 # print(pd.DataFrame(data))...因为我为了提高效率没有使用pandas里面的Dataframe来操作数据。...)-xunlians ## 用tile把测试集tests重构成一个 data_hang行、1列的1维数组 q=np.sqrt((zu**2).sum(axis=1)).argsort()

    1.1K40

    Python数据分析作业二:Pandas库的使用

    3、查看第1、3、5行中第2、4、6列的数据 df.iloc[[0,2,4],[1,3,5]] 使用位置索引.iloc方法从 DataFrame 中选择特定的行和列。...然后,它从这些行中的 “交易额” 列中提取数值,并使用.sum()方法计算这些值的总和。...然后,使用.sum()方法两次对这个布尔值的 DataFrame 进行求和,第一次对每列求和,第二次对每行的结果再求和。...然后,使用merge方法将df和df2 DataFrame 进行合并,根据共同的列进行匹配。默认情况下,merge方法会根据两个 DataFrame 中的共同列进行内连接。...最后,使用groupby方法将合并后的 DataFrame 按照 “姓名” 和 “职级” 进行分组,并计算每个组中 “交易额” 列的总和。

    10200

    Scikit-Learn教程:棒球分析 (一)

    考虑到数据的时间序列性质,您可以生成指标,例如过去五年中每年的平均获胜率以及其他此类因素,以制作高度准确的模型。但是,这超出了本教程的范围,您将每行视为独立的。...然后使用,然后将结果转换为DataFrame并使用以下head()方法打印前5行: 每列包含与特定团队和年份相关的数据。...如果消除列中具有少量空值的行,则会丢失超过百分之五的数据。由于您正在尝试预测胜利,因此得分和允许的运行与目标高度相关。您希望这些列中的数据非常准确。...Pandas通过将R列除以G列来创建新列来创建新列时,这非常简单R_per_game。 现在通过制作几个散点图来查看两个新变量中的每一个如何与目标获胜列相关联。...现在,将群集中的标签作为新列添加到数据集中。还要将字符串“labels”添加到attributes列表中,以供日后使用。 在构建模型之前,需要将数据拆分为训练集和测试集。

    3.5K20

    读CSV和狗血的分隔符问题,附解决方法!

    1 使用pandas读入csv文件后,发现列没分割开,所以将sep参数调整为\t,发现还是没分割开,再试空格,再试\s+,即各种空白字符组合,有几例能分隔开,但是还有些列无法分割开。...如下文件a.csv,分隔符是逗号,你注意看Hi,pythoner单元格,它的取值中含有一个逗号 等我使用pandas读入此文件时,会发生什么: import pandas as pd pd....1个逗号,因为列无法对其还会抛异常,为此read_csv还提供一个参数error_bad_lines,专门丢弃这种含有多个逗号的行,这种错误在大数据量时尤其容易出现,为了第一时间读入数据往往将error_bad_lines...如果csv文件的分隔符是\t或其他,也同样面临一样的问题,如果分隔符恰好出现在单元格中,这种错误是不可避免的。 3 如果你的数据恰好又大量出现了分隔符的行,这就需要引起重视了。...这样经过一遍替换处理后,就不会再出现数据缺失、有些行被过滤的问题。

    7.3K20

    Linux日志审计中的常用命令: sed、sort、uniq

    在日志审计过程中,sed、sort和uniq是三个非常实用的命令。本文将详细介绍这三个命令的常用参数及其作用,并结合实例说明其用法。...例如,将文件中的所有error替换为ERROR: sed 's/error/ERROR/g' log.txt 1.2 删除匹配的行 使用d参数可以删除匹配的行。...以下是uniq命令的常用参数: -c: 统计每行出现的次数 -d: 只显示重复的行 -u: 只显示唯一的行 3.1 统计每行出现的次数 使用-c参数可以统计每行出现的次数。...例如,统计每个单词出现的次数: cat words.txt | sort | uniq -c 3.2 只显示重复的行 使用-d参数可以只显示重复的行。....*/\1/p' access.log | # 统计IP出现的次数 sort | uniq -c | # 按访问次数从高到低排序 sort -nr 解释: 使用sed命令提取每行日志中的IP地址 使用sort

    23310

    Pandas 第一轮零基础扫盲

    3 x 5 dtype: int64 计算重复元素出现的次数 In [17]: list_data1 = [1, 1, 1, 3, 5, 5, 7, 7, 9] In [18]: data1 =...(NaN)的行「例如:我们数据量很大的时候,有可能想把空值去掉,使用 dropna 来去掉,只要这一行有一个空数据,就会去掉。」...Numpy 是最底层的,Pandas 会智能的时候给你做一些数据处理,所以很多时候我们使用 Pandas 。...每行三个数据,_goodreads_book_id_(和 to_read 中的书籍 id 的对应关系可以在 books.csv 里找到),标签 id,标记次数 解答 Python 原生的处理方式,代码如下...1. value_counts(): 计算重复元素出现的次数「显示形式为:值为索引,次数为值」 2. sort_values(): 按某一列的数据进行排序,使用 by=列名,来指定。

    2.2K00

    004.python科学计算库pandas(中)

    titanic_survival = pandas.read_csv("titanic_train.csv") # Pandas库使用NaN(非数字)表示缺失值 # 我们可以使用pandas.isnull...()函数,它获取一个pandas series并返回一系列的True和False age = titanic_survival["Age"] # 使用loc获取的数据时的切片,包括两端的索引对应的数据...pivot表中的级别将存储在结果DataFrame的索引和列上的多索引对象(层次索引)中 # index 告诉方法按哪个列分组 # values 是我们要应用计算的列(可选地聚合列) #...axis = 0或'index': 删除包含缺失值的行 # axis = 1或'columns': 删除包含缺失值的列 # subset 像数组一样,可选的标签沿着要考虑的其他轴,例如,如果要删除行...---- loc import pandas titanic_survival = pandas.read_csv("titanic_train.csv") # 获取第84行数据的Age列的值 (loc

    66620

    Python中的DataFrame模块学

    '时,就是保留第一次出现的重复行   # keep='last'时就是保留最后一次出现的重复行。   ...读写操作   将csv文件读入DataFrame数据   read_csv()函数的参数配置参考官网pandas.read_csv   import pandas as pd   data = pd.read_csv...('user.csv')   print (data)   将DataFrame数据写入csv文件   to_csv()函数的参数配置参考官网pandas.DataFrame.to_csv   import...异常处理   过滤所有包含NaN的行   dropna()函数的参数配置参考官网pandas.DataFrame.dropna   from numpy import nan as NaN   import...1 or 'columns'表示去除列   # how: 'any'表示行或列只要含有NaN就去除,'all'表示行或列全都含有NaN才去除   # thresh: 整数n,表示每行或列中至少有n个元素补位

    2.5K10

    Linux常用命令面试题(1)

    有下面一个文件,请统计每行中每个元素出现的次数并按指定格式输出: 文件内容: a a a b b b c c c d d d 输出格式: a:3 b:1 b:2 c:3 d:3 命令: cat...遍历每行每个列元素,把每个列元素出现的次数记录下来。 for(i=1;i<=NF;i++) a[$i]++; 其中,NF表示每行的总列数,$i是该列具体内。...a[$i]++是建立一个数组(字典),其中,key为$i, value为$i的出现次数。 通过for循环,遍历每行的每个列,将各个列的出现次数进行了汇总求和。 3....也就是我们上面跳过的第1步 : deleta a;它的作用是: 每行开始统计前,都要清空上一行的统计数组a的内容,新行的统计结果会放到空的a中。 5....(2)print部分 print a[1],a[2],a[3]; 这个语句的作用就是:将每行统计数组a中的各个统计项打印出来。

    1.4K10

    使用CSV模块和Pandas在Python中读取和写入CSV文件

    CSV文件是一种纯文本文件,其使用特定的结构来排列表格数据。CSV是一种紧凑,简单且通用的数据交换通用格式。许多在线服务允许其用户将网站中的表格数据导出到CSV文件中。...CSV文件将在Excel中打开,几乎所有数据库都具有允许从CSV文件导入的工具。标准格式由行和列数据定义。此外,每行以换行符终止,以开始下一行。同样在行内,每列用逗号分隔。 CSV样本文件。...要读取/写入数据,您需要遍历CSV行。您需要使用split方法从指定的列获取数据。...您必须使用命令 pip install pandas 安装pandas库。在Windows中,在Linux的终端中,您将在命令提示符中执行此命令。...在仅三行代码中,您将获得与之前相同的结果。熊猫知道CSV的第一行包含列名,它将自动使用它们。 用Pandas写入CSV文件 使用Pandas写入CSV文件就像阅读一样容易。您可以在这里说服。

    20.1K20
    领券