首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言数据分析利器data.table包 —— 数据框结构处理精讲

    将一个R对象转化为data.table,R可以时矢量,列表,data.frame等,keep.rownames决定是否保留行名或者列表名,默认FALSE,如果TRUE,将行名存在"rn"行中,keep.rownames...(x, v)] #取DT的x,v列上x="b",v=3的行 j 对数据框进行求值输出   j 参数对数据进行运算,比如sum,max,min,tail等基本函数,输出基本函数的计算结果,还可以用n输出第...x到之间的列作为子集,然后.SD 输出所有子集 DT[2:5, cat(y, "\n")] #直接在j 用cat函数,输出2到5列的y值 DT[, plot(a,b), by=x] #直接在j用plot...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean...#内联接,nomatch=0表示不返回不匹配的行,nomatch=NA表示以NA返回不匹配的值 with 默认是TRUE,列名能够当作变量使用,即x相当于DT$"x",当是FALSE时,列名仅仅作为字符串

    5.9K20

    Pandas进阶|数据透视表与逆透视

    数据透视表将每一列数据作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。...如果传入参数为dict,则每个列仅对其指定的函数进行聚合, 此时values参数可以不传。...如果指定了聚合函数则按聚合函数来统计,但是要指定values的值,指明需要聚合的数据。 pandas.crosstab 参数 index:指定了要分组的列,最终作为行。...columns:指定了要分组的列,最终作为列。 values:指定了要聚合的值(由行列共同影响),需要指定aggfunc参数。 rownames:指定了行名称。 colnames:指定了列名称。...,df.melt() 则是将宽数据集变成长数据集 melt() 既是顶级类函数也是实例对象函数,作为类函数出现时,需要指明 DataFrame 的名称 pd.melt 参数 frame 被 melt 的数据集名称在

    4.3K11

    02.Django基础二之URL路由系统

    正则表达式:一个正则表达式字符串 views视图函数:一个可调用对象,通常为一个视图函数或一个指定视图函数路径的字符串 参数:可选的要传递给视图函数的默认参数(字典形式) 别名:一个可选的name参数...r'^articles/(\d{4})/$', views.year_archive),#year_archive(request,n),小括号为分组,有分组,那么这个分组得到的用户输入的内容,就会作为对应函数的位置参数传进去...捕获的参数永远都是字符串   每个在URLconf中捕获的参数都作为一个普通的Python字符串传递给视图,无论正则表达式使用的是什么匹配方式。...传递额外的参数给视图函数(了解)     URLconfs 具有一个钩子,让你传递一个Python 字典作为额外的参数传递给视图函数。     ...url,那么foo参数写在函数的哪个位置都行,如果不是命名分组,那么都是将这个形参写在参数的最后。

    1.5K20

    Pandas 秘籍:6~11

    准备 在此秘籍中,我们检查航班数据集,并执行最简单的可能的汇总,仅涉及单个分组列,单个汇总列和单个汇总函数。 我们将找到每家航空公司的平均到达延误时间。.../master-pandas/img/00115.jpeg)] 或者,您可以将汇总列放在索引运算符中,然后将汇总函数作为字符串传递给agg: >>> flights.groupby('AIRLINE')...与其标识字典中的聚合列,不如将其放在索引运算符中,就如同您从数据帧中将其选择为列一样。 然后,将函数字符串名称作为标量传递给agg方法。 您可以将任何汇总函数传递给agg方法。...以下是几个聚合函数的列表,这些函数可以作为字符串传递给agg或作为方法直接链接到分组对象: min max mean median sum count std var...values参数采用将汇总的一列(或多列)。 还存在一个aggfunc参数,该参数带有一个或多个聚合函数,这些函数确定values参数中的列如何聚合。

    34K10

    【数据处理包Pandas】数据透视表

    ,需要用level参数指定; (2)set_index可以把普通的列变成索引(如果是多个普通的列就会变成多级索引),而reset_index可以索引还原成普通的列,并用0开始的整数序列作为新索引; (3...,它可以根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。...(相当于sql里的聚合函数操作的列),默认使用data参数指定的数据;aggfunc参数指明进行聚合运算的函数,默认是mean;margins=True参数提供了数据汇总功能。...rownames:可选参数,用于设置结果中行的名称。 colnames:可选参数,用于设置结果中列的名称。 aggfunc:可选参数,用于聚合值的函数,默认为计数。...df 注意: (1)交叉表只能以pd而不能以 DataFrame 对象作为crosstab方法的前缀 (2)crosstab方法没有data参数,index和columns参数不能用列名字符串,而需要用

    7400

    Django的URL路由系统

    (1) 正则表达式: 一个正则表达式字符串   (2) views视图函数: 一个可调用的对象,通常为一个视图函数或一个指定视图函数路径的字符串   (3) 参数: 可选的要传递给视图函数的默认参数...分组命名匹配   上面的实例使用简单的正则表达式分组匹配(通过圆括号) 来捕获URL中的值并以位置参数形式形式传递给视图.   ...,就会作为对应函数的位置参数传进去, 别忘了形参要写两个....P[0-9]{2})/$', views.article_detail), #某年某月某日的 ]   这个实现与前面的示例完全相同,只有一个细微的差别:捕获的值作为关键字参数而不是位置参数传递给试图函数...捕获的参数永远都是字符串 每个在URLconf中捕获的参数都作为一个普通的Python字符串传递给视图,无论正则表达式使用的是什么匹配方式.例如: url(r'^articles/(?

    1.4K40

    玩转Pandas透视表

    添加列索引 # 添加一个列级分组索引:pclass-客票级别,共有1,2,3三个级别,1级别最高。...仔细观察透视表发现,与上面【3】中的"添加一个列级索引",在分组聚合效果上是一样的,都是将每个性别组中的成员再次按照客票级别划分为3个小组。...需要注意的是,如果不传入values参数,将对除index和columns之外的所有剩余列进行聚合。 # 不传入values参数,剩余的所有列均做聚合(默认是均值聚合)。...如果传入参数为list,则每个聚合函数对每个列都进行一次聚合。 如果传入参数为dict,则每个列仅对其指定的函数进行聚合,此时values参数可以不传。...添加汇总项 # 按行、按列进行汇总,指定汇总列名为“Total”,默认名为“ALL” table1 = pd.pivot_table(df, index="sex", columns="pclass",

    4.1K30

    MADlib——基于SQL的数据挖掘解决方案(8)——数据探索之描述性统计

    target_cols(可选) TEXT 缺省值为NULL,请求汇总列组成的逗号分隔字符串。如果为NULL,为所有列生成汇总统计。...grouping_cols(可选) TEXT 缺省值为NULL,分组列构成的逗号分隔字符串。如果为NULL,为全表生成汇总统计(不分组)。...函数为每个分组列独立计算汇总统计信息,也就是说分组列不合并在一起(类似SQL中的grouping合计),这点与常规的PostgreSQL风格的GROUP BY命令不同。...如果该参数为FALSE,计算精确值(根据数据大小可能需要更长的运行时间。) 表4 summary函数参数说明 列名 数据类型 含义 group_by TEXT 分组列的名称,没分组时为NULL。...bedroom列具有2、3、4三个值,summary函数按每个bedroom的值分三组计算其它5列的汇总统计值,并且会按不分组(表级)计算全部6个列的汇总统计值,因此生成21条结果数据。

    1.5K20

    RFM会员价值度模型

    按会员ID做聚合   这里使用groupby分组,以year和会员ID为联合主键,设置as_index=False意味着year和会员ID不作为index列,而是普通的数据框结果列。...后面的agg方法实际上是一个“批量”聚合功能的函数,它实现了对date_interval、提交日期、订单金额三列分别以min、count、sum做聚合计算的功能。...F和M的规则是值越大,等级越高 而R的规则是值越小,等级越高,因此labels的规则与F和M相反 在labels指定时需要注意,4个区间的结果是划分为3份  将3列作为字符串组合为新的分组 代码中,先针对...3列使用astype方法将数值型转换为字符串型 然后使用pandas的字符串处理库str中的cat方法做字符串合并,该方法可以将右侧的数据合并到左侧 再连续使用两个str.cat方法得到总的R、F、M字符串组合...第1行代码使用数据框的groupby以rfm_group和year为联合对象,以会员ID会为计算维度做计数,得到每个RFM分组、年份下的会员数量 第2行代码对结果列重命名 第3行代码将rfm分组列转换为

    47210

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    指定变量名时不是写成字符串形式而是直接写变量名: d.class %>% distinct(sex, age) %>% knitr::kable() 如果希望保留数据框中其它列,可以加选项 keep_all...对于待分离的对象(col),不必加上引号;但对于即将创建的新列(into),需要使用引号,由于是两列,这里使用向量创建。sep参数设定读取表格信息时以何符号作为分隔符。...R 数据整理(六:根据分类新增列的种种方法 1.0) 其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集,正的序号表示保留,负的序号表示排除。...Type 分组。...nest 和 unnest 函数,可以将子数据框保存在 tibble 中,可以将保存在 tibble 中的子数据框合并为一个大数据 框。

    10.9K30

    R&Python Data Science 系列:数据处理(3)

    注意:Python排列顺序使用参数ascending控制;R语言中使用desc函数; 1.2 rename函数 重命名函数,Python和R语言中使用方法相同,new_name = old_name...2 汇总函数 Python中汇总函数主要有summarize()和summarize_each()函数,这里的"汇总"翻译成概括更加合适,summarize()和summarize_each(...)区别在于:对某(几)列作用几个函数,summarize()需要几个函数依次作用于对应的列,而summarize_each()将几个函数以列表形式作为第一个参数,作用于后面的列: Python实现 ##...4 聚合函数 聚合函数是对某一列数据,使用分组函数和排序函数进行处理之后(可以省略),使用聚合函数,返回一个值。...注意:Python中n()函数需要传入参数,R中不需要传入参数;Python中输出列按照字段名称升序排列,R中输出的列按照书写顺序输出。

    1.3K20

    python数据分析系列(1)

    注释: 可以通过#来为代码添加注释 函数和对象方法的调用: 用圆括号调用函数,传递零个或几个参数,或者将返回值给一个变量通过"."...当你将对象作为参数传递给一个函数时,在函数内使用新的局域变量创建了对原始对象的引用,而不是复制(传值还是传引用这取决于传入的参数是可变对象还是不可变对象)。...tips:可以在字符串前面加一个r,表明字符就是它自身 ​ 字符串对象有format方法可以替换格式化的参数为字符串,产生一个新的字符串: template = '{0:.2f} {1:s} are...{1:s}表示格式化第二个参数为字符串。 {2:d}表示格式化第三个参数为一个整数。...创建元组的最简单方式,是用逗号分隔一列值或者将值放在圆括号内,元组中存储的对象可能是可变对象。

    81620

    数据分析:多诊断指标ROC分析

    模型拟合:在内部,pROC::roc可能使用逻辑回归模型来拟合数据,将预测指标作为预测变量,将分组变量作为响应变量。水平设置:levels参数指定了响应变量的类别顺序。...这段R代码定义了一个名为get_ROC_CI的函数,用于计算并汇总不同数据集的ROC曲线分析结果,并最终将结果整合到同一个图形上展示。...index:用于预测的指标列的名称。group:包含响应变量(如“健康”或“癌症”)的分组列的名称。group_names:一个向量,包含group列中的所有可能的组名。...再次使用pROC::coords函数,根据最佳阈值获取最佳性能指标,如敏感性、特异性等。35-39. 将AUC和95%置信区间格式化为一个字符串,包含标签、AUC值和CI的上下限。41-47....将三个结果的数据框合并,并使用dplyr::mutate和factor函数调整type列,以确保所有的类型按照相同的顺序排列。这有助于后续在同一图形上统一展示。

    23810

    python数据分析——数据分类汇总与统计

    Python作为一种高效、简洁且易于学习的编程语言,在数据分析领域展现出了强大的实力。本文将介绍如何使用Python进行数据分类汇总与统计,帮助读者更好地理解和应用数据。...总之,Python作为一种强大的数据分析工具,可以帮助我们轻松地进行数据分类汇总与统计。...例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...使用函数分组 比起使用字典或Series,使用Python函数是一种更原生的方法定义分组映射。 【例6】以上一小节的DataFrame为例,使用len函数计算一个字符串的长度,并用其进行分组。...关键技术:如果传给apply的函数能够接受其他参数或关键字,则可以将这些内容放在函数名后面一并传入: 【例15】在apply函数中设置禁止分组键。

    82910

    数据分组

    数据分组就是根据一个或多个键(可以是函数、数组或df列名)将数据分成若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果合并,被用作汇总计算的函数称为就聚合函数。...1.分组键是列名 分组键是列名时直接将某一列或多列的列名传给 groupby() 方法,groupby() 方法就会按照这一列或多列进行分组。...参数: ①分组键是列名: 单个列名直接写(按一列进行分组),多个列名以列表的形式传入(这就是按多列进行分 组)。...参数: ① 一次可以使用多种汇总方式: 多种汇总方式以**列表**的形式传入(且汇总函数是用字符串形式)。...② 针对不同的列做不同的汇总运算:字典形式,*键名*是*列名*,*键值*是*汇总方式*字符串形式。 返回值: 一个DataFrame对象。

    4.5K11

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    这里需要注意的是: 1) pd.read_csv('data/chipotle.tsv', sep='\t') 里的 chipotle.tsv,是用 tab 作为分隔符的,所以要增加参数 sep=\t;...计算每单的总价,要按 order_id 进行 groupby() 分组,再按 item_price 计算每组的总价。 ? 有时,要用多个聚合函数,不一定只是 sum() 一个函数。...这时,要用 agg() 方法,把多个聚合函数的列表作为该方法的参数。 ? 上列就算出了每个订单的总价与订单里的产品数量。 19....使用透视表,可以直接指定索引、数据列、值与聚合函数。 设置 margins=True,即可为透视表添加行与列的汇总。 ? 此表显示了整体幸存率,及按性别与舱型划分的幸存率。...年龄列有 1 位小数,票价列有 4 位小数,如何将这两列显示的小数位数标准化? 用以下代码让这两列只显示 2 位小数。 ? 第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。

    7.2K20
    领券