往期回顾
在上一篇我们介绍了导入数据到R中的方法,但导入数据仅仅是数据准备的第一步;在实际数据分析之前的数据准备工作,占整体数据分析工作的60%左右,接下来我们就共同学习,基本数据管理的方式,包括创建新变量、变量的重编码、变量的重命名、缺失值处理、日期值、类型转换、数据排序、数据集的合并、数据集取子集、使用SQL语句操作数据框等。
一、创建新变量
语句形式:变量名
提供三种方式:(1)mydata
mydata$sumx ;(2)attach(mydata)
mydata$sumx
detach(mydata);(3)mydata 第三种方式简化了按需创建变量并将其保存到数据框中的过程。
二、变量的重编码
重编码涉及根据同一个变量和/或其他变量的现有创建值的过程。例如:你可能需要:1、将1个连续变量修改为一组类别值;2、将误编码的值替换为正确值;3、基于一组分数线创建一个表示及格/不及格的变量。
以一个代码为例:
leadership
agecat
agecat[age > 75]
agecat[age >=55 & age
agecat[age
其中函数within()与函数with()类似,不同的是它允许修改数据框。若干程序包中提供了实用的变量重编码函数,car包中recode()函数非常简单实用;doBy包提供recodevar()函数也很受欢迎;R中自带了cut(),将一个数值型变量按值域切割为多个区间,并返回一个因子。
三、变量的重命名
如果对现有的变量名称不满意,可以通过交互地或者以编程的方式修改它们。
3.1 交互式编辑器
可以通过fix(leadership)来调用交互式的编辑器,然后在弹出的对话框中将其重命名。
3.2 编程式
reshape包中有一个rename()函数,可用于修改变量名。使用格式如下:
rename
也可以通过names()函数重命名变量。例如:
names(leadership)[2]
以上学习了变量的基本处理,下一篇我们会学习缺失值处理、日期值、类型转换、数据排序、数据集的合并、数据集取子集、使用SQL语句操作数据框等内容。
领取专属 10元无门槛券
私享最新 技术干货