在调查问卷发放回并收剔除无效问卷后,创建数据文件是进行数据管理和统计分析的首要工作,只有准确地创建了高质量的数据文件,才能保证数据分析结果的正确性和科学性。以下介绍问卷数据在SPSS软件中数据文件的创建、编码与录入:
一、数据文件创建操作步骤
(1)依次单击“文件” —“新建”—“数据”命令或“文件”— “打开” — “数据” 命令,均可打开数据编辑器窗口,下图所示。
(2)在变量窗口进行变量的编辑。
(3)在数据视图中编辑具体数据。
(4)保存数据并关闭数据,以待使用。
二、数据编码模块介绍
一个完整的SPSS数据变量编码模块包括变量名、变量类型、变量名标签、变量值标签、缺失值的定义、计量尺度以及数据的显示属性。
1、变量名
变量名是变量参与分析的唯一标识,定义变量结构时首先应给出每个变量的变量名,否则系统默认为var00001、var00002、var00003等,这样不利于用户进行选择准确的变量进行数据分析,变量命名应遵循如下原则:首字符必须为字母或汉字,后面可以是任意字母、数字、句点或除!、?、*符号以外的任意字母或数字;SPSS变量的命名长度应少于64个字符(32个汉字),不能用下划线、句号、圆点作为变量名的最后一个字符;SPSS变量名不能与SPSS的保留字相同,包括ALL、GT、LE、LT、NE、NOT、OR、TO和WITH等;SPSS系统中变量名是唯一的,并且不区分大小写。
2、变量类型及定义方法
SPSS的变量类型共有三种:数值型、字符型和日期型。
数值型变量按不同的要求分为标准型、逗号型、句号型、科学计数型、美元型和自定义货币型,系统默认的为标准数值型变量。
日期型变量(Data)适用于表示日期和时间的数值类型,SPSS提供了 29种日期型变 量的格式供用户选择。
字符型变量,其值由字符串组成,字符型变量不能参与运算,且大小写存在区别。
3、变量标签
变量标签(Label)是对变量名和变量值的进一步解释和说明,包括变量名标签和变量值标签。变量名标签是对变量名含义的进一步解释说明,一般是针对特别长的变量名的说明。
在SPSS主窗口的变量视图中,在相应变量名所在行的“标签”列添加变量名标签的内容。
变量值标签是对数值型变量各个取值的含义进行解释和说明。在SPSS主窗口的变量视图中,在相应变量名所在行的“值”列弹出的定义变量值的对话框中添加变量值标签的 内容,例如变量名为“XB”,变量名标签为“性别”,变量值标签有两个,在“值”中填 入“1”,在“标签”中填入“男”,单击“添加”按钮;在“值”中填入“2”,在“标 签”中填入“女”并单击“添加”按钮,则变量值标签定义完成,如图下图所示。
4、变量缺失值
在调查问卷中,被调查者没有填写调查表要求填写的某些数据,成为缺失值;或者因为某种原因使所记录的数据失真,在统计分析中是不能被使用的,在统计中是要剔除这些数据的,这就需要用到变量缺失值定义。在主窗口的变量视图中某一变量名所在行的缺失值列弹出“缺失值”对话框,如图下图所示。
该对话框有三个选项:其一为无缺失值;其二为最多三个缺失值;其三为给出一个缺失值范围,在此范围的值均为缺失值,此项中还可附加该范围之外的离散的缺失值。选择好之后单击“确定”按钮就完成了缺失值定义,则系统对设定的值不列入统计分析的范围。
三、SPSS数据文件创建与编码实例
以上向大家介绍了数据库建立的步骤和数据库建立过程中所使用到的常用编码模块,下面以一个实例来具体讲解数据库的建立。
例:某企业进行职工基本信息统计,每个职工采集的数据为职工号、性别、年龄、基本工资、文化程度、职称信息。原始数据如下表:
在SPSS中创建职工基本信息步骤,首先打开SPSS 24.0主窗口的数据视图,编辑数据变量,第一变量为“职工号”:变量名为zgh,数据类型为数值型(N),宽度为3,小数位数为0,变量名标签为“职工号”,变量值标签无,缺失值无;第二个变量为 “性别” ,变量名为xb,数值类型,宽度为1,小数位数为0,变量名标签为“性别”,变量值标签的命名首先应打开“值标签”对话框,值“1”的标签为“男职工”,值“2” 的标签为“女职工”,缺失值无;年龄、基本工资的编辑方法同变量“职工号”,只是在宽度和小数位数上根据具体数值的特点略有变化;职称和学历手的编辑方法同变量“性别”。
当变量编辑完成以后,将主窗口的变量视图转换为数据视图,将每个病例的每一个变量的具体数值填入,如下图所示。
到此,数据库建立完成,将其保存为扩展名为.sav的SPSS文件,命名为“职工数据”。一般当数据较小时, 我们可以直接输入的方式建立数据库;当数据库较大时,我们一般不直接在SPSS中录入, 而是釆用其他方式建立数据库(如Excel),然后用SPSS直接导入的方法建成。
四、不同问卷题目数据的录入
在介绍了数据文件的创建与编码后,更重要的便是如何正确的录入问卷数据。以下将重点介绍不同类型问卷数据的录入问题。各色各样的问卷题目的类型大致可以分为单选、多选、排序、量表、开放题目五种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:
1 、单选题:答案只能有一个选项
例1:您的学历?
A初中级以下B高中C本科D硕士及以上
编码:只定义一个变量,Value值1、2、3、4分别代表A、B、C、D 四个选项。
录入:录入选项对应值,如选C则录入3
2、多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。
方法一(二分法):
例2:您喜欢哪些体育运动?
A足球B篮球C羽毛球 D排球 E 乒乓球 F游泳 G其它
编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1”选。
录入:被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。
方法二:
例3:你认为开展保持党员先进性教育活动的最重要的目标是那三项:1()2( )3()
A、提高党员素质B、加强基层组织 C、坚持发扬民主D、激发创业热情 E、服务人民群众F、促进各项工作
编码:定义三个变量分别代表题目中的三个目标,三个变量Value值均同样的以对应的选项定义,即:“1”表示 A,“2”表示 B,“3”表示 C,“4”表示 D,“5”表示 E,“6”表示 F
录入:录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。
3、排序题:对选项重要性进行排序
例4:您购买商品时在①品牌②流行 ③质量 ④实用 ⑤价格中对它们的关注程度先后顺序是(请填代号重新排列)
第一位第二位第三位第四位第五位
编码:定义五个变量,分别可以代表第一位至第五位,每个变量的Value都做如下定义:“1” 品牌,“2”流行,“3” 质量,“4” 实用,“5”价格
录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。
4、选择排序题:
例5:把例三中的问题改为“你认为开展保持党员先进性教育活动的最重的目标是那三项,并按重要性从高到低排序”,选项不变。
编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1” 未选,“2” 排第一,“3” 排第二,“4”排第三。
录入:以变量的Value值录入。比如三个括号里分别选的是ECF,则该题的6个变量的值应该分别录入:1(代表A选项未选)、1、 3(代表C选项排在第二)、1、2、4。
注:该方法是对多选题和排序题的方法结合的一种方法,对一般排序题(例四)也同样适用,只是两者用的分析方法不同(例四用频数分析、例五用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。
5、开放性数值题:这类题目要求被调查者自己填入数值,或者打分
例6你的年龄(实岁):______
编码:一个变量,不定义Value值
录入:即录入被调查者实际填入的数值。
6、量表类题目:
例7 您对服务质量的满意程度:______
非常满意 满意 一般 不满意 非常不满意
编码:定义服务质量为一个变量,答案非常满意定义5,满意定义4,一般定义3,不满意定义2,非常不满意定义1
录入:根据被调查者的实际答案录入相应的数值。如非常满意则录入5
6、开放性文字题:
如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。
领取专属 10元无门槛券
私享最新 技术干货