连续数据包含等距数据和等比数据。教育科学研究中收集到的连续数据多为能力分数、心理素质及其他诸如年龄、收入、时间等数据。连续数据的统计分析方法比离散数据丰富很多,但对数据的分布形态的要求也比较高。在教育科学研究常用的统计分析方法中,大多要求数据的分布为正态分布,当然也会涉及其他的条件,这些都是在选择统计分析方法时需要考虑的。
(一)描述分析
连续型数据的描述分析主要是对数据分布的基本情况进行统计分析,展示数据的基本特征,常用的统计指标有集中量、离散量、百分位分数、分布形态等。下面以关于学生情绪智力调查结果的数据为例进行说明。
1.分布形态的判断
分布形态是决定进一步统计分析的基础,在对一个数据进行分析之前,需要基本了解数据的分布形态。数据的正态分布判断方法有两类。一类是通过绘制数据实际分布与理论正态分布的拟合图,根据拟合图的形状进行直观的判断。另一类则是统计数据分布的偏态系数,根据偏态系数值进行判断。由于偏态系数的统计包含在集中量、离散量分析过程中,将放在该过程介绍中进行说明。
正态分布P-P图的SPSS操作过程如下:
选择Analyze→Descriptive Statistics→P-P Plots,打开P-P图绘制的对话框,将情绪智力变量放入右侧“Variables”框,如图12-9所示。研究者的目的是检验被调查者的情绪智力分布是否为正态分布,无须再做任何其他的操作;如果研究的目的是想检验变量是否为其他分布,如二项分布、卡方分布等,则可以在右上方“Test Distribution”的下拉菜单中进行选择。SPSS程序默认的是正态分布(Normal)检验,选择了要检验的变量后,直接点击“OK”键,可以得到图12-10所示的P-P图。图12-10中的圆圈代表的是样本数据中每一个观测值,黑色的对角线由满足正态分布的理论数据构成,如果观测数据基本分布在该条对角线附近,则认为数据满足正态分布。图12-10显示情绪智力的分布基本接近正态分布。
图12-9 P-P图绘制对话框
图12-10 P-P图示例
2.基于Frequencies过程的分析
前面介绍过,Frequencies过程是离散数据频次分析的主要实现渠道,除了基本的频次分析外,Frequencies过程还可以分析一个数据次数分布的基本情况,包括平均数、标准差、百分位分数等基本统计量,以及次数分布形态的统计量指标的分析。
Frequencies过程对连续变量进行描述统计分析的SPSS操作如下:
选择Analyze→Descriptive Statistics→ Frequencies,打开Frequencies的对话框,将情绪智力变量放入右侧“Variable(s)”框,点击右侧“Statistics”选项(可参考图12-4),打开如图12-11所示对话框。
图12-11 Frequencies过程中Statistics功能对话框
图12-11所示的Statistics对话框包含4个统计模块。Percentile Values模块主要用于计算百分位数,各复选框功能如下。Quartiles:输出第一、第二、第三四分位数;Cut points for □equal groups:在 □中填入任意整数,可以输出相应的各等分组的百分位数;Percentile(s):在右侧方框中输入任意0~100的数字,并添加,可以输出相对应的百分位数,如输入33.3,则会输出P33.3对应的分数。Central Tendency模块为集中量的分析模块。该模块的复选框由上到下可依次输出变量的平均数(Mean)、中位数(Median)、众数(Mode)及总和(Sum)。Dispersion模块为离散量的分析模块。该模块的复选框左侧由上到下可依次输出变量的标准差(Std.deviation)、方差(Variance)和全距(Range);右侧由上到下可依次输出变量的最小值(Minimum)、最大值(Maximum)和标准误(S.E.Mean)。Distribution模块为分布形态分析模块。该模块的两个复选框分别提供变量的偏态分析和峰态分析。
一般情况下,研究者会根据研究的需要在上述Frequencies过程的Statistics模块中选择相应的统计模块,通常用得比较多的是百分位数模块,因为其余模块的统计功能可由接下来要介绍的Descriptives模块实现,所以这里仅选择百分倍数模块第一个复选框进行结果输出的解释和说明。
勾选图12-11中Percentile Values下的 Quartiles复选框,点击左下方的“Continue”键返回Frequencies的主对话框,点击“OK”键可得到表12-7的输出结果:行1和行2报告样本量的情况,有效样本量为120个,缺失数据为0个;行3至行5分别报告了三个四分位数Q1、Q2和Q3。由表12-7中数据可知,Q1即P25=104.2500,说明在该调查样本中有25%的被调查者的情绪智力低于104.2500;同理,有50%的被调查者的情绪智力低于114.5000,75%的被调查者的情绪智力低于122.7560。
表12-7 四分位数输出结果
3.基于Descriptives过程的分析
Descriptives过程是对连续数据进行描述分析的最常用过程,其操作过程如下:
选择Analyze→Descriptive Statistics→ Descriptives,打开描述分析的对话框,将情绪智力变量放入右侧“Variable(s) ”框,如图12-12所示。Descriptives过程的默认输出的统计量只有样本量、最小值、最大值、平均数和标准差,如果希望得到其他描述统计量,点击右上方的“Options”框,打开如图12-13所示的对话框,该对话框所包含的模块与前述Frequencies过程的Statistics复选框的功能模块基本一致。勾选“Options”对话框中的“Distribution”选项中“Skewness”复选框,点击“Continue”键返回主对话框,点击“OK”键可得到表12-8的输出结果。
图12-12 Descriptives过程对话框
表12-8中,行2的第2列到第8列分别是样本量、最小值、最大值、平均数、标准差、偏态系数值、偏态系数标准误这些常用的描述统计量。根据偏态系数值判断数据分布形态的标准是:偏态系数值等于0为正态分布;大于0为正偏态分布;小于0为负偏态分布。本例中情绪智力分布的偏态系数值为-0.175,小于0,属于负偏态分布,但由于该值偏离0的距离较小,可以认为它是近似正态分布。另外需要注意的是,SPSS输出的平均数与标准差的小数点后位数比较多,且不一样多。我们根据输出结果整理论文中的统计表时需要将其进行简化和统一,一般情况下取小数点后两位有效数字。
图12-13 Descriptives过程Options操作对话框
表12-8 Descriptives过程结果输出表
(二)推断分析
推断分析在教育科学研究中主要是以差异检验为主,例如,在教育调查或测验中想要了解学生的成绩是否存在性别差异、学校差异,学生的心理素质是否存在年级差异、家庭背景差异等;或者在教育实验中想要考察实验组与对照组的差异、训练前后的差异等。这种差异研究实际上是考察两个变量之间的关系,如成绩与性别之间的关系,其中成绩是连续变量,性别是类别变量,或者叫分组变量,也可以理解为考察连续变量在类别变量的不同类别上是否存在差异。常用的统计分析方法有t检验和方差分析。
1.t检验
t检验适用于分组变量的类别只有两类情况,如属于个体变量的性别、是否独生子女、结婚与否、升学的成功与失败等,以及在实验研究中对自变量的分类,即实验处理组与对照组、实验处理前与处理后等。根据分类变量两个类别之间的关系,又可以将t检验分为独立样本t检验与相关样本t检验。独立样本指类别变量的两个类别之间是相互独立的,即分别是由相互独立的被试样本构成的,如男性被试与女性被试、实验组被试与对照组被试;相关样本指类别变量的两个类别之间是相互关联的,即同一批被试参与了两个类别下的处理,或者是完全匹配的两组被试参与两个类别下的处理,如前后测研究中只有一组被试分别接受前测和后测、同一批学生的两次测验、同卵双生子匹配组分别接受不同的实验处理等。
这里以情绪智力的性别差异检验为例介绍独立样本t检验的SPSS操作:
选择Analyze→Compare Means→Independent-Samples T Test,打开t检验的对话框,如图12-14所示,将情绪智力变量放入右侧“Test Variable(s)”框,将性别变量放入右侧“Grouping Variable”框。然后点击该框下面的“Define Groups”,打开如图12-15所示的子对话框,该对话框主要用于定义数据文件中类别变量两个类别对应的值,本例中1代表男,2代表女,所以两个类别对应的值是1和2,录入后点击“Continue”键返回主对话框,点击“OK”键,可得到如表12-9、表12-10所示的t检验结果。
表12-9是情绪智力变量在类别变量上的一个描述统计分析结果,分别报告了两个样本的容量、平均数、标准差与标准误。
表12-10是t检验结果报表,该报表含两个差异检验的结果。第一个是“Levene’s Test for Equality of Variances”,即两个样本方差的齐性检验。第二个是“t-test for Equality of Means”,即t检验的结果。方差齐性是独立样本t检验的前提条件,如果不满足该条件,需要对t检验的自由度进行校正,再进行检验。表12-10中列2和列3为方差齐性检验结果,分别报告了F值及其伴随概率,由表12-10中数据可知,F值为0.000,伴随概率为1.000,大于0.05,故接受零假设,即两样本方差相等。表12-10中列4至列6为t检验结果,其对应的行1与行2分别为方差齐性和方差不齐条件下的检验结果,本例中方差齐性,故只读取行1的结果。由表12-10中数据可知,t值为0.940,自由度(df)为118,伴随概率为0.349,大于0.05,故接受零假设,即男女生的情绪智力没有差异。表12-10中列7至列10为两样本差异的平均数、标准误和95%的置信区间,由于研究中并不太关注这些,故不做说明。如有需要可以参考教育或心理类的统计教材[1]。
图12-14 Independent-Samples T Test对话框
图12-15 Define Groups 子对话框
表12-9 Independent-Samples T Test描述统计结果输出表
表12-10 Independent-Samples T Test差异检验结果输出表
相关样本是指同一组被试接受不同的实验处理或者测验后得到的两个样本。这里以同一组被试对父亲和母亲教养方式的评价为例,分析父亲教养方式与母亲教养方式是否有差异。
相关样本t检验的SPSS操作如下:
选择Analyze→Compare Means→Paired-Samples T Test,打开t检验的对话框,如图12-16所示,将代表父母新教养方式的FF1和MM1两个变量放入右侧 “Paired Variables”框,点击“OK”键,可得到如表12-11、表12-12所示的t检验结果。
表12-11为描述统计分析结果,与独立样本t检验相同,这里不再赘述。表12-12为两样本差异检验结果,其中列2至列6为两样本差异的平均数、标准误及95%置信区间,也与独立样本的结果输出一致。列7至列9为t检验结果,由表12-12中数据可知,t值为-10.509(负值是因为样本1的平均数小于样本2,报告时可忽略),自由度为119,伴随概率为0.000(取小数点后三位有效数字得到的值),小于0.05,拒绝零假设,接受研究假设,即被试对其父亲教养方式和母亲教养方式的评价有显著差异。当t检验显示差异显著时,需要具体说明差异的表现,可以通过查验描述统计结果报表进行说明。本例中可知父亲教养方式的得分显著低于母亲教养方式的得分。至于如何解释这个结果,需要研究者根据自己的研究情况,结合父母教养方式的具体意义来进行分析。
图12-16 Paired-Samples T Test对话框
表12-11 Paired-Samples T Test描述结果输出表
表12-12 Paired-Samples T Test差异检验结果输出表
2.方差分析
方差分析主要用于实验数据的分析。根据研究中自变量(也是类别变量)的个数,可以把方差分析分为单因素(只有1个自变量)方差分析和多因素(多于1个自变量)方差分析。教育科学研究中较为常用单因素方差分析,此外,单因素方差分析也适用于调查研究中考察多分类人口统计学变量的差异,如学生的发展水平是否存在年级(如果有两个以上的年级同时进行比较)的差异。
这里以一个关于教学方法的研究为例进行说明。研究者想要了解讲授式、启发式与讲授启发混合式三种教学方法的效果有什么不同,选择了三个各方面水平相当的班级,进行教学实验,然后用同一份试卷对三个班的学生进行测验。对该研究的分析就要用到单因素方差分析。单因素方差分析有三个基本前提条件:因变量正态分布、各处理方差齐性、各处理相互独立。关于正态分布的判断前面已经提过,各处理相互独立如果严格按照实验设计进行操作,理论上也基本满足,可以不用检验。方差齐性的检验将在操作过程中进行说明。另外,单因素方差分析的零假设是“各实验处理无差异”,研究假设是“各实验处理至少有一对有差异”或者“实验处理的效果显著”,当方差分析结果显示拒绝零假设,接受研究假设时,还需要判断到底哪些处理之间的差异显著,这时就需要进行多重比较。多重比较也将在操作过程中进行说明。
单因素方差分析的SPSS操作如下:
选择Analyze→Compare Means→One-Way ANOVA,打开单因素方差分析的对话框,如图12-17所示,将成绩变量放入右侧“Dependent List”框,将教学方法变量放入右侧“Factor”框;接着点击右侧复选框中的“Option”选项,打开如图12-18所示的对话框,勾选“Statistics”下的“Descriptives”(输出各处理样本的基本描述统计分析)和 “Homogeneity of variance test ”(输出方差齐性检验结果)选项,点击“Continue”键返回主对话框;然后点击主对话框右侧复选框中的“Post Hoc”选项(输出多重比较结果),打开如图12-19所示的对话框,勾选“Equal Variances Assumed”下的“LSD”选项,勾选“Equal Variances Not Assumed”下的“Tamhane’s T2”选项,点击“Continue”键返回主对话框;点击“OK”键,可得到表12-13至表12-16四个表格。
图12-17 One-Way ANOVA对话框
图12-18 One-Way ANOVA 中Option 选项对话框
图12-19显示的是多重比较的对话框。方差分析中对各处理的多重比较方法可根据各处理方差齐性的结果分为方差齐性条件的多重比较和方差不齐条件下的多重比较。每种分类根据不同的具体情况,有多种具体的多重比较的方法,关于这些方法的使用条件,可以参考张文彤书中的介绍[2]。本书介绍的“LSD”和“Tamhame’s T2”两种方法分别是方差齐性和方差不齐两种情况下相对通用的多重比较方法。
图12-19 One-Way ANOVA 中Post Hoc 选项对话框
表12-13是不同教学方法条件下学生成绩的描述统计分析,列2至列4分别是样本量、平均数和标准差,这三个统计量一般是论文中结果报告的主要内容,有必要时才报告其他各列的数据结果。
表12-14是方差齐性检验结果,表12-14中数据表明,方差值为4.863,伴随概率为0.009,小于0.05,拒绝零假设,各处理方差不等。
表12-13 One-Way ANOVA过程中成绩描述统计分析结果
表12-14 One-Way ANOVA过程中成绩方差齐性检验
表12-15是方差分析表,由表12-15中数据可知,F值为50.514,伴随概率为0.000,小于0.05,拒绝零假设,接受研究假设,即不同教学方法的效果有显著的差异。当实验处理差异显著时,需要进一步了解究竟哪些处理之间差异显著,这时就要参考表12-16的多重比较结果了。
表12-15 One-Way ANOVA过程中成绩方差分析表
表12-16 One-Way ANOVA过程中多重比较结果
[1] 张敏强.教育与心理统计学(第3版)[M].北京:人民教育出版社,2010.
[2] 张文彤,邝春伟.SPSS统计分析基础教程(第2版)[M].北京:高等教育出版社,2014.