大家好、今天我们一起学习探索性分析,主要有以下几个目的:

1、对数据进行过滤和检查,识别离群值、极值、数据中的缺口等其他特征;验证数据的分布特征,正态分布、方差齐性或者不齐性;对不满足的数据,提示转换方法;

2、描述统计量,通过输出直方图、茎叶图、箱体图,来描述个案、各组之间的特征。话不多说,直接上操纵。

SPSS数据分析之探索性分析操作

原始数据

研究问题:探究男女薪水之间的关系


操作:分析→描述统计→探索

SPSS数据分析之探索性分析操作

探索性分析

统计量:

描述性:均值,方差等,均值置信区间可以自己调整

M-估计量:四种权重项的最大似然数,样本平均数、中位数稳健的替代值,用于估计位置

界外值:输出五个最大值和五个最小值

百分位数:输出第5%、10%、15%、25%……95%位置的值

SPSS数据分析之探索性分析操作

统计量

绘制

茎叶图、直方图、带检验的正态图、未转换

SPSS数据分析之探索性分析操作

绘制

确定→输出结果

案例处理摘要


性别

案例


有效

缺失

合计


N

百分比

N

百分比

N

百分比

薪水

26

100.0%

0

0.0%

26

100.0%

22

100.0%

0

0.0%

22

100.0%

男性有22个案例,女性有26个案例,缺失值无。

描述


性别

统计量

标准误

薪水

均值

23072.38

881.637

均值的 95% 置信区间

下限

21256.62


上限

24888.15


5% 修整均值

23146.59


中值

22844.50


方差

20209389.526


标准差

4495.485


极小值

15042


极大值

29807


范围

14765


四分位距

6284


偏度

-.180

.456

峰度

-.834

.887

均值

23424.45

971.636

均值的 95% 置信区间

下限

21403.83


上限

25445.08


5% 修整均值

23520.47


中值

25033.50


方差

20769675.688


标准差

4557.376


极小值

15442


极大值

29626


范围

14184


四分位距

8212


偏度

-.406

.491

峰度

-1.300

.953

描述性统计量,其中5% 修整均值是指截去5%以后的数据求的平均值。

M-估计器


性别

Huber 的 M-估计器a

Tukey 的双权重b

Hampel 的 M-估计器c

Andrews 波d

薪水

23147.46

23224.09

23163.74

23221.36

24023.32

24006.01

23713.92

24002.15

a. 加权常量为 1.339。

b. 加权常量为 4.685。

c. 加权常量为 1.700、3.400 和 8.500

d. 加权常量为 1.340*pi。

M估计值与均值有一定的差异,说明数据中存在异常值,不是很明显的正态分布。

百分位数



性别

百分位数



5

10

25

50

75

90

95

加权平均(定义 1)

薪水

15087.50

15421.90

20228.25

22844.50

26512.50

29269.50

29700.95

15578.35

16546.60

18795.25

25033.50

27007.00

29073.60

29576.35

Tukey 的枢纽

薪水



20323.00

22844.50

26492.00





18925.00

25033.50

26836.00



女性第5%位置上的薪水为15087.50,等等,以此类推。

极值


性别

案例号

编号

薪水

最高

1

18

18

29807

2

11

11

29504

3

3

3

29169

4

15

15

29147

5

35

35

28955

最低

1

27

27

15042

2

1

1

15172

3

17

17

15529

4

23

23

18299

5

38

38

18488

最高

1

28

28

29626

2

20

20

29295

3

7

7

28557

4

39

39

27694

5

29

29

27520

最低

1

21

21

15442

2

37

37

16351

3

33

33

17003

4

19

19

18116

5

31

31

18406

极值:五个最大值,五个最小值

正态性检验


性别

Kolmogorov-Smirnova

Shapiro-Wilk


统计量

df

Sig.

统计量

df

Sig.

薪水

.119

26

.200*

.948

26

.204

.168

22

.109

.912

22

.051

*. 这是真实显著水平的下限。

a. Lilliefors 显著水平修正

从Sig的值大于0.05,说明男女员工的数据都是符合正态分布的,相反小于0.05不符合正态分布。

方差齐性检验


Levene 统计量

df1

df2

Sig.

薪水

基于均值

.073

1

46

.788

基于中值

.000

1

46

.993

基于中值和带有调整后的 df

.000

1

43.800

.993

基于修整均值

.055

1

46

.816

Sig值都大于0.05,说明方差齐性,相反,小于0.05说明方差不齐性。

直方图

SPSS数据分析之探索性分析操作

直方图——女

上图显示女性性别,直方图的正态分布不显著。

SPSS数据分析之探索性分析操作

直方图——男

上图显示男性性别,直方图的正态分布也不显著。

茎叶图


薪水 Stem-and-Leaf Plot for

性别= 女


Frequency Stem & Leaf


3.00 1 . 555

.00 1 .

3.00 1 . 889

7.00 2 . 0011111

1.00 2 . 3

5.00 2 . 44555

2.00 2 . 66

5.00 2 . 89999


Stem width: 10000

Each leaf: 1 case(s)


例如:第一行,茎1加叶0.5,之后乘以10000

薪水 Stem-and-Leaf Plot for

性别= 男


Frequency Stem & Leaf


7.00 1 . 5678889

4.00 2 . 0334

11.00 2 . 55566677899


Stem width: 10000

Each leaf: 1 case(s)

正态 Q-Q 图

SPSS数据分析之探索性分析操作

QQ图——女

SPSS数据分析之探索性分析操作

QQ图——男

图中斜线表示标准正态的线,其中的空心圈表示变量值,变量值越接近直线,表示数据越接近正态分布。

反趋势正态 Q-Q 图

SPSS数据分析之探索性分析操作

反趋势QQ图——女

SPSS数据分析之探索性分析操作

反趋势QQ图——男

离散正态分布,变量的实际观测值作为横坐标,实际观测值与期望值的差作为纵坐标,若实际数据符合正态分布,表示图中的点分布在直线附近。

SPSS数据分析之探索性分析操作

箱图

箱子的上边线代表的是75%的百分位数,下边线代表的是25%的百分位数,中间的是中位数,箱子的上横线和下横线表示除去离群值和极值以外的最大值和最小值,离群值是指距离箱子的上边和下边大于箱子高度的1.5倍到3倍之内的(圈),大于箱子高度的3倍以上的值(*)

SPSS数据分析之探索性分析操作

分布水平图