主成分分析实验
第一部分:实验的目的和原理
实验目的:1熟练运用主成分分析软件命令;
2能够运用主成分分析的方法解决实际问题。
实验原理:1尽可能保留原指标所含信息;
2各自信息不重叠。
第二部分:实验,步骤,程序
例子:随机抽取30名某年级中学生,测量他们的身高( ),体重( ),胸围( )和坐高( )数据图下表:
| 表1
30名中学生测量结果 | |
序号 | 身高 | 体重 | 胸围 | 坐高 |
1 | 148 | 41 | 72 | 78 |
2 | 139 | 34 | 71 | 76 |
3 | 160 | 49 | 77 | 86 |
4 | 149 | 36 | 67 | 79 |
5 | 159 | 45 | 80 | 86 |
6 | 142 | 31 | 66 | 83 |
7 | 153 | 43 | 76 | 79 |
8 | 150 | 43 | 77 | 80 |
9 | 151 | 42 | 77 | 74 |
10 | 139 | 31 | 68 | 74 |
11 | 140 | 29 | 64 | 84 |
12 | 161 | 47 | 78 | 83 |
13 | 158 | 49 | 78 | 77 |
14 | 140 | 33 | 67 | 73 |
15 | 137 | 31 | 66 | 79 |
16 | 152 | 35 | 73 | 79 |
17 | 149 | 47 | 82 | 77 |
18 | 145 | 35 | 70 | 87 |
19 | 160 | 47 | 74 | 85 |
20 | 156 | 44 | 78 | 82 |
21 | 151 | 42 | 73 | 78 |
22 | 147 | 38 | 73 | 80 |
23 | 157 | 39 | 68 | 75 |
24 | 147 | 30 | 65 | 88 |
25 | 157 | 48 | 80 | 80 |
26 | 151 | 36 | 74 | 76 |
27 | 144 | 36 | 68 | 76 |
28 | 141 | 30 | 67 | 73 |
29 | 139 | 32 | 68 | 78 |
30 | 148 | 38 | 70 | 74 |
试用SPSS软件对学生身体4项指标进行主成分分析计算。
操作方法如下:
第一步:建立数据文件。定义数值型变量 ,然后将变量 进行指标化变换,即从菜单上依次点选AnalyzeàDeslriplive StatisticsàDescriplives命令,打开描述统计Descrptives对话框,将变量 移到右侧的Variable(s)之中。并勾选对话框左下角的复选框Save Standardizeed Values as Vareables(把标准化值存为变量)。此时单击OK按钮执行,即可在数据文件中生成变量 ,相应的标准化变量 。
第二步:从菜单上依次点选AnalyzeàData DeductionàFactor,打开Factor主对话框,将原始量身高( ),体重( ),胸围( )和坐高( )同时移入Variable(s)框下,单击OK按钮执行,本题要求差的累积贡献率达到90%,则需要提取两个主成分,打开其对话框重新设置,选中Number of factors,并输入2之后单击Continue。按钮回到Factor Analysis主对话框,最后单击OK执行,生成程序如下:
2、之后单击Continue按钮回到Factor,Analysis主对话框,最后单击OK执行。生成程序如下:
FACTOR
/VARIABLES X1 X2 X3 X4/MISSING LISTWISE/ANALYSIS X1 X2 X3 X4/
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION PC
/ROTATION NOKOTATE
/SAVE REG CALL/
/METHOD=CORRELATION
输出结果与分析如表二~表三所示
表示 总方差解释
Total Variance Explainal
Component | Initial | Eigenvalues | Extraction Sums of Squared Loadings |
Total | %ofVarianue
| Comulave% | Total | %ofVarianue
| Comulave% |
1 | 3.541 | 88.527 | 88.527 | 3.541 | 88.527 | |
2 | 0.313 | 7.835 | 96.362 | 0.313 | 7.835 | |
3 | 7.94E-02 | 1.985 | 98.347 | | | |
4 | 6.61E-02 | 1.653 | 100 | | | |
Extraction Method:Principal Component Analysis
由上表知,相关系数矩阵的特征根分别为:
=3.541 =0.313 =0.0794 =0.0661
当m=2时,某计贡献率已达96.326%,即包括了原始变量96.362%的信息,因此取两个主成分即可
表三 主成分提取的因子载荷阵初始解
Component Matrie
| Component |
1 | 2 |
| 0.9350.9680.9650.945 | 0.3040.1180.4060.206 |
对于表三的每一列值分别除以
这样就得到了每一个特征根对应的单位特征向量如: = =
由此,可以写出第一主成分表达式:
F1=0.4972X1+0.5142X2+0.4812X3+0.5072X4
同理可得到第二主成分表达式:
F2=0.5432X1+0.2112X2+0.7262X3-0.3682X4
以下是根据两个主成分F1,F2的表达式,通过Computer命令计算的30个中学生两个成分结果
序号 | 第一主成分 | 第二主成分 | 序号 | 第一主成分 | 第二主成分 |
1 | -0、07 | 0.23 | 16 | -0.06 | -0.2 |
2 | -1.57 | 0.7 | 17 | 1.53 | 1.68 |
3 | 2.8 | -0.38 | 18 | -1.06 | 0.07 |
4 | -0.75 | -0.79 | 19 | 2.48 | -0.95 |
5 | 2.69 | -0.01 | 20 | 2.1 | -0.02 |
6 | -2.07 | -0.32 | 21 | 0.78 | -0.16 |
7 | 1.4 | 0.06 | 22 | -0.28 | 0.35 |
8 | 0.81 | 0.77 | 23 | 0.25 | -1.24 |
9 | 0.92 | 0.58 | 24 | -2.02 | -0.78 |
10 | -2.32 | 0.36 | 25 | 3.03 | 0.06 |
11 | -2.79 | -0.35 | 26 | 0.16 | -0.04 |
12 | 2.56 | -0.21 | 27 | -1.35 | -0.02 |
13 | 2.4 | 0.17 | 28 | -2.12 | -0.14 |
14 | -1.83 | -0.05 | 29 | -2.36 | 0.48 |
15 | -2.77 | 0.31 | 30 | -9.49 | -0.15 |