|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
PCA算法主要用于降维,就是将样本数据从高维空间投影到低维空间中,并尽可能的在低维空间中表示原始数据。PCA的几何意义可简单解释为:
- d! w8 J I8 X' i
/ F1 c* f) t/ M) n0维-PCA:将所有样本信息都投影到一个点,因此无法反应样本之间的差异;要想用一个点来尽可能的表示所有样本数据,则这个点必定是样本的均值。 1维-PCA:相当于将所有样本信息向样本均值的直线投影; 2维-PCA:将样本的平面分布看作椭圆形分布,求出椭圆形的长短轴方向,然后将样本信息投影到这两条长短轴方向上,就是二维PCA。(投影方向就是平面上椭圆的长短轴方向); 3维-PCA:样本的平面分布看作椭圆形分布,投影方法分别是椭圆球的赤道半径a和b,以及是极半径c(沿着z轴);; g* p3 M5 N0 ], R/ P
; @7 |3 w3 J( D, B4 b
PCA简而言之就是根据输入数据的分布给输入数据重新找到更能描述这组数据的正交的坐标轴,比如下面一幅图,对于那个椭圆状的分布,最方便表示这个分布的坐标轴肯定是椭圆的长轴短轴而不是原来的x ,y轴。
4 D# @ @9 |0 i6 I& p+ S4 b0 c" d z# u% _# p
; }/ K3 D7 m0 ~+ D0 M) h& @+ s/ S7 g7 Y- X% ]) ?2 ~
那么如何求出这个长轴和短轴呢?于是线性代数就来了:我们需要先求出这堆样本数据的协方差矩阵,然后再求出这个协方差矩阵的特征值和特征向量,对应最大特征值的那个特征向量的方向就是长轴(也就是主元)的方向,次大特征值的就是第二主元的方向,以此类推。
8 [5 m; E' y& ], @4 Q p9 \5 Q" X$ J* {3 W
实现PCA的方法, 可【1】直接调用Matlab工具箱princomp( )函数实现,也可【2】 自己实现PCA的过程,当然也可以【3】使用快速PCA算法的方法。
- \& {1 f1 Q; B [6 Q w
1 d0 J& k) }5 t' ?(1)方法一:[COEFF SCORE latent]=princomp(X) 参数说明: 1)COEFF 是主成分分量,即样本协方差矩阵的特征向量; 2)SCORE主成分,是样本X在低维空间的表示形式,即样本X在主成份分量COEFF上的投影 ,若需要降k维,则只需要取前k列主成分分量即可 3)latent:一个包含样本协方差矩阵特征值的向量;
! s6 F2 Y# |1 ^! Q, w
" ?2 y. r. E* J8 p2 L) t, Y7 N实例:假设有8个样本,每个样本有4个特征(属性),使用PCA方法实现降维(k维,k小于特征个数4),并提取前2个主成份的特征,即将原始数据从4维空间降维到2维空间。
6 C8 I; E H' U7 P9 I; Z l1 u! }$ ?2 c" l! k
%% 样本矩阵X,有8个样本,每个样本有4个特征,使用PCA降维提取k个主要特征(k<4)
/ C& e9 C" H9 M& Rk=2; %将样本降到k维参数设置
9 e: R& W0 K9 K) ?- B a& D% cX=[1 2 1 1; %样本矩阵
T3 U/ \3 a0 @% q& A& D" n# i 3 3 1 2; 2 ^8 P" Q5 h& N9 B3 B8 H
3 5 4 3; ; `* U/ Y/ x- K7 m w( [
5 4 5 4;
y T* P; {! k: W3 z 5 6 1 5; ' t+ ?. j$ q4 K) S
6 5 2 6;
$ o# n' Y. d( F 8 7 1 2;% [ R' B8 x/ ~6 p. ?! M
9 8 3 7]
( O: c4 O4 X- T' k" J%% 使用Matlab工具箱princomp函数实现PCA! u4 c2 |" c% d+ N$ C
[COEFF SCORE latent]=princomp(X): h- ?. T) @# R# s& H' R
pcaData1=SCORE(:,1:k) %取前k个主成分) l2 G& ]! ^, t3 g6 k0 M( U
7 O0 ]- Z {. M0 p: [( ?
运行结果:& ~: U9 a& y F; V! s5 @8 s
' s) t* S( a: Q/ j8 c; UX =
/ D" P! Q: k% H 1 2 1 1
+ K, ?" q; G7 a- y4 Y1 U 3 3 1 2
- [' ?4 u3 z/ `6 [9 C0 w 3 5 4 3- k5 n' ? K) ^" d- B# \) ~
5 4 5 4# o% x. |) \6 [/ n: r: Z
5 6 1 5
2 g/ A: K( b9 w$ C# C, Y 6 5 2 6. C4 l% ]2 u0 |
8 7 1 2 x9 |/ A9 I9 p+ W" u3 ^% Q7 ^
9 8 3 7$ l( A; k; {1 q
COEFF =
: w) T/ D# ?+ v7 r 0.7084 -0.2826 -0.2766 -0.5846
2 ?" }+ I( O, A/ K 0.5157 -0.2114 -0.1776 0.8111
5 w+ t3 J! \8 N+ @7 t, ` 0.0894 0.7882 -0.6086 0.0153
% B$ |0 Q" @( E- W3 l' c 0.4735 0.5041 0.7222 -0.0116
/ ~4 x7 E) X0 ]& ]1 ?SCORE =
& o. Y# V0 b/ Y8 M. N) g T0 C- q -5.7947 -0.6071 0.4140 -0.0823
g$ }+ F3 O- D- A3 I -3.3886 -0.8795 0.4054 -0.4519
4 Q6 K* i6 t- c6 b) m! t! ` -1.6155 1.5665 -1.0535 1.2047
) k+ g" P j' e* i, b -0.1513 2.5051 -1.3157 -0.7718
4 x3 @4 z o" s S6 P0 n' b 0.9958 -0.5665 1.4859 0.7775% m) x5 ?; g9 `( N" e
1.7515 0.6546 1.5004 -0.6144
" p* V% Z( {% t' d1 j 2.2162 -3.1381 -1.6879 -0.1305
5 t# ?0 }! ?7 ? 5.9867 0.4650 0.2514 0.0689
, ?! u9 t2 X" A' }+ Z3 I. X3 ?' Ylatent =5 v$ N& Y9 j \1 [1 C
13.2151
; y4 e8 b: Y3 n2 F# E6 r% M 2.9550
?' B, H2 p( `: L5 u$ s) s 1.5069
" `4 f! [, Y. R6 m: M- N& \- E# z 0.4660
3 [1 p! Y* z) h! F% ?pcaData1 =' g& `$ G8 s8 Y" x5 C
-5.7947 -0.6071
, x, g) \1 b' | -3.3886 -0.8795
% }% g4 Z9 Z2 w9 R' v -1.6155 1.56658 H8 H: ]4 m+ L
-0.1513 2.5051& b R9 U1 {; f' L, x
0.9958 -0.5665
+ w N- r7 N+ B 1.7515 0.6546
6 V/ ?" S# T! p/ V+ j K0 T 2.2162 -3.1381
9 \$ L1 r9 R( C# E; Y 5.9867 0.4650! G; l2 b5 I/ {( d- M' e5 `; K# h
+ Y a& X/ Q- e5 q# W( a/ |5 _* P' s' N8 L/ N
(2)方法二:自己编程实现 PCA的算法过程,用一句话来说,就是“将所有样本X减去样本均值m,再乘以样本的协方差矩阵C的特征向量V,即为PCA主成分分析”,其计算过程如下: [1].将原始数据按行组成m行n列样本矩阵X(每行一个样本,每列为一维特征) [2].求出样本X的协方差矩阵C和样本均值m;(Matlab可使用cov()函数求样本的协方差矩阵C,均值用mean函数) [3].求出协方差矩阵的特征值D及对应的特征向量V;(Matlab可使用eigs()函数求矩阵的特征值D和特征向量V) [4].将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(eigs()返回特征值构成的向量本身就是从大到小排序的) [5].Y=(X-m)×P即为降维到k维后的数据;5 c' u$ L8 |: y5 [: L' k: y% _: c; ]; x3 ~- S
5 H4 y2 d- q, p3 K9 [% wPS:关于协方差矩阵,很多人有点郁闷,有些教程用协方差矩阵,而有些资料是用散步矩阵计算,其实协方差矩阵和散步矩阵就是一个倍数关系:协方差矩阵C×(n-1)=散步矩阵S。我们可以使用Matlab工具箱的cov函数求协方差矩阵C。& }% J4 r0 O6 }1 g; }& V$ o- F' o
) l( R$ f( F0 D7 U) E" z. ]) h
! {( Q6 |3 |6 q$ F$ n0 k" A %% 自己实现PCA的方法
6 k3 v8 b6 ~. D; Z. t' V[Row Col]=size(X);
1 k& A5 E+ a8 T/ H% \0 A6 N% v1 M% scovX=cov(X); %求样本的协方差矩阵(散步矩阵除以(n-1)即为协方差矩阵)& N$ ~2 z/ @0 b
[V D]=eigs(covX); %求协方差矩阵的特征值D和特征向量V
* G4 W2 f g, }2 R( nmeanX=mean(X); %样本均值m
7 N' _4 W0 {$ E2 x$ D%所有样本X减去样本均值m,再乘以协方差矩阵(散步矩阵)的特征向量V,即为样本的主成份SCORE
& x2 l3 ~( n: g/ ^ {tempX= repmat(meanX,Row,1);) P! x s4 T2 C% r& c6 q5 Y
SCORE2=(X-tempX)*V %主成份:SCORE( q2 R% R, p8 T5 O" c
pcaData2=SCORE2(:,1:k)
/ n) c U5 I, D5 r
$ d+ n- v5 C4 `, K4 m
1 f0 ^" \: ? k( v: Z5 K" x2 m5 a7 ]
运行结果:
. r. y4 J) ^* x1 P; H$ m8 j
) V0 `( W5 q0 _' ^3 F1 ~, m, R1 tSCORE2 =
I/ y% w! W- u& K1 f -5.7947 0.6071 -0.4140 0.0823' H2 L- I0 `' E8 ~
-3.3886 0.8795 -0.4054 0.4519
5 |- m4 X; m- T# [& p -1.6155 -1.5665 1.0535 -1.2047" _% T, h1 L% R6 S
-0.1513 -2.5051 1.3157 0.7718
" G9 P: N7 O( I1 ~ 0.9958 0.5665 -1.4859 -0.7775& s; q Y7 I2 z9 o
1.7515 -0.6546 -1.5004 0.6144/ b( g! D q6 P- H$ \& z2 u
2.2162 3.1381 1.6879 0.1305* `, A# \$ g ]5 m" T
5.9867 -0.4650 -0.2514 -0.0689
& n- ]4 h0 @1 j* c7 ]% t5 l2 e7 \2 {; a& b& I$ ?8 A+ G
pcaData2 =! w' V" l+ m: A" K8 r& h
-5.7947 0.6071
% K" `3 d8 r4 c v -3.3886 0.8795
; o! }: q3 F; {% I. u -1.6155 -1.56657 j2 B& F3 O" s. W& h% ~
-0.1513 -2.5051
2 N, s4 G0 w m/ P: y$ {7 c7 n 0.9958 0.5665
5 |) }- o ] F7 p+ C% P( Y- Z n 1.7515 -0.6546
. v, w9 _! p& \( O* E" K 2.2162 3.1381
) |6 J9 w* V$ f% ? 5.9867 -0.4650# D" Y& E' b2 G
- J7 a6 E: Q" K3 m' v+ z4 V, k' ]- z# R" ^; A' s
对比方法一和方法可知,主成份分量SCORE和SCORE2的绝对值是一样的(符号只是相反方向投影而已,不影响分析结果),其中pcaData是从SCORE提取前2列的数据,这pcaData就是PCA从4维降到2维空间的数据表示形式,pcaData可以理解为:通过PCA降维,每个样本可以用2个特征来表示原来4个特征了。
1 Z6 u, ]. B+ R$ ?' S
5 q- Y4 S% U9 ~( U+ A! A(3)方法三:使用快速PCA方法
2 l8 w& N4 Y; |# ]: c4 g" m% x) u
% ]5 x* |$ r! X6 K8 dPCA的计算中最主要的工作量是计算样本协方差矩阵的本征值和本征向量。假设样本矩阵X的大小为n ×d (n个d 维样本特征向量),则样本散布矩阵(协方差矩阵) S 将是一个d×d的方阵,故当维数d较大时计算复杂度会非常高。例如当维数*d=*10000,S是一个10 000 ×10 000的矩阵,此时如果采用上面的princomp函数计算主成份,Matlab通常会出现内存耗尽的问题(out of memory), 即使有足够多的内存,要得到S的全部本征值可能也要花费数小时的时间。( e' n$ i$ H, `/ F2 Q) U& D
7 a2 L" q6 N' J8 Y& PfastPCA函数用来对样本矩阵A进行快速主成分分析和降维(降至k维),其输出pcaA为维后的k维样本特征向量组成的矩阵,每行一个样本,列数k为降维后的样本特征维数,相当于princomp函数中的输出SCORE, 而输出V为主成分分量,相当于princomp函数中的输出COEFF。7 L3 S/ O% B V' j. L! G
, a. I3 f$ o4 E, E%% 使用快速PCA算法实现的方法+ C6 a8 Z* l/ F9 F$ K
[pcaData3 COEFF3] = fastPCA(X, k )* k% x" w, o8 |# w* j( h% W
( F* v, x: R5 M
- c3 [ n" g# Y p$ D! G1 J" j
其中fastPCA函数的代码实现如下:- y2 h* l, U5 Y- y; C
, u2 g0 k, M, d( {6 Q" H, n% zfunction [pcaA V] = fastPCA( A, k )( P% b, L" J3 n) z# V/ q! g4 s5 i
% 快速PCA
1 t+ P; S; G! k% 输入:A --- 样本矩阵,每行为一个样本
+ B* H: @: p, Y/ l5 I" H, b4 V% k --- 降维至 k 维1 \4 @! q7 i/ u. X
% 输出:pcaA --- 降维后的 k 维样本特征向量组成的矩阵,每行一个样本,列数 k 为降维后的样本特征维数
3 ~6 p: |) u- Z+ }) G1 Z7 N% V --- 主成分向量1 O$ K0 j( E- E4 b( L: O
[r c] = size(A);. K% M& Z8 x# b. [7 f% ^) e+ ^5 K
% 样本均值
) O" Q% W# e4 B* G# r2 CmeanVec = mean(A);* C! @- F. E6 h
% 计算协方差矩阵的转置 covMatT# @0 e) `( |8 N7 |) p3 ~) f
Z = (A-repmat(meanVec, r, 1));7 G4 }/ O. V1 n5 g* ^
covMatT = Z * Z';/ J* F1 `0 P S% u, s+ d
% 计算 covMatT 的前 k 个本征值和本征向量
; b. }/ f& B) @[V D] = eigs(covMatT, k);1 H) q2 s: V2 Z1 ^8 [7 N$ r" P
% 得到协方差矩阵 (covMatT)' 的本征向量
/ |) W2 f# U3 u$ X3 j# SV = Z' * V;. f) S! D# L& W8 A- L# M
% 本征向量归一化为单位本征向量
# q& @6 a& I; k9 z. nfor i=1:k
" L2 a8 H& A8 ]9 |5 e- g2 H, W1 q V(:,i)=V(:,i)/norm(V(:,i));
/ `* z) f& E& N! a, Fend
% I3 x4 g8 {3 }/ Q+ N% 线性变换(投影)降维至 k 维, o# L+ a. i/ B" y9 T6 l- t
pcaA = Z * V;1 l2 z: Z# T& t
% 保存变换矩阵 V 和变换原点 meanVec
0 V! q5 P, q; m# I7 e+ `
; r$ g: m/ B7 A, A; f0 I5 B$ t2 ]9 Q( F% N
2 ^0 x' w7 h N* e3 w
运行结果为:2 [ r' R! p. ~! R7 d
% ]" G# h1 u$ ~* B: rpcaData3 =
& j. R C# i+ N, |* H! S8 S7 a7 H! O" B" H# d! e6 {0 \: ^
-5.7947 -0.6071
# s2 b" r; h3 z* }% j# d5 o -3.3886 -0.8795
! q" w: ]. W& a' u4 G+ e& j -1.6155 1.5665) l% I: Q7 M( s( I, g
-0.1513 2.5051$ H9 N" I: r/ B( O
0.9958 -0.5665! @3 o! j; Q- R+ h$ z! m$ U: X. S) l
1.7515 0.6546
1 A/ B( {' _9 h* q 2.2162 -3.1381
+ h9 m" f+ u3 W7 e5 d2 M f, V 5.9867 0.46508 {% W4 V# B; X
' a& ~! J# n, ~- V$ |
COEFF3 =0 x) X8 [) L" b' U
4 f5 p+ P( O% [
0.7084 -0.2826
6 ]% r6 o* r! o4 G( L 0.5157 -0.2114
2 w7 {, r9 m d( }3 c7 x) ? 0.0894 0.7882
! N$ h* H4 L/ e* E 0.4735 0.5041! K/ V! ^3 Z4 y7 W) \
|
|