|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
打开Matlab输入doc dendrogram,可以发现如下描述:* {& S# Q- P0 X* T
6 k6 k& u$ A5 K4 b: u* F* F
* C: i' H8 ~3 q# z8 _( k) l
$ ^9 j3 B& ^3 m* g6 z+ y- dendrogram(tree) generates a dendrogram plot of the hierarchical binary cluster tree. A dendrogram consists of many U-shaped lines that connect data points in a hierarchical tree. The height of each U represents the distance between the two data points being connected.
- If there are 30 or fewer data points in the original data set, then each leaf in the dendrogram corresponds to one data point.
- If there are more than 30 data points, then dendrogram collapses lower branches so that there are 30 leaf nodes. As a result, some leaves in the plot correspond to more than one data point.) h- P, }1 e+ u+ Y- ]
& k; P0 B* I0 p% ^8 Z( W% S! g- X
, U+ U6 m4 o* Q根据参考文献的思路,可能下面的说法更加好理解一些。9 i X6 i& ~0 u+ @- ^+ U
2 G4 W J5 _6 Q3 a9 ]' M! F! K
在教材P301页$ b6 h1 V7 a4 a: C, U
1)H=dendrogram(Z)
9 X8 g6 K5 Z9 T( l+ X: A 有这么一句话,“当原始数据中观测数多于30个时,整个树形图会显得比较拥挤,可能会忽略某些底层节点,也就是说此时树形图中的某个叶节点可能对应多个观测。”
; b6 Z' h; l# T+ f% h 请问,可能会忽略某些底层节点是什么意思啊?某个叶节点可能对应多个观测又是什么意思呢?, ]1 R }2 L4 Z" v" R
还有这里的底层节点和叶节点分别是什么意思啊?! t9 U0 k- J4 _
2)H=dendrogram(Z,P). j) h4 e& b: a( M/ v
若P为正整数,并且原始数据中的观测数多于P个时,将忽略某些底层节点,使得树形图的叶节点不多于P个。若P为0,则显示全部节点,此时树形图可能会显得比较拥挤。
; s8 f$ r* @8 d; ^7 U/ L4 E3 V4 g5 E, f% E' @6 N9 O
聚类树形图上显示(注意是显示出来的)的最底层称为叶节点,当观测数目不太多时,聚类树形图能显示所有观测,此时叶节点就是各个观测;当观测过多时,聚类树形图无法显示所有观测点,也就是说某些细节会被掩盖,换句话说就是某些细小的树枝(由某些观测构成的一个小树枝)会显示为一个叶节点,此时某个叶节点可能对应多个观测。$ V6 Q# b9 r- L: M9 _2 L
5 @5 t4 u) Q' n# C9 g5 l% k5 q1 X+ k; A1 u+ n6 t* Q) e+ H3 ~* i
+ m$ c3 n& ^8 Y8 m+ I6 Y& `
|
|