|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
打开Matlab输入doc dendrogram,可以发现如下描述:2 s% g0 f. y" S5 O$ X
( L* t3 M/ w/ g; @9 F
0 s, b. @8 b0 {+ N7 ~0 {0 T* u% @7 s" i# f/ F
- dendrogram(tree) generates a dendrogram plot of the hierarchical binary cluster tree. A dendrogram consists of many U-shaped lines that connect data points in a hierarchical tree. The height of each U represents the distance between the two data points being connected.
- If there are 30 or fewer data points in the original data set, then each leaf in the dendrogram corresponds to one data point.
- If there are more than 30 data points, then dendrogram collapses lower branches so that there are 30 leaf nodes. As a result, some leaves in the plot correspond to more than one data point.& k5 Q0 [- q0 W7 K' H& W
9 I% k2 m: V6 V1 m5 m% V
2 P5 X9 L' G6 C9 L8 W+ I根据参考文献的思路,可能下面的说法更加好理解一些。
' _ s7 e1 U6 J1 V( J$ z
5 R, W8 E+ U, p. d, C 在教材P301页
0 H" K2 W' P1 x+ X2 i, I7 b1)H=dendrogram(Z)# @) O7 K/ H' J# V! E( L7 y
有这么一句话,“当原始数据中观测数多于30个时,整个树形图会显得比较拥挤,可能会忽略某些底层节点,也就是说此时树形图中的某个叶节点可能对应多个观测。”, y" u, h0 [8 G) L. \) b, A7 ?
请问,可能会忽略某些底层节点是什么意思啊?某个叶节点可能对应多个观测又是什么意思呢?( O* K4 v. s0 n( Q( o/ N
还有这里的底层节点和叶节点分别是什么意思啊?; A4 S9 M3 N% E N# o
2)H=dendrogram(Z,P). S/ K8 z3 c6 N6 n3 g
若P为正整数,并且原始数据中的观测数多于P个时,将忽略某些底层节点,使得树形图的叶节点不多于P个。若P为0,则显示全部节点,此时树形图可能会显得比较拥挤。2 V4 q7 ^& x' l$ p
3 a; M; \7 ?8 \, l/ ?7 w5 g
聚类树形图上显示(注意是显示出来的)的最底层称为叶节点,当观测数目不太多时,聚类树形图能显示所有观测,此时叶节点就是各个观测;当观测过多时,聚类树形图无法显示所有观测点,也就是说某些细节会被掩盖,换句话说就是某些细小的树枝(由某些观测构成的一个小树枝)会显示为一个叶节点,此时某个叶节点可能对应多个观测。
! W% G B" E* f0 [1 C8 f" P4 C. c7 y/ T4 d8 x" ^2 {2 M
D% a+ H0 Y. B& s T% Z' [
. o) u( l! A( D! H
|
|