|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
打开Matlab输入doc dendrogram,可以发现如下描述:6 ?& z0 @8 ~3 c& }
8 I" a2 ?) b5 O8 F
, }$ d( b- ~: L# R& S
" T" [+ A, X Z, n" m
- dendrogram(tree) generates a dendrogram plot of the hierarchical binary cluster tree. A dendrogram consists of many U-shaped lines that connect data points in a hierarchical tree. The height of each U represents the distance between the two data points being connected.
- If there are 30 or fewer data points in the original data set, then each leaf in the dendrogram corresponds to one data point.
- If there are more than 30 data points, then dendrogram collapses lower branches so that there are 30 leaf nodes. As a result, some leaves in the plot correspond to more than one data point.2 U f7 W' Q- W' I1 Y
% B; u2 y4 B6 @
1 k+ n) `% ?& B& V/ B! n根据参考文献的思路,可能下面的说法更加好理解一些。 I& O& t- ?" }7 g4 w& \# h
h! O) a: x% V2 F. n 在教材P301页
6 Y( }0 B+ y0 X. X1 n5 M+ K1)H=dendrogram(Z)) p: U. ?& c7 a( k
有这么一句话,“当原始数据中观测数多于30个时,整个树形图会显得比较拥挤,可能会忽略某些底层节点,也就是说此时树形图中的某个叶节点可能对应多个观测。”
' K! J1 N) ~1 q; r9 n 请问,可能会忽略某些底层节点是什么意思啊?某个叶节点可能对应多个观测又是什么意思呢?
5 f8 ~. D3 A3 m: W( d1 ~ 还有这里的底层节点和叶节点分别是什么意思啊?
z; ]6 I) z* E2)H=dendrogram(Z,P)
, m1 J# }2 Q- Z 若P为正整数,并且原始数据中的观测数多于P个时,将忽略某些底层节点,使得树形图的叶节点不多于P个。若P为0,则显示全部节点,此时树形图可能会显得比较拥挤。
# P+ G7 D; T! _
- p( f- a) i4 B- m+ }聚类树形图上显示(注意是显示出来的)的最底层称为叶节点,当观测数目不太多时,聚类树形图能显示所有观测,此时叶节点就是各个观测;当观测过多时,聚类树形图无法显示所有观测点,也就是说某些细节会被掩盖,换句话说就是某些细小的树枝(由某些观测构成的一个小树枝)会显示为一个叶节点,此时某个叶节点可能对应多个观测。( N+ W0 w7 F( z- o; F
: v2 b; O2 q1 Y' r$ s3 M5 D \, |8 w$ a: i! g$ N
8 N8 q/ ?2 }$ ?" \" h8 [
|
|