f- ]' G0 A w+ D$ Y6 a. o$ l
其中用不同颜色标注的是有明显相似特征的句子。) t& m3 }+ c' N1 e$ ?
' o, [, @6 j; p) {: U0 t, z' y8 q分析# _9 a, b2 B' P: g! m
通过下面的文档相似度矩阵可以发现,文档与文档间的相似度较小,这是因为数据集是真实世界的数据集,即BBC SPORT中没有两篇完全一样的报道。另外,BBC SPORT共有5个不同的类别,从实验结果可以看到相同类别间的相似度远远大于不同类别间的相似度,因此,WMD对文本分类是有一定的效果。 * R/ b) a) X, |$ B6 K4 d4 l2 c+ s5 c; r
另外从作者的论文中实验结果可以看到,基于KNN的词移距离算法相对于大多数其他主流文本相似度分析算法来说,错误率要少很多,因此,在工业界,使用WMD来做NLP处理是非常有前景的。" j0 j/ y6 Q1 q; h5 Q
9 V/ o( v7 o: ~% \& b
最后,根据由于WMD是无监督学习,通过有监督学习的论文(Supervised word mover’s distance)中可以发现,加上了监督机制后错误率还能再下降一个层次。# H" k; L [( c% q6 z# T
$ ]+ P& v0 G8 B) Y0 x9 O
需要指出的是,不能简单地添加基于度量学习的监督矩阵,一方面,在计算过程中梯度可能不存在,另一方面,基于KNN的SWMD将会耗费大量的时间,因此需要采取相关措施来解决这些问题。; A2 @9 I; _% z. O R4 O, a3 l
# q9 w5 l7 b1 \3 W( C. XSWMD简介:1 a$ O- [) k) f; Q9 V8 G