TA的每日心情 | 开心 2020-9-2 15:04 |
---|
签到天数: 3 天 [LV.2]偶尔看看I
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 文档表示是排序学习的关键,目前的排序学习算法多采用词袋法表示文档与查询,该方法假设词袋中 的词相互独立,忽略了词之间的关系.为了表示文档中词之间的依赖关系,本研究利用文档与查询的主题特征构建排 序学习模型,我们将排序函数定义为文档与查询之间的主题关系,提出了基于有监督主题模型的排序学习算法自动学 习排序函数.为了评价模型的排序精度,我们在三个标准数据集上进行了实验.实验表明 基于主题的排序学习算法能够发现文档与查询之间内在的语义关联,并改善排序模型的排序精度. 关键词: 排序学习;机器学习;关系主题模型;主题特征3 F+ T: ^! \0 D6 w6 p
8 n3 [& E, a) S- J2 v$ M 文档表示是排序学习的关键,目前的排序学习算法 多采用词袋法表示文档与查询,该方法假设词袋中的词 相互独立,忽略了词之间的关系.为了表示文档中词之 间的依赖关系,研究者们提出了主题模型[1,2].主题模 型已广泛应用于文本分析[3~5]领域.主题模型通过潜在 的主题建立词之间的潜在语义关联.传统的主题模型主 要有 LSA[1]、LDA[2],这些主题模型是非监督模型.Blei 等人[6]提出了可用于预测的有监督主题模型,之后 MedLDA[7]等有监督主题模型也相继提出.上述模型都 是基于单篇文档,不能抽取文档间的关系.该模型 的不足是参数的规模会随着文档数量的增加而增加,且 无法应用于语料库之外的文档.Chang等人[5]提出了(RTM),克服了 MixedMembershipMod els的缺点,不仅保证参数规模不随文档数量的增加而 增加,而且能够对未见数据进行分类与预测. 主题模型在文档排序领域也得到了应用# a1 Q4 n! y4 X+ ]% Q( w' x
5 V& L: r' [1 N- z% z; U, X附件下载:" C e. ]1 d, a4 S, D
|
|