TA的每日心情 | 奋斗 2020-9-8 15:12 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的 中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词 粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽 取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.
9 a. g7 w9 u, F( J" F, M7 W/ B/ c4 ?! F2 H$ J
关键词: 分词;命名实体识别;双语对齐;机器翻译+ o) h- R7 k6 v% a: e N
% J0 ~' e+ Q( [( x
! v" I/ _: q; R% @. i) i" z, @* X) X. S7 s9 e
在自然语言中,命名实体(人名、地名、组织机构名 等)传递着重要信息,命名实体的识别是自然语言处理 中的一项重要工作.对于跨语言的自然语言处理应用而 言,除了命名实体的识别,命名实体的翻译对于提升机 器翻译质量、跨语言信息检索效果等也有着重要的作 用.命名实体随着时代变化,层出不穷,因此,大多数的 命名实体都属于词典的未登录词(OutofVocabulary, OOV),这为命名实体识别和翻译带来了困难.很多研究 都试图借助于双语平行语料来提升命名实体的识别和 翻译效果.
8 h0 K8 o) w2 R' ^3 a$ M8 r
: H7 U9 [& L) F: _' @- Z4 k b! V8 n' [ F) X+ j
附件下载:+ p# ?* L) A$ m; c' x$ \5 A
|
|