|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
一种联合文本和图像信息的行人检测方法
, H M2 F: { \# b$ F5 e; a1 ^7 v
/ Z0 s, C0 b8 F) W# R摘要:针对纯视觉行人检测方法存在的误检,漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本" @2 o# d v+ ~1 Y$ c/ s
分析的方法获取文本中有关图像目标的实体表达,并提出一种基丁马小科大随自以的的机h裸常提高交通场景下行本实体表达之间的共指关系(Coreference Relation) ,以此达到联合图像和文本信息以辅助机器视觉提高交通场景下行
# e& v4 u4 V& f6 g" a人检测精度的目的.在增加了图像文本描述的加州理工大学行人检测数据集上进行的测评结果表明,该方法不仅可以在图像信息的基础上联合文本信息提高交通场景中的行人检测精度,也能在文本信息的基础上联合图像信息提高文本中的指代消解( Anaphora Resolution)精度.
8 q1 k9 Q0 S; s+ h9 j" B. ~关键词:行人检测;马尔科夫随机场;文本-图像信息联合;共指关系;指代消解
2 }2 d3 j! j' w: A
^* [5 G! ^! f% p5 k5 T# ]' H! [. z9 Y5 n6 A% y" ~
8 T1 R- I( Z3 |* j5 Z! T1引言: `: G+ [" u5 ~! b5 Z' v
行人检测是智能车辆的重要研究内容,也是计算机视觉的研究热点".传统的纯视觉的行人检测方法是基于滑动窗口的检测机制[2,并通过挖掘有强大描述能力的特征[3、设计强判别能力的分类器]、以及对多视图、多姿态检测问题的研究[5],以提高该类方法的检测精度和速度.然而,在复杂的城市道路环境下,车辆和行人通常一起出现并存在相互遮挡的现象,智能车辆无法对当前的交通环境做出正确的感知;此外,算法对远距离(低分辨率、小尺度)目标检测精度低,以致车辆无法及时准确的检测出行人.针对上述两个问题,研究者们提出了相应的解决方法〔6·7].但这些纯视觉的方法只是为了解决某一具体检测问题,并没有同时考虑交通场景中所有难点[8],如何在原有视觉信息的基础上融人新的信息以提高检测精度成为了当前研究的难点.随着语音识别和人机交互水平的提高,通过语言辅助机器视觉系统控制智能车辆通过复杂的城市道路环境成为了可能.当有行人被车辆或者被其它物体部分遮挡导致视觉处理方法没有成功检测出行人时,乘客可以通过简单的语言描述提示智能车辆,例如:“前方有两辆汽车,其中深色汽车的右方有两个行人,他们有可能横穿马路”.简单的语言描述可以为机器视觉提供丰富的信息”,并辅助智能车辆更好的感知当前道路环境.2 U& e, b' Y/ h9 _7 H/ C
文本信息与图像信息正确、有效联合的关键步骤是找出文本中所有的实体表达( Mention)和图像中的目标实体(Entity)之间的共指关系.而正确找出文本中所有的目标实体需要对文本中所有的实体表达进行指代消解(Anaphora resolution).在过去的十年中,对联合文本和图像信息的研究主要集中在图像检索10和自然语言生成".12],也有少量研究者通过自然语言帮助机器理解视觉场景["3]和图像语义划分[9].9 z7 e2 D/ h5 g: \% C b
. l3 ~. _2 n4 b9 K, }: H; C" Q9 `6 J
' s `9 @0 P: \
/ Z* i1 K+ P8 [: J0 G
|
|