找回密码
 注册
关于网站域名变更的通知
查看: 578|回复: 1
打印 上一主题 下一主题

离线语音识别芯片技术及对比

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2020-10-20 13:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    离线语音识别芯片对比: E3 r. \2 F- g: ]5 J7 o

    ; N$ x- o( E1 f( t( y0 d前言
    0 y( H3 _2 E7 z! Y0 X; q/ m
    $ U1 G6 b0 q( y1 `. c" H" _本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。
    * S5 n; x2 w  ?9 F$ j$ n$ a+ O! N4 r8 s$ f3 c
    一、 语音识别技术的原理
    4 M) ]$ [1 {) c! H. d( p& q! K! ]) w* k& }# j
    定义:语音识别技术(ASR Automatic SpeechRecognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。9 q$ C( z9 w( [
    , k- s1 Q# E, B+ x$ V& ~0 q
    1.前端处理* H) A0 [, O- w% u& p! `
    / @1 M+ O/ n* O6 i
    前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理关联硬件:麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程原理简化:
    ; Z- W# F& j) w3 ^( @0 P$ {. i, g. ]# ^. k
    语音声波转模拟电信号:麦克风分柱极体和硅麦两种,硅麦又分为模拟和数字。* L# Q1 {" S$ u+ u% L' q( K
    8 a; ]& Q! y+ L& }
    预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等。
    9 R* i: M7 b" d( r6 h8 I( H4 x2 ]
    ' R7 K" u% U/ x# o& V特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点。- Q9 j& Y* M' F& i$ f

    ; ~2 @5 Q2 |' q% f$ S# q2 K2.模型训练! o( ?" z$ j$ w
    3 w0 ]( @7 N, t$ I3 e7 T' |! i
    模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词。
    # M7 C0 D* _3 H8 W2 H( {0 Q5 [( {; {. D' r. P  X
    那模板怎么来的呢?这需要通过预先大量地采集语音和语言信息(通常叫语料收集),并通过特定的算法跳出最典型的语音特征值。这就叫做“模板训练”,编辑一本字典出来。语音识别系统的模型训练通常分为两套:, n- A3 Y) F+ B+ h

    8 c: H2 V4 ]* x. m, u0 r语言模型训练:语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。& \( ?% `- j3 n& O. i; p1 \6 h, a. o
      `+ g. b$ Y" @$ y' E5 A# F- p# [
    声学模型训练:声学模型是识别系统的底层模型,是语音识别系统中最关键的部分,算法主要集中优化该部分声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。互联网巨头,拥有大量的用户基数和语音收集渠道,相对于传统公司有优势。
    3 y) s9 P2 D& N! a" I4 q: Q' X; E# s. t2 s. B* |7 c% h
    3.后端识别处理(语音解码)
    / s2 W# G/ Z0 ?3 i# b# z4 b$ _4 Z2 c; t. A9 q7 k( s; X0 k
    指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别,并输出识别结果。该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。: ?( V. X0 S, w# n
    ; Y$ c" z# ^1 \4 k
    识别准确率和响应速度,通常取决于主控运算速度,以及前端处理和模型的综合表现。: q" P8 H$ ^2 S" M% N, K

    " b! g! X$ |+ r% S& O1 J2 i以下是详细语音识别技术的原理分支整理:( Q% Y5 E5 a6 y  f; s
    6 y4 W8 V6 V2 _# p) O8 X
    二、语音识别技术的发展史
    4 a/ B& m' Y0 F& ?$ p+ ?% J6 ~& @6 l# u0 N& ?2 D) ^, N1 [
    鉴于语音识别芯片,是与算法有着高度关联。所以以下简单探讨了语音识别技术的发展史。' Q' ~' e( h# c/ [7 U

    3 \7 H& P4 M# N) O语音识别技术的核心和发展,主要在声学模型的建模(训练)的领域上,可以分为三个阶段:
    9 V& s( W8 D4 I% @5 y6 j  A2 P6 [2 N# H5 j+ F6 A; }+ r) U
    第一阶段 模型匹配法 / 语音标签(70年代)
    # m$ E+ K" |3 t& c' j$ W0 C( ]8 v0 y
    主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配
    8 h1 G* B: R# Z1 I2 z. t0 J
      S% Z( w  z9 n; v" i模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度。
    ) |% j2 X+ L, i% p& g. _9 M
    + v; ~( Z: q* u3 N" T0 V主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)。; i& Y* C, b& d: M3 U

    9 R! K8 M  _$ S! E0 b& n0 V技术局限:同个人感冒就识别不了,匹配方法原始,命令词多了识别效率很慢。第二阶段:概率统计型(1993年~2009年)+ Y9 o) R9 ~1 Q( p  n" i- z
    % ]  C. Q6 B0 z! N4 B' S
    部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM。
    5 s5 I9 m' a* ?
    & g( b$ p0 w: nHMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率。3 U  r" x! A3 L( Y- M) \, t

    0 A! A2 q- g0 U5 z1 i' y9 j$ l基于GMM-HMM框架,后续又提出了许多改进方法:动态贝叶斯方法、区分性训练方法自适应训练方法、HMM/NN混合模型方法等 GMM+HMM模型,在大词汇量的语音识别情况下,识别准确率和效率均比较c差。- n5 u) T% M, F" Q, u/ Z

    4 r( D. j3 T) b3 I9 l第三阶段:辨别器分类方法(2009年至今)
    5 H2 Y% J( b' }# l+ N
    " p' B) `7 n, J0 y4 f: J0 _) |常被成为深度神经网络识别,是当下最主流语音识别技术类型,包括:
    ( i' f' d3 r( _! {+ e" f; s2 m9 `2 b( }" ^, C, j8 x. d
    1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)。
    : e9 x" B8 n4 F+ r- `5 ~4 t! A) v5 }! j* J7 @' q9 ]9 N
    2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加。3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费。
    $ p+ g- r  Y. B& p8 }0 G
    3 l( U% u+ h- U( F3 h  W, {  B) U下一代语音识别技术:端到端CTC?
    4 U7 I. r" e* W0 \- f3 w$ E" Q0 ?, G5 ^. P
    不再需要HMM来描述音素内部状态的变化,而将语音识别的所有模块统一成神经网络模型。国内大厂的技术选择:科大讯飞–深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN、
    0 Y  S2 v. o. q+ p0 Q! r: U; T3 G: \, l, A3 \) h$ J, w
    百度SMLTA、Kaldi。, G) {+ a5 N, W. u: T  x
    7 w2 T+ Y' F) y, v" |# W
    三、语音识别芯片的比对8 T! X' C& B# a% j

    9 L2 r2 H9 e& x, v按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类:0 V; q5 a( o' O2 y& q+ k8 ^

    " C; i# l1 d% Z在线语音识别:即大词汇量连续语音识别系统
    3 k+ R9 U/ U8 l: p) t' o
    * J3 P  y" o6 q, e典型应用:在线翻译、智能客服、大数据分析、服务机器人等。
    & ]9 \' O* z, s$ |. M9 G4 u( k4 T8 D
    离线语音识别:即小词汇量、低功耗、低成本的语音识别系统。
    : y4 H- \0 [- x5 m- L& j$ n( l& D- k$ a/ C9 u5 G: P
    典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等。离线和在线的区别在于:语音识别的工作是放在本地设备端还是云端服务器。% ?  d3 z" @$ [8 A' w$ M% r4 {; @

    ! o- {4 |" @. p: a4 `1 r1 S8 X在线语音识别芯片:- }) Y) J: c- {

    9 ]7 ~( g/ g1 D, ~: g) E在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线。在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。
    7 b7 J+ G" p7 f, |) H0 T% H5 m' a' j* S2 \, O
    该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。- J8 s: T3 Q! A9 h4 [

    / N& s1 n0 k% U2 w. ]! \离线语音识别芯片- g; M. h5 g& [. a  F# ~, [

    3 E& s0 Q. G+ q- \. w根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:
    " n( }3 Z1 P  E6 U3 |0 V; \/ a0 G+ m* s' u5 A: P& t6 A
    芯片比对参数说明:7 s: b) {  |6 i3 q( x1 J( }7 N( d

    ; q' F, w; r6 r4 W: x: P! u识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。
    ; o, V4 z6 R" }) A( e
    ! @& m3 V3 }0 B/ {- v2 D, Z处理器:分为mcu和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。
    6 d. U0 E7 u* O7 c
    + |7 m6 a3 a' M7 [5 z, Y存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量
    - E0 o* ^) h# T; k' h- f; c! V1 D/ x
    语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数
    $ R" ^  U/ _8 o! M* z: ]# ~7 _& H0 Q% f
    音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。
    6 a0 ?$ X# y, I! q% j; C
    1 {' X( Q" y' C+ `. y  ~电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。3 X; `) z8 N  M; [6 x9 }2 g. k1 H
    ) A/ |. S. W5 H) m' u" s
    其他因素:工作温度、封装等,以及特殊备注。以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。
    / u3 J. B% F: H) _' A, q' Z5 s  l3 V
    1.0&2.0时代:传统型
    ! t; T. z* |( U) m4 ^/ w" O6 [6 ^* A( l7 s; K! o( Q
    算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。而且,由于芯片配置简单,不具备降噪等功能,识别距离在25m,识别率通常在90%左右。词条数510条。
    9 r1 i1 i1 _3 k& W  o# N7 y5 z: F6 w3 @( g0 ^3 z  }' C
    每家的芯片有基本的ASR功能,但各自都有”性能短板”:不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等,这些短板,都是为了降低成本,在低端市场需要有成本优势。+ l5 n1 z( {, n# C/ \! k1 S
    4 H! O) K& I/ A$ L
    厂商分析:台湾 新塘、凌阳
    5 q" N2 Q5 ], h: m" n% l3 }1 \; O* \( @  s# X
    台湾系早几年前曾是离线语音识别领域最活跃的,包括芯片厂新塘和凌阳,以及台湾赛维这类算法公司。本人就曾推广过新塘ISD9160,当时在家电领域应用挺多,但因识别率差等原因,消费市场反馈差,需求下滑很快。. t4 l  F. D# {( d
    / t' @) z- u! e( O% I
    都是曾经非常通用的语音识别芯片,有现成的动态指令库,开发简单好用。
    0 Q5 W6 m  a+ N% K' {  c" Z" @, T* y3 p. f
    ICRoute 上海音航% d! c3 D! [# w
    : W3 D" @. w5 O: j
    根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。
    ; E/ J" Q6 c9 ^- M# s/ b( h1 p' I0 J* \7 h3 {; v" p7 g
    另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。& a) o$ Y; E% F& d, N
    ; P" K& b0 R' F$ Y! F9 C) y
    除了语音识别,都有做语音芯片(常见于儿童玩具),在网上很活跃,成本应该很低。
    9 ^+ Z* K: R4 E% E1 |" n" G8 Z' J7 O+ q- q" P. c
    同类的还有深圳盛矽和深圳捷通等,都是集中在广东区域啊,广东的汕头澄海盛产的玩具产品等可是遍及全球呢,产业的发达果然是能带动起周边相关行业的发展啊。% F% h* R- r; i/ ?8 c; d. @

    2 _( s: ~' z1 E' o+ \3.0时代:互联网型- A1 A! |( H2 M7 k/ x7 G$ |( i
    " X9 X; j/ T7 E0 `3 _7 z
    互联网公司最近几年纷纷活跃于互联网行业之外,寻找新的增长点或加深企业护城河纵深。语音识别和视觉识别作为人机交互两大入口,自然也就得到互联网企业的青睐。但互联网公司自身没有芯片设计能力,往往需要借助外力,战略合作和\收购控股\购买成熟IP等是常见手段。/ ]# L1 o; ^2 @- }/ i0 K* c0 P7 u: b

    4 D4 z9 t' a5 s; h互联网公司推出的语音识别芯片,纷纷专注于用上高配置的DSP(功耗自然不低),而且拥有丰富的外设接口,芯片可以实现离在线一体化的功能。主要技术特点侧重于后端识别算法,但前端信号处理能力也不弱。: d, `* r& z, |. f8 Q9 p9 z
    ( P6 m- V2 T. J' l: U. J
    互联网型还有个广为人知的特点,以低价杀穿市场,快速获取用户增长。这个我们看在近年来互联网行业大规模烧钱竞争即可知。只是我个人觉得,所谓的互联网思维对于需要长周期精耕细作的芯片行业来说,是否利大于弊还是搞乱一锅粥大家都挨饿?9 }  b: }8 C. n  K+ ~7 m: M

    ) I( \8 Z3 }6 L. b+ e" C5 z厂商分析:
    , l4 J4 u" {, u+ [1 c9 M互联网巨头:阿里巴巴和百度  l5 T6 @. [6 J; D

    # d- n. X1 H- a, F! Y& C7 V8 W两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用)
    - a! t( d- I6 y2 S$ W% @9 q: l7 B5 s0 H
    在线语音识别巨头:讯飞、思必驰、云之声
    1 P0 W& G0 _2 u; S; P  b0 G; g1 t* H) R! H0 C- Y/ T6 j, o- [
    三家在线语音识别巨头,纷纷从云端幕后往前台站出来,将已有的语音识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。
    * O1 M: c% D" X8 Q& l9 g+ }' {' A" p1 O$ d  f6 l9 n6 L
    语音算法公司:互问、华镇
    , k& T4 }4 p( J
    & p# V' a# _' a6 ~7 g1 p+ B相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品。3.0时代:纯芯片型
    : @0 J) y- i$ Y) G, }" M. T$ q
    + s1 R( G+ w2 k纯芯片型大部分属于初创新公司,拥有完整得芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。1 ~. [$ Q7 {$ U+ h

    7 C  u! O" w# i6 m8 n芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\原唱识别等功能。加上不断优化的声学算法模型和语料定制,识别率通常在95%以上。: K  [) p. c/ M4 a% E
    0 C' F3 N- {% ?! H

    8 [: H% j4 t! n, E* L- @市场角度看,语音识别市场当前还远不成气候,仍然属于比较前言的领域。无论是纯芯片型还是互联网型,各自没有真正意义上你死我活的竞争关系,因为与其争夺现有的小饼干,还不如一起拱成大蛋糕分而食之。增量市场阶段,合作共赢更符合各自利益。
    1 ]- i: {; @9 e- C, r# h1 T- Z" S& a* L' M: |  z8 t4 {( A) B  @
    产品角度看,语音识别技术仍然有很大的技术进步空间,实际消费者的体验也有待优化,包括像自然语言、非连续性回音消除、端到端技术应用等。也有人说,语音识别芯片加上无线通讯技术,实现离在线一体,兼顾响应速度和识别灵活度。& \5 M, l# B/ `& ]  M

    3 W. M; ]% n) l& q, c产业链角度看,从我整理的国内射频芯片原厂开始,到这篇语音识别,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但芯片制造等产业配套是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容快节奏的深圳?
    * E  J. Q0 D% C0 X3 _8 g7 r+ v+ w; l) V0 t# g* L+ n3 X, m
    离线语音识别模块:可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。+ K3 V& Z. C$ g
    9 j1 a% P$ F0 N% ]' ]
    特点:1、长距离和高噪音下的高识别率;2、超高性价比,绝对不玩高大上
    / s5 P" ]3 [/ @! |( m8 D7 Y# D! e# l3 b1 E( C' j
  • TA的每日心情
    开心
    2020-8-28 15:14
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2020-10-20 14:26 | 只看该作者
    语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-8-5 04:00 , Processed in 0.109375 second(s), 23 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表