找回密码
 注册
关于网站域名变更的通知
查看: 613|回复: 1
打印 上一主题 下一主题

离线语音识别芯片技术及对比

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2020-10-20 13:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    离线语音识别芯片对比; M1 R4 Y! f% Q/ N) g- x% }" J

    ( {$ l: b- J4 X前言& {% L3 c2 z4 R, b5 f6 r% B% ?9 \

    . g. U3 p& O: c- Y本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。4 w0 V  A/ o, V! w4 s

    : A; a6 N/ P' S! v, v  w一、 语音识别技术的原理
    # k& R& v6 V0 M  G( |0 `6 j  |9 {
    6 s+ a9 F" u- X$ L$ D- b定义:语音识别技术(ASR Automatic SpeechRecognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。+ o/ P7 ?! d8 R: M% J2 Z

    ) W, L$ P( V; A4 t: R" \1.前端处理& Z, ^0 Z9 c" D) l
    6 p+ Z- j+ s2 V& R7 q3 c' C
    前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理关联硬件:麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程原理简化:
    ( j) N3 L! e% b: \' q
    & Y. V& R- v) n语音声波转模拟电信号:麦克风分柱极体和硅麦两种,硅麦又分为模拟和数字。
    - e; \% {; O/ U! i6 x5 S
    8 x$ D% `6 W3 {, L( T7 Z预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等。' v0 |4 ~) v( Z* V8 K; j
    2 C$ Z! X9 G& o+ \3 u; d: f
    特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点。# l/ I6 H6 G5 h0 Q. O2 P

    9 L2 {+ j/ b4 r: H2.模型训练$ l7 f6 N; M8 W2 K! q2 t7 R

    $ v) ?0 q4 f; i: A8 S9 B; O模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词。
    + q( u3 l9 i# b: c* t9 v7 J$ B* j8 n8 o; x" D
    那模板怎么来的呢?这需要通过预先大量地采集语音和语言信息(通常叫语料收集),并通过特定的算法跳出最典型的语音特征值。这就叫做“模板训练”,编辑一本字典出来。语音识别系统的模型训练通常分为两套:6 q% W" d( K6 y

    " C  y& ^3 V' I语言模型训练:语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。
    9 D9 G, W' K; G$ Q' l: Q
    . s5 e& p* p. O- Y% J3 |声学模型训练:声学模型是识别系统的底层模型,是语音识别系统中最关键的部分,算法主要集中优化该部分声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。互联网巨头,拥有大量的用户基数和语音收集渠道,相对于传统公司有优势。
    5 I- D4 `" t0 i( g! f
    . }; r. x' q3 ?- H9 i3.后端识别处理(语音解码)
    9 ?; c  Z3 q, G4 p/ i, O
    3 Z% Z8 p- d7 j- k/ |0 C指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别,并输出识别结果。该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。, j8 U1 @) d* K' |' w' p% H

    ( t; K; U+ O6 q' m  V7 z识别准确率和响应速度,通常取决于主控运算速度,以及前端处理和模型的综合表现。* |) r- c" B  f/ r1 I4 f. F+ s
    ) a1 U8 _8 m0 g
    以下是详细语音识别技术的原理分支整理:
    * _% C# G: O9 f' {1 Y# h
    ; R* x7 b$ D5 C, P. T二、语音识别技术的发展史2 X- o  |7 s( z* K4 o
    # o; a+ b9 h; B2 g
    鉴于语音识别芯片,是与算法有着高度关联。所以以下简单探讨了语音识别技术的发展史。- A) ]% b" Q# |3 N0 A, ?

    , K% ?8 V: |0 Y( A! q语音识别技术的核心和发展,主要在声学模型的建模(训练)的领域上,可以分为三个阶段:; g; e- c4 g% o

    . t! g3 u! y& V- C( S第一阶段 模型匹配法 / 语音标签(70年代)
    ! G- n% V6 T  n/ r# `( j
    % P2 f- ~+ Q" A/ c5 w, \) |+ s主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配1 K8 Q5 u( o0 Y, u# {
    # M1 O6 X* L; K* j& K
    模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度。. ^+ ]& K; O1 k3 D7 g4 Q3 I
    8 n: ~# L( Z& `0 M1 X
    主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)。& l% U! C3 e6 ~, H1 |. M

    1 M; }" h# G  b# }& }技术局限:同个人感冒就识别不了,匹配方法原始,命令词多了识别效率很慢。第二阶段:概率统计型(1993年~2009年)
    ) O1 _% b5 m1 Q. T1 F
    " ?+ k2 A1 w* M% g部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM。1 `& k, ~" `- v' E4 i

    8 i* R& @( k3 v% e3 d9 ?$ n  ~  A/ UHMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率。
    # J' O5 U) U* ^% o: e# j+ ^2 V& S9 Z. ^( ?/ Y! M4 W
    基于GMM-HMM框架,后续又提出了许多改进方法:动态贝叶斯方法、区分性训练方法自适应训练方法、HMM/NN混合模型方法等 GMM+HMM模型,在大词汇量的语音识别情况下,识别准确率和效率均比较c差。
    0 Y5 t* H( F# F' W
    2 q: J3 z. L- l' d# }  R! t第三阶段:辨别器分类方法(2009年至今)+ d/ z9 q+ A0 C* r6 q2 i

    8 _* K' J- C0 G* x# j; B常被成为深度神经网络识别,是当下最主流语音识别技术类型,包括:" c: B2 X1 C0 X3 \( l, Z  L1 ?9 |/ ]

    5 x0 L6 c% U8 ]- ?3 \( i% l1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)。
      a. @) l/ {$ p! W  u- ?  z& |( k/ X" @2 V
    2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加。3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费。
    ' X3 l/ a- b9 \% B
    ) ~6 v8 {+ c( m( S( o下一代语音识别技术:端到端CTC?7 ?. ~7 L1 k  c$ p" a! w, L$ J
    1 F9 P1 A& G; A/ X
    不再需要HMM来描述音素内部状态的变化,而将语音识别的所有模块统一成神经网络模型。国内大厂的技术选择:科大讯飞–深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN、/ n. U' G( }# }' n& d8 N# h

    8 a! i3 _( \# F; ?$ I百度SMLTA、Kaldi。  v$ I5 F0 n; G! R5 O2 L7 ?3 V

    % G1 P7 q/ p7 p0 F( m! D三、语音识别芯片的比对
    5 W/ W$ @" w& y; m
    6 D" Y8 S, h, X/ y+ J按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类:- f- K8 Z& r1 ]+ V. j* S' W4 m

    3 u9 Q1 @- t5 P* f* i4 m在线语音识别:即大词汇量连续语音识别系统! O+ f+ x  T/ r
    ) @. A" s9 a" \2 q4 M1 B
    典型应用:在线翻译、智能客服、大数据分析、服务机器人等。# q" h5 t& i$ n$ k% {2 x3 o
    ' _% }% h; y3 c9 p) O, G! D* X9 Y
    离线语音识别:即小词汇量、低功耗、低成本的语音识别系统。
    : q: I9 s" \* I) [  ?8 \  k0 }' ~# R3 V* `) S4 q
    典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等。离线和在线的区别在于:语音识别的工作是放在本地设备端还是云端服务器。
    1 w, K$ x% J( m1 W2 a& B. u! u9 K2 g) A0 y8 C, {7 F
    在线语音识别芯片:
    8 `" N7 Q" r, d0 ], G6 v
    $ h- T: d8 c; R' o在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线。在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。, [1 Q' ?$ u/ D: `

    ; x! Y# W7 R7 e1 R/ r9 Q; |7 |* V- f该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。8 R; N* S. G1 k& j. h

    & E' e" f/ v# ]% D" ~2 s7 a, W/ k离线语音识别芯片& G) Y7 c" L: P6 U( [/ p
    0 H. P- s' S) @! o7 J/ K( K
    根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:: [. A$ k2 N% T. r; u- @: @
    ' ]# U# l1 E- e4 Y& Y
    芯片比对参数说明:
    ' A+ E2 l  V% n; v3 `' S- r2 L5 f; f8 |: I& v
    识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。
    . {; q, ?. C1 |# ]& z
    4 a' k( A- B$ X* N+ V1 h5 Q" X3 A% p处理器:分为mcu和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。% O* g% t- d% {) R, p  V

    9 l0 a) `; W3 c% F; W存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量% w! v9 u3 w* ~. p
    # k5 ]0 o7 T- e/ v
    语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数8 I, w2 b" G; ^! T

    7 z- K& a/ M5 `% ]7 G% ]音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。
    3 b# t: |( o6 y- ^$ G, E! T& `- Z/ l
    电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。
    ' b. y  l3 b" ^0 z  _1 M' d  ]5 Q6 {
    其他因素:工作温度、封装等,以及特殊备注。以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。* U8 c: i  w$ f. }7 @( T. {1 d
    7 H5 G7 \% E" |4 d) K( k9 |& u
    1.0&2.0时代:传统型
    7 I6 A8 C& g3 ~% A" [! y+ \# L) y. [* t
    算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。而且,由于芯片配置简单,不具备降噪等功能,识别距离在25m,识别率通常在90%左右。词条数510条。
    + U1 L1 ?5 j* Y
    # e7 N# a% C3 ?- _, r' l1 ^6 n每家的芯片有基本的ASR功能,但各自都有”性能短板”:不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等,这些短板,都是为了降低成本,在低端市场需要有成本优势。
    0 @. ?2 f  F+ l% u; z  e) V" \+ ~* N* k% U1 M) f6 i
    厂商分析:台湾 新塘、凌阳
    # l" F& b: e& b0 N! C4 h+ Y1 {5 z: F, F4 J9 a1 v5 h
    台湾系早几年前曾是离线语音识别领域最活跃的,包括芯片厂新塘和凌阳,以及台湾赛维这类算法公司。本人就曾推广过新塘ISD9160,当时在家电领域应用挺多,但因识别率差等原因,消费市场反馈差,需求下滑很快。
    $ g( ?/ Z5 y$ ^& n+ C5 a+ @3 q0 s% c
    都是曾经非常通用的语音识别芯片,有现成的动态指令库,开发简单好用。4 v3 ]$ g5 D% s; a7 `2 n8 q
    6 P8 v; O: A  ~6 v# J% a" R
    ICRoute 上海音航6 t$ v/ L4 o1 _2 R6 z" Q' r

    . ^; t; a) c4 t( [% v5 Y+ H根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。2 X+ k: ]& I0 T! V* e5 y  e5 W1 r

    / ]8 U8 W" i( R) b8 }1 [; U另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。
    ) u! L1 N6 d# J, v* k$ H& k+ }& {6 u. e/ t% l7 O/ {7 F
    除了语音识别,都有做语音芯片(常见于儿童玩具),在网上很活跃,成本应该很低。
    1 i" P" _, e5 Y; M, C8 H" ]% ?6 v( |
    同类的还有深圳盛矽和深圳捷通等,都是集中在广东区域啊,广东的汕头澄海盛产的玩具产品等可是遍及全球呢,产业的发达果然是能带动起周边相关行业的发展啊。
    0 t5 l, d9 A; p7 z5 r5 J/ q& z) h* `4 _2 ^1 A( @% E% t
    3.0时代:互联网型& _8 l  a' O9 w; L" X$ R

    : V3 s" C8 l8 H  e5 q8 @& C互联网公司最近几年纷纷活跃于互联网行业之外,寻找新的增长点或加深企业护城河纵深。语音识别和视觉识别作为人机交互两大入口,自然也就得到互联网企业的青睐。但互联网公司自身没有芯片设计能力,往往需要借助外力,战略合作和\收购控股\购买成熟IP等是常见手段。6 k9 @6 _; u* M" t6 d6 b# q! R
    6 I* h) C( Y9 S8 O% T
    互联网公司推出的语音识别芯片,纷纷专注于用上高配置的DSP(功耗自然不低),而且拥有丰富的外设接口,芯片可以实现离在线一体化的功能。主要技术特点侧重于后端识别算法,但前端信号处理能力也不弱。
    6 M6 h9 L; M5 s3 Y$ Q7 _' ^+ r3 `2 ^1 K3 C: B! ?5 [% a
    互联网型还有个广为人知的特点,以低价杀穿市场,快速获取用户增长。这个我们看在近年来互联网行业大规模烧钱竞争即可知。只是我个人觉得,所谓的互联网思维对于需要长周期精耕细作的芯片行业来说,是否利大于弊还是搞乱一锅粥大家都挨饿?6 o& K( g4 z/ I+ i9 `7 W$ a

    # w) c! }+ v. ^. m厂商分析:" i3 p% t' A+ k6 [) H/ U
    互联网巨头:阿里巴巴和百度; L8 u  B  q7 R; n. y2 T* ^

      ]# I' x$ n9 c- J. m两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用)
    / M  G# _0 K( t6 C/ V6 p! X: M7 \% }% e" Q* d5 _
    在线语音识别巨头:讯飞、思必驰、云之声
    3 [# m7 [3 k- ?! \$ b- a( Q  K5 Y2 }/ E0 H7 e
    三家在线语音识别巨头,纷纷从云端幕后往前台站出来,将已有的语音识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。
    ; G4 J' K, \( ~% }$ c
    9 U* o; K' b5 i7 U) H/ \5 g- j语音算法公司:互问、华镇
    ) l, d$ v, w3 H) T
    ! j* I' S/ R, v) c0 {" M, Z+ U1 c相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品。3.0时代:纯芯片型
    1 x$ p! r  a  ?4 v/ N. ^; i, W$ q2 m7 X# B
    纯芯片型大部分属于初创新公司,拥有完整得芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。
    4 i/ ~+ {# F- w1 \  i+ |" O
    4 j) X* _: {8 _0 }, O5 L" c+ e芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\原唱识别等功能。加上不断优化的声学算法模型和语料定制,识别率通常在95%以上。
    3 n" R9 q6 T. q( }' G+ ~0 i2 w9 t( Z- q# Z
    * g0 S( R  J3 V
    市场角度看,语音识别市场当前还远不成气候,仍然属于比较前言的领域。无论是纯芯片型还是互联网型,各自没有真正意义上你死我活的竞争关系,因为与其争夺现有的小饼干,还不如一起拱成大蛋糕分而食之。增量市场阶段,合作共赢更符合各自利益。" {6 s2 u7 ^! j

    # e. ]4 ~2 W" J1 c3 j产品角度看,语音识别技术仍然有很大的技术进步空间,实际消费者的体验也有待优化,包括像自然语言、非连续性回音消除、端到端技术应用等。也有人说,语音识别芯片加上无线通讯技术,实现离在线一体,兼顾响应速度和识别灵活度。5 V: X( e4 _2 Q; }0 M% q4 p

    + \" [2 u; M8 T9 t8 j产业链角度看,从我整理的国内射频芯片原厂开始,到这篇语音识别,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但芯片制造等产业配套是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容快节奏的深圳?
    * L( P+ N' O9 W: z6 v7 f/ Q1 e. x# F9 d
    离线语音识别模块:可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。3 _3 }# f, A, W* p

    # P% a0 X5 ]; M" Z! \2 t. h特点:1、长距离和高噪音下的高识别率;2、超高性价比,绝对不玩高大上' _4 U8 j: S! h* [% x& \- U! A

    * `2 A* K2 H# [; e; |4 K: ~8 d
  • TA的每日心情
    开心
    2020-8-28 15:14
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2020-10-20 14:26 | 只看该作者
    语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-11-24 21:35 , Processed in 0.140625 second(s), 23 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表