找回密码
 注册
关于网站域名变更的通知
查看: 614|回复: 1
打印 上一主题 下一主题

离线语音识别芯片技术及对比

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2020-10-20 13:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    离线语音识别芯片对比
    * n, ^3 d6 U  {8 n  Y0 Z1 b
    6 [8 K  U7 L9 j8 c前言+ C$ L8 N3 b2 H0 n5 y4 ]

    ; d3 \) d! t+ K. n/ y8 \本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。
    ' S7 |2 A) C% O
    ! s; l! @) o% v一、 语音识别技术的原理
    3 E' h# j+ C0 S, H- L" q+ F0 B1 H, d
    7 I/ |* O  I; `$ c  L& m2 m定义:语音识别技术(ASR Automatic SpeechRecognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。5 [( U/ J. {% K0 D; ]* f' r
    + W  j! E; Q/ O. c1 n8 k4 ]
    1.前端处理( v* y9 |- `+ ?+ x" L

    ! Q. d# M' v. j- _" ?7 |. y# _前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理关联硬件:麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程原理简化:
    1 T9 w) V! k8 A; b/ a/ T$ H$ y6 e, u3 Z9 @8 V) p& t5 x* l
    语音声波转模拟电信号:麦克风分柱极体和硅麦两种,硅麦又分为模拟和数字。, \3 ~7 f% A: a1 p

    * U8 T' S7 q) m. }) c; i1 |; `预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等。
    & d; n: n1 ~$ k- Q1 p3 i% [/ N9 j. j% v# Q( K: A$ |
    特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点。
    4 X0 D) D; F7 i6 X
    0 R! q% d$ n  z1 A! J+ Q) n2.模型训练
    " Q. x  w) B( c$ ?  W5 z- u
    : T$ {% `' W2 n0 X- q! \, Y% K) }0 k模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词。* D$ x3 K  d2 F, k& @! h9 m

    & `* B+ K# x" Z' ]# m那模板怎么来的呢?这需要通过预先大量地采集语音和语言信息(通常叫语料收集),并通过特定的算法跳出最典型的语音特征值。这就叫做“模板训练”,编辑一本字典出来。语音识别系统的模型训练通常分为两套:. a! L: m- L/ b0 N

    - i1 D6 d' M/ q% u# u- b语言模型训练:语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。
    8 \# Q6 N, o  A1 d: F" v' X- n& t3 ?% D8 Q; O% e8 P2 |% Q; K  R2 h
    声学模型训练:声学模型是识别系统的底层模型,是语音识别系统中最关键的部分,算法主要集中优化该部分声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。互联网巨头,拥有大量的用户基数和语音收集渠道,相对于传统公司有优势。- b$ L7 y( ]# W/ d' j  [. c! ?
    ; Q" U; x# t1 P  f1 F
    3.后端识别处理(语音解码)% [" A. T) p& L8 x- u$ {9 t

    " }" q$ @0 a1 Q3 u  O0 l+ i指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别,并输出识别结果。该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。
    " E- w9 h* O, g  |/ ~' e  r
    + S, _" R0 ^' e7 F识别准确率和响应速度,通常取决于主控运算速度,以及前端处理和模型的综合表现。
    + E% Z1 O7 r( y7 C
    9 S' f* }+ g& t: e8 W; n/ U' w以下是详细语音识别技术的原理分支整理:4 g' p4 J9 A9 X/ y$ k* B

    9 `+ f7 ]$ O9 ]' L, {二、语音识别技术的发展史# Q* j' ]" o: \; i' q( r

    4 |8 x9 a& L: I: |: \1 K鉴于语音识别芯片,是与算法有着高度关联。所以以下简单探讨了语音识别技术的发展史。7 z9 x2 I+ Q4 F

    + B% Q4 z% s1 u" S8 S& J2 @语音识别技术的核心和发展,主要在声学模型的建模(训练)的领域上,可以分为三个阶段:* m5 |; Y& c- H. |5 C8 F

    - j- R! r- \& F9 B第一阶段 模型匹配法 / 语音标签(70年代), \# N: l- H0 U5 I
    1 g2 @$ c! o7 l1 T6 D- O3 o
    主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配* z* H& f4 ]+ y' V
    + J/ G3 C% [: F8 d: k5 Z
    模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度。
    ; d* R2 w9 B' T( G0 I: ~9 ~5 r5 `/ x) y) }  O/ Y
    主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)。! J9 B& Y* P) B6 }- g! _3 p
    2 o+ M4 F, t! u& K5 |: G- G
    技术局限:同个人感冒就识别不了,匹配方法原始,命令词多了识别效率很慢。第二阶段:概率统计型(1993年~2009年)
    - g/ O4 i- J% i2 V# x
    8 G5 u* V7 t7 \$ Y9 X% }, o部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM。
    + ^. U  R- ?# Q2 X' A6 D( \
    6 b) ]8 f9 t% |7 V" v3 ~HMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率。
    ( R; x7 S& t. U4 O) v- ]; ]5 E, e; @% Y
    基于GMM-HMM框架,后续又提出了许多改进方法:动态贝叶斯方法、区分性训练方法自适应训练方法、HMM/NN混合模型方法等 GMM+HMM模型,在大词汇量的语音识别情况下,识别准确率和效率均比较c差。$ D$ L' C5 G4 [& a

    - \4 ?& _8 ^: p2 N5 n  u$ F第三阶段:辨别器分类方法(2009年至今)0 u3 @( C$ [! ^2 s/ w; ~
      X, y) N8 `; {/ ^: @
    常被成为深度神经网络识别,是当下最主流语音识别技术类型,包括:0 P* e7 x1 X) `" v1 c

    " J9 `0 H1 K/ l1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)。1 D! D& J) G$ y
    & Y8 m& Z3 |( f$ n/ i
    2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加。3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费。# x! n& j, A$ A6 k1 Q* M. R
    ; q5 v* w9 L! S: M6 a, A: x
    下一代语音识别技术:端到端CTC?% I9 ^6 G( u3 F$ O. [
    ' ^1 C  }' c9 J! z, `( j
    不再需要HMM来描述音素内部状态的变化,而将语音识别的所有模块统一成神经网络模型。国内大厂的技术选择:科大讯飞–深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN、' d% V! v$ m: m2 v, r' `9 |

    $ h9 G, u3 O* g( {7 n  [. g百度SMLTA、Kaldi。
    . n' q- h$ \6 A1 [: u  n0 S3 X  \
    三、语音识别芯片的比对$ v  f7 F4 I* Z8 s% ^  A
    $ n% g, t3 J4 i4 Q6 Q
    按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类:2 T0 v1 b8 T* J: A! G. X

    + w, s/ ^) I4 y5 Y: ]9 L& q在线语音识别:即大词汇量连续语音识别系统
    + x- p# K6 T3 v4 e
    4 ], z% e, a- h* u典型应用:在线翻译、智能客服、大数据分析、服务机器人等。2 R9 C. [$ b; G, r: E

    + X! q: O% M, R. D) V6 s离线语音识别:即小词汇量、低功耗、低成本的语音识别系统。# S7 O8 `+ K& T* H! S1 R! L

    , ^- U$ P3 A7 V; X: h典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等。离线和在线的区别在于:语音识别的工作是放在本地设备端还是云端服务器。* `# @5 g" d% l4 i6 c7 W
    # _; b5 m0 U  _' D9 Z3 @
    在线语音识别芯片:
    2 {+ F2 [+ F/ S; B0 D) d- W. {: U: W, A6 m; X
    在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线。在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。* d1 `# `2 }9 C6 G
    4 x  T4 R: i$ O4 C
    该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。- V9 [% z! c9 y
    2 m' t& C! Q3 T7 s* p6 q& @
    离线语音识别芯片
    : O: R$ z6 o6 z7 K0 Y) E$ o/ ?( F2 [: g, _: {
    根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:3 j& \3 y( D- x( d

    & Z8 Y# @! @* _. L芯片比对参数说明:
    ( e- _4 t# o: a* |7 Y8 l: Y6 R7 `  v
    识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。
    - ~: {2 I& D2 b1 y! U0 N; p6 O9 _8 \1 E. D" @. l4 V) n  Z, y
    处理器:分为mcu和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。0 v1 R, O* n3 a, t" D; x

    ; W$ `( _0 G; k- d+ M; i存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量
    9 C7 g; R- x+ z% h: \6 N$ b. o. D% E* Y6 V9 L
    语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数) {; F+ I5 [1 }% n5 u0 B. ]

    * M# O: U% I" s/ I6 A7 ]音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。5 Y% R4 j) a" e

    - M# [7 D+ e5 z4 a电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。+ c( I" I/ j: F3 f. R& B

    2 s, `2 {- |" }) c& r6 {其他因素:工作温度、封装等,以及特殊备注。以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。
    # t8 Z5 e& _4 H) s0 w( z+ x! \% z$ D- W2 z1 k$ `# ?
    1.0&2.0时代:传统型
      V2 ]( g$ z; H+ Y  ~" ~& j/ A# S
      F" i& r8 L/ J; p算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。而且,由于芯片配置简单,不具备降噪等功能,识别距离在25m,识别率通常在90%左右。词条数510条。
    , Z( [9 d: v5 V5 H. |
    ' W" n! b' d# H2 m2 R" i( r2 K1 [每家的芯片有基本的ASR功能,但各自都有”性能短板”:不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等,这些短板,都是为了降低成本,在低端市场需要有成本优势。
    2 \6 g7 U+ `# _1 V% _( r& k. F/ {  {' V7 R
    厂商分析:台湾 新塘、凌阳% Z$ ^' G" \! O2 \" P: o5 Z& d8 W
    & u$ }% w  C0 s" i' u. c0 \  S
    台湾系早几年前曾是离线语音识别领域最活跃的,包括芯片厂新塘和凌阳,以及台湾赛维这类算法公司。本人就曾推广过新塘ISD9160,当时在家电领域应用挺多,但因识别率差等原因,消费市场反馈差,需求下滑很快。4 T4 H( [8 D: R) `3 }5 a, U

    & _0 l$ S' v& }, H5 R) Z都是曾经非常通用的语音识别芯片,有现成的动态指令库,开发简单好用。) m; d+ e. e, o  N6 w; M, p
    ! p. M. j1 }5 ~" l2 x$ y* u
    ICRoute 上海音航! G; D3 b6 s" q2 c8 G7 ?
    5 ]; \  |! t, [+ ]
    根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。
    ( e' N0 `& P4 H% i' O5 ]- ~! X3 |) |0 b
    另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。
      ]3 s4 p' M; X& ]5 k
    + p9 g, e/ ^/ o! t9 F除了语音识别,都有做语音芯片(常见于儿童玩具),在网上很活跃,成本应该很低。( T9 z1 }: Y6 i' H

    : \7 w$ S0 `; y& W同类的还有深圳盛矽和深圳捷通等,都是集中在广东区域啊,广东的汕头澄海盛产的玩具产品等可是遍及全球呢,产业的发达果然是能带动起周边相关行业的发展啊。& |) c" @& p# B

    1 I% `& K" H9 ^. D$ S  l$ Q3.0时代:互联网型
    $ r9 j8 @9 V. m8 {- I- g
    " u. c! [, g3 f  N* q: S1 X互联网公司最近几年纷纷活跃于互联网行业之外,寻找新的增长点或加深企业护城河纵深。语音识别和视觉识别作为人机交互两大入口,自然也就得到互联网企业的青睐。但互联网公司自身没有芯片设计能力,往往需要借助外力,战略合作和\收购控股\购买成熟IP等是常见手段。
    " s) c0 L' ]% I& W( W) j+ G. ]' K6 m; d3 R8 z" U1 v$ x1 R  o+ B
    互联网公司推出的语音识别芯片,纷纷专注于用上高配置的DSP(功耗自然不低),而且拥有丰富的外设接口,芯片可以实现离在线一体化的功能。主要技术特点侧重于后端识别算法,但前端信号处理能力也不弱。
    8 X* E! j/ S% W" m9 M. O- K" }0 z9 z( I9 B" f* _
    互联网型还有个广为人知的特点,以低价杀穿市场,快速获取用户增长。这个我们看在近年来互联网行业大规模烧钱竞争即可知。只是我个人觉得,所谓的互联网思维对于需要长周期精耕细作的芯片行业来说,是否利大于弊还是搞乱一锅粥大家都挨饿?1 e. q) D; G+ u2 B& [; I, H
    5 G* B0 p. u8 w, p
    厂商分析:* j% J- w' V5 p, Z
    互联网巨头:阿里巴巴和百度
    . B3 G% `2 H$ r8 {& X: a1 F: |! ~; C0 }1 \$ x9 L
    两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用)  B3 K* U% e4 S; C! S
    " n% N2 \1 }% g2 k
    在线语音识别巨头:讯飞、思必驰、云之声* E1 i$ v1 U% N& z$ W

    3 X  }$ I. n3 M( |8 z6 Y, O三家在线语音识别巨头,纷纷从云端幕后往前台站出来,将已有的语音识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。0 j; |7 p' t+ i

    : z/ Z  }5 R$ d, G- `语音算法公司:互问、华镇
    5 j7 W5 d2 u2 X+ z; h
    ( J" w5 B  X7 O相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品。3.0时代:纯芯片型
    ; D- X5 i; ?0 D: U3 j6 J/ @; h) d6 f# v0 S. [
    纯芯片型大部分属于初创新公司,拥有完整得芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。
    7 |, C3 t+ S! O3 \, \- u3 |2 k; `1 X
    5 m4 v- ]- i/ n* ^4 I, ]8 ]3 F芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\原唱识别等功能。加上不断优化的声学算法模型和语料定制,识别率通常在95%以上。
    - d: n* Q% D4 n/ T
    4 {/ a3 c/ @: d% S
    7 G( ^6 ~. w. `, L0 K6 M市场角度看,语音识别市场当前还远不成气候,仍然属于比较前言的领域。无论是纯芯片型还是互联网型,各自没有真正意义上你死我活的竞争关系,因为与其争夺现有的小饼干,还不如一起拱成大蛋糕分而食之。增量市场阶段,合作共赢更符合各自利益。
      N, L) n+ F4 G: X
    5 [  A7 v/ u3 o产品角度看,语音识别技术仍然有很大的技术进步空间,实际消费者的体验也有待优化,包括像自然语言、非连续性回音消除、端到端技术应用等。也有人说,语音识别芯片加上无线通讯技术,实现离在线一体,兼顾响应速度和识别灵活度。1 `5 [( u% S9 d* M

    9 X. d  F9 u+ x) Z! V2 _- }! I7 U产业链角度看,从我整理的国内射频芯片原厂开始,到这篇语音识别,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但芯片制造等产业配套是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容快节奏的深圳?8 ^, S: x7 P% B$ ^6 c. R
    0 V$ Z5 h# I1 y
    离线语音识别模块:可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。) m' v2 l. I! Q! l" L5 ^. y  R

    ; \  X& D* ^* U2 \! U. y, z特点:1、长距离和高噪音下的高识别率;2、超高性价比,绝对不玩高大上
    8 L* j8 N8 f& p% l9 m8 W
    & ^5 Q) P3 b" `- O
  • TA的每日心情
    开心
    2020-8-28 15:14
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2020-10-20 14:26 | 只看该作者
    语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-11-24 23:25 , Processed in 0.187500 second(s), 24 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表