自动语音识别技术是什么?关于自动语音识别技术的详细介绍

创闻科学2020-11-18 00:43:38

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,通俗地说就是让机器能够听懂人说的话。语音识别是一门交叉学科,涉及计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。

语音识别(ASR)的定义

语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。

从广义上讲,语音识别也包括了对说话人的识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征(如:音律特性等),在这里专指有意义、有内容的识别。

语音识别(ASR)的研究历史

50年代

50年代是语音识别工作的开始时期。标志是1952年,贝尔实验室实现了第一个可识别十个数字的语音识别系统———Audry系统。1959年 ,Rorgie Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代

60 年代,计算机的应用推动了语音识别的发展。这一时期的重要成果是提出了用动态规划(DP)方法,来解决语音识别中不等长的对正问题。

70年代

70 年代,语音识别领域取得了突破性进展。线性预测编码技术(LPC)的引入,使语音识别的特征提取产生了一次飞跃。动态时间规整技术(DTW)基本成熟,提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论,实现了基于线性预测倒谱和DTW 技术的特定人孤立语音识别系统。

80年代

80 年代,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于贝尔 实验室 Rabiner 等科学家的努力,他们把原本艰涩的 HMM 纯数学模型工程化,从而为更多研究者了解和认识。

90年代

90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及 IBM 、Apple 、AT&T 、NTT 等著名 公司都为语音识别系统的实用化开发研究投以巨资。IBM公司于 1997 年开发出汉语 ViaVoice 语音识别系统,次年又开发出可以识别上海话 、广东话和四川话等地方口音的语音识别系统 ViaVoice' 98 。它带有一个32000 词的基本词汇表,可以扩展到 65000 词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到 95 %。该系统对新闻语音识别具有较高的精度,是很有代表性的汉语连续语音识别系统。SpeechWorks 公司是世界领先的电话自动语音识别系统(ASR )解决方案的提供者, 代表产品为 SpeechWorks 6。利用该产品,用户可以通过电话用自 然语言与系统进行交互, 进行旅游预约、股票交易、银行服务、订票服务、宾馆服务和寻呼服务等,由于系统是自动的 ,无需服务人员的介入。市场上还出现了语音识别电话、语音识别记事本等产品, 如美国VPTC 公司的Voice Organizer 和法国的Parrot 等。

21世纪

21世纪,随着消费电子产品的普及,嵌入式语音处理技术发展迅速。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech 和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,比较成功的语音识别软件有:Nuance、IBM的Viavoice 和 Microsoft 的SAPI 以及开源软件 HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

我国的研究工作

我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达 90 % 以上。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国 、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。

语音识别(ASR)的基本原理

语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。 然后根据此模板的定义,通过查表就可以给出计算机的识别结果。语音识别的过程包括预处理、特征参数提取、模式匹配、识别判决等过程,其原理结构图如下:

预处理

对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,包括语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测等处理。

其中端点检测为从包含语音的一段信号中确定出语音的起点和终点,有效的端点检测不仅能使处理的时间减到最小,而且能排除无声段的噪声干扰。端点检测的常用方法为短时能量和短时过零率。

特征参数的提取

负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel频率倒谱系数(MFCC)等。特征参数和识别方法有关系,是语音识别的关键之处,选择的好坏直接影响语音识别的精度。

模式匹配

将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。语音识别的测度有很多,欧氏距离测度及其变形、线性预测失真测度等。

识别判决

将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识得出最终的识别结果。专家知识包括各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。对于不同的语言有不同的语言学专家知识库。判决是语音识别的最后一步,也是系统识别效果的最终表现。

语音识别系统(ASR系统)

语音识别系统包括前端处理、特征提取、声学模型、语言学模型和解码几个模块。前端处理包括对高频信号进行预加重,将语音信号分帧,对语音信号做初步处理,特征提取将声音信号从时域转换为频域,声学模型以特征向量作为输入,对应到语音到音节的概率,语言学模型根据语言特性,对应到音节到字的概率,解码器结合声学模型和语言学模型及词典信息输出可能性最大的词序列。

语音识别系统本质上是一种模式识别系统,一个基本的语音识别系统可大致分为特征提取、模式匹配、语言模型等三个基本单元。

1. 语音特征提取

其目的是从语音波形中提取随时间变化的语音特征序列 。

2. 声学模型与模式匹配(识别算法)

声学模型通常将获取的语音特征通过学习算法产生 。在识别时将输入的语音特征与声学模型(模式)进行匹配与比较,得到最佳的识别结果 。

3. 语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型 ,语言处理可以进行语法 、语义分析 。对小词表语音识别系统 , 往往不需要语言处理部分。

语音识别(ASR)的分类

按识别器的类型

按识别器的类型分,语音识别可分为孤立词识别、关键词识别、连续语音识别。

1. 孤立词识别

识别单元是有限的,识别单个的词,即孤立词。

优点:速度快,识别正确率高;

缺点:应用范围窄,不能识别词表外的词;

应用案例:语音命令,手机语音拨号。

2. 关键词识别

识别单元是词,判断输入语音中是否含有词表中的词。

优点:能够处理连续语音,词表可定制;

缺点:速度较慢,词表越大,错误率越多;

应用案例:电话呼叫服务,电话安全监听。

3. 连续语音识别

识别单元可以是字,词或者句子。

优点:应用范围广;

缺点:速度慢,识别率不高,尤其是词表较大的时候;

应用案例:语音翻译,语音短信,听写机,语音邮件。

按语音词汇表的大小

按语音词汇表的大小分,语音识别可分为有限词汇识别和无限词汇识别。

1. 有限词汇识别

按词汇表中字、词或短句个数的多少,大致分为:

(1)100以下为小词汇;

(2)100-1000为中词汇;

(3)1000以上为大词汇。

2. 无限词汇识别(全音节识别)

当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全音节语音识别(音节字表:Lexicon)。全音节语音识别是实现无限词汇或中文文本输入的基础。

按识别器对使用者的适应情况

按识别器对使用者的适应情况,语音识别可分为特定人语音识别和非特定人语音识别。

1. 特定人语音识别(Speaker-Dependent)

语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。其他人使用时,需同样建立自己的标准模板或模型。

2. 非特定人语音识别(Speaker-Independent)

语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。

语音识别(ASR)的方法

语音识别的方法有四种:基于声道模型和语音知识的方法、模式匹配的方法、随机模型方法、人工神经网络的方法。基于声道模型和语音知识的方法起步较早,没有达到实用的阶段。常用的方法是后三种方法,它们都已达到了实用阶段,而且对神经网络研究越来越多,成为了热门研究。

·模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);

·随机模型方法常见的是隐马尔可夫模型(HMM);

·神经网络常见的有反向传播(BP)网络、人工神经网络(ANN)等,还有很多新兴的方法。

动态时间规整(DTW)

DTW(Dynamic Time Warping)是把时间规整和距离测度计算结合起来的一种非线性规整技术,是较早的一种模式匹配和模型训练技术。

·动态时间规整(DTW)算法的思想

把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。

·DTW的优点

DTW成功解决了语音信号特征参数序列比较时时长不等的难题,运算量不大,并且限于小词表,直接利用提取的语音特征作为模板,能较好地实现孤立词识别。

·DTW的缺点

DTW 的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练,也不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

矢量量化(VQ )

矢量量化(VQ)是一种重要的信号压缩方法,主要适用于小词汇量、孤立词的语音识别中。

其过程是:将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k维空间中的1个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离 ”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书。从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。

隐马尔可夫模型(HMM)

隐马尔可夫模型(Hidden Markov Model,HMM)是传统语音识别的主流模型。隐马尔可夫模型是Rabiner 等人在20世纪80年代 引入语音识别领域的一种语音识别算法,它的出现使得自然语音识别系统取得了实质性的突破 。

· HMM算法的思想

HMM通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。

HMM可以看成是由短时间内看做平稳变化的声学信号模型串联构成的马尔可夫链组成的,表示了一个双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

·HMM的分类

HMM模型可细分为离散隐马尔可夫模型(DHMM)和连续隐马尔可夫模型(CHMM)以及半连续隐马尔可夫模型(SCHMM)等。

·HMM算法的优点

HMM算法具有良好的识别性能和抗噪性能。基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。

·HMM算法的缺点

HMM的缺点在于统计模型的建立需要依赖 一个较大的语音库 。这在实际工作中占有很大的工作量 。 且模型所需要的存储量和匹配计算(包括特征矢量的输出 概率计算)的运算量相对较大 , 通常需要具有一定容量 SRAM 的 DSP 才能完成。

BP学习算法

BP算法的学习过程由正向传播和反向传播两部分组成。在正向传播过程中,输入样本从输入层经隐层处理并传向输出层,每一层神经元状态只影响下一层 神经元状态,如果在输出层得不到期望的输出,则转入反向传播。此时,误差信号从输出层向输入层传播并沿途调整各层间连接权值以及和层神经元的偏置值,以使误差信号不断减小,该算法实际上是求误差函数的极小值,它通过多个学习样本的反馈学习并采用梯度法,使权值沿误差函数的负梯度方向改变并收敛于最小点。

人工神经元网络(ANN)

人工神经网络(Artificial Neural Network,ANN)在语音识别领域的应用是在20世纪80年代中后期发展起来的。

·ANN的思想

ANN实际上是一个超大规模非线性连续时间自适应信息处理系统,它模拟了人类神经元活动的原理,其思想是用大量简单的处理单元并行连接构成一种信息处理系统。

·ANN的优点

(1)ANN系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。

(2)ANN最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模 型不具备的。

·ANN的缺点

(1)ANN 相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。

(2)ANN又不具有HMM模型的动态时间归正性能,单独使用ANN 的系统识别性能不高,所以ANN通常在多阶段识别中与HMM算法配合使用。

支持向量机(SVM)

支持向量机(Support vector machine,SVM)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(Structural Risk Minimization,SRM),有效克服了传统经验风险最小化方法的缺点。 此方法兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。

其基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。

语音识别(ASR)的应用

人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,人与机器之间也需要进行大量的信息交换。计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。

语音识别的应用包括语音搜索、歌曲识别、语音控制、家电遥控等各个方面。

语音搜索

语音搜索早先的模式是我们可以通过打电话的方式查一些专项的资讯,比如天气预报或者打12315。随着服务的延伸呢,很多的企业都尽力了自己的客户专线,实际上这个时候语音信息的服务就由企业为他的用户提供,主要是产品或者服务的资讯或者售后服务。常见的有Apple的Siri和Google的Google Now。

歌曲识别

生活中,时常听到很熟悉的旋律,却想不出歌曲的名字。这个时候我们就可以直接利用语音识别功能来查找相关歌曲,常见的有微信摇一摇搜歌,以及其他音乐播放软件的搜索功能。

语音控制

由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

家电遥控

由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

语音识别技术应用在各个领域,作为声控产业,对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用,对工业、金融、商业、文化、教育等诸方面事业产生着深远的影响。

中文语音识别的特点

相对于西方语言来说,中文有自己的独特之处。

中文是有调语言

中文发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。

中文的多音字多

中文用415个基本的无调音节来构成7000多个基本汉字的发音,多音字很多。

发音和字相互独立

中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。