欢迎来到千学网!
您现在的位置:首页 > 实用文 > 其他范文

SPCE061A在语音遥控器中的应用

时间:2023-09-28 07:40:19 其他范文 收藏本文 下载本文

下面是小编为大家整理的SPCE061A在语音遥控器中的应用,本文共8篇,仅供参考,大家一起来看看吧。

SPCE061A在语音遥控器中的应用

篇1:SPCE061A在语音遥控器中的应用

SPCE061A在语音遥控器中的应用

我们还加入了温度采集、语音报温的功能,通过按键控制,她采集当前温度,并用优美的声音播报“当前温度是xx摄氏度”。

在不增加成本的情况下,给语音遥控器加入了万年历计算、语音报时功能,通过按键,她会播报“xxxx年xx月xx日”或“上午(下午、晚上)x点x分”。

1 系统组成

目前所设计的空调语音遥控器,主要由键盘输入、MIC输入、温度采集、语音输出、红外发射电路组成。按键用来完成按键遥控功能------保留按键功能、语音报温、报时; SPCE061A有一路专用于语音信号采集的A/D转换电路(MIC输入),可以用来进行语音识别、录音等的语音信号输入,本遥控器用来采集语音信号,进行语音识别;SPCE061A有7路A/D,选其中1路进行温度采集,由按键控制温度播报;SPCE061A有丰富的时基信号,采用2Hz进行计数,并进行万年历计算,由按键控制播报时间。系统组成如图1所示。

2 硬件组成

硬件电路如图2所示:

共设计了13个按键,采用4×4的行列式键盘输入,IOA0---IOA3设置成输入口,IOA8---IOA11设置成输出口,预留3个按键作为备用。

语音识别的硬件电路比较简单,MIC选用驻极体话筒,驻极体话筒具有结构简单、重量轻、体积小、无方向性、频率响应宽、保真度好等优点。驻极体话筒的偏压由SPCE500A的VMIC脚提供。

SPCE061A提供双通道10位D/A输出AUD1、AUD2,其中每个DAC通道的输出能力为3mA,用于输出语音信号,考虑功耗问题,采用单通道AUD1输出。

利用SPCE061A的IOB8输出的PWM信号(IOB8、IOB9口的特殊功能)可以作为红外载波信号,载波频率由可编程定时器TimerA(或TimerB)的溢出频率决定。本遥控器用IOB8产生红外载波信号。

温度传感器采用普通负温度系数热敏电阻,热敏电阻灵敏度高、价格便宜。('nSP(tm)内核是一个通用的核结构。除此之外的其它功能模块均为可选结构,亦即这种结构可大可小或可有可无。借助这种通用结构附加可选结构的积木式的构成,便可形成各种不同系列派生产品,以适合不同的应用场合。这样做无疑会使每一种派生产品具有更强的功能和更低的成本。

3 软件设计

软件采用模块化程序结构,程序模块包括初始化、键盘扫描、温度采集、温度播报、万年历时间计算、万年历播报、红外发射、语音识别、语音播放模块等,程序流程见图3所示:

图3 流程图

系统初始化包括系统时钟、IO口、万年历初始值、中断(打开按键唤醒和2Hz中断),然后扫描按键,有按键进行相应处理,无按键进入睡眠,万年历计算在2Hz中断服务程序中进行。

语音播放采用凌阳科技公司提供的音频编码算法,先在PC机上录好提示语音文件(WAV文件),并经凌阳公司提供的压缩工具压缩处理成二进制文件加载到用户程序,编译链接后存储到单片机FLASH中,播放时再解压缩送D/A还原出语音。用于u'nSPTM内核的SPCE系列芯片,凌阳科技公司提供三种不同压缩率的算法,下表是各种压缩算法名称及编码率类型。

压缩算法名称

语音压缩编码率类型

SACM_A16KBits/s、20KBits/s、24KBits/sSACM_S4804.8KBits/s、7.2KBits/sSACM_S2402.4KBits/s

这三种压缩算法的区别在于压缩率不同、音质也不同。SACM_A2000压缩率相对较小,音质较好,相应的资源占用较多。SACM_S240的压缩率最大,音质相对较差。SACM_S480介于这两者之间。每种算法都有完整的库函数供程序调用,软件编写非常方便。本语音遥控器采用SACM_S480算法。

语音识别分为特定发音人识别(Speaker Dependent)和非特定发音人识别(Speaker Independent)两种方式。

特定发音人识别是指语音样板由单个人训练,对训练人的.语音命令识别准确率较高,而其他人的语音命令识别准确率较低或不识别。非特定发音人识别是指语音样板由不同年龄、不同性别、不同口音的人进行训练,可以识别一群人的命令。语音样板的提取非常重要。语音遥控器就是采用非特定发音人识别方式。

语音识别分为语音样板训练和语音识别两个过程。我们将标准模式的存储空间称之为“词库”,而把标准模式称之为“样板”。所谓语音样板训练,就是将待识别的命令进行频谱分析,提取特征参数作为识别的标准模式。语音识别的过程就是提取语音命令的特征参数,与词库中的样板比较,取相似度最好的样板命令序号作为识别结果。凌阳科技公司提供语音样板训练工具和语音识别库函数,每次可以识别30条语音命令,命令较多的话可以分多组进行,语音识别流程见图4所示:

上面介绍了采用SPCE061A来完成红外遥控、语音识别、语音报温、报时等综合功能的语音遥控器,系统只用了单颗芯片来完成语音处理和控制功能,与专用的语音处理芯片相比,具有结构简单、成本低、易实现的特点,并且凌阳科技公司提供了丰富的C函数库和语音处理函数库,供用户调用,缩短了开发周期。本品稍作改动,就可用来控制空调机、录像机等电器;利用SPCE061A的语音处理优势可组成语音应答系统、语音合成系统、互动式玩具等,具有广阔的市场前景。

篇2:SPCE061A在语音遥控器中的应用

SPCE061A在语音遥控器中的应用

凌阳科技公司的最新产品SPCE061A,不但具有微控制器的功能,还具有DSP运算功能,可以用来进行数字语音(音乐)信号处理。根据此特点,我们设计了一款语音遥控器,她可以语音识别常用电台及控制命令,如“开机”、“关机”、“频道增加”、“频道减少”等遥控功能命令及“中央一台”、“北京二台”等电台命令功能,对于这些电台,用户可以“直呼其名”切换到相应电台,不用每次搜索而烦恼;也方便用户在晚上光线较暗的情况下的使用;更是视力较差、盲人的福音。

我们还加入了温度采集、语音报温的功能,通过按键控制,她采集当前温度,并用优美的声音播报“当前温度是xx摄氏度”。

在不增加成本的情况下,给语音遥控器加入了万年历计算、语音报时功能,通过按键,她会播报“xxxx年xx月xx日”或“上午(下午、晚上)x点x分”。

1 系统组成

目前所设计的空调语音遥控器,主要由键盘输入、MIC输入、温度采集、语音输出、红外发射电路组成。按键用来完成按键遥控功能------保留按键功能、语音报温、报时; SPCE061A有一路专用于语音信号采集的A/D转换电路(MIC输入),可以用来进行语音识别、录音等的语音信号输入,本遥控器用来采集语音信号,进行语音识别;SPCE061A有7路A/D,选其中1路进行温度采集,由按键控制温度播报;SPCE061A有丰富的时基信号,采用2Hz进行计数,并进行万年历计算,由按键控制播报时间。系统组成如图1所示。

2 硬件组成

硬件电路如图2所示:

共设计了13个按键,采用4×4的行列式键盘输入,IOA0---IOA3设置成输入口,IOA8---IOA11设置成输出口,预留3个按键作为备用。

语音识别的硬件电路比较简单,MIC选用驻极体话筒,驻极体话筒具有结构简单、重量轻、体积小、无方向性、频率响应宽、保真度好等优点。驻极体话筒的偏压由SPCE500A的VMIC脚提供。

SPCE061A提供双通道10位D/A输出AUD1、AUD2,其中每个DAC通道的输出能力为3mA,用于输出语音信号,考虑功耗问题,采用单通道AUD1输出。

利用SPCE061A的IOB8输出的PWM信号(IOB8、IOB9口的'特殊功能)可以作为红外载波信号,载波频率由可编程定时器TimerA(或TimerB)的溢出频率决定。本遥控器用IOB8产生红外载波信号。

温度传感器采用普通负温度系数热敏电阻,热敏电阻灵敏度高、价格便宜。('nSP(tm)内核是一个通用的核结构。除此之外的其它功能模块均为可选结构,亦即这种结构可大可小或可有可无。借助这种通用结构附加可选结构的积木式的构成,便可形成各种不同系列派生产品,以适合不同的应用场合。这样做无疑会使每一种派生产品具有更强的功能和更低的成本。

3 软件设计

软件采用模块化程序结构,程序模块包括初始化、键盘扫描、温度采集、温度播报、万年历时间计算、万年历播报、红外发射、语音识别、语音播放模块等,程序流程见图3所示:

图3 流程图

[1] [2]

篇3:语音识别在家电遥控器中的应用

语音识别在家电遥控器中的应用

摘要:介绍一种适合家电遥控器应用的语音识别算法,该算法使用双模块和两级端点检测方法,能有效地提高识别和稳健性;介绍利用该技术实现的一种新型学习型遥控器,展现了语音识别技术在家电领域的广阔前景。

关键词:语音识别DTWFEDFRED学习型遥控器

家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。

适合家用电器应用的语音识别嵌入式系统结构如图1所示,它由四个部分组成。第一部分为模/数转换部分,其输入端接收输入的语音信号,并将其转化成数字芯片可处理的数字采集信号;在输出端将解码后的语音数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所代表的命令,一般由DSP完成。第三部分语音提示和语音回放部分,它一般也是在DSP中完成的,其核心是对语音信号进行数字压缩编码和解码,目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输出转换成物理层操作,完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键,下面将对语音识别算法及遥控系统控制部分作详细的讨论。

1语音识别算法

目前,常以单片机(MCU)或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别,它有两种实现方案:一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别;另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。HMM非特定人员的优点是用户无需经过训练,可以直接使用;并且具良好的稳定性(即对使用者而言,语音识别性能不会随着时间的延长而降低)。但非特定人语音识别也有其很难克服的缺陷。首先,使用该方法需要预先采集大量的语料库,以便训练出相应的识别模型,这就大大提高了应用此技术的前期成本;其次,非特定人语音识别很难解决汉语中不同方言的问题,限制了它的使用区域;另外还有一个因素也应予以考虑,家电中用于控制的具体命令词语最好不要完全固定,应当根据的用户的习惯而改变,这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。DP特定人识别的优点是方法简单,对硬件资源要求较低;此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。DP特定识别的严重缺点是它的稳健性不理想,对有些人的语音识别率高,有的人识别率却不高;刚训练完时识别率较高,但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷,对传统方法作为改进,使识别性能和稳健性都有显著的提高,取得令人满意的结果。

1.1端点检测方法

影响孤立词识别性能的一个重要因素是端点检测准确性[4]。在10个英语数字的识别测试中,60毫秒的端点误差就使识别率下降3%。对于面向消费类应用的语音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难。为此,提出了称为FRED(Frame-basedReadl_timeEndpointDetection)算法[3]的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。

在特定人识别中,比较了常用的FED(FastEndpointDetection)[5]和FRED两种端点检测算法的性能。两种算法测试使用相同的数据库,包括7个人的录音,每个人说100个人名,每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法[4]。两种端点检测算法的识别率测试结果列在表1中。

表1比较FED和FRED端点检测算法对DTW模板匹配识别率的影响

端点检测算法第1人第2人第3人第4人第5人第6人第7人平均FED92.5%87%92.6%95.6%96.2%96.8%100%94.4%FRED94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%

测试结果说明:使用FRED端点检测算法,所有说话人的识别率都有了不同程度的提高。因此,本系统采用这种两级端点检测方案。

1.2模拟匹配算法

DTW是典型的DP特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。

假设存储的`一个词条模板包括M帧倒谱特征R={r(m);m=1,2,∧,M};识别特征序列包括N帧倒谱特征T={t(n);n=1,2,∧,N}。在r(i)和t(i)之间定义帧局部失真D(i,j),D(i,j)=|r(i)-t(i)|2,通过动态规划过程,在搜索路径中找到累积失真最小的路径,即最优的匹配结果。采用对称形式DTW:

其中S(i,j)是累积失真,D(i,j)是局部失真。

当动态规划过程计算到固定结点(N,M)时,可以计算出该模板动态匹配的归一化距离,识别结果即该归一化距离最小的模板词条:x=argmin{S(N,Mx)}。

为了提高DTW识别算法的识别性能和模板的稳健性,提出了双模板策略,即x=argmin{S(N,M2x)}。第一次输入的训练词条存储为第一个模板,第二次输入的相同训练词条存储为第二个模板,希望每个词条通过两个较稳健的模板来保持较高的识别性能。与上面测试相同,也利用7个人说的100个人名,每个人名含3遍的数据库,比较DTW单模板和双模板的性能差别,结果更在表2中。

表2DTW不同模板数的识别率比较

DTW第1人第2人第3人第4人第5人第6人第7人平均单模板94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%双模板99.4%96.6%98.5%100%100%98.8%100%99.0%

测试结果说明:通过存储两个模板,相当大地提高了DTW识别的性能,其稳健性也有很大的提高。因此,对特定人识别系统,采用DTW双模板是简单有效的策略。

综上所述,该嵌入式语音识别芯片系统采用了改进端点检测性能的FRED算法,12阶Mel频标倒谱参数(MFCC)作为特征参数,使用双模板训练识别策略。通过一系列测试,证明该系统对特定人的识别达到了很好的识别性能,完全可以满足家用电器中声控应用的要求。

2语音控制遥控器设计

目前家用遥控器主要为按键式,并有两种类型:一种是固定码型,每个键对应一种或几种码型,都是生产厂家预先设定好的,用户不能更改;另一种是学习型,具有自我学习遥控码的功能,可由用户定义遥控器的每个键对应的码型,它能够将多种遥控器集于一身,用一个遥控器就可控制多个家电,又可以作为原配遥控器的备份。由于现代家电功能不断增加,上述两种遥控器都有按键过多,用户不易记住每个键的含义等问题。将语音识别技术应用于学习型遥控器,利用语音命令代替按者对命令的记忆和使用,同时省去了大量按键,缩小了遥控器的体积。

语音控制遥控器的硬件框图如图2所示,它由两个独立的模块组成:语音信号处理模块和系统控制模块。

语音信号算是模块由DSP、快闪存储器(FLASH)、编解码器(CODEC)组成。其中DSP是整个语音识别模块的核心,负责语音识别、语音编解码,以及FLASH的读写控制。DSP的优点是运算速度快、内存空间大、数据交换速度快,可用来实现复杂的算法,提高识别率,减小反应延时,得到较高的识别性能。DSP芯片选用AnalogDevices公司的AD2186L,它具有如下特点:①运算速度达40MIPS,且均为高效的单调周期指令;②提供了40K字节的片内RAM,其中8K字(16Bit/字)为数据RAM,8K字(24Bit/字)为程序RAM,最大可达4兆字节的存储区,用于存储数据或程序;③3.3V工作电压,具有多种省电模式。AD2186L既能完成与语音信号算是相关的算法,又适合使用电池作能源的遥控器。FLASH和CODEC也都选用3.3V工作电压的芯片。FLASH为美国ATMEL公司的AT29LV040A(4MBit),它作为系统的存储器,主要用于存放以下内容:提示语音合成所需的参数,特定人训练后的码本数据,DSP系统的应用程序和学习和遥控码数据。CODEC选用美国TI公司的TLV320AC37,用来进行A/D、D/A变换、编码和解码。

系统控制模块由单片机、红外接收发送器、电源管理电路组成。单片机负责整个遥控器的系统控制。单片机作为主控芯片,进行键盘扫描,根据用户通过键盘输入的指令,分别完成学习遥控码;控制DSP进行语音训练、回放、识别;将识别结果转换成相应的遥控码,通过红外发光管发射出去。单片机与DSP之间通过标准的RS232串行协议通讯。

系统的控制软件流程图如图3所示。在使用前,按“学习键”进入学习状态,用户先对学习型遥控器训练语音命令,并使其学习与各语音命令相对应的原理控码型。使用时按“识别键”,进入语音识别状态,等待语音处理模块返回结果,若返回正确的识别结果,则把相应的遥控码发射出去。例如,原电视遥控器数字键“1”对应中央1台,用户的训练命令为“中央1台”,学习了原遥控器的数字键“1”的遥控码,并使其与训练命令“中央1台”对应起来。于是使用时只需对着学习型遥控器的麦克风说出“中央1台”,电视就会切换到中央1台。这样用户不需要记住每个电视台与台号的对应关系,相对于枯燥的频道数字,用户自定义的命令更容易记住。

若连续的30秒无正确的命令则遥控器进入休眠状态,单片机控制电源管理电路切换DSP和FLASH电源,单片机本身也进入休眠状态,直至用户按键,唤醒单片机,再由单片机控制恢复DSP和FLASH供电,重新开始工作。这是因为整个系统中,DSP的功耗最大,长时间不用时,关闭语音信号处理模块,可以显著地降低整个系统的功耗。

从实验室走向市场的过程中,可靠性与成本是遇到的最大挑战。采用双模板的DTW和两组端点检测FRED算法,可在系统资源和反应延时增加极小的情况下,有效地提高识别率和稳健性。该项技术成功地运用在学习型遥控器上,展现了语音识别技术在家电领域的广阔前景。

篇4:AMBE-1000在语音压缩中的应用

AMBE-1000在语音压缩中的应用

摘要:AMBE-1000是一款语音压缩质量较好的多速率语音编码/解码芯片。TLC32044是14位动态可调的高精度可编程的A/D-D/A芯片。本文介绍AMBE-1000、TLC32044的性能特点、工作原理和接口电路,并给出语音压缩系统的应用实例。

关键词:AMBE-1000声码器 TLC32044 语音压缩

1 概述

根据对语音构成的分析,应运而生了多种对音频信号的压缩编码算法,如CELP、RELP、VSELP、MP-MLQ、LPC-10MBE等,它们通过不同的算法,实现对音频信号的压缩。这些压缩编码算法的压缩率、语音质量各有所长,其中美国DVSI(Digital Voice System .Inc)公司提出的先进多带激励AMBE(Advanced Multi-Band Excitation)压缩编码算法是其中的杰出代表。AMBE是基于MBE技术的低比特率、高质量语音压缩算法,具有语音音质好和编码波特率低等优点,并植于DVSI公司的AMBE-1000语音压缩芯片内。该芯片是一高性能的多速率语音编码/解码芯片,其语音编码/解码速率可以在2400――9600b/s之间,以50b的间隔变化。在芯片内部有相互独立的语音编码和解码通道,可同时完成语音的编码和解码任务;并且所有的编码和解码操作都在芯片内部完成,不需要外扩的存储器。AMBE-1000的这些特性使它非常适合于数字语音通信、加密语音通信以及其它需要对语音进行数字处理的场合。

(本网网收集整理)

2 AMBE-1000的工作原理及硬件接口

2.1 基本工作流程

简单地说,AMBE-1000的工作过程如图1所示。AMBE-1000可看成由两个分开的编码器和解码器组成。编码器接收8kHz的语音数据采样流(如16位线性的,8位A律的或8位U律的)和输出一个期望的波特率的信道数据流。反之,解码器接收一个信道数据流并合成一个语音数据流。AMBE-1000的编码器和解码器的接口时序是完全异步的。

2.2 信道接口

信道接口用于描述从编码器输出的压缩比特流和输入到解码器的压缩比特流。该接口也可输出状态信息,例如可以检测是否有双音多频(DTMF)的语音信号输入。此外,该接口对编/解码器执行更复杂的控制操作(通常在初始化时)。这些控制功能包括语音和纠错码速度的选择、A/D-D/A芯片的设备。在多数的语音传输系统中,实际编码比特流以一定格式从信道中摘录出来,并和系统信息合在一起构成系统传送数据流,通过传输信道发送;在接收端被摘录出来,并通过解码器构成AMBE-1000所需格式的数据流。

AMBE-1000有多种工作模式:并行和串行、有帧和无帧格式、主动和被动。其中,并行被动帧模式是最灵活和实用的一种工作模式。通过上拉电阻和拨位开关与相应的接口选择引脚相连,就可以选择相应的工作模式。通过采用上述的方法,就可通过选择开关在2400――9600b/s和50――4750b/s间自由选择语音速率和纠错码速率。在串行主动模式下,AMBE-1000的工作时钟为27MHz,CHS_O_CLK的时钟为4.5MHz(27MHz/6),即在0.22μs内需读取1位数据。即使单片机工作在24MHz下,也无法读取该数据,故须采用被动方式,这样就可以自己设置CHS_O_CLK的时钟,可该时钟也需要满足在20ms内能够读取34字节的`数据(即1帧数据);同时并口占用较多的接口资源,故采用串行被动帧模式,其硬件连接如图2所示。

2.3 数据格式

AMBE-1000的数据在有帧格式下,每帧由17个字组成。编码器每20ms输出17个字,而解码器则要接收17个字。每帧的前5个字由帧标志(Header)、识别标志(ID)、状态(输出)或控制(输入)信息组成,其余的12个字构成编码/解码数据。这12个字共192位是AMBE-1000以9600b/s方式工作的最大数据率(192b/帧×50帧/s=9600b/s)。当编码/解码的数据率低于9600b/s时,不足的位补0.需要注意的是,无论AMBE-1000工作在什么速率,所有272位(17字×16b=272b)的帧数据(包括任何未用的结尾零)都必须从编码器输出或输入解码器。无帧格式只能用于串行模式。

图4

2.4 AMBE-1000和TLC32044的接口电路

AMBE-1000要求A/D、D/A的语音数据与串行的方式输入、输出。该接口电路的关键是语音数据的帧同步,其硬件接口电路如图3所示。其中5.184MHz作为TLC32044的工作时钟,同时也作为D触发器的触发脉冲。由TLC32044产生的移位脉冲(SHIFT CLK),用于实现比特位的同步传输。通过设置C_SEL0-2为010,来选择TLC32044芯片。

2.5 时钟和复位

AMBE-1000的工作时钟为26――30MHz.它有3种输入方式:TTL时钟源直接输入、CMOS时钟源或振荡器直接输入、采用晶体振荡电路输入。在此系统中,时钟采用晶体振荡电路输入。有效复位信号为低电平,并且须持续6个时钟周期以上。

3 外围接口电路

3.1 TLC32044的工作原理

语音信号的数字处理少不了语音信号的A/D与D/A转换。在本次设计中,选用美国TI公司生产的一种14位动态可调的高精度可编程A/D、D/A的TLC32044芯片。如图4所示,TLC32044由反混迭输入滤波器、A/D、D/A、输出重构滤波器等组成。模拟和数字地、模拟和数字电源的分开可降低噪声和保证一个宽的动态范围。模拟电路部分采用差分电路以使噪声达到最小。TLC32044还具采样频率可编程,其采样频率可在7.2kHz――19.2kHz范围内用软件控制,它可工作在同步字、字节传输和异步字、字节传输等4种工作状态,分别采用16bit字或8bit字节串行通信方式,最高具有14bit的转换精度,只需外部提供一个5.184MHz的时钟便可工作。该芯片通过编程可同时容纳2路模拟信号输入。系统上电(或复位)后则按其默认的工作方式工作,即按16bit字或8bit字节串行通信方式,最高具有14bit的转换精度,只需外部提供一个5.184MHz的时钟便可工作。该芯片通过编程可同时容纳2路模拟信号输入。系统上电(或复位)后则按其默认的工作方式工作,即按16bit字同步串行通信,采样频率为8kHz.欲改变TLC32044的工状态,可通过编程并把控制字经由DX脚送入TLC32044.

图5

在DR时序中的D1、D0位是空的,A/D转换的有效精度是D15――D2;而DX时序中的D1、D0位是作为控制位用的。FSR和FSX分别为接收与发送帧同步信号,为8kHz.在同步工作方式下,两者完全相同。

3.2 TLC32044的外围接口电路

为了实现系统的语音输入和输出,同时保证有效的增益,须对输入输出的语音信号进行放大,电路如图5所示。在该系统中,采用高性能低噪声的LM1458放大器,通过20kΩ的可调电位器来调整输入输出语音信号的增益。在该电路中需要-5V电源,而一般电路仅提供+5V电源,故在电路设计上采用MAX660芯片,实现+5V――-5V电源的转换。这样,整个电路就可用单一电源供电。

图6

4 系统分析

语音压缩系统框图如图6所示。该系统可以自主选择工作速率。在串行主动有帧模式下。可以把AMBE-1000的串行输入输出脚相互短接,进行系统自检,以确认系统是否正常。在系统设计时,须注意模拟地和数字地的区分,避免背景噪声的引入。该电路设计已运用于智能通信终端的端语音压缩,可减少语音的数据量,同时可增加话音的保密性。时该电路也可用于固态采访机,只须加上可擦写的Flash芯片及控制键即可。

篇5:AMBE-1000在语音压缩中的应用

AMBE-1000在语音压缩中的应用

摘要:AMBE-1000是一款语音压缩质量较好的多速率语音编码/解码芯片。TLC32044是14位动态可调的高精度可编程的A/D-D/A芯片。本文介绍AMBE-1000、TLC32044的性能特点、工作原理和接口电路,并给出语音压缩系统的应用实例。

关键词:AMBE-1000声码器 TLC32044 语音压缩

1 概述

根据对语音构成的分析,应运而生了多种对音频信号的压缩编码算法,如CELP、RELP、VSELP、MP-MLQ、LPC-10MBE等,它们通过不同的算法,实现对音频信号的压缩。这些压缩编码算法的压缩率、语音质量各有所长,其中美国DVSI(Digital Voice System .Inc)公司提出的先进多带激励AMBE(Advanced Multi-Band Excitation)压缩编码算法是其中的杰出代表。AMBE是基于MBE技术的低比特率、高质量语音压缩算法,具有语音音质好和编码波特率低等优点,并植于DVSI公司的AMBE-1000语音压缩芯片内。该芯片是一高性能的多速率语音编码/解码芯片,其语音编码/解码速率可以在2400~9600b/s之间,以50b的间隔变化。在芯片内部有相互独立的语音编码和解码通道,可同时完成语音的编码和解码任务;并且所有的编码和解码操作都在芯片内部完成,不需要外扩的存储器。AMBE-1000的这些特性使它非常适合于数字语音通信、加密语音通信以及其它需要对语音进行数字处理的场合。

2 AMBE-1000的工作原理及硬件接口

2.1 基本工作流程

简单地说,AMBE-1000的工作过程如图1所示。AMBE-1000可看成由两个分开的编码器和解码器组成。编码器接收8kHz的语音数据采样流(如16位线性的,8位A律的或8位U律的)和输出一个期望的波特率的信道数据流。反之,解码器接收一个信道数据流并合成一个语音数据流。AMBE-1000的编码器和解码器的接口时序是完全异步的。

2.2 信道接口

信道接口用于描述从编码器输出的压缩比特流和输入到解码器的.压缩比特流。该接口也可输出状态信息,例如可以检测是否有双音多频(DTMF)的语音信号输入。此外,该接口对编/解码器执行更复杂的控制操作(通常在初始化时)。这些控制功能包括语音和纠错码速度的选择、A/D-D/A芯片的设备。在多数的语音传输系统中,实际编码比特流以一定格式从信道中摘录出来,并和系统信息合在一起构成系统传送数据流,通过传输信道发送;在接收端被摘录出来,并通过解码器构成AMBE-1000所需格式的数据流。

AMBE-1000有多种工作模式:并行和串行、有帧和无帧格式、主动和被动。其中,并行被动帧模式是最灵活和实用的一种工作模式。通过上拉电阻和拨位开关与相应的接口选择引脚相连,就可以选择相应的工作模式。通过采用上述的方法,就可通过选择开关在2400~9600b/s和50~4750b/s间自由选择语音速率和纠错码速率。在串行主动模式下,AMBE-1000的工作时钟为27MHz,CHS_O_CLK的时钟为4.5MHz(27MHz/6),即在0.22μs内需读取1位数

[1] [2] [3]

篇6:蓝牙芯片ROK 101 007在语音系统中的应用

蓝牙芯片ROK 101 007在语音系统中的应用

摘要:介绍了爱立信公司推出的蓝牙芯片ROK 101 007的结构、工作原理及其在无线语音系统中的应用。

关键词:蓝牙 主机控制接口

爱立信(Ericsson)公司推出的蓝牙芯片ROK 101 007是一款适合于短距离无线通信的射频/基带芯片,集成度高、功耗小,完全兼容蓝牙协议Version 1.1,可嵌入任何需要蓝牙功能的设备中。该芯片包括基带控制器、无线收发器、闪存等功能块,可提供高至HCI(主机控制接口)层的功能。此外,该芯片还提供USB、UART和PCM接口,用于与主机通信;并且支持蓝牙语音和数据传输,输出功率满足蓝牙二级操作的要求。

1 内部结构及各功能块介绍

ROK 101 007包含五个功能块:无线收发器(PBA 313 01/2)、基带控制器、闪存、电源管理模块、时钟,如图1所示。

图1 芯片内部结构框图和部分外部管理

1.1 无线收发器PBA 313 01/2

PBA 313 01/2是一个工作在2.4~2.5GHz ISM频段的短距离微波频率射频收发器,使用GFSK调制,最大的TX&RX数据传输率为1Mbit/s。能在可供使用的79个信道(2.402~2.480GHz)之间快速地跳频(1600个信道/s),通道带宽是1MHz,频率偏差在140kHz和175kHz之间。满足蓝牙二级操作,最大输出功率是4dBm,不需要功率控制。安装天线之后,传输距离可达10m,符合ISM频段的FCC和ETSI标准。PBA 313 01/2以Radio ASIC为基础,集成了环路滤波器、压控振荡器、天线滤波器、收发控制器、发送器和接收器等六个操作部件,如图1所示。各部件功能如下:

①Radio ASIC完成信号的调制和解调。

②环路滤波器、压控振荡器和Radio ASIC构成锁相环。环路滤波器滤除Radio ASIC输出的误差电压的高频成份和噪声,用以保证环路所要求的性能,增加系统的稳定性。

③收发控制器协调接收器(RX)和发送器?TX?的工作,用以保证蓝牙的全双工传输。

④天线滤波器对射频信号进行带通滤波。管脚ANT(T2)是天线接口,应连接阻抗为500Ω的天线。

1.2 基带控制器

基带控制器是一个基于ARM7-Thumb的功能块,通过UART或USB接口控制无线收发器。基带控制器负责处理底层的链路层功能,如调频序列的选择等。

1.3 闪存

闪存以二进制码的格式存放蓝牙固件,可与基带控制器交换数据、地址和控制信号。蓝牙固件包括链路管理器和主机控制接口(HCI)。

(本网网收集整理)

链路管理器实现了链路管理协议(LMP),负责处理底层链路控制。每个蓝牙设备都可以通过LMP与另一个蓝牙设备的链路管理器进行点对点的通信。HCI为主机提供了访问基带控制器、链路管理器以及硬件状态和控制寄存器的命令接口。主机通过HCI驱动程序提供的一系列命令控制蓝牙接口;蓝牙固件的HCI收到命令后,会产生事件返回给主机,用来指示接口的状态变化。主机和HCI之间共有三类数据传输:

・HCI命令包 从主机发往蓝牙的HCI。

・HCI事件包 从蓝牙的HCI发往主机。

・HCI数据包 既可从主机发往HCI,也可从HCI发往主机,包括无连接(ACL)数据和同步连接(SCO)数据。

HCI传输层定义了每一类数据如何封装以及如何通过接口进行复用。ROK 101 007支持两种HCI传输层:UART传输层和USB传输层。

1.4 电源管理模块

该模块提供芯片所需电源。Vcc的典型值是3.3V。

1.5 时钟

该模块内置频率为13MHz的时钟。时钟由一个晶体振荡器产生,保证定时的精度在20ppm之内。

2 芯片接口和主要管脚介绍

ROK 101 007与主机或其它设备互联时,有三种接口方式(参见图1)。

2.1 USB接口

ROK 101 007的USB接口符合USB1.1规范,通过双向端口D+&D-,数据传输可达到12Mbps。当使用USB接口与主机通信时,ROK 101 007是一个USB从设备。与该接口有关的管脚有:

・D+(B1)&D-?B2? 用于数据传输。

・Wake up(B4)&Detach?C1? 用于与笔记本电脑互联,可用来控制笔记本电脑的状态。当主机处于掉电模式时,如果蓝牙设备收到建立连接的请求,Wake up信号就会“唤醒”主机。而主机可通过Detach信号指示自己处于“挂起”模式。

2.2 UART接口

ROK 101 007的UART接口符合工业标准16C450,支持以下波速率(单位:bits/s):300,600,900,1200,1800,2400,4800,9600,19200,38400,57600,115200,230400和460800。使用爱立信自定义的一条HCI命令:HCI_Ericsson_Set_Uart_Baud_Rate可改变UART接口的波速率。该接口中有128字节的先入先出(FIFO)缓冲器。

与该接口有关的四个管脚为:

・TxD(B5)&RxD(A5) 用于收发数据。

・RTS(A6)&CTS(B6) 用于数据流控制。

2.3 PCM语音接口

标准的PCM语音接口采样速率为8kHz。语音编码方式可采用CVSD(连续可变斜率增量调制)、μ律(8bit)或A律?8bit?。考虑到编码的健壮性,应优先选择CVSD。

图3 系统软件模块结构

与PCM语音接口有关的管脚信号有:

・PCM_SYNC(A3) 设置PCM数据的采样速率。

・PCM_OUT(A2)&PCM_IN?A1? 接收或发送语音编码信号。这两个管脚信号的方向通过编程可调。

3 北京邮电大学无线网络实验室蓝牙语音系统简介

利用ROK 101 007芯片开发了一套蓝牙语音系统,它能使现有的各种通信设备(手机或固定电话)与蓝牙耳机之间进行无线语音传输,从而实现蓝牙技术向现有设备的后向兼容。

3.1 系统构成

该系统由蓝牙适配器和蓝牙耳机两部分构成。蓝牙适配器与现有的通信设备(手机)相连,实现蓝牙与手机之间的信号转换;蓝牙耳机上有PTT按钮,用于接听和挂断来电。蓝牙适配器和蓝牙耳机彼此之间可建立蓝牙无线链路,用于传输语音、数据或控制信号。

系统工作流程如下:蓝牙适配器是主方,上电后进入查询模式,自动搜索周围的蓝牙设备(耳机)。如果附近存在蓝牙耳机,主方发起连接请求,与之建立蓝牙数据连接(ACL连接)。然后主方和从方进入待机模式。当有来电或有电话拨出时,主方通知从方。若从方决定接通通话,则由主方建立主方与从方之间的语音链路(SCO连接),并进入通话状态。 关键术语定义:

主方 是指发起连接的`一方(本系统中适配器是主方);

从方 是指接收连接的一方(本系统中耳机是从方)

ACL 是指异步连接链路,用于蓝牙数据传输;

SCO 是指同步连接链路,用于蓝牙语音传输。

3.2 硬件电路

蓝牙适配器和耳机的硬件结构基本相同,其电路框图如图2所示。

硬件电路主要由三个模块组成:

单片机控制模块 包括AT89C4051芯片和信号灯系统,完成系统的初始化、蓝牙通信链路建立和监测手机来电等功能。单片机通过串口与ROK 101 007连接。

语音模块 包括MC145483语音编解码电路和耳机、麦克语音输入输出外围电路,完成语音的编解码功能。MC145483是13位线性PCM 编码解码滤波器,可完成语音信号的数字化和重构,与ROK 101 007的PCM语音接口连接。

蓝牙模块 包括爱立信点对多点蓝牙芯片和倒F天线。芯片实现蓝牙通信的核心功能。

3.3 软件设计

软件设计采用直接对HCI层进行编程。由主机向HCI发命令,HCI收到命令后,会向下传递到LM层,由LM负责链路的建立、加密和鉴权;主机接收HCI发来的事件包,根据具体的事件采取相应的处理。链路建立成功后,语音流使用连续可变斜率增量调制(CVSD)技术,获得高质量的音频编码。

软件流程由四个功能模块组成,如图3所示。

初始化模块:初始化蓝牙芯片及各状态变量;

事务调度模块:根据返回的事件状态参数对系统事务调度,跳转到返回事件处理模块中。

蓝牙返回事件处理模块:各个子程分别处理蓝牙各个返回事件。

中断模块:包括外部中断模块和串口中断模块。外部中断模块判断手机是否有来电(仅主方需要);串口中断模块负责蓝牙数据包和事件包的接收和发送。

3.4 系统特点及使用效果

该语音系统最大的特点是实现了与现有通信设备的后向兼容。用户无需更换现有的不具蓝牙功能的通信设备,就可享受到无线通信带来的便捷。如何使现有设备与新技术产品之间保持平滑的过渡或者无缝连接是每个研发人员在开发产品时要着重考虑的问题。正是基于以上考虑,才开发了这套蓝牙语音系统,旨在把蓝牙产品尽快地推向市场。

经试用后,该系统话音清晰稳定(可达到市话标准),当有来电或有电话拨出时,主从设备之间切换迅速,用户感觉不到明显的时延差异。该系统性价比高,有很好的市场推广前景。

篇7:基于HMM的语音识别技术在嵌入式系统中的应用

基于HMM的语音识别技术在嵌入式系统中的应用

摘要:介绍语音识别技术在嵌入式系统中的应用状况与发展,以及在嵌入式系统中使用HMM语音识别算法的优点,并对基于HMM语音识别技术的系统进行介绍。

关键词:SoC芯片 HMM 语音识别 嵌入式系统

语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

(本网网收集整理)

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。

特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的'基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无

对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率

浮  点定  点无静音模型98.59%98.28%有静音模型98.83%98.55%

可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。

目前嵌入式语音识别领域使用HMM模型的还比较少,使用通常限于DHMM。由于集成电路制造技术的发展,目前主流DSP都可以提供100MIPS以上的运算速度,完全可以满足CHMM对计算能力的要求。

笔者在使用SoC芯片的硬件平台上实现了DHMM和CHMM算法。其中定点CHMM语音识别算法在16位定点DSP硬件平台上达到很高的识别率,同时系统资源消耗也比较合理,安全可以替代DHMM算法。非常适合50词以内的命令词识别。以上算法已经在芯片上实现,该方案在家电语音遥控、玩具、PDA、智能仪器以及移动电话等领域内有非常好的应用前景。

篇8:AMBE-1000声码器在语音通信系统中的应用

摘要:AMBE-1000是一款语音质量较好的低比特率声码器芯片。提出了应用该芯片研制语音通信声码器的具体实现方案。给出了语音通信系统中电话用户接口回路、PCM语音数字化编码回路和AMBE-1000是支持电路。

关键词:AMBE-1000声码器语音通信

AMBE-1000是美国DVSI公司研制、Lucent公司生产的一款成熟的双工声码器芯片。该芯片采用AMBE语音编码算法,编码速率为2.4~9.6kb/s。AMBE(AdvancedMulti-BandExcitation)算法是MBE(Multi-BandExcitation)算法的改进和扩充。MBE语音编码算法是将语音谱按基音频率分成若干个带,对各个带的信号中清音/浊音(V、UV)分别处理,最后将各个带信号叠加,形成全带合成语音。AMBE-1000声码器在低速率和较强背景噪声下具有比较好的语音质量,从而使其在车、船载移动卫星语音通信系统中得到广泛应用。Inmarat(国际海事卫星组织)已把AMBE-1000应用于其各代卫星语音通信系统中,该芯片还可应用于语音压缩与存储等系统[3]。本文把AMBE-1000应用于语音通信系统,提出了具体实现方案,给出了其电话用户接口回路、PCM语音数字化编码回路和AMBE-1000支持电路。

1AMBE-1000简介

1.1AMBE-1000的主要特点

(1)具有高语音质量、低速率的全双工编码器。编码速率从2.4kb/s至9.6kb/s可变,语音质量和其它声码器的比较如图1[1]所示。

从图1可以看出,在4.8kb/s的编码速率下,AMBE-100有很好的语音质量;在2.4kb/s的编码速率下,该芯片产生的语音比GSM语音还好。

(2)有较强的抗背景噪声能力,有FEC功能,有良好的抗信道干扰能力,具体如图2[1]所示。

从图2可以看出,AMBE-1000算法的抗背景噪声能力明显比较性预测CELP等其它算法的高。

(3)具有功耗低的优点,还具有DTMF信号的检测、识别、产生和发送以及话音激活、舒适噪音插入和回音消除等功能[2]。

1.2AMBE-1000的基本工作原理

AMBE-1000的AD/DA语音接口信号可以是标准的μ律或A律压扩量化的PCM信号,也可以是14或16比特线性量化的PCM信号。压缩语音数据的传输接口能够设置为主动或被动方式,且数据可按串行或并行的方式传输。AMBE-1000提供了用来设置芯片默认工作状态的一系列引脚,芯片加电时自动进入由引脚设置的默认状态。这些设置包括AD/DA转换格式、语音编码速率、FEC速率、主动/被动方式、并/串数据方式、VAD使能、回音消除使能等。这些状态可以通过硬件设置,也可以由软件通过控制字进行更改[2]。

AMBE-1000的数据格式可以是帧格式也可以是非帧格式,通常使用帧格式。对于帧格式,AMBE-1000以20ms为周期全双工并行工作。在20ms之后,AMBE-1000将A/D转换器送来的数字化语音压缩,按其帧格式打包后送到编码输出缓冲器,并将解码器输入缓冲器的数据包解压还原送向D/A转换器,从而完成对数字语音的编、解码。

语音识别在家电遥控器中的应用

数理逻辑在企业管理中的应用

管理信息系统在企业中的应用

计算机技术在特殊教育中的应用

移动GIS中语音与自然语言的应用模式探讨

歌唱方式在普通话语音训练中的应用研究

能量守恒定律在电学中的应用论文

秩检验在司法会计检验中的应用

语境在科技英语翻译中的应用

多媒体在生物教学中的应用

《SPCE061A在语音遥控器中的应用(精选8篇).doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

点击下载本文文档