欢迎来到千学网!
您现在的位置:首页 > 实用文 > 其他范文

语音识别调查报告

时间:2023-01-06 08:09:54 其他范文 收藏本文 下载本文

下面是小编为大家整理的语音识别调查报告,本文共13篇,如果喜欢可以分享给身边的朋友喔!

语音识别调查报告

篇1:语音识别调查报告

让计算机能听懂人的语言,是自计算机诞生以来人类便梦寐以求的,Intel创办人Gordon Moore曾说,语音技术是影响未来科技发展最关键的技术;IBM总裁Lou Gerstner指出,有朝一日,将有数十亿的人运用自然语言在Intern et上浏览、查询【’]。随着移动电话、掌上电脑、PDA等移动设备以及移动计算环境中各类智能设备的广泛应用,使用语音作为用户操作界面的要求越来越迫切,移动设备体积小,计算能力和存储空间有限,其使用场合又往往处于复杂、多变的噪声环境中,使得基于这类设备的语音识别实用技术面临许多挑战。如今语音识别的应用领域不断拓展,在军事、工业、家电、消费电子、交通等各方面都得到了广泛的应用。常见的应用有: (1>语音控制语音识别技术可实现这样的功能,利用声音来控制一台机器设备的运行。例如现在的智能家电,就可以通过语音控制其开关和其他功能的实现。语音控制一方面可以提高工作效率,另一方面也可以在人们手脚被占用的时候实现控制,解放人们的双手。

(2)语音输入利用语音识别技术,将人们的声音信号直接转换成相应的文字输入计算机系统,不仅可以代替键盘使文字的输入工作更加省力和高效,同时也为那些不熟悉键盘输入法的人们提供了一种新的文字输入途径。

(3)身份识别和指纹类似,人们的声纹也具有较强的排他性,因此可以利用语音识别来进行身份的识别和确认工作。

语音识别一般有广义和狭义之分。广义的语音识别指的是从语音信号中提取出任何人们感兴趣内容的技术,而我们通常所说的语音识别指的是狭义的语音识别,即从语音信号中提取出文本内容的技术。也就是通过算法,将语音转换成文本的过程[}2}根据识别的对象不同,语音识别大致分为3类:孤立词识别,连续语音识别,关键词识别。

其中孤立词识别是识别事先己知的孤立词,如“开始”、“结束”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或者一段话;连续语音流中的关键词检测针对的也是连续语音,但它并不要求识别全部文字,而只是检测己知关键词在何处出现,如在一段话中检测“西安”、“中国”这两个词。根据语音识别系统所针对的发音人,可以将语音识别分为2类:特定人语音识别和非特定人语音识别。 其中前者只能识别特定的一个人或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面CPC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的.采集通道会使发音的声学特性产生变形,因此需要构造各自的识别系统。

虽然当前语音识别技术在实际应用中取得了较好效果,但我们也应清醒的认识到其中存在的问题并对其进行深入的分析。目前国内外对语音识别技术研究存在的主要问题有:

(1>标准输入的问题缺乏标准输入是目前语音识别面临的主要难

题之一。因为语言、方言之间的差异,

所以很难确定一个标准的输入,导致实际使用时误识率过高,较难达到人们预期的效果。即使语言相同,我们每个人的发音习惯也不尽相同,这就导致了根据某些人的语音数据

设计出来的语音识别系统很难适应所有的使用者。因此目前绝大多数的语音识别系统在使用前,都需要使用者对其进行适应性训练,使其习惯自己的发音,以提高识别的正确率。另外,对语音识别的输入设备缺乏统一标准也是导致语音输入不标准的重要方面。

因为当前的录音设备都是以人能听清,听懂为标准进行设计的,至于如何调整输入设备的各项参数,使其适应计算机识别的特点,让识别系统能够更好的分辨,对此我们还需要做大量的数据收集,分析和研究工作。

(2)环境噪声的问题环境噪声的干扰也是语音识别研究中一个不可回避的问题。在实际应用时,我们并不能保证识别系统始终处于一个安静的环境中工作。大多数的应用场景总是存在着环境噪声,且不同场景的噪声也各不相同。我们在语音识别系统开发时很难做到训练环境和真实环境的匹配,导致很多识别系统在实验室环境下识别效果很好,但是到了实际应用的场景,一旦遇到较强的环境噪声,识别的效果就大打折扣了。所以说,噪声环境中语音识别要比安静环境下困难很多。目前解决环境噪声干扰问题的途径主要有三个:一是在语音识别的前端,即语音输入环节,开发抗噪性能更好的语音输入设备,从源头上降低语音信号中的噪声分量;二是在对己经混入了噪声的语

音信号进行特征提取时,选取抗噪性高的特征参数;三是在对语音识别系统进行训练时,充分考虑到噪声的干扰问题,进行针对性的训练以提高系统识别的鲁棒性。

(3)协同发音现象:人们在交流时很少一个字一个字的孤立发音,多数情况下都是按照自己的习惯连续发音,这时原本孤立的声学单元就会受到上下文的影响而发生模糊、变异。因此无论在语音识别系统中选取何种建模单元(词、音节、声韵母、音素),都需要对这些单元之间的相互影响做细化处理,这样就会带来模型数目的剧增和训练数据的相对医乏。

语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、机器学习、人工智能、信息论等领域的一门综合性学科,它主要包括四个部分:语音识别(Speech Recognition)、语音合成(Speech Synthesis)、语音编码(SpeechCoding)和语音分类(Speech Classification)}4]。语音识别是指机器从语音信号中提取语言信息,从而使机器能够有效地理解和执行发声者的各种意图,其目的是要让机器听懂人类口述的语言,“听懂’,有两层含义,其一是指将语音转换为文本,其二是指理解语音包含的意义。通常所说的语音识别是指第一层含义,而第二层含义则属于语言理(LanguageUnderstanding)的范畴,让机器听懂我们的话语,是自动语音识别(Automatic Speech Recognition, ASR要研究的课题。ASR的最终目标是要将连续的语音自动地变换成文本字符,实现所谓的音字转换。在日常生活中,人们用数以万计的词语,组成连续的语句来进行交谈,在这种自然发音的

语句中,由于协同发音以及语调、重音和抑扬顿挫等节律的影响,很多音素的声学特性跟单字念读时差别很大,这给ASR带来了许多挑战。

在语音识别方法中,目前占主导地位的是基于统计的模式识别方法〔川。一段语音波形通过前端信号处理后可以得到一组特征序列。在给定观测序列Y的情况下识别系统采用最大后验概率准则决定输出词序列(2-1)其中,P(幼与词序列W无关,因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)为语一言模型,表示特定词序列出现的先验概率,与观测语音信号无关;P(Y}W)为声学模型,表示给定词序列W情况下输出Y的概率,也就是给定声学模型输出Y的概率。如图所示,大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理,得到最终的识别结果

篇2:win8语音识别怎么用

不知道win8语音识别怎么用?下文将演示win8语音控制使用教程,有了语音识别功能,我们就可以完全抛弃鼠标,想要体验语音控制的朋友请参考下文步骤操作吧~

--启动语音识别功能

首先,用户需要准备一部笔记本电脑和一个麦克风。Win8语音识别程序能够支持任何类型的麦克风,甚至包括内置在用户笔记本中的扩音器。不过,微软表示,价格在20美元左右的麦克风效果最佳。

激活语音识别功能最简单方法就是打开“开始”(Start)界面,输入“语音”(Speech),在搜索结果中,点击“Windows语音识别”(Windows Speech Recognition)。当你首次打开该程序时,就会进入“tutorial/introduction”模式。然后,用户根据屏幕上的提示,快速启动和运行“Windows语音识别”。这会语音识别模板就会出现在显示屏上方,点击麦克风图标,它就会变蓝,然后就可以来接受用户“语音指令”。

--使用语音识别功能

比如,如果想要打开Windows8系统中自带计算器程序,用传统方法首先就需要打开Charms Bar超级栏,然后点击进入“开始”图标,右击,打开应用程序,再点击计算器图标。不过,要是借助语音识别功能,你只需要说,“打开计算器”就OK。

以下列出了几种基本语音控制操作:

1)“打开计算器(或者Word, Excel, Internet Explorer等)”:无需点击鼠标就可以打开你所指定的程序,超级方便!

2)“转至Word (或者Excel, Internet Explorer…)”:转至你所指定的应用程序。

3)“打开文件(File. Open)”:比如,你说“编辑(Edit)”,就可以打开编辑菜单,说“全选”(Select All),就执行选择命令,

4)“打印(取消,桌面)”:通过语音可以点击任何按钮或者对话框中的任何标签。

5)“联系我们(Contact us)”:只要说出网页中的任意版块,就可以打开网页上相应连接。

6)“双击回收站(Double-click Recycle Bin)”:用户可以告诉Windows去双击或者右击任何你在屏幕中所看到的图标、程序。

7)“跳至标题(地址,或者正文)”:在邮件、网页、浏览器,或者对话框中,“Go toXXX”意思就是进入你所指定的板块。比如,“地址”就指地址框。

8)“关闭它(Close that)”:关闭最靠前窗口,当然也包括“最小化(Minimize that)”,“最大化(Maximize that)”。

9)“滚动(上下,左右)”:指上下或左右滚动窗口。此外,你也可以说“向下滚动10行”,鼠标指针向下滚动10行后停止。

10)“按F键(Shift+F、大写、下行箭头和放大3倍)”:借助语音指令可以按任何键。

--拖拉图标

以上所描述的语音指令适合点击屏幕中出现的图标,并且效果不错。但是如何“拖拉“屏幕上的图标呢?比如,当用户说“鼠标隔(Mousegrid)”时,就会在屏幕上增添一个超大3 x 3方格,总共有9个方格,且都进行了1-9的编号。

当你说,“5“时,第五个方格中又会出现尺寸更小的3 x 3小方格。以此推类,你可以通过这种方式不断的”细化“方格,直到在屏幕中将目标锁定。然后说“Four Mark”,就可以将目标定位在第四个格中,在说“Seven click”就可以点击其中的第7小方格所锁定的图标。

以上就是win8语音识别怎么用的全部内容哦~大家看明白了吗?

篇3:语音识别控制电话机方案

语音识别控制电话机方案

1、简介

本方案主要由电话机芯片CD802加语音识别录放模块JT802构成。

CD802的专业性、成熟性保证了此电话机的档次和品质。

而JT802的特异化功能则会满足高端用户对电话机的易用性、智能化、人性化的需求,从而大大提升产品的附加值。

2、主要功能特性:

(1)电话机的全部基本功能。

(2)语音拨号功能:说对方的名字就可接通对方电话。名字与电话的对应关系存储于长达60人的'语音电话簿中。此功能免去用户记电话号码和翻查电话本的麻烦。

(3)来电报名报号功能:来电号码在语音电话簿中有记录,则会报出来电者的姓名。此功能使用户不会漏接重要电话,也可拒接不想接的电话。

(4)电话录音功能:与人通话时,重要信息如电话号码、地址等,可以随时录下。录音最多3段、每段20秒。此功能免去用户接电话时找纸找笔的麻烦。

(5)12种特性铃声功能。

(6)200

组来电查询,100组去电查询,长达150人的普通电话簿(区别于语音电话簿。

(7)欧美流行的BabyCall功能。

3、主要优势:

与其它准备推广的语音识别拨号电话相比,我们的优势在于:

(1)声控部分增加了电话录音/回放功能、来电报名功能;

(2)电话机部分更专业、更成熟,功能也更多,更贴近电话用户的需求。

4、方案原理框图

篇4:语音识别控制电话机方案

语音识别控制电话机方案

1、简介

本方案主要由电话机芯片CD802加语音识别录放模块JT802构成。

CD802的专业性、成熟性保证了此电话机的档次和品质。

而JT802的特异化功能则会满足高端用户对电话机的'易用性、智能化、人性化的需求,从而大大提升产品的附加值。

2、主要功能特性:

(1)电话机的全部基本功能。

(2)语音拨号功能:说对方的名字就可接通对方电话。名字与电话的对应关系存储于长达60人的语音电话簿中。此功能免去用户记电话号码和翻查电话本的麻烦。

(3)来电报名报号功能:来电号码在语音电话簿中有记录,则会报出来电者的姓名。此功能使用户不会漏接重要电话,也可拒接不想接的电话。

(4)电话录音功能:与人通话时,重要信息如电话号码、地址等,可以随时录下。录音最多3段、每段20秒。此功能免去用户接电话时找纸找笔的麻烦。

[1] [2]

篇5:Word中添加语音识别和手写识别

语音识别功能可以用于Office XP的简体中文、英语(美国)和日语等多种版本,该功能可以帮助用户将文字听写到任何Office程序中,也就是说只要你在任一Office程序中安装了语音识别功能,以后就可以在所有Office XP程序中使用,

Word中添加语音识别和手写识别

除此以外,你还可以用声音选择菜单项、工具栏项、对话框(仅用于美国英语)项和(仅用于美国英语)等选项。不过,语音识别和手写识别功能并非是一种缺省配置,要安装该功能,必须选用自定义安装方式。或者,从“工具”菜单中单击“语音”命令,如果此时语音识别功能尚未被安装,那么首先将会弹出一个对话框询问你是否安装此项功能,点击“是”按钮后,你需要插入Office XP安装光盘才能完成添加过程。

篇6:Office语音识别词典如何删除单词

Office语音识别有一个数据库,存储着所有的与识别工作相关的词语,这个数据库也就是语音识别词典,可以向语音识别词典中添加单词,例如公司名称,或从中删除不再使用的单词。可以有效的提高工作的效率。

一、从文档中添加多个单词

1、如果您还没执行该项操作,请打开一篇文档,该文档中包含要添加到语音识别词典中的单词。

2、在“语言”栏上,单击“语音工具” 按钮图像,然后单击“从文档取词”。

如果语音识别引擎确定词典中不需要添加词汇,您会看到一条相关消息。在该情况下,不需要执行步骤 3。

3、在“添加这些单词”下,选择不想添加到语音识别词典中的单词,然后单击“删除”,

注释 若要一次选择多个单词,请在选择的同时请按住 Ctrl。

4、单击“全部添加”。

二、听写时添加单个单词

1、在“语言”栏上,单击“语音工具”按钮图像,然后单击“添加/删除字词”。

2、在“单词”下,键入要添加的单词。

3、单击“录制发音”,再朗读单词。

识别单词时,它将被添加到“词典”下。在单词添加到列表之前,您可能需要多次朗读单词。

三、删除单词

可以删除已经添加到语音识别词典中的单词。

1、在“语言”栏上,单击“语音工具”按钮图像 ,然后单击“添加/删除字词”。

2、在“词典”下,选择要删除的单词。

若要一次选择多个单词,请在选择的同时按住 Ctrl。

3、单击“删除”,再单击“关闭”。

注释该功能在简体中文版中不可用。

篇7:Office语音识别时错误的更正

在使用Office语音识别功能时,你会遇到各种错误,比如错误的听写、错误的拼写等。怎么样快速修正这些错误?

1、用右键单击某个错误。

2、在快捷菜单 (快捷菜单:显示与特定项目相关的

一列命令的菜单。要显示快捷菜单,请用右键单击某一项目或按下 Shift+F10。)上,单击可选更正。

3、如果未列出可选更正,请单击“其他”,再单击某个可选项。

注释

·如果用右键单击某个语法错误,请单击快捷菜单上的“语法”来更正错误。也可以通过单击快捷菜单上的“可选语音”来选择可选的更正。

·单击“语言”栏上的“更正” 选择更正可选项。

更正错误拼写

1、用鼠标或键盘来选择错误。

2、在“听写”模式中,请朗读“spelling mode”,稍微暂停,然后拼写更正。

例如,如果您朗读的是“sun”,但插入的文本为“son”,通过朗读“s-u-n”可以更正错误拼写,

更正错误听写

1、使用鼠标或键盘选择错误,包括错误前后的一至两个单词。

例如,如果听写“This is another example sentence”,而您看到“This is an utter example sentence”,请选择“is an utter example”。

2、朗读所选的单词,包括错误的更正。

例如,朗读“is another example”。

注释 也可以只选择不正确的单词,但听写多于一个单词时,识别准确性会更高。

重新键入更正错误

1、使用键盘或鼠标选择错误。

2、使用键盘键入更正。

提示

·朗读“scratch that”可以删除刚才朗读的最后一段语音。

·在“声音命令”模式下也可以用声音选定文本。例如,朗读“下一行”、“下一单元”、“更正”或“回车”。

篇8:更改Office语音识别工作的语音识别引擎

Office语音识别是通过语音识别引擎来完成工作的,就像多媒体播放器需要利用多媒体解码包来播放出视频、音乐一样,更改Office语音识别引擎可以用另一种语言听写或使用第三方引擎。

1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,

在 Windows 控制面板中,双击语音图标。

2、单击语音识别选项卡。

3、在语言下,选择语音识别引擎。

注释

如果您要切换语音识别引擎:

若要使用听写,您必须切换键盘布局以便与语音引擎的语言相匹配。

若要使用声音命令,请确保您正在使用的语言用户界面与语音引擎的语言用户界面相匹配。

篇9:Office语音识别功能的常见疑难解答

(1)我不知道语音识别是否打开,

当麦克风打开时,语音识别也就打开了,您可以在语言栏上看到听写 和声音命令。

通过查看工具菜单上的语音命令,您也可以知道是否打开了语音识别。如果语音旁边有选中标记,则语音识别是打开的。(在 Microsoft Excel 中,指向工具菜单上的语音,然后查看语音识别。)

若要打开或关闭语音,请单击语言栏上的麦克风,或者单击工具菜单上的语音(在 Excel 中为语音识别)。还可以通过口述麦克风关闭麦克风。

请记住在不使用语音识别的时候关闭麦克风。直到关闭麦克风后,语音识别才停止处理声音。

(2)当我说出公司名后,语音识别没有将其识别出来。

您可以将公司名称以及语音识别不识别的其他词汇添加到语音识别词典中,

方法是:在语言栏上,单击工具,再选择添加/删除词(参考:在Office语音识别词典中增加或删除单词)。

(3)我已尝试使用了一次语音识别,现在我无法除去语言栏。

右键单击语言栏,再单击关闭语言栏。

注释 如果已安装了输入法,则无法关闭语言栏。

(4)我关闭了语言栏,但是现在无法使其重新出现。

1、在 Microsoft Windows开始菜单上,单击控制面板,单击日期、时间、语言和区域设置,再单击区域和语言选项。

2、在区域和语言选项对话框中,单击语言选项卡,再单击文字服务和输入语言下的详细信息。

3、单击首选项下的语言栏...,选中在桌面上显示语言栏复选框,再单击确定。

篇10:语音识别在家电遥控器中的应用

语音识别在家电遥控器中的应用

摘要:介绍一种适合家电遥控器应用的语音识别算法,该算法使用双模块和两级端点检测方法,能有效地提高识别和稳健性;介绍利用该技术实现的一种新型学习型遥控器,展现了语音识别技术在家电领域的广阔前景。

关键词:语音识别DTWFEDFRED学习型遥控器

家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。

适合家用电器应用的语音识别嵌入式系统结构如图1所示,它由四个部分组成。第一部分为模/数转换部分,其输入端接收输入的语音信号,并将其转化成数字芯片可处理的数字采集信号;在输出端将解码后的语音数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所代表的命令,一般由DSP完成。第三部分语音提示和语音回放部分,它一般也是在DSP中完成的,其核心是对语音信号进行数字压缩编码和解码,目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输出转换成物理层操作,完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键,下面将对语音识别算法及遥控系统控制部分作详细的讨论。

1语音识别算法

目前,常以单片机(MCU)或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别,它有两种实现方案:一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别;另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。HMM非特定人员的优点是用户无需经过训练,可以直接使用;并且具良好的稳定性(即对使用者而言,语音识别性能不会随着时间的延长而降低)。但非特定人语音识别也有其很难克服的缺陷。首先,使用该方法需要预先采集大量的语料库,以便训练出相应的识别模型,这就大大提高了应用此技术的前期成本;其次,非特定人语音识别很难解决汉语中不同方言的问题,限制了它的使用区域;另外还有一个因素也应予以考虑,家电中用于控制的具体命令词语最好不要完全固定,应当根据的用户的习惯而改变,这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。DP特定人识别的优点是方法简单,对硬件资源要求较低;此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。DP特定识别的严重缺点是它的稳健性不理想,对有些人的语音识别率高,有的人识别率却不高;刚训练完时识别率较高,但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷,对传统方法作为改进,使识别性能和稳健性都有显著的提高,取得令人满意的结果。

1.1端点检测方法

影响孤立词识别性能的一个重要因素是端点检测准确性[4]。在10个英语数字的识别测试中,60毫秒的端点误差就使识别率下降3%。对于面向消费类应用的语音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难。为此,提出了称为FRED(Frame-basedReadl_timeEndpointDetection)算法[3]的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。

在特定人识别中,比较了常用的FED(FastEndpointDetection)[5]和FRED两种端点检测算法的性能。两种算法测试使用相同的数据库,包括7个人的录音,每个人说100个人名,每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法[4]。两种端点检测算法的识别率测试结果列在表1中。

表1比较FED和FRED端点检测算法对DTW模板匹配识别率的影响

端点检测算法第1人第2人第3人第4人第5人第6人第7人平均FED92.5%87%92.6%95.6%96.2%96.8%100%94.4%FRED94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%

测试结果说明:使用FRED端点检测算法,所有说话人的识别率都有了不同程度的提高。因此,本系统采用这种两级端点检测方案。

1.2模拟匹配算法

DTW是典型的DP特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。

假设存储的`一个词条模板包括M帧倒谱特征R={r(m);m=1,2,∧,M};识别特征序列包括N帧倒谱特征T={t(n);n=1,2,∧,N}。在r(i)和t(i)之间定义帧局部失真D(i,j),D(i,j)=|r(i)-t(i)|2,通过动态规划过程,在搜索路径中找到累积失真最小的路径,即最优的匹配结果。采用对称形式DTW:

其中S(i,j)是累积失真,D(i,j)是局部失真。

当动态规划过程计算到固定结点(N,M)时,可以计算出该模板动态匹配的归一化距离,识别结果即该归一化距离最小的模板词条:x=argmin{S(N,Mx)}。

为了提高DTW识别算法的识别性能和模板的稳健性,提出了双模板策略,即x=argmin{S(N,M2x)}。第一次输入的训练词条存储为第一个模板,第二次输入的相同训练词条存储为第二个模板,希望每个词条通过两个较稳健的模板来保持较高的识别性能。与上面测试相同,也利用7个人说的100个人名,每个人名含3遍的数据库,比较DTW单模板和双模板的性能差别,结果更在表2中。

表2DTW不同模板数的识别率比较

DTW第1人第2人第3人第4人第5人第6人第7人平均单模板94.3%89.9%93.2%99.4%99.4%98.8%100%96.4%双模板99.4%96.6%98.5%100%100%98.8%100%99.0%

测试结果说明:通过存储两个模板,相当大地提高了DTW识别的性能,其稳健性也有很大的提高。因此,对特定人识别系统,采用DTW双模板是简单有效的策略。

综上所述,该嵌入式语音识别芯片系统采用了改进端点检测性能的FRED算法,12阶Mel频标倒谱参数(MFCC)作为特征参数,使用双模板训练识别策略。通过一系列测试,证明该系统对特定人的识别达到了很好的识别性能,完全可以满足家用电器中声控应用的要求。

2语音控制遥控器设计

目前家用遥控器主要为按键式,并有两种类型:一种是固定码型,每个键对应一种或几种码型,都是生产厂家预先设定好的,用户不能更改;另一种是学习型,具有自我学习遥控码的功能,可由用户定义遥控器的每个键对应的码型,它能够将多种遥控器集于一身,用一个遥控器就可控制多个家电,又可以作为原配遥控器的备份。由于现代家电功能不断增加,上述两种遥控器都有按键过多,用户不易记住每个键的含义等问题。将语音识别技术应用于学习型遥控器,利用语音命令代替按者对命令的记忆和使用,同时省去了大量按键,缩小了遥控器的体积。

语音控制遥控器的硬件框图如图2所示,它由两个独立的模块组成:语音信号处理模块和系统控制模块。

语音信号算是模块由DSP、快闪存储器(FLASH)、编解码器(CODEC)组成。其中DSP是整个语音识别模块的核心,负责语音识别、语音编解码,以及FLASH的读写控制。DSP的优点是运算速度快、内存空间大、数据交换速度快,可用来实现复杂的算法,提高识别率,减小反应延时,得到较高的识别性能。DSP芯片选用AnalogDevices公司的AD2186L,它具有如下特点:①运算速度达40MIPS,且均为高效的单调周期指令;②提供了40K字节的片内RAM,其中8K字(16Bit/字)为数据RAM,8K字(24Bit/字)为程序RAM,最大可达4兆字节的存储区,用于存储数据或程序;③3.3V工作电压,具有多种省电模式。AD2186L既能完成与语音信号算是相关的算法,又适合使用电池作能源的遥控器。FLASH和CODEC也都选用3.3V工作电压的芯片。FLASH为美国ATMEL公司的AT29LV040A(4MBit),它作为系统的存储器,主要用于存放以下内容:提示语音合成所需的参数,特定人训练后的码本数据,DSP系统的应用程序和学习和遥控码数据。CODEC选用美国TI公司的TLV320AC37,用来进行A/D、D/A变换、编码和解码。

系统控制模块由单片机、红外接收发送器、电源管理电路组成。单片机负责整个遥控器的系统控制。单片机作为主控芯片,进行键盘扫描,根据用户通过键盘输入的指令,分别完成学习遥控码;控制DSP进行语音训练、回放、识别;将识别结果转换成相应的遥控码,通过红外发光管发射出去。单片机与DSP之间通过标准的RS232串行协议通讯。

系统的控制软件流程图如图3所示。在使用前,按“学习键”进入学习状态,用户先对学习型遥控器训练语音命令,并使其学习与各语音命令相对应的原理控码型。使用时按“识别键”,进入语音识别状态,等待语音处理模块返回结果,若返回正确的识别结果,则把相应的遥控码发射出去。例如,原电视遥控器数字键“1”对应中央1台,用户的训练命令为“中央1台”,学习了原遥控器的数字键“1”的遥控码,并使其与训练命令“中央1台”对应起来。于是使用时只需对着学习型遥控器的麦克风说出“中央1台”,电视就会切换到中央1台。这样用户不需要记住每个电视台与台号的对应关系,相对于枯燥的频道数字,用户自定义的命令更容易记住。

若连续的30秒无正确的命令则遥控器进入休眠状态,单片机控制电源管理电路切换DSP和FLASH电源,单片机本身也进入休眠状态,直至用户按键,唤醒单片机,再由单片机控制恢复DSP和FLASH供电,重新开始工作。这是因为整个系统中,DSP的功耗最大,长时间不用时,关闭语音信号处理模块,可以显著地降低整个系统的功耗。

从实验室走向市场的过程中,可靠性与成本是遇到的最大挑战。采用双模板的DTW和两组端点检测FRED算法,可在系统资源和反应延时增加极小的情况下,有效地提高识别率和稳健性。该项技术成功地运用在学习型遥控器上,展现了语音识别技术在家电领域的广阔前景。

篇11:Office语音识别用户配置文件之创建及使用

Office语音识别用户配置文件存储着识别您的声音的有关信息,您可以为同一台计算机上的多个用户创建配置文件。在具有不同噪音级别的环境中工作或使用几种不同话筒时,您也可以为自己的帐户创建附加配置文件。

新建配置文件

1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,

在 Windows 控制面板中,双击语音图标。

2、单击语音识别选项卡。

3、在识别配置文件下,单击新建并按照配置文件向导中的指令操作。

为当前用户选择一个配置文件

1、在语言栏上,单击工具。

2、指向当前用户,再单击某概要文件。

篇12:强大的语音识别引擎?让电脑服从命令

让电脑听你的话,这个话题不陌生吧,WPS2000、OfficeXP下就能实现,可用语音输入汉字或打开“文件”、“编辑”等菜单,我这里要说的是在Windows操作系统中用语音执行“运行”、字处理软件等操作。

软件名称:语音专家V1.9

软件大小:565KB

收拾行囊

由于语音专家使用了微软公司提供的语音识别引擎,所以,您在使用之前必须安装语音识别引擎。

请到如下地址下载语音识别引擎:www.ie5.net/speechsoft/speechsdk51.exe

执行“控制面板→语音”,打开语音属性对话框,如图所示。在“语言”下选择“MicrosoftSimplifiedChinese…”(简体中文),再单击“训练配置文件”,按提示一步一步地进行语音训练就可完成语音配置。

如果大家用过MicrosoftOfficeXP的语音输入功能,对这一训练过程一定有会感到陌生,

而且,安装语音引擎和进行训练后,你还会得到一个附加的好处??可在MicrosoftOfficeXP下用语音输入汉字。同样地,如果你已安装了MicrosoftOfficeXP的语音输入法,上述过程可免。

-背包出发

启动“语音专家”,单击“设置”,根据自己所需勾选一些必要的选项。然后就能对电脑进行语音操作了,比如,对准话筒说“控制面板”,控制面板就会自动打开,怎么样,不错吧。

如果要想让它工作得更好,我们还得在“网上语音”和“常用程序”下作更进一步的设置。比如在“常用程序”下,勾选“说‘文字编辑’打开的软件”,再单击后面的文件夹图标,找到C:\ProgramFiles\MicrosoftOffice\Office10(MicrosoftOfficeXP的默认安装目录)下的WINWORD.EXE,今后,只要对着话筒说“文字编辑”,Word就能自动打开。

“语言属性”对话框

声音,男女有别,老少不同。如果用户甲进行过上述语音训练,它发出语音命令电脑能听出的正确率较高。换另一个用户乙,那就会对牛弹琴,得添加一个用户:在如图所示界面中单击“新建”,新的用户进行完语音训练后,就可以他的声音为标准进行识别。当然,原用户不会删除,可在如图所示界面中进行转换。

提示:没事时,最好不要把“语音专家”打开,不然,各种声音将干扰你正常使用电脑,而且影响电脑运行其它程序的速度。

篇13:CRM应用与自然语音识别技术分析

包含了自然语音识别支持的CRM系统正在为企业带来新的竞争优势和经济回报,然而在登上这辆快速列车之前,企业应先了解与自然语音识别技术有关的一系列关键要求。

如果你有办法克隆成百上千个最佳坐席,那你就可以确保每一位致电给呼叫中心的客户都能享受到同等的高质量服务。

而现在,自然语音自助服务或许是提供这类既具备成本效益、又能提升客户友好度的服务的最佳选择。只要实施得当,该技术可以有效配合你的CRM系统来加强你的品牌信息,提供与众不同的品牌体验,并帮助企业锁定客户的忠诚度。

若想成功部署自然语音识别技术,首先需了解它最适合哪种环境,怎样部署才能为企业带来最大的价值。

解决复杂性

基础的互动语音识别是被用来记录语音提示,指导主叫者通过电话键盘来输入选项与信息。它只适用于最简单的交易。随着企业的成长、规模的扩大,以及产品种类的增多,一味依靠自助式IVR菜单只会让客户对层级结构复杂的菜单系统不胜其烦,最终选择退出自助流程,转接人工坐席。

从这个角度来看,自然语音应用更适合多元化的复杂交易处理。典型的自然语音应用系统会向客户提出开放式的问题。主叫者可以通过电话,以一种自然的语调来表达出他们的目的,随后交由自助服务应用来处理,或转接给相应的人工坐席。

这类软件使用了统计模型来识别主叫者,并从主叫者的用词中解读出他们的意图。企业可借助自然语音应用来实现扁平化的菜单结构,改善呼叫路由,访问并更新客户数据与要求信息等等。

简化自助服务

尽管自然语音识别解决方案能够带来满意的回报,但创建一套有效的语音应用却并非易事。它需要专业的知识与技能,并预先进行详细的规划,以避免实施误区,降低风险。大部分企业本身都没有实施语音应用的经验,因此从外部获取协助是一种必要手段。

为了能让你的公司从竞争中脱颖而出,你需要设计开发一套定制应用。虽然市场上那些现成的解决方案可以适用于某一特定环境,但定制应用可以更有针对性地与你的产品及服务相契合。

以下就是开发、维护一套定制语音应用的常规步骤与流程:

·收集数据、开发系统

首先精心设计、模拟一套开放式问题,依此收集主叫者的回应用词,

在主叫者表明了呼叫目的后,将其转接到自动化应用或人工坐席。

·转录数据

准确转录所收集的数据。这些数据将会被用来开发统计语言模型,统计语义模型和语法解读。一套普通的大型呼叫路由应用需要2万到3万次的转录,因此公司要依此做好筹划。[next]

·定义“概念识别”

在此流程中,你需要一名专家来协助定义相关的主叫概念。概念数量将视客户呼叫的不同原因而定。

· 标贴数据

在判别概念后,每种转录数据都会被分类到一个特定概念中。这种流程被称之为“数据标贴”。标贴是下一步应用做出回应的关键。根据数据的规模和概念的数量,标贴是一种劳动密集型的项目任务。

·训练系统

从所收集的数据中开发出的SLM可用来识别主叫者对开放式问题所做出的回应。识别主叫概念的工作可以由语法解读或SSM来处理。语法解读是依靠人工开发的,因此它非常耗时,但却能灵活地识别大量的概念。而SSM是由自动化流程所产生的,它可以缩短应用交付的时间。

·部署与调试

成功的部署需要不断进行调试来确保系统的有效运行。公司可以通过人工方式来调试自然语音应用,也可以借助软件或工具。有些高级系统同时使用了这两种模式,根据额外“概念”添加的频繁程度来进行切换。

挖掘自然语音应用的潜力

大部分企业都需要外部语音应用专家来设计、开发、部署自助式应用。此外,公司还应进行一次审慎性调查来挑选符合自身需要的最佳商业伙伴。虽然这会耗费大量的工作,但它所带来的回报也是显著的。

自然语音能带来与众不同的自助服务体验,向客户提供更好的便捷性、更切实的信息、更快的解决速度,以及更人性化的互动。从企业的角度,该技术能通过缩短呼叫时间、提高问题解决率、将以前大量的人工服务转变为自助服务来降低呼叫中心的运营成本。作为CRM系统的一部分,实施自然语音应用可以在公司与客户之间实现双赢的局面。

Word中添加语音识别和手写识别

语音识别在家电遥控器中的应用

Office语音识别用户配置文件之创建及使用

语音通知

可以在Excel中使用的Office语音识别命令EXCEL基本教程

身份识别制度

中考考点——语音

怎样识别孩子高智商

怎样识别假冒伪劣洗衣粉

患者身份识别制度

《语音识别调查报告(精选13篇).doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

点击下载本文文档