语音识别,或称语音识别,是一种利用音频输入而不是键盘输入数据的计算机技术。例如,对着麦克风讲话,产生的结果与用键盘手动键入单词的结果相同。简单地说,语音识别软件是用可识别单词的内部数据库设计的或短语。程序将语音...
语音识别,或称语音识别,是一种利用音频输入而不是键盘输入数据的计算机技术。例如,对着麦克风讲话,产生的结果与用键盘手动键入单词的结果相同。简单地说,语音识别软件是用可识别单词的内部数据库设计的或短语。程序将语音的音频签名与数据库中相应的条目相匹配。

计算机的语音识别软件允许用户对着麦克风讲话以输入音频信息,而不是音频输入信息虽然把语音转换成文本听起来很容易,但这是一项极其困难的任务。问题在于,实际上,单个的语音模式和口音是无限的,再加上人类自然倾向于把单词放在一起。

智能手机配备了语音识别软件,可用于发出命令和指令。
各种型号的语音识别软件用于一系列应用,从个人听写到商业自动呼叫路由,从帮助残疾人到体育和新闻事件字幕。每种模式的行为都不同,都有自己的能力和界限。
语音识别程序需要用户"训练"软件来识别其特定的风格化语音模式,称为
依赖于说话人的系统。个人通常在家里或办公室使用这些类型的程序。电子邮件、备忘录、信件、数据和文本可以通过麦克风输入。
一些语音识别系统,称为离散语音系统,要求用户讲话清晰、缓慢并将单词分开连续语音系统旨在理解更自然的说话模式。
离散语音系统广泛用于客户服务路由。该系统与说话人无关,但只理解一小部分单词或短语。来电者可以选择回答问题,通常情况下,在收到应答后,系统会用"是"或"否"将呼叫者提升到下一级。如果呼叫者用唯一的应答进行应答,则自动应答通常为"对不起,我不明白您的意思,请再试一次",并重复问题和可用的答案。这种类型的语音识别也称为语法约束识别。
连续语音是一种更复杂的语音识别软件形式,其中,呼叫者可以自然地说话来解释问题或请求服务。这个程序设计用来挑选关键词或短语,并对客户的需求做出统计上最好的猜测。说话显然有助于程序识别需求。这种类型的系统有一个比谨慎的语音更密集的数据库系统,也称为自然语言识别。
自动语音识别(ASR)是一种专为听写而设计的语音识别模型。该软件不同于以前的模型,它不努力理解所说的话,只识别所说的单词。由于英语中的许多单词发音相似,很容易出错。ASR软件经常出现在数字录音机上。