什么是语音语料库(Speech Corpus)?

语音语料库,也称为口语语料库,是以音频或文本格式保存的讲话的集合。这些集合在开发语音软件和进行语言研究时很有用。语音语料库有两种:自发语音和阅读语音。 转录者将口语转换为书面形式。定义"言语"和"语料库"是什么...
语音语料库,也称为口语语料库,是以音频或文本格式保存的讲话的集合。这些集合在开发语音软件和进行语言研究时很有用。语音语料库有两种:自发语音和阅读语音。转录者将口语转换为书面形式。定义"言语"和"语料库"是什么意思。言语包括思想和事实的集合,通常是以口语形式出现的。人们也可以将任何口语话语看作是言语。语料库又指各种信息的正式集合。语音语料库,也称为口语语料库,是以音频或文本格式保存的演讲集。用户通常通过录音或基于文本的转录来创建语音语料库。录音可以通过声音存储技术制作,并通常以MP3文件的形式存储在电子数据库中,以创建语料库。另一方面,抄写员,将口语转换成书面形式,然后与其他抄本一起编译。在语音语料库中可以找到任何类型的语音,但这些数据库通常分为两类:第一类是自发演讲,包含了一个人可能发表的非形式化演讲,例如在对话或口头故事中发现的。然而,阅读演讲有一个更正式和预先计划好的结构。例如政治演讲、新闻广播和有声读物阅读。有些种类可能取决于特定的语境,比如采访。言语语料库工具的一个主要优势是它们在帮助创建基于语音的软件方面的实用性例如,许多计算机和其他电子设备将语音识别功能作为一种选择,例如读回键入的文本,将口语单词转换为文本,或者通过独特的声音特征来识别说话人。从语音语料库中提取出来的数据可以帮助增强这项技术,方法是对每一个声音应用基于数学的统计数据集,称为声学模型。此外,数据库还可以帮助开发语言学习录音带。这些功能与其他功能相结合语音语料库的应用。也就是说,学者们可以利用这些保存下来的音频或书面文件,研究构成语言的细微语法变化,因此,语音语料库可以作为学习语音、语序、语序等方面的有价值的工具,和其他语言模型。研究人员可以进一步比较不同地区方言和语言的异同,如果他们创建一个多语言的集合,或者多语言语料库。对涉及语音的语料库的评估是一个被称为语料库语言学的专门研究集中领域,它的计算机实现被称为计算语言学。许多抄本数据库包括符号或标记,这些符号或标记包含有关文本中各个组成部分的信息。这个过程称为注释。在抽象过程中,语言学家将记录和翻译演讲中的各种术语。如果个人希望通过文本了解未知文明,这种输入可能会很有用。语料库研究的最后一步是分析,或者从一组语音成分中得出比较和理论理想。
  • 发表于 2020-09-03 02:06
  • 阅读 ( 1604 )
  • 分类:社会民生

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
admin
admin

0 篇文章

作家榜 »

  1. xiaonan123 189 文章
  2. 汤依妹儿 97 文章
  3. luogf229 46 文章
  4. jy02406749 45 文章
  5. 小凡 34 文章
  6. Daisy萌 32 文章
  7. 我的QQ3117863681 24 文章
  8. 华志健 23 文章

联系我们:uytrv@hotmail.com 问答工具