动态时间扭曲(DTW)涉及一种计算方法,称为算法,用于比较声音、视频和图形,这些声音、视频和图形可能相似,但它们的样本可能存在细微差异。这种计算通常会形成样本的线性表示,并将差异作为时间的函数进行测量。样本的不同元素...
动态时间扭曲(DTW)涉及一种计算方法,称为算法,用于比较声音、视频和图形,这些声音、视频和图形可能相似,但它们的样本可能存在细微差异。这种计算通常会形成样本的线性表示,并将差异作为时间的函数进行测量。样本的不同元素可以映射到网格上以识别相似性,而函数的命令通常使用符号来识别每个变量。例如,语音识别有时使用动态时间扭曲来匹配单词,即使是以不同的速度或特定的部分说话发音不同。许多sppech识别程序使用动态计时,因为人们经常以不同的速率说话。许多语音识别程序使用动态时间扭曲,因为人们经常以不同的速率说话。某些元音可能会根据情绪或其他因素发出不同的声音。有些程序无论是谁在说话,都能识别出所说的单词,因此,将时间间隔中的距离相加来比较声音通常是不有效的;这些距离是在一个从左下角到右上角的网格上计算的。两个样本对应部分的相似性可以用Levenshtein距离来测量。字母用来表示一个源和另一个源之间的变化。算法的解通常是一个较大的数字,数值越不同有两个例子。这个概念通常用于语音识别、拼写检查和遗传物质分析。在某些测量中,频率变化可以抵消动态时间扭曲的能力。信号的计算方法可以使信号的形式与频率无关调制信号也会带来问题,但是计算线段之间的距离而不是点之间的距离的网格可以进行补偿。序列对齐通常是数学的,需要一些计算机编程技能才能完全理解它。动态时间扭曲算法依赖于一些基本条件,以便实际计算音频或视频之间的差异示例。将样本视为沿网格的路径,该算法通常遵循以下规则,例如路径不能返回,并且一次测量一步。除了从左下角到右上角的格式,测量仅限于靠近对角线的位置。太陡或太浅的值通常被忽略,因为它们会在最终测量中造成误差
-
发表于 2020-08-07 02:26
- 阅读 ( 2453 )
- 分类:电脑网络