HLP-Speech-Recognition-1

语音识别是困难的

有人曾经说过语音识别就像把水变成汽油,从海里提取黄金,治疗癌症,或者是去月球。来形容语音识别是非常困难的。

语音识别

语音识别的表示

语音识别的语音部分可以通过数量为 T 维度为 d 的向量来表示
语音识别的文本部分可以通过数量为 N 维度为 V 的向量来表示,其中 V 为token 的个数,通常 T > N 的

token

token 有非常多的种类,包括 Phoneme、Grapheme、Word、Morpheme、Bytes。

Phoneme

Phoneme 作为一个发音单元,每个单词都对应着一个Phoneme,需要构建 Phoneme 表。在构建 Phoneme 表时,需要声学专家的帮助,但是每个声学专家对于每个词的 Phoneme 标注也可能是不一样的。

Grapheme

Grapheme 作为写作系统的最小单元,在英文中是 26 个英文字母 + 空白符 + 标点符号,在中文中就是每一个字,常见的字大约有 4000 多个。

Word

word 在英文中就是单词,常见的单词大约有 100K 个,在中文中 word 代表一个词,在中文中词的数量就无法数清了。

Morpheme

Morpheme 是一种介于 word 和 grapheme 中的一种 token,这种 token 有点类似于英文中的词根、词缀,但是 Morpheme 并不是词根、词缀,Morpheme 来自语言学和统计学。

Bytes

世界上的任何一种语言都可以使用 UTF-8 进行编码,UTF-8 编码又可以使用 2 进制进行表示,所以如果能使用 Byte 这种 token,那么就能实现语言的独立性了。这种 token 在 19 年的一篇论文中已经进行了实现。

token 总结

李宏毅老师让学生阅读了 100 篇最新的论文,并统计了使用每种 token 的比例。其中 Grapheme 是最受欢迎的。

语音识别的应用

语音识别有很多的应用,如词嵌入,使用一串向量来表示语音信息;翻译,说出一段英文,自动翻译成中文;意图识别,识别语音中的意图;槽位填充,如识别语音中的位置和时间信息。

声学特征

声学特征提取

一般是每 25ms 对音频采样一次,但是会向右移动 10ms 位置(这就意味着会有 15ms 的音频信息会被重复采样),然后利用 400 sample points (16KHz)、39-dim MFCC 或者是 80-dim filter bank output 3 种方法提取声学特征。这样每 25ms 提取到的声学特征组成一个向量,这样的一个向量称为一个 frame。

特征提取的过程如上图所示,将音频信息通过 DFT 得到 spectrogram(人眼可以通过 spectrogram 识别出语音的内容,但是音频信息无法进行识别),经过多个 filter bank ,取 log ,得到 filter bank output 特征(上面 3 种特征中的一种),然后经过 DCT 得到 MFCC 特征。

声学特征总结

李宏毅老师让学生阅读了 100 篇最新的文献,并统计了文献中这种声学特征所占的比例,其中 filter bank output 特征使用的最多。

如果把经常用到的 MNIST 和 CIFAR-10 数据集的数据量换算成音频的话,那么他们的数据量分别可以用 49min 和 2hr40min 表示,而在真正的音频数据中,最小的数据为 4hr。

语音识别存在两种观点,一种是使用 seq2seq 进行语音识别,另一种时使用 HMM(隐马尔科夫模型) 进行语音识别。

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码

请我喝杯咖啡吧~

支付宝
微信