DeepLearning笔记(17)——语音识别、关键字检测

1. 语音识别

语音识别主要要做的就是把语音输入转换为文字，如下图所示：

可以通过注意力模型来实现语音识别，如下图所示：

还有一种方法是使用CTC损失函数（Connectionist Temporal Classification）来做语音识别，相关论文可以参考 Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks。主要方法是使用一个输入和输出数量相等的RNN网络结构，例如：