Interspeech2022论文解读 | CUSIDE：一个流式语音识别新框架，刷新SOTA

简介

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与美团的联合工作 — CUSIDE：分块、模拟未来、解码的流式语音识别新框架，刷新了目前Aishell-1上 流式模型的SOTA（State Of The Art， 最好结果）。该工作已被语音领域的国际会议Interspeech2022接收，论文的作者是安柯宇、郑华焕、欧智坚、向鸿雨、丁科、万广鲁。

论文链接：

http://oa.ee.tsinghua.edu.cn/\~ouzhijian/pdf/cuside-intespeech2022-camera.pdf

流式语音识别

流式语音识别，是指在说话人讲话的同时进行识别，而不是等到说话人讲完整句话后再开始识别。然而，目前业界常用的神经网络结构，例如基于自注意力机制的transformer和conformer，通常使用整句作为输入，因此不适用于低延迟语音识别。为了解决这一问题，很多系统采用了分块（chunk）的模型。具体而言，一句话会被切分为多个块，然后再送入神经网络逐块进行识别，这样就将延迟降低为一个块的长度。

上下文感知块

在基于块的低延迟语音识别模型中，一个常见做法是为每个块附加一定的历史帧和未来帧，以提供上下文信息，构成上下文感知块(context sensitive chunk)。已有的工作表明，上下文信息对精确的声学建模至关重要，上下文信息的缺失将造成10%以上的识别准确率损失。但是，为了获取未来信息，模型必须等到一定数量的未来帧到达后再开始识别，这显著增加了识别延迟。为了解决这一问题，该论文提出了一种基于分块、预测未来、解码（Chunking, Simulating future context and Decoding，CUSIDE）的低延迟语音识别框架。

CUSIDE

CUSIDE模型的核心思想是，使用模拟的未来帧而不是真实未来帧来构建上下文感知块，由此可以免除对未来信息的依赖，减小识别延迟。具体来说，CUSIDE使用一个合成器以流式的方式生成模拟帧。该合成器由合成编码器和合成预测器构成，合成编码器是一个循环神经网络（在该文的实验中是一个三层单向GRU模型)，用于对输入帧进行编码，合成预测器以合成编码器的隐状态作为输入，输出一定数量的预测未来帧。合成器可以以无监督方式进行训练（因为将输入帧向前移动即可得到对应的预测目标，这里受到了无监督表征学习方法APC的启发），不需要额外的标注信息。此外，CUSIDE还通过训练中块大小抖动（chunk size jitter）、流式/非流式模型共享参数和联合训练等方法（unified streaming/non-streaming model），进一步提高了流式模型的识别准确率，减小了流式模型和非流式模型之间的性能差距。

结果

该论文主要在Aishell-1数据集上进行了实验评测。声学模型是一个使用12层Conformer神经网络的CTC-CRF模型，基于CAT工具包实现。解码使用一个3gram WFST。chunk大小设置为400ms，历史帧和预测未来帧长度分别设置为800ms和400ms。CUSIDE与其他流式模型的结果对比见下表。

一般将latency定义为chunk的长度。表格中的Δ是rescoring所用的时间，一般在100ms以内。CUSIDE模型中额外的2ms代表了模拟未来帧所用的时间。可以看到，基于CTC-CRF的CUSIDE模型在低延时下取得了最好的识别准确率，4.79也是目前Aishell-1上 流式模型的 最好结果 。

需要说明的是，CUSIDE并不局限于CTC-CRF模型。不难看出，CUSIDE可以方便地用于其他语音识别模型，例如RNN-T和LAS。CUSIDE将于近期在CAT工具包开源发布，敬请关注！

CAT工具包链接：https://github.com/thu-spmi/CAT

《Interspeech2022论文解读 | CUSIDE：一个流式语音识别新框架，刷新SOTA》是转载文章，点击查看原文。