Interspeech2022论文解读 | CUSIDE:一个流式语音识别新框架,刷新SOTA

作者:成都它思科技有限公司日期:2026/3/4

简介

本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与美团的联合工作 — CUSIDE:分块、模拟未来、解码的流式语音识别新框架,刷新了目前Aishell-1上 流式模型的SOTA(State Of The Art, 最好结果)。该工作已被语音领域的国际会议Interspeech2022接收,论文的作者是安柯宇、郑华焕、欧智坚、向鸿雨、丁科、万广鲁。

图片

论文链接:

http://oa.ee.tsinghua.edu.cn/\~ouzhijian/pdf/cuside-intespeech2022-camera.pdf

图片

流式语音识别

流式语音识别,是指在说话人讲话的同时进行识别,而不是等到说话人讲完整句话后再开始识别。然而,目前业界常用的神经网络结构,例如基于自注意力机制的transformer和conformer,通常使用整句作为输入,因此不适用于低延迟语音识别。为了解决这一问题,很多系统采用了分块(chunk)的模型。具体而言,一句话会被切分为多个块,然后再送入神经网络逐块进行识别,这样就将延迟降低为一个块的长度。

上下文感知块

在基于块的低延迟语音识别模型中,一个常见做法是为每个块附加一定的历史帧和未来帧,以提供上下文信息,构成上下文感知块(context sensitive chunk)。已有的工作表明,上下文信息对精确的声学建模至关重要,上下文信息的缺失将造成10%以上的识别准确率损失。但是,为了获取未来信息,模型必须等到一定数量的未来帧到达后再开始识别,这显著增加了识别延迟。为了解决这一问题,该论文提出了一种基于分块、预测未来、解码(Chunking, Simulating future context and Decoding,CUSIDE)的低延迟语音识别框架。

CUSIDE

CUSIDE模型的核心思想是,使用模拟的未来帧而不是真实未来帧来构建上下文感知块,由此可以免除对未来信息的依赖,减小识别延迟。具体来说,CUSIDE使用一个合成器以流式的方式生成模拟帧。该合成器由合成编码器和合成预测器构成,合成编码器是一个循环神经网络(在该文的实验中是一个三层单向GRU模型),用于对输入帧进行编码,合成预测器以合成编码器的隐状态作为输入,输出一定数量的预测未来帧。合成器可以以无监督方式进行训练(因为将输入帧向前移动即可得到对应的预测目标,这里受到了无监督表征学习方法APC的启发),不需要额外的标注信息。此外,CUSIDE还通过训练中块大小抖动(chunk size jitter)、流式/非流式模型共享参数和联合训练等方法(unified streaming/non-streaming model),进一步提高了流式模型的识别准确率,减小了流式模型和非流式模型之间的性能差距。

图片

结果

该论文主要在Aishell-1数据集上进行了实验评测。声学模型是一个使用12层Conformer神经网络的CTC-CRF模型,基于CAT工具包实现。解码使用一个3gram WFST。chunk大小设置为400ms,历史帧和预测未来帧长度分别设置为800ms和400ms。CUSIDE与其他流式模型的结果对比见下表。

图片

一般将latency定义为chunk的长度。表格中的Δ是rescoring所用的时间,一般在100ms以内。CUSIDE模型中额外的2ms代表了模拟未来帧所用的时间。可以看到,基于CTC-CRF的CUSIDE模型在低延时下取得了最好的识别准确率,4.79也是目前Aishell-1上 流式模型的 最好结果

需要说明的是,CUSIDE并不局限于CTC-CRF模型。不难看出,CUSIDE可以方便地用于其他语音识别模型,例如RNN-T和LAS。CUSIDE将于近期在CAT工具包开源发布,敬请关注!

CAT工具包链接:https://github.com/thu-spmi/CAT

图片


Interspeech2022论文解读 | CUSIDE:一个流式语音识别新框架,刷新SOTA》 是转载文章,点击查看原文


相关推荐


Django 应用 OOM(Out of Memory)故障的定位思路和排查方法
哈里谢顿2026/2/24

二、定位思路总览 1. 确认现象 → 2. 内存分析 → 3. 代码审查 → 4. 复现验证 → 5. 修复优化 ↑___________________________________________________________| 三、详细排查步骤 第一步:确认内存使用趋势 1.1 系统层面监控 # 查看进程内存(RSS:实际物理内存,VSZ:虚拟内存) ps aux --sort=-%mem | head -20 # 实时观察 watch -n 1 'ps -p <PID>


我又开发了一款桌面APP,功能强大
500佰2026/2/16

最近这段时间,开始沉迷一件事,在抖音录制我AI写代码、做实战开发的视频,用opencode / claudecode / Agent skills 等大模型进行AI项目开发,耗时7个晚上,最晚的一次,写到了夜间3点,录制了5个视频,开发消耗AI大模型token 数1500左右。 这次我开发了一款桌面录屏APP,名字叫做focusME,目前已经开发完成,可一键安装在我们的桌面,接下来讲解一下整个开发过程。 开发成果 开发过程 前面我用opencode里面Agent skills去制定产品


Skills.lc 是什么?为什么我会做(用)这个站
HBLOG2026/2/7

在折腾 AI Agent、CLI 工具和各种自动化脚本的过程中,我一直有一个很现实的问题: 好的 skill / workflow 到底该放哪?怎么复用? Prompt 太零散,放在 Notion、Gist、README 里,时间一长就找不到; 不同项目里反复复制粘贴,又很难维护; 看到 GitHub 上有人写了不错的 skill,也不知道怎么发现、怎么用。 Skills.lc 就是在这样的背景下出现的。 它本质上不是“又一个 AI 平台”,而是一个 技能索引与分发站点,专门用来收集、整理


Spring注解秘籍:优雅地使用 @RequestHeader
独泪了无痕2026/1/29

前言   在 Spring Boot 开发中,HTTP 请求头(Header)是客户端和服务器之间传递元数据的重要方式。通过请求头,客户端可以传递认证信息、内容类型、语言偏好等数据。Spring Boot 提供了 @RequestHeader 注解,用于方便地从 HTTP 请求头中提取数据。本文将详细介绍 @RequestHeader 注解的使用方法,包括基本用法、默认值处理、多值头处理以及实际应用场景。 一、注解定义与核心属性 1.1 @RequestHeader 是什么   在构建现代 W


筑牢金融底座:企业级区块链全球化数据库架构设计白皮书
China_Yanhy2026/1/20

📖 前言:Web3 业务的双重账本 在 Web3 业务中,区块链(AMB)是不可篡改的“链上真理”,而关系型数据库(RDS/Aurora)则是承载用户资产、撮合逻辑和KYC信息的“链下业务核心”。对于追求全球化的高频交易项目,数据库的架构设计必须解决两个核心矛盾:跨国访问的物理延迟 与 资金数据的一致性。 第一部分:旗舰方案 —— Amazon Aurora Global Database (深度解析) 这是针对跨国交易所(如币安、Coinbase 模式)的首选架构。 1. 核心架构


Ansible自动化(十五):加解密详解
cly12026/1/12

Ansible Vault 是 Ansible 提供的一套用于保护敏感数据的机制,可以对各类配置文件进行加密,防止敏感信息(如密码、私钥、API 密钥等)以明文形式暴露在代码仓库或配置文件中。 一、为什么需要 Ansible 加密? 场景说明: Playbook 中包含数据库密码、API Token、SSH 私钥等敏感信息Inventory(主机清单)中直接写入了连接密码(如 ansible_password)变量文件(vars/main.yml)中包含机密配置 ✅ Ansible Vaul


Go 项目结构总是写乱?这个 50 行代码的 Demo 教你标准姿势
Java小成2026/1/4

1. 场景复现:那个让我头疼的时刻 去年,我接手了一个"祖传" Go 项目。打开代码仓库的那一刻,我整个人都不好了——所有代码都塞在一个 main.go 里,足足 3000 多行。想加个功能?先花半小时找代码在哪。想写个单元测试?抱歉,函数全是私有的,而且互相耦合,根本没法单独测。 我当时就在想:如果当初写这个项目的人,能从第一天就用一个规范的结构,后面的人得少掉多少头发? 后来我开始研究 Go 官方和社区推荐的项目布局,发现其实规则很简单,但很多人就是不知道。于是我写了这个 50 行代码的小


Vue 实例挂载的过程是怎样的?
全栈陈序员2025/12/25

一、整体流程概览 当我们执行 new Vue({ ... }) 时,Vue 会经历 初始化 → 编译模板 → 挂载 DOM 三个阶段。整个过程由 _init 方法驱动,最终通过 $mount 完成视图渲染。 核心路径: new Vue() → _init() → initState() → $mount() → mountComponent() → _render() → _update() → 真实 DOM 二、详细步骤解析 1. 构造函数与 _init 初始化 源码位


从已损坏的备份中拯救数据
神奇的程序员2025/12/17

前言 12月15号早上,一觉醒来,拿起手机看到我的邮箱收到了内网服务无法访问的告警邮件,本以为只是简单的服务卡死,将服务器重启后就去上班了。 后来,陆续有好友联系我说网站挂了。 定位问题 晚上下班回家后,尝试将电脑断电重启,发现pve只能存活2分钟左右,然后整个系统卡死,无法进行任何操作。首先,我想到的是:会不会某个vm虚拟机或者ct容器影响到宿主机了。 因为系统只能存活几分钟,在执行禁用操作的时候,强制重启了好几次服务器。当所有的服务都停止启动后,卡死的问题依旧存在。 翻日志 没辙了,这已经


苹果ios手机ipad安装配置ish终端shell工具
无痕melody2025/12/9

简介 官方介绍 iSH 是一个运行在 iOS 上的 Linux Shell,用来在ARM架构的 iOS 设备上模拟 X86 架构。也就是说不光是 IPad 可以安装,IPhone 上也可以安装运行 iSH,直接在 IOS 设备上运行 Linux 环境,而且免费! 如果你正在使用的电脑是 Mac,那么可以把 iSH 比作你电脑上面的终端。 iSH 官方地址 安装 AppStore里搜索ish或手机打开链接 配置 基本操作 操作按钮 2. 这个按钮相当于电脑上的 Tab 键,用于命令

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客