GPU 170倍实时 · 7 个模型全面对比

ASR 性能评测 2025
PyTorch 推理

7个模型GPU评测,3个模型CPU评测。184条真实中文长音频(共192分钟)。 FunASR系列 vs Whisper系列 —— 速度与精度的正面较量,GPU实测。全部模型基于 PyTorch 推理。

GPU 评测结果(PyTorch,GPU)

全部模型在184条中文长音频上测试(每条44-83秒,共192分钟)。 按速度排序。RTF越低越快,CER越低越准。

模型 类型 RTF 实时倍率
SenseVoice-Small 非自回归 0.0059
170x
Paraformer-Large 非自回归 0.0083
120x
Whisper-large-v3-turbo 自回归 0.0217
46x
Whisper-large-v3-turbo (FunASR) 自回归 0.0385
26x
faster-whisper-large-v3 自回归 0.0464
21.5x
Fun-ASR-Nano 大模型 0.0588
17x
Whisper-large-v3 自回归 0.0746
13.4x

CPU 评测结果

同样184条音频在CPU上测试。仅非自回归FunASR模型适合CPU推理。

模型 类型 RTF 实时倍率
SenseVoice-Small 非自回归 0.058
17.2x
Paraformer-Large 非自回归 0.064
15.6x
Fun-ASR-Nano 大模型 0.278
3.6x
说明:Whisper系列(自回归解码)在CPU上不具有实用性—— 解码192分钟音频需要超过2小时。仅FunASR的非自回归模型能在CPU上实现实时或超实时推理。

GPU 速度对比(实时倍率)

SenseVoice-Small
170x
170x
Paraformer-Large
120x
120x
Whisper-large-v3-turbo
46x
46x
Whisper-turbo (FunASR)
26x
26x
faster-whisper-large-v3
21.5x
21.5x
Fun-ASR-Nano
17x
17x
Whisper-large-v3
13.4x
13.4x

核心发现

170x

GPU实时倍率

SenseVoice-Small在GPU上仅需68秒处理192分钟音频,比Whisper-large-v3快12.7倍。

17.2x

CPU也能超实时

SenseVoice无需GPU也能超实时运行。Whisper系列在CPU上无法用于生产环境。

3行代码

一个API搞定一切

FunASR内置VAD、标点恢复和说话人分离,一次调用完成全流程,无需自行搭建流水线。

模型架构说明

了解每种模型类别背后的架构取舍。

标签 架构 特点
非自回归 Non-Autoregressive 并行解码,速度极快。速度与精度的最佳平衡点。
自回归 Autoregressive 逐token顺序解码,速度较慢但应用广泛。
大模型 LLM-based ASR 基于大语言模型的语音理解,功能丰富但计算量大。

测试环境

GPU
High-end NVIDIA GPU
音频数据
184条,共192分钟
语言
普通话(中文)
单条时长
44 - 83 秒
FunASR 版本
1.3.1
推理后端
PyTorch 2.x(非 vLLM)
CUDA
12.8 / Driver 550.127
CPU
Intel Xeon(服务器级)

立即体验 FunASR

一行 pip install,三行代码即可运行。