性能评测

长音频 ASR 的速度与准确率评测。核心结论:在生产转写场景中,FunASR 的 CPU 推理也可以快过 Whisper 的 GPU 推理。

概览

指标结果
数据集184 条中文长音频,总时长 11,539 秒,约 192.3 分钟。
GPUNVIDIA H100 80GB HBM3.
最佳 GPU 速度SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run.
最佳 CPU 速度SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime.
基线OpenAI Whisper-large-v3:GPU 上 13.4 倍实时。

结果

模型设备RTF速度CER说明
SenseVoice-SmallGPU0.005896169.6x8.92%ASR + 语种 / 情感 / 事件标签;CER 已去除标签后计算。
Paraformer-LargeGPU0.008359119.6x12.71%高速非自回归中文 ASR,适合 VAD/标点生产流水线。
Fun-ASR-NanoGPU0.05880317.0x10.56%LLM-based 31 语种 ASR,支持时间戳和热词。
GLM-ASR-NanoGPU0.02697437.1x31.07%LLM-based 多语种 ASR。
Whisper-large-v3-turbo (OpenAI)GPU0.02170846.1x21.71%OpenAI Whisper 实现。
Whisper-large-v3 (OpenAI)GPU0.07469413.4x20.02%基线 for large Whisper quality.
SenseVoice-SmallCPU0.05798817.2x5.14%CPU 结果来自 remaining benchmark 脚本。
Paraformer-LargeCPU0.06405615.6x9.30%CPU 上可用于批量任务。
Fun-ASR-NanoCPU0.2743183.6x7.60%LLM-based 模型更重,但仍高于实时。

评测方法

评测使用工作区中的 benchmark 脚本,在 184 条音频上收集结果。RTF 为 总推理时间 / 总音频时长,速度为 1 / RTF。CER 会先做模型相关文本清理,尤其会去除 SenseVoice 标签。

python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py

这些数据更适合作为工程选型参考,而不是通用排行榜;硬件、batch size、音频长度、解码参数和文本规整都会影响结果。

如何选择

需求推荐模型
最快生产转写SenseVoice-Small 或 Paraformer-Large。
CPU 批量转写优先 SenseVoice-Small;中文生产流水线可选 Paraformer-Large。
带时间戳的多语种 LLM-style 识别Fun-ASR-Nano,并使用 vLLM 提升 LLM 解码吞吐。
OpenAI 兼容本地服务使用 funasr-server,模型别名为 sensevoiceparaformerfun-asr-nano