性能评测
长音频 ASR 的速度与准确率评测。核心结论:在生产转写场景中,FunASR 的 CPU 推理也可以快过 Whisper 的 GPU 推理。
概览
| 指标 | 结果 |
|---|---|
| 数据集 | 184 条中文长音频,总时长 11,539 秒,约 192.3 分钟。 |
| GPU | NVIDIA H100 80GB HBM3. |
| 最佳 GPU 速度 | SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run. |
| 最佳 CPU 速度 | SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime. |
| 基线 | OpenAI Whisper-large-v3:GPU 上 13.4 倍实时。 |
结果
| 模型 | 设备 | RTF | 速度 | CER | 说明 |
|---|---|---|---|---|---|
| SenseVoice-Small | GPU | 0.005896 | 169.6x | 8.92% | ASR + 语种 / 情感 / 事件标签;CER 已去除标签后计算。 |
| Paraformer-Large | GPU | 0.008359 | 119.6x | 12.71% | 高速非自回归中文 ASR,适合 VAD/标点生产流水线。 |
| Fun-ASR-Nano | GPU | 0.058803 | 17.0x | 10.56% | LLM-based 31 语种 ASR,支持时间戳和热词。 |
| GLM-ASR-Nano | GPU | 0.026974 | 37.1x | 31.07% | LLM-based 多语种 ASR。 |
| Whisper-large-v3-turbo (OpenAI) | GPU | 0.021708 | 46.1x | 21.71% | OpenAI Whisper 实现。 |
| Whisper-large-v3 (OpenAI) | GPU | 0.074694 | 13.4x | 20.02% | 基线 for large Whisper quality. |
| SenseVoice-Small | CPU | 0.057988 | 17.2x | 5.14% | CPU 结果来自 remaining benchmark 脚本。 |
| Paraformer-Large | CPU | 0.064056 | 15.6x | 9.30% | CPU 上可用于批量任务。 |
| Fun-ASR-Nano | CPU | 0.274318 | 3.6x | 7.60% | LLM-based 模型更重,但仍高于实时。 |
评测方法
评测使用工作区中的 benchmark 脚本,在 184 条音频上收集结果。RTF 为 总推理时间 / 总音频时长,速度为 1 / RTF。CER 会先做模型相关文本清理,尤其会去除 SenseVoice 标签。
python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py
这些数据更适合作为工程选型参考,而不是通用排行榜;硬件、batch size、音频长度、解码参数和文本规整都会影响结果。
如何选择
| 需求 | 推荐模型 |
|---|---|
| 最快生产转写 | SenseVoice-Small 或 Paraformer-Large。 |
| CPU 批量转写 | 优先 SenseVoice-Small;中文生产流水线可选 Paraformer-Large。 |
| 带时间戳的多语种 LLM-style 识别 | Fun-ASR-Nano,并使用 vLLM 提升 LLM 解码吞吐。 |
| OpenAI 兼容本地服务 | 使用 funasr-server,模型别名为 sensevoice、paraformer 或 fun-asr-nano。 |