性能评测

长音频 ASR 的速度与准确率评测。核心结论：在生产转写场景中，FunASR 的 CPU 推理也可以快过 Whisper 的 GPU 推理。

概览

指标	结果
数据集	184 条中文长音频，总时长 11,539 秒，约 192.3 分钟。
GPU	NVIDIA H100 80GB HBM3.
最佳 GPU 速度	SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run.
最佳 CPU 速度	SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime.
基线	OpenAI Whisper-large-v3：GPU 上 13.4 倍实时。

模型	设备	RTF	速度	CER	说明
SenseVoice-Small	GPU	0.005896	169.6x	7.81%	ASR + 语种 / 情感 / 事件标签；CER 已去除标签后计算。
Paraformer-Large	GPU	0.008359	119.6x	10.18%	高速非自回归中文 ASR，适合 VAD/标点生产流水线。
Fun-ASR-Nano	GPU	0.058803	17.0x	8.06%	LLM-based 中/英/日 ASR，另覆盖 7 类中文方言和 26 种地域口音，支持热词；不提供可靠的 checkpoint 原生时间戳（#106）。
GLM-ASR-Nano	GPU	0.026974	37.1x	31.07%	LLM-based 多语种 ASR。
Whisper-large-v3-turbo (OpenAI)	GPU	0.021708	46.1x	21.71%	OpenAI Whisper 实现。
Whisper-large-v3 (OpenAI)	GPU	0.074694	13.4x	20.02%	基线 for large Whisper quality.
SenseVoice-Small	CPU	0.057988	17.2x	7.81%	CPU 结果来自 remaining benchmark 脚本。
Paraformer-Large	CPU	0.064056	15.6x	10.18%	CPU 上可用于批量任务。
Fun-ASR-Nano	CPU	0.274318	3.6x	8.06%	LLM-based 模型更重，但仍高于实时。

评测使用工作区中的 benchmark 脚本，在 184 条音频上收集结果。RTF 为 总推理时间 / 总音频时长，速度为 1 / RTF。CER 会先做模型相关文本清理，尤其会去除 SenseVoice 标签。

python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py

这些数据更适合作为工程选型参考，而不是通用排行榜；硬件、batch size、音频长度、解码参数和文本规整都会影响结果。

需求	推荐模型
最快生产转写	SenseVoice-Small 或 Paraformer-Large。
CPU 批量转写	优先 SenseVoice-Small；中文生产流水线可选 Paraformer-Large。
中/英/日及中文方言、口音的 LLM-style 识别	Fun-ASR-Nano；需要 31 语种时使用独立的 Fun-ASR-MLT-Nano checkpoint，并使用 vLLM 提升 LLM 解码吞吐。
OpenAI 兼容本地服务	使用 funasr-server，模型别名为 `sensevoice`、`paraformer` 或 `fun-asr-nano`。