7个模型GPU评测,3个模型CPU评测。184条真实中文长音频(共192分钟)。 FunASR系列 vs Whisper系列 —— 速度与精度的正面较量,GPU实测。全部模型基于 PyTorch 推理。
全部模型在184条中文长音频上测试(每条44-83秒,共192分钟)。 按速度排序。RTF越低越快,CER越低越准。
| 模型 | 类型 | RTF | 实时倍率 |
|---|---|---|---|
| SenseVoice-Small | 非自回归 | 0.0059 | |
| Paraformer-Large | 非自回归 | 0.0083 | |
| Whisper-large-v3-turbo | 自回归 | 0.0217 | |
| Whisper-large-v3-turbo (FunASR) | 自回归 | 0.0385 | |
| faster-whisper-large-v3 | 自回归 | 0.0464 | |
| Fun-ASR-Nano | 大模型 | 0.0588 | |
| Whisper-large-v3 | 自回归 | 0.0746 |
同样184条音频在CPU上测试。仅非自回归FunASR模型适合CPU推理。
| 模型 | 类型 | RTF | 实时倍率 |
|---|---|---|---|
| SenseVoice-Small | 非自回归 | 0.058 | |
| Paraformer-Large | 非自回归 | 0.064 | |
| Fun-ASR-Nano | 大模型 | 0.278 |
SenseVoice-Small在GPU上仅需68秒处理192分钟音频,比Whisper-large-v3快12.7倍。
SenseVoice无需GPU也能超实时运行。Whisper系列在CPU上无法用于生产环境。
FunASR内置VAD、标点恢复和说话人分离,一次调用完成全流程,无需自行搭建流水线。
了解每种模型类别背后的架构取舍。
| 标签 | 架构 | 特点 |
|---|---|---|
| 非自回归 | Non-Autoregressive | 并行解码,速度极快。速度与精度的最佳平衡点。 |
| 自回归 | Autoregressive | 逐token顺序解码,速度较慢但应用广泛。 |
| 大模型 | LLM-based ASR | 基于大语言模型的语音理解,功能丰富但计算量大。 |