ベンチマーク
長時間 ASR ワークロードの速度と精度の測定結果です。実運用の書き起こしでは、FunASR の CPU 推論が Whisper の GPU 推論より速くなる場合があります。
概要
| 指標 | 結果 |
|---|---|
| データセット | 中国語の長時間音声 184 ファイル、合計 11,539 秒、192.3 分。 |
| GPU | NVIDIA H100 80GB HBM3. |
| 最高 GPU 速度 | SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run. |
| 最高 CPU 速度 | SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime. |
| ベースライン | OpenAI Whisper-large-v3: 13.4x realtime on GPU. |
結果
| モデル | デバイス | RTF | 速度 | CER | メモ |
|---|---|---|---|---|---|
| SenseVoice-Small | GPU | 0.005896 | 169.6x | 8.92% | ASR + language / emotion / event tags; CER after tag stripping. |
| Paraformer-Large | GPU | 0.008359 | 119.6x | 12.71% | Fast non-autoregressive Chinese ASR with VAD/punctuation pipeline. |
| Fun-ASR-Nano | GPU | 0.058803 | 17.0x | 10.56% | LLM-based 31-language ASR with timestamps and hotwords. |
| GLM-ASR-Nano | GPU | 0.026974 | 37.1x | 31.07% | LLM-based multilingual ASR. |
| Whisper-large-v3-turbo (OpenAI) | GPU | 0.021708 | 46.1x | 21.71% | OpenAI Whisper implementation. |
| Whisper-large-v3 (OpenAI) | GPU | 0.074694 | 13.4x | 20.02% | ベースライン for large Whisper quality. |
| SenseVoice-Small | CPU | 0.057988 | 17.2x | 5.14% | CPU run from the remaining benchmark script. |
| Paraformer-Large | CPU | 0.064056 | 15.6x | 9.30% | CPU viable for batch jobs. |
| Fun-ASR-Nano | CPU | 0.274318 | 3.6x | 7.60% | LLM-based model is heavier but still above realtime. |
測定方法
測定はワークスペース内の benchmark scripts を使い、184 音声ファイルで実施しました。RTF は 総推論時間 / 総音声時間、速度は 1 / RTF です。CER は SenseVoice タグなどモデル固有の出力を整理した後に計算しています。
python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py
これらの数値は汎用ランキングではなく、実装時の目安です。ハードウェア、batch size、音声長、decode 設定、テキスト正規化によって結果は変わります。
選び方
| 用途 | 推奨モデル |
|---|---|
| 最速の本番書き起こし | SenseVoice-Small または Paraformer-Large。 |
| CPU バッチ書き起こし | まず SenseVoice-Small。中国語の本番 pipeline では Paraformer-Large。 |
| タイムスタンプ付き多言語 LLM-style 認識 | Fun-ASR-Nano。LLM decode throughput を高める場合は vLLM を使用。 |
| OpenAI 互換ローカル endpoint | funasr-server を使い、model alias は sensevoice、paraformer、または fun-asr-nano。 |