ベンチマーク

長時間 ASR ワークロードの速度と精度の測定結果です。実運用の書き起こしでは、FunASR の CPU 推論が Whisper の GPU 推論より速くなる場合があります。

概要

指標結果
データセット中国語の長時間音声 184 ファイル、合計 11,539 秒、192.3 分。
GPUNVIDIA H100 80GB HBM3.
最高 GPU 速度SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run.
最高 CPU 速度SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime.
ベースラインOpenAI Whisper-large-v3: 13.4x realtime on GPU.

結果

モデルデバイスRTF速度CERメモ
SenseVoice-SmallGPU0.005896169.6x8.92%ASR + language / emotion / event tags; CER after tag stripping.
Paraformer-LargeGPU0.008359119.6x12.71%Fast non-autoregressive Chinese ASR with VAD/punctuation pipeline.
Fun-ASR-NanoGPU0.05880317.0x10.56%LLM-based 31-language ASR with timestamps and hotwords.
GLM-ASR-NanoGPU0.02697437.1x31.07%LLM-based multilingual ASR.
Whisper-large-v3-turbo (OpenAI)GPU0.02170846.1x21.71%OpenAI Whisper implementation.
Whisper-large-v3 (OpenAI)GPU0.07469413.4x20.02%ベースライン for large Whisper quality.
SenseVoice-SmallCPU0.05798817.2x5.14%CPU run from the remaining benchmark script.
Paraformer-LargeCPU0.06405615.6x9.30%CPU viable for batch jobs.
Fun-ASR-NanoCPU0.2743183.6x7.60%LLM-based model is heavier but still above realtime.

測定方法

測定はワークスペース内の benchmark scripts を使い、184 音声ファイルで実施しました。RTF は 総推論時間 / 総音声時間、速度は 1 / RTF です。CER は SenseVoice タグなどモデル固有の出力を整理した後に計算しています。

python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py

これらの数値は汎用ランキングではなく、実装時の目安です。ハードウェア、batch size、音声長、decode 設定、テキスト正規化によって結果は変わります。

選び方

用途推奨モデル
最速の本番書き起こしSenseVoice-Small または Paraformer-Large。
CPU バッチ書き起こしまず SenseVoice-Small。中国語の本番 pipeline では Paraformer-Large。
タイムスタンプ付き多言語 LLM-style 認識Fun-ASR-Nano。LLM decode throughput を高める場合は vLLM を使用。
OpenAI 互換ローカル endpointfunasr-server を使い、model alias は sensevoiceparaformer、または fun-asr-nano