ベンチマーク

長時間 ASR ワークロードの速度と精度の測定結果です。実運用の書き起こしでは、FunASR の CPU 推論が Whisper の GPU 推論より速くなる場合があります。

概要

指標	結果
データセット	中国語の長時間音声 184 ファイル、合計 11,539 秒、192.3 分。
GPU	NVIDIA H100 80GB HBM3.
最高 GPU 速度	SenseVoice-Small: 169.6x realtime in the full benchmark, 211.8x in the initial run.
最高 CPU 速度	SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime.
ベースライン	OpenAI Whisper-large-v3: 13.4x realtime on GPU.

モデル	デバイス	RTF	速度	CER	メモ
SenseVoice-Small	GPU	0.005896	169.6x	7.81%	ASR + language / emotion / event tags; CER after tag stripping.
Paraformer-Large	GPU	0.008359	119.6x	10.18%	Fast non-autoregressive Chinese ASR with VAD/punctuation pipeline.
Fun-ASR-Nano	GPU	0.058803	17.0x	8.06%	中国語・英語・日本語、7つの中国語方言グループ、26の地域アクセントに対応する LLM-based ASR。hotword に対応。信頼できる checkpoint-native timestamp は未対応（#106）。
GLM-ASR-Nano	GPU	0.026974	37.1x	31.07%	LLM-based multilingual ASR.
Whisper-large-v3-turbo (OpenAI)	GPU	0.021708	46.1x	21.71%	OpenAI Whisper implementation.
Whisper-large-v3 (OpenAI)	GPU	0.074694	13.4x	20.02%	ベースライン for large Whisper quality.
SenseVoice-Small	CPU	0.057988	17.2x	7.81%	CPU run from the remaining benchmark script.
Paraformer-Large	CPU	0.064056	15.6x	10.18%	CPU viable for batch jobs.
Fun-ASR-Nano	CPU	0.274318	3.6x	8.06%	LLM-based model is heavier but still above realtime.

測定はワークスペース内の benchmark scripts を使い、184 音声ファイルで実施しました。RTF は 総推論時間 / 総音声時間、速度は 1 / RTF です。CER は SenseVoice タグなどモデル固有の出力を整理した後に計算しています。

python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py

これらの数値は汎用ランキングではなく、実装時の目安です。ハードウェア、batch size、音声長、decode 設定、テキスト正規化によって結果は変わります。

用途	推奨モデル
最速の本番書き起こし	SenseVoice-Small または Paraformer-Large。
CPU バッチ書き起こし	まず SenseVoice-Small。中国語の本番 pipeline では Paraformer-Large。
中国語・英語・日本語、および中国語の方言/アクセントを扱う LLM-style 認識	Fun-ASR-Nano。31言語が必要な場合は別 checkpoint の Fun-ASR-MLT-Nano を使用し、LLM decode throughput を高める場合は vLLM を使用。
OpenAI 互換ローカル endpoint	funasr-server を使い、model alias は `sensevoice`、`paraformer`、または `fun-asr-nano`。