Benchmark

장문 ASR workload의 속도와 정확도 측정 결과입니다. 핵심 결과: production transcription pipeline에서 FunASR CPU inference가 Whisper GPU inference보다 빠를 수 있습니다.

요약

항목결과
Dataset184개의 중국어 장문 오디오, 총 11,539초, 192.3분.
GPUNVIDIA H100 80GB HBM3.
최고 GPU 속도SenseVoice-Small: full benchmark에서 169.6x realtime, initial run에서 211.8x.
최고 CPU 속도SenseVoice-Small: 17.2x realtime; Paraformer-Large: 15.6x realtime.
BaselineOpenAI Whisper-large-v3: GPU에서 13.4x realtime.

결과

ModelDeviceRTFSpeedCERNotes
SenseVoice-SmallGPU0.005896169.6x8.92%ASR + language / emotion / event tags; tag 제거 후 CER 계산.
Paraformer-LargeGPU0.008359119.6x12.71%VAD/punctuation pipeline과 잘 맞는 빠른 non-autoregressive 중국어 ASR.
Fun-ASR-NanoGPU0.05880317.0x10.56%timestamp와 hotword를 지원하는 LLM-based 31개 언어 ASR.
GLM-ASR-NanoGPU0.02697437.1x31.07%LLM-based multilingual ASR.
Whisper-large-v3-turbo (OpenAI)GPU0.02170846.1x21.71%OpenAI Whisper implementation.
Whisper-large-v3 (OpenAI)GPU0.07469413.4x20.02%large Whisper quality 기준 baseline.
SenseVoice-SmallCPU0.05798817.2x5.14%remaining benchmark script에서 수집한 CPU run.
Paraformer-LargeCPU0.06405615.6x9.30%CPU batch job에도 활용 가능.
Fun-ASR-NanoCPU0.2743183.6x7.60%LLM-based model은 더 무겁지만 realtime보다 빠릅니다.

측정 방법

workspace의 benchmark script로 184개 오디오 파일에서 측정했습니다. RTF는 total inference time / total audio duration, speed는 1 / RTF입니다. CER는 SenseVoice tag처럼 model-specific output을 정리한 뒤 계산합니다.

python benchmark/run_full_benchmark.py
python benchmark/run_remaining.py
python benchmark/fix_sensevoice_cer.py

이 수치는 universal leaderboard가 아니라 practical guidance입니다. hardware, batch size, audio length, decoding option, text normalization에 따라 결과가 달라집니다.

선택 기준

필요한 것추천 model
가장 빠른 production transcriptionSenseVoice-Small 또는 Paraformer-Large.
CPU batch transcription먼저 SenseVoice-Small; 중국어 production pipeline은 Paraformer-Large.
timestamp가 있는 multilingual LLM-style recognitionFun-ASR-Nano, 그리고 LLM decoding throughput이 중요하면 vLLM.
OpenAI 호환 local endpointfunasr-server와 model alias sensevoice, paraformer, fun-asr-nano.