モデル選択ガイド

最初に使うモデルを選び、Whisper やクラウド ASR との比較を行い、OpenAI 互換 API で公開する model alias を決めます。

迷ったら SenseVoice-Small

まだ決めきれない場合は SenseVoice-Small から始めます。デモ、社内 API、多言語 transcription、話者情報付き会議録、agent voice input の強い初期値です。

from funasr import AutoModel

model = AutoModel(
    model="iic/SenseVoiceSmall",
    vad_model="fsmn-vad",
    spk_model="cam++",
    device="cuda",  # portable smoke test では "cpu"
)
result = model.generate(input="meeting.wav")

判断表

目的最初に試すもの理由次の文書
高速な多言語 private transcriptionSenseVoice-SmallASR、emotion tag、audio event tag、CPU viability のバランスがよい。チュートリアル
中国語 production ASRParaformer-LargeVAD と punctuation を組み合わせやすい成熟した中国語 ASR 経路。チュートリアル
API example で英語 route を確認paraformer-enOpenAI 形式 client で軽量な英語 route を確認しやすい。OpenAI API
LLM-based ASR や 31 言語実験Fun-ASR-NanoLLM-based path。decoder throughput が重要なら vLLM を併用。vLLM guide
ライブ字幕や call-center streamRuntime WebSocket servicelong-lived streaming session と partial result 向け。Realtime examples
Whisper/cloud ASR からの移行まず SenseVoice-Small個別 tuning の前に強い baseline を作れる。Migration guide

OpenAI 互換 API alias

examples/openai_api server は短い alias を提供します。application team は model repository ID を意識せずに接続できます。

Alias実体使う場面
sensevoiceiic/SenseVoiceSmall多言語 ASR、event tag、CPU/GPU behavior を含む default private speech API。
paraformerparaformer-zh中国語 production route。
paraformer-enparaformer-enOpenAI 形式 client の英語軽量 route。
fun-asr-nanoFunAudioLLM/Fun-ASR-Nano-2512LLM-based ASR、31 言語 coverage、vLLM acceleration の評価。
curl http://localhost:8000/v1/models
python examples/openai_api/smoke_test.py --base-url http://localhost:8000 --model sensevoice

workload 別 runtime

workloadruntime pathメモ
Notebook または一回限りの評価Python AutoModelinstall、model download、output shape を確認する最短経路。
社内 HTTP serviceOpenAI 互換 APIOpenAI-style clients、Dify、n8n、LangChain、AutoGen、HTTP node を再利用。
再現可能な local container demoDocker Compose APICPU-first smoke test。CUDA の前に image を調整。
cluster 内 private serviceKubernetes API templateprivate ClusterIP、persistent model cache、health probes、port-forward smoke test。
live audioRuntime WebSocket service実音声で chunking、VAD、endpointing、reconnect、client backpressure を検証。
LLM-based ASR throughputFun-ASR-Nano の vLLM pathvLLM は autoregressive decoding を高速化し、non-autoregressive Paraformer には使いません。

runtime と deployment target を選ぶ場合は デプロイ選択表 も確認してください。

決める前に benchmark

  • 短い clip、長い会議、silence、noise、overlapping speakers、domain vocabulary、target languages を含む 20-50 件の代表音声を用意します。
  • model name、model revision、FunASR version、device、CPU/GPU type、CUDA/PyTorch version、runtime path、batch size、warmup/model download time を除外したかを記録します。
  • transcript の読みやすさだけではなく、通常の WER/CER または human review で品質を見ます。
  • latency、throughput、memory、failures、upload size limit を一緒に追跡します。
  • public smoke sample と realistic private sample を少なくとも 1 つずつ残します。

migration work では migration benchmark examplemigration guide を使います。