オープンソース音声理解ツールキット

FunASR

本番環境対応の音声認識、VAD、句読点復元、話者分離、感情検出、音声イベント認識を統一 Python インターフェースで提供。

funasr-pipeline.py

from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])

50+言語

15x高速

1 APIパイプライン

ドキュメント

サンプルから始めて、自分のデータでチューニングし、レジストリを拡張するか、ソースリンク付き API ドキュメントへ。

選ぶ

モデル選択

SenseVoice、Paraformer、Fun-ASR-Nano、OpenAI API alias の最初の選び方を確認。

運用

デプロイ選択

Colab、Python API、OpenAI 互換 API、Docker、Kubernetes、WebSocket、vLLM、MCP の選び方を確認。

学ぶ

チュートリアル

FunASR をインストールし、モデルを選択、ASR・VAD・話者分離・エクスポートを実行。

調整

トレーニング

JSONL データを準備し、Paraformer・SenseVoice・Fun-ASR-Nano をファインチューニング、実行を監視。

拡張

開発者ガイド

レジストリを理解し、モデルを追加、リモートコードをパッケージ化、統合の落とし穴を回避。

高速化

vLLM 推論

LLM-based ASR を vLLM で高速化し、マルチ GPU 一括 decode、Streaming SDK、WebSocket サービスを利用。

連携

Agent / API

FunASR を OpenAI 互換 endpoint、MCP tool、音声入力、字幕生成として利用。

測定

ベンチマーク

長時間音声で FunASR と Whisper の GPU/CPU 速度と CER を比較。

参照

API

自動生成されたクラス・メソッドドキュメント、ソースプレビュー、GitHub 行リンクを閲覧。

機能

音声理解に必要なすべて——音声セグメンテーションから話者付き書き起こしまで。

ASR

音声認識

VAD セグメンテーション付きのストリーミング/オフライン ASR。1回の API 呼び出しで長時間音声を処理。

50+

多言語モデル

Fun-ASR-Nano は方言を含む 31 言語、Qwen3-ASR は 52 言語に対応し自動言語検出が可能。

SPK

話者分離

「誰がいつ何を言ったか」を特定し、文レベルの ASR 出力に話者ラベルを付与。

SFX

感情・音声イベント

SenseVoice が感情と音声イベントを検出——BGM、拍手、笑い、泣き。

RTF

低レイテンシ

非自己回帰モデルにより高効率なバッチ処理とリアルタイムワークロードをサポート。

OPS

トレーニング・デプロイ

DeepSpeed でファインチューニング、ONNX にエクスポート、Docker ランタイムまたは Python SDK でデプロイ。

モデル

認識・セグメンテーション・音声理解ワークフロー用の事前学習済み産業モデル。

Fun-ASR-Nano

数千万時間のデータで学習したエンドツーエンド ASR。31 言語、方言、歌詞、タイムスタンプ、ホットワードに対応。

8億パラメータ 31言語タイムスタンプ話者分離ホットワード

Paraformer

非自己回帰型の中国語・英語 ASR。ストリーミングとオフラインの両方に対応し、本番システムに最適。

ストリーミングオフラインホットワード ONNX

SenseVoice

マルチタスク音声理解：音声認識、言語識別、感情検出、音声イベント検出。5 言語対応。

感情音声イベント話者分離 70ms/10s

Qwen3-ASR

LLM ベースの音声認識。52 言語に対応し、文脈理解と自動言語検出機能を搭載。

52言語 0.6B / 1.7B 文脈理解

クイックスタート

ローカルにインストールするか、まず Colab クイックスタートでブラウザからサンプル音声を文字起こしできます。最初のモデル選びはモデル選択ガイドを参照してください。

pip install funasr
# または最新版：pip install git+https://github.com/modelscope/FunASR.git

from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)

for sent in res[0]["sentence_info"]:
    print(f"[話者 {sent['spk']}] {sent['text']}")

完全チュートリアル

エコシステム

ASR、音声理解、動画編集、音声生成に関連するプロジェクト。

Fun-ASR-Nano

最新の ASR 大規模モデル。多言語認識・タイムスタンプ・話者分離・ホットワードに対応。

SenseVoice

マルチタスク音声理解：音声認識、感情検出、音声イベント認識。

FunClip

FunASR と LLM 支援の編集ワークフローによる AI 動画クリッピング。

CosyVoice

多言語・音色・感情制御による自然な音声生成。

FunASR

最新情報

vLLM 推論エンジン

Agent 基盤

ベンチマーク

ドキュメント

モデル選択

デプロイ選択

チュートリアル

トレーニング

開発者ガイド

vLLM 推論

Agent / API

ベンチマーク

API

機能

音声認識

多言語モデル

話者分離

感情・音声イベント

低レイテンシ

トレーニング・デプロイ

モデル

Fun-ASR-Nano

Paraformer

SenseVoice

Qwen3-ASR

クイックスタート

エコシステム

Fun-ASR-Nano

SenseVoice

FunClip

CosyVoice