オープンソース音声理解ツールキット

FunASR

本番環境対応の音声認識、VAD、句読点復元、話者分離、感情検出、音声イベント認識を統一 Python インターフェースで提供。

PyPI Stars License
funasr-pipeline.py
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
50+言語
15x高速
1 APIパイプライン

ドキュメント

サンプルから始めて、自分のデータでチューニングし、レジストリを拡張するか、ソースリンク付き API ドキュメントへ。

機能

音声理解に必要なすべて——音声セグメンテーションから話者付き書き起こしまで。

ASR

音声認識

VAD セグメンテーション付きのストリーミング/オフライン ASR。1回の API 呼び出しで長時間音声を処理。

50+

多言語モデル

Fun-ASR-Nano は方言を含む 31 言語、Qwen3-ASR は 52 言語に対応し自動言語検出が可能。

SPK

話者分離

「誰がいつ何を言ったか」を特定し、文レベルの ASR 出力に話者ラベルを付与。

SFX

感情・音声イベント

SenseVoice が感情と音声イベントを検出——BGM、拍手、笑い、泣き。

RTF

低レイテンシ

非自己回帰モデルにより高効率なバッチ処理とリアルタイムワークロードをサポート。

OPS

トレーニング・デプロイ

DeepSpeed でファインチューニング、ONNX にエクスポート、Docker ランタイムまたは Python SDK でデプロイ。

モデル

認識・セグメンテーション・音声理解ワークフロー用の事前学習済み産業モデル。

Fun-ASR-Nano

数千万時間のデータで学習したエンドツーエンド ASR。31 言語、方言、歌詞、タイムスタンプ、ホットワードに対応。

8億パラメータ 31言語 タイムスタンプ 話者分離 ホットワード

Paraformer

非自己回帰型の中国語・英語 ASR。ストリーミングとオフラインの両方に対応し、本番システムに最適。

ストリーミング オフライン ホットワード ONNX

SenseVoice

マルチタスク音声理解:音声認識、言語識別、感情検出、音声イベント検出。5 言語対応。

感情 音声イベント 話者分離 70ms/10s

Qwen3-ASR

LLM ベースの音声認識。52 言語に対応し、文脈理解と自動言語検出機能を搭載。

52言語 0.6B / 1.7B 文脈理解

クイックスタート

パッケージをインストールし、パイプラインを構成、Python から認識を実行。

pip install funasr
# または最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)

for sent in res[0]["sentence_info"]:
    print(f"[話者 {sent['spk']}] {sent['text']}")

エコシステム

ASR、音声理解、動画編集、音声生成に関連するプロジェクト。

Fun-ASR-Nano

最新の ASR 大規模モデル。多言語認識・タイムスタンプ・話者分離・ホットワードに対応。

SenseVoice

マルチタスク音声理解:音声認識、感情検出、音声イベント認識。

FunClip

FunASR と LLM 支援の編集ワークフローによる AI 動画クリッピング。

CosyVoice

多言語・音色・感情制御による自然な音声生成。