オープンソース音声理解ツールキット
本番環境対応の音声認識、VAD、句読点復元、話者分離、感情検出、音声イベント認識を統一 Python インターフェースで提供。
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
サンプルから始めて、自分のデータでチューニングし、レジストリを拡張するか、ソースリンク付き API ドキュメントへ。
音声理解に必要なすべて——音声セグメンテーションから話者付き書き起こしまで。
VAD セグメンテーション付きのストリーミング/オフライン ASR。1回の API 呼び出しで長時間音声を処理。
Fun-ASR-Nano は方言を含む 31 言語、Qwen3-ASR は 52 言語に対応し自動言語検出が可能。
「誰がいつ何を言ったか」を特定し、文レベルの ASR 出力に話者ラベルを付与。
SenseVoice が感情と音声イベントを検出——BGM、拍手、笑い、泣き。
非自己回帰モデルにより高効率なバッチ処理とリアルタイムワークロードをサポート。
DeepSpeed でファインチューニング、ONNX にエクスポート、Docker ランタイムまたは Python SDK でデプロイ。
認識・セグメンテーション・音声理解ワークフロー用の事前学習済み産業モデル。
数千万時間のデータで学習したエンドツーエンド ASR。31 言語、方言、歌詞、タイムスタンプ、ホットワードに対応。
非自己回帰型の中国語・英語 ASR。ストリーミングとオフラインの両方に対応し、本番システムに最適。
マルチタスク音声理解:音声認識、言語識別、感情検出、音声イベント検出。5 言語対応。
LLM ベースの音声認識。52 言語に対応し、文脈理解と自動言語検出機能を搭載。
パッケージをインストールし、パイプラインを構成、Python から認識を実行。
pip install funasr # または最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)
for sent in res[0]["sentence_info"]:
print(f"[話者 {sent['spk']}] {sent['text']}")
ASR、音声理解、動画編集、音声生成に関連するプロジェクト。
最新の ASR 大規模モデル。多言語認識・タイムスタンプ・話者分離・ホットワードに対応。
マルチタスク音声理解:音声認識、感情検出、音声イベント認識。
FunASR と LLM 支援の編集ワークフローによる AI 動画クリッピング。
多言語・音色・感情制御による自然な音声生成。