オープンソース音声理解ツールキット
本番環境対応の音声認識、VAD、句読点復元、話者分離、感情検出、音声イベント認識を統一 Python インターフェースで提供。
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
Web ドキュメントを README と main branch の最新機能に合わせました。
Fun-ASR-Nano の LLM decode を 2-3 倍高速化し、tensor parallel batch 推論と WebSocket サービスに対応。
サンプルから始めて、自分のデータでチューニングし、レジストリを拡張するか、ソースリンク付き API ドキュメントへ。
SenseVoice、Paraformer、Fun-ASR-Nano、OpenAI API alias の最初の選び方を確認。
運用Colab、Python API、OpenAI 互換 API、Docker、Kubernetes、WebSocket、vLLM、MCP の選び方を確認。
学ぶFunASR をインストールし、モデルを選択、ASR・VAD・話者分離・エクスポートを実行。
調整JSONL データを準備し、Paraformer・SenseVoice・Fun-ASR-Nano をファインチューニング、実行を監視。
拡張レジストリを理解し、モデルを追加、リモートコードをパッケージ化、統合の落とし穴を回避。
高速化LLM-based ASR を vLLM で高速化し、マルチ GPU 一括 decode、Streaming SDK、WebSocket サービスを利用。
連携FunASR を OpenAI 互換 endpoint、MCP tool、音声入力、字幕生成として利用。
測定長時間音声で FunASR と Whisper の GPU/CPU 速度と CER を比較。
参照自動生成されたクラス・メソッドドキュメント、ソースプレビュー、GitHub 行リンクを閲覧。
音声理解に必要なすべて——音声セグメンテーションから話者付き書き起こしまで。
VAD セグメンテーション付きのストリーミング/オフライン ASR。1回の API 呼び出しで長時間音声を処理。
Fun-ASR-Nano は方言を含む 31 言語、Qwen3-ASR は 52 言語に対応し自動言語検出が可能。
「誰がいつ何を言ったか」を特定し、文レベルの ASR 出力に話者ラベルを付与。
SenseVoice が感情と音声イベントを検出——BGM、拍手、笑い、泣き。
非自己回帰モデルにより高効率なバッチ処理とリアルタイムワークロードをサポート。
DeepSpeed でファインチューニング、ONNX にエクスポート、Docker ランタイムまたは Python SDK でデプロイ。
認識・セグメンテーション・音声理解ワークフロー用の事前学習済み産業モデル。
数千万時間のデータで学習したエンドツーエンド ASR。31 言語、方言、歌詞、タイムスタンプ、ホットワードに対応。
非自己回帰型の中国語・英語 ASR。ストリーミングとオフラインの両方に対応し、本番システムに最適。
マルチタスク音声理解:音声認識、言語識別、感情検出、音声イベント検出。5 言語対応。
LLM ベースの音声認識。52 言語に対応し、文脈理解と自動言語検出機能を搭載。
ローカルにインストールするか、まず Colab クイックスタート でブラウザからサンプル音声を文字起こしできます。最初のモデル選びは モデル選択ガイド を参照してください。
pip install funasr # または最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)
for sent in res[0]["sentence_info"]:
print(f"[話者 {sent['spk']}] {sent['text']}")
ASR、音声理解、動画編集、音声生成に関連するプロジェクト。
最新の ASR 大規模モデル。多言語認識・タイムスタンプ・話者分離・ホットワードに対応。
マルチタスク音声理解:音声認識、感情検出、音声イベント認識。
FunASR と LLM 支援の編集ワークフローによる AI 動画クリッピング。
多言語・音色・感情制御による自然な音声生成。