from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
从示例开始,在自己的数据上微调,扩展模型注册表,或查阅带源码链接的 API 文档。
语音理解所需的一切——从音频分段到带说话人标注的转写结果。
支持流式和离线 ASR,内置 VAD 分段。单次 API 调用即可处理数小时的长音频。
Fun-ASR-Nano 覆盖 31 种语言含中文方言,Qwen3-ASR 覆盖 52 种语言并自动检测语种。
识别"谁在什么时候说了什么",将说话人标签附加到句子级 ASR 输出。
SenseVoice 可检测语音情感和音频事件——背景音乐、掌声、笑声、哭声。
非自回归模型支持高效批处理和实时场景,可部署在各种硬件上。
支持 DeepSpeed 微调、ONNX 导出、Docker 运行时和 Python SDK 部署。
预训练工业级模型,用于语音识别、音频分段和语音理解流水线。
基于数千万小时数据训练的端到端 ASR。支持 31 种语言、方言、歌词、时间戳和热词。
非自回归中英文语音识别,提供流式和离线版本,适用于生产系统。
多任务语音理解:语音识别、语种识别、情感检测、音频事件检测,支持 5 种语言。
基于大语言模型的语音识别,支持 52 种语言,具备上下文理解和自动语种检测能力。
安装包、组合流水线、用 Python 运行识别。
pip install funasr # 或安装最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)
for sent in res[0]["sentence_info"]:
print(f"[说话人 {sent['spk']}] {sent['text']}")
围绕语音识别、语音理解、视频剪辑、语音合成的相关项目。
最新的语音识别大模型,支持多语言识别、时间戳、说话人分离和热词定制。
多任务语音理解:语音识别、情感检测、音频事件识别。
基于 FunASR 的 AI 视频剪辑,支持大模型辅助的智能编辑流程。
自然语音生成,支持多语言、音色和情感控制。