开源语音理解工具包

FunASR

生产级语音识别、语音检测、标点恢复、说话人分离、情感检测、音频事件识别——统一的 Python 接口。

PyPI Stars License
funasr-pipeline.py
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
50+语言
15x更快
1个API全流程

文档中心

从示例开始,在自己的数据上微调,扩展模型注册表,或查阅带源码链接的 API 文档。

核心能力

语音理解所需的一切——从音频分段到带说话人标注的转写结果。

ASR

语音识别

支持流式和离线 ASR,内置 VAD 分段。单次 API 调用即可处理数小时的长音频。

50+

多语言模型

Fun-ASR-Nano 覆盖 31 种语言含中文方言,Qwen3-ASR 覆盖 52 种语言并自动检测语种。

SPK

说话人分离

识别"谁在什么时候说了什么",将说话人标签附加到句子级 ASR 输出。

SFX

情感与音频事件

SenseVoice 可检测语音情感和音频事件——背景音乐、掌声、笑声、哭声。

RTF

低延迟

非自回归模型支持高效批处理和实时场景,可部署在各种硬件上。

OPS

训练与部署

支持 DeepSpeed 微调、ONNX 导出、Docker 运行时和 Python SDK 部署。

模型

预训练工业级模型,用于语音识别、音频分段和语音理解流水线。

Fun-ASR-Nano

基于数千万小时数据训练的端到端 ASR。支持 31 种语言、方言、歌词、时间戳和热词。

8亿参数 31种语言 时间戳 说话人分离 热词

Paraformer

非自回归中英文语音识别,提供流式和离线版本,适用于生产系统。

流式 离线 热词 ONNX

SenseVoice

多任务语音理解:语音识别、语种识别、情感检测、音频事件检测,支持 5 种语言。

情感 音频事件 说话人分离 70ms/10s

Qwen3-ASR

基于大语言模型的语音识别,支持 52 种语言,具备上下文理解和自动语种检测能力。

52种语言 0.6B / 1.7B 上下文感知

快速开始

安装包、组合流水线、用 Python 运行识别。

pip install funasr
# 或安装最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)

for sent in res[0]["sentence_info"]:
    print(f"[说话人 {sent['spk']}] {sent['text']}")

生态系统

围绕语音识别、语音理解、视频剪辑、语音合成的相关项目。

Fun-ASR-Nano

最新的语音识别大模型,支持多语言识别、时间戳、说话人分离和热词定制。

SenseVoice

多任务语音理解:语音识别、情感检测、音频事件识别。

FunClip

基于 FunASR 的 AI 视频剪辑,支持大模型辅助的智能编辑流程。

CosyVoice

自然语音生成,支持多语言、音色和情感控制。