开源语音理解工具包

FunASR

生产级语音识别、语音检测、标点恢复、说话人分离、情感检测、音频事件识别——统一的 Python 接口。

PyPI Stars License
funasr-pipeline.py
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
50+语言
170x实时
1个API全流程

最新动态

网站文档已对齐 README 和 main 分支最新能力。

vLLM 推理引擎

Fun-ASR-Nano LLM 解码加速 2-3 倍,支持 tensor parallel 批量推理和实时 WebSocket 服务。

阅读 vLLM 文档

Agent 基础设施

funasr-server 提供 OpenAI 兼容转写 API;MCP 和语音输入示例可把本地 ASR 接入 AI 工具。

配置 Agent 集成

性能评测

长音频评测覆盖 SenseVoice、Paraformer、Fun-ASR-Nano、GLM-ASR 和 Whisper 变体,包含 GPU/CPU 结果。

查看评测

几分钟部署私有语音 API

在本地启动 OpenAI 兼容的转写接口,将语音能力接入 Agent、应用和批处理流水线,无需把音频发送到云端 ASR 服务。

启动服务

先用 SenseVoice 快速验证,服务启动后也可以切换到其他模型。

pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda

用 curl 验证

下载公开测试音频,调用与 OpenAI 兼容客户端一致的接口路径。

curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@sample.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

文档中心

从示例开始,在自己的数据上微调,扩展模型注册表,或查阅带源码链接的 API 文档。

核心能力

语音理解所需的一切——从音频分段到带说话人标注的转写结果。

ASR

语音识别

支持流式和离线 ASR,内置 VAD 分段。单次 API 调用即可处理数小时的长音频。

50+

多语言模型

Fun-ASR-Nano 覆盖 31 种语言含中文方言,Qwen3-ASR 覆盖 52 种语言并自动检测语种。

SPK

说话人分离

识别"谁在什么时候说了什么",将说话人标签附加到句子级 ASR 输出。

SFX

情感与音频事件

SenseVoice 可检测语音情感和音频事件——背景音乐、掌声、笑声、哭声。

RTF

低延迟

非自回归模型支持高效批处理和实时场景,可部署在各种硬件上。

OPS

训练与部署

支持 DeepSpeed 微调、ONNX 导出、Docker 运行时和 Python SDK 部署。

模型

预训练工业级模型,用于语音识别、音频分段和语音理解流水线。

Fun-ASR-Nano

基于数千万小时数据训练的端到端 ASR。支持 31 种语言、方言、歌词、时间戳和热词。

8亿参数 31种语言 时间戳 说话人分离 热词

Paraformer

非自回归中英文语音识别,提供流式和离线版本,适用于生产系统。

流式 离线 热词 ONNX

SenseVoice

多任务语音理解:语音识别、语种识别、情感检测、音频事件检测,支持 5 种语言。

情感 音频事件 说话人分离 70ms/10s

Qwen3-ASR

基于大语言模型的语音识别,支持 52 种语言,具备上下文理解和自动语种检测能力。

52种语言 0.6B / 1.7B 上下文感知

快速开始

可以本地安装,也可以先运行 Colab 快速体验,在浏览器里转写样例音频。

pip install funasr
# 或安装最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)

for sent in res[0]["sentence_info"]:
    print(f"[说话人 {sent['spk']}] {sent['text']}")

生态系统

围绕语音识别、语音理解、视频剪辑、语音合成的相关项目。

Fun-ASR-Nano

最新的语音识别大模型,支持多语言识别、时间戳、说话人分离和热词定制。

SenseVoice

多任务语音理解:语音识别、情感检测、音频事件识别。

FunClip

基于 FunASR 的 AI 视频剪辑,支持大模型辅助的智能编辑流程。

CosyVoice

自然语音生成,支持多语言、音色和情感控制。