开源语音理解工具包

FunASR

生产级语音识别、语音检测、标点恢复、说话人分离、情感检测、音频事件识别——统一的 Python 接口。

快速开始训练指南 API 文档

funasr-pipeline.py

from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])

50+语言

170x实时

1个API全流程

几分钟部署私有语音 API

在本地启动 OpenAI 兼容的转写接口，将语音能力接入 Agent、应用和批处理流水线，无需把音频发送到云端 ASR 服务。

启动服务

先用 SenseVoice 快速验证，服务启动后也可以切换到其他模型。

pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda

用 curl 验证

下载公开测试音频，调用与 OpenAI 兼容客户端一致的接口路径。

curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav
curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@sample.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

打开 Colab OpenAI API 示例工作流配方 Gradio 演示安全指南 Agent 集成

文档中心

从示例开始，在自己的数据上微调，扩展模型注册表，或查阅带源码链接的 API 文档。

选型

模型选择

为你的场景选择 SenseVoice、Paraformer、Fun-ASR-Nano、流式服务或 OpenAI API alias。

部署

部署选型

对比 Python API、OpenAI API、Docker Compose、Kubernetes、WebSocket、vLLM、MCP、批处理、字幕和 Triton。

对比

迁移指南

用功能映射、代表性评测和上线检查，评估是否从 Whisper 或云端 ASR 切到 FunASR。

选型

场景速览

快速找到私有 API、Agent、流式、vLLM、字幕、批处理和评测的最佳入口。

学习

使用教程

安装 FunASR，选择模型，运行语音识别、VAD、说话人分离和导出流程。

微调

模型训练

准备 JSONL 数据，微调 Paraformer、SenseVoice、Fun-ASR-Nano，监控训练过程。

扩展

开发指南

理解注册表机制，添加新模型，打包独立仓库代码，避免集成陷阱。

加速

vLLM 推理

使用 vLLM 加速 LLM-based ASR，支持多卡批量解码、流式 SDK 和 WebSocket 服务。

集成

Agent 与 API

将 FunASR 暴露为 OpenAI 兼容接口、低代码工作流节点、MCP 工具、语音输入法或字幕生成器。

评测

性能评测

对比 FunASR 与 Whisper 在长音频上的 GPU/CPU 速度和 CER。

参考

API

浏览自动生成的类、方法文档，查看源码预览和 GitHub 行号链接。

核心能力

语音理解所需的一切——从音频分段到带说话人标注的转写结果。

ASR

语音识别

支持流式和离线 ASR，内置 VAD 分段。单次 API 调用即可处理数小时的长音频。

50+

多语言模型

Fun-ASR-Nano 覆盖 31 种语言含中文方言，Qwen3-ASR 覆盖 52 种语言并自动检测语种。

SPK

说话人分离

识别"谁在什么时候说了什么"，将说话人标签附加到句子级 ASR 输出。

SFX

情感与音频事件

SenseVoice 可检测语音情感和音频事件——背景音乐、掌声、笑声、哭声。

RTF

低延迟

非自回归模型支持高效批处理和实时场景，可部署在各种硬件上。

OPS

训练与部署

支持 DeepSpeed 微调、ONNX 导出、Docker 运行时和 Python SDK 部署。

模型

预训练工业级模型，用于语音识别、音频分段和语音理解流水线。

Fun-ASR-Nano

基于数千万小时数据训练的端到端 ASR。支持 31 种语言、方言、歌词、时间戳和热词。

8亿参数 31种语言时间戳说话人分离热词

Paraformer

非自回归中英文语音识别，提供流式和离线版本，适用于生产系统。

流式离线热词 ONNX

SenseVoice

多任务语音理解：语音识别、语种识别、情感检测、音频事件检测，支持 5 种语言。

情感音频事件说话人分离 70ms/10s

Qwen3-ASR

基于大语言模型的语音识别，支持 52 种语言，具备上下文理解和自动语种检测能力。

52种语言 0.6B / 1.7B 上下文感知

快速开始

可以本地安装，也可以先运行 Colab 快速体验，在浏览器里转写样例音频。

pip install funasr
# 或安装最新版：pip install git+https://github.com/modelscope/FunASR.git

from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)

for sent in res[0]["sentence_info"]:
    print(f"[说话人 {sent['spk']}] {sent['text']}")

打开 Colab 完整教程

生态系统

围绕语音识别、语音理解、视频剪辑、语音合成的相关项目。

Fun-ASR-Nano

最新的语音识别大模型，支持多语言识别、时间戳、说话人分离和热词定制。

SenseVoice

多任务语音理解：语音识别、情感检测、音频事件识别。

FunClip

基于 FunASR 的 AI 视频剪辑，支持大模型辅助的智能编辑流程。

CosyVoice

自然语音生成，支持多语言、音色和情感控制。

FunASR

最新动态

llama.cpp / GGUF 运行时

vLLM 推理引擎

Agent 基础设施

性能评测

几分钟部署私有语音 API

启动服务

用 curl 验证

文档中心

模型选择

部署选型

迁移指南

场景速览

使用教程

模型训练

开发指南

vLLM 推理

Agent 与 API

性能评测

API

核心能力

语音识别

多语言模型

说话人分离

情感与音频事件

低延迟

训练与部署

模型

Fun-ASR-Nano

Paraformer

SenseVoice

Qwen3-ASR

快速开始

生态系统

Fun-ASR-Nano

SenseVoice

FunClip

CosyVoice