from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
网站文档已对齐 README 和 main 分支最新能力。
在本地启动 OpenAI 兼容的转写接口,将语音能力接入 Agent、应用和批处理流水线,无需把音频发送到云端 ASR 服务。
先用 SenseVoice 快速验证,服务启动后也可以切换到其他模型。
pip install funasr fastapi uvicorn python-multipart funasr-server --model sensevoice --device cuda
下载公开测试音频,调用与 OpenAI 兼容客户端一致的接口路径。
curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav curl http://localhost:8000/v1/audio/transcriptions \ -F file=@sample.wav \ -F model=sensevoice \ -F response_format=verbose_json
从示例开始,在自己的数据上微调,扩展模型注册表,或查阅带源码链接的 API 文档。
为你的场景选择 SenseVoice、Paraformer、Fun-ASR-Nano、流式服务或 OpenAI API alias。
部署对比 Python API、OpenAI API、Docker Compose、Kubernetes、WebSocket、vLLM、MCP、批处理、字幕和 Triton。
对比用功能映射、代表性评测和上线检查,评估是否从 Whisper 或云端 ASR 切到 FunASR。
选型快速找到私有 API、Agent、流式、vLLM、字幕、批处理和评测的最佳入口。
学习安装 FunASR,选择模型,运行语音识别、VAD、说话人分离和导出流程。
微调准备 JSONL 数据,微调 Paraformer、SenseVoice、Fun-ASR-Nano,监控训练过程。
扩展理解注册表机制,添加新模型,打包独立仓库代码,避免集成陷阱。
加速使用 vLLM 加速 LLM-based ASR,支持多卡批量解码、流式 SDK 和 WebSocket 服务。
集成将 FunASR 暴露为 OpenAI 兼容接口、低代码工作流节点、MCP 工具、语音输入法或字幕生成器。
评测对比 FunASR 与 Whisper 在长音频上的 GPU/CPU 速度和 CER。
参考浏览自动生成的类、方法文档,查看源码预览和 GitHub 行号链接。
语音理解所需的一切——从音频分段到带说话人标注的转写结果。
支持流式和离线 ASR,内置 VAD 分段。单次 API 调用即可处理数小时的长音频。
Fun-ASR-Nano 覆盖 31 种语言含中文方言,Qwen3-ASR 覆盖 52 种语言并自动检测语种。
识别"谁在什么时候说了什么",将说话人标签附加到句子级 ASR 输出。
SenseVoice 可检测语音情感和音频事件——背景音乐、掌声、笑声、哭声。
非自回归模型支持高效批处理和实时场景,可部署在各种硬件上。
支持 DeepSpeed 微调、ONNX 导出、Docker 运行时和 Python SDK 部署。
预训练工业级模型,用于语音识别、音频分段和语音理解流水线。
基于数千万小时数据训练的端到端 ASR。支持 31 种语言、方言、歌词、时间戳和热词。
非自回归中英文语音识别,提供流式和离线版本,适用于生产系统。
多任务语音理解:语音识别、语种识别、情感检测、音频事件检测,支持 5 种语言。
基于大语言模型的语音识别,支持 52 种语言,具备上下文理解和自动语种检测能力。
可以本地安装,也可以先运行 Colab 快速体验,在浏览器里转写样例音频。
pip install funasr # 或安装最新版:pip install git+https://github.com/modelscope/FunASR.git
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav", batch_size_s=300)
for sent in res[0]["sentence_info"]:
print(f"[说话人 {sent['spk']}] {sent['text']}")
围绕语音识别、语音理解、视频剪辑、语音合成的相关项目。
最新的语音识别大模型,支持多语言识别、时间戳、说话人分离和热词定制。
多任务语音理解:语音识别、情感检测、音频事件识别。
基于 FunASR 的 AI 视频剪辑,支持大模型辅助的智能编辑流程。
自然语音生成,支持多语言、音色和情感控制。