场景速览

从评测到生产,选择最短路径。FunASR 覆盖本地转写、私有 OpenAI 兼容 API、Kubernetes 服务、Agent 语音输入、流式服务、vLLM 加速、字幕生成和批处理。

选择合适路径

目标从这里开始为什么重要
在浏览器里试用 FunASRColab 快速体验配置本地环境前,先跑公开样例并上传自己的音频。
本地转写一个文件使用教程 · 模型选择几分钟内验证安装、模型选择、模型下载和首次推理。
对比准确率和速度性能评测报告选型前查看长音频速度和 CER。
从 Whisper/云端 ASR 迁移迁移指南 · 评测示例将现有流水线映射到 FunASR,用代表性音频评测并规划安全上线。
搭建私有语音 APIOpenAI 兼容 API · 中文快速上手 · Kubernetes 模板 · JS/TS 配方 · Gradio 演示 · 安全指南 · 工作流配方复用 OpenAI 风格客户端、Dify、n8n、HTTP 工作流节点和 Gradio 浏览器 UI,并在服务边界规划 TLS、鉴权、上传限制和日志。
给 Agent 增加语音输入MCP 服务将本地 ASR 接入 Claude、Cursor、桌面工具和内部助手。
选择部署路径部署选型表对比 Python API、OpenAI API、Docker Compose、Kubernetes、WebSocket、vLLM、MCP、字幕、批处理和 Triton。
部署流式 ASR实时示例面向实时字幕、会议和客服类低延迟场景。
加速 LLM-based ASRvLLM 指南为 Fun-ASR-Nano 使用 tensor parallel 解码和流式服务能力。
生成字幕字幕生成器将音频或视频生成 SRT/VTT,需要时添加说话人标签。
批量处理录音批处理示例为录音归档、会议纪要和数据集处理搭建可重复流水线。

面向生产的配方

私有转写 API

当应用已经兼容 OpenAI 风格接口,或音频不能离开私有环境时,优先使用这个路径。

pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda

curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@sample.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

Agent 语音输入

当你想把语音输入接到编码助手、内部助手或工作流工具时,可以从 MCP 服务开始。

pip install funasr
python examples/mcp_server/funasr_mcp.py

# 设置 FUNASR_DEVICE=cuda 使用 GPU 推理

流式与客服场景

需要给人阅读时,把 ASR 与 VAD、标点恢复、说话人分离一起使用。

用真实音频验证:背景噪声、长静音、多人重叠、不同麦克风质量。

迁移前先评测

评估是否替代 Whisper 或云端 ASR 时,用自己的样本集同时记录吞吐、CPU 可用性、下载体积和部署复杂度。

打开迁移指南 · 公开评测

模型选择建议

如需更完整地比较 SenseVoice、Paraformer、Fun-ASR-Nano、streaming runtime 和 OpenAI API alias,请看 模型选择指南

需求推荐先试说明
快速多语种转写SenseVoice-Small本地 demo 和私有 API 的稳妥默认选择。
中文生产 ASRParaformer-Large中文语音识别的成熟选择。
LLM-based ASR 实验Fun-ASR-Nano吞吐敏感时配合 vLLM
带说话人信息的转写SenseVoice 或 Paraformer + spk_model="cam++"适合会议、访谈、客服录音。
实时音频Runtime WebSocket 服务用真实流量验证分块、VAD 和断句。

分享你的结果

如果 FunASR 在你的项目里效果不错,欢迎分享使用场景、模型、设备、处理速度、音频领域,以及可以公开的 demo 或 benchmark 摘要。

提交 showcase issue提交迁移评测报告发起讨论。具体使用和评测反馈能帮助新用户更快选型,也能帮助维护者决定下一批文档和示例优先级。