场景速览

从评测到生产，选择最短路径。FunASR 覆盖本地转写、私有 OpenAI 兼容 API、Kubernetes 服务、Agent 语音输入、流式服务、vLLM 加速、字幕生成和批处理。

选择合适路径

目标	从这里开始	为什么重要
在浏览器里试用 FunASR	Colab 快速体验	配置本地环境前，先跑公开样例并上传自己的音频。
本地转写一个文件	使用教程 · 模型选择	几分钟内验证安装、模型选择、模型下载和首次推理。
对比准确率和速度	性能评测报告	选型前查看长音频速度和 CER。
从 Whisper/云端 ASR 迁移	迁移指南 · 评测示例	将现有流水线映射到 FunASR，用代表性音频评测并规划安全上线。
搭建私有语音 API	OpenAI 兼容 API · 中文快速上手 · Kubernetes 模板 · JS/TS 配方 · Gradio 演示 · 安全指南 · 工作流配方	复用 OpenAI 风格客户端、Dify、n8n、HTTP 工作流节点和 Gradio 浏览器 UI，并在服务边界规划 TLS、鉴权、上传限制和日志。
给 Agent 增加语音输入	MCP 服务	将本地 ASR 接入 Claude、Cursor、桌面工具和内部助手。
选择部署路径	部署选型表	对比 Python API、OpenAI API、Docker Compose、Kubernetes、WebSocket、vLLM、MCP、字幕、批处理和 Triton。
部署流式 ASR	实时示例	面向实时字幕、会议和客服类低延迟场景。
加速 LLM-based ASR	vLLM 指南	为 Fun-ASR-Nano 使用 tensor parallel 解码和流式服务能力。
生成字幕	字幕生成器	将音频或视频生成 SRT/VTT，需要时添加说话人标签。
批量处理录音	批处理示例	为录音归档、会议纪要和数据集处理搭建可重复流水线。

面向生产的配方

私有转写 API

当应用已经兼容 OpenAI 风格接口，或音频不能离开私有环境时，优先使用这个路径。

pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda

curl http://localhost:8000/v1/audio/transcriptions \
  -F file=@sample.wav \
  -F model=sensevoice \
  -F response_format=verbose_json

Agent 语音输入

当你想把语音输入接到编码助手、内部助手或工作流工具时，可以从 MCP 服务开始。

pip install funasr
python examples/mcp_server/funasr_mcp.py

# 设置 FUNASR_DEVICE=cuda 使用 GPU 推理

流式与客服场景

需要给人阅读时，把 ASR 与 VAD、标点恢复、说话人分离一起使用。

用真实音频验证：背景噪声、长静音、多人重叠、不同麦克风质量。

迁移前先评测

评估是否替代 Whisper 或云端 ASR 时，用自己的样本集同时记录吞吐、CPU 可用性、下载体积和部署复杂度。

打开迁移指南 · 公开评测

模型选择建议

如需更完整地比较 SenseVoice、Paraformer、Fun-ASR-Nano、streaming runtime 和 OpenAI API alias，请看模型选择指南。

需求	推荐先试	说明
快速多语种转写	SenseVoice-Small	本地 demo 和私有 API 的稳妥默认选择。
中文生产 ASR	Paraformer-Large	中文语音识别的成熟选择。
LLM-based ASR 实验	Fun-ASR-Nano	吞吐敏感时配合 vLLM。
带说话人信息的转写	SenseVoice 或 Paraformer + `spk_model="cam++"`	适合会议、访谈、客服录音。
实时音频	Runtime WebSocket 服务	用真实流量验证分块、VAD 和断句。