场景速览
从评测到生产,选择最短路径。FunASR 覆盖本地转写、私有 OpenAI 兼容 API、Kubernetes 服务、Agent 语音输入、流式服务、vLLM 加速、字幕生成和批处理。
选择合适路径
| 目标 | 从这里开始 | 为什么重要 |
|---|---|---|
| 在浏览器里试用 FunASR | Colab 快速体验 | 配置本地环境前,先跑公开样例并上传自己的音频。 |
| 本地转写一个文件 | 使用教程 · 模型选择 | 几分钟内验证安装、模型选择、模型下载和首次推理。 |
| 对比准确率和速度 | 性能评测报告 | 选型前查看长音频速度和 CER。 |
| 从 Whisper/云端 ASR 迁移 | 迁移指南 · 评测示例 | 将现有流水线映射到 FunASR,用代表性音频评测并规划安全上线。 |
| 搭建私有语音 API | OpenAI 兼容 API · 中文快速上手 · Kubernetes 模板 · JS/TS 配方 · Gradio 演示 · 安全指南 · 工作流配方 | 复用 OpenAI 风格客户端、Dify、n8n、HTTP 工作流节点和 Gradio 浏览器 UI,并在服务边界规划 TLS、鉴权、上传限制和日志。 |
| 给 Agent 增加语音输入 | MCP 服务 | 将本地 ASR 接入 Claude、Cursor、桌面工具和内部助手。 |
| 选择部署路径 | 部署选型表 | 对比 Python API、OpenAI API、Docker Compose、Kubernetes、WebSocket、vLLM、MCP、字幕、批处理和 Triton。 |
| 部署流式 ASR | 实时示例 | 面向实时字幕、会议和客服类低延迟场景。 |
| 加速 LLM-based ASR | vLLM 指南 | 为 Fun-ASR-Nano 使用 tensor parallel 解码和流式服务能力。 |
| 生成字幕 | 字幕生成器 | 将音频或视频生成 SRT/VTT,需要时添加说话人标签。 |
| 批量处理录音 | 批处理示例 | 为录音归档、会议纪要和数据集处理搭建可重复流水线。 |
面向生产的配方
私有转写 API
当应用已经兼容 OpenAI 风格接口,或音频不能离开私有环境时,优先使用这个路径。
pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda
curl http://localhost:8000/v1/audio/transcriptions \
-F file=@sample.wav \
-F model=sensevoice \
-F response_format=verbose_jsonAgent 语音输入
当你想把语音输入接到编码助手、内部助手或工作流工具时,可以从 MCP 服务开始。
pip install funasr
python examples/mcp_server/funasr_mcp.py
# 设置 FUNASR_DEVICE=cuda 使用 GPU 推理模型选择建议
如需更完整地比较 SenseVoice、Paraformer、Fun-ASR-Nano、streaming runtime 和 OpenAI API alias,请看 模型选择指南。
| 需求 | 推荐先试 | 说明 |
|---|---|---|
| 快速多语种转写 | SenseVoice-Small | 本地 demo 和私有 API 的稳妥默认选择。 |
| 中文生产 ASR | Paraformer-Large | 中文语音识别的成熟选择。 |
| LLM-based ASR 实验 | Fun-ASR-Nano | 吞吐敏感时配合 vLLM。 |
| 带说话人信息的转写 | SenseVoice 或 Paraformer + spk_model="cam++" | 适合会议、访谈、客服录音。 |
| 实时音频 | Runtime WebSocket 服务 | 用真实流量验证分块、VAD 和断句。 |