部署选型表

为产品、demo、benchmark 或内部工作流选择最短部署路径。先选择能满足目标的最小方案，只有在吞吐、延迟或集成方式有明确要求时，再切换到更重的运行时。

快速决策表

路径	适合场景	从这里开始	运维提示
Colab Notebook	浏览器 smoke test、首次评估、可分享 demo	Colab 快速体验	不需要本地环境；首次运行会下载模型，GPU runtime 更快。
Python API	Notebook、离线任务、首次模型评测	使用教程	最简单；调用方自己负责批处理、重试和文件管理。
llama.cpp / GGUF 二进制	无需 Python runtime 的 CPU/边缘转写；SenseVoiceSmall 可使用 Linux Vulkan GPU	v0.1.8 二进制 · Linux Vulkan tarball · llama.cpp 文档	用随包脚本下载 GGUF 模型；Linux Vulkan 环境可加 `--backend vulkan`，便携 smoke test 使用 CPU 包。
OpenAI 兼容 API	私有语音 API、Agent、Dify/LangChain/AutoGen/n8n 风格客户端	OpenAI API · 中文快速上手 · Python 烟测脚本 · JS/TS 配方 · 工作流配方 · Gradio 演示 · 安全指南 · Postman 集合 · OpenAPI 规范	已支持 OpenAI audio API 或 multipart HTTP 节点的应用和工作流引擎最容易接入。
Docker Compose API	可复现本地 smoke test 或小型内部服务	OpenAI API Docker 文档 · Python 烟测脚本	默认 CPU；容器里使用 CUDA 前需要先适配 CUDA-capable 镜像。
Kubernetes API	集群内私有语音 API	Kubernetes 模板 · Python 烟测脚本	默认私有 `ClusterIP`；对外开放前补齐鉴权、TLS、网络策略和 GPU 调度。
Runtime WebSocket 服务	实时字幕、会议、客服流式音频	Runtime 文档	需要中间结果、断句或长连接音频流时选择。
vLLM 加速	Fun-ASR-Nano 等 LLM-based ASR 高吞吐	vLLM 指南	适合 LLM 解码吞吐；不适用于非自回归 Paraformer。
MCP 服务	Claude/Cursor/桌面 Agent 语音工具	MCP 示例	适合把 ASR 结果暴露成一个本地工具。
字幕生成	从长音频或视频生成 SRT/VTT	字幕生成器	需要可读性时使用 verbose segments 和说话人标签。
批处理脚本	录音归档、会议纪要、数据集处理	批处理示例	生产使用时建议增加队列、manifest 和重试日志。
Triton Runtime	专门的高性能推理服务	Triton 文档	配置更重；适合已经在运维 Triton/GPU serving 的团队。

常见选择

五分钟内试跑 FunASR

如果只想在浏览器里 smoke test，可以先用 Colab 快速体验；本地工作再使用教程里的 Python API。它是验证安装、模型下载、设备选择和基础输出格式的最短路径。如果还不确定先用哪个模型，请看模型选择指南。

发布无 Python 边缘二进制

如果需要自包含的 SenseVoice、Paraformer 或 Fun-ASR-Nano 二进制，请使用 llama.cpp / GGUF runtime。下载 v0.1.8；Linux Vulkan 用户可搭配 Vulkan tarball 并选择 --backend vulkan。

本地替代云端转写

使用 OpenAI 兼容 API。先用 sensevoice 跑通 bash smoke test 或 Python 烟测脚本，再根据客户端配方或 JavaScript/TypeScript 配方接入 SDK 或 HTTP 客户端。集群上线可使用 Kubernetes 模板。Dify、n8n 或 webhook worker 可参考工作流配方；图形界面 API 检查可导入 Postman 集合，也可启动 Gradio 演示；网关和开发者门户可使用 OpenAPI 规范和安全指南。

可复现容器 demo

cd examples/openai_api
cp .env.example .env
docker compose up --build

在没有 CUDA-capable PyTorch/FunASR 镜像前保持 CPU 模式。

实时音频服务

使用 Runtime WebSocket 服务。上线前请用真实音频验证 chunk size、VAD、断句、标点、说话人分离、重连行为和客户端背压。

上线检查清单

选择模型 alias，并写入部署说明。
记录 FunASR 版本、模型版本、设备、CUDA/PyTorch 版本、Docker 镜像 tag 和启动命令。
用 Python 烟测脚本跑一个公开短音频 smoke sample，再跑至少一个真实私有样本。
每次请求记录音频时长、模型、设备、延迟、响应格式和错误类型。
API 暴露到可信网络外之前，增加上传大小限制、鉴权、TLS 和限流；可用安全指南规划边界。
流式场景需要测试静音、噪声、多人重叠、长连接、重连和慢客户端。

什么时候开 issue

Runtime、Docker、vLLM、Triton、Android、浏览器或 Agent 集成问题，请使用 Deployment Help。请附上部署路径、完整命令/config、日志、模型、设备和音频特征。