오픈소스 음성 이해 툴킷
프로덕션 환경을 위한 ASR, VAD, 문장부호 복원, 화자 분리, 감정 감지, 음성 이벤트 인식을 하나의 Python 인터페이스로 제공합니다.
from funasr import AutoModel
model = AutoModel(
model="paraformer-zh",
vad_model="fsmn-vad",
punc_model="ct-punc",
spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
브라우저 데모, 로컬 API, 배포 경로를 한국어 문서에서 바로 선택할 수 있습니다.
Python API, Docker Compose, Kubernetes, WebSocket runtime, vLLM, MCP, 자막, batch ASR 중 가장 짧은 경로를 고릅니다.
모델 선택, 첫 실행, API 연동, 배포 판단을 한 화면에서 이어 봅니다.
주요 모델, 빠른 시작, 벤치마크, 배포 링크를 한국어로 확인합니다.
선택SenseVoice, Paraformer, Fun-ASR-Nano, OpenAI API alias 중 첫 모델을 고릅니다.
운영Colab, Python API, Docker, Kubernetes, WebSocket, vLLM, MCP 경로를 비교합니다.
연동로컬 음성 API 서버를 실행하고 curl, SDK, workflow 클라이언트와 연결합니다.
측정SenseVoice, Paraformer, Fun-ASR-Nano, Whisper 계열 모델의 GPU/CPU 결과를 비교합니다.
AgentOpenAI 호환 endpoint, MCP tool, 음성 입력, 자막 생성 흐름을 확인합니다.
짧은 데모부터 회의, 콜센터, 자막, 데이터셋 처리까지 같은 툴킷으로 확장합니다.
VAD 세그멘테이션과 함께 스트리밍 및 오프라인 ASR을 처리합니다.
Fun-ASR-Nano와 Qwen3-ASR 계열로 여러 언어와 자동 언어 감지를 지원합니다.
누가 언제 말했는지 문장 단위 출력에 화자 라벨을 붙입니다.
SenseVoice로 감정, 배경음, 박수, 웃음, 울음 같은 음성 이벤트를 감지합니다.
Fun-ASR-Nano의 LLM decode를 vLLM으로 가속하고 multi-GPU batch inference에 연결합니다.
OpenAI 호환 transcription endpoint를 내부 서비스와 Agent tool에 연결합니다.