오픈소스 음성 이해 툴킷

FunASR

프로덕션 환경을 위한 ASR, VAD, 문장부호 복원, 화자 분리, 감정 감지, 음성 이벤트 인식을 하나의 Python 인터페이스로 제공합니다.

시작하기 모델 선택 배포 선택

funasr-pipeline.py

from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])

50+언어

170x실시간

1 API파이프라인

빠르게 시작

브라우저 데모, 로컬 API, 배포 경로를 한국어 문서에서 바로 선택할 수 있습니다.

Colab으로 체험

설치 없이 FunASR 파이프라인을 실행하고 모델 다운로드, 장치 선택, 기본 출력 형식을 확인합니다.

Colab 빠른 시작

OpenAI 호환 API

funasr-server로 로컬 전사 API를 띄우고 Agent, workflow, SDK, HTTP 클라이언트에 연결합니다.

API 예제 보기

배포 선택

Python API, Docker Compose, Kubernetes, WebSocket runtime, vLLM, MCP, 자막, batch ASR 중 가장 짧은 경로를 고릅니다.

배포 매트릭스

한국어 문서

모델 선택, 첫 실행, API 연동, 배포 판단을 한 화면에서 이어 봅니다.

개요

README

주요 모델, 빠른 시작, 벤치마크, 배포 링크를 한국어로 확인합니다.

선택

모델 선택

SenseVoice, Paraformer, Fun-ASR-Nano, OpenAI API alias 중 첫 모델을 고릅니다.

운영

배포 매트릭스

Colab, Python API, Docker, Kubernetes, WebSocket, vLLM, MCP 경로를 비교합니다.

연동

OpenAI API 예제

로컬 음성 API 서버를 실행하고 curl, SDK, workflow 클라이언트와 연결합니다.

측정

Benchmark

SenseVoice, Paraformer, Fun-ASR-Nano, Whisper 계열 모델의 GPU/CPU 결과를 비교합니다.

Agent

Agent 연동

OpenAI 호환 endpoint, MCP tool, 음성 입력, 자막 생성 흐름을 확인합니다.

주요 기능

짧은 데모부터 회의, 콜센터, 자막, 데이터셋 처리까지 같은 툴킷으로 확장합니다.

ASR

음성 인식

VAD 세그멘테이션과 함께 스트리밍 및 오프라인 ASR을 처리합니다.

50+

다국어 모델

Fun-ASR-Nano와 Qwen3-ASR 계열로 여러 언어와 자동 언어 감지를 지원합니다.

SPK

화자 분리

누가 언제 말했는지 문장 단위 출력에 화자 라벨을 붙입니다.

SFX

감정 및 이벤트

SenseVoice로 감정, 배경음, 박수, 웃음, 울음 같은 음성 이벤트를 감지합니다.

vLLM

고속 추론

Fun-ASR-Nano의 LLM decode를 vLLM으로 가속하고 multi-GPU batch inference에 연결합니다.

API

로컬 음성 API

OpenAI 호환 transcription endpoint를 내부 서비스와 Agent tool에 연결합니다.