오픈소스 음성 이해 툴킷

FunASR

프로덕션 환경을 위한 ASR, VAD, 문장부호 복원, 화자 분리, 감정 감지, 음성 이벤트 인식을 하나의 Python 인터페이스로 제공합니다.

PyPI Stars License
funasr-pipeline.py
from funasr import AutoModel

model = AutoModel(
    model="paraformer-zh",
    vad_model="fsmn-vad",
    punc_model="ct-punc",
    spk_model="cam++",
)
res = model.generate(input="meeting.wav")
print(res[0]["sentence_info"])
50+언어
170x실시간
1 API파이프라인

빠르게 시작

브라우저 데모, 로컬 API, 배포 경로를 한국어 문서에서 바로 선택할 수 있습니다.

Colab으로 체험

설치 없이 FunASR 파이프라인을 실행하고 모델 다운로드, 장치 선택, 기본 출력 형식을 확인합니다.

Colab 빠른 시작

OpenAI 호환 API

funasr-server로 로컬 전사 API를 띄우고 Agent, workflow, SDK, HTTP 클라이언트에 연결합니다.

API 예제 보기

배포 선택

Python API, Docker Compose, Kubernetes, WebSocket runtime, vLLM, MCP, 자막, batch ASR 중 가장 짧은 경로를 고릅니다.

배포 매트릭스

한국어 문서

모델 선택, 첫 실행, API 연동, 배포 판단을 한 화면에서 이어 봅니다.

주요 기능

짧은 데모부터 회의, 콜센터, 자막, 데이터셋 처리까지 같은 툴킷으로 확장합니다.

ASR

음성 인식

VAD 세그멘테이션과 함께 스트리밍 및 오프라인 ASR을 처리합니다.

50+

다국어 모델

Fun-ASR-Nano와 Qwen3-ASR 계열로 여러 언어와 자동 언어 감지를 지원합니다.

SPK

화자 분리

누가 언제 말했는지 문장 단위 출력에 화자 라벨을 붙입니다.

SFX

감정 및 이벤트

SenseVoice로 감정, 배경음, 박수, 웃음, 울음 같은 음성 이벤트를 감지합니다.

vLLM

고속 추론

Fun-ASR-Nano의 LLM decode를 vLLM으로 가속하고 multi-GPU batch inference에 연결합니다.

API

로컬 음성 API

OpenAI 호환 transcription endpoint를 내부 서비스와 Agent tool에 연결합니다.