← 문서로 돌아가기
음성 인식 (STT) API
높은 정확도로 한국어 오디오를 텍스트로 변환
목차
개요
✨ 주요 특징
- • 높은 정확도의 한국어 음성 인식 및 신뢰도 점수 제공
- • 오디오 URL 및 base64 인코딩된 오디오 데이터 모두 지원
- • 단어별 상세 타임스탬프 및 신뢰도 점수 반환
높은 정확도
한국어 음성 95%+ 정확도
다국어 지원
한국어 및 영어 지원
상세한 결과
단어별 타임스탬프 및 신뢰도
빠른 시작
2. 기본 STT 요청
cURL Example
curl -X POST "https://agitvxptajouhvoatxio.supabase.co/functions/v1/stt-transcribe-v1" \
-H "Content-Type: application/json" \
-H "X-API-Key: {YOUR_API_KEY}" \
-d '{
"audio_url": "https://example.com/sample-audio.mp3",
"lang": "ko"
}'
API 엔드포인트
엔드포인트
POST https://agitvxptajouhvoatxio.supabase.co/functions/v1/stt-transcribe-v1
필수 헤더
Content-Type: application/json
X-API-Key: {YOUR_API_KEY}
요청 파라미터
{
"audio_url": "https://example.com/audio.mp3", // Audio URL 또는
"audio_data": "base64_encoded_audio...", // Base64 인코딩된 오디오 데이터
"lang": "ko" // 선택사항 (기본값: ko)
}
주의: audio_url 또는 audio_data 중 하나만 제공하세요.
응답 (성공)
{
"success": true,
"job_id": "550e8400-e29b-41d4-a716-446655440000",
"transcript": "안녕하세요, 이것은 음성 인식 테스트입니다.",
"confidence": 0.95,
"words": [
{
"word": "안녕하세요",
"start_time": 0.0,
"end_time": 0.8,
"confidence": 0.98
},
{
"word": "이것은",
"start_time": 0.9,
"end_time": 1.3,
"confidence": 0.96
}
],
"processing_time_ms": 1523
}
응답 (실패)
{
"success": false,
"error": "Audio format not supported",
"details": "Please use MP3, WAV, AAC, M4A, or FLAC format"
}
오디오 포맷
지원되는 오디오 포맷
MP3
WAV
AAC
M4A
FLAC
제한사항
- • 최대 길이: 요청당 3분
- • 지원 형식: MP3, WAV, AAC, M4A, FLAC
- • 지원 언어: 한국어 (ko), 영어 (en)
- • 게스트 사용자: 하루 10분 제한
입력 방법
오디오 URL
공개적으로 접근 가능한 오디오 파일 URL 제공
{
"audio_url": "https://example.com/audio.mp3"
}
Base64 데이터
오디오 파일을 base64로 인코딩하여 업로드
{
"audio_data": "UklGRnoGAABXQVZFZm10..."
}
음성 인식 예시
다양한 언어로 STT API를 호출하는 예시입니다. 탭을 클릭하여 언어를 전환하세요.
TypeScript Example
const response = await fetch(
'https://agitvxptajouhvoatxio.supabase.co/functions/v1/stt-transcribe-v1',
{
method: 'POST',
headers: {
'Content-Type': 'application/json',
'X-API-Key': '{YOUR_API_KEY}'
},
body: JSON.stringify({
audio_url: 'https://example.com/audio.mp3',
lang: 'ko'
})
}
);
const result = await response.json();
console.log('Transcript:', result.transcript);
console.log('Confidence:', result.confidence);