DIVE
DIVE Standard
최고급 음성 합성 기술로 사람과 구별할 수 없는 자연스러운 음성을 생성하세요
DIVE(Deep Immersive Voice Engine)는 자연스러운 한국어 음성을 안정적으로 만들어 주는 음성 합성 서비스입니다. 방송, 오디오북, 광고 나레이션처럼 높은 품질이 필요한 제작 환경에 맞춰 설계되었습니다.
스튜디오급 48kHz 고품질 오디오
사람과 구별 불가능한 자연스러운 발음
섬세한 감정과 뉘앙스 표현
POST https://agitvxptajouhvoatxio.supabase.co/functions/v1/dive-synthesize-v1
요청 파라미터
공통 파라미터
| 파라미터 | 타입 | 설명 | 필수 |
|---|---|---|---|
| text | string | 변환할 텍스트 (최대 720자) | ✓ |
| mode | string | "preset" 또는 "saved" (기본값: "preset") | |
| lang | string | 언어 코드 (기본값: "ko") | |
| outputFormat | string | wav_8000wav_16000wav_24000wav_48000pcm_8000pcm_16000pcm_24000pcm_48000opus_48000_32opus_48000_64opus_48000_96opus_48000_128mp3_22050_48mp3_24000_64mp3_44100_96mp3_48000_128aac_48000_128alaw_8000ulaw_8000 기본값: "wav_48000" | |
| rawData | boolean | rawData (boolean, 기본값: false) — true로 설정하면 오디오 URL 대신 원시 오디오 데이터를 반환 | |
| volume | number | 볼륨 조절 (number, 1~100, 기본값: 50) | |
| speed | number | 속도 조절 (number, 0.5~2.0, 소수 둘째 자리까지 허용, 기본값: 1.00) | |
| pitch | number | 음높이 조절 (number, -6.0~+6.0, 소수 첫째 자리까지 허용, 기본값: 0.0) |
ℹ️ mp3, wav, pcm, opus, aac 키워드를 보내면 각각 mp3_48000_128, wav_48000, pcm_48000, opus_48000_96, aac_48000_128로 자동 변환됩니다.
💡 mode에 따라 추가 파라미터가 달라집니다.
mode: presetPreset 모드
기본 제공되는 음성을 사용합니다.
| 파라미터 | 타입 | 설명 | 필수 |
|---|---|---|---|
| voiceName | string | 음성 이름 (예: "시아", "민준") | ✓ |
| emotion | string | neutral | angry | sad | happy | calm | ✓ |
mode: savedSaved 모드
사용자가 저장한 목소리를 사용합니다.
| 파라미터 | 타입 | 설명 | 필수 |
|---|---|---|---|
| savedVoiceId | string | 저장된 목소리 ID (UUID) | ✓ |
참고: savedVoiceId는 콘솔 Playground에서 목소리를 저장할 때 생성됩니다. 간단한 UUID만으로 저장된 목소리를 사용할 수 있습니다.
응답 형식
{
"jobId": "550e8400-e29b-41d4-a716-446655440000",
"audioUrl": "https://download-example.output/generated.wav",
"outputFormat": "wav_48000"
}지원 음성
DIVE는 다양한 연령, 톤, 스타일의 고품질 한국어 음성을 제공합니다. 각 음성은 서로 다른 감정 표현을 지원합니다.
감정 지원 표시:
여성 음성
남성 음성
⚠️ 일부 음성은 제한된 감정만 지원합니다:
- • 도금봉: calm 미지원
- • 자비왕후: calm, sad 미지원
- • 강남: sad 미지원
- • 아라곤: sad 미지원
💡 사용법: voiceName과 emotion 파라미터를 함께 사용하세요.
예: "voiceName": "시아", "emotion": "neutral"
감정 표현 상세
neutral
중립적
happy
밝고 즐거운
sad
차분하고 슬픈
angry
강렬하고 단호한
calm
차분하고 침착한
다양한 언어로 DIVE API를 호출하는 예시입니다. 모드와 언어를 선택하세요.
const response = await fetch('https://agitvxptajouhvoatxio.supabase.co/functions/v1/dive-synthesize-v1', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
'X-API-Key': '{YOUR_API_KEY}'
},
body: JSON.stringify({
text: "안녕하세요. 프리미엄 음성 합성 DIVE입니다.",
mode: "preset",
voiceName: "시아",
emotion: "neutral",
lang: "ko"
})
});
const data = await response.json();
console.log('Audio URL:', data.audioUrl);