Core Technology

Voice API

Text-to-Speech · Speech-to-Text

음성 인식(STT) · 대화 엔진(LLM) · 음성 합성(TTS)을 하나로 묶은 실시간 Voice Agent.
일반 고객 상담 · AI 튜터·회화 교육 · 심층 인터뷰 · 음성 챗봇 등 "말을 주고받아야 하는 모든 서비스"에 곧바로 배치할 수 있는 통합 엔진입니다. 시나리오·대화 스크립트만 바꾸면 동일한 파이프라인 위에서 다른 페르소나의 에이전트가 됩니다.

적용 서비스 보기 아키텍처 보기

Core Technology

왜 핵심 기술인가?

Voice API는 단순한 음성 변환이 아닙니다. AI 서비스의 사용자 경험을 결정짓는 기반 인프라입니다.

🏗

서비스 기반 인프라

AI Agent, 챗봇, 회화 학습, 교육 콘텐츠, 브라우저 확장 등 음성이 필요한 모든 서비스가 이 API 위에서 작동합니다. API 품질이 곧 서비스 품질입니다.

⚡

실시간 스트리밍 필수

AI 1:1 회화에서 응답 지연이 1초를 넘으면 대화가 부자연스러워집니다. WebSocket 기반 스트리밍으로 <500ms 지연을 목표합니다.

🔗

내부 + 외부 API

내부 서비스 연동은 물론, 외부 고객사에게도 API를 제공하여 수익화할 수 있는 독립적인 기술 자산입니다.

Architecture

서비스 아키텍처

💬

talking.how

AI 회화

🗣

native.how

TTS B2C

🤖

AI Agent

음성 에이전트

📚

chatbot.how 외

챗봇 / 교육

API 호출

⚡

native.how / API

REST API + WebSocket Streaming

/api/v1/tts /api/v1/tts/stream /api/v1/stt/stream

래핑

☁️

Google Cloud TTS / STT API

서울 리전 (지연 최소화)

Text-to-Speech

TTS 기술 스펙

🎙

Neural TTS

WaveNet / Neural2 기반. 사람의 억양, 감정, 리듬을 자연스럽게 재현합니다.

📡

TTS Streaming

청크 단위 실시간 전송. 긴 텍스트도 첫 음성이 즉시 재생되어 대기 시간 최소화.

🌍

100+ 언어

한국어, 영어, 일본어, 중국어 등 100개 이상 언어. 각 언어별 다양한 음성 스타일 제공.

🎭

음성 커스터마이징

속도, 피치, 볼륨 조절. SSML 지원으로 강조, 휴지, 발음 세밀 제어.

📄

다양한 입력 포맷

텍스트, PDF, 웹페이지 URL 자동 파싱. SSML 마크업도 지원.

🔊

다중 출력 포맷

MP3, WAV, OGG, FLAC 등. 비트레이트와 샘플레이트 선택 가능.

Speech-to-Text

STT 기술 스펙

🎤

실시간 STT Streaming

WebSocket 기반 실시간 음성 인식. 말하는 동안 텍스트가 즉시 나타납니다.

🔄

Interim Results

인식 중간 결과를 실시간 전달. 사용자가 발화를 끝내기 전에도 응답 준비 시작 가능.

🧠

AI 기반 후처리

자동 구두점 삽입, 단어 교정, 화자 분리(Diarization) 지원.

🔇

VAD (Voice Activity)

음성 구간 자동 감지. 무음 구간에서 불필요한 처리를 줄여 효율성 극대화.

📊

신뢰도 점수

각 인식 결과에 confidence score 제공. 낮은 신뢰도 구간에 대한 재확인 로직 구현 가능.

🎯

컨텍스트 힌트

도메인 전문 용어, 고유명사를 사전 지정하여 인식 정확도를 높입니다.

Streaming Pipeline

실시간 음성 파이프라인

AI 회화, 음성 에이전트 등 실시간 음성 인터랙션의 핵심. 전체 파이프라인 지연 <1초를 목표합니다.

🎤

사용자 음성

마이크 입력

→

📡

STT Stream

실시간 인식

→

🧠

LLM 처리

대화 생성

→

🗣

TTS Stream

음성 합성

→

🔊

스피커 출력

AI 응답

전체 파이프라인 목표: < 1초

API Endpoints

REST API + WebSocket

POST /api/v1/tts 텍스트를 음성 파일로 변환

POST /api/v1/tts/stream TTS 스트리밍 (청크 단위 실시간 전송)

POST /api/v1/stt 음성 파일을 텍스트로 변환

WS /api/v1/stt/stream STT 실시간 스트리밍 (WebSocket)

GET /api/v1/voices 사용 가능한 음성 목록 조회

GET /api/v1/languages 지원 언어 목록 조회

Applied Services

적재적소에 활용되는 핵심 기술

Voice API는 특정 서비스에 국한되지 않습니다. 다양한 서비스에서 음성 기능이 필요한 곳에 범용적으로 적용됩니다.

🗣

native.how

TTS + STT API / B2C

텍스트/PDF/웹페이지를 원어민처럼 자연스럽게 읽어주는 B2C 서비스이자, 모든 서비스가 소비하는 음성 API 인프라.

방문하기 →

💬

talking.how

실시간 스트리밍 회화

STT 스트리밍 → LLM → TTS 스트리밍 풀 파이프라인. Voice API의 스트리밍 성능이 대화 품질을 결정.

방문하기 →

🤖

AI Agent

음성 기반 에이전트 인터랙션. 사용자와 음성으로 소통하는 AI 에이전트 구현.

💬

chatbot.how

메신저봇 음성 메시지 생성. TTS로 텍스트 응답을 음성으로 변환하여 전송.

📚

교육 콘텐츠

학습 자료 음성 변환. 교재, 단어장, 문제를 원어민 음성으로 자동 생성.

🧩

Browser Extension

웹 페이지 TTS 읽기. 번역된 텍스트를 원어민 발음으로 읽어주는 기능.

📋

AI Patent

특허 문서 음성 검토. 긴 명세서를 음성으로 들으면서 검토하는 워크플로우.

🏢

구축 서비스

고객사 맞춤 음성 기능 통합. API로 고객 서비스에 TTS/STT를 연동.

Voice Agent에 대해 더 알고 싶으신가요?

상담 · 교육 · 인터뷰 등 도메인별 맞춤 에이전트 구축을 상담해 드립니다.

문의하기