왜 핵심 기술인가?
Voice API는 단순한 음성 변환이 아닙니다. AI 서비스의 사용자 경험을 결정짓는 기반 인프라입니다.
서비스 기반 인프라
AI Agent, 챗봇, 회화 학습, 교육 콘텐츠, 브라우저 확장 등 음성이 필요한 모든 서비스가 이 API 위에서 작동합니다. API 품질이 곧 서비스 품질입니다.
실시간 스트리밍 필수
AI 1:1 회화에서 응답 지연이 1초를 넘으면 대화가 부자연스러워집니다. WebSocket 기반 스트리밍으로 <500ms 지연을 목표합니다.
내부 + 외부 API
내부 서비스 연동은 물론, 외부 고객사에게도 API를 제공하여 수익화할 수 있는 독립적인 기술 자산입니다.
서비스 아키텍처
talking.how
AI 회화
native.how
TTS B2C
AI Agent
음성 에이전트
loa.bot 외
챗봇 / 교육
API 호출
native.how / API
REST API + WebSocket Streaming
래핑
Google Cloud TTS / STT API
서울 리전 (지연 최소화)
TTS 기술 스펙
Neural TTS
WaveNet / Neural2 기반. 사람의 억양, 감정, 리듬을 자연스럽게 재현합니다.
TTS Streaming
청크 단위 실시간 전송. 긴 텍스트도 첫 음성이 즉시 재생되어 대기 시간 최소화.
100+ 언어
한국어, 영어, 일본어, 중국어 등 100개 이상 언어. 각 언어별 다양한 음성 스타일 제공.
음성 커스터마이징
속도, 피치, 볼륨 조절. SSML 지원으로 강조, 휴지, 발음 세밀 제어.
다양한 입력 포맷
텍스트, PDF, 웹페이지 URL 자동 파싱. SSML 마크업도 지원.
다중 출력 포맷
MP3, WAV, OGG, FLAC 등. 비트레이트와 샘플레이트 선택 가능.
STT 기술 스펙
실시간 STT Streaming
WebSocket 기반 실시간 음성 인식. 말하는 동안 텍스트가 즉시 나타납니다.
Interim Results
인식 중간 결과를 실시간 전달. 사용자가 발화를 끝내기 전에도 응답 준비 시작 가능.
AI 기반 후처리
자동 구두점 삽입, 단어 교정, 화자 분리(Diarization) 지원.
VAD (Voice Activity)
음성 구간 자동 감지. 무음 구간에서 불필요한 처리를 줄여 효율성 극대화.
신뢰도 점수
각 인식 결과에 confidence score 제공. 낮은 신뢰도 구간에 대한 재확인 로직 구현 가능.
컨텍스트 힌트
도메인 전문 용어, 고유명사를 사전 지정하여 인식 정확도를 높입니다.
실시간 음성 파이프라인
AI 회화, 음성 에이전트 등 실시간 음성 인터랙션의 핵심. 전체 파이프라인 지연 <1초를 목표합니다.
사용자 음성
마이크 입력
STT Stream
실시간 인식
LLM 처리
대화 생성
TTS Stream
음성 합성
스피커 출력
AI 응답
REST API + WebSocket
/api/v1/tts
/api/v1/tts/stream
/api/v1/stt
/api/v1/stt/stream
/api/v1/voices
/api/v1/languages
적재적소에 활용되는 핵심 기술
Voice API는 특정 서비스에 국한되지 않습니다. 다양한 서비스에서 음성 기능이 필요한 곳에 범용적으로 적용됩니다.
native.how
TTS + STT API / B2C텍스트/PDF/웹페이지를 원어민처럼 자연스럽게 읽어주는 B2C 서비스이자, 모든 서비스가 소비하는 음성 API 인프라.
방문하기 →talking.how
실시간 스트리밍 회화STT 스트리밍 → LLM → TTS 스트리밍 풀 파이프라인. Voice API의 스트리밍 성능이 대화 품질을 결정.
방문하기 →AI Agent
음성 기반 에이전트 인터랙션. 사용자와 음성으로 소통하는 AI 에이전트 구현.
loa.bot
메신저봇 음성 메시지 생성. TTS로 텍스트 응답을 음성으로 변환하여 전송.
교육 콘텐츠
학습 자료 음성 변환. 교재, 단어장, 문제를 원어민 음성으로 자동 생성.
Browser Extension
웹 페이지 TTS 읽기. 번역된 텍스트를 원어민 발음으로 읽어주는 기능.
AI Patent
특허 문서 음성 검토. 긴 명세서를 음성으로 들으면서 검토하는 워크플로우.
구축 서비스
고객사 맞춤 음성 기능 통합. API로 고객 서비스에 TTS/STT를 연동.