为什么是核心技术?
Voice API不仅仅是语音转换。它是决定AI服务用户体验的基础设施。
服务基础设施
AI Agent、聊天机器人、会话学习、教育内容、浏览器扩展等所有需要语音的服务都运行在此API之上。API质量即服务质量。
实时流式传输必需
在AI一对一会话中,响应延迟超过1秒对话就会变得不自然。通过基于WebSocket的流式传输目标实现<500ms延迟。
内部+外部API
不仅用于内部服务集成,还是可以向外部客户提供API实现商业化的独立技术资产。
服务架构
talking.how
AI会话
native.how
TTS B2C
AI Agent
语音代理
loa.bot 等
聊天机器人 / 教育
API调用
native.how / API
REST API + WebSocket Streaming
封装
Google Cloud TTS / STT API
首尔区域(最低延迟)
TTS技术规格
Neural TTS
基于WaveNet / Neural2。自然再现人类的语调、情感和节奏。
TTS Streaming
按块实时传输。即使是长文本也能立即播放第一段语音,最小化等待时间。
100+语言
韩语、英语、日语、中文等100+种语言。每种语言提供多种语音风格。
语音定制
速度、音调、音量调节。SSML支持实现重音、停顿、发音的精细控制。
多种输入格式
文本、PDF、网页URL自动解析。也支持SSML标记。
多种输出格式
MP3、WAV、OGG、FLAC等。可选择比特率和采样率。
STT技术规格
实时STT Streaming
基于WebSocket的实时语音识别。说话时文本即时呈现。
Interim Results
实时传递识别中间结果。用户结束发言前就可以开始准备响应。
AI后处理
自动标点插入、词汇纠正、说话人分离(Diarization)支持。
VAD(Voice Activity)
自动检测语音区间。在静音区间减少不必要的处理,最大化效率。
置信度评分
为每个识别结果提供Confidence Score。可对低置信度区间实现再确认逻辑。
上下文提示
预先指定领域专业术语和专有名词以提高识别准确度。
实时语音管道
AI会话、语音代理等实时语音交互的核心。目标全管道延迟<1秒。
用户语音
麦克风输入
STT Stream
实时识别
LLM处理
对话生成
TTS Stream
语音合成
扬声器输出
AI响应
REST API + WebSocket
/api/v1/tts
/api/v1/tts/stream
/api/v1/stt
/api/v1/stt/stream
/api/v1/voices
/api/v1/languages
在恰当之处运用的核心技术
Voice API不局限于特定服务。在各种服务中需要语音功能的地方通用适用。