Voice Technology
Core Technology

Voice API

Text-to-Speech · Speech-to-Text

母语级语音合成与实时流式语音识别。
AI Agent、聊天机器人、教育、对话等多种服务的核心基础技术。

Core Technology

为什么是核心技术?

Voice API不仅仅是语音转换。它是决定AI服务用户体验的基础设施。

🏗

服务基础设施

AI Agent、聊天机器人、会话学习、教育内容、浏览器扩展等所有需要语音的服务都运行在此API之上。API质量即服务质量。

实时流式传输必需

在AI一对一会话中,响应延迟超过1秒对话就会变得不自然。通过基于WebSocket的流式传输目标实现<500ms延迟。

🔗

内部+外部API

不仅用于内部服务集成,还是可以向外部客户提供API实现商业化的独立技术资产。

Architecture

服务架构

💬

talking.how

AI会话

🗣

native.how

TTS B2C

🤖

AI Agent

语音代理

📚

loa.bot 等

聊天机器人 / 教育

API调用

native.how / API

REST API + WebSocket Streaming

/api/v1/tts /api/v1/tts/stream /api/v1/stt/stream

封装

☁️

Google Cloud TTS / STT API

首尔区域(最低延迟)

Text-to-Speech

TTS技术规格

🎙

Neural TTS

基于WaveNet / Neural2。自然再现人类的语调、情感和节奏。

📡

TTS Streaming

按块实时传输。即使是长文本也能立即播放第一段语音,最小化等待时间。

🌍

100+语言

韩语、英语、日语、中文等100+种语言。每种语言提供多种语音风格。

🎭

语音定制

速度、音调、音量调节。SSML支持实现重音、停顿、发音的精细控制。

📄

多种输入格式

文本、PDF、网页URL自动解析。也支持SSML标记。

🔊

多种输出格式

MP3、WAV、OGG、FLAC等。可选择比特率和采样率。

Speech-to-Text

STT技术规格

🎤

实时STT Streaming

基于WebSocket的实时语音识别。说话时文本即时呈现。

🔄

Interim Results

实时传递识别中间结果。用户结束发言前就可以开始准备响应。

🧠

AI后处理

自动标点插入、词汇纠正、说话人分离(Diarization)支持。

🔇

VAD(Voice Activity)

自动检测语音区间。在静音区间减少不必要的处理,最大化效率。

📊

置信度评分

为每个识别结果提供Confidence Score。可对低置信度区间实现再确认逻辑。

🎯

上下文提示

预先指定领域专业术语和专有名词以提高识别准确度。

Streaming Pipeline

实时语音管道

AI会话、语音代理等实时语音交互的核心。目标全管道延迟<1秒。

🎤

用户语音

麦克风输入

📡

STT Stream

实时识别

🧠

LLM处理

对话生成

🗣

TTS Stream

语音合成

🔊

扬声器输出

AI响应

全管道目标:< 1秒
API Endpoints

REST API + WebSocket

POST /api/v1/tts
POST /api/v1/tts/stream
POST /api/v1/stt
WS /api/v1/stt/stream
GET /api/v1/voices
GET /api/v1/languages

想了解更多Voice API信息?

提供API集成、定制开发、技术合作等咨询服务。

联系我们