Voice API (TTS/STT) - 核心语音技术

Core Technology

为什么是核心技术？

Voice API不仅仅是语音转换。它是决定AI服务用户体验的基础设施。

🏗

服务基础设施

AI Agent、聊天机器人、会话学习、教育内容、浏览器扩展等所有需要语音的服务都运行在此API之上。API质量即服务质量。

⚡

实时流式传输必需

在AI一对一会话中，响应延迟超过1秒对话就会变得不自然。通过基于WebSocket的流式传输目标实现<500ms延迟。

🔗

内部+外部API

不仅用于内部服务集成，还是可以向外部客户提供API实现商业化的独立技术资产。

Architecture

服务架构

💬

talking.how

AI会话

🗣

native.how

TTS B2C

🤖

AI Agent

语音代理

📚

loa.bot 等

聊天机器人 / 教育

API调用

⚡

native.how / API

REST API + WebSocket Streaming

/api/v1/tts /api/v1/tts/stream /api/v1/stt/stream

封装

☁️

Google Cloud TTS / STT API

首尔区域（最低延迟）

Text-to-Speech

TTS技术规格

🎙

Neural TTS

基于WaveNet / Neural2。自然再现人类的语调、情感和节奏。

📡

TTS Streaming

按块实时传输。即使是长文本也能立即播放第一段语音，最小化等待时间。

🌍

100+语言

韩语、英语、日语、中文等100+种语言。每种语言提供多种语音风格。

🎭

语音定制

速度、音调、音量调节。SSML支持实现重音、停顿、发音的精细控制。

📄

多种输入格式

文本、PDF、网页URL自动解析。也支持SSML标记。

🔊

多种输出格式

MP3、WAV、OGG、FLAC等。可选择比特率和采样率。

Speech-to-Text

STT技术规格

🎤

实时STT Streaming

基于WebSocket的实时语音识别。说话时文本即时呈现。

🔄

Interim Results

实时传递识别中间结果。用户结束发言前就可以开始准备响应。

🧠

AI后处理

自动标点插入、词汇纠正、说话人分离（Diarization）支持。

🔇

VAD（Voice Activity）

自动检测语音区间。在静音区间减少不必要的处理，最大化效率。

📊

置信度评分

为每个识别结果提供Confidence Score。可对低置信度区间实现再确认逻辑。

🎯

上下文提示

预先指定领域专业术语和专有名词以提高识别准确度。

Streaming Pipeline

实时语音管道

AI会话、语音代理等实时语音交互的核心。目标全管道延迟<1秒。

🎤

用户语音

麦克风输入

→

📡

STT Stream

实时识别

→

🧠

LLM处理

对话生成

→

🗣

TTS Stream

语音合成

→

🔊

扬声器输出

AI响应

全管道目标：< 1秒

API Endpoints

REST API + WebSocket

POST /api/v1/tts 将文本转换为音频文件

POST /api/v1/tts/stream TTS流式传输（按块实时发送）

POST /api/v1/stt 将音频文件转换为文本

WS /api/v1/stt/stream STT实时流式传输（WebSocket）

GET /api/v1/voices 查询可用语音列表

GET /api/v1/languages 查询支持语言列表

Applied Services

在恰当之处运用的核心技术

Voice API不局限于特定服务。在各种服务中需要语音功能的地方通用适用。

🗣

native.how

TTS + STT API / B2C

像母语者一样自然地朗读文本/PDF/网页的B2C服务，同时也是所有服务使用的语音API基础设施。

访问 →

💬

talking.how

实时流式会话

STT Streaming → LLM → TTS Streaming全管道。Voice API的流式性能决定对话质量。

访问 →

🤖

AI Agent

基于语音的代理交互。实现通过语音与用户沟通的AI代理。

💬

loa.bot

聊天机器人语音消息生成。通过TTS将文本回复转换为语音发送。

📚

教育内容

学习资料语音转换。自动生成教材、词汇本、习题的母语者语音。

🧩

Browser Extension

网页TTS朗读。以母语发音朗读翻译后的文本。

📋

AI Patent

专利文档语音审查。通过语音听取长篇说明书进行审查的工作流。

🏢

定制开发

为客户定制集成语音功能。通过API将TTS/STT连接到客户服务。

想了解更多Voice API信息？

提供API集成、定制开发、技术合作等咨询服务。

联系我们