Voice API
Text-to-Speech · Speech-to-Text
ネイティブレベルの音声合成とリアルタイムストリーミング音声認識。
AI Agent、チャットボット、教育、会話など多様なサービスの基盤となるコア技術です。
なぜコア技術なのか?
Voice APIは単なる音声変換ではありません。AIサービスのユーザー体験を決定づける基盤インフラです。
サービス基盤インフラ
AI Agent、チャットボット、会話学習、教育コンテンツ、ブラウザ拡張機能など音声が必要なすべてのサービスがこのAPI上で動作します。API品質がサービス品質に直結します。
リアルタイムストリーミング必須
AI 1対1会話で応答遅延が1秒を超えると対話が不自然になります。WebSocketベースのストリーミングで500ms未満の遅延を目標にします。
内部 + 外部API
内部サービス連携はもちろん、外部のお客様にもAPIを提供して収益化できる独立した技術資産です。
サービスアーキテクチャ
talking.how
AI会話
native.how
TTS B2C
AI Agent
音声エージェント
loa.bot 他
チャットボット / 教育
API呼び出し
native.how / API
REST API + WebSocket Streaming
ラッピング
Google Cloud TTS / STT API
ソウルリージョン(遅延最小化)
TTS技術スペック
Neural TTS
WaveNet / Neural2ベース。人間のイントネーション、感情、リズムを自然に再現します。
TTS Streaming
チャンク単位のリアルタイム転送。長いテキストも最初の音声が即座に再生され、待ち時間を最小化。
100+言語
韓国語、英語、日本語、中国語など100以上の言語。各言語別に多様な音声スタイルを提供。
音声カスタマイズ
速度、ピッチ、ボリューム調整。SSMLサポートで強調、休止、発音を細かく制御。
多様な入力フォーマット
テキスト、PDF、WebページURL自動パース。SSMLマークアップもサポート。
多様な出力フォーマット
MP3、WAV、OGG、FLACなど。ビットレートとサンプルレートの選択可能。
STT技術スペック
リアルタイムSTT Streaming
WebSocketベースのリアルタイム音声認識。話している間にテキストが即座に表示されます。
Interim Results
認識の中間結果をリアルタイムで配信。ユーザーが発話を終える前に応答準備を開始可能。
AI後処理
自動句読点挿入、単語補正、話者分離(Diarization)サポート。
VAD(Voice Activity)
音声区間の自動検知。無音区間での不要な処理を減らして効率を最大化。
信頼度スコア
各認識結果にConfidence Scoreを提供。低信頼度区間に対する再確認ロジックの実装が可能。
コンテキストヒント
ドメイン専門用語、固有名詞を事前指定して認識精度を向上させます。
リアルタイム音声パイプライン
AI会話、音声エージェントなどリアルタイム音声インタラクションのコア。全パイプライン遅延1秒未満を目標にします。
ユーザー音声
マイク入力
STT Stream
リアルタイム認識
LLM処理
対話生成
TTS Stream
音声合成
スピーカー出力
AI応答
REST API + WebSocket
/api/v1/tts
/api/v1/tts/stream
/api/v1/stt
/api/v1/stt/stream
/api/v1/voices
/api/v1/languages
適材適所で活用されるコア技術
Voice APIは特定のサービスに限定されません。多様なサービスで音声機能が必要な場所に汎用的に適用されます。
native.how
TTS + STT API / B2Cテキスト/PDF/Webページをネイティブのように自然に読み上げるB2Cサービスであり、すべてのサービスが利用する音声APIインフラ。
訪問する →talking.how
リアルタイムストリーミング会話STTストリーミング → LLM → TTSストリーミングのフルパイプライン。Voice APIのストリーミング性能が会話品質を決定します。
訪問する →AI Agent
音声ベースのエージェントインタラクション。ユーザーと音声でコミュニケーションするAIエージェントの実装。
loa.bot
メッセンジャーボットの音声メッセージ生成。TTSでテキスト応答を音声に変換して送信。
教育コンテンツ
学習資料の音声変換。教材、単語帳、問題をネイティブ音声で自動生成。
Browser Extension
WebページTTS読み上げ。翻訳されたテキストをネイティブ発音で読み上げる機能。
AI Patent
特許文書の音声レビュー。長い明細書を音声で聞きながらレビューするワークフロー。
カスタム開発
お客様向けカスタム音声機能統合。APIでお客様サービスにTTS/STTを連携。