gpt-4o-mini-realtime-preview

音频处理模型

字体：大中小

实时交互‌

GPT-4o-mini-realtime-preview 是 OpenAI 推出的 GPT-4o 系列中专为‌实时交互‌优化的轻量级模型版本，主打‌低成本、高效率‌的多模态对话能力。 ‌

核心特性 ‌实时交互能力‌：该模型通过 WebSocket 长连接实现流式通信，音频输入的平均响应时间极短，支持语音打断和动态调整话题，能模拟人类对话的流畅感。 ‌

多模态处理‌：支持文本、音频、图像、视频四种模态的混合输入与输出，可直接通过语音提问并结合图像进行理解。 ‌

成本效益‌：作为 GPT-4o-realtime-preview 的轻量版，其成本可降至标准版的 1/10，同时保持语音质量，适合对成本敏感的应用场景。

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

Whisper-1是OpenAI推出的Whisper语音识别模型系列中的一个通用版本，专为平衡速度与准确性而

GPT-4o-mini-tts是OpenAI于2025年3月推出的一款先进的文本转语音（TTS）模型，旨在为AI应用提供

TTS-1-HD是OpenAI推出的文本转语音（Text-to-Speech,TTS）模型的一个版本，专注于提供‌更高的

TTS-1模型是由OpenAI开发的文本转语音（TTS）系统中的核心组件，专为高效、高质量的语音合成设

GPT-4o-mini-realtime-preview是OpenAI推出的GPT-4o系列中专为‌实时交互‌优化的轻量级模型

GPT-4o-Audio-Preview是OpenAI推出的一款专注于语音处理的先进多模态模型，它为人机交互开辟

GPT-5-mini是OpenAI于2025年8月8日发布的GPT-5系列中的轻量级版本，专为成本敏感和中等复杂度

GPT-4o-mini-transcribe是OpenAI推出的一款专用于语音转文本（Speech-to-Text）的AI模型，是其