gpt-4o-mini-realtime-preview
音频处理模型
GPT-4o-mini-realtime-preview 是 OpenAI 推出的 GPT-4o 系列中专为实时交互优化的轻量级模型版本,主打低成本、高效率的多模态对话能力。
核心特性 实时交互能力:该模型通过 WebSocket 长连接实现流式通信,音频输入的平均响应时间极短,支持语音打断和动态调整话题,能模拟人类对话的流畅感。
多模态处理:支持文本、音频、图像、视频四种模态的混合输入与输出,可直接通过语音提问并结合图像进行理解。
成本效益:作为 GPT-4o-realtime-preview 的轻量版,其成本可降至标准版的 1/10,同时保持语音质量,适合对成本敏感的应用场景。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
音频处理模型推荐
whisper-1
Whisper-1是OpenAI推出的Whisper语音识别模型系列中的一个通用版本,专为平衡速度与准确性而
gpt-4o-mini-tts
GPT-4o-mini-tts是OpenAI于2025年3月推出的一款先进的文本转语音(TTS)模型,旨在为AI应用提供
tts-1-hd
TTS-1-HD是OpenAI推出的文本转语音(Text-to-Speech,TTS)模型的一个版本,专注于提供更高的
tts-1
TTS-1模型是由OpenAI开发的文本转语音(TTS)系统中的核心组件,专为高效、高质量的语音合成设
gpt-4o-mini-realtime-preview
GPT-4o-mini-realtime-preview是OpenAI推出的GPT-4o系列中专为实时交互优化的轻量级模型
gpt-4o-audio-preview
GPT-4o-Audio-Preview是OpenAI推出的一款专注于语音处理的先进多模态模型,它为人机交互开辟
gpt-5-mini-minimal
GPT-5-mini是OpenAI于2025年8月8日发布的GPT-5系列中的轻量级版本,专为成本敏感和中等复杂度
gpt-4o-mini-transcribe
GPT-4o-mini-transcribe是OpenAI推出的一款专用于语音转文本(Speech-to-Text)的AI模型,是其