gpt-4o-mini-realtime-preview

音频处理模型

字体:

GPT-4o-mini-realtime-preview 是 OpenAI 推出的 GPT-4o 系列中专为‌实时交互‌优化的轻量级模型版本,主打‌低成本、高效率‌的多模态对话能力。 ‌ 

核心特性 ‌实时交互能力‌:该模型通过 WebSocket 长连接实现流式通信,音频输入的平均响应时间极短,支持语音打断和动态调整话题,能模拟人类对话的流畅感。 ‌ 

多模态处理‌:支持文本、音频、图像、视频四种模态的混合输入与输出,可直接通过语音提问并结合图像进行理解。 ‌ 

成本效益‌:作为 GPT-4o-realtime-preview 的轻量版,其成本可降至标准版的 1/10,同时保持语音质量,适合对成本敏感的应用场景。

立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能