veo3

视频处理模型

字体:

Veo 3 是谷歌于2025年5月21日在I/O开发者大会上发布的旗舰人工智能视频生成模型,作为首款支持音画同步生成的AI视频工具,被纳入Vertex AI企业平台。该模型通过文本或图像生成包含环境音效、人物对白的高质量视频,支持生成多个创意变体与4K分辨率输出。 ‌

核心功能与技术‌: ‌音画同步生成‌:采用V2A(Video-to-Audio)技术,通过视频像素转化语义信号实现音画同步,能自动生成唇动对齐及情绪音轨,支持环境音效、人物对白的原生生成。 ‌

高分辨率与物理模拟‌:支持4K电影级画质输出,具备精确的光线模拟、真实纹理和物理运动效果(如水流、织物运动),在5x5网格迷宫任务中成功率78%。 ‌ 

多模态输入与输出‌:支持文本、图像、视频片段输入,输出格式覆盖1080P、9:16竖屏等多种分辨率和纵横比,允许用户控制视觉美感、运动强度等参数。 ‌ 

高效生成与成本优化‌:内置FAST/TURBO模式可将单段视频生成成本降低80%,生成费用从每秒0.75美元降至0.40美元,同时推出简化版Veo 3 Fast,费用降至每秒0.15美元。 ‌ ‌

版本迭代与可用性‌: ‌Veo 3.1‌:2025年10月15日发布,增强音频层次感、支持多模态输入(文本、图像、视频片段)和精细化输出控制(如720p/1080p分辨率),目前处于预览阶段,仅面向Gemini API付费用户开放。 ‌ 

开放范围‌:自2025年7月4日起面向美国地区的Google AI Pro/Ultra会员开放,Ultra会员每月可生成625段8秒视频,服务定价249.99美元;Pro会员每日限生成三段视频。企业客户可通过Vertex AI平台使用,截至2025年7月已生成超600万部影片。 ‌ ‌

应用场景与潜力‌: ‌专业创作‌:应用于影视制作(如分镜预演)、数字营销(缩短制作周期50%)、游戏开发等领域,支持从构思到成片的全流程创作。 ‌ 

通用视觉能力‌:通过“帧链”(Chain-of-Frames)机制实现零样本视觉推理,可完成迷宫求解、物体操作等复杂任务,被视为视频领域的“GPT-3时刻”,具备取代专用视觉工具的潜力。

立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能