veo3
视频处理模型
Veo 3 是谷歌于2025年5月21日在I/O开发者大会上发布的旗舰人工智能视频生成模型,作为首款支持音画同步生成的AI视频工具,被纳入Vertex AI企业平台。该模型通过文本或图像生成包含环境音效、人物对白的高质量视频,支持生成多个创意变体与4K分辨率输出。
核心功能与技术: 音画同步生成:采用V2A(Video-to-Audio)技术,通过视频像素转化语义信号实现音画同步,能自动生成唇动对齐及情绪音轨,支持环境音效、人物对白的原生生成。
高分辨率与物理模拟:支持4K电影级画质输出,具备精确的光线模拟、真实纹理和物理运动效果(如水流、织物运动),在5x5网格迷宫任务中成功率78%。
多模态输入与输出:支持文本、图像、视频片段输入,输出格式覆盖1080P、9:16竖屏等多种分辨率和纵横比,允许用户控制视觉美感、运动强度等参数。
高效生成与成本优化:内置FAST/TURBO模式可将单段视频生成成本降低80%,生成费用从每秒0.75美元降至0.40美元,同时推出简化版Veo 3 Fast,费用降至每秒0.15美元。
版本迭代与可用性: Veo 3.1:2025年10月15日发布,增强音频层次感、支持多模态输入(文本、图像、视频片段)和精细化输出控制(如720p/1080p分辨率),目前处于预览阶段,仅面向Gemini API付费用户开放。
开放范围:自2025年7月4日起面向美国地区的Google AI Pro/Ultra会员开放,Ultra会员每月可生成625段8秒视频,服务定价249.99美元;Pro会员每日限生成三段视频。企业客户可通过Vertex AI平台使用,截至2025年7月已生成超600万部影片。
应用场景与潜力: 专业创作:应用于影视制作(如分镜预演)、数字营销(缩短制作周期50%)、游戏开发等领域,支持从构思到成片的全流程创作。
通用视觉能力:通过“帧链”(Chain-of-Frames)机制实现零样本视觉推理,可完成迷宫求解、物体操作等复杂任务,被视为视频领域的“GPT-3时刻”,具备取代专用视觉工具的潜力。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能