阿里巴巴通义万相视频支持的模型详解
视频局部编辑:替换视频中的主体或衣服、删除路人等。
视频延展:把视频延长,如1秒视频延长为5秒。
视频画面扩展:横屏变竖屏、补全边界。
多图参考生成:融合背景图像和主体图像生成视频。
首选万相-数字人,效果自然,含表情和肢体动作(替代悦动人像EMO)。
当需要长视频(>20秒)且头部动作简单(如新闻播报)时,考虑使用灵动人像LivePortrait。
需要将文字转化为视频时,使用万相-文生视频。
有一张图,想生成电影感镜头,使用万相-图生视频-基于首帧。
有开头和结尾两张图,要控制画面变化过程,使用万相-图生视频-基于首尾帧。
有多个视频,想复刻角色的形象和声音表演新剧本,使用万相-参考生视频。
通用视频生成
数字人对口型:让静态照片说话、唱歌或播报。背景保持不变,仅主体面部、头部和肢体运动。
视频动作迁移:保留照片背景,让照片的人参考指定视频动起来,使用万相-图生动作。
视频换人:保留视频背景,把视频的人换成指定图像的人,使用万相-视频换人。
跳舞换人:把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-图生动作(效果佳);若预算有限,可选舞动人像AnimateAnyone(性价比高)。
视频口型替换:给已有视频改配音口型,使用声动人像VideoRetalk。
表情包制作:制作固定风格模板的表情包,使用表情包Emoji。
视频重绘:固定风格模板使用视频风格重绘,通过提示词自由描述风格使用万相-通用视频编辑。
视频编辑:以下需求均选择万相-通用视频编辑。
模型选型
支持的模型
万相-文生视频
根据文本提示词生成视频。支持输入文本+音频,输出电影级多镜头视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-t2v | 有声视频 多镜头叙事、声画同步 | 文本、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-t2v-preview | 有声视频 声画同步 | 文本、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-t2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-turbo | 无声视频 | 文本 | 分辨率档位:480P、720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-t2v-plus | 无声视频 | 文本 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
万相-图生视频-基于首帧
根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频,输出电影级多镜头视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
万相-图生视频-基于首尾帧
根据给定的首帧图像和尾帧图像,生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频,输出电影级多镜头视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-kf2v-flash | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
wanx2.1-kf2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4(H.264编码) |
万相-参考生视频
复刻视频中的角色的形象和声音表演新剧本。输入视频+文本提示词,输出视频在保持角色一致性的同时,生成多镜头、声画同步的视频。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-r2v-flash | 有声视频、无声视频 单角色/多角色生视频 多镜头叙事、声画同步 生成速度更快,性价比高 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 单角色/多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
万相-通用视频编辑
视频编辑通用模型。支持输入文本、图像、视频多模态数据,可执行多种视频生成与编辑任务。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wanx2.1-vace-plus | 无声视频 多图参考、视频重绘、局部编辑、视频延展、视频画面扩展 | 文本、图像、视频 | 分辨率档位:720P 视频时长:不超过5s 固定规格:30fps、MP4(H.264编码) |
万相-数字人
图生唱演和播报视频:让图像中人或卡通形象说话、唱歌、播报或表演。输入图像 + 音频,输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。
模型名称 | 能力支持 | 输入模态 | 输出说明 |
wan2.2-s2v-detect | 图像检测 | 图像 | 输出检测状态:通过或未通过 |
wan2.2-s2v | 视频生成 有声视频 | 图像、音频 | 分辨率档位:480P、720P 视频时长:不超过20s(跟随音频时长) 固定规格:
|
万相-图生动作
让图像的人参考视频动起来。输入图像 + 视频,输出的视频保持图像背景不变,参考视频做动作。
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.2-animate-move | 有声视频、无声视频(跟随输入视频而定)
| 图像、视频 | 分辨率档位:720P 视频时长:2s<时长<30s 固定规格:
|