阿里巴巴通义万相视频支持的模型详解

2026年03月02日字体：大中小

视频局部编辑：替换视频中的主体或衣服、删除路人等。
视频延展：把视频延长，如1秒视频延长为5秒。
视频画面扩展：横屏变竖屏、补全边界。
多图参考生成：融合背景图像和主体图像生成视频。
首选万相-数字人，效果自然，含表情和肢体动作（替代悦动人像EMO）。
当需要长视频（>20秒）且头部动作简单（如新闻播报）时，考虑使用灵动人像LivePortrait。
需要将文字转化为视频时，使用万相-文生视频。
有一张图，想生成电影感镜头，使用万相-图生视频-基于首帧。
有开头和结尾两张图，要控制画面变化过程，使用万相-图生视频-基于首尾帧。
有多个视频，想复刻角色的形象和声音表演新剧本，使用万相-参考生视频。
通用视频生成
数字人对口型：让静态照片说话、唱歌或播报。背景保持不变，仅主体面部、头部和肢体运动。
视频动作迁移：保留照片背景，让照片的人参考指定视频动起来，使用万相-图生动作。
视频换人：保留视频背景，把视频的人换成指定图像的人，使用万相-视频换人。
跳舞换人：把跳舞视频的人换成图像的人。推荐选择万相-图生动作和万相-图生动作（效果佳）；若预算有限，可选舞动人像AnimateAnyone（性价比高）。
视频口型替换：给已有视频改配音口型，使用声动人像VideoRetalk。
表情包制作：制作固定风格模板的表情包，使用表情包Emoji。
视频重绘：固定风格模板使用视频风格重绘，通过提示词自由描述风格使用万相-通用视频编辑。
视频编辑：以下需求均选择万相-通用视频编辑。

模型选型

支持的模型

万相-文生视频

根据文本提示词生成视频。支持输入文本+音频，输出电影级多镜头视频。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-t2v `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-t2v-preview `推荐`	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)

万相-图生视频-基于首帧

根据给定的首帧图像生成视频。支持输入文本+首帧图像+音频，输出电影级多镜头视频。

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

万相-图生视频-基于首尾帧

根据给定的首帧图像和尾帧图像，生成过渡自然的视频。支持输入文本+首帧图像+尾帧图像+音频，输出电影级多镜头视频。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-kf2v-flash 推荐

无声视频

较2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位：480P、720P、1080P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

wanx2.1-kf2v-plus

无声视频

文本、图像

分辨率档位：720P

视频时长：5s

固定规格：30fps、MP4（H.264编码）

万相-参考生视频

复刻视频中的角色的形象和声音表演新剧本。输入视频+文本提示词，输出视频在保持角色一致性的同时，生成多镜头、声画同步的视频。

模型名称

能力支持

输入模态

输出视频规格

wan2.6-r2v-flash 推荐

有声视频、无声视频

单角色/多角色生视频

多镜头叙事、声画同步

生成速度更快，性价比高

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

wan2.6-r2v

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位：720P、1080P

视频时长：[2s, 10s]（整数）

固定规格：30fps、MP4（H.264编码）

万相-通用视频编辑

视频编辑通用模型。支持输入文本、图像、视频多模态数据，可执行多种视频生成与编辑任务。

模型名称

能力支持

输入模态

输出视频规格

wanx2.1-vace-plus

无声视频

多图参考、视频重绘、局部编辑、视频延展、视频画面扩展

文本、图像、视频

分辨率档位：720P

视频时长：不超过5s

固定规格：30fps、MP4（H.264编码）

万相-数字人

图生唱演和播报视频：让图像中人或卡通形象说话、唱歌、播报或表演。输入图像 + 音频，输出视频自动为人物或卡通形象匹配口型、面部表情、头部及身体动作。

模型名称

能力支持

输入模态

输出说明

wan2.2-s2v-detect

图像检测

图像

输出检测状态：通过或未通过

wan2.2-s2v

视频生成

有声视频

图像、音频

分辨率档位：480P、720P

视频时长：不超过20s（跟随音频时长）

固定规格：

480P：16fps、MP4（H.264编码）
720P：30fps、MP4（H.264编码）

万相-图生动作

让图像的人参考视频动起来。输入图像 + 视频，输出的视频保持图像背景不变，参考视频做动作。

模型名称

能力支持

输入模态

输出视频规格

wan2.2-animate-move

有声视频、无声视频（跟随输入视频而定）

标准模式wan-std：生成速度快，性价比高
专业模式wan-pro：效果更接近真实拍摄

图像、视频

分辨率档位：720P

视频时长：2s＜时长＜30s

固定规格：

标准模式wan-std：15fps、MP4（H.264编码）
专业模式wan-pro：25fps、MP4（H.264编码）

模型选型

支持的模型

万相-文生视频

万相-图生视频-基于首帧

万相-图生视频-基于首尾帧

万相-参考生视频

万相-通用视频编辑

万相-数字人

万相-图生动作