wan2.2-s2v-detect

Aliyun模型

字体：大中小

图像检测

wan2.2-s2v-detect 是阿里云通义万相团队推出的一款专用图像检测模型，其核心功能是‌对输入的静态图片进行合规性检查‌，判断该图片是否符合 wan2.2-s2v 模型生成数字人视频的输入要求。该模型本身不生成视频，而是作为 wan2.2-s2v 视频生成流程中的‌前置必要步骤‌，确保后续生成的质量和稳定性。

核心功能与作用 ‌

输入规范检测‌：wan2.2-s2v-detect 会分析上传的图片，检查其是否满足以下关键条件： ‌

人物清晰度‌：图片是否足够清晰，人物面部细节是否可辨。

‌人物数量‌：图片中是否仅包含‌单人‌肖像。 ‌

人物姿态‌：人物是否为‌正面或接近正面‌的视角，确保面部特征完整。 ‌图像质量‌：图片是否存在严重模糊、遮挡或低分辨率等问题。

‌流程控制‌：只有当 wan2.2-s2v-detect 检测结果为 check_pass: true 时，用户才能成功调用 wan2.2-s2v 模型来生成视频。如果检测不通过，API 会返回 check_pass: false，此时无法进行视频生成，但此次检测请求仍会计费。

技术细节与使用方式 ‌API 接口‌：该模型通过阿里云的 API 服务提供，调用地址为 POST https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/face-detect。 ‌输入要求‌：需要提供一张图片的 URL（支持 JPG、JPEG、PNG、BMP、WebP 格式）。 ‌

输出结果‌： check_pass: 布尔值，true 表示图片合规，false 表示不合规。 humanoid: 布尔值，表示图片中是否检测到人像。 usage.image_count: 本次请求检测的图片数量，固定为 1。 ‌

计费‌：无论检测是否通过，只要 API 调用成功，就会计费。当前计费单价为 ‌0.004元/张‌。‌ ‌

地域限制‌：该 API 仅适用于‌中国内地（北京）‌ 地域，必须使用该地域的 API Key。‌

与 wan2.2-s2v 的关系 wan2.2-s2v-detect 是 wan2.2-s2v 模型生态的重要组成部分。wan2.2-s2v 是一个强大的音频驱动数字人视频生成模型，能根据一张图片和一段音频生成口型、表情、动作高度同步的电影级视频。‌

为了确保 wan2.2-s2v 能稳定、高质量地工作，wan2.2-s2v-detect 作为“守门人”，在视频生成前对输入素材进行严格把关，从而简化了集成流程并提升了最终输出的可靠性。‌

立即使用大模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

Aliyun模型推荐

wan2.2-s2v-detect

wan2.2-s2v-detect是阿里云通义万相团队推出的一款专用图像检测模型，其核心功能是‌对输入的

qwen-image-plus

Qwen-Image-Plus是通义千问系列中专为‌复杂文本渲染‌和‌高质量图像生成‌优化的图像生成

qwen-image-max

Qwen-Image-Max是通义千问（Qwen）系列中的旗舰级图像生成模型，专为追求极致真实感与细节表现

qwen-image-edit-plus

Qwen-Image-Edit-Plus是通义千问团队推出的先进图像编辑模型，是Qwen-Image-Edit的增强版本，

qwen-image-edit-max

Qwen-Image-Edit-Max是通义千问团队推出的旗舰级图像编辑模型，属于Qwen-Image-Edit系列的Ma

qwen-image-edit

Qwen-Image-Edit‌是由阿里通义千问团队推出的开源图像编辑模型，基于‌Qwen-Image（20B参数）

qwen3.5-plus-2026-02-15

Qwen3.5-Plus是阿里巴巴于2026年2月16日（除夕）发布的旗舰级开源大模型，属于通义千问系列的新

qwen3.5-plus

Qwen3.5-Plus是阿里巴巴于2026年2月16日（除夕）发布的旗舰级开源大模型，属于通义千问系列的新