wan2.2-s2v-detect
Aliyun模型
wan2.2-s2v-detect 是阿里云通义万相团队推出的一款专用图像检测模型,其核心功能是对输入的静态图片进行合规性检查,判断该图片是否符合 wan2.2-s2v 模型生成数字人视频的输入要求。 该模型本身不生成视频,而是作为 wan2.2-s2v 视频生成流程中的前置必要步骤,确保后续生成的质量和稳定性。
核心功能与作用
输入规范检测:wan2.2-s2v-detect 会分析上传的图片,检查其是否满足以下关键条件:
人物清晰度:图片是否足够清晰,人物面部细节是否可辨。
人物数量:图片中是否仅包含单人肖像。
人物姿态:人物是否为正面或接近正面的视角,确保面部特征完整。 图像质量:图片是否存在严重模糊、遮挡或低分辨率等问题。
流程控制:只有当 wan2.2-s2v-detect 检测结果为 check_pass: true 时,用户才能成功调用 wan2.2-s2v 模型来生成视频。如果检测不通过,API 会返回 check_pass: false,此时无法进行视频生成,但此次检测请求仍会计费。
技术细节与使用方式 API 接口:该模型通过阿里云的 API 服务提供,调用地址为 POST https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/face-detect。 输入要求:需要提供一张图片的 URL(支持 JPG、JPEG、PNG、BMP、WebP 格式)。
输出结果: check_pass: 布尔值,true 表示图片合规,false 表示不合规。 humanoid: 布尔值,表示图片中是否检测到人像。 usage.image_count: 本次请求检测的图片数量,固定为 1。
计费:无论检测是否通过,只要 API 调用成功,就会计费。当前计费单价为 0.004元/张。
地域限制:该 API 仅适用于中国内地(北京) 地域,必须使用该地域的 API Key。
与 wan2.2-s2v 的关系 wan2.2-s2v-detect 是 wan2.2-s2v 模型生态的重要组成部分。wan2.2-s2v 是一个强大的音频驱动数字人视频生成模型,能根据一张图片和一段音频生成口型、表情、动作高度同步的电影级视频。
为了确保 wan2.2-s2v 能稳定、高质量地工作,wan2.2-s2v-detect 作为“守门人”,在视频生成前对输入素材进行严格把关,从而简化了集成流程并提升了最终输出的可靠性。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
Aliyun模型推荐
wan2.2-s2v-detect
wan2.2-s2v-detect是阿里云通义万相团队推出的一款专用图像检测模型,其核心功能是对输入的
qwen-image-plus
Qwen-Image-Plus是通义千问系列中专为复杂文本渲染和高质量图像生成优化的图像生成
qwen-image-max
Qwen-Image-Max是通义千问(Qwen)系列中的旗舰级图像生成模型,专为追求极致真实感与细节表现
qwen-image-edit-plus
Qwen-Image-Edit-Plus是通义千问团队推出的先进图像编辑模型,是Qwen-Image-Edit的增强版本,
qwen-image-edit-max
Qwen-Image-Edit-Max是通义千问团队推出的旗舰级图像编辑模型,属于Qwen-Image-Edit系列的Ma
qwen-image-edit
Qwen-Image-Edit是由阿里通义千问团队推出的开源图像编辑模型,基于Qwen-Image(20B参数)
qwen3.5-plus-2026-02-15
Qwen3.5-Plus是阿里巴巴于2026年2月16日(除夕)发布的旗舰级开源大模型,属于通义千问系列的新
qwen3.5-plus
Qwen3.5-Plus是阿里巴巴于2026年2月16日(除夕)发布的旗舰级开源大模型,属于通义千问系列的新