wan2.2-s2v-detect

Aliyun模型

字体:

wan2.2-s2v-detect 是阿里云通义万相团队推出的一款专用图像检测模型,其核心功能是‌对输入的静态图片进行合规性检查‌,判断该图片是否符合 wan2.2-s2v 模型生成数字人视频的输入要求。 该模型本身不生成视频,而是作为 wan2.2-s2v 视频生成流程中的‌前置必要步骤‌,确保后续生成的质量和稳定性。 

核心功能与作用 ‌

输入规范检测‌:wan2.2-s2v-detect 会分析上传的图片,检查其是否满足以下关键条件:  ‌

人物清晰度‌:图片是否足够清晰,人物面部细节是否可辨。 

‌人物数量‌:图片中是否仅包含‌单人‌肖像。 ‌

人物姿态‌:人物是否为‌正面或接近正面‌的视角,确保面部特征完整。 ‌图像质量‌:图片是否存在严重模糊、遮挡或低分辨率等问题。 

‌流程控制‌:只有当 wan2.2-s2v-detect 检测结果为 check_pass: true 时,用户才能成功调用 wan2.2-s2v 模型来生成视频。如果检测不通过,API 会返回 check_pass: false,此时无法进行视频生成,但此次检测请求仍会计费。 

 技术细节与使用方式 ‌API 接口‌:该模型通过阿里云的 API 服务提供,调用地址为 POST https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/face-detect。 ‌输入要求‌:需要提供一张图片的 URL(支持 JPG、JPEG、PNG、BMP、WebP 格式)。 ‌

输出结果‌: check_pass: 布尔值,true 表示图片合规,false 表示不合规。 humanoid: 布尔值,表示图片中是否检测到人像。 usage.image_count: 本次请求检测的图片数量,固定为 1。 ‌

计费‌:无论检测是否通过,只要 API 调用成功,就会计费。当前计费单价为 ‌0.004元/张‌。‌ ‌

地域限制‌:该 API 仅适用于‌中国内地(北京)‌ 地域,必须使用该地域的 API Key。‌ 

与 wan2.2-s2v 的关系 wan2.2-s2v-detect 是 wan2.2-s2v 模型生态的重要组成部分。wan2.2-s2v 是一个强大的音频驱动数字人视频生成模型,能根据一张图片和一段音频生成口型、表情、动作高度同步的电影级视频。‌ 

为了确保 wan2.2-s2v 能稳定、高质量地工作,wan2.2-s2v-detect 作为“守门人”,在视频生成前对输入素材进行严格把关,从而简化了集成流程并提升了最终输出的可靠性。‌

立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能