llama-3.2-90b-vision-instruct

Llama模型

字体:

‌Llama-3.2-90B-Vision-Instruct‌ 是 Meta 于 2024 年 9 月发布的 Llama 3.2 系列中最大、最强大的多模态模型,专为处理图像与文本联合输入的任务而设计。以下是其核心特性与能力介绍:


‌基本参数与架构‌

  • ‌参数规模‌:900 亿(90B),基于 Llama 3.1 70B 文本模型构建。

  • ‌多模态能力‌:首次在 Llama 系列中引入图像理解能力,支持“图像 + 文本”输入,输出为文本。

  • ‌视觉适配机制‌:通过交叉注意力层组成的适配器,将预训练图像编码器与冻结的文本语言模型对齐,保持纯文本性能的同时新增视觉推理能力。

  • ‌上下文长度‌:支持长达 ‌128K token‌,适用于长文档、多轮对话等复杂场景。

  • ‌训练数据‌:在包含 ‌60 亿图文对‌ 的多样化数据集上预训练,涵盖噪声数据与高质量领域内数据。


‌核心能力与应用场景‌

  • ‌图表与文档理解‌:可解析统计图、流程图、表格等,回答如“去年哪个月销售最好?”等问题。

  • ‌视觉定位(Visual Grounding)‌:根据自然语言描述定位图像中的对象(如“找出图中的猫”)。

  • ‌图像描述生成‌:自动生成图像标题或详细说明。

  • ‌OCR 与手写识别‌:支持从图像中提取文本,包括手写体。

  • ‌高分辨率图像处理‌:可处理高达 ‌1120×1120 像素‌ 的图像。


性能表现(关键基准测试)

任务指标Llama-3.2-90B-Vision-Instruct
ChartQA‌(图表问答)准确率媲美 GPT-4o
AI2D‌(科学图表理解)准确率超越 Claude 3 Opus 和 Gemini 1.5 Pro
DocVQA‌(文档视觉问答)ANLS90.1%(测试集)
MMMU‌(多学科多模态理解)微平均准确率60.3%(CoT)
VQAv2‌(通用视觉问答)准确率78.1%(测试集)

注:在仅文本模式下,其能力与 Llama 3.1 70B 相当,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语等 8 种语言,并支持更多语言的微调 ‌12


立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能