llama-3.2-90b-vision-instruct

Llama模型

字体：大中小

‌Llama-3.2-90B-Vision-Instruct‌ 是 Meta 于 2024 年 9 月发布的 Llama 3.2 系列中最大、最强大的多模态模型，专为处理图像与文本联合输入的任务而设计。以下是其核心特性与能力介绍：

‌基本参数与架构‌

‌参数规模‌：900 亿（90B），基于 Llama 3.1 70B 文本模型构建。
‌多模态能力‌：首次在 Llama 系列中引入图像理解能力，支持“图像 + 文本”输入，输出为文本。
‌视觉适配机制‌：通过交叉注意力层组成的适配器，将预训练图像编码器与冻结的文本语言模型对齐，保持纯文本性能的同时新增视觉推理能力。
‌上下文长度‌：支持长达 ‌128K token‌，适用于长文档、多轮对话等复杂场景。
‌训练数据‌：在包含 ‌60 亿图文对‌ 的多样化数据集上预训练，涵盖噪声数据与高质量领域内数据。

‌核心能力与应用场景‌

‌图表与文档理解‌：可解析统计图、流程图、表格等，回答如“去年哪个月销售最好？”等问题。
‌视觉定位（Visual Grounding）‌：根据自然语言描述定位图像中的对象（如“找出图中的猫”）。
‌图像描述生成‌：自动生成图像标题或详细说明。
‌OCR 与手写识别‌：支持从图像中提取文本，包括手写体。
‌高分辨率图像处理‌：可处理高达 ‌1120×1120 像素‌ 的图像。

‌性能表现（关键基准测试）‌

任务	指标	Llama-3.2-90B-Vision-Instruct
‌ChartQA‌（图表问答）	准确率	‌媲美 GPT-4o‌
‌AI2D‌（科学图表理解）	准确率	‌超越 Claude 3 Opus 和 Gemini 1.5 Pro‌
‌DocVQA‌（文档视觉问答）	ANLS	‌90.1%（测试集）‌
‌MMMU‌（多学科多模态理解）	微平均准确率	‌60.3%（CoT）‌
‌VQAv2‌（通用视觉问答）	准确率	‌78.1%（测试集）‌

注：在仅文本模式下，其能力与 Llama 3.1 70B 相当，支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语等 8 种语言，并支持更多语言的微调 ‌12。

立即使用大模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

Llama模型推荐

llama-3.3-70b-instruct-fp8-fas

Llama3.3-70B-Instruct-FP8-Fast是Meta推出的Llama3.3系列中一个经过优化的指令微调版本，专

llama-3.2-90b-vision-instruct

‌Llama-3.2-90B-Vision-Instruct‌是Meta于2024年9月发布的Llama3.2系列中最大、最强大的多

llama-3.2-3b-instruct

‌Llama-3.2-3B-Instruct‌是Meta推出的Llama3.2系列中的一款轻量级、指令微调的纯文本大语

llama-3.1-8b-instruct

Llama-3.1-8B-Instruct‌是由Meta于‌2024年7月23日‌发布的Llama3.1系列中的一个开源大语言

llama-3.1-405b

‌Llama-3.1-405B‌是由Meta（原Facebook）于‌2024年7月23日‌正式发布的开源大语言模型，属于

llama-3-sonar-small-32k-online

llama-3-sonar-small-32k-online是由PerplexityAI提供的一种基于Meta的Llama3系列的大型语言

llama-3-sonar-small-32k-chat

‌Llama-3-Sonar-Small-32k-Chat‌是由PerplexityAI推出的基于MetaLlama-3系列的对话优化模

llama-3-sonar-large-32k-online

Llama-3-Sonar-Large-32k-Online是由PerplexityAI基于Meta的Llama-3系列模型进行优化和定制