llama-3.2-90b-vision-instruct
Llama模型
Llama-3.2-90B-Vision-Instruct 是 Meta 于 2024 年 9 月发布的 Llama 3.2 系列中最大、最强大的多模态模型,专为处理图像与文本联合输入的任务而设计。以下是其核心特性与能力介绍:
基本参数与架构
参数规模:900 亿(90B),基于 Llama 3.1 70B 文本模型构建。
多模态能力:首次在 Llama 系列中引入图像理解能力,支持“图像 + 文本”输入,输出为文本。
视觉适配机制:通过交叉注意力层组成的适配器,将预训练图像编码器与冻结的文本语言模型对齐,保持纯文本性能的同时新增视觉推理能力。
上下文长度:支持长达 128K token,适用于长文档、多轮对话等复杂场景。
训练数据:在包含 60 亿图文对 的多样化数据集上预训练,涵盖噪声数据与高质量领域内数据。
核心能力与应用场景
图表与文档理解:可解析统计图、流程图、表格等,回答如“去年哪个月销售最好?”等问题。
视觉定位(Visual Grounding):根据自然语言描述定位图像中的对象(如“找出图中的猫”)。
图像描述生成:自动生成图像标题或详细说明。
OCR 与手写识别:支持从图像中提取文本,包括手写体。
高分辨率图像处理:可处理高达 1120×1120 像素 的图像。
性能表现(关键基准测试)
| ChartQA(图表问答) | 准确率 | 媲美 GPT-4o |
| AI2D(科学图表理解) | 准确率 | 超越 Claude 3 Opus 和 Gemini 1.5 Pro |
| DocVQA(文档视觉问答) | ANLS | 90.1%(测试集) |
| MMMU(多学科多模态理解) | 微平均准确率 | 60.3%(CoT) |
| VQAv2(通用视觉问答) | 准确率 | 78.1%(测试集) |
注:在仅文本模式下,其能力与 Llama 3.1 70B 相当,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语等 8 种语言,并支持更多语言的微调 12。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
Llama模型推荐
llama-3.3-70b-instruct-fp8-fas
Llama3.3-70B-Instruct-FP8-Fast是Meta推出的Llama3.3系列中一个经过优化的指令微调版本,专
llama-3.2-90b-vision-instruct
Llama-3.2-90B-Vision-Instruct是Meta于2024年9月发布的Llama3.2系列中最大、最强大的多
llama-3.2-3b-instruct
Llama-3.2-3B-Instruct是Meta推出的Llama3.2系列中的一款轻量级、指令微调的纯文本大语
llama-3.1-8b-instruct
Llama-3.1-8B-Instruct是由Meta于2024年7月23日发布的Llama3.1系列中的一个开源大语言
llama-3.1-405b
Llama-3.1-405B是由Meta(原Facebook)于2024年7月23日正式发布的开源大语言模型,属于
llama-3-sonar-small-32k-online
llama-3-sonar-small-32k-online是由PerplexityAI提供的一种基于Meta的Llama3系列的大型语言
llama-3-sonar-small-32k-chat
Llama-3-Sonar-Small-32k-Chat是由PerplexityAI推出的基于MetaLlama-3系列的对话优化模
llama-3-sonar-large-32k-online
Llama-3-Sonar-Large-32k-Online是由PerplexityAI基于Meta的Llama-3系列模型进行优化和定制