llama-3-8b

Llama模型

字体：大中小

Llama-3-8B 是 Meta 于 2024 年 4 月发布的 Llama 3 系列中的中等规模开源大语言模型，拥有 80 亿参数，专为高效推理与本地化部署设计，在性能与成本之间取得了优异平衡。 ‌

‌核心架构与性能‌：

采用标准的纯解码器 Transformer 架构，包含 32 层网络，隐藏层大小为 4096，注意力头数为 32（每头 128 维），并使用 SwiGLU 激活函数和前置 RMSNorm 归一化。 ‌
原生支持 8,192 token 的上下文长度，并可通过 RoPE 等外推技术扩展至 16k，显著提升长文本处理能力。 ‌
在多项基准测试中表现突出：MMLU（多任务语言理解）得分超过 68，接近 GPT-3.5 水平；HumanEval（代码生成）通过率突破 45%，较 Llama 2 提升约 20%。 ‌
为提升推理效率，模型引入了分组查询注意力（GQA）机制，并采用 128K 词汇量的 tokenizer，相比 Llama 2 更高效。 ‌

‌部署与量化‌：

在 fp16 精度下，完整模型约占用 16GB 显存。 ‌
支持 GPTQ 等 INT4 量化技术，量化后模型体积可压缩至约 4GB，仅需 4.5GB 显存即可流畅运行，使消费级 GPU（如 RTX 3060）也能胜任本地推理。 ‌
推理速度在量化后可达 30+ tokens/s，结合 vLLM 等高性能推理引擎，可进一步提升吞吐量与并发能力。 ‌46

‌许可与商用‌：

采用 Meta Llama 3 Community License，允许研究与商业用途，但要求月活跃用户不超过 7 亿，并需标注“Built with Meta Llama 3”。 ‌

‌多语言与微调‌：

模型以英语为核心训练目标，对中文等非英语语言的原生支持有限，但可通过 LoRA 等轻量化微调技术（如使用 Llama-Factory 工具链）在中文指令数据集上进行适配，显著提升中文能力。 ‌
社区提供了丰富的微调教程与工具，便于开发者针对特定领域（如医疗、金融）进行定制化优化。 ‌

‌生态与应用‌：

可通过 Hugging Face、阿里云 PAI、千帆大模型平台等获取模型权重与开发资源。 ‌
常与 vLLM（推理引擎）和 Open WebUI（前端界面）结合，快速构建本地化 AI 对话应用。

立即使用大模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

Llama模型推荐

llama-3-8b-instruct

Meta-Llama-3-8B-Instruct‌是由Meta于‌2024年4月18日‌发布的开源大语言模型（LLM）之一，属

llama-3-8b

Llama-3-8B是Meta于2024年4月发布的Llama3系列中的中等规模开源大语言模型，拥有80亿参数，专

llama-3-70b

‌Llama-3-70B‌是由Meta（原Facebook）于‌2024年4月18日‌发布的开源大语言模型（LLM），属于L

llama-2-7b

‌Llama-2-7B‌是由Meta（原Facebook）于2023年发布的‌LLaMA-2系列‌中的中型开源大语言模型

llama-2-70b

‌Llama-2-70B‌是由Meta（原Facebook）于2023年7月发布的开源大语言模型，属于Llama2系列中参

llama-2-13b

‌Llama-2-13B‌是由Meta（原Facebook）于2023年发布的开源大语言模型，属于Llama-2系列中的中

code-llama-7b

CodeLlama7B是由Meta公司开发的CodeLlama系列中的一种开源大型语言模型，专门用于代码生成与

code-llama-13b

CodeLlama-13B是由Meta公司开发的CodeLlama系列中的一种大型语言模型，专门用于代码生成与理