llama-2-13b

Llama模型

字体:

‌Llama-2-13B‌ 是由 Meta(原 Facebook)于 2023 年发布的开源大语言模型,属于 Llama-2 系列中的中等规模版本(另有 7B 和 70B 版本)。该模型基于 Transformer 架构,专为通用自然语言理解与生成任务设计,并提供预训练基础版(Llama-2-13b-base)和对话优化版(Llama-2-13b-chat)两种形式。


核心参数与结构

  • ‌参数量‌:‌130 亿(13B)‌

  • ‌上下文长度‌:‌4096 个 token‌(相比 Llama-1 的 2048 翻倍)‌

  • ‌词汇表大小‌:原始版本为 ‌32,000‌;部分中文增强版(如 Colossal-LLaMA-2-13b-base)扩展至 ‌69,104‌ 以更好支持中文 ‌

  • ‌架构特点‌:

    • 使用 ‌RMSNorm‌ 进行预归一化

    • 采用 ‌SwiGLU‌ 激活函数

    • 引入 ‌旋转位置编码(RoPE)‌

    • ‌分组查询注意力(GQA)‌:提升长序列推理效率 ‌

  • ‌训练数据‌:约 ‌2 万亿 tokens‌,涵盖多语言网页、书籍、文章等,截止至 ‌2022 年 9 月‌ ‌



立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能