gemini-3.1-flash-lite-preview-thinking-medium

Google模型

字体:

Gemini 3.1 Flash-Lite Preview (thinking level: Medium) 是谷歌于2026年3月推出的 Gemini 3 系列中速度最快、性价比最高的轻量级智能模型,专为大规模高频任务设计,在保持极低延迟与成本的同时,支持“中等思考深度”(Medium thinking level),可在响应速度与推理能力之间实现动态平衡,适用于从批量内容处理到多步复杂工作流的广泛场景‌。

该模型是 ‌Gemini 3.1 Flash-Lite‌ 的增强推理版本,通过启用 ‌thinking_level=medium‌ 参数,赋予其处理需要适度逻辑推演任务的能力,打破了“轻量即弱智”的传统认知,在编程辅助、多模态理解与智能代理(Agent)任务中表现亮眼。


核心性能与基准表现

  1. ‌极致响应速度与生成效率‌

    • ‌首Token响应时间(TTFT)比 Gemini 2.5 Flash 快 2.5 倍‌,实现“零延迟”交互体验;

    • ‌每秒输出 Token 数达 389 个‌,在 Artificial Analysis 生成速度榜单中排名第一;

    • 支持 ‌100 万 Token 上下文窗口‌,可处理整本小说、长篇代码库或复杂多模态文档 。

  2. ‌卓越的智能表现(超越前代旗舰)‌

    • 在 ‌Arena.ai‌ 排行榜中获得 ‌1432 Elo 分‌,与 Grok-4.1-fast 水平相当;

    • 推理能力测试 ‌GPQA Diamond 得分 86.9%‌;

    • 多模态理解测试 ‌MMMU Pro 得分 76.8%‌,均超越前代更大模型如 Gemini 2.5 Flash 。

  3. ‌可调节的“思考层级”(Thinking Levels)‌

    • 多步指令执行

    • 简单代码生成与调试

    • 结构化数据提取(如 JSON 输出)

    • 工具调用与函数调用(Function Calling)

    • 支持 ‌MINIMAL、MEDIUM、HIGH‌ 三级思考控制,本模型设定为 ‌MEDIUM‌,适合:

    • 开发者可通过 reasoning_effort="medium" 参数直接调用,无需修改代码逻辑 。

  4. ‌多模态输入与结构化输出‌

    • 支持 ‌文本、图像、音频、视频、PDF‌ 等多模态输入;

    • 可配置输出为 ‌JSON 格式‌,便于系统集成;

    • 支持 ‌Thought Signatures‌,确保多轮对话与工具调用中的上下文一致性 。


成本与计费优势

表格

项目

定价



输入每百万 Tokens

‌$0.25‌(约人民币 1.73 元)

输出每百万 Tokens

‌$1.50‌(约人民币 10.35 元)

典型成本示例

‌1.8 元可让 AI 读完 3 本《三体》全集‌

💡 说明:该价格仅为大型模型(如 Gemini 3 Pro)的一小部分,特别适合对成本敏感但又需一定推理能力的大规模部署场景。


典型应用场景

  • ✅ ‌批量翻译与内容审核‌:高速处理海量用户生成内容(UGC),支持多语言;

  • ✅ ‌电商自动化‌:快速生成商品描述、SEO标题、营销文案;

  • ✅ ‌SaaS 智能体(Agent)构建‌:创建能执行多步骤任务的企业级 AI 助手;

  • ✅ ‌动态仪表盘生成‌:结合实时天气、金融数据生成可视化报告;

  • ✅ ‌教育辅助‌:为学生提供中等复杂度的解题思路与代码讲解。


立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能