claude-sonnet-4-6-thinking

Claude模型

字体:

‌Claude-sonnet-4-6-thinking‌ 是 Anthropic 于 ‌2026年2月‌ 推出的 ‌Claude Sonnet 4.6‌ 模型的‌增强推理版本‌,在保持高性价比优势的同时,首次为中型模型引入了深度思考能力,标志着“智能与效率”的完美融合。该版本专为需要‌复杂逻辑推演、多步骤任务规划与高可靠性输出‌的开发者和企业用户设计,是当前最具实用价值的主力AI模型之一。

与标准 Sonnet 相比,-thinking 版本默认启用并优化了 ‌自适应思考(Adaptive Thinking)‌ 和 ‌扩展思考(Extended Thinking)‌ 功能,使其在处理编程、智能体任务和长上下文推理时,表现更接近旗舰级 Opus 模型,但成本仅为后者的 ‌40%‌ 。


核心能力与关键升级

  1. ‌自适应思考(Adaptive Thinking):智能分配推理资源‌

    • 模型能‌自动判断任务复杂度‌,在“快速响应”与“深度推理”间无缝切换,无需用户手动干预 。

    • 例如,在处理简单查询时秒级响应;面对复杂代码重构或策略规划时,则自动进入多步推演模式,确保输出质量 。

    • 这一机制显著提升了开发效率,尤其适合构建‌动态响应型AI工作流‌。

  2. ‌扩展思考(Extended Thinking):开启深度推理模式‌

    • 支持用户主动启用“扩展思考”,让模型在输出前进行‌内部链式推理‌,展示类似人类“打草稿”的过程 。

    • 在 ‌SWE-bench Verified‌ 测试中,开启该功能后代码准确率提升至 ‌79.6%‌,接近 Opus 4.5 水平 。

    • 适用于调试复杂系统、设计算法架构或撰写技术方案等高要求场景。

  3. ‌百万 token 上下文窗口(1M,Beta):长程记忆全面开放‌

    • 所有套餐用户(包括免费版)均可使用 ‌100万 token 上下文窗口‌,无需额外付费 。

    • 配合 ‌上下文压缩(Context Compaction)‌ 技术,当对话接近上限时,模型会自动将早期内容‌压缩为语义摘要‌,保留关键信息,提升有效利用率 。

    • 在 ‌Vending-Bench Arena‌ 模拟商业竞赛中,Sonnet 4.6 通过长期记忆规划,采用“前期扩张、后期盈利”策略,最终大幅领先对手 。

  4. ‌卓越的计算机使用能力(Computer Use)‌

    • 可像人类一样操作电脑:‌查看屏幕、移动光标、点击按钮、填写表单、跨标签页协调信息‌ 。

    • 在 ‌OSWorld‌ 标准基准测试中,其执行真实软件任务(如 Chrome、VS Code 操作)的能力稳步提升,部分任务已接近人类水平 。

    • 保险科技公司 Pace 测试显示,其在保险流程自动化中准确率达 ‌94%‌,为当前最高性能模型之一 。

  5. ‌编程与智能体任务表现亮眼‌

    • 在 ‌Agent金融分析(GDPval-AA)‌ 和 ‌办公任务(GDPVal-AA)‌ 测评中,得分分别为 ‌63.3%‌ 和 ‌1633 Elo‌,双双超越 Opus 4.6 。

    • 支持 ‌代码执行、记忆存储、程序化工具调用‌ 等功能,已全面开放使用 。

    • 在 ‌Terminal-Bench 2.0‌ 中得分为 ‌59.1%‌,虽略低于 Opus 4.6 的 ‌65.4%‌,但性价比极高 。

  6. ‌安全与成本优势并存‌

    • 抗 ‌提示词注入攻击(Prompt Injection)‌ 能力显著增强,安全表现与 Opus 4.6 相当 。

    • 支持 ‌提示缓存‌(最高省90%成本)和 ‌批处理‌(省50%),进一步优化使用效率 。


立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能