OpenAI 在周五预览了其由三款模型组成的 GPT-5.6 家族,在编码、生物学和网络安全方面带来显著提升,但目前只向一小部分合作伙伴开放访问。
要点概览:
- GPT-5.6 以三层家族形式登场:Sol 为旗舰,Terra 作为均衡型选项,Luna 主打速度。
- 全新的 max 和 ultra 模式让 Sol 能进行更长时间的推理,并把困难任务拆分给并行子代理。
- OpenAI 将三层模型都评为在网络与生物领域具有高风险,因此暂缓大范围开放。
GPT-5.6 家族主攻编码与网络安全
公司在发布中介绍了 Sol,称其为迄今最强模型;Terra 是均衡的日常使用层,定价约为前代的一半;Luna 则是速度最快的选项,每百万输入 token 收费 1 美元。全新的命名体系以数字表示模型世代,而名称对应稳定的能力层级。各层级可以按各自节奏升级,让开发者在速度、深度和价格之间有更清晰的选择。
GPT-5.6 还首度为 Sol 引入两种在长链条多步骤任务上“加码”的方式。max 设置为模型争取更多“思考时间”,而 ultra 模式则会将复杂任务拆分给并行运行的子代理,最后再合并结果。
OpenAI 还计划在 7 月将 Sol 部署在 Cerebras 芯片上,生成速度最高可达每秒 750 个 token。
在命令行工作测试 Terminal-Bench 2.1 上,Sol 创下新的最高成绩,该测试要求模型具备规划和工具协同能力。在基因组学分析中,它略微超越 GPT-5.5,同时消耗更少的 token。
在某项利用漏洞的基准测试中,Sol 使用大约三分之一的输出 token,就追平了 Anthropic 的 Mythos 预览版表现。
延伸阅读:Chainlink 钱包纪录让 LINK 的 9 美元反弹成为关键考验
ChatGPT 风险分级重塑 AI 使用门槛
OpenAI 将三款模型都归类为在网络与生物滥用方面的高风险,这是首次把这一评级应用到较小且更便宜的层级。公司表示,这些模型都尚未达到会触发最严限制的关键级别,而且 Sol 在发现和修补漏洞方面,比发起完整攻击更为擅长。
这一评级也解释了目前访问范围为何仍然受限。大约 20 家经政府批准的机构可在预览期运行这些模型,更大范围地推向 ChatGPT、Codex 和 API 则承诺会在数周内展开。安全研究员 Alex Stamos 警告,把前沿工具关在高墙之内,可能会让海外竞争对手在 AI 竞赛中占据优势。
本次发布为公司一年多来持续收紧网络安全控制画上阶段性句号:从去年 12 月在 GPT-5.2 上首次引入安全防护,到在 GPT-5.5 上部署更严格的分类器。针对 GPT-5.6,OpenAI 称仅自动化“红队测试”就耗费了超过 70 万 GPU 小时(以 A100 等效计算)。





