Google Research 发布了全新架构 Titans,旨在让 AI 模型具备实时更新内部记忆的能力,标志着自 2017 年 Transformer 问世以来在架构上的一次重大突破,这一变革性设计可让模型在推理过程中持续学习。
这一系统与名为 MIRAS 的理论框架相配合,专门用于处理并保留极长上下文,同时在推理阶段实现持续学习。
发生了什么
这份公告针对的是大型语言模型长期存在的限制:Transformer 虽然在模式识别方面表现突出,但其计算成本会随输入长度急剧增长,而且无法在不重新训练的情况下更新核心知识。
谷歌的新方法允许模型在数据持续流入时动态修改其长期记忆参数,从而在无需离线微调的前提下实现持久学习。
据 Google Research 介绍,Titans 将循环架构的高速度与基于注意力系统的高精度相结合,并由一个深度神经记忆模块提供支持,该模块可在数百万 token 范围内对信息进行总结与整合。
延伸阅读: PwC: Hedge-Fund Crypto Exposure Surges To 55%, Up From 47% Last Year
一个关键机制被称为“惊讶度指标(surprise metric)”,用于判断哪些新输入与模型现有记忆存在显著差异,从而应被永久存储。
与之配套的蓝图 MIRAS 将所有序列模型重新表述为关联记忆系统的变体,并对它们如何存储、保持和更新信息作出统一定义。
该框架提出了多种无需注意力机制的变体,包括 YAAD、MONETA 和 MEMORA,每一种都旨在在长上下文负载下提升鲁棒性或稳定性。
为何重要
在实验评估中,Titans 在语言建模、零样本推理、基因组学以及时间序列等任务上,优于 Mamba-2、Gated DeltaNet 和 Transformer++ 等主流架构。
谷歌表示,在 BABILong 长上下文基准测试中,Titans 也取得了更佳表现,即便其参数量远少于 GPT-4,仍然实现了对 GPT-4 的超越,并可扩展到超过两百万 token 的上下文窗口。
谷歌将 Titans 与 MIRAS 定位为新一代 AI 系统的基础,这类系统能够在海量数据集上进行自适应推理、持续学习,并高效处理超长上下文,这一能力有望深刻影响未来科研与应用型 AI 的发展方向。
下篇阅读: Did Solana’s Top Lending Platform Mislead Users? Jupiter’s Risk Reversal Sparks Alarm

