DeepSeek 又发论文了。
这一次,没有惊天动地的参数军备竞赛,没有万卡集群的暴力美学。
他们只是冷静地指出了当前 AI 届一个“皇帝的新衣”:
我们最顶尖的大模型,其实都在做着极其愚蠢的事情。
在这篇名为《Conditional Memory via Scalable Lookup》(基于可扩展查找的条件记忆)的论文中,DeepSeek 创始人梁文锋亲自署名,揭示了下一代大模型架构(V4?)的核心秘密:与其让模型更努力地“思考”,不如教它学会“作弊”。
01.愚蠢的天才:为什么要用算力去模拟查表?
想象一下,你面前坐着爱因斯坦。你问他:“1+1 等于几?”
正常的爱因斯坦会直接脱口而出:“2”。
但现在的大模型(LLM)是这么做的:他满头大汗地拿起粉笔,从皮亚诺公理开始推导,证明自然数的定义,消耗了巨大的脑力,最后告诉你:“答案是 2。”
这就是当前 Transformer 架构的痛点。
DeepSeek 在论文中指出:大模型缺乏原生的“查字典”能力。当它遇到“亚历山大大帝是谁”或者“水的化学式是什么”这种静态知识时,它不得不动用昂贵的神经网络层,一层一层地去“计算”出这个答案。
研究显示,模型为了认出“戴安娜王妃”这个实体,竟然要消耗掉整整 6 层网络的深度。
这不叫智能,这叫算力的极大浪费。
图中的水滴,不是水,是这个大脑汗颜💧了哈哈哈笑死
02. 给爱因斯坦发一本字典:Engram 机制
DeepSeek 的解决方案非常优雅,他们提出了一个叫 Engram(印迹) 的模块。
Engram 的核心逻辑很简单:查算分离。
既然“亚历山大大帝”是一个固定的知识点,为什么不把它做成一张小抄?
DeepSeek 给模型外挂了一个巨大的、可学习的 N-gram 嵌入表(Embedding Table)。
当模型读到“Alexander the Great”这几个词时,它不再需要动用大脑去推理,而是直接触发 O(1)的查表操作。
系统会瞬间定位到字典的这一页,把预存好的知识向量直接提取出来,注入到网络中。整个过程不需要“思考”,只需要“翻页”。
这就是论文标题中 “Conditional Memory”(条件记忆) 的含义:把死记硬背的工作从计算流中剥离出来,变成极低成本的查表操作。
03. 博尔赫斯的诅咒与 75%定律
那么问题来了:既然查表这么快,我们能不能把所有东西都存进字典里,做一个“纯记忆”的模型?
博尔赫斯在小说《博闻强记的富内斯》中早就给出了答案:那个记住了每一片树叶形状的富内斯,最终失去了思考的能力。完美的记忆会杀死抽象的思考。
DeepSeek 在论文中做了一个非常硬核的实验:如果总参数量(预算)固定,我们应该分多少给“大脑”(MoE 专家),分多少给“字典”(Engram 表)?
结果画出了一条完美的 U 型曲线 :
- 纯 MoE(全靠算): 累死,效果不是最优。
- 纯 Engram(全靠记): 变傻,缺乏逻辑推理能力。
- 黄金比例:约 75% 的参数给 MoE 负责思考,20%-25% 的参数给 Engram 负责记忆。
这就是 DeepSeek 算出的“上帝配方”:记忆与计算,必须在架构层面实现完美的平衡。
04. 腾笼换鸟:当第 5 层变成了第 12 层
这篇论文最反直觉的发现来了。
你可能认为:加了“记忆外挂”,模型应该只是知识更渊博(文科更好)对吧?
错。DeepSeek 发现,加了 Engram 之后,模型的理科成绩(数学、代码、逻辑推理)暴涨!
- MATH(数学): 提升 2.4 分
- HumanEval(代码): 提升 3.0 分
- BBH(通用推理): 提升 5.0 分
为什么?这就是 “腾笼换鸟” 的效应。
在普通模型中,前几层网络都在忙着做“名词解释”和“背景调查” 。而在 Engram 模型中,因为第 2 层就通过查表搞定了这些基础工作,后续的深层网络被彻底解放了。
DeepSeek 的分析显示:Engram 模型在第 5 层达到的“思考深度”,相当于普通模型第 12 层的水平。
这相当于免费给大楼加盖了楼层!省下来的算力,全部被用来处理那些真正需要智商的高难度逻辑。
05. 把大象装进抽屉里:一场硬件的突围
最后,也是这篇论文最让工程界沸腾的一点:它打破了 GPU 的显存霸权。
众所周知,英伟达的 GPU 显存(HBM)比金子还贵。如果 Engram 的字典表高达 1000 亿参数,显卡根本装不下怎么办?
DeepSeek 说:谁让你装在显卡里了?
不同于 MoE 必须在计算时动态路由,Engram 的查表是 确定性(Deterministic) 的。
这意味着,模型刚看到输入,还没开始算第 1 层,系统就已经知道第 2 层需要查字典的哪一页了。
于是,DeepSeek 设计了一套 异步预取(Async Prefetch) 机制。他们把巨大的字典存放在廉价、海量的 CPU 内存(RAM) 里。当 GPU 在计算前一层时,数据就已经通过 PCIe 通道,悄悄从内存传输到了显存里。
实验数据炸裂:哪怕外挂 1000 亿参数的字典,推理速度只慢了不到 3%
这是一场极致的 硬件-算法协同设计。在算力受限的当下,DeepSeek 用廉价的内存换取了昂贵的模型容量,走出了一条属于自己的路。
论文本质上是在讲 “取舍”
在摩尔定律放缓、显卡供不应求的今天,继续暴力堆叠参数已经不够性感了。真正的智能,不仅仅是算得更快,而是知道 什么该算,什么该记。
正如论文结尾所说:“我们预见,条件记忆(Conditional Memory)将成为下一代稀疏模型的必选组件。”
《图解DeepSeek最新论文,人人都能看得懂!》 是转载文章,点击查看原文。