图解DeepSeek最新论文,人人都能看得懂!

作者:饼干哥哥日期:2026/1/16

DeepSeek 又发论文了。

这一次,没有惊天动地的参数军备竞赛,没有万卡集群的暴力美学。

他们只是冷静地指出了当前 AI 届一个“皇帝的新衣”:

我们最顶尖的大模型,其实都在做着极其愚蠢的事情。

在这篇名为《Conditional Memory via Scalable Lookup》(基于可扩展查找的条件记忆)的论文中,DeepSeek 创始人梁文锋亲自署名,揭示了下一代大模型架构(V4?)的核心秘密:与其让模型更努力地“思考”,不如教它学会“作弊”。

Image

01.愚蠢的天才:为什么要用算力去模拟查表?

想象一下,你面前坐着爱因斯坦。你问他:“1+1 等于几?”

正常的爱因斯坦会直接脱口而出:“2”。

但现在的大模型(LLM)是这么做的:他满头大汗地拿起粉笔,从皮亚诺公理开始推导,证明自然数的定义,消耗了巨大的脑力,最后告诉你:“答案是 2。”

这就是当前 Transformer 架构的痛点。

DeepSeek 在论文中指出:大模型缺乏原生的“查字典”能力。当它遇到“亚历山大大帝是谁”或者“水的化学式是什么”这种静态知识时,它不得不动用昂贵的神经网络层,一层一层地去“计算”出这个答案。

研究显示,模型为了认出“戴安娜王妃”这个实体,竟然要消耗掉整整 6 层网络的深度。

这不叫智能,这叫算力的极大浪费。

Image

图中的水滴,不是水,是这个大脑汗颜💧了哈哈哈笑死

02. 给爱因斯坦发一本字典:Engram 机制

DeepSeek 的解决方案非常优雅,他们提出了一个叫 Engram(印迹) 的模块。

Engram 的核心逻辑很简单:查算分离。

既然“亚历山大大帝”是一个固定的知识点,为什么不把它做成一张小抄?

DeepSeek 给模型外挂了一个巨大的、可学习的 N-gram 嵌入表(Embedding Table)。

当模型读到“Alexander the Great”这几个词时,它不再需要动用大脑去推理,而是直接触发 O(1)的查表操作。

系统会瞬间定位到字典的这一页,把预存好的知识向量直接提取出来,注入到网络中。整个过程不需要“思考”,只需要“翻页”。

Image

这就是论文标题中 “Conditional Memory”(条件记忆) 的含义:把死记硬背的工作从计算流中剥离出来,变成极低成本的查表操作。

03. 博尔赫斯的诅咒与 75%定律

那么问题来了:既然查表这么快,我们能不能把所有东西都存进字典里,做一个“纯记忆”的模型?

博尔赫斯在小说《博闻强记的富内斯》中早就给出了答案:那个记住了每一片树叶形状的富内斯,最终失去了思考的能力。完美的记忆会杀死抽象的思考。

DeepSeek 在论文中做了一个非常硬核的实验:如果总参数量(预算)固定,我们应该分多少给“大脑”(MoE 专家),分多少给“字典”(Engram 表)?

结果画出了一条完美的 U 型曲线 :

  • 纯 MoE(全靠算): 累死,效果不是最优。
  • 纯 Engram(全靠记): 变傻,缺乏逻辑推理能力。
  • 黄金比例:约 75% 的参数给 MoE 负责思考,20%-25% 的参数给 Engram 负责记忆。

这就是 DeepSeek 算出的“上帝配方”:记忆与计算,必须在架构层面实现完美的平衡。

Image

04. 腾笼换鸟:当第 5 层变成了第 12 层

这篇论文最反直觉的发现来了。

你可能认为:加了“记忆外挂”,模型应该只是知识更渊博(文科更好)对吧?

错。DeepSeek 发现,加了 Engram 之后,模型的理科成绩(数学、代码、逻辑推理)暴涨!

  • MATH(数学): 提升 2.4 分
  • HumanEval(代码): 提升 3.0 分
  • BBH(通用推理): 提升 5.0 分

为什么?这就是 “腾笼换鸟” 的效应。

在普通模型中,前几层网络都在忙着做“名词解释”和“背景调查” 。而在 Engram 模型中,因为第 2 层就通过查表搞定了这些基础工作,后续的深层网络被彻底解放了。

Image

DeepSeek 的分析显示:Engram 模型在第 5 层达到的“思考深度”,相当于普通模型第 12 层的水平。

这相当于免费给大楼加盖了楼层!省下来的算力,全部被用来处理那些真正需要智商的高难度逻辑。

05. 把大象装进抽屉里:一场硬件的突围

最后,也是这篇论文最让工程界沸腾的一点:它打破了 GPU 的显存霸权。

众所周知,英伟达的 GPU 显存(HBM)比金子还贵。如果 Engram 的字典表高达 1000 亿参数,显卡根本装不下怎么办?

DeepSeek 说:谁让你装在显卡里了?

不同于 MoE 必须在计算时动态路由,Engram 的查表是 确定性(Deterministic) 的。

这意味着,模型刚看到输入,还没开始算第 1 层,系统就已经知道第 2 层需要查字典的哪一页了。

于是,DeepSeek 设计了一套 异步预取(Async Prefetch) 机制。他们把巨大的字典存放在廉价、海量的 CPU 内存(RAM) 里。当 GPU 在计算前一层时,数据就已经通过 PCIe 通道,悄悄从内存传输到了显存里。

Image

实验数据炸裂:哪怕外挂 1000 亿参数的字典,推理速度只慢了不到 3%

这是一场极致的 硬件-算法协同设计。在算力受限的当下,DeepSeek 用廉价的内存换取了昂贵的模型容量,走出了一条属于自己的路。

论文本质上是在讲 “取舍”

在摩尔定律放缓、显卡供不应求的今天,继续暴力堆叠参数已经不够性感了。真正的智能,不仅仅是算得更快,而是知道 什么该算,什么该记。

正如论文结尾所说:“我们预见,条件记忆(Conditional Memory)将成为下一代稀疏模型的必选组件。”


图解DeepSeek最新论文,人人都能看得懂!》 是转载文章,点击查看原文


相关推荐


如何在CentOS 7.9 服务器上配置并优化 Ceph 分布式存储集群,提升数据冗余与性能?
A5IDCCOM2026/1/8

本文基于A5IDC在真实生产环境(跨机房 Ceph 集群支撑虚拟机盘、对象存储及容灾复制)的实战经验,详细讲解如何从零部署 Ceph 集群在 CentOS 7.9 上,并通过硬件配置选择、网络优化、Ceph 参数调优等实用细节提升 数据冗余能力与性能表现。文章包含具体产品型号、系统配置表、命令示例与性能评估对比表,适合中大型数据中心储存架构实施。 一、背景与目标 随着业务系统对海量数据持久层的要求不断提升,我们需要一个高可靠、易扩展、具有自动自愈能力的分布式存储平台。Ceph 是开源生态


Git/Gitee/GitHub有什么区别
lifewange2025/12/31

Git、GitHub、Gitee(码云)三者核心区别 & 完整详解 你想弄清楚这三者的关系和差异,本质上Git 是「工具」,GitHub/Gitee 是「平台」,这是最核心的定位区别,三者不是同一维度的东西,先把这个核心逻辑吃透,所有差异就一目了然了。 ✅ 一、三者的「本质定位」(最核心,必记) 1. Git —— 本地的「版本控制系统」(纯软件 / 工具) Git 是一个免费、开源的分布式版本控制软件,它是一个安装在你电脑本地的程序 / 工具,不依赖任何网络、不依赖任何网站就能独立运行


Apache Tika XXE注入漏洞 | CVE-2025-66516 复现&研究
探索宇宙真理.2025/12/21

0x0 背景介绍 Tika Pdf Parser Module是Apache软件基金会开发的Java库,专用于解析PDF文件内容。核心功能包括文本提取、元数据解析及嵌入式对象处理,基于Apache Tika框架实现,依赖PDFBox等开源库。 Apache Tika的tika-core(1.13-3.2.1)、tika-pdf-module(2.0.0-3.2.1)和tika-parsers(1.13-1.28.5)模块存在严重XXE漏洞(跨平台),攻击者可通过构造PDF内的XFA文件实施XM


tig 的untracked changes和unstaged changes含义?
aoxiang_ywj2025/12/13

背景:你理解tig中untracked changes和unstaged changes的含义?它们对应的代码存在哪里呢?在本地仓库?提交到gitlab线上库了?下面将解答这些疑问。 一、核心结论先明确 tig 中显示的 Untracked changes(未跟踪变更)和 Unstaged changes(未暂存变更)都属于本地工作区的修改,完全没有提交到 GitLab 线上库,甚至连「本地仓库的提交(commit)」都没完成 —— 它们和 GitLab 线上库没有任何关联,仅存在于你的本地


从 Oracle 到 KingbaseES:破解迁移痛点,解锁信创时代数据库新可能
倔强的石头_2025/12/5

提起 Oracle,它在传统数据库领域可是标杆般的存在,长久以来一直撑起了众多企业的核心业务,可这两年情形发生了改变,Oracle的授权费用很高,运维成本又让人头疼,再加上信创政策对于合规有着强硬的要求,于是很多企业便开始把目光转向国产数据库。金仓数据库 KingbaseES 是国产数据库中的佼佼者,凭借其高适配性和高性能的基础,成了人们更换 Oracle 的首要选择,不过要告诉大家的是,迁移之路并非易走,“报错”频繁出现,存在适配性障碍,成本难以控制住……这些难点真真切切地成为了企业在执行迁移


CSDN创作变现活动!社区镜像或使用视频教程分别单个最高得 80 元,收益上不封顶!
CSDN官方博客2026/1/25

CSDN AI 社区是聚焦 AI 技术产业落地的开发者服务平台(官方入口),核心为创作者搭建技术价值转化桥梁,AI社区涵盖: 镜像市场(社区镜像)、算力市场等模块。 本次推出镜像创作激励活动,以下是方案活动规则、参与要求及激励政策,保障创作者权益与活动有序开展。 一、活动总则 活动时间: 2026年1月1日 - 2026年2月28日 现金奖励: 1、按照官方指定镜像任务创作,单个社区镜像奖励 30-80元现金 ,创作越多可获得现金奖

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客