图解DeepSeek最新论文,人人都能看得懂!

作者:饼干哥哥日期:2026/1/16

DeepSeek 又发论文了。

这一次,没有惊天动地的参数军备竞赛,没有万卡集群的暴力美学。

他们只是冷静地指出了当前 AI 届一个“皇帝的新衣”:

我们最顶尖的大模型,其实都在做着极其愚蠢的事情。

在这篇名为《Conditional Memory via Scalable Lookup》(基于可扩展查找的条件记忆)的论文中,DeepSeek 创始人梁文锋亲自署名,揭示了下一代大模型架构(V4?)的核心秘密:与其让模型更努力地“思考”,不如教它学会“作弊”。

Image

01.愚蠢的天才:为什么要用算力去模拟查表?

想象一下,你面前坐着爱因斯坦。你问他:“1+1 等于几?”

正常的爱因斯坦会直接脱口而出:“2”。

但现在的大模型(LLM)是这么做的:他满头大汗地拿起粉笔,从皮亚诺公理开始推导,证明自然数的定义,消耗了巨大的脑力,最后告诉你:“答案是 2。”

这就是当前 Transformer 架构的痛点。

DeepSeek 在论文中指出:大模型缺乏原生的“查字典”能力。当它遇到“亚历山大大帝是谁”或者“水的化学式是什么”这种静态知识时,它不得不动用昂贵的神经网络层,一层一层地去“计算”出这个答案。

研究显示,模型为了认出“戴安娜王妃”这个实体,竟然要消耗掉整整 6 层网络的深度。

这不叫智能,这叫算力的极大浪费。

Image

图中的水滴,不是水,是这个大脑汗颜💧了哈哈哈笑死

02. 给爱因斯坦发一本字典:Engram 机制

DeepSeek 的解决方案非常优雅,他们提出了一个叫 Engram(印迹) 的模块。

Engram 的核心逻辑很简单:查算分离。

既然“亚历山大大帝”是一个固定的知识点,为什么不把它做成一张小抄?

DeepSeek 给模型外挂了一个巨大的、可学习的 N-gram 嵌入表(Embedding Table)。

当模型读到“Alexander the Great”这几个词时,它不再需要动用大脑去推理,而是直接触发 O(1)的查表操作。

系统会瞬间定位到字典的这一页,把预存好的知识向量直接提取出来,注入到网络中。整个过程不需要“思考”,只需要“翻页”。

Image

这就是论文标题中 “Conditional Memory”(条件记忆) 的含义:把死记硬背的工作从计算流中剥离出来,变成极低成本的查表操作。

03. 博尔赫斯的诅咒与 75%定律

那么问题来了:既然查表这么快,我们能不能把所有东西都存进字典里,做一个“纯记忆”的模型?

博尔赫斯在小说《博闻强记的富内斯》中早就给出了答案:那个记住了每一片树叶形状的富内斯,最终失去了思考的能力。完美的记忆会杀死抽象的思考。

DeepSeek 在论文中做了一个非常硬核的实验:如果总参数量(预算)固定,我们应该分多少给“大脑”(MoE 专家),分多少给“字典”(Engram 表)?

结果画出了一条完美的 U 型曲线 :

  • 纯 MoE(全靠算): 累死,效果不是最优。
  • 纯 Engram(全靠记): 变傻,缺乏逻辑推理能力。
  • 黄金比例:约 75% 的参数给 MoE 负责思考,20%-25% 的参数给 Engram 负责记忆。

这就是 DeepSeek 算出的“上帝配方”:记忆与计算,必须在架构层面实现完美的平衡。

Image

04. 腾笼换鸟:当第 5 层变成了第 12 层

这篇论文最反直觉的发现来了。

你可能认为:加了“记忆外挂”,模型应该只是知识更渊博(文科更好)对吧?

错。DeepSeek 发现,加了 Engram 之后,模型的理科成绩(数学、代码、逻辑推理)暴涨!

  • MATH(数学): 提升 2.4 分
  • HumanEval(代码): 提升 3.0 分
  • BBH(通用推理): 提升 5.0 分

为什么?这就是 “腾笼换鸟” 的效应。

在普通模型中,前几层网络都在忙着做“名词解释”和“背景调查” 。而在 Engram 模型中,因为第 2 层就通过查表搞定了这些基础工作,后续的深层网络被彻底解放了。

Image

DeepSeek 的分析显示:Engram 模型在第 5 层达到的“思考深度”,相当于普通模型第 12 层的水平。

这相当于免费给大楼加盖了楼层!省下来的算力,全部被用来处理那些真正需要智商的高难度逻辑。

05. 把大象装进抽屉里:一场硬件的突围

最后,也是这篇论文最让工程界沸腾的一点:它打破了 GPU 的显存霸权。

众所周知,英伟达的 GPU 显存(HBM)比金子还贵。如果 Engram 的字典表高达 1000 亿参数,显卡根本装不下怎么办?

DeepSeek 说:谁让你装在显卡里了?

不同于 MoE 必须在计算时动态路由,Engram 的查表是 确定性(Deterministic) 的。

这意味着,模型刚看到输入,还没开始算第 1 层,系统就已经知道第 2 层需要查字典的哪一页了。

于是,DeepSeek 设计了一套 异步预取(Async Prefetch) 机制。他们把巨大的字典存放在廉价、海量的 CPU 内存(RAM) 里。当 GPU 在计算前一层时,数据就已经通过 PCIe 通道,悄悄从内存传输到了显存里。

Image

实验数据炸裂:哪怕外挂 1000 亿参数的字典,推理速度只慢了不到 3%

这是一场极致的 硬件-算法协同设计。在算力受限的当下,DeepSeek 用廉价的内存换取了昂贵的模型容量,走出了一条属于自己的路。

论文本质上是在讲 “取舍”

在摩尔定律放缓、显卡供不应求的今天,继续暴力堆叠参数已经不够性感了。真正的智能,不仅仅是算得更快,而是知道 什么该算,什么该记。

正如论文结尾所说:“我们预见,条件记忆(Conditional Memory)将成为下一代稀疏模型的必选组件。”


图解DeepSeek最新论文,人人都能看得懂!》 是转载文章,点击查看原文


相关推荐


如何在CentOS 7.9 服务器上配置并优化 Ceph 分布式存储集群,提升数据冗余与性能?
A5IDCCOM2026/1/8

本文基于A5IDC在真实生产环境(跨机房 Ceph 集群支撑虚拟机盘、对象存储及容灾复制)的实战经验,详细讲解如何从零部署 Ceph 集群在 CentOS 7.9 上,并通过硬件配置选择、网络优化、Ceph 参数调优等实用细节提升 数据冗余能力与性能表现。文章包含具体产品型号、系统配置表、命令示例与性能评估对比表,适合中大型数据中心储存架构实施。 一、背景与目标 随着业务系统对海量数据持久层的要求不断提升,我们需要一个高可靠、易扩展、具有自动自愈能力的分布式存储平台。Ceph 是开源生态


Git/Gitee/GitHub有什么区别
lifewange2025/12/31

Git、GitHub、Gitee(码云)三者核心区别 & 完整详解 你想弄清楚这三者的关系和差异,本质上Git 是「工具」,GitHub/Gitee 是「平台」,这是最核心的定位区别,三者不是同一维度的东西,先把这个核心逻辑吃透,所有差异就一目了然了。 ✅ 一、三者的「本质定位」(最核心,必记) 1. Git —— 本地的「版本控制系统」(纯软件 / 工具) Git 是一个免费、开源的分布式版本控制软件,它是一个安装在你电脑本地的程序 / 工具,不依赖任何网络、不依赖任何网站就能独立运行


Apache Tika XXE注入漏洞 | CVE-2025-66516 复现&研究
探索宇宙真理.2025/12/21

0x0 背景介绍 Tika Pdf Parser Module是Apache软件基金会开发的Java库,专用于解析PDF文件内容。核心功能包括文本提取、元数据解析及嵌入式对象处理,基于Apache Tika框架实现,依赖PDFBox等开源库。 Apache Tika的tika-core(1.13-3.2.1)、tika-pdf-module(2.0.0-3.2.1)和tika-parsers(1.13-1.28.5)模块存在严重XXE漏洞(跨平台),攻击者可通过构造PDF内的XFA文件实施XM


tig 的untracked changes和unstaged changes含义?
aoxiang_ywj2025/12/13

背景:你理解tig中untracked changes和unstaged changes的含义?它们对应的代码存在哪里呢?在本地仓库?提交到gitlab线上库了?下面将解答这些疑问。 一、核心结论先明确 tig 中显示的 Untracked changes(未跟踪变更)和 Unstaged changes(未暂存变更)都属于本地工作区的修改,完全没有提交到 GitLab 线上库,甚至连「本地仓库的提交(commit)」都没完成 —— 它们和 GitLab 线上库没有任何关联,仅存在于你的本地


iOS内存映射技术:mmap如何用有限内存操控无限数据
sweet丶2025/12/5

当一个iOS应用需要处理比物理内存大10倍的文件时,传统方法束手无策,而mmap却能让它流畅运行。这种神奇能力背后,是虚拟内存与物理内存的精密舞蹈。 01 内存管理的双重世界:虚拟与物理的分离 每个iOS应用都生活在双重内存现实中。当你声明一个变量或读取文件时,你操作的是虚拟内存地址,这是iOS为每个应用精心编织的“平行宇宙”。 这个宇宙大小固定——在64位iOS设备上高达128TB的虚拟地址空间,远超任何物理内存容量。 虚拟内存的精妙之处在于:它只是一个巨大的、连续的地址范围清单,不直接对应


Linux软件安装 —— Flink集群安装(集成Zookeeper、Hadoop高可用)
吱唔猪~2026/1/25

文章目录 一、节点说明二、配置节点间免密登录三、JDK安装四、Zookeeper安装五、Hadoop安装六、Flink安装1、基础环境准备(1)下载安装包(2)上传并解压 2、修改配置(1)配置zookeeper(2)配置flink-conf.yaml(3)配置workers(4)创建必要的目录(5)配置环境变量 3、分发flink 七、集群测试1、启动zookeeper,hadoop2、Yarn Session测试(1)模式介绍(2)准备测试资源


Java8 API文档搜索引擎_优化构建索引速度
_周游2026/2/3

本专栏前文已介绍完成索引模块程序: https://blog.csdn.net/m0_63299495/article/details/157515700?spm=1011.2415.3001.5331https://blog.csdn.net/m0_63299495/article/details/157515700?spm=1011.2415.3001.5331并对关键部分进行了细节整理: https://blog.csdn.net/m0_63299495/article/details


为什么 Memo Code 先做 CLI:以及终端输入框到底有多难搞
mCell2026/2/12

同步至个人站点:为什么 Memo Code 先做 CLI:以及终端输入框到底有多难搞 如果你对我的 Code Agent项目感兴趣,可以看这里: Github Repo: Memo Code - Github 站点:Memo Web Site 大概四年前,我刚接触编程。学的是 C 语言,第一个程序当然是 hello world。 很简单,几行就写完。run 一下,弹出来一个 terminal(我已经忘了当时用的是什么:cmd?PowerShell?反正不重要),然后打印了一行: “hell


花 200 美刀买“黑盒”?Claude Code 这波更新,把程序员当傻子了吧…
Dcs2026/2/21

有些产品吧,功能再强,只要开始“藏事儿”,程序员的雷达立马就响了: 你到底读了哪个文件?你到底搜了啥?你到底改了啥?——别跟我说“别管细节,反正我很聪明”。哥们,工程不是玄学,是可验证、可追溯、可复盘。 然后,Claude Code 2.1.20 就真把这事做了:把“读取文件路径”和“搜索 pattern”这种最基础的可观测信息,直接干没了。 1)更新前 vs 更新后:从“可审计”变成“随缘”🤡 以前你会看到它读了哪些文件、搜了什么关键词,属于那种一眼就能判断它有没有跑偏的“低噪音透明输出”


在OrangePi-5 Plus/5 Ultra上实时运行yolo26进行无人机检测,fps超50!
吃素的力2026/3/1

在OrangePi-5 Plus/5 Ultra上使用VideoPipe与YOLO26n实现高性能无人机检测 视频效果展示 RK3588无人机检测 前言 随着低空经济的快速发展,无人机检测已成为安防监控、边境巡逻、关键区域保护等场景中的重要需求。OrangePi 5 Plus和OrangePi 5 Ultra作为瑞芯微RK3588平台的高性能开发板,凭借其强大的NPU算力,成为边缘端AI推理的理想选择。 本文将详细介绍如何基于VideoPipe框架,结合最新的Y

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客