大模型应用开发学习第一天

作者:程序员雷欧日期:2026/4/4

从今天开始,雷欧将和大家一起学习大模型应用开发。我们不搞基础,不搞虚的,只搞最重要的知识来学习。

今天,我们要学习的是Transformer架构!!当然,底层机理,包括代码实现,并不需要我们知道,那么,我们需要学会什么呢?咱接着往下看……

首先,简单介绍一下什么是Transformer,Transformer是一种基于纯注意力机制的神经网络架构,由谷歌在2017年提出,最初用于机器翻译任务,现在已成为NLP和CV领域的基础架构。

1.Transformer整体架构

Transformer采用Encoder-Decoder结构,但与传统的RNN序列到序列模型不同,它完全依赖注意力机制来捕获序列中的全局依赖关系。

这话读完,OK,傻眼了,不急雷欧来慢慢和大家拆解:

首先就是这个Encoder-Decoder结构,这玩意是啥呢,从字面上看,翻译成中文那不就是编码器和解码器嘛,大家可以想象成翻译员的工作,Encoder就负责听和理解句子,Decoder就负责翻译车工目标语言,例如:

你好(中文)->Encoder理解句子含义->Decoder->Hello(英文)

好,现在知道了Encoder和Decoder,继续往后看,这RNN又是个啥?RNN学名叫循环神经网络,有的小伙伴就要问了,哎,雷欧,这啥东西啊。其实,你不需要知道他是啥东西,你只需要知道它是干啥的,它是顺序的处理一句话的,比如他喜欢学习,这句话使用RNN就需要先处理他,处理完才能处理喜欢,最后处理学习,必须按照顺序一个一个的处理。

咱都是搞开发的,顺序执行往往就和效率挂钩,而且,针对大模型来说,我要是有1万个他喜欢学习,你能保证当他处理到第500个他喜欢学习的时候,前面的信息它还记得吗,使用RNN可无法保证。

简单来说,就一句话,Encoder-Decoder结构能解决传统RNN顺序处理文字,当文字过长而导致的信息丢失问题。

下一个问题又来了,注意力又是个什么玩意啊?注意力其实就像一个全局审视。

Encoder-> 他在学习

注意力-> 让学习能同时看到他和在

Decoder-> 根据他和在来翻译学习

总结成三个词就是看全文,抓重点,记得牢

通俗解释完成,下来仔细拆解拆解。

2.Encoder编码器

Encoder由 N个相同的层(默认N=6) 堆叠而成,每层包含两个子层:

  1. 多头自注意力机制(Multi-Head Self-Attention)
  2. 前馈神经网络(Feed-Forward Neural Network)

每个子层都采用残差连接(Residual Connection)层归一化(Layer Normalization),即:

Encoder工作流程

  • 输入序列(如原始句子)首先转换为词嵌入(Word Embedding),并加上位置编码。
  • 通过多头自注意力机制,每个词可以关注序列中的所有其他词,捕获词与词之间的依赖关系。
  • 前馈神经网络对每个词的表示进行非线性变换。
  • 数据流:词嵌入(Embedding) → 位置编码(Positional Encoding)→ 多头注意力(Multi-Head Attention) → 残差连接与层归一化(Add & Norm)→ 前馈神经网络(FFN) → 残差连接与层归一化(Add & Norm)→ 输出

我敢保证,上面这一段读完,很多欧迷都是懵逼状态,根本不懂这是啥,咱们慢慢学习

首先我们先来整体理解一下Encoder是干什么的,之前我们说过,它是倾听者,转换到计算机上来说就是它的作用就是将输入的句子进行理解,消化成计算机能处理的知识

就像我们读书时理解一段文字的过程:

  • 第一遍读:大概了解
  • 第二遍读:深入理解
  • ...
  • 第六遍读:完全吃透

Transformer 的 Encoder 就是这样层层叠加理解,默认 6 层,可以更多或更少。

接下来是每一层的的两个工具:

多头自注意力"全局审视"让每个词看看句子中其他所有词,找出关联
前馈神经网络"深度思考"对每个词进行独立的消化、提炼

多头自注意力(Multi-Head Self-Attention)

作用:让每个词"看到"句子中的所有其他词

"多头"的意思:从不同角度同时看问题

角度(头)关注重点
头1语法结构(主语、谓语)
头2语义关联(谁做什么)
头3位置关系(在哪、什么时候)
......

8个"头"同时工作,综合起来理解更全面!


前馈神经网络(FFN)

作用:对每个词进行"深度加工"

比喻

  • 多头注意力像"广泛收集信息"
  • 前馈神经网络像"深入思考提炼"

4. 残差连接 + 层归一化(Add & Norm)

比喻:每层加了"保险"

机制作用比喻
残差连接保留原始信息,防止梯度消失做题时保留草稿,方便检查
层归一化稳定训练,加速收敛考试前调整心态,保持平稳

一句话总结:

Encoder 就像一个阅读理解高手,读6遍书,每遍用8个角度同时理解,最后把句子消化成高质量的知识向量

3.Decoder解码器

Decoder同样由 N个相同的层 堆叠而成,但每层包含三个子层:

  1. 多头自注意力(Masked Multi-Head Self-Attention)
  2. 编码器-解码器注意力(Encoder-Decoder Attention)
  3. 前馈神经网络

关键机制

  • 掩码多头注意力(Masked Multi-Head Attention):在训练时,遮挡未来位置的 token,防止信息泄露。
  • Encoder-Decoder Attention:Query 来自前一个 Decoder 层,Key 和 Value 来自 Encoder 的输出,使 Decoder 能关注输入序列的相关部分。

Decoder工作流程

  • 输入已生成的词(训练时为目标序列,推理时逐步生成)。
  • 通过 Masked Multi-Head Attention 防止看到未来信息。
  • 与 Encoder 的输出进行交互(Encoder-Decoder Attention)。
  • 最后通过线性层和 Softmax 生成下一个词的预测概率。

简单解释一下:

Decoder 就像一个翻译员,边写边猜下一个词。每次猜的时候:

  1. 只看自己已经写好的部分(掩码注意力)
  2. 随时参考原文意思(Encoder-Decoder Attention)
  3. 选一个概率最高的词写下来

4.注意力机制

注意力机制的核心是 缩放点积注意力(Scaled Dot-Product Attention):

  • Q(Query):查询向量,表示当前 token 想关注什么。
  • K(Key):键向量,表示每个 token 能提供的信息。
  • V(Value):值向量,表示实际要传递的信息。
  • 缩放因子​​:防止点积结果过大导致梯度消失。

总结:

注意力机制就像一个检索系统

  • Q = 你想问的问题
  • K = 信息的标签/索引
  • V = 信息的详细内容

通过比较 Q 和 K 的相似度,找出最相关的信息(V),然后"关注"它。

5.多头注意力

多头注意力通过并行运行多个注意力头,让模型关注不同位置的不同表示子空间:

  • 多头数量:默认 8 个。
  • 线性投影:每个头有独立的 投影矩阵,最后进行合并。

在Transformer中的应用

  1. Encoder自注意力:Q、K、V 都来自同一个序列(输入)。
  2. Decoder自注意力:Q、K、V 来自同一个序列(已生成部分),需Mask未来位置。
  3. Encoder-Decoder注意力:Q 来自 Decoder,K 和 V 来自 Encoder。

这个就不需要多说了,意思就是从不同的角度去理解问题,因此叫多头。

6.位置编码

由于注意力机制本身无法区分词的顺序,Transformer通过正弦位置编码注入位置信息:

  • 每个位置对应一个唯一的向量,加到词嵌入上。
  • 正弦/余弦函数使模型能学习相对位置关系。

位置编码就像给每个词发一张"座位号"

  • 正弦/余弦函数生成独特的座位号
  • 座位号相加到词嵌入上
  • 模型因此知道词的顺序
  • 而且还能推算出词与词之间的相对距离

好,接下来,我们用自己的话,完整的解释一下,什么是transform:

Transformer = 超级"理解+生成"机器

  • 编码器:理解输入,像认真读书的学生划重点
  • 注意力机制:找到相关的信息,像考试时定位关键词
  • 解码器:根据理解生成输出,像根据笔记回答问题
  • 位置编码:记住词语顺序,像标注页码

核心能力:理解上下文 → 生成正确内容

相信大家读完这篇文章,一定会对transform有自己的理解,会说流程就好。

我是程序员雷欧,我们下次见……


大模型应用开发学习第一天》 是转载文章,点击查看原文


相关推荐


腾讯云WorkBuddy实战, 全场景智能体工作搭子,这只龙虾真能帮你干活吗
不惑_2026/3/26

全网都在养虾。 朋友圈被刷屏了。同事也在搞。连高盛的分析师都惊了,说中国人接受AI的速度令人震惊。 但说实话,在我真正装上WorkBuddy之前,我是持怀疑态度的。 之前OpenClaw火的时候,很多人的真实体验是,折腾三小时,报错二十次,连命令行都没跑起来。一个面向普通人的AI工具,如果连安装都搞不定,那跟没有有什么区别? 所以当腾讯说WorkBuddy零部署、下载就能用的时候, 我第一反应是,真的假的。 ▲ WorkBuddy桌面端主界面,打开就是一个对话框,简洁到有点不像腾讯的风格 装上


JavaScript 中 Map 的完整解析
小李子呢02112026/3/18

Map 是 ES6 新增的键值对集合类型,专门用于解决普通对象({})作为键值存储的痛点(比如键只能是字符串 / 符号、无法直接获取长度等)。 1. 核心特性 特性说明键的类型可以是任意类型(数字、字符串、布尔值、对象、函数、null/undefined)遍历顺序严格按照插入顺序遍历(普通对象不保证)长度获取直接通过 map.size 获取(普通对象需手动计算 Object.keys(obj).length)键的唯一性同一个键只能存一个值(重复设值会覆盖)内存 / 性能存储大量键值对时,Ma


动态规划 线性 DP 经典四题一遍吃透
乌萨奇也要立志学C++2026/3/10

文章目录 台阶问题最大子段和传球游戏乌龟棋 线性dp 是动态规划问题中最基础、最常⻅的⼀类问题。它的特点是状态转移只依赖于前⼀个或前⼏个状态,状态之间的关系是线性的,通常可以⽤⼀维或者⼆维数组来存储状态。 我们在⼊⻔阶段解决的《下楼梯》以及《数字三⻆形》其实都是线性dp,⼀个是⼀维的,另⼀个是⼆ 维的。 台阶问题 题目描述 题目解析 本题就是上一节下楼梯的问题的加强版,总体思路不变,下面我们还是按照动规5板斧来分析一下这道题。 1、状态表示 dp[i]表示走到


一款使用 C# 编写专为 Windows 11 打造的文件资源管理器增强工具!
追逐时光者2026/3/2

前言 在 Windows 11 中,文件资源管理器虽已支持标签页,但默认行为仍会打开多个独立窗口,容易造成桌面混乱。今天大姚给大家分享一款专为 Windows 11 打造的文件资源管理器增强工具:ExplorerTabUtility,它能够自动将新打开的资源管理器窗口转换为标签页,助您实现更简洁、更有条理的文件管理体验。 工具介绍 ExplorerTabUtility 是一款使用 C# 编写专为 Windows 11 文件资源管理器设计的增强型工具,开源免费(MIT license),旨在解决原


AGENTS.md 真的对 AI Coding 有用吗?或许在此之前你没用对?
恋猫de小郭2026/2/22

AGENTS.md 相信大家应该不陌生,它们一般都是被放在根目录的典型 Context Files ,这些文件被默认作为 Coding Agnet 的 「README」,一般是用来提供仓库概览、工具链指令、编码规范或者设计模式等,不少 Agent 还提供 /init 之类命令自动生成这些文件。 实际上在此之前大家都是 GEMINI.md 、CLAUDE.md 、copilot-instructions.md 之类的各自为政,而 2025 之后,OpenAI、谷歌、Cursor 和 Source


【机器学习:逻辑回归】
Keep__Fighting2026/2/13

【逻辑回归】 1、简介 我们知道回归任务一般是处理线性问题的,预测结果是连续的,分类任务是结果是离散的。对于分类问题,在传统的机器学习算法中有很多解决方法,这里讲一下众多思想,其中之一——逻辑回归。 逻辑回归(Logistic Regression)通过将线性回归的输出映射到(0,1)区间,得到一个概率值,通过设定阈值的方式达到分类的效果,在此之中,使用Sigmoid函数将连续值转换为概率值,也即使用Sigmoid映射线性结果到(0,1)之间。 2、激活函数(概率映射) 在逻辑回归中,除了使用s


Slidev:开发者专属的演示文稿神器
修己xj2026/2/5

最近我在逛GitHub时,发现了一个很有意思的项目——Slidev。如果用一句话来总结,那就是: 用 Markdown 写幻灯片,让技术分享更高效、更优雅。 今天就来给大家推荐一下这个项目。 ❓为什么选择 Slidev? 作为开发者,我们经常需要做技术分享、产品演示或会议报告。传统的演示工具(如 PowerPoint、Keynote)虽然功能强大,但对于代码展示和实时编程演示往往力不从心。这就是 Slidev 诞生的原因——专为开发者设计的演示文稿工具。 Slidev(Slide + de


机器学习特征选择:深入理解移除低方差特征与sklearn的VarianceThreshold
郝学胜-神的一滴2026/1/26

机器学习特征选择:深入理解移除低方差特征与sklearn的VarianceThreshold 引言:为什么特征选择如此重要?一、低方差特征为什么需要移除?1.1 低方差特征的问题1.2 低方差特征的典型场景1.3 数学表达 二、sklearn的VarianceThreshold详解2.1 基本用法2.2 关键参数说明2.3 重要属性 三、实战案例:电商用户行为分析3.1 数据集描述3.2 应用VarianceThreshold3.3 结果分析 四、进阶技巧与注意事项4.1 数据标准


用bhyve-webadmin来管理FreeBSD系统下的bhyve虚拟机(上)
skywalk81632026/1/17

BVCP((Bhyve Virtual-Machine Control Panel ,bhyve-webadmin )是一个图形化和安全的web控制面板,旨在管理FreeBSD bhyve虚拟机。BVCP专为数据中心级可靠性而设计,专为连续24/7运行而构建,专注于稳定性和性能。它是一个本机FreeBSD应用程序,具有简单的一键安装过程,确保快速轻松的部署。BVCP独立于系统配置运行,不修改现有设置,允许它在大多数环境中平稳运行。使用BVCP,管理员可以通过单个统一的界面管理多个物理主机,而不需


计算机视觉入门到实战系列(六)边缘检测sobel算子
_codemonster2026/1/9

边缘检测 一、核心原理:变化的度量二、核心步骤(传统方法)三、经典边缘检测算子sobel算子计算X轴方向梯度计算Y轴方向梯度聚合 一、核心原理:变化的度量 边缘的本质是图像函数(灰度值、颜色值)的突然变化或不连续性。在数学上,这种“变化”可以通过导数或梯度来度量。 一维信号类比:想象一个一维的灰度信号(一条扫描线)。在平坦区域,灰度值恒定,导数为 0。在斜坡(灰度渐变)区域,导数为一个非零常数。在阶跃(灰度突变,即边缘)处,导数会达到一个极值(峰值)。扩展到二维图像:对于二

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客