一文搞懂激活函数！

推荐直接网站在线阅读：aicoting.cn

在深度学习中，激活函数（Activation Function）是神经网络的灵魂。它不仅赋予网络非线性能力，还决定了训练的稳定性和模型性能。那么，激活函数到底是什么？为什么我们非用不可？有哪些经典函数？又该如何选择？

所有相关源码示例、流程图、模型配置与知识库构建技巧，我也将持续更新在Github：AIHub，欢迎关注收藏！

1. 什么是激活函数，为什么需要激活函数

激活函数的核心作用就是为神经网络引入非线性。

为什么需要非线性？想象一下，如果网络里每一层都是线性的（比如 y=Wx+b），无论堆叠多少层，最终网络都只是一条线性映射。深度堆叠就没有意义了，网络的表达能力非常有限。
激活函数的作用激活函数在每个神经元输出前进行非线性变换，让网络可以拟合复杂的函数关系，从而解决分类、回归等非线性问题。

直观理解一下，激活函数就像神经网络里的开关或滤镜，它决定了每个神经元应该多大程度地激活，从而使网络具备强大的表达能力。

2. 经典的激活函数

在深度学习中，有几类经典激活函数，每种都有自己的优缺点：

2.1 Sigmoid

公式：

f(x)=11+e−x

添加图片注释，不超过 140 字（可选）

优点：输出范围在 (0,1)，可以表示概率
缺点：容易饱和（输入过大或过小时梯度接近0，导致梯度消失）
应用场景：二分类输出层

2.2 Tanh（双曲正切）

公式： f(x)=tanh⁡(x)=ex−e−xex+e−x

添加图片注释，不超过 140 字（可选）

优点：输出在 (−1,1)，比 sigmoid 居中，对梯度更友好
缺点：仍可能梯度消失
应用场景：RNN 隐层

2.3 ReLU（Rectified Linear Unit）

公式： f(x)=max(0,x)

添加图片注释，不超过 140 字（可选）

优点：计算简单，导数恒为1（正区间），缓解梯度消失
缺点：负区间可能“死亡”，即神经元永远不激活
应用场景：隐藏层主流激活函数

2.4 Leaky ReLU / Parametric ReLU（PReLU）

公式：

f(x)={x,x>0αx,x≤0(α≈0.01)

添加图片注释，不超过 140 字（可选）

Leaky ReLU: 对负区间引入一个小斜率，避免神经元死亡
PReLU: 斜率可学习，更灵活

2.5 Softmax

公式： Softmax(xi)=exi∑jexj Softmax 输出的是一组归一化的概率，在图中使用柱状图 (bar chart) 展示每个输入元素对应的概率值。

作用：多分类输出概率分布
应用场景：分类任务输出层

2.6 ELU（Exponential Linear Unit）

公式： f(x)={xif x>0α(ex−1)if x≤0

添加图片注释，不超过 140 字（可选）

特点：负区间平滑非零，避免 ReLU 死区问题。
优点：输出均值更接近 0，梯度更稳定。
常用于：深层 CNN、MLP。

2.7 SELU（Scaled Exponential Linear Unit）

公式： f(x)=λ⋅ELU(α,x)

其中 λ≈1.05，α≈1.67。

添加图片注释，不超过 140 字（可选）

特点：在特定初始化下能实现自归一化，保持激活均值和方差稳定。
优点：无需 BatchNorm。
常用于：自归一化神经网络（Self-Normalizing NN）。

2.8 GELU（Gaussian Error Linear Unit）

公式： f(x)=x⋅Φ(x)≈0.5x(1+tanh⁡[2/π(x+0.044715x3)])

其中 Φ(x)是标准正态分布 CDF。

添加图片注释，不超过 140 字（可选）

特点：在 ReLU 的基础上引入概率思想，让激活与输入大小平滑相关。
优点：更平滑、更稳定，效果普遍优于 ReLU。
常用于： Transformer（BERT、GPT、ViT）。

2.9 SiLU（Swish）

公式： f(x)=x⋅σ(x)

添加图片注释，不超过 140 字（可选）

特点：与 GELU 类似，是一种平滑版 ReLU。
优点：梯度连续，优化更稳定。
常用于： EfficientNet、Transformer。

2.10 GLU（Gated Linear Unit）

GLU/SwiGLU 在实际中是门控形式（two linear branches），是向量上的逐元素操作；为了在一维上可视化，我用简化的标量形式来画图 —— 把两条分支都用相同的输入值（即把 a=x, b=x），因此 GLU(x)=x∗sigmoid(x) SwiGLU(x)=x∗SiLU(x) 。这能直观展示门控机制的形状差异。

公式：

f(x)=(xW1)⊙σ(xW2)