20250304 deep learning 4 format

ymzhang-cs · ymzhang-cs · commit 4600c2b0a43f · 2025-03-04T22:16:36.000+08:00
diff --git a/_posts/2025-03-04-deep-learning-2024autumn-04.md b/_posts/2025-03-04-deep-learning-2024autumn-04.md
@@ -9,14 +9,14 @@ math: true
 
 _这份笔记使用的部分图片、内容来自于北京交通大学深度学习课程，版权归课题组和原作者所有。_
 
-# 背景：关心的问题
+## 背景：关心的问题
 
 - **优化问题：**训练集上是否有好的结果？
 - **泛化问题：**测试集上是否有好的结果？
 
-## 优化问题
+### 优化问题
 
-### 难点
+#### 难点
 
 - 网络结构多样性
 
@@ -37,7 +37,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
 
   - 在高维空间中，局部最小值（Local Minima）要求在每一维度上都是最低点，这种概率非常低。也就说是高维空间中大部分驻点都是鞍点。
 
-### 改善方法
+#### 改善方法
 
 网络优化的改善方法的目标是更高效地找到更好的局部最小值
 
@@ -52,7 +52,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
   - 逃离局部最优
     - 自适应学习率、梯度优化
 
-# 小批量梯度下降
+## 小批量梯度下降
 
 - 批量梯度下降（batch gradient descent）：每次更新都使用整个训练集数据，需要较多计算资源。所以提出小批量梯度下降。
 
@@ -66,13 +66,13 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
 
 ![image-20250304204857077](../assets/img/Autumn2024-hywan/image-20250304204857077.png)
 
-## **对比**
+### **对比**
 
 - **批量梯度下降**：利于寻找全局最优解，梯度方差小；但样本数目很多时，训练过程会很慢。
 - **随机梯度下降**：训练速度快；准确度下降，不利于寻找全局最优，梯度方差大。
 - **小批量梯度下降**：同时兼顾两种方法的优点。
 
-## **批量大小的影响**
+### **批量大小的影响**
 
 一般而言，批量大小不影响梯度的期望，但是会影响梯度的方差。
 
@@ -81,26 +81,26 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
 
 ![image-20250304204909463](../assets/img/Autumn2024-hywan/image-20250304204909463.png)
 
-# 学习率与梯度优化
+## 学习率与梯度优化
 
 $$
 \theta^t=\theta^{t-1}-\alpha \bold{g}^t
 $$
 
-## **学习率的影响**
+### **学习率的影响**
 
 - 学习率过大：不收敛
 - 学习率过小：收敛太慢
 
-### 学习率衰减（Learning Rate Decay）
+#### 学习率衰减（Learning Rate Decay）
 
 - 开始时，距离极值点处很远，采用大些的学习率，尽快接近极值点。
 - 迭代多次后，接近极值点处，减小学习率，保证收敛，避免震荡。
 - 多种减小学习率的方式
 
 ![image-20250304204943497](../assets/img/Autumn2024-hywan/image-20250304204943497.png)
 
-### 学习率预热
+#### 学习率预热
 
 为什么：当batch-size比较大时，需要比较大的学习率。但开始训练的参数是随机初始化的，梯度往往也比较大，加上比较大的初始学习率，会使得训练不稳定。
 
@@ -111,7 +111,7 @@ $$
 
 - 当预热过程结束，再选择一种学习率衰减方法来逐渐降低学习率
 
-### 周期性学习率调整
+#### 周期性学习率调整
 
 为了逃离局部最小值或鞍点，可在训练过程中周期性地增大学习率。短期内有损收敛稳定性，长期来看有助于找到更好的局部最优解。
 
@@ -124,7 +124,7 @@ $$
 
 ![image-20250304205407097](../assets/img/Autumn2024-hywan/image-20250304205407097.png)
 
-### 从学习率衰减到自适应学习率
+#### 从学习率衰减到自适应学习率
 
 学习率衰减的局限性
 
@@ -138,7 +138,7 @@ $$
 - 而不常见特征的相关参数，由于缺乏足够的观测样本，所以其最佳值难以确定；
 - **学习率**要么对于常见特征的相关参数而言<u>衰减太慢</u>；要么对于不常见特征的相关参数而言<u>衰减太快</u>。
 
-### AdaGrad算法：Adaptive Gradient Algorithm
+#### AdaGrad算法：Adaptive Gradient Algorithm
 
 该算法借鉴了 L2 正则化的思想，每次迭代时，自适应地调整每个参数的学习率。
 
@@ -155,17 +155,17 @@ $$
 - 如果某个参数的偏导数累计比较大（小）；其学习率相对较小（大）；
 - 整体来看，随着迭代次数的增加，学习率逐渐缩小
 
-### RMSprop算法
+#### RMSprop算法
 
 **AdaGrad 局限**：在经过一定次数的迭代依然没有找到最优点时，由于这时的学习率已经非常小，很难再继续找到最优点
 
 **RMSprop**：将 $$G_t$$ 的计算由“梯度的平方的累积”方式变成了“梯度平方的指数衰减移动平均”, 可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。
 
 ![image-20250304210339596](../assets/img/Autumn2024-hywan/image-20250304210339596.png)
 
-## 梯度修正
+### 梯度修正
 
-### 动量法 （Momentum）
+#### 动量法 （Momentum）
 
 动量（Momentum）是模拟物理中的概念。一个物体的动量指的是该物体在它运动方向上保持运动的趋势，是是该物体的质量和速度的乘积。
 
@@ -177,13 +177,13 @@ $$
 
 一般而言，在迭代初期，梯度方向都比较一致，动量法会起到加速作用，可以更快地到达最优点。在迭代后期，梯度方向会不一致，在收敛值附近震荡，动量法会起到减速作用，增加稳定性。
 
-### Adam 算法
+#### Adam 算法
 
 Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 ![image-20250304211218828](../assets/img/Autumn2024-hywan/image-20250304211218828.png)
 
-### 各优化算法比较
+#### 各优化算法比较
 
 - RMSProp 和 Adam 更好
 - 目前最流行并且使用很高的优化算法包括：
@@ -193,7 +193,7 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 ![image-20250304211329795](../assets/img/Autumn2024-hywan/image-20250304211329795.png)
 
-### 梯度截断
+#### 梯度截断
 
 除了梯度消失之外，梯度爆炸也是影响学习效率的主要因素。为了避免这种情况，当梯度的模大于一定阈值时，就对梯度进行截断，称为梯度截断（Gradient Clipping）
 
@@ -207,7 +207,7 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 ![image-20250304211535935](../assets/img/Autumn2024-hywan/image-20250304211535935.png)
 
-# 参数初始化与数据预处理
+## 参数初始化与数据预处理
 
 梯度下降法需要在开始训练时给每一个参数赋一个初始值。
 
@@ -218,7 +218,7 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 - 初始化范围太小：导致信号慢慢消失，还会使得 Sigmoid 型激活函数丢失非线性能力
 - 初始化范围太大：导致信号变得过大，还会使得 Sigmoid 型激活函数变得饱和，从而导致梯度消失
 
-## 初始化方法
+### 初始化方法
 
 - 预训练初始化：Pre-Training -> Fine-Tuning
 - 固定值初始化：对于一些特殊的参数，我们可以根据经验用一个特殊的固定值来进行初始化，如偏置（bias）通常用0初始化
@@ -227,7 +227,7 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
   - 基于方差缩放的参数初始化
   - 正交初始化方法
 
-## 基于固定方差的参数初始化
+### 基于固定方差的参数初始化
 
 目标：从一个固定均值（通常为 0）和方差 $$\sigma^2$$ 的分布中采样来生成参数的初始值
 
@@ -247,73 +247,73 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 ![image-20250304212728765](../assets/img/Autumn2024-hywan/image-20250304212728765.png)
 
-### Xavier 初始化
+#### Xavier 初始化
 
 ![image-20250304213230936](../assets/img/Autumn2024-hywan/image-20250304213230936.png)
 
 ![image-20250304213316392](../assets/img/Autumn2024-hywan/image-20250304213316392.png)
 
-### He 初始化
+#### He 初始化
 
 何恺明团队提出
 
 ![image-20250304213704539](../assets/img/Autumn2024-hywan/image-20250304213704539.png)
 
-### Xavier 初始化和 He 初始化的具体设置情况
+#### Xavier 初始化和 He 初始化的具体设置情况
 
 ![image-20250304213751970](../assets/img/Autumn2024-hywan/image-20250304213751970.png)
 
-### 正交初始化
+#### 正交初始化
 
 - 用均值为 0 、方差为 1 的高斯分布初始化一个矩阵；
 - 将这个矩阵用奇异值分解得到两个正交矩阵，并使用其中之一作为权重矩阵。
 
-## 基于方差缩放的参数初始化
+### 基于方差缩放的参数初始化
 
 ![image-20250304213958288](../assets/img/Autumn2024-hywan/image-20250304213958288.png)
 
-## 数据预处理
+### 数据预处理
 
 数据尺度（Scale）不一样对优化的影响
 
 ![image-20250304214134222](../assets/img/Autumn2024-hywan/image-20250304214134222.png)
 
-### 数据归一化
+#### 数据归一化
 
 
 
 ![image-20250304214158914](../assets/img/Autumn2024-hywan/image-20250304214158914.png)
 
-### 白化
+#### 白化
 
 ![image-20250304214258337](../assets/img/Autumn2024-hywan/image-20250304214258337.png)
 
-### 实际建议
+#### 实际建议
 
 - 自然灰度图像：均值消减 → PCA/ZCA白化
 - 彩色图像：简单缩放 → PCA/ZCA白化
 - 音频 (MFCC/频谱图)：特征标准化 → PCA/ZCA 白化
 - MNIST 手写数字：简单缩放/逐样本均值消减（→ PCA/ZCA 白化）
 
-# 逐层归一化
+## 逐层归一化
 
-## 批量归一化
+### 批量归一化
 
 批量归一化是对一个中间层的**单个神经元**的K个样本（mini batch）进行归一化操作。
 
 ![image-20250304214611217](../assets/img/Autumn2024-hywan/image-20250304214611217.png)
 
-## 层归一化
+### 层归一化
 
 层归一化是对一个中间层的所有神经元进行归一化。
 
 ![image-20250304214955060](../assets/img/Autumn2024-hywan/image-20250304214955060.png)
 
-## 批量归一化和层归一化的比较
+### 批量归一化和层归一化的比较
 
 ![image-20250304215110122](../assets/img/Autumn2024-hywan/image-20250304215110122.png)
 
-# 超参数优化
+## 超参数优化
 
 神经网络中的超参数：
 
@@ -328,7 +328,7 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 - 网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索
 
-## 网格搜索
+### 网格搜索
 
 **不可取**
 
@@ -340,23 +340,23 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 
 网格搜索根据这些超参数的不同组合分别训练一个模型，然后测试这些模型在验证集上的性能，选取一组性能最好的配置。
 
-## 随机搜索
+### 随机搜索
 
 超参数对模型性能影响程度不一样。采用网格搜索会在不重要的超参数上进行不必要的尝试。一种改进方法是对超参数进行随机组合，然后选取一个性能最好的配置，这就是随机搜索。
 
 **在性能较好的点的附近进一步尝试搜索。**
 
 ![image-20250304215500059](../assets/img/Autumn2024-hywan/image-20250304215500059.png)
 
-## 贝叶斯优化
+### 贝叶斯优化
 
 ![image-20250304215653002](../assets/img/Autumn2024-hywan/image-20250304215653002.png)
 
-## 动态资源分配
+### 动态资源分配
 
 ![image-20250304215719879](../assets/img/Autumn2024-hywan/image-20250304215719879.png)
 
-# 过拟合与正则化
+## 过拟合与正则化
 
 如何提高神经网络的泛化能力：
 
@@ -365,21 +365,21 @@ Adam算法：自适应学习率（RMSprop）+梯度方向优化（动量法）
 - Dropout
 - 数据增强
 
-## l1 和 l2 正则化
+### l1 和 l2 正则化
 
 ![image-20250304215908674](../assets/img/Autumn2024-hywan/image-20250304215908674.png)
 
 ![image-20250304215919512](../assets/img/Autumn2024-hywan/image-20250304215919512.png)
 
 ![image-20250304220214967](../assets/img/Autumn2024-hywan/image-20250304220214967.png)
 
-## 提前停止
+### 提前停止
 
 使用一个验证集来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降，就停止选代。
 
 ![image-20250304220258576](../assets/img/Autumn2024-hywan/image-20250304220258576.png)
 
-## Dropout
+### Dropout
 
 ![image-20250304220353068](../assets/img/Autumn2024-hywan/image-20250304220353068.png)
 
@@ -388,7 +388,7 @@ Dropout为什么会提升网络优化效果？
 - Dropout简化了网络，防止过拟合
 - Dropout可看作是一种集成学习：M个神经元 -> $$2^M$$个可能的网络
 
-## 数据增强
+### 数据增强
 
 图像数据的增强主要是通过算法对图像进行转变，引入噪声等方法来增加数据的多样性以及训练数据量。