Skip to content

Commit 4600c2b

Browse files
committed
20250304 deep learning 4 format
1 parent e62e769 commit 4600c2b

File tree

1 file changed

+46
-46
lines changed

1 file changed

+46
-46
lines changed

_posts/2025-03-04-deep-learning-2024autumn-04.md

Lines changed: 46 additions & 46 deletions
Original file line numberDiff line numberDiff line change
@@ -9,14 +9,14 @@ math: true
99

1010
_这份笔记使用的部分图片、内容来自于北京交通大学深度学习课程,版权归课题组和原作者所有。_
1111

12-
# 背景:关心的问题
12+
## 背景:关心的问题
1313

1414
- **优化问题:**训练集上是否有好的结果?
1515
- **泛化问题:**测试集上是否有好的结果?
1616

17-
## 优化问题
17+
### 优化问题
1818

19-
### 难点
19+
#### 难点
2020

2121
- 网络结构多样性
2222

@@ -37,7 +37,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
3737

3838
- 在高维空间中,局部最小值(Local Minima)要求在每一维度上都是最低点,这种概率非常低。也就说是高维空间中大部分驻点都是鞍点。
3939

40-
### 改善方法
40+
#### 改善方法
4141

4242
网络优化的改善方法的目标是更高效地找到更好的局部最小值
4343

@@ -52,7 +52,7 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
5252
- 逃离局部最优
5353
- 自适应学习率、梯度优化
5454

55-
# 小批量梯度下降
55+
## 小批量梯度下降
5656

5757
- 批量梯度下降(batch gradient descent):每次更新都使用整个训练集数据,需要较多计算资源。所以提出小批量梯度下降。
5858

@@ -66,13 +66,13 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
6666

6767
![image-20250304204857077](../assets/img/Autumn2024-hywan/image-20250304204857077.png)
6868

69-
## **对比**
69+
### **对比**
7070

7171
- **批量梯度下降**:利于寻找全局最优解,梯度方差小;但样本数目很多时,训练过程会很慢。
7272
- **随机梯度下降**:训练速度快;准确度下降,不利于寻找全局最优,梯度方差大。
7373
- **小批量梯度下降**:同时兼顾两种方法的优点。
7474

75-
## **批量大小的影响**
75+
### **批量大小的影响**
7676

7777
一般而言,批量大小不影响梯度的期望,但是会影响梯度的方差。
7878

@@ -81,26 +81,26 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
8181

8282
![image-20250304204909463](../assets/img/Autumn2024-hywan/image-20250304204909463.png)
8383

84-
# 学习率与梯度优化
84+
## 学习率与梯度优化
8585

8686
$$
8787
\theta^t=\theta^{t-1}-\alpha \bold{g}^t
8888
$$
8989

90-
## **学习率的影响**
90+
### **学习率的影响**
9191

9292
- 学习率过大:不收敛
9393
- 学习率过小:收敛太慢
9494

95-
### 学习率衰减(Learning Rate Decay)
95+
#### 学习率衰减(Learning Rate Decay)
9696

9797
- 开始时,距离极值点处很远,采用大些的学习率,尽快接近极值点。
9898
- 迭代多次后,接近极值点处,减小学习率,保证收敛,避免震荡。
9999
- 多种减小学习率的方式
100100

101101
![image-20250304204943497](../assets/img/Autumn2024-hywan/image-20250304204943497.png)
102102

103-
### 学习率预热
103+
#### 学习率预热
104104

105105
为什么:当batch-size比较大时,需要比较大的学习率。但开始训练的参数是随机初始化的,梯度往往也比较大,加上比较大的初始学习率,会使得训练不稳定。
106106

@@ -111,7 +111,7 @@ $$
111111

112112
- 当预热过程结束,再选择一种学习率衰减方法来逐渐降低学习率
113113

114-
### 周期性学习率调整
114+
#### 周期性学习率调整
115115

116116
为了逃离局部最小值或鞍点,可在训练过程中周期性地增大学习率。短期内有损收敛稳定性,长期来看有助于找到更好的局部最优解。
117117

@@ -124,7 +124,7 @@ $$
124124

125125
![image-20250304205407097](../assets/img/Autumn2024-hywan/image-20250304205407097.png)
126126

127-
### 从学习率衰减到自适应学习率
127+
#### 从学习率衰减到自适应学习率
128128

129129
学习率衰减的局限性
130130

@@ -138,7 +138,7 @@ $$
138138
- 而不常见特征的相关参数,由于缺乏足够的观测样本,所以其最佳值难以确定;
139139
- **学习率**要么对于常见特征的相关参数而言<u>衰减太慢</u>;要么对于不常见特征的相关参数而言<u>衰减太快</u>。
140140

141-
### AdaGrad算法:Adaptive Gradient Algorithm
141+
#### AdaGrad算法:Adaptive Gradient Algorithm
142142

143143
该算法借鉴了 L2 正则化的思想,每次迭代时,自适应地调整每个参数的学习率。
144144

@@ -155,17 +155,17 @@ $$
155155
- 如果某个参数的偏导数累计比较大(小);其学习率相对较小(大);
156156
- 整体来看,随着迭代次数的增加,学习率逐渐缩小
157157

158-
### RMSprop算法
158+
#### RMSprop算法
159159

160160
**AdaGrad 局限**:在经过一定次数的迭代依然没有找到最优点时,由于这时的学习率已经非常小,很难再继续找到最优点
161161

162162
**RMSprop**:将 $$G_t$$ 的计算由“梯度的平方的累积”方式变成了“梯度平方的指数衰减移动平均”, 可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。
163163

164164
![image-20250304210339596](../assets/img/Autumn2024-hywan/image-20250304210339596.png)
165165

166-
## 梯度修正
166+
### 梯度修正
167167

168-
### 动量法 (Momentum)
168+
#### 动量法 (Momentum)
169169

170170
动量(Momentum)是模拟物理中的概念。一个物体的动量指的是该物体在它运动方向上保持运动的趋势,是是该物体的质量和速度的乘积。
171171

@@ -177,13 +177,13 @@ $$
177177

178178
一般而言,在迭代初期,梯度方向都比较一致,动量法会起到加速作用,可以更快地到达最优点。在迭代后期,梯度方向会不一致,在收敛值附近震荡,动量法会起到减速作用,增加稳定性。
179179

180-
### Adam 算法
180+
#### Adam 算法
181181

182182
Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
183183

184184
![image-20250304211218828](../assets/img/Autumn2024-hywan/image-20250304211218828.png)
185185

186-
### 各优化算法比较
186+
#### 各优化算法比较
187187

188188
- RMSProp 和 Adam 更好
189189
- 目前最流行并且使用很高的优化算法包括:
@@ -193,7 +193,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
193193

194194
![image-20250304211329795](../assets/img/Autumn2024-hywan/image-20250304211329795.png)
195195

196-
### 梯度截断
196+
#### 梯度截断
197197

198198
除了梯度消失之外,梯度爆炸也是影响学习效率的主要因素。为了避免这种情况,当梯度的模大于一定阈值时,就对梯度进行截断,称为梯度截断(Gradient Clipping)
199199

@@ -207,7 +207,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
207207

208208
![image-20250304211535935](../assets/img/Autumn2024-hywan/image-20250304211535935.png)
209209

210-
# 参数初始化与数据预处理
210+
## 参数初始化与数据预处理
211211

212212
梯度下降法需要在开始训练时给每一个参数赋一个初始值。
213213

@@ -218,7 +218,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
218218
- 初始化范围太小:导致信号慢慢消失,还会使得 Sigmoid 型激活函数丢失非线性能力
219219
- 初始化范围太大:导致信号变得过大,还会使得 Sigmoid 型激活函数变得饱和,从而导致梯度消失
220220

221-
## 初始化方法
221+
### 初始化方法
222222

223223
- 预训练初始化:Pre-Training -> Fine-Tuning
224224
- 固定值初始化:对于一些特殊的参数,我们可以根据经验用一个特殊的固定值来进行初始化,如偏置(bias)通常用0初始化
@@ -227,7 +227,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
227227
- 基于方差缩放的参数初始化
228228
- 正交初始化方法
229229

230-
## 基于固定方差的参数初始化
230+
### 基于固定方差的参数初始化
231231

232232
目标:从一个固定均值(通常为 0)和方差 $$\sigma^2$$ 的分布中采样来生成参数的初始值
233233

@@ -247,73 +247,73 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
247247

248248
![image-20250304212728765](../assets/img/Autumn2024-hywan/image-20250304212728765.png)
249249

250-
### Xavier 初始化
250+
#### Xavier 初始化
251251

252252
![image-20250304213230936](../assets/img/Autumn2024-hywan/image-20250304213230936.png)
253253

254254
![image-20250304213316392](../assets/img/Autumn2024-hywan/image-20250304213316392.png)
255255

256-
### He 初始化
256+
#### He 初始化
257257

258258
何恺明团队提出
259259

260260
![image-20250304213704539](../assets/img/Autumn2024-hywan/image-20250304213704539.png)
261261

262-
### Xavier 初始化和 He 初始化的具体设置情况
262+
#### Xavier 初始化和 He 初始化的具体设置情况
263263

264264
![image-20250304213751970](../assets/img/Autumn2024-hywan/image-20250304213751970.png)
265265

266-
### 正交初始化
266+
#### 正交初始化
267267

268268
- 用均值为 0 、方差为 1 的高斯分布初始化一个矩阵;
269269
- 将这个矩阵用奇异值分解得到两个正交矩阵,并使用其中之一作为权重矩阵。
270270

271-
## 基于方差缩放的参数初始化
271+
### 基于方差缩放的参数初始化
272272

273273
![image-20250304213958288](../assets/img/Autumn2024-hywan/image-20250304213958288.png)
274274

275-
## 数据预处理
275+
### 数据预处理
276276

277277
数据尺度(Scale)不一样对优化的影响
278278

279279
![image-20250304214134222](../assets/img/Autumn2024-hywan/image-20250304214134222.png)
280280

281-
### 数据归一化
281+
#### 数据归一化
282282

283283

284284

285285
![image-20250304214158914](../assets/img/Autumn2024-hywan/image-20250304214158914.png)
286286

287-
### 白化
287+
#### 白化
288288

289289
![image-20250304214258337](../assets/img/Autumn2024-hywan/image-20250304214258337.png)
290290

291-
### 实际建议
291+
#### 实际建议
292292

293293
- 自然灰度图像:均值消减 → PCA/ZCA白化
294294
- 彩色图像:简单缩放 → PCA/ZCA白化
295295
- 音频 (MFCC/频谱图):特征标准化 → PCA/ZCA 白化
296296
- MNIST 手写数字:简单缩放/逐样本均值消减(→ PCA/ZCA 白化)
297297

298-
# 逐层归一化
298+
## 逐层归一化
299299

300-
## 批量归一化
300+
### 批量归一化
301301

302302
批量归一化是对一个中间层的**单个神经元**的K个样本(mini batch)进行归一化操作。
303303

304304
![image-20250304214611217](../assets/img/Autumn2024-hywan/image-20250304214611217.png)
305305

306-
## 层归一化
306+
### 层归一化
307307

308308
层归一化是对一个中间层的所有神经元进行归一化。
309309

310310
![image-20250304214955060](../assets/img/Autumn2024-hywan/image-20250304214955060.png)
311311

312-
## 批量归一化和层归一化的比较
312+
### 批量归一化和层归一化的比较
313313

314314
![image-20250304215110122](../assets/img/Autumn2024-hywan/image-20250304215110122.png)
315315

316-
# 超参数优化
316+
## 超参数优化
317317

318318
神经网络中的超参数:
319319

@@ -328,7 +328,7 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
328328

329329
- 网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索
330330

331-
## 网格搜索
331+
### 网格搜索
332332

333333
**不可取**
334334

@@ -340,23 +340,23 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
340340

341341
网格搜索根据这些超参数的不同组合分别训练一个模型,然后测试这些模型在验证集上的性能,选取一组性能最好的配置。
342342

343-
## 随机搜索
343+
### 随机搜索
344344

345345
超参数对模型性能影响程度不一样。采用网格搜索会在不重要的超参数上进行不必要的尝试。一种改进方法是对超参数进行随机组合,然后选取一个性能最好的配置,这就是随机搜索。
346346

347347
**在性能较好的点的附近进一步尝试搜索。**
348348

349349
![image-20250304215500059](../assets/img/Autumn2024-hywan/image-20250304215500059.png)
350350

351-
## 贝叶斯优化
351+
### 贝叶斯优化
352352

353353
![image-20250304215653002](../assets/img/Autumn2024-hywan/image-20250304215653002.png)
354354

355-
## 动态资源分配
355+
### 动态资源分配
356356

357357
![image-20250304215719879](../assets/img/Autumn2024-hywan/image-20250304215719879.png)
358358

359-
# 过拟合与正则化
359+
## 过拟合与正则化
360360

361361
如何提高神经网络的泛化能力:
362362

@@ -365,21 +365,21 @@ Adam算法:自适应学习率(RMSprop)+梯度方向优化(动量法)
365365
- Dropout
366366
- 数据增强
367367

368-
## l1 和 l2 正则化
368+
### l1 和 l2 正则化
369369

370370
![image-20250304215908674](../assets/img/Autumn2024-hywan/image-20250304215908674.png)
371371

372372
![image-20250304215919512](../assets/img/Autumn2024-hywan/image-20250304215919512.png)
373373

374374
![image-20250304220214967](../assets/img/Autumn2024-hywan/image-20250304220214967.png)
375375

376-
## 提前停止
376+
### 提前停止
377377

378378
使用一个验证集来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止选代。
379379

380380
![image-20250304220258576](../assets/img/Autumn2024-hywan/image-20250304220258576.png)
381381

382-
## Dropout
382+
### Dropout
383383

384384
![image-20250304220353068](../assets/img/Autumn2024-hywan/image-20250304220353068.png)
385385

@@ -388,7 +388,7 @@ Dropout为什么会提升网络优化效果?
388388
- Dropout简化了网络,防止过拟合
389389
- Dropout可看作是一种集成学习:M个神经元 -> $$2^M$$个可能的网络
390390

391-
## 数据增强
391+
### 数据增强
392392

393393
图像数据的增强主要是通过算法对图像进行转变,引入噪声等方法来增加数据的多样性以及训练数据量。
394394

0 commit comments

Comments
 (0)