Skip to content

Commit 2c40031

Browse files
committed
20240905 update 3 passages
1 parent 5541f2f commit 2c40031

File tree

58 files changed

+911
-0
lines changed

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

58 files changed

+911
-0
lines changed
Lines changed: 155 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,155 @@
1+
---
2+
title: 深度学习课程笔记(一):基础知识
3+
author: me
4+
date: 2024-09-04 23:00:00 +0800
5+
categories: [Machine Learning, Basic]
6+
tags: [machine learning, deep learning, python]
7+
math: true
8+
---
9+
10+
## 机器学习基础概念
11+
12+
1. 机器学习算法分类
13+
14+
![image-20240823205800964](../assets/img/Autumn2024-hywan/image-20240823205800964.png)
15+
16+
## 数学基础
17+
18+
1. 范数:一个表示向量长度的函数
19+
- $$l_1$$ 范数:向量的各个元素的绝对值之和
20+
21+
- $$l_2$$ 范数:向量的各个元素的平方和再开平方
22+
23+
- $$l_\infin$$ 范数:向量的各个元素的最大绝对值
24+
25+
- 矩阵的范数
26+
27+
- 常用的 $$l_p$$ 范数
28+
29+
![image-20240823211350592](../assets/img/Autumn2024-hywan/image-20240823211350592.png)
30+
31+
- 矩阵的F范数是向量的l2范数的推广
32+
33+
![image-20240823211519637](../assets/img/Autumn2024-hywan/image-20240823211519637.png)
34+
35+
2. 矩阵微分:多元微积分的一种表达方式,即使用矩阵和向量来表示因变量每个成分关于
36+
自变量每个成分的偏导数
37+
38+
- 分母布局
39+
40+
![image-20240823212008494](../assets/img/Autumn2024-hywan/image-20240823212008494.png)
41+
42+
## 线性模型
43+
44+
深度学习除了最后一层,前面的N-1层都是在做特征变换(特征表示),只有最后一层在完成真正的任务(回归、分类)。
45+
46+
- 线性回归:输出的标签是连续值
47+
- Logistic回归:二分类
48+
- Softmax回归:多分类(三分类以上)
49+
- 感知机
50+
51+
### Logistic回归
52+
53+
将分类决策问题看作**条件概率估计**问题
54+
55+
- 用线性函数组合特征:$$f=w^Tx$$
56+
- 引入非线性函数 $$g(\cdot)$$ 来计算类别标签的条件概率 $$p(y=c|x)$$,其中 $$c \in \{ 0,1 \}$$
57+
- 函数 $$g(\cdot)$$ 把线性函数的值域从实数区间“挤压”到了 $$(0,1)$$ 之间,可以用来表示概率
58+
59+
如何构造 $$g(\cdot)$$:选择Logistic函数(激活函数)
60+
61+
![image-20240823214822293](../assets/img/Autumn2024-hywan/image-20240823214822293.png)
62+
63+
- Logistic 回归可以看作预测值为“标签的对数几率”的线性回归模型。因此
64+
Logistic 回归也称为对数几率回归(Logit Regression)
65+
66+
![image-20240823215530345](../assets/img/Autumn2024-hywan/image-20240823215530345.png)
67+
68+
#### 熵(Entropy)
69+
70+
在信息论中,熵用来衡量一个随机事件的不确定性
71+
72+
- 自信息(Self Information):$$I(x)=-\log(p(x))$$
73+
- 熵:自信息的期望
74+
75+
$$
76+
\begin{aligned}
77+
H(X) &= \mathbb{E}_X[I(x)] \\
78+
&= \mathbb{E}_X[-\log p(x)] \\
79+
&= -\sum_{x \in \mathcal{X}} p(x) \log p(x)
80+
\end{aligned}
81+
$$
82+
83+
熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少
84+
85+
在对分布 $$p(x)$$ 的信息进行编码时,熵 $$H(p)$$ 也是理论上最优的平均编码长
86+
度,这种编码方式称为熵编码(Entropy Encoding)
87+
88+
例如:单选题有ABCD选项,每个概率为0.25,则 $$p(x)=0.25$$,代入得$$H(X)=2$$,符合ABCD使用2位进行编码:00 01 10 11
89+
90+
#### 交叉熵(Cross Entropy)损失函数
91+
92+
交叉熵是按照概率分布α的最优编码对真实分布为p的信息进行编码的长度
93+
$$
94+
\begin{aligned}
95+
H(p,q) &= \mathbb{E}_p[-\log q(x)] \\
96+
&= -\sum_{x} p(x) \log q(x)
97+
\end{aligned}
98+
$$
99+
100+
- 在给定 p 的情况下,如果 q 和 p 越接近,交叉熵越小
101+
- 如果 q 和 p 差别越大,交叉熵就越大
102+
103+
**逻辑回归使用交叉作为损失函数**
104+
$$
105+
H(p,q) = -\sum_{x} p(x) \log q(x)
106+
$$
107+
对于训练样本 $$(x^{(n)}, y^{(n)})$$
108+
$$
109+
p_r(y^{(n)}=1|x^{(n)})=y^{(n)}, p_r(y^{(n)}=0|x^{(n)})=1-y^{(n)}
110+
$$
111+
真实概率和预测概率之间的交叉熵为:
112+
$$
113+
H(p,q) = -[p_r(y^{(n)}=1|x^{(n)})\log \hat y^{(n)}+p_r(y^{(n)}=0|x^{(n)})\log (1-\hat y^{(n)})
114+
$$
115+
其中 $$\hat{y}^{(n)} = \sigma(w^\top x^{(n)})$$
116+
117+
### Softmax 回归
118+
119+
Softmax Regression,也称为多项(Multinomial)或多类(Multi-Class)的Logistic 回归,是Logistic 回归在多分类问题上的推广。
120+
121+
Softmax 回归中,首先还是利用线性函数作特征的映射(判别函数),然后利用Softmax 函数作为非线性的决策函数
122+
$$
123+
\begin{aligned}
124+
p(y=c|x)&=\mathrm{softmax}(w_c^\top x) \\
125+
&=\frac{\exp(w_c^\top x)}{\sum_{c'=1}^C \exp(w_c^\top x)}
126+
\end{aligned}
127+
$$
128+
129+
$$
130+
\begin{aligned}
131+
\hat y &= \arg \max_{c=1}^C p(y=c|x) \\
132+
&= \arg \max_{c=1}^C w_c^\top x
133+
\end{aligned}
134+
$$
135+
136+
### 感知机(Perceptron)
137+
138+
感知机由Frank Rosenblatt于1958年提出,是一种广泛使用的线性分类器。感知器可谓是最简单的人工神经网络,只有一个神经元。
139+
140+
- 一种错误驱动的在线学习算法
141+
- 先初始化一个权重向量 $$w \leftarrow 0$$(通常是全零向量);
142+
- 每次分错一个样本(x,y)时,即 $$yw^\top x <0$$
143+
- 用这个样本来更新权重 $$w \leftarrow w+yx$$
144+
- 根据感知器的学习策略,可以反推出感知器的损失函数为
145+
146+
$$
147+
\mathcal{L}({w}; {x}, y) = \max(0, -y {w}^\top {x})
148+
$$
149+
150+
### 小结
151+
152+
![image-20240823233303985](../assets/img/Autumn2024-hywan/image-20240823233303985.png)
153+
154+
- 在 Logistic 回归和 Softmax 回归中,y 为类别的 one-hot 向量表示
155+
- 在感知器中,$$y \in \{+1,-1\}$$

0 commit comments

Comments
 (0)