|
| 1 | +--- |
| 2 | +title: 深度学习课程笔记(一):基础知识 |
| 3 | +author: me |
| 4 | +date: 2024-09-04 23:00:00 +0800 |
| 5 | +categories: [Machine Learning, Basic] |
| 6 | +tags: [machine learning, deep learning, python] |
| 7 | +math: true |
| 8 | +--- |
| 9 | + |
| 10 | +## 机器学习基础概念 |
| 11 | + |
| 12 | +1. 机器学习算法分类 |
| 13 | + |
| 14 | + |
| 15 | + |
| 16 | +## 数学基础 |
| 17 | + |
| 18 | +1. 范数:一个表示向量长度的函数 |
| 19 | + - $$l_1$$ 范数:向量的各个元素的绝对值之和 |
| 20 | + |
| 21 | + - $$l_2$$ 范数:向量的各个元素的平方和再开平方 |
| 22 | + |
| 23 | + - $$l_\infin$$ 范数:向量的各个元素的最大绝对值 |
| 24 | + |
| 25 | + - 矩阵的范数 |
| 26 | + |
| 27 | + - 常用的 $$l_p$$ 范数 |
| 28 | + |
| 29 | +  |
| 30 | + |
| 31 | + - 矩阵的F范数是向量的l2范数的推广 |
| 32 | + |
| 33 | +  |
| 34 | + |
| 35 | +2. 矩阵微分:多元微积分的一种表达方式,即使用矩阵和向量来表示因变量每个成分关于 |
| 36 | + 自变量每个成分的偏导数 |
| 37 | + |
| 38 | + - 分母布局 |
| 39 | + |
| 40 | +  |
| 41 | + |
| 42 | +## 线性模型 |
| 43 | + |
| 44 | +深度学习除了最后一层,前面的N-1层都是在做特征变换(特征表示),只有最后一层在完成真正的任务(回归、分类)。 |
| 45 | + |
| 46 | +- 线性回归:输出的标签是连续值 |
| 47 | +- Logistic回归:二分类 |
| 48 | +- Softmax回归:多分类(三分类以上) |
| 49 | +- 感知机 |
| 50 | + |
| 51 | +### Logistic回归 |
| 52 | + |
| 53 | +将分类决策问题看作**条件概率估计**问题 |
| 54 | + |
| 55 | +- 用线性函数组合特征:$$f=w^Tx$$ |
| 56 | +- 引入非线性函数 $$g(\cdot)$$ 来计算类别标签的条件概率 $$p(y=c|x)$$,其中 $$c \in \{ 0,1 \}$$ |
| 57 | +- 函数 $$g(\cdot)$$ 把线性函数的值域从实数区间“挤压”到了 $$(0,1)$$ 之间,可以用来表示概率 |
| 58 | + |
| 59 | +如何构造 $$g(\cdot)$$:选择Logistic函数(激活函数) |
| 60 | + |
| 61 | + |
| 62 | + |
| 63 | +- Logistic 回归可以看作预测值为“标签的对数几率”的线性回归模型。因此 |
| 64 | + Logistic 回归也称为对数几率回归(Logit Regression) |
| 65 | + |
| 66 | + |
| 67 | + |
| 68 | +#### 熵(Entropy) |
| 69 | + |
| 70 | +在信息论中,熵用来衡量一个随机事件的不确定性 |
| 71 | + |
| 72 | +- 自信息(Self Information):$$I(x)=-\log(p(x))$$ |
| 73 | +- 熵:自信息的期望 |
| 74 | + |
| 75 | +$$ |
| 76 | +\begin{aligned} |
| 77 | +H(X) &= \mathbb{E}_X[I(x)] \\ |
| 78 | +&= \mathbb{E}_X[-\log p(x)] \\ |
| 79 | +&= -\sum_{x \in \mathcal{X}} p(x) \log p(x) |
| 80 | +\end{aligned} |
| 81 | +$$ |
| 82 | + |
| 83 | +熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少 |
| 84 | + |
| 85 | +在对分布 $$p(x)$$ 的信息进行编码时,熵 $$H(p)$$ 也是理论上最优的平均编码长 |
| 86 | +度,这种编码方式称为熵编码(Entropy Encoding) |
| 87 | + |
| 88 | +例如:单选题有ABCD选项,每个概率为0.25,则 $$p(x)=0.25$$,代入得$$H(X)=2$$,符合ABCD使用2位进行编码:00 01 10 11 |
| 89 | + |
| 90 | +#### 交叉熵(Cross Entropy)损失函数 |
| 91 | + |
| 92 | +交叉熵是按照概率分布α的最优编码对真实分布为p的信息进行编码的长度 |
| 93 | +$$ |
| 94 | +\begin{aligned} |
| 95 | +H(p,q) &= \mathbb{E}_p[-\log q(x)] \\ |
| 96 | +&= -\sum_{x} p(x) \log q(x) |
| 97 | +\end{aligned} |
| 98 | +$$ |
| 99 | + |
| 100 | +- 在给定 p 的情况下,如果 q 和 p 越接近,交叉熵越小 |
| 101 | +- 如果 q 和 p 差别越大,交叉熵就越大 |
| 102 | + |
| 103 | +**逻辑回归使用交叉作为损失函数** |
| 104 | +$$ |
| 105 | +H(p,q) = -\sum_{x} p(x) \log q(x) |
| 106 | +$$ |
| 107 | +对于训练样本 $$(x^{(n)}, y^{(n)})$$: |
| 108 | +$$ |
| 109 | +p_r(y^{(n)}=1|x^{(n)})=y^{(n)}, p_r(y^{(n)}=0|x^{(n)})=1-y^{(n)} |
| 110 | +$$ |
| 111 | +真实概率和预测概率之间的交叉熵为: |
| 112 | +$$ |
| 113 | +H(p,q) = -[p_r(y^{(n)}=1|x^{(n)})\log \hat y^{(n)}+p_r(y^{(n)}=0|x^{(n)})\log (1-\hat y^{(n)}) |
| 114 | +$$ |
| 115 | +其中 $$\hat{y}^{(n)} = \sigma(w^\top x^{(n)})$$ |
| 116 | + |
| 117 | +### Softmax 回归 |
| 118 | + |
| 119 | +Softmax Regression,也称为多项(Multinomial)或多类(Multi-Class)的Logistic 回归,是Logistic 回归在多分类问题上的推广。 |
| 120 | + |
| 121 | +Softmax 回归中,首先还是利用线性函数作特征的映射(判别函数),然后利用Softmax 函数作为非线性的决策函数 |
| 122 | +$$ |
| 123 | +\begin{aligned} |
| 124 | +p(y=c|x)&=\mathrm{softmax}(w_c^\top x) \\ |
| 125 | +&=\frac{\exp(w_c^\top x)}{\sum_{c'=1}^C \exp(w_c^\top x)} |
| 126 | +\end{aligned} |
| 127 | +$$ |
| 128 | + |
| 129 | +$$ |
| 130 | +\begin{aligned} |
| 131 | +\hat y &= \arg \max_{c=1}^C p(y=c|x) \\ |
| 132 | +&= \arg \max_{c=1}^C w_c^\top x |
| 133 | +\end{aligned} |
| 134 | +$$ |
| 135 | + |
| 136 | +### 感知机(Perceptron) |
| 137 | + |
| 138 | +感知机由Frank Rosenblatt于1958年提出,是一种广泛使用的线性分类器。感知器可谓是最简单的人工神经网络,只有一个神经元。 |
| 139 | + |
| 140 | +- 一种错误驱动的在线学习算法 |
| 141 | +- 先初始化一个权重向量 $$w \leftarrow 0$$(通常是全零向量); |
| 142 | +- 每次分错一个样本(x,y)时,即 $$yw^\top x <0$$ |
| 143 | +- 用这个样本来更新权重 $$w \leftarrow w+yx$$ |
| 144 | +- 根据感知器的学习策略,可以反推出感知器的损失函数为 |
| 145 | + |
| 146 | +$$ |
| 147 | +\mathcal{L}({w}; {x}, y) = \max(0, -y {w}^\top {x}) |
| 148 | +$$ |
| 149 | + |
| 150 | +### 小结 |
| 151 | + |
| 152 | + |
| 153 | + |
| 154 | +- 在 Logistic 回归和 Softmax 回归中,y 为类别的 one-hot 向量表示 |
| 155 | +- 在感知器中,$$y \in \{+1,-1\}$$ |
0 commit comments