File tree Expand file tree Collapse file tree 2 files changed +14
-0
lines changed Expand file tree Collapse file tree 2 files changed +14
-0
lines changed Original file line number Diff line number Diff line change 92
92
#### 交叉熵(Cross Entropy)损失函数
93
93
94
94
交叉熵是按照概率分布α的最优编码对真实分布为p的信息进行编码的长度
95
+
95
96
$$
96
97
\begin{aligned}
97
98
H(p,q) &= \mathbb{E}_p[-\log q(x)] \\
103
104
- 如果 q 和 p 差别越大,交叉熵就越大
104
105
105
106
** 逻辑回归使用交叉作为损失函数**
107
+
106
108
$$
107
109
H(p,q) = -\sum_{x} p(x) \log q(x)
108
110
$$
111
+
109
112
对于训练样本 $$ (x^{(n)}, y^{(n)}) $$ :
113
+
110
114
$$
111
115
p_r(y^{(n)}=1|x^{(n)})=y^{(n)}, p_r(y^{(n)}=0|x^{(n)})=1-y^{(n)}
112
116
$$
117
+
113
118
真实概率和预测概率之间的交叉熵为:
119
+
114
120
$$
115
121
H(p,q) = -[p_r(y^{(n)}=1|x^{(n)})\log \hat y^{(n)}+p_r(y^{(n)}=0|x^{(n)})\log (1-\hat y^{(n)})
116
122
$$
123
+
117
124
其中 $$ \hat{y}^{(n)} = \sigma(w^\top x^{(n)}) $$
118
125
119
126
### Softmax 回归
120
127
121
128
Softmax Regression,也称为多项(Multinomial)或多类(Multi-Class)的Logistic 回归,是Logistic 回归在多分类问题上的推广。
122
129
123
130
Softmax 回归中,首先还是利用线性函数作特征的映射(判别函数),然后利用Softmax 函数作为非线性的决策函数
131
+
124
132
$$
125
133
\begin{aligned}
126
134
p(y=c|x)&=\mathrm{softmax}(w_c^\top x) \\
Original file line number Diff line number Diff line change @@ -38,9 +38,11 @@ _这份笔记使用的部分图片、内容来自于北京交通大学深度学
38
38
** 随着深度的增加网络的表示能力呈指数增加**
39
39
40
40
具有d个输入、深度为l、每个隐藏层具有n个单元的深度整流网络可以描述的线性区域的数量为
41
+
41
42
$$
42
43
O((_d^n)^{d(l-1)}n^d)
43
44
$$
45
+
44
46
意味着,网络描述能力为深度的** 指数级** [ Montufar et al,2014] 。
45
47
46
48
Which means:
@@ -164,6 +166,7 @@ Sigmoid型函数指一类S型曲线函数,为**两端饱和函数(两端的
164
166
##### Logistic函数
165
167
166
168
![ image-20240901110331298] ( ../assets/img/Autumn2024-hywan/image-20240901110331298.png )
169
+
167
170
$$
168
171
\sigma (x) = \frac{1}{1+\exp(-x)}
169
172
$$
174
177
##### Tanh函数
175
178
176
179
![ image-20240901110610813] ( ../assets/img/Autumn2024-hywan/image-20240901110610813.png )
180
+
177
181
$$
178
182
\tanh(x)=\frac{\exp(x)-\exp(-x)}{\exp(x)+\exp(-x)}=2\sigma(2x)-1
179
183
$$
203
207
##### ReLU
204
208
205
209
![ image-20240901111240815] ( ../assets/img/Autumn2024-hywan/image-20240901111240815.png )
210
+
206
211
$$
207
212
\mathrm{ReLU}(x) =
208
213
\begin{cases}
221
226
##### 带泄露的ReLU(Leaky ReLU)
222
227
223
228
![ image-20240901111629277] ( ../assets/img/Autumn2024-hywan/image-20240901111629277.png )
229
+
224
230
$$
225
231
\mathrm{LeakyReLU}(x)=
226
232
\begin{cases}
You can’t perform that action at this time.
0 commit comments