Word-Window-Classification-Neural-Networks

交叉熵问题

交叉熵:

https://blog.csdn.net/b1055077005/article/details/100152102

相对熵(KL散度)


展开得

前部分为信息熵,后部分为交叉熵

交叉熵公式表示为:

相对熵习题

交叉熵的性质

交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。

交叉熵在分类问题中常常与softmax是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。

交叉熵与softmax的关系

https://zhuanlan.zhihu.com/p/27223959

对于多分类问题,第 i 类样本出现的概率为

$t$是样本对应的类标签,$y_i$是第 i 类出现的概率

取对数的(连乘可能导致最终结果接近0的问题)

可以看出,该等式于上面对数似然函数的形式一样!

分类问题

优化:

一般的ML问题中,参数由权值矩阵的列组成维度不会太大。而在词向量或其他深度学习中,需要同时学习权值矩阵和词向量。参数一多,就容易过拟合:

下面两张图非常好的说明了,在更新参数的时候,及要跟新超平面相关参数,也会更新词向量相关参数(参数的大小为)。

re-training词向量

一般的ML问题中,参数由权值矩阵的列组成维度不会太大。而在词向量或其他深度学习中,需要同时学习权值矩阵和词向量。参数一多,就容易过拟合:

比如有一个给单词做情感分析的小任务,在预训练的词向量中,这三个表示电视的单词都是在一起的:

但由于情感分析语料中,训练集只含有TV和telly,导致re-training之后两者跑到别处去了:

于是在测试集上导致television被误分类。

这个例子说明,如果任务的语料非常小,则不必在任务语料上重新训练词向量,否则会导致词向量过拟合。

Window classification

这是一种根据上下文给单个单词分类的任务,可以用于消歧或命名实体分类。上下文Window的向量可以通过拼接所有窗口中的词向量得到:

最简单的分类器:softmax

J 对x求导,注意这里的x指的是窗口所有单词的词向量拼接向量。

其中 t 是第 y 个词的热编码

https://zhuanlan.zhihu.com/p/27223959 中最后得出了 $σ = [ \hat{y}- t]$ 的结论

神经网络

softmax(等价于逻辑斯谛回归)效果有限

仅限于较小的数据集,能够提供一个勉强的线性分类决策边界。

神经网络可以提供非线性的决策边界:

神经网络的术语

每个神经元是一个二分类逻辑斯谛回归单元:

神经网络同时运行多个逻辑斯谛回归,但不需要提前指定它们具体预测什么:

我们把预测结果喂给下一级逻辑斯谛回归单元,由损失函数自动决定它们预测什么:

于是就得到了一个多层网络

为什么需要非线性

因为线性系统所有层等效于一层:

而非线性模型可以捕捉很复杂的数据:

前向传播

所谓的前向传播算法就是:将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出层为止。

最后可以通过与期望值做对比,求出损失,为了使损失最小化,使用后向传播算法。

后向传播

https://blog.csdn.net/bitcarmanlee/article/details/78819025

https://www.cnblogs.com/charlotte77/p/5629865.html

第一个链接证明了后向传播的推导过程,推导过程非常详细,推到结果也是对的,但在最后求 $w_{31},w_{32},w_{41},w_{42}$结果是错误的
第二个链接推导过程不是跟详细,但是演算的结果是对的

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

bp算法的学习过程

BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。

$w_{54}$ 求梯度的过程

$w_{31}$ 求梯度的过程

可以通过梯度更新权值,使得损失损失最小化

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

请我喝杯咖啡吧~

支付宝
微信