skip-gram

skip-gram 流程图解释如下:

  1. $w_t$ 表示单词的 one-hot 编码 维度为 $V * 1$,$V$ 为文本中单词的个数
  2. $W$ 表示中心词向量矩阵,是需要优化的变量,开始时随机初始化,维度为 $d * V$,$V$ 同上,$d$ 是超参数需要手动设置,一般在 50 - 300
  3. $V_c$ 表示中心词向量,是由 $W$ 与 $w_t$ 做矩阵乘法的结果
  4. $W’$ 表示上下文词向量矩阵,也是需要优化的变量,开始时随机初始化,维度为$V * d$。$V,d$ 同上
  5. 是 $W’$ 与 $V_c$ 做矩阵乘法得到的结果,维度为 $V * 1$,5 部分列举的 3 个向量是一样的
  6. $P(x|c)$ 表示在 c 出现的前提下,x 出现的概率,条件概率函数定义为 softmax 函数,维度为 $V * 1$。在 6 中出现的 3 个向量也是一样的,向量的第 1 个数表示,在中心词 c 出现的条件下,第一个词出现的概率。
  7. Truth 表示真实出现的词,7 中第 1 个向量表示,在中心词前面的第 3 个词,是 one-hot 编码的第 6 个词
  8. 根据 6,7 求损失
  9. 由梯度的的推导公式更新 $W$ 和 $W’$
打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

请我喝杯咖啡吧~

支付宝
微信