文章/答案/技术大牛

发布

社区首页 >问答首页 >word2vec损失函数的解释

问word2vec损失函数的解释
EN

Data Science用户

提问于 2018-09-21 11:26:13

回答 1查看 8.1K关注 0票数 5

我正在尝试理解用于word2vec模型的丢失函数，但在29:30的时候，我并没有真正遵循这个视频https://www.youtube.com/watch?v=ERibwqs9p38&t=5s背后的论证。

目前尚不清楚的公式如下：

$J(\theta) = \displaystyle-\dfrac{1}{T} {\sum_{t=1}^{T} \sum_{-m <= j <=m, \\j\ne0} log(p(w_{t+j}|w_t))}.$

$T$ 是词汇表中的单词数。
$w_t$ 是一个给定的单词，我们试图在前面的+/- $m$ 单词窗口中计算另一个单词 $w_{t+j}$ 发生的可能性。
$\theta$ 是我们要找的解决方案。它本质上是一个包含矩阵V和U的所有列的 $2*d*Tx1$ 维向量。

乍一看，这一切看起来都很清楚:我们在遍历整个词汇表，对于每个(固定的单词)，我们将另一个单词出现在这个固定单词的窗口内的所有概率加起来。

然而，当我认为一个单词 $w_t$ 发生在语料库中的许多位置上，并且可能用一个不同的词发生多次时，它对我来说是失败的。例如，“深度学习”这个词经常发生在一起，这表明它们之间存在着一种语境关系。为什么我们只数两次？上面的公式似乎是每对 $p(w_{t+j}|w_t)$ 只计算两次(例如，一次用于 $p(deep|learning)$ ，一次用于 $p(learning|deep)$ )。我们应该需要一个校正项来调整丢失的“频率”。

$J(\theta) = \displaystyle-\dfrac{1}{T} {\sum_{t=1}^{T} \sum_{-m <= j <=m, \\j\ne0} log(\lambda(w_t,w_{t+j})p(w_{t+j}|w_t))}.$

在 $\lambda(x,y) = 1$ 的情况下，我们得到了上面的公式，但我们也可以自由地选择一个函数来增加频繁发生(成对)。上面的公式可以被看作是一个特例，当你不关心更频繁地出现在一起的单词会得到提升的时候。

另一方面，当上面的公式已经说明了多次发生时，那么这个公式在哪里是可见的？然后，作者继续将 $p(o|w)$ 定义为 $exp(o^T*w)/\sum(exp(u^T*w))$ 。在这个特殊的例子中，我看不出我们计算点积的次数和单词 $o$ 在单词 $w$ 附近的次数一样多。也许 $p$ 的选择非常简单，它代表了一个模型，其中两个单词就在附近(就在语料库的某个地方)就足够了(一袋单词模型？？)。然而，很难看出这样的模型在NLP中提供了良好的性能。

nlp

stanford-nlp

语音识别特惠活动

语音识别准确率高、用于会议内容转写、客服质检等场景，助力企业将本增效

回答 1

Data Science用户

回答已采纳

发布于 2018-09-21 13:51:07

不知道视频说了什么，但 $T$ 不应该是词汇量大小，而是训练语料库的大小(所有单词的数量)。

例如，如果您的培训语料库是

deep learning is popular . i love deep learning . i want to learn more about it.

然后，当你在 $T$ 上，你会总结所有的词对在语料库中，包括重复。单词对(deep learning)确实计算了两次。

有关详细信息，请参阅原始的跳克文件，并注意第2页中的“定义”(1)。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/38619

复制

为什么是AUC值而不是GSEA来挑选转录因子呢

node.js

通过学习，我们知道这个RcisTarget包内置的motifAnnotations_hgnc是16万行，可以看到每个基因有多个motif。而且下载好的 hg19-tss-centered-10kb-7species.mc9nr.feather 文件，也是 24453个motifs的基因排序信息。但是我们留下来了一个悬念，如何从几万个注释结果里面挑选到最后100个富集成功的motif呢？

生信技能树

2020/12/03

1.3K0

为什么 C# 的 string.Empty 是一个静态只读字段，而不是一个常量呢？

ide c#编程算法 .net

使用 C# 语言编写字符串常量的时候，你可能会发现可以使用 "" 而不能使用 string.Empty。进一步可以发现 string.Empty 实际上是一个静态只读字段，而不是一个常量。

walterlv

2020/02/10

1.1K0

innodb为什么选择B+ Tree而不是跳表，Redis为什么选择跳表而不是B+ Tree

innodb redis tree 数据索引

链表和数组相比,数组可以通过下标快速定位,或者通过二分查找,查询复杂度为O(logn),而链表只能按照顺序挨个查找，复杂度为O(n)。

大忽悠爱学习

2023/03/23

2.5K0

innodb为什么选择B+ Tree而不是跳表，Redis为什么选择跳表而不是B+ Tree

js判断list的某一个值是不是存在

json

最近更新博客的频率确实是慢了很多，主要是事情比较多，确实也没时间更新。今天相对有点时间，所以简单记录一下一个比较常见的问题。

何处锦绣不灰堆

2020/05/29

2.5K0

面试题46：为什么Redis使用SDS而不是C字符串？

redis 程序二进制数据字符串

【说明】最后一位遵循C字符串的空字符（'\0'）结尾的规则，目的是，可以直接使用C字符串的函数。其中len计数不包含‘\0’。

爪哇缪斯

2023/05/09

2920

Java处理包含引号的String字符串

解决方案开发

背景在开发默认提示文字时：解决方案转义使用\"代替" 效果正常

JavaEdge

2021/02/22

1.8K0

为什么建议你用nullptr而不是NULL？

c++打包 c 语言

在C语言中，我们常常用NULL作为指针变量的初始值，而在C++中，却不建议你这么做。

编程珠玑

2019/08/28

9.6K0

为什么建议使用你 LocalDateTime ，而不是 Date？

python

多线程并发如何保证线程安全 - 避免线程之间共享一个SimpleDateFormat对象，每个线程使用时都创建一次SimpleDateFormat对象 => 创建和销毁对象的开销大 - 对使用format和parse方法的地方进行加锁 => 线程阻塞性能差 - 使用ThreadLocal保证每个线程最多只创建一次SimpleDateFormat对象 => 较好的方法

芋道源码

2019/10/23

1.6K0

JDBC为什么要使用PreparedStatement而不是Statement

其他

前言这篇博客不是我写的，是由刘志军大大翻译的，真心觉得很棒，而且是必学要掌握的东西，所以就转载过来了，我个人的第一篇转载文章。开始 PreparedStatement是用来执行SQL查询语句的API之一，Java提供了 Statement、PreparedStatement 和 CallableStatement三种方式来执行查询语句，其中 Statement 用于通用查询， PreparedStatement 用于执行参数化查询，而 CallableStatement则是用于存储过程。同时Prepar

roobtyan

2018/06/04

1.5K0

为什么特征工程要用 SQL 而不是 Python

sql python 编程算法特征工程

我们常说机器学习是一门实验科学。所以相比较传统工程而言，机器学习分成两个大的阶段：

用户2936994

2022/05/18

8610

JDBC为什么要使用PreparedStatement而不是Statement

其他

PreparedStatement是java.sql包下面的一个接口，用来执行SQL语句查询，通过调用connection.preparedStatement(sql)方法可以获得PreparedStatment对象。数据库系统会对sql语句进行预编译处理（如果JDBC驱动支持的话），预处理语句将被预先编译好，这条预编译的sql查询语句能在将来的查询中重用，这样一来，它比Statement对象生成的查询速度更快。下面是一个例子：

哲洛不闹

2018/09/19

9780

为什么我会选择 React 而不是 Vue？

vue.js react java javascript redux

你注意到我过于圆滑的标题了吗？我将依据我所喜欢的方式去构建这个对话，而不是我客观上认为的唇枪舌战。我想后者并不会起作用。

疯狂的技术宅

2019/03/27

1.4K0

JDBC为什么要使用PreparedStatement而不是Statement

其他

哲洛不闹

2018/09/19

1.1K0

JDBC为什么要使用PreparedStatement而不是Statement

java jdbc 数据库

PreparedStatement是用来执行SQL查询语句的API之一，Java提供了 Statement、PreparedStatement 和 CallableStatement三种方式来执行查询语句，其中 Statement 用于通用查询， PreparedStatement 用于执行参数化查询，而 CallableStatement则是用于存储过程。同时PreparedStatement还经常会在Java面试被提及，譬如：Statement与PreparedStatement的区别以及如何避免SQL

java达人

2018/01/31

3.8K0

为什么建议使用你LocalDateTime，而不是Date？

python api

在项目开发过程中经常遇到时间处理，但是你真的用对了吗，理解阿里巴巴开发手册中禁用static修饰SimpleDateFormat吗？

良月柒

2019/10/28

1.5K0

为什么建议使用你 LocalDateTime ，而不是 Date？

python api

来源：juejin.im/post/5d7787625188252388753eae

JAVA葵花宝典

2019/10/29

1.1K0

为什么建议使用你 LocalDateTime ，而不是 Date？

python api

来源：juejin.im/post/5d7787625188252388753eae

用户1516716

2019/10/24

1.1K0

为什么建议你使用LocalDateTime而不是Date？

tomcat

calendar是共享变量，并且这个共享变量没有做线程安全控制。当多个线程同时使用相同的SimpleDateFormat对象【如用static修饰的SimpleDateFormat】调用format方法时，多个线程会同时调用calendar.setTime方法，可能一个线程刚设置好time值另外的一个线程马上把设置的time值给修改了导致返回的格式化时间可能是错误的。在多并发情况下使用SimpleDateFormat需格外注意SimpleDateFormat除了format是线程不安全以外，parse方法也是线程不安全的。parse方法实际调用alb.establish(calendar).getTime()方法来解析，alb.establish(calendar)方法里主要完成了

Bug开发工程师

2020/03/12

2.1K0

为什么是int main()而不是void main()

c++编程算法 ide

这是基于我们学校老师一直使用void main（），而发的感慨，大一学习C语言时，我就在想，老师上课演示的为什么一直用void main（），而不是int main（）呢？不为了偷懒？还是习惯性的语句呢？在查阅了部分大牛的博客，翻阅了C Primer Plus和C++ Primer Plus这两本圣经级别的书本之后，得出以下结论（有一部分是别人的结论，属于半转载），可能不太严谨，请多多包涵。

对弈

2019/09/04

3.7K0

为什么 url 通常使用域名而不是 IP 地址？

tcp/ip dns react 网站 html

大家好，我是前端西瓜哥。今天来谈谈为什么我们的网址，通常是使用域名，而不是 IP 地址。

前端西瓜哥

2022/12/21

1.8K0

相似问题

从HTML表中获取数据更新MySQL数据库

从表中更新数据

更新表数据，从另一个表中获取

如何从包含要更新的基表中的数据的联接表中获取数据？

如何从XML中获取数据并更新数据库表

活动推荐

图片生成与编辑，新用户19.9元起！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例