Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在R中使用text2vec预测下一个单词

在R中使用text2vec预测下一个单词
EN

Stack Overflow用户
提问于 2016-04-21 21:06:40
回答 3查看 2.4K关注 0票数 4

我正在R中建立一个语言模型,根据前面的单词来预测句子中的下一个单词。目前,我的模型是一个简单的ngram模型,带有Kneser-Ney平滑。它通过在训练集中找到具有最大概率(频率)的ngram来预测下一个单词,其中平滑提供了一种插入低阶ngram的方法,这在高阶ngram具有低频率并且可能不提供可靠预测的情况下是有利的。虽然这种方法工作得相当好,但在n元语法无法捕捉到上下文的情况下,它就失败了。例如,“外面温暖晴朗,让我们去……”和“外面很冷,正在下雨,让我们去……”会提出同样的预测,因为最后一个n元语法(假设是n<5)中没有捕捉到天气的上下文。

我正在研究更高级的方法,我发现了text2vec包,它允许将单词映射到向量空间,在向量空间中,具有相似含义的单词用相似(接近)的向量表示。我有一种感觉,这种表示可以对下一个单词预测有所帮助,但我不知道如何准确地定义训练任务。我的问题是,text2vec是否是用于下一个单词预测的合适工具,如果是,那么可以用于这项任务的合适的预测算法是什么?

EN

回答 3

Stack Overflow用户

发布于 2016-04-27 11:22:00

你可以试试char-rnnword-rnn (谷歌一点)。有关字符级模型R/mxnet的实现,请看一下mxnet examples。也许可以使用text2vec GloVe嵌入将此代码扩展到词级模型。

如果您将取得任何成功,请让我们知道(我指的是text2vec或/和mxnet开发人员)。我将成为R社区的一个非常有趣的案例。我想执行这样的模型/实验,但仍然没有时间。

票数 6
EN

Stack Overflow用户

发布于 2017-08-11 23:05:32

有一个实现的解决方案,作为使用单词嵌入的完整示例。事实上,Makarenkov等人的论文。(2017) named Models with pre- training ( GloVe ) Word embeddings提供了使用递归神经网络和预训练的GloVe单词嵌入来训练语言模型的逐步实现。

在论文中,作者提供了运行de代码的说明: 1.下载预先训练好的GloVe向量。2.获取用于训练模型的文本。3.打开并调整main函数内部的LM_RNN_GloVe.py文件参数。4.运行以下方法:(a) tokenize_file_to_vectors(glove_vectors_file_name,file_2_tokenize_name,tokenized_file_name) (b) run_experiment(tokenized_file_name)

Python中的代码在这里是https://github.com/vicmak/ProofSeer

我还发现@Dmitriy Selivanov最近使用它的text2vec包发布了一个不错的、友好的教程,它可以从R的角度解决这个问题。(如果他能进一步评论,那就太好了)。

票数 2
EN

Stack Overflow用户

发布于 2016-04-21 22:29:17

您的直觉是正确的,单词嵌入向量可以通过合并长距离依赖关系来改进语言模型。您正在寻找的算法称为RNNLM (递归神经网络语言模型)。http://www.rnnlm.org/

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36780491

复制
相关文章
CMU 神经网络 NLP 更新 | 第二讲:预测句子中的下一个单词
AI 研习社获得官方授权,汉化翻译卡耐基梅隆大学的11-747神经网络自然语言处理(2019春季),今天上线第二讲!
AI研习社
2019/05/08
9130
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例(二,情感标注)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/53260117
悟乙己
2019/05/26
1.7K0
在Excel中玩拼单词游戏
学习累了,工作累了,也可以在Excel中放松放松。下面是在myspreadsheetlab.com中看到的一个在Excel中进行拼单词的游戏,如下图1所示。
fanjy
2022/11/16
1.3K0
在Excel中玩拼单词游戏
「R」ggplot2在R包开发中的使用
没有特别系统的学习 tidy evaluation 这方面的高级操作,最近有空准备补一补,学习下这方面的知识。
王诗翔呀
2022/03/30
7.4K0
R使用LASSO回归预测股票收益
只要有金融经济学家,金融经济学家一直在寻找能够预测股票收益的变量。对于最近的一些例子,想想Jegadeesh和Titman(1993),它表明股票的当前收益是由前几个月的股票收益预测的,侯(2007),这表明一个行业中最小股票的当前回报是通过行业中最大股票的滞后回报预测,以及Cohen和Frazzini(2008),这表明股票的当前回报是由其主要客户的滞后回报预测的。
拓端
2020/07/22
1.2K0
R使用LASSO回归预测股票收益
R中时间序列分析-趋势预测ARIMA
该文介绍了如何使用ARIMA模型对时间序列数据进行预测,并通过一个具体的数据集进行了演示。首先,介绍了ARIMA模型的基本概念,然后介绍了如何使用auto.arima函数来拟合ARIMA模型,并给出了一个具体的例子。最后,介绍了如何使用forecast函数来进行预测,并给出了预测结果。
Erin
2018/01/09
1.9K0
R中时间序列分析-趋势预测ARIMA
NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)
· 训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利)
悟乙己
2019/05/26
2.6K0
在jupyter notebook中运行R语言
要想在jupyter notebook中运行R语言其实非常简单,按顺序安装下面扩展包即可:
hankleo
2020/09/16
3.7K0
在jupyter notebook中运行R语言
在 Python 中使用 Tensorflow 预测燃油效率
预测燃油效率对于优化车辆性能和减少碳排放至关重要,这可以使用python库tensorflow进行预测。在本文中,我们将探讨如何利用流行的机器学习库 Tensorflow 的强大功能来使用 Python 预测燃油效率。通过基于 Auto MPG 数据集构建预测模型,我们可以准确估计车辆的燃油效率。让我们深入了解在 Python 中使用 Tensorflow 进行准确的燃油效率预测的过程。
很酷的站长
2023/08/11
2720
在 Python 中使用 Tensorflow 预测燃油效率
R语言使用ARIMA模型预测股票收益时间序列
“预测非常困难,特别是关于未来”。丹麦物理学家尼尔斯·波尔(Neils Bohr)
拓端
2022/06/08
2.5K0
R语言使用ARIMA模型预测股票收益时间序列
MXNet | 在R语言中使用
无疑,这些将MXNet推向深度学习的热潮中,成为热捧的项目。当然,学习MXNet也是很有必要的。哈哈,加油深度学习。
努力在北京混出人样
2019/02/18
2.1K0
灰色预测模型在matlab数据预测中的应用【编程算法】
概述算法:灰色预测模型用于对原始数据(≥4个)做中短期预测,其中,GM(1,1)模型适用于具有较强的指数规律的序列,只能描述单调的变化过程,而GM(2,1)模型适用于非单调的摆动发展序列或具有饱和的S形序列。
巴山学长
2021/04/22
3.6K0
灰色预测模型在matlab数据预测中的应用【编程算法】
最准的中文文本相似度计算工具
text2vec, chinese text to vetor.(文本向量化表示工具,包括词向量化、句子向量化)
机器学习AI算法工程
2020/04/08
14.9K2
最准的中文文本相似度计算工具
在链表上实现单词统计
结点为WordNode,有两个域,分别是结点上存储的单词,结点出现的频度以及这个单词下一个出现的单词
张凝可
2019/08/22
6080
使用脑机接口从神经信号中重建单词
布朗大学(Brown University)的一个研究小组已经使用脑机接口技术从非人类灵长类动物大脑中记录了神经信号,并重建了英语单词。
脑机接口社区
2022/08/26
4370
使用脑机接口从神经信号中重建单词
R沟通|​在Rstudio中运行tex文件
这期主要介绍下如何在Rstudio中运行和使用.tex文件,并给大家安利一个非常nice的模板和根据该模板制作的案例。
庄闪闪
2021/04/09
4K0
在vscode中配置R的开发环境
有时候各位使用R的用户不知道会不会有这样的感觉,visual studio和Rstudio由于负载过重,在打开或者加载R script时会出现加载过慢的情况,但对于很多数据工作者来说,variable inspector和data view这类的数据可视化功能必不可少,而visual studio和Rstudio在这方面做得可以说是非常完善。在这时候笔者就想到了visual studio code,毕竟作为宇宙最强IDE的减配和开源版本(这里形容可能不太准确),各种语言相应的开发插件众多。更加让笔者惊喜的是,目前vscode-R一直处于开发阶段,并且在最近的1.2.0版本结合了vscode关于web view的API,添加了R session watcher——一个集成的数据可视化构架,并且在1.21中完善了windows系统下的extension的bug。我们来看看集成的viewer会有什么样的效果:
用户7652506
2020/08/12
12.2K0
在vscode中配置R的开发环境
R语言中的Nelson-Siegel模型在汇率预测的应用
这篇文章的目的是指导读者逐步使用R编程语言实现Nelson-Siegel模型的步骤。您可能已经知道,估计利率期限结构是任何资产定价的关键,因此对投资者和政策制定者起着重要的作用。想法是使一条连续曲线适合现有数据。就是说,给定可获取的利率和相应的到期日(通过彭博社或任何其他数据提供商),可以使用Nelson-Siegel方法得出利率的期限结构。
拓端
2020/08/10
1.2K0
点击加载更多

相似问题

使用模型通过Tensorflow预测下一个单词

13

Java中类似Swiftkey的文本预测(下一个单词预测)

12

用Keras预测下一个单词:如何检索每个输入单词的预测

10

预测下一个单词时出错

13

如何使用Glove word embeddings构建模型,并使用R中的text2vec预测测试数据

20
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档