我在词袋函数中犯了什么错误？

在词袋函数中可能会犯以下错误：

忽略停用词：停用词是指在自然语言处理中被忽略的常见词语，如“的”、“是”、“有”等。在构建词袋模型时，应该先去除这些停用词，以避免对模型产生干扰。
未进行词干提取和词形还原：词干提取和词形还原是将不同的词形还原为原始词根形式的过程，如将“running”、“runs”、“run”都还原为“run”。如果在词袋模型中不进行这些处理，同一个词的不同变体将会被视为不同的特征，导致特征空间过于稀疏。
忽略单词顺序信息：词袋模型是一种基于词频统计的文本表示方法，忽略了单词的顺序信息。但在某些应用场景下，单词的顺序可能包含重要的语义信息，如文本分类中的情感分析。因此，如果忽略了单词的顺序，可能会损失部分文本的含义。
未考虑词语权重：在一些应用场景中，某些词语的重要性可能比其他词语更高，但词袋模型只考虑了词频信息，忽略了词语的权重。如果在构建词袋模型时未考虑词语权重，可能会导致一些重要信息的丢失。
数据预处理不彻底：在构建词袋模型前，需要对原始文本进行预处理，如去除特殊字符、标点符号、数字等。如果处理不彻底或者不规范，可能会影响到最终的模型效果。

针对以上错误，可以使用腾讯云相关产品进行改进：

文本分类场景下，推荐使用腾讯云自然语言处理（NLP）服务，包括分词、词性标注、命名实体识别等功能，以提高文本处理的准确性和效率。详情请参考：腾讯云自然语言处理（NLP）
对于词干提取和词形还原，可以使用腾讯云文本智能处理 API，其中包括了中英文的词干提取和词形还原功能。详情请参考：腾讯云文本智能处理 API
如果需要考虑单词顺序信息，可以使用腾讯云深度学习平台（DL）中的序列模型，如循环神经网络（RNN）或者长短期记忆网络（LSTM），以捕捉单词之间的时序关系。详情请参考：腾讯云深度学习平台（DL）
腾讯云的文本智能处理 API 中提供了文本分类、情感分析等功能，可以对词语进行加权处理，以提高文本分析的准确性和灵活性。详情请参考：腾讯云文本智能处理 API
在数据预处理方面，腾讯云的数据处理平台（DPC）提供了一系列数据处理和清洗的工具和服务，可以对原始文本进行彻底的预处理。详情请参考：腾讯云数据处理平台（DPC）

为什么LDA gensim的实现需要语料库和字典？

、、、、

我正在检查gensim LDA实现，它说它需要一个语料库和一个语料库字典？这是什么原因呢？

浏览 36提问于2020-03-08得票数 0

1回答

VADER NLTK中的词袋

、、、、

我一直在研究VADER，将其作为朴素贝叶斯的情感分析替代品。我知道如何使用NB模型检索一包单词； from nltk import FreqDist f = FreqDist(movie_reviews.words()) f.most_common()[:X] 有没有办法可以用VADER实现同样的输出呢？

浏览 14提问于2018-02-26得票数 0

1回答

KNN分类器情感分析与类别分析精度

、、

我在java中实现了KNN分类器，得到了一个奇怪的结果。如果我对一个数据集进行情感分析，比如亚马逊图书评论，我得到了55%的准确率。从100个测试文档中，55个正确地分类为否定或肯定评价，45个错误地分类。但是如果我使用KNN进行类别分类，例如相机或书籍，那么我得到了95%的准确率。有一些解释我的代码是错误的吗？有什么想法吗？

浏览 1提问于2013-04-24得票数 0

回答已采纳

1回答

使用词袋

我正在研究在处理存储为文本文件的电子邮件时实现词袋方法。我想使用可以指示电子邮件需要回复的关键字，使用二进制分析电子邮件(例如1|0|1|0|0等，取决于是否使用了该单词)，然后获得可以用于不同ML算法的特征向量。我正在考虑使用PHP来获取特征向量，但我找不到任何现有的实现。有没有可能在PHP中做这样的事情？

浏览 0提问于2013-01-16得票数 0

1回答

gensim中原始LDA的词权重

、、、

我正在使用gensim库将LDA应用于一组文档。使用gensim，我可以将LDA应用于语料库，无论术语权重是什么: binary，tf，tf-idf... 我的问题是，应该为原始使用的术语权重是多少？如果我理解正确的话，权重应该是词频，但我不确定。

浏览 4提问于2014-09-18得票数 0

1回答

我试图在图像中找到潜在的徽标区域。为此，我找到对象的边缘并将它们固定在边界框中。然后，他们尝试根据直方图的相似性将它们分组。但有时会得到不好的结果，因为对于直方图匹配，区域并不总是具有相似的区域。我尝试了SIFT/SURF/ORB和Harris Corners的聚类特征(关键点)，然后得到了聚类的边界框，但它也产生了一个糟糕的结果。我需要这样的东西(蓝色矩形-由OpenCV找到的轮廓的边界框)：绿色矩形-群集的边界框(在图形编辑器中手动绘制) 这个问题的最佳解决方案是什么？

浏览 1提问于2015-05-01得票数 0

1回答

BOW(词袋)和TextBlob的区别

、、、

我是那个领域的新手。最近在twitter数据上做了一个情绪分析。并且遇到了两种方法:1)用于处理文本数据的TextBlob- python库2) BOW (词袋) 它们之间的区别是什么？这两种方法是不同的，还是有相似之处？

浏览 15提问于2020-03-25得票数 0

1回答

如何使用LDA或任何主题建模算法获取文档的意图

、、、

我需要基于文档的意图对一组文档进行聚类，我计划使用LDA(潜在Dirichlet分配-主题建模)。我可以从主题建模中获取意图来对文档进行分组吗？有没有其他算法可以根据文档的意图对文档进行聚类。这种使用主题建模进行意图聚类的方法是好的吗？我一直在尝试LDA算法进行主题建模，能够获得主题列表，但不确定我是否可以将主题视为意图本身。期望一种根据文档的意图对文档组进行聚类的方法。

浏览 0提问于2019-08-20得票数 0

1回答

文本分类:使用MinMax-Scaler的词袋

、、

我尝试根据文档的词袋表示对文档进行分类(特征: 1000)。对于分类，我使用支持向量机，似乎有时支持向量机不会终止并无休止地运行。(运行sci-kit: SVC(C=1.0，内核=‘线性’，cache_size=5000，verbose=True))现在我正在寻找一个解决方案，我在考虑应用MinMax-Scaler来获得计算效率高的文档表示。但是，我是否搞砸了我的单词表示与特征规范化的袋子？提前感谢！

浏览 1提问于2016-05-03得票数 0

1回答

如何在更大的图像集中找到(和排序)相似的图像？

、、、、

我需要解决的问题是将一组较小的图像与一组较大的图像进行“匹配”。更重要的是，我想对它们的相似性进行排名。我想到的第一个想法是使用sift特性，并发现vl_sift函数做得非常好。在同一个库中，我能够使用vl_ubcmatch来获取两个图像之间的匹配关键点。我现在的问题是获得一个标准来对图像之间的相似性进行排名，以及一个好的策略来将这些方法应用于整个数据库。你能帮帮我吗？ Note1:我要应用的图像是从车内的摄像头拍摄的，它在城市中进行了一些旅行，并以1帧/秒的帧率采集了图像。我想使用的“相似度”的定义是指相同位置的图像具有较高的相似度。如果我将城镇周围的一些已知位置定义为A、B、C和D，我

浏览 3提问于2013-10-20得票数 0

1回答

为什么在NLTK中"not“在英语中被认为是停用词？

、、、

我目前正在学习Python中的nltk，在那里我正在编写一个情感分析程序。在研究的过程中，我发现"not，on，never“被认为是停用词。所以我的问题是，为什么这是因为这些类型的词可以改变句子的整个含义，并可能导致情感分析失败。

浏览 18提问于2020-05-28得票数 0

1回答

在R中有什么功能/包来查找单个单词的相似性，而不是在句子的上下文中？

、、、

在R/python中有什么功能/包来查找单个单词的相似性，而不是在句子的上下文中？作为一名新手，我搜索并找到了诸如adist、余弦相似、word2vec等方法，但不确定每个方法的假定用例是什么。谢谢你的建议。

浏览 0提问于2017-04-09得票数 2

1回答

根据相似度将文本分类为不同的类别

、、、、

我正在处理非常大的文档{新闻+文章}，使用将自然语句建模为类，请看以下示例： 1- The System enables a user to shut down the server remotely ==> class 1 2- The Application allows a customer to to close the machine online ==> (must be also) class 1 , why ? 因为这两个句子有许多相似的同义词{System ~Application，enable~allow，user ~ customer，shut ~ clos

浏览 0提问于2015-08-28得票数 1

1回答

用词袋/特征和神经网络

、、、、

我正在尝试实现一个对象检测模块，它包含以下步骤： 1)利用SURF提取图像描述子，生成大小为x，64的矩阵，其中x依赖于图像中的关键点数； 2)使用特征包/字法将描述符大小固定为k,64格式。其中k是使用k-均值创建的簇数。 3)将生成的单词矩阵作为trainingSamples，给出一个神经网络。到目前为止，我已经实现了步骤1和步骤2，但我不太清楚如何格式化NN的输出向量。在OpenCV CvANN_MLP上，输出向量中的行数应该具有相同的输入行数(否则会返回the ()异常)，但输入行数是步骤2中k个集群的数目，因此我不知道如何基于此编写输出矩阵。我知道输出矩阵应该有n个列，对应于我想

浏览 5提问于2017-01-31得票数 1

回答已采纳

1回答

关于如何在单词列表上创建随机森林分类器，有什么建议吗？

、、、

我最近读了一篇名为“使用深度神经网络进行政治图像分析”的论文，其中作者对图像进行了目标检测。在检测到对象之后，发现对象的字符串(如果它满足一定的概率阈值)被用作训练和测试图像类的随机森林分类器的特征。从论文中，他们试图根据在图像中发现的物体将图像分类为来自共和党或民主党参议院议员。我正在尝试重新创建类似的东西，但我在寻找实现随机森林的第二个组件时遇到了麻烦。我能够成功地使用两个对象检测组件在图像上运行对象检测，但我在如何将这些组件提供给随机森林的计划中遇到了麻烦。以下是我的数据框中的特征，为了简单起见，我只是将其分解为一些变量，其中-1,0,1的标签是我想要的标签。 labels_res

浏览 1提问于2019-04-08得票数 1

1回答

TFIDF vs Word2Vec

、、、、

我正在尝试查找两个文档(包含大约15000条记录)之间的相似度分数。我在python中使用了两种方法: 1. TFIDF (Scikit learn) 2. Word2Vec (gensim，谷歌预训练向量) Example1 Doc1-单击"Bills“选项卡 Doc2-单击"CHAPS“选项卡第一种方法给出0.9分。第二种方法给出1分 Example2 文档1-请参阅以下要求： Doc2-请参阅以下要求第一种方法给出1分。第二种方法得到0.98分有人能告诉我：为什么在Example1中，Word2Vec会给出1，尽管它们非常不同而在Example2中，Word

浏览 41提问于2019-08-23得票数 0

2回答

php中的词袋算法

、、

我正在做我的期末学习项目。我正在尝试创建Twitter消息的情感分析。我用的是贝叶斯算法和词袋。你有一个用PHP编写的词袋算法的例子吗？我什么也找不到，可能是正面和负面的单词列表或者别的什么

浏览 1提问于2012-01-28得票数 0

回答已采纳

1回答

扩展Twitter情感分析

、、

下面的代码分析了twitter的情绪:它是积极的、消极的还是中立的。然而，对于许多推文来说，这是相当不准确的，比如如果它包括“有人给了他一个中指索尔特”，我想训练程序认识到中指意味着不尊重，即使它在句子中包括敬礼这个词。如有任何建议，我们将不胜感激。导入重新导入tweepy从tweepy导入tweepy从textblob导入TextBlob class TwitterClient(object): ''' Generic Twitter Class for sentiment analysis. ''' def

浏览 2提问于2017-10-30得票数 1

1回答

删除不属于城市名称字典文本文件的关键字

、、、

我有一个字典文本文件，其中包含世界城市的名称/关键字，这些关键字几乎都是3,00,000，但它也有许多不相关的关键字，例如this , is , on ,Over , Old , It , a , From etc ..... 您可以看到，这些关键字不属于任何城市名称，因此如何删除所有不属于城市名称的关键字。我不知道该怎么办。有没有解决这个问题的解决方案??这里有一些样本数据 Japon Bagpat Jharda Kilbrin This Großköllnbach Sighetu Silvaniei Schweich Colinet Leskovec Trizay Kilen Le P

浏览 0提问于2019-02-28得票数 0

1回答

用于特征聚类的视觉单词模型包

、、、

我正在使用视觉单词包来对图像的特征进行聚类。到目前为止，我遇到的所有工作都使用BOW对使用SIFT、SURF等计算的特征进行聚类。可能我遗漏了这一点，但是否可以将颜色直方图特征表示为BOW，也可以将面向边缘的直方图特征表示为BOW。我正在做图像分类器，我想在Opencv中使用带有RGB颜色直方图的SIFT作为特征描述符。所以我想知道将两个特征向量连接成一个并添加到弓是正确的，还是将SIFT特征添加到弓并将直方图特征连接到弓是正确的(我现在使用这个模型，但我想知道哪一个是正确的)。

浏览 1提问于2013-12-10得票数 1

1回答

我能否阻止Oracle用户创建公共同义词，但允许私有同义词？

、

我遇到了一些问题，用户错误地创建了公共同义词，这导致人们认为某些对象在一个模式中，而实际上在另一个模式中。每个人都知道他们应该使用私密的同义词，但是偶尔他们会忘记，或者他们犯了一个错误，有人被烧死了。是否可以授予用户创建私有同义词的权限，但不允许使用公共同义词？

浏览 0提问于2010-04-09得票数 0

回答已采纳

2回答

词袋算法中的直方图构造

、、

我在matlab中实现了图像分类的词袋算法。我对特征进行了k均值聚类，并将其划分为250个聚类。我无法理解如何绘制直方图。

浏览 2提问于2015-05-23得票数 0

1回答

Pyspark - HashingTF处理“鸡蛋罐”和“鸡蛋能”一样吗？

、、、、

某些代码未按预期工作。看起来，无论单词的顺序如何，HashingTF函数都会为具有完全相同单词的字符串返回相同的散列。有人能确认一下吗？ hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(), outputCol="features")

浏览 0提问于2017-03-26得票数 0

1回答

如何使用MHI和MEI进行动作识别

、、、

我目前正在做一个项目，通过Matlab识别人类的行为/活动，用于老年人的监视。我正在阅读不同的论文，以了解如何识别这些动作，我有跨运动历史图像和运动能量图像进行模板匹配。我已经看到了MHI和MEI的结果，但在获得这些结果之后，您如何实际使用它们来识别监控视频中的图像？感谢您提前提供帮助！！

浏览 4提问于2015-09-23得票数 0

2回答

SQLAlchemy子串滤波

、、、、

我在我的PostgreSQL数据库中存储了几种类型的包：“离合器袋”、“肩包”、“托特袋”。我正在编写一个基于python烧瓶的API端点，用户可以使用它提供一个搜索词，比如“红肩包”或“灰色离合器包”。现在，我想使用SQLAlchemy编写一个查询，以便对于给定的搜索条件，我能够在袋子表中查找该值。我写了这篇文章，但只有当用户输入搜索字符串是复数时，它才能工作，如果用户输入“灰色离合器包”，则不起作用。 categories = db.session.query(Bags.id) \ .filter(literal(search_string).ilike(func.conc

浏览 3提问于2016-06-21得票数 4

回答已采纳

1回答

为什么在标记化文本语料库时需要阈值？

、、

因此，我是一个自学的自然语言处理程序，遇到了使用LSTM进行文本摘要的this kaggle notebook。当它将单词转换为整数时，有一些代码显然会计算词汇表中不常见单词的百分比： thresh=4 cnt, tot_cnt, freq, tot_freq = 0, 0, 0, 0 for key,value in x_tokenizer.word_counts.items(): tot_cnt += 1 tot_freq += value if(value < thresh): cnt += 1 freq += valu

浏览 23提问于2021-06-27得票数 0

回答已采纳

1回答

使用SURF要素训练k-NN时出错

、、、、

我正在尝试基于输入图像检索一组相似的图像。我用序列来设置数组元素。使用序列设置数组元素。顺便说一句，Python的OpenCV。我的策略是获取图像数据库的SURF特征，然后将其放入k-NN模型中，这样每当我使用SURF特征查询图像并查找相似的项集时，我就可以使用k-NN获得最近的邻居。问题是，我尝试在scikit-learn中训练k-NN模型，方法是放置SURF描述符，然后将其扁平化。然而，每当我尝试训练模型时，这个错误就一直出现。setting an array element with a sequence.setting an array element with a sequence.

浏览 0提问于2017-10-23得票数 0

1回答

#1305 -函数[table_name].ADD_DATE不存在

、、

我希望在使用下面语句的table.and中的每一行中将1年添加到日期时间类型列中。 UPDATE [table_name] SET [column_name ]=ADD_DATE(yyyy,1,[column_name ]) 但是我在phpmyadmin '#1305 -函数table_name.ADD_DATE不存在‘中得到了这个错误消息，我还尝试使用： UPDATE [table_name] SET [column_name ]=ADD_DATE(yy,1,[column_name ]), UPDATE [table_name] SET [column_name ]=ADD_DAT

浏览 4提问于2015-01-04得票数 0

回答已采纳

3回答

如何分析文本片段中的正向或负向单词？

我正在寻找某种类型的模块(最好是python)，它允许我为该模块提供一个大约200个字符的字符串。然后，该模块应返回该字符串有多少个正单词或负单词。(例如，爱，喜欢，享受vs.恨，讨厌，坏) 我真的很想避免在自然语言处理中重新发明轮子，所以如果你们知道什么可以让我做我上面描述的事情，如果你们可以分享的话，这将是一个巨大的节省时间的方法。谢谢你的帮助！

浏览 1提问于2011-01-13得票数 1

回答已采纳

2回答

如何提高小文本的分类性能

、、、

我得到的数据大多是tweet或小评论(300-400个字符)。我使用了词袋模型并使用了NaiveBayes分类。现在我有很多错误分类的案例，都是下面提到的类型： 1.] He sucked on a lemon early morning to get rid of hangover. 2.] That movie sucked big time. 现在的问题是，在情感分类过程中，两个人都因为“糟糕”这个词而变得“消极”。 Sentiment Classification : 1.] Negative 2.] Negative 类似地，在文档分类过程中，由于单词"sucked“的存在，

浏览 5提问于2015-12-29得票数 2

2回答

集成学习

、、

我目前正在建立一个预测股市的数学模型。我了解到，做这种事情的最好方法不再是做一个大的最好的模型，而是把几个模型聚集在一起，这样就可以得到最好的结果。这种技术称为集成学习。什么是最好的ensemble learning方法？贝叶斯最优分类器？我一定要学会合奏吗使用培训数据训练几个不同的模型，并选择与测试数据最有效的模型？在数据上同时运行多个模型，并将结果组合在一起？这是另一种技术吗?在这种技术中，每一个集合都会提升自己的姿态，以解决以前的模型错误分类的数据？ ...？如果问题不清楚，请告诉我。

浏览 0提问于2017-04-16得票数 0

1回答

使用Google搜索术语列表，以构建特定类别的单词包。

、、、

我现在很难理解一个单词包的制作过程。这将是一个多类分类监督的机器学习问题，其中一个网页或文本被分配到一个类别从多个预定义类别。现在，当我为一个特定类别(例如，“数学”)构建一个单词包时，我熟悉的方法是收集大量与数学相关的网页。从那里，我将执行一些数据处理(如删除停止词和执行TF-以色列国防军)，以获得类别‘数学’的词袋。问:我正在考虑的另一种方法是在谷歌搜索类似于“与数学相关的术语列表”之类的内容来构建我的单词包。我想问一下这个方法可以吗？另一个问题:在这个问题的上下文中，单词和语料库是否意味着同样的事情？提前谢谢你！

浏览 2提问于2017-05-27得票数 0

回答已采纳

1回答

如何使用经过训练的手套/word2vec模型从文章中提取关键字？

、、

我已经用大约500万篇西班牙GloVe文章训练了一名。我知道如何在gensim中加载这个GloVe，并像使用word2vec模型一样使用它。现在我面临着主题建模和从新闻文章(也是西班牙语)中提取关键词的问题，所以我想知道如何使用经过训练的模型来做到这一点。我怎么能做到呢？

浏览 3提问于2016-07-21得票数 0

回答已采纳

5回答

如何从文本数据中获取大量的单词？

、、

我正在使用一个大型文本数据集解决预测问题。我正在实现获得词袋的最好方法是什么？现在，我有各种单词的，但单词的数量太大，无法用于进一步的作业。如果我使用tf-idf标准，那么获取词袋的tf-idf阈值应该是多少？或者我应该使用一些其他的算法。我使用的是python。

浏览 1提问于2013-03-20得票数 20

1回答

如果我想保持句子的顺序，在NLTK中向量化文本数据的最好方法是什么？

、、、

我正在对文本数据进行分类，并希望将其输入到模型中，但我遇到了一个问题。我不想使用CountVectorizer，因为它没有保留它的结构，而且也不想因为效率低下而手动将每个单词转换成一个数组。在这种情况下，我可以使用哪些方法来提供帮助。谢谢

浏览 0提问于2020-05-07得票数 0

1回答

如何找到两个句子之间的语义相似度？

请告诉我一些寻找句子之间语义相似度的方法。 For example: Sen1 :- Ram killed Ravan Sen2 :- Sam was killed by Ravan 这两个句子有什么相似之处？

浏览 12提问于2016-08-08得票数 2

回答已采纳

2回答

如何从句子中识别给定词的情感

、、、

用例如下所示：假设我有一个句子(复习数据)：The staffs were very kind and helpful. The room is ok for its price. There did not seem to be a heater in the room. So, a bit for our January trip. 现在，如果我想知道一个词的情感，例如room，那么我应该如何进行。我使用bag of words模型设计了对给定句子的情感分析，但是从word (回顾数据)中确定给定的D3的情感对我来说还是比较新的。我在这里应该采取什么方法？提供某种方法或任何链接就足够

浏览 0提问于2018-02-18得票数 3

1回答

一种对文件进行文本挖掘并分配类别的方法

、

需要帮助决定一种算法的方法，其中文本是逐行阅读的文本包含事故单的描述，每一行读取它应该分配一个类别到该事件类型使用一组关键字关联已经决定...for例如，如果描述包含像密码(S)，那么它应该分配为类别密码问题。热心的帮助

浏览 0提问于2018-11-12得票数 0

1回答

在图像匹配中，模型的作用是什么？

我正在学习图像匹配技术。我正在研究一种图像特征提取方法，如SIFT和匹配技术(如特征包)。我一直在读一些关于计算机视觉领域的文章，并且注意到他们一直在谈论“模型”。这个模型是什么?一个系统的作用是什么？他们谈论“学习模型”。这是什么意思？?谢谢

浏览 1提问于2014-07-14得票数 1

回答已采纳

1回答

如何使用LDA (Python)从标题列表生成主题？

、、、、

我是自然语言处理的新手。我有一个博客标题列表，例如(不是真实数据，但你明白了)： docs = ["Places to Eat", "Places to Visit", "Top 10 Things to Do in Singapore"]... 大约有3000多个标题，我想在Python中使用LDA为每个标题生成主题。假设我已经使用nltk包清理和标记了这些文本，并删除了停用词，最后我将得到： texts = [["places","eat"],["places","visit"]

浏览 10提问于2018-02-04得票数 2

回答已采纳

1回答

具有不同关键点计数的libsvm

、、

我想使用libsvm实现一个关键点检测算法。每个关键点都有36个特征，但对象的每个样本都有不同的关键点计数... 我的输入数组将如下所示： Object 1: (K1_F1,...K1_F36,K2_F1,...K2_F36, ... , K12_F1,...K12_F36) Object 1: (K1_F1,...K1_F36,K2_F1,...K2_F36, ... , K15_F1,...K15_F36) Object 2: (K1_F1,...K1_F36,K2_F1,...K2_F36, ... , K16_F1,...K16_F36) Object 2: (K1_F1,...

浏览 2提问于2014-08-22得票数 0

1回答

如何在python中制作矢量化文件。我需要将tweet转换为向量形式，以便在贝叶斯网络中运行代码

、、、

至少可以创建一个数据集吗？我正在做情绪分析，并得到了我遵循本教程的信息的极性。但这不是所需的数据集。如果有人能解释这里给出的csv文件，那就太好了。

浏览 1提问于2017-03-30得票数 0

1回答

文档聚类基础知识

、、

因此，我已经仔细考虑了这些概念一段时间，我的理解是非常基本的。信息检索似乎是一个很少在野外讨论的话题。我的问题源于文档聚类的过程。假设我从一个只包含有趣单词的文档集合开始。这里的第一步是什么？解析每个文档中的单词并创建一个巨大的“词袋”类型的模型？然后，我是否继续为每个文档创建字数统计向量？如何使用K-means聚类之类的方法来比较这些文档？

浏览 0提问于2011-11-09得票数 1

1回答

我正在尝试使用SIFT关键点匹配两张图像，在哪个阈值匹配时，我可以说这些图像几乎是一样的吗？

、、、

我在matlab上使用SIFT keypoints atm来获得每个图像的关键点，然后我使用一个匹配函数来附加2个图像并找到图像之间的斑点关键点，我的问题是有时出现的关键点的数量非常低，什么时候我可以说这些图像是相同的或代表相同的对象(例如钞票)。有没有更好的技术来做这件事？

浏览 3提问于2013-12-23得票数 0

2回答

如何在Azure ML中使用gensim包？

、、

我正在使用Azure ML的文本分析。所以在我的python脚本中，我想创建一个单词模型，然后计算每个单词的TFIDF。为此，我使用gensim模型，它在Azure ML上不起作用。那么我有什么选择吗？

浏览 0提问于2016-10-26得票数 1

1回答

如何使用pytorch将python列表列表转换为张量

、、、

我得到一个列表，其中包含不同长度的列表。如何在不使用填充的情况下将其转换为pytorch中的张量？有可能吗？ [[3, 5, 10, 11], [1, 5, 10]]

浏览 77提问于2021-11-22得票数 0

回答已采纳

3回答

Doc2Vec使用哪种算法？

、、、、

就像Word2vec不是一个单一的算法，而是两种算法的组合，即CBOW和Skip模型；Doc2Vec也是这类算法的组合吗？还是它本身就是一种算法？

浏览 0提问于2017-07-10得票数 3

回答已采纳

1回答

使用RTextTools对愤怒、厌恶、恐惧、快乐、悲伤和惊讶进行分类

、、、

我一直在尝试对推文进行情感分析。我试图对那些通常由RTextTools完成的推文中的愤怒、厌恶、恐惧、快乐、悲伤和惊讶进行分类。但是我不能怎么做呢？如果有人能帮上忙的话会很有帮助。任何做这件事的方法都会有所帮助。我并不是想要实现正面或负面的分类。我已经成功地做到了。类似的分类可以在sentiment R包中完成。但只能使用贝叶斯算法。如果我可以在sentiment包的classify_emotion()中应用其他算法，也没问题。

浏览 5提问于2015-07-25得票数 0

1回答

使用levenshtein距离生成摘录

、

好的，我正在构建一个搜索引擎。以及能够提取相关词的搜索模块。现在我在原始源text.is中有了一个单词及其偏移量的列表，使用levenshtein距离来计算查询字符串和源文本部分之间的差异(从给定的单词偏移量开始，直到查询字符串的长度)，这不是一个好主意。我在想，这会帮助我更快地生成摘录。它不需要接近搜索等，只需要普通的“任何”和“所有”模式。顺便说一句，结果已经排序了，所以我现在只看摘录一代。谢谢。

浏览 1提问于2009-07-17得票数 0

1回答