腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7977)
视频
沙龙
1
回答
使用
CountVectorizer
或
TfidfVectorizer
,您
是否
可以
做
与
停
用词
相反
的
操作
,
而是
将
某些
词
应用于
分类
?
、
、
、
、
我遇到了一个问题,在给定训练集
的
情况下,
某些
课程
的
成功率为0%
或
<60%。我得到了一个单词列表来帮助
分类
这样
的
数据,但我不确定如何做到这一点。我知道stop words从数据中删除了
某些
单词,但您能否
将
单词列表
应用于
certian类,以帮助ML算法确定更好
的
结果? ?
浏览 19
提问于2021-05-03
得票数 0
2
回答
TF-下手向量器没有比
countvectorizer
更好
的
工作方式。
、
我正在处理10个标签
的
多标签文本
分类
问题。数据集很小,总共有+- 7000项和+-7500个标签。我正在
使用
python学习,在结果中出现了一些奇怪
的
东西。作为基线,我从
使用
countvectorizer
开始,实际上正在计划
使用
tfidf向量器,我认为它会更好地工作。但它不..。
使用
countvectorizer
,我
的
性能
可以
提高0.1个f1score。特别是这一个得到了一个更低
的
浏览 0
提问于2016-07-05
得票数 7
1
回答
将
表情符号纳入scikit模型
、
、
例如,对于unigram和bigram,我
可以
这样
做
:但是,我不知道你会如何
将
表情符号构建到特征向量中呢?似乎有两个可用
的
选项-要么
使用
与
表情符匹配
的
正则表达式,然后将其输入参数,
或
构造包含表情符号
的
自定义词汇表,并将其输入论点。here] 接下来,
将
Cou
浏览 3
提问于2013-07-16
得票数 3
回答已采纳
1
回答
文本
分类
:准确性
、
、
我想了解如何计算聚类分析
的
准确性。我有上百条短信。数据集如下所示:Shakespeare ‘...’ yes...在文本中,有一些作者
的
引语。选中
的
列已手动填写。我想做
的
是按作者对文本进行分组。我已经用kmeans和
TfidfVectorizer
做了。然而,我想了解
是否
有可能测试这种方法
的
准确性。如果这是不可能
的
,你能告诉我,我
可以
考虑其他
的
浏览 0
提问于2020-05-23
得票数 1
2
回答
需要帮助提高
分类
广告张贴
的
分类
准确性
、
、
我必须
使用
所提供
的
数据来预测广告发布
的
类别;对于我
的
模型,我不能获得超过74%
的
准确性。我不知道我错过了什么。
使用
re&nltk清理文本。旧茎器二手MultinomialNB、LinearSVC和RandomForestClassifierimport jsonfrom skle
浏览 0
提问于2021-09-30
得票数 1
2
回答
scikit-学习:
将
数据整合到块中,而不是一次将其全部拟合起来。
、
、
我正在
使用
scikit-学习构建一个
分类
器,它工作(有点大)文本文件。我现在需要一个简单
的
词
包特征,所以我尝试
使用
TfidfVectorizer
/HashingVectorizer/
CountVectorizer
来获得特征向量。但是,一次处理整个列车数据以获得特征向量会导致numpy/scipy中
的
内存错误(取决于我
使用
的
向量器)。当从原始文本中提取文本特性时:如果我
将
浏览 2
提问于2015-08-03
得票数 9
回答已采纳
1
回答
流编辑工具:输出刮掉
的
内容
、
、
、
、
我只是在想,在
使用
不同
的
流编辑和文本处理/
操作
工具时,
是否
有可能做到这一点;例如grep、cut、sed、awk、perl等。
是否
有方法(以文件
或
STDOUT
的
形式)输出
与
输出
相反
的
输出(换句话说,运行命令时没有提取
的
内容)--即与其他应用程序一起
使用
,而不是
使用
工具特性和可选标志来完成它。ds
浏览 0
提问于2015-10-15
得票数 1
回答已采纳
1
回答
组合多参数生成支持向量机
、
、
新
的
科学知识-学习和我正在工作
的
一些数据,如以下。False }对于单行文本,在
CountVectorizer
这些输出
可以
串联在一起,我希望有以下警告:我不想对特定、有限和定义良好
的
参数具有同等重要性
的
任意文本。 最后,
浏览 2
提问于2013-04-01
得票数 0
回答已采纳
3
回答
如何在nlp中进行特征提取
、
、
、
、
我正在构建一个多类文本
分类
器,它有一个作业门户
的
数据集。数据集由映射到实际名称
的
组织名称组成(见下文)。我想做一个毫升模型,
可以
预测实际
的
组织名称。我
的
数据集如下所示: FlipKart pvt有限公司 A.)我能提取什么样
的
特征?B.)我
的
特征提取器也应该
使用
训练集
的
标签吗? C.)我<e
浏览 2
提问于2018-02-08
得票数 0
5
回答
“
分类
”和“标签”有区别吗?
、
直到最近,我还认为“标签”和“
分类
”是同义
词
。但是当我开始关于计算机视觉术语
的
另一个问题时,我想到了它:“标签”和“
分类
”之间有什么区别吗?我认为“类”是您想要检测
的
概念,而“标签”是
您
分配给数据
的
内容。因此,“类”是一个导致数据
的
概念,而“标签”只是名称。因此,“标签”
与
“
分类
”是一样
的
,因为两者都希望对导致数据
的
底层类进行声明。文章 通过Google学者进行
的
浏览 0
提问于2015-11-27
得票数 6
回答已采纳
1
回答
xarray
或
dask真的支持内存映射吗?
、
、
、
使用
ScipyDataStore设置一个mmap='r',ds['field'].values
将
数据加载到内存中。据我所见,设计
的
重点似乎不是实际
将
numpy函数
应用于
内存映射数组,
而是
将
小块块加载到内存中(有时
使用
内存映射)。例如,。以及一些
与
相关
的
注释,即not无法确定numpy数组
是否
被命名。如果分块
的
dask
操作
至少
浏览 5
提问于2017-06-24
得票数 5
回答已采纳
2
回答
如何以编程方式对对象列表进行
分类
、
、
、
我正在尝试获取一个很长
的
对象列表(在本例中,是来自iTunes应用商店
的
应用程序),并对它们进行更具体
的
分类
。例如,目前有一大堆应用程序被归类为“教育”,但我想把它们归类为生物学、英语、数学等。这是人工智能/机器学习
的
问题吗?我在这方面没有任何背景,但我想要一些资源
或
想法,从哪里开始
做
这类事情。
浏览 1
提问于2012-07-30
得票数 0
回答已采纳
12
回答
词汇化和词干提取之间
的
区别是什么?
、
、
、
我什么时候
使用
每一个? Also...is依赖于词性
的
NLTK词汇化?如果是的话,它不是更准确吗?
浏览 2
提问于2009-11-24
得票数 170
回答已采纳
2
回答
词
/短语
分类
、
、
、
我有一个包含5000条字符串记录
的
列。这些记录是单个单词
或
短语(不是句子
或
段落)。这些记录大多是相似的
或
包含相似的元素。“办公室”、“办公室”、“底层办公室”)。另外,有人手动
将
这些记录中
的
300种
分类
为五类(即住宅、工业、办公、零售、其他),这意味着我
可以
使用
它来开发一个受监督
的
机器学习模型。我在word2vec上做了一些研究,但它们似乎只针对文本,而不是单个
的
单词和短语。请告诉我如何进行
浏览 0
提问于2020-07-22
得票数 2
回答已采纳
6
回答
如何提高朴素贝叶斯
分类
器
的
准确性?
、
我正在
使用
朴素贝叶斯
分类
器
将
数千个文档
分类
为30个不同
的
类别。我实现了一个朴素
的
贝叶斯
分类
器,通过一些特征选择(主要是过滤无用
的
单词),我获得了大约30%
的
测试准确率,45%
的
训练准确率。这比随机
的
要好得多,但我希望它更好。我尝试过
使用
NB实现AdaBoost,但似乎并没有给出明显更好
的
结果(文献似乎在这一点上存在分歧,一些论文说
使用
NB
浏览 15
提问于2010-08-13
得票数 71
回答已采纳
1
回答
恶意软件分析
的
特征选择
、
、
我正试图构建一个
分类
器,通过预测出处编译器来检测
是否
存在错误。为此,我有一个由json格式
的
汇编代码组成
的
数据集:特别是,我希望选择作为功能说明,所以推送,移动,jmp,..etc,并创建一个特征向量,其中包含
的
次数,一个功能出现。所以,我想用这个
词
袋。在这一点上,我不知道如何移动,我不确定我
是否
走
的
正确
的
方式。有人能帮帮我吗?谢谢已经提前了。编辑2现在我正在尝试
使用
json文件,不是用熊猫打开它,
而是
浏览 0
提问于2019-10-25
得票数 1
回答已采纳
3
回答
比较两个英文字符串
的
相似之处
、
、
、
、
所以这是我
的
问题。我有两段文字,我需要看看它们
是否
相似。不是在字符串度量
的
意义上,
而是
在意义上。以下两段是相关
的
,但我需要了解它们
是否
涵盖了“相同”
的
主题。任何解决这个问题
的
帮助
或
指导都将不胜感激。 化石燃料是通过自然过程形成
的
燃料,例如埋在地下
的
死生物
的
厌氧分解。生物
的
年龄和由此产生
的
化石燃料通常是数百万年,有时甚至超过6.5亿年。甲烷可单独
浏览 6
提问于2011-08-17
得票数 5
2
回答
我们怎么知道Dirichlet发行版描述
的
是主题而不是其他东西?
、
、
、
我从这个上读到: 我发现把建模
的
可能方面限制在作者
或
主题上太主观了。由于似乎没有强有力
的
证据来支持某一特定方面,这可能是任何其他潜在/潜在方面。
浏览 1
提问于2014-02-22
得票数 0
回答已采纳
1
回答
创建一个块,其中包含带有
分类
法词汇表
的
所有页面的列表。
、
、
我刚认识德鲁帕尔,所以请对你
的
回答温柔点,如果这是我
可以
在其他地方找到
的
东西,我提前道歉,但我已经找了好几个小时了……主菜单 我想要一个街区,显示所有的故事标签“苹果”。我以为这会很容易,但对于我
的
生活,我不知道怎么
做
。我一直
浏览 0
提问于2013-07-19
得票数 2
回答已采纳
1
回答
Asp.Net Ajax只用在表示层,还是也用在业务逻辑层?
、
、
编辑-更准确地说,BLL层也
使用
AJAX API吗? 谢谢
浏览 4
提问于2009-09-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
通过Python进行文本数据分析和自然语言处理
Python机器学习sklearn模块-特征提取
6,特征的提取
文本分类方法及词向量概述
如何使用 Scikit Learn 为机器学习准备文本数据
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券