腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
多
列
中
出现
的
单词
进行
One-hot
编码
、
、
、
、
我想从分类数据
中
创建即时
编码
数据,您可以在这里看到。Clothing Black Footwear2 0 0 1 有没有办法让每个标签只有一个虚拟变量
列
?贝斯特,贝尔纳<e
浏览 9
提问于2020-11-04
得票数 1
回答已采纳
2
回答
“一热”
编码
因变量在随机森林中
的
应用
、
、
、
、
我使用sklearn-learn在python
中
构建了一个随机森林,并
对
所有分类变量应用了“一热”
编码
。问:如果我将"one hot“应用到我
的
DV,我是将它
的
所有虚拟
列
都作为DV应用,还是应该以不同
的
方式处理DV?
浏览 4
提问于2018-12-03
得票数 3
1
回答
这个热吗?
、
、
阅读: 这是否也意味着它只
编码
了一个
单词
列表?一种热
编码
的
维基百科定义( ) 在自然语言处理
中
,一个热向量是一个1×N矩阵(向量),用于区分词汇表
中
的
每个
单词
和词汇
中
的
每一个
单词
。该向量由所有单元格
中
的
0组成,唯一用于识别
单词
浏览 0
提问于2018-05-29
得票数 1
回答已采纳
2
回答
一次热
编码
后测试数据
的
预处理
、
、
我在这里有点困惑,我有一个
对
所有<10个唯一值low_cardinality_cols
的
分类
列
进行
了热
编码
,并删除了用于训练和验证数据
的
其余分类
列
。现在,我
的
目标是将我
的
模型应用于test.csv
中
的
新数据。
对
测试数据
进行
预处理以匹配训练/验证格式
的
最佳方法是什么?我担心
的
是: 对于这些
列
,
浏览 7
提问于2019-12-23
得票数 2
回答已采纳
2
回答
混合数据集中
的
特征选择
、
我是数据科学领域
的
新手。 我有一个数据集,其中既有数字
的
,也有字符串
的
,有趣
的
事实是,这两种类型
的
数据
对
结果都有意义。,data.The。如何从数据集中选择相关特征?我是否应该使用LabelEncoder并将数据从字符串转换为数字,然后继续
进行
关联?我走
的
路是
对
的
吗?有没有更好
的
方法来解决这场危机?
浏览 21
提问于2021-05-20
得票数 0
回答已采纳
4
回答
卷积序列到序列学习模型
中
的
位置嵌入是什么?
我不明白卷积序列到序列学习论文中
的
位置嵌入,有人能帮我吗?
浏览 3
提问于2017-06-18
得票数 8
1
回答
Dask one-hot-
编码
,不知道类别
、
、
我有pandas代码,其中我
对
one-hot
编码
执行以下操作。df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index) 其中,我
的
CatData
列
包含类别列表。为了处理更大
的
数据集,我尝试使用dask。大多数pandas功能都有一个简单
的
替代方法。然而,
one-hot
编码
是棘手
的
浏览 8
提问于2019-09-20
得票数 1
2
回答
多
类感知器
的
特征向量
、
、
我正在尝试用python实现
多
类感知器。当涉及到多分类时,我已经完全理解了感知器算法
的
概念,但仍然
对
我们应该从训练数据中提供
的
特征向量感到困惑。 这个问题只是一个文本(文档)分类问题。我正在尝试在文本预处理阶段使用单字词频作为感知器
的
特征。当我基于每个训练文档
中
的
词频为每个文档构建特征时,构建
的
特征恰好是非常稀疏
的
(文档中
出现
的
每个标记
的
词频为0,没有
出现
浏览 7
提问于2020-02-13
得票数 0
1
回答
在一
列
上安装一个热
编码
器,并适用于多个
列
、
、
我有一个包含两个分类
列
的
dataframe,其中包含一组相同
的
字符串,我希望
对
其
进行
单热
编码
。确定
列
可以包含
的
字符串集,并且两
列
之间
的
one-hot
编码
必须一致。这两
列
都包含所有可能
的
值,甚至多次包含。 在下面的示例
中
,我将
编码
器放在一个包含
列
可以包含
的
字符串集
的</
浏览 4
提问于2019-10-30
得票数 0
回答已采纳
1
回答
在word嵌入
中
,如何将向量映射到word?
、
、
、
我检查了所有的应用程序接口,但找不到一种将矢量映射到word
的
方法,无论是在word2Vec
中
还是在glove
中
。谷歌帮不了那么
多
忙。 有人知道怎么做吗?但到目前为止,我发现
的
实现都是使用
one-hot
编码
。因此,我想尝试使用glove嵌入,并使用输出映射回
单词
。
浏览 5
提问于2018-03-14
得票数 0
2
回答
大型可训练嵌入层减慢了训练速度
、
、
我正在训练一个使用LSTM对文本
进行
分类
的
网络。我为
单词
输入使用了一个随机初始化
的
可训练嵌入层。网络使用Adam Optimizer
进行
训练,并使用
one-hot
编码
将
单词
输入网络。我注意到嵌入层中表示
的
单词
数量
对
训练时间有很大影响,但我不明白为什么。将网络
中
的
单词
数量从200'000增加到2'000'000几乎使一
浏览 25
提问于2019-01-17
得票数 0
2
回答
一个热门
编码
器什么是行业标准,在训练/拆分之前或之后
进行
编码
、
我仍然
对
一个热门
的
编码
器感到有点困惑。我只是在想,如果我们在拆分之前
进行
编码
,就不应该有任何“信息泄漏”到测试集中。那么,为什么人们提倡在
编码
之后
进行
编码
呢?不是只用于将分类变量转换为二进制
的
热门
编码
器吗?我只是想知道什么是行业标准。 谢谢
浏览 0
提问于2019-11-28
得票数 1
1
回答
这里
的
数据表示对于
One-Hot
是准确
的
吗?
、
、
我尝试在这里使用
One-Hot
对
蘑菇数据集()
进行
编码
。下面是我使用
的
编码
代码(在Python
中
):second_df = OneHotEncoder(handle_unknown='ignore').fit_transform(new_df)我
的
代码
的
结果如下图所示,这让我非常困惑
浏览 0
提问于2021-04-21
得票数 2
2
回答
如何修复此错误: ValueError:无法将字符串转换为浮点型:'A‘
、
、
、
下面是我
的
示例数据集。我是不是还漏掉了什么步骤?
浏览 0
提问于2020-05-26
得票数 1
1
回答
ValueError:形状(%1,% 2)和(%1,% 4)不兼容
、
我正在尝试解决一个简单
的
多
类分类问题。但不知何故,我得到了这个错误。当我使用单层和2个神经元时,程序可以工作,但结果并不好,但这没有意义,因为这是一个
多
类问题,所以输出层应该在输出端有4个神经元。我认为我在这里做
的
是一个非常愚蠢
的
错误。下面是我
的
代码。
浏览 28
提问于2020-04-05
得票数 0
3
回答
XGBoost/CatBoost
中
包含大量类别的分类变量
、
、
、
、
我有一个关于随机森林
的
问题。假设我有关于与项目交互
的
用户
的
数据。项目的数量很多,大约有10000个。我
的
随机森林
的
输出应该是用户可能与之交互
的
项目(比如推荐系统)。对于任何用户,我都希望使用一个功能来描述用户过去与之交互过
的
项目。然而,将分类产品特征映射为一次性
编码
似乎非常低效,因为用户最多与几百个项目交互,有时甚至只有5个项目。当输入特征之一是具有大约10,000个可能值
的
分类变量,而输出是具有大约10,000个可能值
的</
浏览 0
提问于2017-09-27
得票数 3
1
回答
如果我传递了以前从未传递过
的
ML.Net预测
的
分类值,该怎么办?
例如,如果我为这些值训练模型Column1 = D , Column2 = E , Column3 = F , Label = 20如果我想要预测呢?模型对此做了什么?
浏览 1
提问于2018-08-13
得票数 0
1
回答
使用Catboost分类器转换分类
列
、
、
、
我正在尝试将CatBoost应用于我
的
一个
列
,以获取分类功能,但得到以下错误: CatBoostError: Invalid type for cat_feature[non-default value我可以使用
one-hot
编码
,但这里
的
许多人说CatBoost似乎更好地处理这一点,并且不太容易过度拟合模型。 我
的
数据由三
列
组成,“国家”、“年份”、“电话用户”。到目前为止我
的
代码如下: X = df.loc[115:305] y = df.loc[
浏览 324
提问于2021-04-13
得票数 0
回答已采纳
1
回答
单词
表示
的
one_hot与标记器
、
、
我在许多博客中看到,人们使用one_hot (来自tf.keras.preprocessing.text.one_hot )将
单词
字符串转换为表示索引
的
数字数组。这并不能保证单一性。更新:我知道哈希在One_hot中用来将
单词
转换成数字,但并没有意识到它
的
重要性,因为我们可以使用tokenizer类来更准确地做同样
的
事情。
浏览 22
提问于2020-12-23
得票数 0
1
回答
如何解释
one-hot
编码
用于决策树后
的
特征重要性
、
、
我知道决策树有基尼系数计算
的
feature_importance属性,它可以用来检查哪些特征更重要。但是,对于scikit-learn或Spark
中
的
应用程序,它只接受数字属性,所以我必须将字符串属性转换为数字属性,然后
对
其
进行
one-hot
编码
器。当特征被放入决策树模型时,它是0-1
编码
的
,而不是原始格式,我
的
问题是,如何解释原始属性
的
特征重要性?在尝试解释特性重要性时,我应该避免使用
on
浏览 2
提问于2016-10-14
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
TensorFlow 指标列,嵌入列
one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
数据预处理之One-Hot
第六篇:Word2Vec的介绍
机器学习第四篇之离散值处理
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券