腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
根据
日期
范围
对
df
进行
分类
,
具有
多个
因素
级别
、
、
如何
根据
单独的、小得多的R数据帧(62行)中的
日期
范围
定义
对
R数据帧(>10000行)中的每一行
进行
分类
?ConcFlow$DATE是否落入First.Flush中定义的
范围
来确定。如果
日期
在First.Flush$Start和First.Flush$End (含)
范围
内,则需要将其定义为湿季。如果不是,则应定义为旱季。我是R的新手,循环
对
我来说还不是很有意义。我不知道这是不是最好的方法--任何帮助都会非常感谢
浏览 21
提问于2021-01-23
得票数 0
回答已采纳
1
回答
在未见数据上实现sklearn的FeatureHasher
、
、
、
对于一些背景知识,我一直致力于医疗保险索赔的二进制
分类
,并正在实现sklearn的FeatureHasher来向量化
分类
功能,其中许多特性在基数上特别高,
具有
高计数的独特
因素
级别
,而sklearn的FeatureHasher一直是
对
所有这些信息
进行
编码的有用工具。例如,如果我在最初的培训集中有一个特定
分类
特征中的10个
因素
级别
,而在每天传入的索赔数据摘要中只有三个
因素
级别
在相同的<
浏览 0
提问于2020-04-27
得票数 0
1
回答
不可见数据中不存在虚拟变量
级别
、
、
、
、
我已经训练了一个
具有
5个
分类
变量水平的logistic回归模型,所有水平
对
模型都有意义。 然而,在看不见的数据上,
分类
变量的
级别
数为3。因此,训练后的模型无法对看不见的数据
进行
预测,因为它无法找到一些
级别
。 我使用了一种热编码来转换
分类
变量。如何解决这个问题?',drop_first=True)
df
= pd.concat([
df
,metadata_employeegroup],axis=1) 基于
浏览 9
提问于2019-12-19
得票数 0
回答已采纳
1
回答
为高基数数据实现Scikit的FeatureHasher
、
、
、
、
我面临的问题是,我的一些
分类
特性
具有
很高的基数,有许多非常罕见或独特的价值观。我已经绘制了我的8个
分类
特征,其中最重要的是独特的
因素
水平: 替代虚拟变量:我一直在阅读特征哈希,并了解到该方法是一种可用于快速和空间效率高的特征矢量化方法的替代方法,它的特殊性适用于基数较高的
分类
数据我计划利用Scikit的FeatureHasher
对
我的
分类
特性执行100
多个
唯一特性
级别
的特性散列(我将为剩下的不到100个唯一功能
级别</e
浏览 3
提问于2020-04-02
得票数 0
回答已采纳
1
回答
熊猫多指标第一指数的选择
范围
?
、
我有一个
具有
0级和1级的多级索引数据,0级是
日期
,
级别
1是资产ids。
df
-10:将
根据
0级检索最后10个索引下的所有行。我尝试过许多类似于此的东西:通常情况下,对于该
级别
,我会以某种形式的类型不匹配结束。0级索引是一个
日期
时间,但我已经
对
其
进行
了排序,并希望访问一个数字
范围</em
浏览 1
提问于2018-09-03
得票数 0
回答已采纳
1
回答
插补训练公式与非公式的不同效果
、
、
我注意到在训练中使用公式法和非公式法会产生不同的效果。此外,公式法所需时间几乎是非公式法所需时间的10倍。这是意料之中吗?# ------------------------------- > system.time(r <- train(c1 ~ ., z, method="rf"
浏览 2
提问于2014-03-05
得票数 5
回答已采纳
1
回答
按
日期
范围
剪切或分组的熊猫
、
我有
多个
具有
日期
列的数据帧。我想按
日期
列按5天
对
这些数据帧
进行
分组。()我尝试使用pd.cut,但它不适用于datetime列。pd.cut(
df
['DateCol'], 10)给了我TypeErrorpd.groupby(<em
浏览 2
提问于2016-11-30
得票数 1
1
回答
使用DT软件包的数据表中的排序因子
、
、
、
为此,我有一个数据框架,将它们作为一个
因素
存储,
级别
是
范围
的中点,标签是要显示的
范围
。例如,12.5级将标记为10-15%。 rownames = FALSE, 如您所见,它似乎是
对
字符串的第一个数字
进行
排序,而不是
根据
<e
浏览 4
提问于2016-02-26
得票数 5
回答已采纳
1
回答
Python :理解
分类
变量的d树输出
、
、
、
、
数据集
具有
所有的
分类
特性,与R不同,Python需要对
分类
变量
进行
虚拟编码。我使用以下代码
对
所有
分类
变量执行虚拟编码:
df
_with_dummies = pd.get_dummies(
df
2, columns = col_names) 虚拟编码
根据
每个列的
因素
浏览 1
提问于2017-07-02
得票数 0
回答已采纳
2
回答
有序
因素
与水平
因素
R说: 逻辑标志,以确定
级别
是否应被视为有序的(按给定的顺序)。此外,有序参数的使用与使用将对
因素
排序的“
级别
”参数有何不同: names<- factor(c("fred","bob","john"), levels= c("john","fred","bob")我
对
如何使用“有序”和“等级”感到困惑。
浏览 2
提问于2014-04-30
得票数 9
1
回答
关于散射的Bokeh
分类
x轴对齐
、
我有一个与
分类
x轴的散射,但我的圆圈与轴不对齐。bokeh.models import ColumnDataSource, HoverTool x_axis_rng = ['VAL 1','VAL 2']
df
.columns = ['x','y'] print(chart_data
浏览 0
提问于2018-06-29
得票数 1
回答已采纳
1
回答
使用假设库创建多索引pd.DataFrame
、
、
、
我需要创建一个
具有
多个
索引的pd.DataFrame。第一个索引
级别
是1...n的一个简单
范围
。第二个
级别
是
日期
时间索引。所有列都包含floats。下面是我的n=2示例。import strategies as st
df
1,
df
2):
df
= pd.concat(
浏览 5
提问于2020-09-28
得票数 2
回答已采纳
1
回答
SQL -秩函数
、
我试图
根据
多个
因素
对数据
进行
排序,但在这样做时遇到了困难。我希望
根据
最近的输入
日期
和最大值材料文档项目
对
每一批和每一批材料
进行
排序。(So _2超过1等)在上面的示例数据中,我希望第5行排在第1位,因为它是最近的
日期
,
具有
最高的资料文档项。
浏览 11
提问于2022-05-18
得票数 0
1
回答
按组对面排序
、
我有一个像这样的数据框架 group=rep(c(1,2,2,2,1,1), each=5),现在,我希望使用var1绘制ggplot,并按id
对
图
进行
分类
,但按group (以及group中的id )对方面
进行
排序我认为,我必须使id成为一个
级别
按照group排列整齐的
因素<
浏览 3
提问于2014-01-24
得票数 0
回答已采纳
1
回答
根据
特定
级别
的累积值
对
堆叠条形图
进行
排序?
、
我已经在网上搜索了好几个小时了,我只找到了如何在一个
因素
范围
内订购/重新排序的答案,而现在我确实知道如何去做了。我似乎无法围绕着所需的操作来
对
多个
叠加图
进行
排序,例如,除了最后一个
级别
值之外,所有的累积值都是这样。x:离散值,每个值由一个单条表示,例如A、B、C、Df:
因素
,例如年份的水平(2012:2018)
df
<- data.frame(f=factor(sample(2012:position_fil
浏览 0
提问于2019-02-08
得票数 1
回答已采纳
1
回答
在Seaborn图中指定独立轴的值
、
、
我正在使用Seaborn创建一个箱形图(更准确地说,是boxen图),并按一个
分类
变量对数据
进行
分割。曲线图显示得很好,但是考虑到基于该类别的不同数据分布,y轴值对于每个类别的单个
因素
/
级别
应该是不同的。Tableau允许您在分割数据时指定一致/唯一的轴值,我也想这样做。下面是我的工作代码:import seaborn as sns
df
= pd.read_csvmycsv.cs
浏览 18
提问于2020-05-11
得票数 3
回答已采纳
1
回答
在熊猫中使用groupby创建新的列
、
新列在分组后需要按特定
日期
分组。在对它们
进行
排序之后,它们被除以当天的值总数(这个数字存储在counts_date中)。这给了我一个0-1的
范围
。dataframe是一个
具有
date作为
级别
0的
多个
索引,唯一的id是
级别
1。 ranks2=list(
df
.columns.values)
浏览 0
提问于2018-08-14
得票数 0
回答已采纳
1
回答
提取基于唯一
级别
的
分类
名称列表
、
、
我想在这个问题上提供一些帮助,因为我从未听说过python中的
级别
(我知道它们在R中是可用的)。 #
浏览 6
提问于2021-08-13
得票数 1
1
回答
GLM合并结果
、
为了得到最终的价格,我必须
根据
分类
将两个模型的系数估计值相乘。如果两个模型都有相同的自变量和相同的水平,那么问题就微不足道了。我可以将这两个函数的拟合值相乘,就完成了。当这些
因素
具有
不同的
级别
时,问题就出现了,这是合并它们以获得更好结果的原因。假设我有3个
级别
0-25,25-50,50-110的频率因子年龄和2个
级别
0-25,25-110的严重程度因子。Frequency Severity25-50
浏览 3
提问于2014-08-01
得票数 0
1
回答
如何
根据
日期
范围
对
查询结果
进行
分类
、
1/1/2015 3/15/2015 454我想将查询结果
分类
为铅笔
浏览 1
提问于2015-03-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
简单谈谈决策树DT
Doping:使用精心设计的合成数据测试和评估异常检测器的技术
Python众筹项目结果预测:优化后的随机森林分类器可视化|数据代码分享
对比:用两种ML包构建用户流失预警模型,有何异同?
8个数据清洗Python代码,复制可用,最长11行
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券