腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
数据
集
进行
通用
数据
质量检查
、
、
、
、
我每天都会收集一些不同的
数据
集
,执行一些简单的
数据
质量检查
,然后在
数据
集
未通过检查时发出电子邮件。我的检查就像检查
数据
集中的重复项一样简单,也可以检查
数据
集中的行数和列数是否没有变化--请参见下面的内容。assert df.shape == (1016545, 8)由于这些
数据
集
每天都会更新,并且可能会更改行数例如,一个
浏览 11
提问于2020-02-12
得票数 0
回答已采纳
1
回答
在airflow中设置sns_publish_operator
、
、
、
我
对
airflow是个新手,在正确设置架构方面遇到了一些问题。在这个领域,似乎没有我想象的那么多在线帮助。任何资源或一般技巧将非常感谢。
浏览 27
提问于2020-02-13
得票数 4
1
回答
使用Kafka和Hadoop摄取
数据
--如何避免由于
质量检查
失败而导致的
数据
复制?
、
、
、
、
下面是一个简化的场景: 失败-通知源
数据
提供程序并等待固定
数据
。然后重新摄取和运行所有的N套
质量检查
.创建一个分支--这意味着N个业务流程中没有通过
质量检查
的K将等待它们的固定
数据
集
,而通过的N将与当前的<
浏览 2
提问于2017-04-27
得票数 0
1
回答
Azure计算机视觉服务在更多
数据
上的表现更差
、
、
我们正在尝试使用MS计算机视觉服务
对
损坏的汽车和未损坏的汽车
进行
分类。问题是,与更多的
数据
相比,当对较少的
数据
进行
培训时,该模型表现得更好。知道发生了什么事吗?
浏览 0
提问于2022-07-04
得票数 0
1
回答
跨栏
对
熊猫
数据
进行
多重
质量检查
、
、
、
、
我有一个
数据
文件,如下所示 'test_id':['A1所以,我尝试了下面的
质量检查
q_2 = np.where(df['subject_id'].duplicated如何在data
浏览 1
提问于2021-07-02
得票数 1
回答已采纳
2
回答
我应该将唯一的
数据
集
拆分到一个培训和测试中,还是可以将其中的全部用于回归问题?
、
、
在Kaggle比赛中,我们有一个训练和测试
数据
集
。因此,我们通常在训练
数据
集
上开发一个模型,并使用该算法所看不到的测试
数据
集
对
其
进行
评估。我想知道,如果只给我们一个
数据
集
而没有任何测试
数据
集
,那么验证回归问题的最佳方法是什么。我认为可能有两种方法: 在第一步中,在导入
数据
集
之后,将其转换为训练和测试
数据
集
,使用
浏览 1
提问于2020-09-04
得票数 0
1
回答
Mapreduce Vs Spark Vs Storm Vs Drill -用于小文件
、
、
、
、
我知道spark在内存中
进行
计算,而且比MapReduce快得多。我想知道spark
对
小于10000的记录有多好的效果?我有大量的文件(每个文件大约有10000条记录,比如说100列文件)进入我的hadoop
数据
平台,在我加载到hbase之前,我需要执行一些
数据
质量检查
。我在后端使用MapReduce的hive中执行
数据
质量检查
。对于每个文件,它大约需要8分钟,这对我来说很糟糕。spark会给我更好的表现吗,比方说2-3分钟?我很困惑哪种方法
对
我来说是
浏览 2
提问于2015-08-16
得票数 1
1
回答
训练一个doc2Vec模型实际上需要多少
数据
?
、
、
在对不同的训练
数据
集
进行
了实验之后,我
对
什么是doc2Vec模型的理想训练
数据
大小感到非常困惑? 关于
通用
数据
集
的培训----如果我想使用
对
通用
数据
集
进行
培训的模型,那么在特定的用例中,我需要对很多
数据
进行
培训。关于上下文相关
数据
集</em
浏览 2
提问于2018-01-02
得票数 6
回答已采纳
1
回答
最好是查询DB,还是将表
数据
加载到CLR程序集中的对象中?
、
、
、
、
我通过CLR程序
集
将一个平面文件导入到DB中。HashSet 查询DB DB保存表的结构,并针对这类查
浏览 6
提问于2014-03-25
得票数 0
1
回答
数据
库模式质量门/分析
、
、
、
我被赋予了彻底改造
数据
库的任务。这个
数据
库有所有这类错误做法,很少主键,缺少关系,
数据
类型选得很差。我很欣赏其中的一些很难理解,但当然也有一些能告诉我。为了最后确定这是一个SQL Server
数据
库,我显然要进入SSDT,这样我们就可以获得有关更改的历史信息,并且我认为,作为我们CI过程的一部分,我将在它上运行一个质量门。
浏览 3
提问于2020-10-06
得票数 0
1
回答
基于Kafka的多
数据
源实时流
、
、
总体思路是将
数据
从多个
数据
源推送到kafka,并执行
数据
质量检查
。我
对
这个架构没有什么疑问。从多个源(主要包括java应用程序、oracle
数据
库、rest、日志文件到apache )
进行
流传输的最佳方法是什么?注意:每个客户端部署都包括每个这样的
数据
源。因此,将
数据
推送给kafka的
数据
源数量将等于我列出的客户*x的数量,其中x是
数据
源的类型。理想情况下,推送法最适合于使用拉法而不是拉法。我们如何
浏览 2
提问于2017-03-17
得票数 3
2
回答
是否有一种检查字符串中大写字符的简单方法?
、
、
、
我有一个Tableau
数据
源(最初的来源是MariaDB),它包含许多电子邮件地址。在对
数据
源
进行
一些
质量检查
时,我想确定各种可能的
数据
输入问题。其中之一是字符串是否存储在所有小写中。虽然电子邮件不区分大小写,但
数据
输入应该确保它们以标准化的方式存储,而不仅仅是自由文本。但历史
数据
并没有对此
进行
检查。因此,我想找出电子邮件哪里有大写字符,这是一个(小)信号,表明
数据
输入不小心。例如,测试lower([Email])=[Email]是否
浏览 10
提问于2020-09-25
得票数 1
回答已采纳
1
回答
训练期间的准确率为10%,但是在训练
数据
上使用相同模型的预测仅提供3.5%的准确率
、
、
、
、
callbacks=my_callback, class_weight='balanced') 我已经确保
数据
具有与image_generator和其他所有
数据
相同的伸缩性。
浏览 53
提问于2020-08-24
得票数 0
1
回答
Aws RedShift采样
、
为了
进行
数据
质量检查
,我需要在特定的时间间隔内收集
数据
。有些桌子很大。比如随机选择100行。
浏览 12
提问于2022-05-26
得票数 0
回答已采纳
1
回答
将is.logical应用于具有多个
数据
类型的列表
、
我试图弄清楚如何
对
代码
进行
一些
数据
质量检查
。x <- list(1,2,T)我希望能够应用一个函数,它会将'x‘标记为有坏
数据
。
浏览 2
提问于2014-11-24
得票数 0
回答已采纳
1
回答
如何为机器学习的训练
集
找到正确的编号
、
、
我想开发一个机器学习算法,使用knn模型来
对
我的
数据
记录
进行
分类。我的问题是:是否有一个
通用
的方法来确定我的训练
数据
集
应该有多大?
浏览 0
提问于2021-09-07
得票数 1
1
回答
HDF5输入
数据
集
在NVIDIA数字中的使用
、
、
、
我的列车
数据
集
具有如下结构,其格式为.hdf5。作物
数据
集
{27482,3,128,192}标签
数据
集
{27482,12}平均
数据
集
{3,128,192} pids
数据
集
{27482} 我知道如何用更简单的格式(如.txt或.jpg )来输入模型
浏览 5
提问于2016-11-11
得票数 1
回答已采纳
1
回答
Pandas赋予datetime.date‘被强制为datetime
、
我的
数据
包含一个日期列。
浏览 20
提问于2019-10-10
得票数 0
1
回答
查找与特定目标类别关联的功能类别
、
我有一个有三列的
数据
集
。产品(最多200)。在最终质量检验中未
进行
的质量检验。(多达70种不同的质量控制措施)质量检验的结果。我怎样才能解决这个问题?
浏览 0
提问于2021-10-22
得票数 1
6
回答
有没有办法比较两个Java文件
为了确保没有任何变化(并且作为
质量检查
),我们尝试使用WinMerge
对
它们
进行
比较。我们可以看到它们之间的差异似乎是由于某种元
数据
,例如在不同日期构建的文件? 线条上的差别似乎是一致的。有没有一种方法来比较它们剔除的元
数据
,如日期?
浏览 11
提问于2010-03-28
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对大数据进行抓取
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
python怎么对数据集进行归一化处理
数据集进行拆分到底什么样数据算是数据标签什么样的数据算数据样本
第33集 python机器学习:K均值对多维数据集的处理
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券