腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5547)
视频
沙龙
1
回答
Apache
Beam
是
进行
特征
预处理
的
合适
工具
吗
?
因此,这是一个有点奇怪
的
问题,因为它与如何使用该
工具
无关,但更多
的
是
关于为什么要使用它。 我正在部署一个模型,并考虑使用
Apache
-
beam
的
python API来运行
特征
处理任务。文档非常庞大和复杂,但我经历了大部分,甚至建立了一个小
的
工作管道,仍然不清楚这是否
是
适合我
的
工具
。下面
是
我需要
的
一个示例: Input data structure
浏览 25
提问于2020-06-11
得票数 0
1
回答
用tfx tensorflow变换连接数据集
、
、
我正在尝试复制一些我在熊猫中做过
的
数据
预处理
到tensorflow变换中。我有几个CSV文件,我加入了这些文件,并与熊猫
进行
聚合,以生成一个培训数据集。现在,作为生产模型
的
一部分,我希望使用
apache
和tensorflow变换
进行
这种
预处理
。然而,我不太清楚如何在那里复制相同
的
数据操作。对于熊猫来说,这将是一个非常简单
的
操作,但是我如何在运行在
apache
beam
上
的
tenso
浏览 4
提问于2022-03-25
得票数 0
回答已采纳
1
回答
如何在DataFlow中使用Google tf.Transform运行程序和模板?
、
、
、
、
我们正在建立一个基于Google
的
机器学习管道,利用GC引擎
进行
分布式TensorFlow培训和模型服务,并利用DataFlow
进行
分布式
预处理
工作。我们希望在Google上以DataFlow作业
的
形式运行
Apache
应用程序。提供了将我们
的
预处理
开发与参数化操作(参见此处: )分离开来
的
能力--基本上: A)在PipelineOptions派生类型中,将选项类型更改为ValueProvider (python :类型推断还是类型
浏览 7
提问于2017-03-21
得票数 1
回答已采纳
1
回答
我可以将侧输入传递给
Apache
吗
?
、
、
我正在使用
Apache
对TensorFlow数据
进行
预处理
。我想根据我
的
数据集中
的
示例数来选择TFRecord碎片
的
数量。守则
的
有关部分
是
:num_tfexamples = tfexample_strs | "count tf examples" >>
beam
.combiners.Count.Globally() num_shards = num_t
浏览 1
提问于2018-03-07
得票数 3
回答已采纳
1
回答
应用TensorFlow变换来变换/缩放生产中
的
要素
、
、
、
、
概述 我遵循以下指南编写TF记录,其中我使用tf.Transform对我
的
特征
进行
预处理
。现在,我想部署我
的
模型,为此,我需要在真实
的
实时数据上应用此
预处理
功能。我
的
方法 首先,假设我有两个特性: features = ['amount', 'age'] 在working_dir=gs://path-to-transform-fn/中,我有来自
Apache
浏览 28
提问于2019-01-08
得票数 9
2
回答
展平( key,List[List]) PCollection中
的
列表列表,保留键
我有一个(键,值)对
的
PCollection,其中值本身
是
一个列表 {'apple': ['1','2'], 'apple': ['9','10']} 我希望获得另一个具有相同键
的
集合,但是列表
是
原始集合上
的
GroupByKey,但是结果值
是
扁平化
的<
浏览 20
提问于2021-10-18
得票数 2
回答已采纳
2
回答
apache
光束中使用SpannerIO
的
错误
、
、
、
这个问题是的后续问题.我正在尝试使用
apache
从google扳手表中读取数据(然后
进行
一些数据处理)。;import org.
apache
.
beam
.sdk.io.gcp.spanner.SpannerIO;import org.
apache
.
浏览 6
提问于2017-10-11
得票数 4
1
回答
数据表示(NoSQL数据库?)用于医学研究
、
、
问题描述在个人记录(病人)层次上
进行
预处理
,即提取原始数据中
的
某些
特征
,存储它们。计算时间序列中
的
一些斜率等,所有这些都可以在单独
的
水平上
进行
,并且可以很容易地分布。在
浏览 0
提问于2017-06-05
得票数 3
1
回答
如何在实际中使用Mahout分类器?
、
、
、
我想使用
Apache
Mahout和朴素贝叶斯分类器对一堆文档
进行
分类。我做了所有的
预处理
,并将训练数据集转换为
特征
向量,然后训练分类器。现在我想把一堆新
的
实例(待分类
的
实例)传递给我
的
模型,以便对它们
进行
分类。 然而,我
的
印象是,必须对我
的
待分类实例和训练数据集一起
进行
预处理
?如果
是
这样,为什么我可以在构建模型时没有要分类
的
实例
的</e
浏览 1
提问于2015-07-08
得票数 0
1
回答
使用
apache
/ google云数据流读取多行JSON
、
、
、
我正在尝试读取管道中
的
JSON文件(多行),但
beam
.io.ReadFromText(somefile.json一次只读取一行。我试图以JSON
的
形式读取文件
的
内容,以便在每个类别上应用map来下载相关
的
产品文件。这就是我
的
(productindex.json)文件JSON
的
样子: "productcategories" : { "productfile: w
浏览 0
提问于2019-02-19
得票数 2
2
回答
用编写每个窗口
的
唯一拼花文件
、
、
、
、
我试图用
apache
将从kafka消费者到google云存储
的
消息通过30秒
的
windows传输到谷歌云存储。使用
beam
_nuggets.io阅读卡夫卡
的
主题。您可以看到我
的
代码如下:from
apache
_
beam
.transforms.trigger import AfterAny, AfterCount, AfterProcessin
浏览 3
提问于2021-10-18
得票数 2
1
回答
Apache
NiFi
是
这个用例
的
合适
工具
吗
?
、
、
请帮助我选择一个正确
的
工具
。我
的
任务
是
:有N个数据源(N < 20),它可以是关系数据库(MySQL,PostgreSQL),也可以是REST。我需要将来自N个数据源
的
所有数据加载到一个关系数据库中(仅一次)。因此,最终目标似乎
是
一个简单
的
ETL:(注:每个源DB包含10-15个耦合表,有100 000至1000行) 我目前正试图找到
合适
的
<em
浏览 0
提问于2020-02-19
得票数 0
回答已采纳
2
回答
预处理
螺旋数据集以用于Logistic回归
、
、
、
因此,我需要对螺旋数据集
进行
分类。我一直在试验一系列算法,如KNN,Kernel SVM等。我想尝试使用
特征
工程,
预处理
等来提高Logistic回归
的
性能。我完全理解Logistic回归不是解决这类问题
的
合适
算法。这更像是对
预处理
和其他
特征
工程/提取方法
的
学习练习,看看我可以在多大程度上改进这个特定
的
模型。 以下
是
我将用于分类
的
示例数据集。任何关于如何操作数据集以在Log
浏览 44
提问于2021-07-12
得票数 0
回答已采纳
3
回答
如何为多个数据列制作管道?
、
、
title': 'doctor evil','url': 'evilempyre.com', 我也想尝试不同
的
特征
提取方法: TFIDF、word2vec、Coutvectorizer等,但我想尝试不同
的
组合:一个
特征
集将包含用TFIDF转换
的
' text‘数据,而
浏览 3
提问于2017-12-19
得票数 5
回答已采纳
0
回答
我可以使用
Apache
Camel作为ESB
吗
?
、
、
我试图了解更多关于,Mule ESB,JBoss ESB]...and
的
大体关于
的
知识。我可以在
Apache
Camel中找到几个ESB
特征
。那么,我可以像ESB一样使用
Apache
Camel
吗
,或者
Apache
ServiceMix
是
最
合适
的
吗
?
浏览 19
提问于2017-06-10
得票数 2
回答已采纳
1
回答
读取csv文件并在BigQuery表中填充数据
下面
是
从csv文件中读取并写入另一个csv文件和BigQuery
的
代码:import loggingimport
apache
_
beam
as
beam
from
apache
_
beam
.io import ReadFromTextfrom
apache
_
beam
.m
浏览 4
提问于2017-07-31
得票数 0
回答已采纳
1
回答
Apache
光束-澄清Python SDK上输出类型提示
的
预期行为
、
、
、
__': run()1030numbers虽然我认为我会看到与输入类型提示相同
的
错误,但没有出现任何错误。我是不是误解了输出类型提示
的
用法?如果
是
这样的话,我可以问一下with_output_type
的
预期行为
吗
?如果有人能帮助我理解目前关于typehint
的
正确行为是什么,我将不胜
浏览 3
提问于2017-12-26
得票数 1
2
回答
ValueError:无法将字符串转换为浮动:“Mme”
、
、
、
、
当我在木星实验室运行以下代码时from sklearn.feature_selection import SelectKBest,f_classif predictors = ["Pclass","Sex","Age","SibSp","Parch","Fare","Embarked","FamilySize","Title","NameL
浏览 4
提问于2021-12-20
得票数 0
回答已采纳
1
回答
在语句中使用聚合时,
Beam
SQL将无法工作:“无法计划执行”
、
、
我有一个基本
的
Beam
管道,它从GCS读取,做一个
Beam
转换,并将结果写到BigQuery。..但是,当我试图用sum
进行
聚合时,它就失败了(抛出一个CannotPlanException异常):Step #1: Step #1: at org.
apache
.
beam
.repackaged.
beam
_sdks_java_extensions_sql.org.
a
浏览 1
提问于2018-09-13
得票数 0
2
回答
如何在scikit学习(Python)中优化随机森林模型
、
、
、
y_pred),annot=True,fmt='3.0f',cmap="winter")我一直在努力优化我
的
模型我在测试数据集上获得
的
最高准确率为78%。你有什么想法或步骤,我可以采取
的
改进我
的
模式
吗
?
浏览 5
提问于2020-07-18
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java近期新闻: JReleaser 1.2、Spring Batch、PrimeFaces、Quarkus、JobRunr与Apache Beam
如何从机器学习数据中获取更多收益
想成为大数据开发工程师,你必须掌握的开发流程图是这样的
Kafka落选!InfoWorld最佳开源数据平台奖公布
Spotify开源Terraform:用于在GKE上运行Kubeflow
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券