Loading [MathJax]/jax/output/CommonHTML/config.js
社区首页 >问答首页 >AWS红移数据处理

AWS红移数据处理
EN

Stack Overflow用户
提问于 2017-10-07 01:41:59
回答 3查看 2.3K关注 0票数 1

我目前正在与一家小公司合作,该公司将他们所有的应用程序数据存储在AWS红移集群中。我的任务是对Redshift集群中的数据进行一些数据处理和机器学习。

我需要完成的第一项任务是将集群中的现有数据转换为一些基于一些相当简单的SQL逻辑的新表。在MSSQL环境中,我只需将所有逻辑放入参数化存储过程中,并通过Server代理作业对其进行调度。然而,sprocs似乎并不是Redshift中的一件事。如何创建SQL作业并将其安排为在AWS环境中夜间运行(例如)?

我的另一个任务是开发一个机器学习模型(用Python),并在Redshift数据库中对记录进行评分。如果计划从Redshift集群中提取数据,得分,然后将其插入到同一集群的新表中,那么托管python逻辑并进行数据处理的最佳方法是什么?似乎我可以旋转一个EC2实例,在那里托管我的python脚本,在那里进行处理,并安排脚本通过cron运行?

我看到了大量的AWS (和非AWS)产品,它们看起来可能是相关的(AWS Glue/Data管道/EMR),但是有太多的产品让我有点不知所措。提前感谢您的帮助!

EN

回答 3

Stack Overflow用户

发布于 2017-10-07 14:40:05

ETL

Amazon不支持存储过程。此外,我应该指出,存储过程通常是一件坏事,因为您正在将逻辑放入存储层,这使得将来很难迁移到其他解决方案。(我认识许多甲骨文客户,他们把自己锁在永远无法改变技术的状态中!)

您应该在Redshift外部运行ETL逻辑,只需使用Redshift作为数据库。这可能就像运行一个使用psql调用Redshift的脚本一样简单,例如:

代码语言:javascript
代码运行次数:0
复制
`psql <authentication stuff> -c 'insert into z select a, b, from x'`

(使用psql v8,它是Redshift的基础。)

或者,您可以使用更复杂的ETL工具,如AWS胶 (目前并不是在每个地区)或第三方工具(如布莱特 )。

机器学习

是的,您可以在EC2实例上运行代码。如果它很小,您可以使用AWS Lambda (最多5分钟运行时间)。许多ML用户喜欢在Amazon上使用Spark。这取决于您需要的技术堆栈。

亚马逊CloudWatch事件可以日程安排 Lambda函数,然后启动EC2实例,这些实例可以完成您的处理,然后进行自我终止。

确实有很多选择!

票数 2
EN

Stack Overflow用户

发布于 2017-10-08 23:13:55

在Redshift上运行ETL的两个选项

  1. 创建一些“创建表作为”类型的SQL,它将以源表作为输入并生成目标(转换后的表)。
  2. 使用ETL工具在数据库之外执行转换。例如EMR或Glue。

通常,在诸如Redshift这样的MPP环境中,最佳实践是将ETL推送到功能强大的数据库(即选项1)。

只考虑将ETL置于Redshift之外(选项2),其中SQL不是转换的理想工具,否则转换可能占用大量的计算资源。

没有内置的调度或编排工具。Apache气流是一个很好的选择,如果您需要更全面的功能比cron作业。

票数 1
EN

Stack Overflow用户

发布于 2017-10-11 02:41:36

现有数据的基本转换

您似乎是python开发人员(正如您已经告诉过您正在开发基于Python的ML模型),您可以通过以下步骤完成转换:

  1. 您可以使用boto3 (https://aws.amazon.com/sdk-for-python/)与您局域网的任何工作站的红移(确保您的IP有适当的特权)交谈。
  2. 您可以使用模拟存储过程的Python编写自己的函数。在这些函数中,您可以放置/压缩转换逻辑。
  3. 或者,您也可以在Redshift中创建函数--使用python来执行类似于存储过程的操作。参见这里的更多内容(https://aws.amazon.com/blogs/big-data/introduction-to-python-udfs-in-amazon-redshift/)
  4. 最后,您可以使用windows调度程序/玉米作业来安排Python脚本的参数,比如Server作业。

托管我的python逻辑的最佳方法

在我看来,您正在阅读Redshift中的一些数据,然后创建测试和培训集,最后得到一些预测结果(记录).If,因此:

  1. 在您的任何服务器(LAN)中托管凭证,并使用boto3连接到Redshift。如果您需要在internet上传输大量的行,那么在同一区域的EC2将是一个选项。在临时基础上启用EC2,完成您的工作并禁用它.这是符合成本效益的。您可以使用AWS框架来完成它。我使用.Net框架完成了这一工作。我想boto3确实有这种支持。
  2. 如果结果集相对较小,则可以直接将它们保存到目标红移表中。
  3. 如果结果集更大,请将它们保存到CSV中(有几个Python库),如果需要进行中间计算,可以使用copy命令将行上载到暂存表中。如果没有,直接上传到目标表中。

希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46618762

复制
相关文章
MySQL 子查询 嵌套查询
意思就是内层的select查到了(至少查到了一行)才进行查询,没有查到就不进行查询。
宁在春
2022/10/31
12.1K0
mysql中多表嵌套查询例子_mysql子查询嵌套规则
MySQl从4.11版后已经完全支持嵌套查询了,那么下面举些简单的嵌套查询的例子吧(源程序来自MySQL User Manual):
全栈程序员站长
2022/11/01
3.4K0
MySQL 嵌套查询_嵌套查询和嵌套结果的区别
where course.cno=sc.cno and course.cname=’数据库’ and grade>=80)[/code](3)查询计算机系最高成绩。
全栈程序员站长
2022/09/22
4.3K0
MySQL——优化嵌套查询和分页查询
嵌套查询(子查询)可以使用SELECT语句来创建一个单列的查询结果,然后把这个结果作为过滤条件用在另一个查询中。嵌套查询写起来简单,也容易理解。但是,有时候可以被更有效率的连接(JOIN)替代。
撸码那些事
2018/10/08
2.9K0
MySQL——优化嵌套查询和分页查询
mysql嵌套子查询的应用
sql语句中一个查询有时未必能满足需求,应对多表联查时就需要进行嵌套查询。嵌套查询的意思是,一个查询语句块可以嵌套在另外一个查询块的where子句中,称为嵌套查询。其中外层查询也称为父查询,主查询。内层查询也称子查询,从查询。 嵌套查询的工作方式是:先处理内查询,由内向外处理,外层查询利用内层查询的结果嵌套查询不仅仅可以用于父查询select语句使用。还可以用于insert、update、delete语句或其他子查询中。
OECOM
2020/07/01
4.2K0
嵌套查询效率_sql嵌套查询例子
嵌套查询是 SQL 中表达能力很强的一种机制,既给应用带来了方便也给查询优化带来了很大的挑战。本文总结一下经典的单机系统对嵌套查询的优化。
全栈程序员站长
2022/09/27
2.4K0
sql server嵌套查询实验_exists嵌套查询
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/169426.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/22
1.8K0
sql的嵌套查询_嵌套查询和嵌套结果的区别
SQL连接查询和嵌套查询详解 连接查询 若一个查询同时涉及两个或两个以上的表,则称之为连接查询。连接查询是数据库中最最要的查询,
全栈程序员站长
2022/09/22
3.9K0
sql的嵌套查询_嵌套查询和嵌套结果的区别
mysql DATE_SUB() 函数
SELECT OrderId,DATE_SUB(OrderDate,INTERVAL 5 DAY) AS SubtractDate FROM Orders
DencyCheng
2019/03/05
1.8K0
sql的嵌套查询_sql子查询嵌套优化
最近在做各类小应用,用到了MYSQL,有时候会用到一些比较复杂的嵌套查询,在研究怎么通过SQL实现这些。 假设下面这张表(stu)描述学生的基本信息:
全栈程序员站长
2022/09/22
5.2K0
sql嵌套查询和连接查询_sql子查询嵌套规则
WHERE department_id=( SELECT department_id
全栈程序员站长
2022/11/07
4K0
sql数据库嵌套查询_select嵌套查询
where 学号 = (select 学号 from 学生 where 姓名=”xx”);
全栈程序员站长
2022/09/22
3.8K0
sql嵌套查询例子_sql的多表数据嵌套查询
查询学生上课人数超过 “Eastern Heretic” 的任意一门课的学生人数的课程信息,请使用 ANY 操作符实现多行子查询。(Lintcode刷题记录)
全栈程序员站长
2022/09/22
3.1K0
SQL嵌套查询_sql嵌套查询返回多个字段
说到嵌套查询,首先得理解嵌套查询是什么意思,简单来说就是,一个查询语句可以嵌套在另外一个查询语句的where子句中。外层的查询称为父查询(主查询),内层的查询称为子查询(从查询)。
全栈程序员站长
2022/09/22
2.9K0
SQL嵌套查询_sql差集嵌套
派生表就是一个由查询结果生成的临时表。他是在外部查询的 FROM 中定义的。派生表的存在范围只是在外部查询中,只要外部查询结束了,派生表也就不存在了。派生表一定要写在 FROM 后面范围内,用()括起来。后面跟着派生表的名称。
全栈程序员站长
2022/09/22
2.2K0
SQL嵌套查询_sql差集嵌套
sql嵌套查询效率_sql嵌套查询返回多个字段
为了查询一个字段,使用了五层嵌套循环,但是花费了约1分钟 但是5个表的数据每个最多只有10条,怎么会这么慢呢?
全栈程序员站长
2022/09/22
2.8K0
sql嵌套查询效率_sql嵌套查询返回多个字段
Gorm-嵌套查询
嵌套查询是一种在一个查询语句中嵌套另一个查询语句的方式。在Gorm中,可以使用Preload方法来实现嵌套查询。
堕落飞鸟
2023/04/24
8950
sql中的嵌套查询_sql的多表数据嵌套查询
测试的时候发现取出的是一条数据, 因为测试的时候是一天中的两条数据, 没有不同的日期,所以当日以为是正确的 ,然而第二天写入数据了,要取出数据,却发现没有数据, 返回空的行, 以为都是代码又有问题 了,找了半天都没有 ,仔细看看了存储过程中的代码,发现这样返回的数据的确是空的。
全栈程序员站长
2022/09/22
7.1K0
实验3.4 嵌套查询
掌握SELECT语句的嵌套使用,实现多表的复杂查询,进一步理解SELECT语句的高级使用方法。
week
2018/08/27
8770
SELECT 语句中的 子查询(Sub Query)
子查询(Sub Query)或者说内查询(Inner Query),也可以称作嵌套查询(Nested Query),是一种嵌套在其他 SQL 查询的 WHERE 子句中的查询。
一个会写诗的程序员
2018/08/17
3.2K0

相似问题

MySQL SELECT IN with sub查询

21

Mysql使用update和sub查询

11

MYSQL insert after sub查询with count

30

DATE_SUB命名查询MYSQL

10

MYSQL查询Slow - Sub查询和临时表

21
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档