文章/答案/技术大牛

发布

社区首页 >问答首页 >将新列添加到雅典娜(Presto)表中，根据两行之间的差异计算

问将新列添加到雅典娜(Presto)表中，根据两行之间的差异计算
EN

Stack Overflow用户

提问于 2019-02-12 12:36:28

回答 1查看 3.9K关注 0票数 0

在过去的几周里，我编写了一条管道，收集从网站上播放的所有点击流数据。管道以以下方式使用AWS : S3 > EC2 (用于转换)>雅典娜(扫描一个干净的分区s3)。每24小时就会有新的数据进入管道，这非常有用--我的点击流数据很容易被查询。但是，我现在需要添加一些额外的列，即每页所花费的时间。这可以通过通过用户ID、时间戳排序，然后取row_n1和row_n2的时间戳列之间的差异来实现。所以我的问题是：

1)如何通过SQL查询执行此操作？我很难让它工作，但我的想法是，一旦我这样做，我可以触发这个查询每24小时，运行新的点击流数据，即将进入雅典娜。

2)这是否是添加额外列或新的聚合表的合理方法？例如，构建一个查询，该查询每24小时在新数据上运行一次，以附加到新表。

理想情况下，我不想触及为执行“核心”ETL管道而编写的任何源代码

作为参考，我的表看起来类似于以下内容(在页面上花费了新的列时间)：

userID，eventNum，分类，时间，时间.timeSpentOnPage = '103-1023‘3’View‘12-10-2019.’3‘s

感谢您所能提供的任何指导/建议。

amazon-athena

presto

sql

bigdata

人脸核身产品特惠

用户政务民生、金融、通信运营商等场景，接入全面，安全可靠新用户3折起

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-12 12:50:41

我不太清楚您在问什么，一些示例数据和预期的输出会有帮助。例如，我不太明白row_n和row_m是什么意思。

我猜您的意思是计算连续行的时间戳之间的差异。这样的查询就可以实现

SELECT
  userID,
  timestamp - LAG(timestamp, 1) OVER (PARTITION BY userID ORDER BY timestamp) AS timeSpentOnPage
FROM events

LAG 窗口函数返回窗口框架给出的窗口中上一行的值(在本例中，1表示前一行)(在本例中，所有具有相同userID并按timestamp排序的行)。这有点像GROUP BY，但是对于每一行，如果这是有意义的话。

它不会给你花在每一页上的时间，一些页面浏览量看起来会很长，而实际上它们之间并没有任何活动(比如有人浏览了一些页面，吃过午餐，浏览了更多的页面--午餐前的最后一个页面查看看起来像是覆盖了整个午餐)。

在雅典娜，没有办法做相当于UPDATE的事情。最近的事情是做一个"CTAS“(创建表AS)来创建一个新的表(通过一些自动化，它可以转化为为现有表创建新的分区)。

如果你能提供更多关于你的数据的信息，我可以用其他的建议来修正这个答案。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54658335

复制

为什么我们的神经网络需要激活函数

神经网络

如果你正在读这篇文章，那么很可能你已经知道什么是神经网络，什么是激活函数，但是，一些关于机器学习的入门课程并不能很清楚地说明，为什么我们需要这些激活函数。我们需要它们吗?没有它们，神经网络还能工作吗?

deephub

2020/08/04

5970

为什么我们需要Pulsar？

存储编程算法 kafka 消息队列 CMQ 版 zookeeper

随着互联网的高速发展，用户规模与业务并发量开始急剧增加，海量的请求需要接收和存储，业务需要中间件来实现削峰填谷；业务也在不断发展，企业内部的系统数量也在不断地增长，不同语言开发出来的系统需要统一的事件驱动；大数据、AI已经成为很多业务中不可或缺的技术，它们都需要统一的数据源。越来越多的场景离不开消息队列，稍具规模的业务，消息队列都是“标配”。

博文视点Broadview

2021/12/06

7430

我们为什么需要理论？

安全 iphone

把设计当作建房子，理论就是盖房子的方法原理，只用沙石砖瓦，那很难盖好一座房子的，就别提一栋大厦了。如果知道了盖房子的方法，知道用多少材料，那么不仅事半功倍还能节省成本。

宇相

2018/09/18

2.8K0

我们为什么需要MapReduce？

mapreduce 全文检索数据库管理数据库 sql

我们为什么不能使用数据库来对大量磁盘上的大规模数据进行批量分析呢？我们为什么要使用MapReduce？这些问题的答案来自磁盘的另一个发展趋势：寻址时间的提高远远慢于传输速率的提高。寻址是将磁头移动到特定磁盘位置进行读写操作的过程。它是导致磁盘操作延迟的主要原因，因而传输速率取决于磁盘的带宽。　　如果数据的访问模式中包含大量的磁盘寻址，那么读取大量数据集所化的时间势必会更长（相较于流式数据读取模式），流式读取主要取决于传输速率。另一方面，如果数据库系统只更新一小部分记录，那么传统的B树更有优势。但数据库系统更新大部分数据时，B树的效率比MapReduce低得多，因为需要使用“排序/合并”来重建数据库。　　许多情况下，可以将MapReduce视为关系型数据库管理系统的补充。两个系统之间的差异如下表所示。MapReduce比较适合以批处理的方式处理需要分析整个数据集的问题，尤其是即席分析。RDBMS（关系型数据库管理系统）适用于“点查询”和更新，数据集被索引后，数据库系统能够提供低延迟的数据检索和快速的少量数据更新。MapReduce适合一次写入，多次读取数据的应用，而关系型数据库更适合持续更新的数据集。关系型数据库和MapReduce的比较

MickyInvQ

2020/09/27

8570

我们为什么需要SDN？

sdn 开源 tcp/ip

众所周知，相比发展迅速的计算机产业，网络产业的创新十分缓慢。每一个创新都需要等待数年才能完成技术标准化。为了解决这个问题，SDN创始人Nick McKeown教授对计算机产业的创新模式和网络产业的创新模式进行了研究和对比。在分析了计算机产业的创新模式之后，他总结出支撑计算机产业快速创新的如下三个因素。

博文视点Broadview

2020/06/11

9260

为什么我们需要Pod？

容器 kubernetes tomcat linux

在前面的文章中，我详细介绍了在 Kubernetes 里部署一个应用的过程。在这些讲解中，我提到了这样一个知识点：Pod，是 Kubernetes 项目中最小的 API 对

yuanshuai

2022/08/17

4390

我们为什么需要理论？

安全

理论是指人们对自然、社会现象，按照已知的知识或者认知，经由一般化与演绎推理等方法，进行合乎逻辑的推论性总结。

宇相

2018/09/03

8850

我们为什么需要CDP？

企业

前面我们已经详细介绍过什么是CDP，不了解的同学可以往前翻一翻：3分钟告诉你什么是CDP系统！

博阳SCRM系统

2022/06/14

6200

为什么我们需要 Hive Metastore！

sql apache http hive thrift

IT 中的每个人都与数据打交道，包括前端和后端开发人员、分析师、QA 工程师、产品经理以及许多其他角色的人员。使用的数据和数据处理方法因角色而异，但数据本身往往不是关键。

Spark学习技巧

2023/03/21

6910

为什么我们需要边缘计算？

云计算汽车自动驾驶无人驾驶

08.16.18-Why-do-we-need-edge-computing-1068x656_副本.jpg

用户4122690

2020/04/06

6600

为什么我们需要消息队列？

管理架构系统消息队列异步

消息队列在现代软件架构中扮演着关键角色，为系统各个部分之间提供了一种可靠且高效的异步通信方式。它们在解耦组件、增强可扩展性和管理工作负载方面特别有用。以下是消息队列至关重要的原因：

coderidea

2024/01/05

3790

为什么我们需要批量操作？

云数据库 Redis®数据库 sql api rpc

实习的时候被问过一个问题，为什么 redis 会有 pipline，mysql 会有 batch，这些东西都具有批量操作的共性，是什么原因让我们在处理数据时需要批量操作？

出其东门

2020/09/14

9230

为什么我们需要企业架构？

企业系统架构架构设计

胜兵先胜而后求战，败兵先战而后求胜《孙子兵法·形篇》说到 “是故胜兵先胜而后求战，败兵先战而后求胜。”意谓胜利的军队总是先有了胜利的把握才寻求同敌人交战，失败的军队总是先同敌人交战而后企求侥幸取胜。指要充分做好战争准备，等有胜利的把握再打。如同行军打仗一般，企业信息化建设也是如此，如果没有做好未来的规划，那么最多只能得到局部的提升。我们来看个例子： W公司这几年总共花了3千多万元在IT方面（构建了很多IT系统，比如ERP，订单管理，OA等等），初步感觉好像效果还不错。从表面看来，这样的企业大概可以算作信

ThoughtWorks

2022/08/26

5540

为什么我们需要多重回归？

企业互动课堂

考虑一种情况，其中许多不同的因素（称为预测变量或自变量）相互作用以确定结果（称为标准或因变量）。根据因素的不同，可能会取得不同的结果。例如，房屋销售价格（标准）可能由许多因素（预测因素）决定，如房屋位置、建造年份、当地住房市场状况、房屋状况等。

用户9972271

2022/09/06

3290

为什么我们需要区块链

区块链分布式

“这个业务功能为什么要使用区块链来实现？使用数据库不是一样可以实现” 对于刚接触区块链的人来说，这是一个非常普遍的问题，下面我们就通过一个实例来对传统的数据库实现方式和区块链实现方式进行对比，之后我们

dys

2018/04/04

2.9K0

CODING 2.0：为什么我们需要 DevOps

编程算法 devops 运维 cci 持续集成

CODING 在前两天的 Kubecon 2019 大会上发布了 CODING 2.0。这背后是 CODING 对研发管理和研发团队组建的思考。从 CODING 成立以来，我们一直在探索“让开发更简单”的方式。把“让开发更简单”这个大愿景进行拆分，具体到可量化的产品目标上去，实际上是希望通过工具的形式，可以减轻开发过程中的重复劳动，提高软件交付的速度与质量。

腾讯云 CODING

2019/06/28

1.3K0

观点：我们为什么需要威胁情报？

安全 ddos

最近被谈论的异常火热的一个术语就是威胁情报，那么威胁情报到底是什么意思，它是一种什么概念或者机制呢？本文中我们就来亲密接触一下威胁情报，并了解它所具有的功能，然后给出几个威胁情报的最佳实践示例，最后分析威胁情报有助于SIEM解决什么问题。什么是威胁情报？最近，威胁情报受到广泛的关注。它有很多种不同的定义，下面列出了一些经常被引用的定义：威胁情报是基于证据的知识，包括上下文、机制、指标、隐含和可操作的建议，针对一个现存的或新兴的威胁，可用于做出相应决定的知识。—Gartner 针对安全威胁、威胁者、

FB客服

2018/02/06

1.5K0

我们为什么需要 DevSecOps 和制品仓库？

devops 开源运维安全

Helen Beal 曾经在一次讨论什么是 DevSecOps 工程师的会议上发言。令她惊讶的是，在与会人员中，许多人都没有将安全机制引入 DevOps。在与人们讨论之后，她将大家的问题总结为三类：安全机制会制造额外的隔阂；组织中的人很难理解 DevOps，因此安全机制可能会造成更多困惑；可能没有为安全机制预留空间。

LinuxSuRen

2019/05/10

8790

为什么我们需要HTML5 WebSocket

socket编程 http html5

HTML5作为下一代的 Web 标准，它拥有许多引人注目的新特性，如 Canvas、本地存储、多媒体编程接口、WebSocket等等。这其中有“Web 的 TCP ”之称的WebSocket格外吸引开发人员的注意。WebSocket的出现使得浏览器提供对Socket的支持成为可能，从而在浏览器和服务器之间提供了一个基于TCP连接的双向通道。Web开发人员可以非常方便地使用WebSocket构建实时web应用，开发人员的手中从此又多了一柄神兵利器。

业余草

2019/01/21

8630

什么是DevOps?为什么我们需要DevOps?

devops 腾讯云测试服务运维自动化 cci 持续集成

传统IT技术团队中通常都有多个独立的组织-开发团队、测试团队和运维团队。开发团队进行软件开发、测试团队进行软件测试，运维团队致力于部署，负载平衡和发布管理。他们之间的职能有时重叠、有时依赖、有时候会冲突。

字母哥博客

2020/09/23

8300

相似问题

HTTP标头“内容-类型:多部分/混合”导致"400坏请求“

PHP Curl给出坏请求-无效标头

HTTP 400坏请求

400坏请求:带有curl POST请求的无效标头名称

HTTP POST -> 400:坏请求

活动推荐

轻量应用服务器助力卖家与独立站拓展跨境电商业务

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例