首页
学习
活动
专区
圈层
工具
发布

30道经典SQL面试题讲解(21-30)

,现在我们想获取沉默用户的数量,沉默的定义是已注册但是最近30天内没有购买记录的人,该怎么实现呢?...30天没有购买记录的人,可以先把最近30天内有购买记录的人取出来,然后用user_table表中的uid去拼接最近30天有购买记录的人,如果不能拼接到,即拼接结果为null,就表示这部分人最近30天没有购买...26 获取新用户的订单数 还是前面的两张表user_reg_table和first_order_table,现在我们想获取最近7天注册新用户在最近7天内的订单数是多少,该怎么实现呢?...7天注册新用户在最近7天内的订单数,首先获取最近7天新注册的用户,然后获取每个用户在最近7天内的订单数,最后将两个表进行拼接,且新用户表为主表,进行左连接。...7天内要到期的借款笔数和其中已经还款的笔数,首先把最近7天内要到期的数据筛选出来,然后再通过还款状态status进行判断,再获取已还款的笔数。

85310

要避免的 7 个常见 Google Analytics 4 个配置错误

未设置数据保留期限 GA4 默认提供两个月的数据保留期,您可以选择将其设置为 14 个月。保留期适用于探索中的自定义报告,而标准报告中的数据永不过期。...高基数维度 高基数维度是指在一天内包含超过 500 个唯一值的维度。这可能会给 GA4 中的数据分析带来挑战和局限性。 GA4 中的基数会对数据的准确性和可靠性产生负面影响。...例如,您可以创建目标受众群体,例如参与用户、订阅用户或在过去 30 天内进行过购买的用户。 建议为您的 ICP 创建受众群体,并将其标记为转化。...此外,如果您有子域,并且希望使用相同的 GA4 属性跨子域进行跟踪,则需要将自己的域从引荐中排除,以便在用户从一个子域导航到您的主域时保持相同的会话。 7....您可以尝试在这些选项之间切换,看看您的数据是如何变化的。 如果您发现混合身份、观察到的身份和基于设备的转换次数存在显著差异,则最好使用后一个选项。

2.1K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    选择一个数据仓库平台的标准

    但是,从Panoply和Periscope数据分析的角度来看,在集群适当优化时,与BigQuery相比,Redshift显示出极具竞争力的定价: “每查询7美分,每位客户的成本大约为70美元。...这个缺点是Panoply提供专用于每个帐户的数据架构师的原因之一; 一个负责照顾您真实数据需求的真人。...但是,随着Redshift规模和运营效率的提高,ETL可能被称为僵化和过时的范例。 这就是Panoply遵循ELT流程的原因,即所有原始数据都可即时实时获取,并且转换在查询时异步发生。...但是,由于灾难造成的数据完全丢失比快速,即时恢复特定表甚至特定记录的需要少。出于这两个目的,Redshift会自动将备份存储到S3,并允许您在过去90天内的任何时间点重新访问数据。...通过利用Panoply的修订历史记录表,用户可以跟踪他们数据仓库中任何数据库行的每一个变化,从而使分析师可以立即使用简单的SQL查询。

    3.7K40

    构建端到端的开源现代数据平台

    数据仓库:BigQuery 如上所述选择正确的数据仓库是我们难题中最重要的部分。主要的三个选项是 Snowflake[7]、BigQuery[8] 和 Redshift[9]。...因此入门时的理想选择是无服务器托管产品——这适用于我们所有需要弹性的组件,而不仅仅是数据仓库。BigQuery 非常适合这个要求,原因有很多,其中两个如下: • 首先它本质上是无服务器的。...[17] 构建一个新的 HTTP API 源,用于从您要使用的 API 中获取数据。...dbt 是第三次数据技术浪潮的理想典范,因为它代表了这一浪潮背后的主要目标:添加特性和功能以更轻松地管理现有数据平台,并从底层数据中提取更多价值。...这使其成为多家科技公司大型数据平台不可或缺的一部分,确保了一个大型且非常活跃的开放式围绕它的源社区——这反过来又帮助它在编排方面保持了标准,即使在“第三次浪潮”中也是如此。

    7.3K10

    干货 ▏什么数据库最适合数据分析师?

    最近,Mode的首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源的免费产品,而Vertica、SQL Server和BigQuery不是,后三者的用户通常是有充足分析预算的大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift的错误率较低,Impala、BigQuery和SQL Server的错误率较高。另外,和之前一样,Vertica的错误率依然最高。

    2K30

    主流云数仓性能对比分析

    最近随着Snowflake上市后市值的暴增(目前700亿美金左右),整个市场对原生云数仓都关注起来。...剩下的都是偏见” ——威尔·杜兰特(哲学家、历史学家) 这句话同样适用于各种Performance Benchmark对比,任何POC(Proof of Concept,搞技术的人都懂的)都是带有偏见的...技术上也是列压缩存储,缓存执行模型,向量技术处理数据,SQL标准遵循ANSI-2011 SQL,全托管云服务,用户可选择部署在AWS、Azure和GCP上,当然它也支持本地部署。...测试场景与数据规模 本次测试场景选取的是30TB的TPC-H,比较有趣的是在2019年的benchmark中GigaOM选取的是30TB的TPC-DS。...最佳性能SQL的数量:横向比较22个场景,挑选出每个场景的最佳(执行时长最短)。Redshift有13条SQL执行时间最短,Synapse有8条,Snowflake只有1条,而BigQuery没有。

    4.8K10

    【学习】什么数据库最适合数据分析师

    最近,Mode的首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源的免费产品,而Vertica、SQL Server和BigQuery不是,后三者的用户通常是有充足分析预算的大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift的错误率较低,Impala、BigQuery和SQL Server的错误率较高。另外,和之前一样,Vertica的错误率依然最高。

    1.4K40

    【观点】最适合数据分析师的数据库为什么不是MySQL?!

    最近,Mode的首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...,因为Impala、MySQL和Hive是开源的免费产品,而Vertica、SQL Server和BigQuery不是,后三者的用户通常是有充足分析预算的大型企业,其较高的错误率很有可能是由于使用更深入而不是语言...从图中可以看出,PostgreSQL、MySQL和Redshift的错误率较低,Impala、BigQuery和SQL Server的错误率较高。另外,和之前一样,Vertica的错误率依然最高。

    3.3K50

    重磅解读 | 基于ChatGPT的开源全能 SQL Translator 4.3k star 背后的爆款神器!

    OpenAI GPT高准确率、多语支持可扩展性Schema Awareness支持自定义数据库场景用户体验优化/增加高亮、主题、历史记录适配日常使用习惯典型应用场景数据分析:分析师只需中文描述,“查找用户过去30...天内的活跃量”,自动生成 SQL 查询。...→SQL⭐ 中英双语、语法高亮等 UI 加分宝SQLGlot (tobymao/sqlglot)27k多 SQL 方言翻译、格式化,但不支持自然语言⭐ AI 支持自然语言,转换能力更强Google BigQuery...Interactive Translator–专业 SQL 方言轮转,依赖收费 BigQuery 和 Gemini 模型⭐ 免费开源,部署简单;无需 Cloud 环境总结SQL Translator...它不仅完全免费,而且功能清晰、界面优雅、部署便捷,适用于个人研发者、企业分析团队、教学场景等多个维度。尤其对于那些还不熟练 SQL 的业务人员,是一把快速切入数据分析的钥匙。

    36410

    什么数据库最适合数据分析师

    最近,Mode的首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源的免费产品,而Vertica、SQL Server和BigQuery不是,后三者的用户通常是有充足分析预算的大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift的错误率较低,Impala、BigQuery和SQL Server的错误率较高。另外,和之前一样,Vertica的错误率依然最高。

    1.6K50

    谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

    作者 | Renato Losio 译者 | 平川 策划 | 丁晓昀 最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google...图片来源:谷歌数据分析博客 根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈...ANSI 的 SQL 语法。...,用于读写 Cloud Storage 中的数据文件,而 Apache Spark SQL connector for BigQuery 则实现了 Spark SQL Data Source API,将...但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。 感兴趣的读者,可以从 GitHub 上获取该连接器。

    2.2K20

    手搓一个分布式大气监测系统(七)数据开放计划

    为降低复杂度及应用于 腾讯云图 等可视化平台的便捷性,当前优先提供静态密钥,访问频率限制为 10次/分钟。 由于是公益团队,我们资金有限,为避免大量访问耗尽项目经费。...rkey=****&typeid=client_upcount_30d&clientid=**** client_average_30d 指定终端最近30天 每天平均指标值 1天 基础地址?...rkey=****&typeid=client_average_30d&clientid=**** client_average_30d_yt 指定终端最近30天 每天平均指标值(云图直读) 1天 基础地址...rkey=****&typeid=client_average_30d_yt&clientid=**** space_totle_data 获取60天内活跃终端列表 1分钟 基础地址?...rkey=****&typeid=space_offline_data 信息说明: 刷新时间,用于说明信息更新频率。 在线标准,3分钟内有上报数据。

    90180

    1年将超过15PB数据迁移到谷歌BigQuery,PayPal的经验有哪些可借鉴之处?

    此外,用户希望看到基础设施不断更新,以利用新特性或根据行业趋势以新的方式处理数据。 灾难恢复:任何基础设施都应该有明确的灾难恢复选项,可以在 30 分钟内触发,为用户的工作铺平道路。...我们对 BigQuery 进行了为期 12 周的评估,以涵盖不同类型的用例。它在我们设定的成功标准下表现良好。下面提供了评估结果的摘要。 我们将在单独的文章中介绍评估过程、成功标准和结果。...我们将 BigQuery 中的数据保存为美国的多区域数据,以便从美国的其他区域访问。我们在数据中心和 Google Cloud Platform 中离分析仓库最近的区域之间实现了安全的私有互联。...我们要求用户使用这个门户将他们现有或已知的 SQL 转换为与 BigQuery 兼容的 SQL,以进行测试和验证。我们还利用这一框架来转换用户的作业、Tableau 仪表板和笔记本以进行测试和验证。...这是整个项目中最难的部分。它的难点在于偶然出现的复杂性,而非容量。以下是我们遇到的问题: 资源可用性和使用情况:由于我们是从一个本地仓库中提取数据的,因此我们的提取速度受到源上可用能力的限制。

    6.5K20

    活动、节假日、促销等营销方式的因果效应评估——特征工程篇(一)

    天与后16天的促销信息 - 前[14、60、140]天的促销次数 - 后[3、7、14]天内的促销次数 - [3, 7, 14, 30, 60, 140] - 内促销日期时的销量均值、指数加权平均;...- 没有促销时的销量均值、加权平均 - 近[7、14、30、60、140]天内 - 促销日子的总和 - 最近促销距近的天数 - 最远促销距今天的天数 - 后16天内 - 促销次数总和 - 最近促销日子距今天数...这里需要介绍下为什么可以使用之后的促销天数数据,因为在测试集中官方已经给出了未来一段时间某商店某商品是否会进行促销,所以我们可以用未来几天促销的数据; 时间窗口内(最近3/7/14/30/60/140天...、最大值和标准差; 时间窗口内(上一周最近3/7/14/30/60/140天):和前一天销量差值的均值、销量每天按0.9衰减之后汇总、均值、中位数、最小值、最大值和标准偏差。...这个特征和上一个特征是一样的,只不过计算的是上一周各个特征值,作者想查看前一周的销量各个特征; 时间窗口内(最近7/14/30/60/140天): - 有销量/促销的天数,分别查看时间窗口内有销量和促销的天数

    6.1K42

    7大云计算数据仓库

    对于希望使用标准SQL查询来分析云中的大型数据集的用户而言,BigQuery是一个合理的选择。...•Apache Spark引擎也与Db2集成在一起,这意味着用户可以针对数据仓库使用SQL查询和Spark查询,以获取见解。...关键价值/差异: •微软公司在2019年7月发布了Azure SQL数据仓库的主要更新,其中包括Gen2更新,提供了更多的SQL Server功能和高级安全选项。...•现有的微软用户可能会从Azure SQL数据仓库中获得最大的收益,因为它跨Microsoft Azure公共云以及更重要的是用于数据库的SQL Server具有多种集成。...•通过标准SQL进行查询,以进行分析,并与R和Python编程语言集成。 7个顶级云计算数据仓库对比图表 ? (来源:企业网D1Net)

    7.5K30

    使用 SQL 也能玩转机器学习

    最近看到一篇文章:https://rudderstack.com/blog/churn-prediction-with-bigqueryml,主要是讲使用 BigQueryML 进行流失预测。...利用 BigQuery ML,您可以使用标准 SQL 查询在 BigQuery 中创建和执行机器学习模型。...BigQuery ML 让 SQL 专业人员能够使用现有的 SQL 工具和技能构建模型,从而实现机器学习的普及。使用 BigQuery ML,无需移动数据,加快了开发速度。...似乎现在有一部分用户开始玩 SQL 这一套了。 先看看这篇文章的案例是怎么实现机器学习的。...如果这种方式真的能成熟的话,做业务分析的同事也是可以用 SQL 完成机器学习了,而不需要拜托专门的做算法的同学去完成建模分析,对于企业而言,其实大部分场景只需要简单的数据分析和挖掘模型就行了,使用 SQL

    1K10

    如何用纯SQL查询语句可以实现神经网络?

    这些神经网络训练的步骤包含前向传播和反向传播,将在 BigQuery 的单个SQL查询语句中实现。当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行分布式神经网络训练。...也就是说,这个有趣的项目用于测试 SQL 和 BigQuery 的限制,同时从声明性数据的角度看待神经网络训练。这个项目没有考虑任何的实际应用,不过最后我将讨论一些实际的研究意义。...BigQuery 的标准 SQL 扩展的缩放性比传统 SQL 语言要好。即使是标准 SQL 查询,对于有 100k 个实例的数据集,也很难执行超过 10 个迭代。...如你所见,资源瓶颈决定了数据集的大小以及迭代执行的次数。除了祈求谷歌开放资源上限,我们还有如下优化手段来解决这个问题。 创建中间表和多个 SQL 语句有助于增加迭代数。...如果感兴趣,你可以看看这个 BigQuery 的用户自定义函数的服务模型的项目(但是,无法使用 SQL 或者 UDFs 进行训练)。

    3.5K30

    教程 | 没错,纯SQL查询语句可以实现神经网络

    这些神经网络训练的步骤包含前向传播和反向传播,将在 BigQuery 的单个SQL查询语句中实现。当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行分布式神经网络训练。...也就是说,这个有趣的项目用于测试 SQL 和 BigQuery 的限制,同时从声明性数据的角度看待神经网络训练。这个项目没有考虑任何的实际应用,不过最后我将讨论一些实际的研究意义。...BigQuery 的标准 SQL 扩展的缩放性比传统 SQL 语言要好。即使是标准 SQL 查询,对于有 100k 个实例的数据集,也很难执行超过 10 个迭代。...如你所见,资源瓶颈决定了数据集的大小以及迭代执行的次数。除了祈求谷歌开放资源上限,我们还有如下优化手段来解决这个问题。 创建中间表和多个 SQL 语句有助于增加迭代数。...如果感兴趣,你可以看看这个 BigQuery 的用户自定义函数的服务模型的项目(但是,无法使用 SQL 或者 UDFs 进行训练)。

    2.7K50

    安装Google Analytics 4 后的十大必要设置

    增强型衡量功能 增强型衡量里有一些事件,是需要勾选就可以开启这个事件的跟踪: 页面浏览量:页面流量,这个是跟踪的基础,必选 滚动次数:下拉,用事件监测页面的浏览深度的,可选 出站点击次数:出站链接点击,...数据保留 数据保留时间对探索会有影响,探索里能选择的最大时间范围就是你设置的保留时间,如果你没有设置,GA4里的数据保留默认是2个月,探索里最多可以对最近两个月的数据做分析,所以,一定要将数据保留事件设置为最长时间...关联Google站长工具 关联后才会有自然搜索的数据,延伸阅读:安装GSC谷歌站长工具的 5 种方法 关联BigQuery 关联BigQuery,可以获得两个好处: 获取原始数据,很多人都想获得...GA4的原始数据,可以通过关联导出到BigQuery的方式获取原始数据。...获得实时数据,GA4里的实时报告值显示过去30分钟的数据,而且维度很有限,在BigQuery,采用流式导出,你可以获得真正的实时数据。

    1.3K10
    领券