GCP Bigquery，我希望在一列中按目录值聚合一些值

文章/答案/技术大牛

发布

1回答

、、、

我想要的是计算每个5分钟的总份额、交易值、交易计数和平均价格(VWAP= dollarTraded / totalVolume)。>0 ROUND(UNIX_SECONDS(Date_Time) / 300), interval_alias1 ORDER BY interval_alias1 然而，我想进一步推进我的分析，我想要的不仅仅是交易的总摘要，我希望根据限定符和tradeCatogary的不同组合进行更具体的

浏览 17提问于2021-10-26得票数 0

1回答

在GCP中执行数据映射

、

我有来自多家酒店的数据。这些酒店没有使用相同的命名约定来存储订单信息。我在bigquery中创建了一个预定义的数据集(称为hotel_order)。我希望将来自不同酒店的数据映射到GCP中的单个数据集，因此在bigquery中进行比较就更容易了。如果列名(来自hotel1)与bigquery列名匹配，那么bigquery应该加载列中的数据，如果列

浏览 2提问于2022-02-24得票数 0

2回答

google bigquery基于表列的个性化警报

、

我在google bigquery中有一个表，我在其中计算一列(将其视为异常检测列)，在GCP中，是否有方法发送基于规则的警报(例如，一旦列中的值为1)，如果不是，您会建议如何处理此问题。谢谢

浏览 20提问于2021-04-11得票数 1

1回答

如何从按年份/月/日分区的桶中加载数据到bigquery

我们有一个数据存储在gcp桶中，格式如下- gs:/gcptest/Year=2020/Month=06/day=18/test1.parquet和day=18文件夹下的这么多文件。我希望在bigquery中创建一个表，其中的列存在于文件中，并按文件路径上的年份、月份和日期进行分区。这样，当我将数据加载到表中时，我可以从gcp桶中选

浏览 3提问于2020-06-18得票数 1

回答已采纳

2回答

如何处理未在中聚合的端口

、、

在其中一个映射中，有几个端口/列，例如A和B，它们在聚合器转换中没有被分组，也没有应用任何像sum、avg等聚合函数。根据我的组织中的高级devs，在Informatica中，我们将在聚合器之后得到这些端口/列的最后值。我的问题是，如何在BigQuery SQL中转换这种行为？因为不能使用select语句中的列，而select语句中的列不存在于Group子句中，因此我们不

浏览 9提问于2022-08-28得票数 0

2回答

BigQuery -事实表更新逻辑

我正致力于在性能和成本分析的大查询上构建原型，为销售业务(激励措施、领导、权利、预测、市场营销、领导等)建立一个DW (星型模式)数据，用于报告和高级分析目的。每天从客户关系管理和其他上游销售/营销系统中批量装载数据。每天的数据量约为5 TB数据，90%的附加数据和10%的数据具有更新的旧指标(直到前7天)。创建聚合表，用于报告和其他重复查询/仪表板，以限制扫描量和降低成本。上游ETL和cron作业，在Google存储中</

浏览 0提问于2016-10-05得票数 4

1回答

气流-选择bigquery表数据到数据中

、、

我试图在google上的空气流编写器中执行以下DAG，并且一直得到相同的错误:未定义conn_id hard_coded_project_namefrom airflow.contrib.hooks.bigquery_hookdefault_args = { 'start_date&#

浏览 2提问于2021-11-29得票数 0

回答已采纳

2回答

Zeppelin配置属性文件:无法加载BigQuery解释器配置

、

我试图通过我的zeppelin-site.xml设置我的zeppelin.bigquery.project_id (或任何bigquery配置属性)，但是当我启动齐柏林飞艇时，我的更改没有加载。我可以更改其他配置属性(例如zeppelin.notebook.storage)。我使用的是的齐柏林飞艇0.7.3。zeppelin-site.xml (在启动齐柏林之前创建，在interpreter.json文件存在之前创建

浏览 0提问于2018-04-06得票数 0

2回答

如何在聚合表达式中使用每个“当前行”值作为条件参数

我希望通过按和条件聚合我的表生成一个相应的值(在新的最后一列中)，在此条件和计算中使用每个对应的行值中的一些：所有“秒”之和，如果“第一”等于当前第一值(A)，“第二”等于当前第二值(5) 在Excel中，我们通过轻松使用当前行的地址和通过拖动扩展公式来解决当前行。在pow

浏览 1提问于2020-03-31得票数 0

回答已采纳

1回答

bigquery: GROUP BY列表中不存在表达式'f0_‘

、

我想计算出现在一些经纬点上的一些字段值的实例。Lat/Lon是字符串，所以我将它们转换为float，然后将它们四舍五入为1m (5个小数位)。ROUND(FLOAT(lon), 5)),FROMGROUP BY lon,我希望有，作为结果，对于每个经度/经度连接，一些值出现在“字段”的值中</e

浏览 0提问于2017-12-09得票数 0

回答已采纳

1回答

是否有一种方法可以创建星星之火中所有列的列表

、、

我有一个dataSet：我尝试groupBy的第一列，我想聚合所有的列。这就是我使用以下代码按第二列进行聚合时得到的结果：其思想是为

浏览 3提问于2020-06-05得票数 1

回答已采纳

1回答

中按问题分组

我是Google Big Query (和堆栈溢出)的新手，主要测试Big Query处理巧尽心思构建和巧尽心思构建的查询的速度。GROUP BY只返回每个术语/lincat对的联接计算的最低值。我得到的错误是： (L1:62)：按列表表示'phrases.nonstops.id‘在组中

浏览 6提问于2015-06-06得票数 5

1回答

ValueError:必须用beam.io.gcp.bigquery.ReadFromBigQuery指定BigQuery表或查询

、、、、

我试图传递一个BigQuery表名作为apache管道模板的值提供程序。根据和这个，可以将值提供程序传递给apache_beam.io.gcp.bigquery.ReadFromBigQuery。( ) 当我在本地运行代码时，命令行传递user_options.input的值为--input projectid.dataset_id.table但是，我犯

浏览 3提问于2021-07-14得票数 1

1回答

如何在GCP* BigQuery联邦查询中使用查询参数*

、

我有一个基于gcp的环境。我在gcp BigQuery中使用标准SQL脚本，并对cloudsql MySql使用联邦查询。联邦查询从cloudsql mysql数据库中选择数据。我需要根据依赖于BigQuery中数据的条件从cloudsql mysql数据库中选择数据。我在gcp bigquery中使用标准sql脚本中的变量来存储从big

浏览 75提问于2021-02-01得票数 1

回答已采纳

2回答

Bigquery软件中的Tensorflow预测

、、

我有一个多类分类TensorFlow模型导入到GCP BigQuery中。在进行预测时，输出是概率，它是类型浮点数(概率)和重复模式。使用BigQuery中的SQL获取最大值索引的最佳方法是什么？

浏览 12提问于2022-06-08得票数 0

回答已采纳

1回答

动态访问BigQuery数据集上的设置

、

我需要在运行时创建BigQuery数据集，并在运行时分配所需的角色。使用Python脚本实现此目的。我在谷歌上搜索了有关如何在创建数据集后更新访问设置的帮助，并找到了以下： role='READER',"access": [ {"role": "OWNER","groupByEmail": &

浏览 1提问于2018-05-07得票数 0

1回答

返回键值对而不是两个单独列的BigQuery* SQL选择*

、、、

我试图在bigquery上的select语句中合并两列，这样我就有一列具有键值对，而不是有两列(一列具有键，另一列具有值)。我曾尝试使用array_agg()，但每次这样做都会导致语句的第一行出现错误：“一个表达式引用了既不分组也不聚合的列colName”。任何关于如何做到这一点或什么可能导致我的array_agg错误的建议都将不胜感激。

浏览 6提问于2018-06-25得票数 0

6回答

需要帮助创建将CSV加载到BigQuery的架构

、、

我正在尝试从将一些CSV文件加载到BigQuery中，并与模式生成进行斗争。有一个自动生成选项，但它的文档很少。问题是，如果我选择让BigQuery生成模式，它在猜测数据类型方面做得不错，但有时它才会将数据的第一行识别为标题行，而有时则不会(将第一行视为数据，并生成类似于string_field_N的列名)。我的数据的第一行总是头行。有些表有许多列(超过30列)，我不想乱搞模式语法，因为当模式有问题(我不知道是什么)时，Big

浏览 0提问于2019-01-22得票数 2

1回答

在谷歌BigQuery上按时间窗口划分时间块

、

我有一个在BigQuery上运行的查询，我希望能够通过特定的时间框架来组合行，并对其他行的值进行平均。，这样我就可以按小时显示结果。如何在BigQuery中编写查询，以便按小时块或甚至天块对其进行分组。我希望查询的结果是这样的： timestamp | value ______________________________

浏览 31提问于2019-01-29得票数 0

回答已采纳

1回答

监控WriteToBigQuery

、、、

在我的管道中，我使用WriteToBigQuery，如下所示： 'thijs:thijsset.thijstable',然后我得到：AttributeError: 'dict' object has no attribute 'pipeline&#x

浏览 0提问于2019-11-29得票数 4

回答已采纳

点击加载更多