文章/答案/技术大牛

发布

如何在bigquery中使用记录、结构和数组而不将其扁平化

在BigQuery中处理记录、结构和数组而不将其扁平化，可以通过以下几种方式实现：

基础概念

记录（Record）：类似于其他数据库中的行或文档，可以包含多个字段。
结构（Struct）：一种复合数据类型，可以包含多个命名字段，每个字段可以是不同的数据类型。
数组（Array）：一种集合数据类型，可以包含多个相同类型的元素。

类型与应用场景

记录：适用于需要存储复杂对象的场景，如用户信息、订单详情等。
结构：适用于需要在一个字段内存储多个相关值的场景，如地址信息（包含街道、城市、国家等）。
数组：适用于需要存储可变数量元素的场景，如用户的多个电话号码、产品的多个标签等。

示例代码

假设我们有一个包含用户信息的表，每个用户有多个联系方式，并且每个联系方式包含电话号码和电子邮件地址。

创建表

CREATE TABLE users (
  user_id INT64,
  name STRING,
  contacts ARRAY<STRUCT<phone STRING, email STRING>>
);

插入数据

INSERT INTO users (user_id, name, contacts)
VALUES
  (1, 'Alice', [{'phone': '123-456-7890', 'email': 'alice@example.com'}, {'phone': '098-765-4321', 'email': 'alice.work@example.com'}]),
  (2, 'Bob', [{'phone': '111-222-3333', 'email': 'bob@example.com'}]);

查询数据

SELECT
  user_id,
  name,
  contacts.phone,
  contacts.email
FROM
  users,
  UNNEST(contacts) AS contacts;

遇到的问题及解决方法

问题：查询结果扁平化

原因：使用UNNEST函数会将数组展开为多行，导致结果扁平化。

解决方法：如果不想扁平化结果，可以直接查询数组字段而不使用UNNEST。

SELECT
  user_id,
  name,
  contacts
FROM
  users;

问题：嵌套查询复杂

原因：嵌套结构和数组可能导致查询语句变得复杂。

解决方法：可以使用嵌套的SELECT语句或JSON_EXTRACT函数来处理嵌套数据。

SELECT
  user_id,
  name,
  (SELECT ARRAY(SELECT AS STRUCT phone, email FROM UNNEST(contacts))) AS filtered_contacts
FROM
  users;

总结

通过合理使用记录、结构和数组，可以在BigQuery中有效地管理和查询复杂数据结构，同时避免数据扁平化带来的不便。根据具体需求选择合适的数据类型和查询方法，可以提高数据处理的效率和灵活性。

相关·内容

使用Kafka，如何成功迁移SQL数据库中超过20亿条记录？

作者 | Kamil Charłampowicz 译者 | 王者策划 | Tina 使用 Kafka，如何成功迁移 SQL 数据库中超过 20 亿条记录？...而且，这么大的表还存在其他问题：糟糕的查询性能、糟糕的模式设计，因为记录太多而找不到简单的方法来进行数据分析。...我们之所以选择它，是因为我们的客户更喜欢谷歌的云解决方案，他们的数据具有结构化和可分析的特点，而且不要求低延迟，所以 BigQuery 似乎是一个完美的选择。...我们也不能使用 Kafka Connect，因为表中缺少自增列，Kafka Connect 就没办法保证在传输数据时不丢失数据。...在我们的案例中，我们需要开发一个简单的 Kafka 生产者，它负责查询数据，并保证不丢失数据，然后将数据流到 Kafka，以及另一个消费者，它负责将数据发送到 BigQuery，如下图所示。 ?

3.3K2 0

20亿条记录的MySQL大表迁移实战

我们的一个客户遇到了一个 MySQL 问题，他们有一张大表，这张表有 20 多亿条记录，而且还在不断增加。如果不更换基础设施，就有磁盘空间被耗尽的风险，最终可能会破坏整个应用程序。...而且，这么大的表还存在其他问题：糟糕的查询性能、糟糕的模式设计，因为记录太多而找不到简单的方法来进行数据分析。...我们之所以选择它，是因为我们的客户更喜欢谷歌的云解决方案，他们的数据具有结构化和可分析的特点，而且不要求低延迟，所以 BigQuery 似乎是一个完美的选择。...我们也不能使用 Kafka Connect，因为表中缺少自增列，Kafka Connect 就没办法保证在传输数据时不丢失数据。...在我们的案例中，我们需要开发一个简单的 Kafka 生产者，它负责查询数据，并保证不丢失数据，然后将数据流到 Kafka，以及另一个消费者，它负责将数据发送到 BigQuery，如下图所示。

4.8K1 0

当Google大数据遇上以太坊数据集，这会是一个区块链+大数据的成功案例吗？

以太坊上大多数价值转移都是由 Token 组成，而 Token 则由智能合约创建和管理。以太币的价值转移精确而直接，这就类似于会计学中的借方和贷方。...取消按日期分区的数据规范，并将其存储在 BigQuery 平台上，进行简单且具有成本效益的探索。...另外，我们借助 BigQuery 平台，也将迷恋猫的出生事件记录在了区块链中。最后，我们对至少拥有10只迷恋猫的账户进行了数据收集，其中，颜色表示所有者，将迷恋猫家族进行了可视化。...分析2：交易量和交易网络以太坊上存很多种 Token，其分布模式因类别和时间的不同而呈现出多样性。通过查看每个 Token 的交易活动，我们可以筛选出某段时期内受欢迎的Token？...由于数据由以太坊钱包地址之间的转移组成，因此，我们可以使用有向图数据结构进行分析。下图是相同数据子集的可视化结果：数据来源于至少包含两个贸易伙伴的前50,000个交易。

4K5 1

用MongoDB Change Streams 在BigQuery中复制数据

在一定的规模上为了分析而查询MongoDB是低效的； 2. 我们没有把所有数据放在MongoDB中（例如分条计费信息）。在一定的规模上，作为服务供应商的数据管道价格昂贵。...把所有的变更流事件以JSON块的形式放在BigQuery中。我们可以使用dbt这样的把原始的JSON数据工具解析、存储和转换到一个合适的SQL表中。...这些记录送入到同样的BigQuery表中。现在，运行同样的dbt模型给了我们带有所有回填记录的最终表。我们发现最主要的问题是需要用SQL写所有的提取操作。...这意味着大量额外的SQL代码和一些额外的处理。当时使用dbt处理不难。另外一个小问题是BigQuery并不天生支持提取一个以JSON编码的数组中的所有元素。...未来我们计划迁移到Apache Beam（是一个统一的编程框架，支持批处理和流处理，并可以将用Beam编程模型构造出来的程序，在多个计算引擎如Apache Apex, Apache Flink, Apache

4.2K2 0

从1到10 的高级 SQL 技巧，试试知道多少？

当给定数据与源不匹配时，也可以使用 UPDATE 或 DELETE 子句。...这意味着 Google BigQuery MERGE 命令可让您通过更新、插入和删除 Google BigQuery 表中的数据来合并 Google BigQuery 数据。...使用 PARTITION BY函数给定user_id、date和total_cost列。对于每个日期，如何在保留所有行的同时显示每个客户的总收入值？...倾向于使用DENSE_RANK 默认排名功能，因为它不会跳过下一个可用排名，而RANK会。它返回连续的排名值。您可以将其与分区一起使用，将结果划分为不同的存储桶。...您始终可以将表视为 TYPE STRUCT 对象的数组，然后将其中每个对象传递给 UDF。这取决于你的逻辑。

1021 0

BigQuery：云中的数据仓库

BigQuery将为您提供海量的数据存储以容纳您的数据集并提供强大的SQL，如Dremel语言，用于构建分析和报告。...(RDBMS = Relationship DataBase Management System, 关系型数据库管理系统，下同，即传统的数据库管理系统，使用结构化查询语言(SQL)，NoSQL与之相对。...使用BigQuery数据存储区，您可以将每条记录放入每个包含日期/时间戳的BigQuery表中。...但是，通过充分利用Dremel的强大功能，只需在本地ETL引擎检测到更改时插入新记录而不终止现有的当前记录，即可在BigQuery中支持FCD。...这个Staging DW只保存BigQuery中存在的表中最新的记录，所以这使得它能够保持精简，并且不会随着时间的推移而变大。因此，使用此模型，您的ETL只会将更改发送到Google Cloud。

5.1K4 0

大数据已死？谷歌十年老兵吐槽：收起 PPT 吧！数据大小不重要，能用起来才重要

存储和计算分离中的存储偏差现代云数据平台都将存储和计算分离，这意味着客户不受单一因素的限制。这可能是过去 20 年中数据架构中最重要的一次变化，而不仅仅是横向扩展。...与现实环境中难以管理的“无共享”体系结构不同，共享磁盘体系结构使你能够独立地增加存储和计算能力。S3 和 GCS 等可扩展、高速的对象存储的兴起，让我们在构建数据库时变的非常容易。...每天都有新订单、新的出租车服务、新的日志记录、新的一局游戏。如果一个业务是静态的，既不增长也不萎缩，数据将随着时间线性增长。这对分析需求意味着什么?...数据存储时间的曲线扁平化得多。很多数据很快就会被丢弃，不过仍会有很多数据被追加到表中。最近一年，99% 的数据访问只针对 30% 的数据量。...今日好文推荐人口不足千万、芯片厂近200家，以色列技术人如何在芯片领域“挖金山”？

8913 0

Iceberg-Trino 如何解决链上数据面临的挑战

举一个具体的例子，以太坊中的 NFT 通常是在遵循 ERC721 和 ERC1155 格式的智能合约中进行创建的，而像Polkadot 上通常是直接在区块链运行时间内构建的。...为了给用户提供最大的价值，区块链索引解决方案可能需要将其数据索引与其他系统集成，如分析平台或 API。这很有挑战性，需要在架构设计上投入大量精力。...随着区块链技术的使用越来越广泛，存储在区块链上的数据量也在增加。这是因为更多的人在使用该技术，而每笔交易都会给区块链增加新的数据。...此外，区块链技术的使用已经从简单的资金转移应用，如涉及使用比特币的应用，发展到更复杂的应用，包括智能合约之间的相互调用。这些智能合约可以产生大量的数据，从而造成了区块链数据的复杂性和规模的增加。...但是很快，我们碰到了以下问题：不支持 Array JSON 等数据类型在区块链的数据中，数组 Array 是个很常见的类型，例如 evm logs 中的 topic 字段，无法对 Array 进行计算处理

2.3K3 0

拿起Python，防御特朗普的Twitter！

为了解决这个问题，我们使用名为字典的Python数据结构。字典是一个条目列表，每个条目都有一个键和一个值。我们将这些项称为键值对。因此，字典是键值对的列表（有时称为键值存储）。...在第14行中，我们使用PorterStemmer创建了一个stemmer对象，在第18行中，我们使用word_tokenize而不是split来以更智能的方式将Twitter分解为单词。...例如，JPEG、GIF、PNG和BMP都是不同的图像格式，用于说明如何在文件中存储图像。XLS和CSV也是在文件中存储表格数据的两种格式。在本例中，我们希望存储键值数据结构。...但明确使用close可能会有问题：在大型程序中，很容易忘记关闭文件，而并且可能会发生关闭在一个块内部，而这个块一直没有执行（例如if）。为了避免这些问题，我们可以使用with关键字。...这里我们将重点介绍语法注释，语法注释响应提供关于句子结构和每个单词的词性的详细信息。推文常常缺少标点符号，语法上也不总是正确的，但是NL API仍然能够解析它们并提取语法数据。

5.2K3 0

详细对比后，我建议这样选择云数据仓库

数据仓库通常包括结构化和半结构化的数据，从事务系统、操作数据库或其他渠道获得。工程师和分析师会在商业智能和其他场景中使用这些数据。数据仓库可以在内部实施，也可以在云端中实施，或者两者混合实施。...只使用数据库可以吗？传统观点认为，除非具有 TB 级或 PB 级的复杂数据集，否则使用 OLTP 数据库如 PostgreSQL 就够了。...这家零售和批发药店巨头已经将其库存管理数据迁移到了 Azure Synapse。...举例来说，加密有不同的处理方式：BigQuery 默认加密了传输中的数据和静态数据，而 Redshift 中需要显式地启用该特性。计费提供商计算成本的方法不同。...其他功能，如并发扩展和管理存储，都是单独收费的。BigQuery 为存储和分析提供单独的按需和折扣的统一价格，而其他操作包括流插入，将会产生额外的费用。

5.7K1 0

NPM基本介绍（一）

npm script 是记录在 package.json 中的 scripts 字段中的一些自定义脚本，使用自定义脚本，用户可以将一些项目中常用的命令行记录在 package.json 不需要每次都要敲一遍...这种称之为全局模式 main：模块引入方法require（）在引入包时，会优先检查这个字段，并将其作为包中其余模块入口。...扁平化依赖扁平化安装过程 2、模块安装过程 npm v2解析包的依赖关系这个版本下安装依赖使用嵌套安装依赖 ?...：全局安装：可以直接在命令行里面使用局部安装：可以require（）引用使用如何选择安装方式如果您要在程序中使用的require('whatever')，请使用本地安装，然后将其安装在项目的根目录下...（不直接从缓存读取是因为缓存中的包版本可能是旧的，所以要去拉最新的包版本）优先使用缓存安装：--prefer-offline 优先线上安装： --prefer-online 完全离线：--offline

1.6K2 0

如何使用5个Python库管理大数据？

这些系统中的每一个都利用如分布式、柱状结构和流数据之类的概念来更快地向终端用户提供信息。对于更快、更新的信息需求将促使数据工程师和软件工程师利用这些工具。...关于BigQuery的另一点是，它是在Bigtable上运行的。重要的是要了解该仓库不是事务型数据库。因此，不能将其视为在线交易处理（OLTP）数据库。它是专为大数据而设计的。...Spark将快速处理数据，然后将其存储到其他数据存储系统上设置的表中。有时候，安装PySpark可能是个挑战，因为它需要依赖项。你可以看到它运行在JVM之上，因此需要Java的底层基础结构才能运行。...Kafka Python Kafka是一个分布式发布-订阅消息传递系统，它允许用户在复制和分区主题中维护消息源。这些主题基本上是从客户端接收数据并将其存储在分区中的日志。...生产者可以跨线程使用而没有问题，而消费者则需要多线程处理。 Pydoop 让我们解决这个问题。Hadoop本身并不是一个数据存储系统。

2.8K1 0

使用Java部署训练好的Keras深度学习模型

在本文中，我将展示如何在Java中构建批量和实时预测。 Java安装程序要使用Java部署Keras模型，我们将使用Deeplearing4j库。...它提供了N维数组，它提供了在Java中实现深度学习后端的n维数组。要在张量对象中设置一个值，需要向张量传递一个提供n维索引的整数数组，以及要设置的值。由于我使用的是1维张量，因此数组长度为1。...在这个例子中，我从我的样本CSV总加载值，而在实践中我通常使用BigQuery作为源和同步的模型预测。...在转换器中，你可以定义诸如Keras模型之类的对象，这些对象在转换器中定义的每个流程元素步骤被共享。结果是模型为每个转换器加载一次，而不是为每个需要预测的记录加载一次。...BigQuery中的预测结果将DataFlow与DL4J一起使用的结果是，你可以使用自动扩展基础架构为批量预测评分数百万条记录。结论随着深度学习越来越受欢迎，越来越多的语言和环境支持这些模型。

5.3K4 0

内部部署到云迁移：成为云原生的4个关键挑战

AWS Redshift支持PostgreSQL，而Big Query使用STRING、RECORD(半结构化对象)和REPEATED(数组)类型。...当在已经通过认证的IT基础设施上运行时，这使得获得SOC2、ISO2700、HIPAA和PCI等标准认证变得更加容易。身份验证、授权、日志记录和审核都集成在所有云平台上。...安全措施(如网络和应用程序防火墙、DDoS保护和身份管理)经过标准化、测试并可用于安装和配置。挑战3：将自定义数据应用程序连接到数据存储另一个障碍是优化自定义数据应用程序用于连接到数据存储的接口。...存储在数据存储区中的过程层类似于缩略图数据应用程序的存储库，可以节省大量工作，并保留组织特定的知识。常见的替代方法是使用单独的平台来计划参数化的查询或编排任务。...在Azure Cosmos DB中使用SQL API，组织可以使用JavaScript语言定义存储过程、触发器和UDF，并在数据库引擎中执行它。

1.3K2 0

一顿操作猛如虎，涨跌全看特朗普！

为什么在那里最后，在第9行中，我们循环遍历tweet_words：也就是说，我们逐个遍历tweet_words项，将其存储在w中，然后在第10行和第11行处理w。...为了解决这个问题，我们使用名为字典的Python数据结构。字典是一个条目列表，每个条目都有一个键和一个值。我们将这些项称为键值对。因此，字典是键值对的列表（有时称为键值存储）。...在第14行中，我们使用PorterStemmer创建了一个stemmer对象，在第18行中，我们使用word_tokenize而不是split来以更智能的方式将Twitter分解为单词。...例如，JPEG、GIF、PNG和BMP都是不同的图像格式，用于说明如何在文件中存储图像。XLS和CSV也是在文件中存储表格数据的两种格式。在本例中，我们希望存储键值数据结构。...这里我们将重点介绍语法注释，语法注释响应提供关于句子结构和每个单词的词性的详细信息。推文常常缺少标点符号，语法上也不总是正确的，但是NL API仍然能够解析它们并提取语法数据。

4.1K4 0

构建端到端的开源现代数据平台

最后请记住尽管讨论的技术和工具是开源的，但我们将在云环境中构建平台以及使用的资源（用于计算、存储等）、云环境本身并不免费，但不会超过 GCP 免费试用[3]提供的 300 美元预算。...该选项需要最少的工作量，但提供更多功能，如调度作业、CI/CD 和警报。值得注意的是它实际上对开发者计划是免费的。...通过将其添加到架构中，数据发现和治理成为必然，因为它已经具备实现这些目标所需的所有功能。如果您想在将其添加到平台之前了解它的功能，可以先探索它的沙箱[35]。...[36]、BigQuery 使用数据[37]、dbt[38] 和 Superset[39]。...尽管如此让我们讨论一下如何在需要时集成这两个组件。编排管道：Apache Airflow 当平台进一步成熟，开始集成新工具和编排复杂的工作流时，dbt 调度最终将不足以满足我们的用例。

5.6K1 0

Tapdata Connector 实用指南：数据入仓场景之数据实时同步到 BigQuery

其优势在于：在不影响线上业务的情况下进行快速分析：BigQuery 专为快速高效的分析而设计, 通过在 BigQuery 中创建数据的副本, 可以针对该副本执行复杂的分析查询, 而不会影响线上业务。...登录 Google Cloud 控制台，创建数据集和表，如已存在可跳过本步骤。 i....访问账号（JSON）：用文本编辑器打开您在准备工作中下载的密钥文件，将其复制粘贴进该文本框中。数据集 ID：选择 BigQuery 中已有的数据集。...基于 BigQuery 特性，Tapdata 做出了哪些针对性调整在开发过程中，Tapdata 发现 BigQuery 存在如下三点不同于传统数据库的特征：如使用 JDBC 进行数据的写入与更新，则性能较差...，无法满足实际使用要求；如使用 StreamAPI 进行数据写入，虽然速度较快，但写入的数据在一段时间内无法更新；一些数据操作存在 QPS 限制，无法像传统数据库一样随意对数据进行写入。

8.6K1 0

C++一分钟之-扁平化映射与unordered_map

本文将深入探讨unordered_map的使用技巧、扁平化映射的实现方法，以及在此过程中可能遇到的问题和避免策略，并辅以代码示例加以说明。...无序性：元素的存储顺序不反映插入顺序，也不按键的任何特定顺序排列。动态大小：容器大小可随元素的插入和删除而自动调整。...二、扁平化映射的应用场景扁平化映射常用于处理具有多级索引的数据结构，如配置文件、数据库记录或嵌套对象。通过将多级结构展平为单层映射，可以简化数据访问逻辑，提高查询效率。...错误的键类型选择问题：选择不合适的键类型（如非哈希和等价关系不明确的类型）会导致无法正常工作。...通过上述讨论和示例，希望读者能够更好地理解和运用unordered_map来处理扁平化映射的需求，提升代码的效率和可维护性。在实际应用中，还需根据具体场景进一步优化数据结构和算法设计，以达到最佳效果。

1381 0

ClickHouse 提升数据效能

如果您为 Google Cloud 帐户启用了 BigQuery，则此连接的配置非常简单且有详细记录。也许显而易见的问题就变成了：“为什么不直接使用 BigQuery 进行分析呢？” 成本和性能。...6.BigQuery 到 ClickHouse 有关如何在 BigQuery 和 ClickHouse 之间迁移数据的详细信息，请参阅我们的文档。...这使得盘中数据变得更加重要。为了安全起见，我们在下午 6 点在 BigQuery 中使用以下计划查询进行导出。BigQuery 中的导出每天最多可免费导出 50TiB，且存储成本较低。...然而，我们的初始测试是在 ClickHouse 云开发层服务中执行的。这将存储限制为 1TiB，并在两个节点上提供总共 4vCPU 和 16GiB RAM，对于大多数组织来说足以运行上述解决方案。...上面显示了所有查询如何在 0.5 秒内返回。我们表的排序键可以进一步优化，如果需要进一步提高性能，用户可以自由使用物化视图和投影等功能。

3011 0

C++一分钟之-扁平化映射与unordered_map

811 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在bigquery中使用记录、结构和数组而不将其扁平化

基础概念

相关优势

类型与应用场景

示例代码

创建表

插入数据

查询数据

遇到的问题及解决方法

问题：查询结果扁平化

问题：嵌套查询复杂

总结

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐