首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

找不到BigQuery公共数据集(`bigquery- public -data`)

BigQuery公共数据集(bigquery-public-data)是Google Cloud提供的一系列免费可用的公共数据集。这些数据集涵盖了各种领域,包括金融、生物医学、气象、交通等,可以用于数据分析、机器学习、商业智能等应用。

BigQuery公共数据集的优势在于其丰富的数据内容和高质量的数据源。这些数据集经过精心筛选和处理,可以直接在BigQuery平台上进行查询和分析,无需用户自行收集和清洗数据。这大大简化了数据分析的流程,节省了时间和资源。

以下是一些常见的BigQuery公共数据集及其应用场景:

  1. Google Analytics数据集:包含了网站和移动应用程序的用户行为数据,可用于分析用户行为、流量分析和市场营销策略。
  2. GitHub数据集:包含了GitHub上的开源代码仓库信息,可用于软件开发趋势分析、项目评估和社区贡献分析。
  3. NOAA气象数据集:包含了全球范围内的气象观测数据,可用于天气预测、气候变化研究和环境监测。
  4. 联合国数据集:包含了联合国的统计数据,涵盖了人口、经济、教育、卫生等多个领域,可用于全球发展指标分析和国际比较研究。

推荐的腾讯云相关产品是TencentDB for BigQuery,它是腾讯云提供的与BigQuery兼容的云数据库服务。TencentDB for BigQuery可以无缝集成BigQuery公共数据集,提供高性能的数据存储和查询服务,帮助用户快速分析和挖掘数据。

更多关于BigQuery公共数据集的信息和使用方法,请参考腾讯云官方文档:TencentDB for BigQuery

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

假期还要卷,24个免费数据集送给你

数据处理 有时我们只想处理大型数据集,最终结果与读取和分析数据的过程无关。 寻找大型公共数据集的好地方是云托管提供商,如亚马逊和谷歌。...public-data-sets/landsat/) Google Public Data sets 就像亚马逊一样,谷歌也有云托管服务,称为谷歌云平台。...❝https://cloud.google.com/bigquery/public-data/ 以下是一些示例: 美国名称-包含1879年至2015年美国所有社会保障名称申请(https://cloud.google.com.../bigquery/public-data/usa-names) Github Activity-包含280多万个公共Github存储库上的所有公共活动(https://cloud.google.com.../bigquery/public-data/github) 历史天气——1929年至2016年9000个NOAA气象站的数据(https://cloud.google.com/bigquery/public-data

1.3K40

BigQuery:云中的数据仓库

BigQuery: Data Warehouse in the Clouds 原文作者:Sam Taha 原文地址:https://dzone.com/articles/bigquery-data-warehouse-clouds...更不用说虚拟化和Hadoop在目前虚拟化和公共云硬件和软件技术的状态下不太适合 - 这是一个单独的讨论。...BigQuery将为您提供海量的数据存储以容纳您的数据集并提供强大的SQL,如Dremel语言,用于构建分析和报告。...这实际上是Dremel和BigQuery擅长的,因为它为您提供了SQL功能,例如子选择(功能),这些功能在NoSQL类型的存储引擎中通常找不到。...您的ETL引擎通常必须注意何时去插入新的事实或时间维度记录,并且通常包括“终止”记录历史记录集谱系中当前记录的前一个记录。

5K40
  • 比特币区块链数据集:完整的历史实时比特币区块链数据

    区块链技术作为比特币的核心模块,由中本聪在 2009 年首次实现,它是一种分布式的公共账本交易系统。比特币是一种分散的数字货币,它通过分布式的方式储存交易,以弥补金融行业的缺陷。...在此数据集中,你可以访问有关区块链以及相关交易的信息,所有的历史数据都在 bigquery-public-data:bitcoin_blockchain 数据库里,该数据每十分钟就更新一次。...这些数据可以和 kernel 里的历史价格结合在一起,查阅类似数据库请进入页面:https://www.kaggle.com/datasets?...search=bitcoin 你可以使用 BigQuery 的 Python 客户端库在 Kernel 中查询此数据中的表。...注意,Kernel 中可用的数据仅限于查询,表位于 bigquery-public-data.bitcoin_blockchain。

    2.4K30

    7大云计算数据仓库

    每个主要的公共云提供商都拥有自己的数据仓库,该仓库提供与现有资源的集成,这可以使云计算数据仓库用户更轻松地进行部署和使用。 迁移数据的能力。...对于希望使用标准SQL查询来分析云中的大型数据集的用户而言,BigQuery是一个合理的选择。...•与BigQuery ML的集成是一个关键的区别因素,它将数据仓库和机器学习(ML)的世界融合在一起。使用BigQuery ML,可以在数据仓库中的数据上训练机器学习工作负载。...•Apache Spark引擎也与Db2集成在一起,这意味着用户可以针对数据仓库使用SQL查询和Spark查询,以获取见解。...对于需要为数据仓库功能选择不同的公共云提供商的任何行业的组织而言,Snowflake是一个很好的选择。

    5.4K30

    当Google大数据遇上以太坊数据集,这会是一个区块链+大数据的成功案例吗?

    可喜的是,在区块链+大数据方向,继比特币数据集之后,Google再一次做了很好的尝试——在BigQuery上发布了以太坊数据集!...Google 在区块链+大数据这一破受争议的方向就做了很好的尝试! 就在今年早些时候,Google 的大数据分析平台 BigQuery 提供了比特币数据集分析服务。...近日,Google 在 BigQuery 平台上再次发布了以太坊数据集。 大多数人可能会认为以太坊区块链是一个不可变的分布式分类帐。...Google 在 BigQuery 平台上发布以太坊数据集,目的就在于深入探索以太坊数据背后“暗藏”的那些事儿。...原文链接: https://cloud.google.com/blog/products/data-analytics/ethereum-bigquery-public-dataset-smart-contract-analytics

    4K51

    详细对比后,我建议这样选择云数据仓库

    传统观点认为,除非具有 TB 级或 PB 级的复杂数据集,否则使用 OLTP 数据库 如 PostgreSQL 就够了。但是,云计算使得数据仓库对于较小的数据量也变得具有成本效益。...Snowflake 的这项服务使用了主要的公共云,并非运行在自己的云上,因此可以更方便地跨云和地区移动数据。 Snowflake 几乎可以支持无限数量的并发用户,并且几乎不需要怎么维护和管理。...亚马逊 Redshift 亚马逊 Redshift 是一项由亚马逊提供的云数据仓库服务。这项服务可以处理各种大小的数据集,从数千兆字节到一百万兆字节甚至或更大。...Azure Synapse 采用了数据仓库单元(Data Warehouse Unit,DWU),即综合的技术成本因素,用于计算资源的定价,而对存储单独收费。...由于数据传输路径共享相同的基础设施,因此可以更好地进行优化。此外,数据也不必通过公共互联网传输。 数据类型企业的工作涉及结构化、半结构化和非结构化的数据,大多数数据仓库通常支持前两种数据类型。

    5.7K10

    谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

    这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。...Apache Hive 是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。...BigQuery 是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。...这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector 实现了 Hadoop Compatible File System(HCFS) API...,用于读写 Cloud Storage 中的数据文件,而 Apache Spark SQL connector for BigQuery 则实现了 Spark SQL Data Source API,将

    35020

    运用谷歌 BigQuery 与 TensorFlow 做公共大数据预测

    【新智元导读】谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。...预测因素与目标 谷歌的 BigQuery 公共数据集既包括纽约的出租车搭乘总数(见表格 nyc-tlc:green),也包括国家海洋和气象局的天气数据(见表格 fh-bigquery:weather_gsod...类似地,你可以运行 BigQuery,按一年中每一天的序号来预测这一天的出租车搭乘总数。 ? 通过合并天气和车次数据库,我们就得到了供机器学习使用的完整数据集: ?...我们可以在一个测试数据集上运行测试基准模型和机器学习模型,以评估机器学习模型是否比测试基准的表现更好。 为了创造出测试数据集,我们将集齐所有的训练数据,把它按 80:20 分为两部分。...谷歌云平台中的公共数据集包括来自美国国家海洋与气象局的天气信息。要想更多地了解谷歌云平台和它的大数据、机器学习能力,你也可以注册谷歌云的培训课程。 来源:cloud.Google.com

    2.2K60

    使用Tensorflow和公共数据集构建预测和应用问题标签的GitHub应用程序

    输入GH-Archive和GitHub应用程序:数据遇到机会的地方 提出了一个认为满足上述标准的数据集,平台和域名! 数据集:GH-Archive。...用于存储在BigQuery上的GH-Archive数据的示例查询语法 要注意不仅仅是问题数据 - 可以检索几乎任何发生的事情的数据在GitHub上!...甚至可以从BigQuery中的公共存储库中检索大量代码。...尽管有这些公共数据集,但使用机器学习的GitHub应用程序并不多! 端到端示例:使用机器学习自动标记GitHub问题 ?...此查询生成的数据可在此电子表格中找到 ? 来自公共数据集的热门问题标签。有一个非常长的尾巴(这里没有显示)。 此电子表格包含整个帕累托图表的数据。问题标签的长尾不是相互排斥的。

    3.2K10

    构建端到端的开源现代数据平台

    首先,谈谈数据 要构建示例数据平台,第一步是选择一个或多个要使用的数据集,这是一个探索在线可用的多个开放数据集之一的机会,建议使用一个感兴趣的数据集——这将使构建过程更加愉快,因为对数据真正感兴趣。...• 世界发展指标[6](1960-2020):世界银行提供的这个数据集无疑是可以在网上找到的最丰富的开放数据集之一,它包含大约 1500 个发展指标。...首先我们只需要创建一个数据集[11],也可以随时熟悉 BigQuery 的一些更高级的概念,例如分区[12]和物化视图[13]。...对于正在处理的任何数据集,当涉及到数据可以回答的问题时,您会发现无限可能性——这是一个很好的练习,可以让您在处理新数据集时感到更加自信。...) [11] 创建一个数据集: [https://cloud.google.com/bigquery/docs/datasets](https://cloud.google.com/bigquery/docs

    5.5K10

    CDP通过支持谷歌云扩展了混合云的支持

    CDP Public Cloud现在可以在Google Cloud上使用。对Google Cloud的额外支持使Cloudera能够兑现其在全球范围内提供其企业数据平台的承诺。...选择Google Cloud作为其云平台的客户现在可以使用CDP公共云在其自己的云帐户中创建安全的受控数据湖,并在多个计算集群之间提供安全性、合规性和元数据管理。...我们的客户之一,德国商业银行(Commerzbank)已使用CDP公共云试用版来证明,他们可以结合使用Google Cloud和CDP来加速向Google Cloud的迁移,而不会影响数据安全性或治理。...在此第一个Google Cloud版本中,CDP Public Cloud提供了内置的Data Hub定义(有关更多详细信息,请参见屏幕截图): 数据提取(Apache NiFi,Apache Kafka...然后,您可以使用现有管道对BigQuery中准备的数据运行分析。 下面的屏幕截图显示了CDP如何提供一个单一的窗格来监视在本地(使用CDP私有云)和在多个云(使用CDP公共云)中部署的集群。

    1.6K10

    如何用 GPT2 和 BERT 建立一个可信的 reddit 自动回复机器人?

    我用来微调模型的数据来自之前检索到的 reddit 评论大型数据库:https://bigquery.cloud.google.com/dataset/fh-bigquery:reddit_comments...微调意味着采用一个已经在大数据集上训练过的模型,然后只使用你想要在其上使用的特定类型的数据继续对它进行训练。...使用这个模型的一个很大的好处是,与 GPT-2 类似,研究人员已经在我永远无法获得的超大型数据集上预先训练了网络。...这一次,这个模型只是在一个数据集上训练,这个数据集包含了一堆真实的 reddit 评论,用来预测他们实际获得了多少投票。 该模型还具有令人惊讶的高预测精度。...用PRAW拉实时评论 尽管我可以使用 bigquery 上的数据生成训练集,但大多数数据实际上都是几个月前的。

    3.3K30

    使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?

    而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。...在我们的案例中,我们需要开发一个简单的 Kafka 生产者,它负责查询数据,并保证不丢失数据,然后将数据流到 Kafka,以及另一个消费者,它负责将数据发送到 BigQuery,如下图所示。 ?...将数据流到 BigQuery 通过分区来回收存储空间 我们将所有数据流到 Kafka(为了减少负载,我们使用了数据过滤),然后再将数据流到 BigQuery,这帮我们解决了查询性能问题,让我们可以在几秒钟内分析大量数据...将数据流到分区表中 通过整理数据来回收存储空间 在将数据流到 BigQuery 之后,我们就可以轻松地对整个数据集进行分析,并验证一些新的想法,比如减少数据库中表所占用的空间。...总 结 总的来说,我们使用 Kafka 将数据流到 BigQuery。

    3.2K20

    20亿条记录的MySQL大表迁移实战

    而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。...在我们的案例中,我们需要开发一个简单的 Kafka 生产者,它负责查询数据,并保证不丢失数据,然后将数据流到 Kafka,以及另一个消费者,它负责将数据发送到 BigQuery,如下图所示。...将数据流到BigQuery 通过分区来回收存储空间 我们将所有数据流到 Kafka(为了减少负载,我们使用了数据过滤),然后再将数据流到 BigQuery,这帮我们解决了查询性能问题,让我们可以在几秒钟内分析大量数据...将数据流到分区表中 通过整理数据来回收存储空间 在将数据流到 BigQuery 之后,我们就可以轻松地对整个数据集进行分析,并验证一些新的想法,比如减少数据库中表所占用的空间。...总结 总的来说,我们使用 Kafka 将数据流到 BigQuery。

    4.7K10

    Thoughtworks第26期技术雷达——平台象限

    但仍有一些需要权衡的事情,例如是否需要降低"机器学习持续交付"的难易程度以使其低门槛好上手,BigQuery ML 仍然是一个有吸引力的选择,特别是当数据已经存储在 BigQuery 中的时候。...我们团队正在使用 Dataflow 来创建用于集成、准备和分析大数据集的数据处理流水线,在这之上使用 Apache Beam 的统一编程模型来方便管理。...Github Actions 中的可复用工作流将流水线设计模块化,只要工作流依赖的代码仓库是public状态,你甚至可以跨代码仓库进行参数化复用。...Apache Iceberg Apache Iceberg 是一个面向超大的分析数据集的开放表格格式。...用户还可以选择使用仅需更小功能集合的更加去中心化的管理方法(如 Data mesh) 。真正令人引以为傲的的是他们经常被忽略的客户支持,对此我们认为是一种协作与支持。

    2.8K50

    1年将超过15PB数据迁移到谷歌BigQuery,PayPal的经验有哪些可借鉴之处?

    为了跟上暴涨的需求,我们决定将 PayPal Analytics 分析平台迁移到公共云上。第一波大迁移是将一个仓库负载迁移到 Google Cloud 中的 BigQuery,耗时不到一年。...这确保了数据的安全性,保证数据位于无法从外部访问的范围内。我们部署了自动化操作以防止意外创建缺少加密密钥的数据集。...我们正在计划将来自财务、人力资源、营销和第三方系统(如 Salesforce)以及站点活动的多个数据集整合到 BigQuery 中,以实现更快的业务建模和决策制定流程。...团队正在研究流式传输能力,以将站点数据集直接注入 BigQuery,让我们的分析师近乎实时地使用。...原文链接: https://medium.com/paypal-tech/400-days-paypals-data-warehouse-migration-to-google-bigquery-8c3b845eb6c9

    4.7K20

    OpenAI用Reddit训练聊天机器人

    2016年4月,OpenAI发布了公共测试版OpenAI Gym。OpenAI Gym是一个增强学习的科研平台,该平台提供了一个适用于多种场景的人工智能。...如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好的数据库。...上能够找到截止至2015年末的完整的数据表(2016年的表也可找到,但只有按月份整理的表): https://bigquery.cloud.google.com/table/fh-bigquery:reddit_posts.full_corpus..._201512 这个是去年我写的“如何通过BigQuery使用Reddit的数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据集的种子文件...如果你想在自己的工作站上用这个数据集的话,这里有一些代码可供参考: https://github.com/dewarim/reddit-data-tool

    1.1K40

    这30个高质量的数据集网站,你必须要试试!

    中华人民共和国国家统计局数据: http://data.stats.gov.cn/index.htm 世界银行公开数据: http://data.worldbank.org.cn/ 联合国数据:http...://www.accenture.com/cn-zh/ 艾瑞咨询:http://www.iresearch.com.cn/ 二、简单通用数据集 1、中国国家统计局 (http://data.stats.gov.cn...2、Google datasets (https://cloud.google.com/bigquery/public-data/) Google 提供了一些数据集作为其 Big Query 工具的一部分...包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论 3、Youtube-labeled-Video-Dataset (https://research.google.com/...这些数据集可供下载,可用于创建自己的推荐系统。 2、Jester (http://www.ieor.berkeley.edu/~goldberg/jester-data/) 在线笑话推荐系统。

    2.8K40
    领券