首页
学习
活动
专区
圈层
工具
发布

使用 SQL 也能玩转机器学习

利用 BigQuery ML,您可以使用标准 SQL 查询在 BigQuery 中创建和执行机器学习模型。...BigQuery ML 让 SQL 专业人员能够使用现有的 SQL 工具和技能构建模型,从而实现机器学习的普及。使用 BigQuery ML,无需移动数据,加快了开发速度。...其实两年前就看到相关文章,比如阿里的SQLFlow,使用 SQL 实现机器学习,但是 Python 在机器学习领域的生态太强大了,虽然使用 SQL 要比 Python 的门槛更低,我依然觉得这个不会应用到生产环境或者实际使用...首先是建立相关的数据集: CREATE TABLE FIRST_REV_DATE_TABLE AS SELECT anonymous_id, rev_date as first_rev_date...,只有SQL语句,对于用户而言,我只要了解有哪些模型、模型的大致原理是怎么的、模型的应用场景和有哪些优势和劣势,至于模型是怎么实现的,用户可以不用再关心了。

1K10

谷歌又傻X之BigQuery ML

最近工作忙,又努力在写干活,没怎么关注互联网行业的发展。周末好不容易补补课,就发现了谷歌在其非常成功的云产品BigQuery上发布了BigQuery ML。说白了就是利用SQL语句去做机器学习。...BigQuery ML到底是什么呢,不妨看看这个gif的宣称。 简单来说,第一步是类似生成表,视图那样的建立一个模型。纯SQL语句。第二步则是使用这个模型去预测。也是纯SQL语句。...说实话,这么纯粹的SQL语句实现机器学习,我在学术论文里常见,尤其是数据库领域的顶级会议上,我在产品里还是很少见到的。这次见到之后也不得不说:服。傻X也可以傻的如此惊艳的服。...究其原因在我看来是数据库的SQL里面强调的是一种declarative的语言,或者说人话就是SQL强调的是干什么,至于怎么干就不管了。这也是为什么SQL受到很多小白玩家的欢迎。...这也是为什么Spark可以如此成功。主要还是它的语言更好的兼容了类似机器学习的,但是对SQL的妥协也还可以。 我还真的从来没见到过一个公司用SQL搞机器学习成功的,我也不信谷歌会是个例外。

1.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    谷歌BigQuery ML VS StreamingPro MLSQL

    前言 今天看到了一篇 AI前线的文章谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!。正好自己也在力推 StreamingPro的MLSQL。 今天就来对比下这两款产品。...完成相同功能,在MLSQL中中的做法如下: select arr_delay, carrier, origin, dest, dep_delay, taxi_out, distance from db.table...BigQuery ML 也支持利用SQL对数据做复杂处理,因此可以很好的给模型准备数据。...MLSQL也支持非常复杂的数据处理。 除了算法以外 “数据处理模型”以及SQL函数 值得一提的是,MLSQL提供了非常多的“数据处理模型”以及SQL函数。...MLSQL还提供了大量使用的“数据处理模型”和SQL函数,这些无论对于训练还是预测都有非常大的帮助,可以使得数据预处理逻辑在训练和预测时得到复用,基本无需额外开发,实现端到端的部署,减少企业成本。

    1.9K30

    机器学习影响现代云计算的五种方式

    除了捕获多种传感器传来的大量数据以用来查询外,同时还可以处理和分析各种重要趋势,机器学习可以使云计算变得更加智能。...预知维护是一个比较引人注目的用例,在工业物联网中,这样的平台能够代替人类对设备进行故障监测。多种机器学习算法串联工作,演变为一个合适的模式,能够最好地理解设备所生成的数据集的模式。...商务智能(Business Intelligence) 传统的数据仓库已经被大数据和Apache Hadoop所瓦解,而通过将机器学习带入企业数据仓库,决策者们就可以从现有的数据中获得更加聪明的见解,同样可以更加准确地预测业务趋势...包括SCM、CRM、ERP、MRP、HR、销售和财政在内的领域,都会从ML驱动的观察中获得好处。 亚马逊、谷歌、IBM和微软等公司,都在建立传统商务智能平台和新兴ML工具之间相互连接的桥梁。...亚马逊 Kinesis Analytics有亚马逊ML,Azure Stream Analytics有Azure ML Web Services,而谷歌也正通过利用Cloud ML使BigQuery和Cloud

    1.4K80

    7大云计算数据仓库

    对于希望使用标准SQL查询来分析云中的大型数据集的用户而言,BigQuery是一个合理的选择。...关键价值/差异: •作为完全托管的云计算服务,数据仓库的设置和资源供应均由谷歌公司使用无服务器技术来处理。...•与BigQuery ML的集成是一个关键的区别因素,它将数据仓库和机器学习(ML)的世界融合在一起。使用BigQuery ML,可以在数据仓库中的数据上训练机器学习工作负载。...•动态数据屏蔽(DDM)提供了非常精细的安全控制级别,使敏感数据可以在进行查询时即时隐藏。...•与仅在本地运行SQL Server相比,微软建立在庞大的并行处理体系结构上,该体系结构可使用户同时运行一百多个并发查询。

    7.5K30

    没有三年实战经验,我是如何在谷歌云专业数据工程师认证中通关的

    选自towardsdatascience 作者:Daniel Bourke 机器之心编译 参与:高璇、张倩 谷歌云平台为构建数据处理系统提供了基础架构,掌握谷歌云的使用可以在简历上起到锦上添花的效果。...本文将列出读者想知道的一些事,以及我为获取Google Cloud专业数据工程师认证所采取的行动步骤。 为什么要进行Google Cloud专业数据工程师认证? 数据无处不在。...我甚至在考试后在给后团队的Slack笔记中推选它为首选课程。...(例如cos(X) 或 X²+Y²) • 必须了解Dataflow、Dataproc、Datastore、Bigtable、BigQuery、Pub/Sub之间的区别,以及如何使用它们 • 考试中的两个案例研究与实践中的案例完全相同...,但我在考试期间根本没有阅读这些研究(这些问题可见一斑) • 了解一些基本的SQL查询语法非常有用,特别是对于BigQuery问题而言 • Linux Academy和GCP提供的练习考试与考试的真题非常相似

    4.9K50

    WrenAI:AI时代的数据分析利器深度剖析

    主要功能 文本转SQL和图表:核心是自然语言处理,用户输入问题,它输出精确SQL和可视化。举例,在电商数据中问“客户流失率趋势”,它会生成折线图。...比如,在营销中分析广告效果,或在制造中监控生产趋势。但要注意,在敏感数据上需配置访问控制。 在AI领域混迹多年,我见过无数数据工具,从传统BI到现在的生成式AI,但WrenAI让我眼前一亮。...从我测试看,在中等数据集上确实高效。 架构详解:语义引擎的核心作用 WrenAI的灵魂是它的语义引擎(Wren Engine),这是一个独立的开源组件,能和任何AI代理对接。为什么需要语义层?...在使用中,我喜欢它的反馈循环:用户纠正后,系统学习提升准确率。云版还有实时仪表盘,支持Slack集成。 安装与配置:从零到一的实践 部署分开源和云版。...风险:数据隐私,在自托管时需加密,依赖LLM质量。有些用户称它革新了BI,但传统用户觉得不稳。我测试过,在大数据集上偶尔SQL错,但反馈后会改善。

    1K10

    独家 | 如何在BigQueryML中使用K-均值聚类来更好地理解和描述数据(附代码)

    假设你是一个拥有客户交易数据的零售商,有多种方法可以对此数据集进行聚类,这取决于你想要对聚类做什么操作。 我们可以在顾客中找到自然群体,这就是所谓的客户细分。...然后,将数据集中在该字段的属性上。 2. 找出给定客户/项目/其他属于哪个聚类。 3. 理解聚类属性的内容。 4. 利用这一理解做出决策。 在本文中,我将演示对伦敦自行车共享数据的聚类方法。...在此之前,首先需要收集数据。 1. 收集数据 我们将用到的数据包括伦敦的自行车租赁,它是欧盟地区的公共数据集,因此,如果想要跟踪我的查询,应确保在欧盟地区创建一个名为demos_eu的数据集。...BigQueryML聚类 进行聚类时仅需向上述SELECT查询中添加一条CREATE MODEL语句,并删除数据中的“id”字段: 此查询处理1.2GB,耗时54秒。...特定的车站到底属于哪个聚类?利用ML.PREDICT便可以找到答案。以下便是对名称中包含“Kenningtons”的站点的聚类的查询: 输出是: 肯宁顿站(Kennington)属于哪个聚类? 4.

    1.1K30

    2022年数据工程现状

    我们将所有的数据仓库和湖仓移至分析引擎类别。 为什么?如今,数据工程师处理的大多数架构都很复杂,足以同时包括对象存储和分析引擎。...因此,你要么只需要一个分析数据库(这种情况没有数据湖,只有一个作为分析引擎的数据仓库),要么两者都要。而当两者都需要时,你通常会在对象存储上执行一些分析,在分析引擎上执行另一些分析。...这就是为什么它们需要很容易搭配使用。 这种依赖关系发生在不同的层。大型数据集会托管在对象存储中,而工件和服务层数据集将存储在分析引擎和数据库中。在我们知道的架构中,没有看到一个征服另一个的情况。...我们看到,在现实中,这些解决方案是并存的。这种架构产生的背后有多种原因,但其中一个肯定是成本考虑。在 Snowflake 或 BigQuery 中查询大量的数据是很昂贵的。...我们把这个类别分成三个子类别: 端到端 MLOps 工具以数据中心化 ML 方法为基础的工具ML 可观察性和监控 端到端 MLOps 工具 当我着手考察这个领域时,有人告诉我,我应该把这个类别命名为

    68610

    行业现状令人失望,工作之后我又回到UC伯克利读博了

    我对很多细节都抱有疑问,例如为什么在模型重新训练时,训练集会自动刷新而评估集保持不变,必须有人手动刷新评估集?...「我知道这并没有真正解决数据漂移(data drift)问题」,我询问的 Task MLE 害羞地说道。 我认为这些问题是非常重要且有趣的,可悲的是,现在只有有趣。...我曾经在 Snowflake 中匆忙执行了一堆查询,却没想到与年龄相关的列有一半是负值,年龄怎么会有负值呢?然而我没有检查就交给了 CEO。...假设每个组织都能够清楚地定义他们的数据和模型质量 SLO,在 ML 设置中,我们应该在哪里验证数据?传统上,以数据为中心的规则是由 DBMS 执行的。...在 ex-Task MLE 中,我认为这个短语意味着使用代码检测 ML pipeline 组件以记录均值、中值以及输入和输出的各种聚合,并在数据验证检查失败时抛出错误 —— 这也是我在工作中所做的事情。

    84710

    GCP 上的人工智能实用指南:第一、二部分

    您只需单击几下即可构建 BigQuery 数据集,然后开始将数据加载到其中。 BigQuery 使用 Colossus 以列格式将数据存储在本机表中,并且数据被压缩。 这使得数据检索非常快。...BigQuery 和 AI 应用 BigQuery ML 是 BigQuery 机器学习的一种形式,它具有一些内置算法,可以直接在 SQL 查询中用于训练模型和预测输出。...建立 ML 管道 让我们来看一个详细的示例,在该示例中,我们将建立一条端到端的管道,从将数据加载到 Cloud Storage,在其上创建 BigQuery 数据集,使用 BigQuery ML 训练模型并对其进行测试...将数据加载到 BigQuery 现在,我们将讨论 BigQuery 数据集并将数据加载到 BigQuery 中: 首先,按照以下步骤在 BigQuery 中创建 Leads 数据集: 在 GCP...可减少的误差 – 方差 当模型在经过训练的数据集上良好但在新数据集(例如测试数据集或验证数据集)上表现不佳时,就会发生方差。 方差告诉我们如何分散实际值。

    20.5K10

    教程 | 在Cloud ML Engine的TPU上从头训练ResNet

    本文作者将演示如何使用谷歌云提供的 TPU 在自己的数据集上训练一个最先进的图像分类模型。文中还包含了详细的教程目录和内容,心动的读者不妨跟着一起动手试试?...在斯坦福大学进行的独立测试中,在 TPU 上训练的 ResNet-50 模型能够在 ImageNet 数据集上以最快的速度(30 分钟)达到预期的准确率。...在本文中,我将带领读者使用谷歌云提供的 TPU 在自己的数据集上训练一个最先进的图像分类模型。并且: 无需自行编写 TensorFlow 代码(我已经完成了所有代码。)...随着数据集规模的增大,这些数据可以支撑起越来越大的模型的训练:较大的模型在较小的数据集上进行训练存在过拟合的风险。因此随着数据集大小的增加,你可以使用更大的模型。...张量处理单元(TPU)在批处理(batch)规模为 1024 左右时工作效果非常好。而我所拥有的数据集非常小,因此使用较小的批处理规模的原因。

    2.4K20

    假期还要卷,24个免费数据集送给你

    数据处理 有时我们只想处理大型数据集,最终结果与读取和分析数据的过程无关。 寻找大型公共数据集的好地方是云托管提供商,如亚马逊和谷歌。...使用 GCP,我们可以使用名为 BigQuery 的工具来探索大型数据集。 谷歌同样在一个页面上列出所有数据集,也需要注册一个 GCP 帐户,同时可以对前 1TB 的数据进行免费的查询。...因为数据集是用户提供的,因此文档的结构和整齐度都有比较大的差别,但绝大多数数据集都是干净的,可以应用机器学习。在寻找有趣的数据集时,UCI是一个很好的一个网站。...此外我们可以将数据进行上载,并利用它与他人合作。 事实上,他们已经构建了一些工具来简化数据处理,我们可以在他们的界面中编写SQL查询来浏览数据并连接多个数据集。...在构建数据科学项目时,下载数据集并对其进行处理是非常常见的。

    1.8K40

    比谷歌快46倍!GPU助力IBM Snap ML,40亿样本训练模型仅需91.5 秒

    【新智元导读】近日,IBM 宣布他们使用一组由 Criteo Labs发布的广告数据集来训练逻辑回归分类器,在POWER9服务器和GPU上运行自身机器学习库Snap ML,结果比此前来自谷歌的最佳成绩快了...简而言之,Snap ML的三个核心特点是: 分布式训练:Snap ML是一个数据并行的框架,能够在大型数据集上进行扩展和训练,这些数据集可以超出单台机器的内存容量,这对大型应用程序至关重要。...为了使这种方法具有可扩展性,利用最近异构学习的一些进步,即使可以存储在加速器内存中的数据只有一小部分,也可以实现GPU加速。...再来看一遍前文中的图: 在为这样的大规模应用部署GPU加速时,出现了一个主要的技术挑战:训练数据太大而无法存储在GPU上可用的存储器中。...因此,在训练期间,需要有选择地处理数据并反复移入和移出GPU内存。为了解释应用程序的运行时间,研究人员分析了在GPU内核中花费的时间与在GPU上复制数据所花费的时间。

    1.2K100

    2021谷歌年度AI技术总结 | Jeff Dean执笔万字展望人工智能的5大未来趋势!

    ML 程序,以获得 5-15% 的全面性能提升(有时甚至高达2.4 倍改进)。...谷歌研究人员已经使用 ML 解决了广泛此类问题,但也许这些问题都没有比 ML 在医学成像中的应用更进一步。...ML 模型训练的碳排放是 ML 社区关注的问题,谷歌已经证明了关于模型架构、数据中心和 ML 加速器类型的选择可以将训练的碳足迹减少约 100-1000 倍。...从而更好地理解模型的行为(真实中与理想中的世界),研究人员可以开发泛化性更强的模型,对固定训练数据集减少“偏见”。 虽然机器学习算法和模型开发一直备受关注,但数据收集和数据集管理类的工作相对较少。...尽管对单个数据集的研究变得更为普及,但整个领域的数据集使用动态仍有神秘领域待探索。最近谷歌发表了第一个关于数据集创建、采用和重用动态的大规模实证分析。

    1.3K10

    干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    数据库? 云?需要存储特征和标记吗?还是在训练时再提取特征和标记? 怎样训练?在云上训练?还是离线?数据变化的频率如何? 怎样使模型可用于预测?使用框架工具?还是从头开始编写pipeline?...验证是否需要用大量数据训练(模型在增加训练规模时能表现得更好) 如果是,请考虑用完整的数据进行训练 考虑其他要求: - 在有新数据时更新模型,还是根据情况进行再训练?...——分布式存储和处理系统 M / R——处理大量数据的范式 Pig,Hive,Cascalog——在Map / Reduce 上的框架 Spark——数据处理和训练的全栈解决方案(full stack...谷歌云机器学习的深度学习框架也用于驱动 Gmail、Google Photos 等产品 易于管理的 no-ops 基础设施 能训练任何大小数据集的模型 使用 TensorFlow 原生深度学习算法 有互动的...我是做模型的,编程和数学都是初学者。不久我写了自己的可组合容器和更高级的模型。我在示例中遇到一些bug,修复了其中一些,并且可能会在某些点提交一些 pull 请求。

    3.5K50

    32页ppt干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    谷歌机器学习:实际应用技巧 什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。...验证是否需要用大量数据训练(模型在增加训练规模时能表现得更好) 如果是,请考虑用完整的数据进行训练 考虑其他要求: - 在有新数据时更新模型,还是根据情况进行再训练?...——分布式存储和处理系统 M / R——处理大量数据的范式 Pig,Hive,Cascalog——在Map / Reduce 上的框架 Spark——数据处理和训练的全栈解决方案(full stack...谷歌云机器学习的深度学习框架也用于驱动 Gmail、Google Photos 等产品 易于管理的 no-ops 基础设施 能训练任何大小数据集的模型 使用 TensorFlow 原生深度学习算法 有互动的...我是做模型的,编程和数学都是初学者。不久我写了自己的可组合容器和更高级的模型。我在示例中遇到一些bug,修复了其中一些,并且可能会在某些点提交一些 pull 请求。

    2.4K100

    机器学习未来十年:企业不再需要大笔R&D资金

    尽管ML有助于解决一些数据管理(Data Management)中最困难的问题,比如说海量的数据增长、云服务,但没有人类决策者的适度干预,ML技术是无法独自在企业软件生态系统中存活的。...一般在移动设备上的互动会产生大量非结构化的数据,而ML将使这些设备自然而然地整合图像和音频信息。眼下,移动ML软件应用受制于硬件的能耗和处理性能,迫使移动端用户不得不依靠云服务。...堆栈,有助于数据科学加速创新 用机器学习技术处理更大的数据集时,效率会更高更好。...移动端数据和社交数据的暴增,让市场对能够处理大规模数据集的ML提出了需求 渐渐地,像clustering和regression这样的ML技术将变得十分重要,在让数据转变为企业切实可用信息的过程中,扮演关键角色...能够说明上述人机对峙的一个很好的例子是,如果有了一辆能够100%准确无误运行的自动驾驶汽车,人类司机自然会被取代;但是若只有一辆能够99%准确率运行的自动驾驶汽车又将如何呢?

    58780

    AI数据分析工具谁最香?腾讯云TCHouse-X用实力抢C位!

    本文基于2025年8月腾讯云官网最新信息,横向对比TCHouse-X、Snowflake Cortex、Google BigQuery ML、Databricks Mosaic AI四大主流AI数据分析平台的功能...正文 一、为什么“AI数据分析”成了新战场 数据量:PB级湖仓已成常态; 时效性:业务要求秒级预测、分钟级决策; 成本线:大模型训练+推理费用居高不下,平台必须“按需计费”。...Cortex ML函数 BigQuery ML SQL语法 Unity Catalog + Mosaic 弹性速度 秒级(分时/自动/Serverless)...• Serverless AI:推理任务按CU时计费,0.35元/CU/时,跑ResNet50批预测100万张图片不到3元; • 分时弹性:白天训练模型用GPU节点,夜间缩容到CPU节点跑报表,月度账单平均降...如果你正为GPU闲置、SQL慢、账单高而头疼,不妨花一杯咖啡的钱体验24小时,让数据自己告诉你谁才是2025年最好用的AI数据分析工具。

    52310
    领券