首页
学习
活动
专区
圈层
工具
发布

GCP 上的人工智能实用指南:第一、二部分

无需显式解析即可翻译 HTML 内容的独特功能使提供网页翻译以及创建多语言站点和应用变得容易。...BigQuery ML 具有内置功能,我们可以直接在任何数据集中训练模型。 我们可以预测输出变量和转换概率。 BigQuery 提供了一个 SQL 接口来训练和评估机器学习模型。...评估模型 在BigQuery中,可以使用ml.evaluate()函数评估任何模型。 它将给出该模型的结果。 在下面的代码块中是BigQuery代码和模型评估结果。...关键是,业务分析师还可以使用 BigQuery 提供的简单 SQL 接口执行模型训练和部署。 测试模型 在 BigQuery 中,ml.predict()函数用于使用模型预测结果。...训练数据被随机分为训练数据集和评估数据集。 通常,训练数据和评估数据之间分别有 80-20 的比例。 基于所选算法对模型进行训练,然后将其用于基于评估数据集评估准确率。

20.2K10

GEE数据集:美国国家结构清单(NSI)用于评估和分析自然灾害的点式结构清单

简介 国家结构清单 国家结构清单(NSI)是一个数据库系统,其中包含不同质量和空间覆盖范围的结构清单。 NSI 数据库的目的是促进存储和共享用于评估和分析自然灾害的点式结构清单。...创建美国陆军工程兵部队基础数据层是为了简化美国陆军工程兵部队建模制图和后果中心的 GIS 预处理工作流程,但该数据已在美国陆军工程兵部队、联邦紧急事务管理局和其他机构的各种应用中得到使用。...数据集说明 空间信息 国家结构清单(NSI)涉及管理和分析结构的几个关键过程:结构定位和聚合: 最初,结构位置是基于源数据(如地块中心点或企业地址)确定的。...NSI 生成器通过将建筑物与同一地块内的建筑物脚印对齐来完善这些位置。 原地块外的商业建筑将根据距离和使用代码的相似性进行重新定位。 在所有占地面积匹配之前,将建筑物放置在未匹配的占地面积内。...商业建筑只有在具有相同的占用类型和相似的特征(如层数和建筑材料)时才会被合并。 人口分布: NSI-2022 利用 2010 年街区信息和 2020 年县数据估算出 2020 年的人口水平。

27410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    案例:Spark基于用户的协同过滤算法

    那么A和B就属于同一类用户。可以将A看过的图书w也推荐给用户B。 Spark MLlib的ALS spark.ml目前支持基于模型的协作过滤,其中用户和产品由可用于预测缺失条目的一小组潜在因素来描述。...显式与隐式反馈 基于矩阵分解的协作过滤的标准方法将用户条目矩阵中的条目视为用户对该项目的显式偏好,例如,用户给电影的评级。...冷启动策略 使用ALSModel进行预测时,测试数据集中的用户和/或项目在训练模型期间不存在是很常见的。...这通常发生在两种情况下: 在生产中,对于没有评级历史记录且未进行模型训练的新用户或物品(这是“冷启动问题”)。 在交叉验证过程中,数据分为训练集和评估集。...当Spark中的使用简单随机拆分为CrossValidator或者TrainValidationSplit,它实际上是非常普遍遇到的评估集不是在训练集中的用户和/或项目。

    2.6K60

    谷歌BigQuery ML VS StreamingPro MLSQL

    利用MLSQL,你可以用类似SQL的方式完成数据的ETL,算法训练,模型部署等一整套ML Pipline。MLSQL融合了数据平台和算法平台,可以让你在一个平台上把这些事情都搞定。...语法功能使用 BigQuery ML 训练一个算法的方式为: CREATE OR REPLACE MODEL flights.arrdelay OPTIONS (model_type='linear_reg...具体参看这里MLSQL自定义算法 部署 BigQuery ML 和MLSQL都支持直接在SQL里使用其预测功能。MLSQL还支持将模型部署成API服务。...因为每个算法自身无法分布式运行,所以MLSQL允许你并行运行这两个算法。 总结 BigQuery ML只是Google BigQuery服务的一部分。所以其实和其对比还有失偏颇。...MLSQL还提供了大量使用的“数据处理模型”和SQL函数,这些无论对于训练还是预测都有非常大的帮助,可以使得数据预处理逻辑在训练和预测时得到复用,基本无需额外开发,实现端到端的部署,减少企业成本。

    1.8K30

    1年将超过15PB数据迁移到谷歌BigQuery,PayPal的经验有哪些可借鉴之处?

    BigQuery 使我们能够中心化我们的数据平台,而不会牺牲 SQL 访问、Spark 集成和高级 ML 训练等能力。...我们对 BigQuery 进行了为期 12 周的评估,以涵盖不同类型的用例。它在我们设定的成功标准下表现良好。下面提供了评估结果的摘要。 我们将在单独的文章中介绍评估过程、成功标准和结果。...除了代码转换之外,我们还从 CompilerWorks 的工具中提取了有价值的血统(lineage)数据。我们创建了一个自动化框架以及一个用于交互式使用和自助代码转换的门户。...数据类型:虽然 Teradata 和兼容的 BigQuery 数据类型之间的映射很简单,但我们还要设法处理很多隐式行为。...这包括行计数、分区计数、列聚合和抽样检查。 BigQuery 的细微差别:BigQuery 对单个查询可以触及的分区数量的限制,意味着我们需要根据分区拆分数据加载语句,并在我们接近限制时调整拆分。

    6.4K20

    Python的10个“秘籍”,这些技术专家全都告诉你了

    最后,他分享了大唐集团项目中数据分析是如何进行实际应用的。...首先是为了降低成本,只需要会SQL的数据分析师,不需要数据科学家,其次是简单高效,Analytics 360 (& Firebase) 结构化数据就在BigQuery里,不需要数据导入,能快速建模、评估和应用...随后,他讲述了BigQuery ML的应用架构和具体工作流程,使用BigQuery ML首先需要获取原始数据,之后做数据清洗和特征工程、模型训练和调优、模型部署和应用,结果以表的形式进行保存。...最后秦续业从阿里巴巴的Mars项目出发介绍了并行和分布式执行Numpy的实例。...在他看来,通过PyTorch使用GPU对模型进行训练是非常方便的。

    84620

    使用Tensorflow和公共数据集构建预测和应用问题标签的GitHub应用程序

    用于存储在BigQuery上的GH-Archive数据的示例查询语法 要注意不仅仅是问题数据 - 可以检索几乎任何发生的事情的数据在GitHub上!...无论标题如何,在其正文中具有相同内容的问题。通过仅考虑前75%的字符以及在问题正文中持续75%的字符来删除进一步的重复。 使用此链接查看用于对问题进行分类和重复数据删除问题的SQL查询。...通过收集用户的明确反馈来缓解这个问题,这能够非常快速地重新训练模型和调试问题。将在后面的部分讨论显式反馈机制。 做出预测 以下是示例的模型预测。此笔记本中提供完整代码。...将收到的适当数据和反馈记录到数据库中,以便进行模型再训练。 实现这一目标的一个好方法是使用像Flask这样的框架和像SQLAlchemy这样的数据库接口。...此截图来自此问题 如上所述,通过要求用户对prediction或react对预测作出反应来请求显式反馈。将这些反应存储在一个数据库中,这样就可以重新训练和调试模型。

    4K10

    32页ppt干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    谷歌机器学习:实际应用技巧 什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。...例如:学习率,正则化常数等 默认值只是让它们得到平均的性能; 为了得到最好的ML模型,需要调优超参数 过程:设置值,训练模型, 评估,(基于评估)细化值 方法:Grid;算法辅助超参数调优(贝叶斯等)...数据库? 云?需要存储特征和标记吗?还是在训练时再提取特征和标记? 怎样训练?在云上训练?还是离线?数据变化的频率如何? 怎样使模型可用于预测?使用框架工具?还是从头开始编写pipeline?...Datalab 模型开发设计教程 适用于多种不同类型的数据,与谷歌云平台产品整合 预训练的模型 如果你的模型属于以下几种,可以考虑使用预训练模型,按照使用次数收费。...Mxnet 支持分布式训练和基于 ZMQ 的分布式KV存储,这正是我想要的。乍看之下它也像 Neon 一样可以直接使用。

    2.4K100

    干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。 ML 的类型:监督学习;无监督学习;半监督学习;…… 监督学习:用于训练的输入数据有标记。 分类(学习决策边界)。...例如:学习率,正则化常数等 默认值只是让它们得到平均的性能; 为了得到最好的ML模型,需要调优超参数 过程:设置值,训练模型, 评估,(基于评估)细化值 方法:Grid;算法辅助超参数调优(贝叶斯等)...数据库? 云?需要存储特征和标记吗?还是在训练时再提取特征和标记? 怎样训练?在云上训练?还是离线?数据变化的频率如何? 怎样使模型可用于预测?使用框架工具?还是从头开始编写pipeline?...Datalab 模型开发设计教程 适用于多种不同类型的数据,与谷歌云平台产品整合 预训练的模型 如果你的模型属于以下几种,可以考虑使用预训练模型,按照使用次数收费。...Mxnet 支持分布式训练和基于 ZMQ 的分布式KV存储,这正是我想要的。乍看之下它也像 Neon 一样可以直接使用。

    3.5K50

    在 ASP.NET Core 中使用 AI 驱动的授权策略限制站点访问

    遥测数据还持久存档在 Azure Blob 存储中,以便进一步分析。这是 Azure 机器学习工作室作为数据源使用的“冷路径存储”,用于训练数据模型和检测未经授权的入侵。...简单地说,这些模型无需显式编程就可以自学,例如通过手动检查。...Azure 机器学习工作室 Azure 机器学习工作室提供了一个可视化编辑器,用于从数据集开始构建 ML 试验,然后执行模型训练、评分和评估。接下来我们按顺序操作。图 5 显示了完整的 ML 流。...导入数据后,需要使用“拆分数据”模块将其分离为训练集和测试集。可以选择不同的拆分模式,具体取决于你拥有的数据类型以及你所需的拆分方式。...在此解决方案中,我选择了“拆分行”选项,将数据分成两个随机部分,80% 的数据分配给训练数据集,其余数据用于测试。然后 ML 流对数据集执行训练。

    2.5K20

    MLlib中的随机森林和提升方法

    在这篇文章中,我们将描述这些模型和它们在MLlib中的分布式实现。我们还展示了一些简单的例子,并提供了一些我们该如何开始学习的建议。...在这里,我们使用均值来将结合不同的预测值(但具体的算法设计时,需要根据预测任务的特点来使用不同的技术)。 分布式集成学习 在MLlib中,随机森林和GBT(梯度提升树)通过实例(行)来对数据进行划分。...我们不使用显式复制数据,而是使用TreePoint结构来保存内存信息,该结构存储每个子样本中每个实例的副本数量。...使用MLlib集成 我们演示如何使用MLlib来学习集成模型。以下Scala示例展示了如何读取数据集、将数据拆分为训练集和测试集、学习模型、打印模型和测试其精度。...扩展训练数据集大小:训练时间和测试错误 接下来的两张图片显示了使用更大的训练数据集时的效果。在有更多的数据时,这两种方法都需要更长时间的训练,但取得了更好的测试结果。

    1.6K100

    Spark机器学习实战 (十二) - 推荐系统实战

    implicitPrefs指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的变量(默认为false,这意味着使用显式反馈)。...冷启动策略在使用ALS模型进行预测时,通常会遇到测试数据集中的用户和/或项目,这些用户和/或项目在训练模型期间不存在。...这通常发生在两种情况中:在生产中,对于没有评级历史且未对模型进行过训练的新用户或项目(这是“冷启动问题”)。在交叉验证期间,数据在训练和评估集之间分割。...当使用Spark的CrossValidator或TrainValidationSplit中的简单随机分割时,实际上很常见的是在评估集中遇到不在训练集中的用户和/或项目默认情况下,当模型中不存在用户和/或项目因子时...然后,我们训练一个ALS模型,默认情况下,该模型假设评级是显式的(implicitPrefs为false)。 我们通过测量评级预测的均方根误差来评估推荐模型。

    4K40

    谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

    Natalia 回顾了可用于对大量数据进行机器学习模型训练的框架,解释了特征工程和算法选择,并提供了有关如何避免错误的 tips。这是一份非常实用的机器学习指导手册。...什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。 ML 的类型:监督学习;无监督学习;半监督学习;…… ? 监督学习:用于训练的输入数据有标记。...例如:学习率,正则化常数等 默认值只是让它们得到平均的性能; 为了得到最好的ML模型,需要调优超参数 过程:设置值,训练模型, 评估,(基于评估)细化值 方法:Grid;算法辅助超参数调优(贝叶斯等)...选择工具/框架前需要考虑的事 训练数据存储在哪里?数据库? 云?需要存储特征和标记吗?还是在训练时再提取特征和标记? 怎样训练?在云上训练?还是离线?数据变化的频率如何? 怎样使模型可用于预测?...Mxnet 支持分布式训练和基于 ZMQ 的分布式KV存储,这正是我想要的。乍看之下它也像 Neon 一样可以直接使用。

    1.4K100

    Thoughtworks第26期技术雷达——平台象限

    Google BigQuery ML 自从雷达上次收录了 Google BigQuery ML 之后,通过连接到 TensorFlow 和 Vertex AI 作为后台,BigQuery ML 添加了如深度神经网络以及...我们还可以将 BigQuery ML 模型作为 Tensorflow SavedModel 导出到 Cloud Storage,并将它们用于在线预测。...但仍有一些需要权衡的事情,例如是否需要降低"机器学习持续交付"的难易程度以使其低门槛好上手,BigQuery ML 仍然是一个有吸引力的选择,特别是当数据已经存储在 BigQuery 中的时候。...我们团队正在使用 Dataflow 来创建用于集成、准备和分析大数据集的数据处理流水线,在这之上使用 Apache Beam 的统一编程模型来方便管理。...VerneMQ VerneMQ 是一个开源、高性能的分布式 MQTT 消息服务器。在之前的技术雷达中我们评估过一些 MQTT 消息服务器,比如 Mosquitto 和 EMQ 。

    3.3K50

    Spark机器学习实战 (十二) - 推荐系统实战

    implicitPrefs 指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的变量(默认为false,这意味着使用显式反馈)。...冷启动策略 在使用ALS模型进行预测时,通常会遇到测试数据集中的用户和/或项目,这些用户和/或项目在训练模型期间不存在。...这通常发生在两种情况中: 在生产中,对于没有评级历史且未对模型进行过训练的新用户或项目(这是“冷启动问题”)。 在交叉验证期间,数据在训练和评估集之间分割。...当使用Spark的CrossValidator或TrainValidationSplit中的简单随机分割时,实际上很常见的是在评估集中遇到不在训练集中的用户和/或项目 默认情况下,当模型中不存在用户和...然后,我们训练一个ALS模型,默认情况下,该模型假设评级是显式的(implicitPrefs为false)。 我们通过测量评级预测的均方根误差来评估推荐模型。

    2.3K30

    如何使用Python和开放数据构建爱丁堡Beergardens的交互式地图

    因此将关于主席许可的开放数据集与一些地理编码相结合,并创建了一个在爱丁堡外部座位的交互式地图。 背景和项目描述 在过去的几年里,英国政府一直致力于开放数据,爱丁堡市议会也不例外。...快速浏览数据可以发现数据中有一些重复数据。它们主要是由于具有不同开始和结束日期的多个许可。一个好的清理方法是过滤日期,但坦率地说现在不在乎这么多,所以只保留前提名称和地址并删除重复项。...有不同的API,允许查询地址并返回纬度和经度(一个称为地理编码的过程。可能是使用谷歌地图API,但它带有警告.OpenStreetMap API提供相同的功能,但是免费使用的。...然后,使用Open Street Map API根据地址获取场所的类型和GPS位置。...在根据房屋名称进行一些额外的数据清理之后,将房屋分为“咖啡店”,“酒吧/餐厅”和“其他”三类,并将它们绘制在交互式地图上,以HTML格式保存并随后转换到png格式。

    2.3K20

    使用ML.NET模型生成器来完成图片性别识别

    机器学习应用程序利用数据中的模式来进行预测,而不需要进行显式编程。 ML.NET 的核心是机器学习模型 。 该模型指定将输入数据转换为预测所需的步骤。...了解ML.NET模型生成器 ML.NET 模型生成器是一个直观的图形化 Visual Studio 扩展,用于生成、训练和部署自定义机器学习模型。...一般500M数据需要训练大概半小时以上(具体还需视机器性能而定): ? 6.评估 训练结束后,我们就可以开始评估了。评估是衡量模型品质的过程。...从上面的测试结果可以看出,准确性基本上取决于数据样本的数量和质量! 7.添加代码 完成评估阶段后,模型生成器可以输出一份模型文件和代码,我们可以使用该代码将模型添加到应用程序。...ML.NET 模型保存为 zip 文件。 用于加载和使用模型的代码会以新项目的形式添加到解决方案中。 模型生成器还会添加一个示例控制台应用,可以运行该应用来查看工作状态下的模型。

    1.9K11

    【干货】TensorFlow协同过滤推荐实战

    向用户推荐巧克力是一个协同过滤问题 如何利用TensorFlow建立个性化推荐协同过滤模型 在本文中,我将通过如何使用TensorFlow’s Estimator API 来构建用于产品推荐的WALS协同过滤模型...你可能需要使用不同的查询将数据提取到类似于此表的内容中: ? 这是进行协同过滤所需的原始数据集。很明显,你将使用什么样的visitorID、contentID和ratings将取决于你的问题。...显然,这两个文件包含相同的数据,但是有必要拆分数据集,以便能够并行处理它们。...更有趣的是我们如何使用经过训练的estimator进行批处理预测。...原始解决方案还解释了如何进行编排和筛选。现在,我们有了一个BigQuery查询、一个BEAM/DataFlow pipeline和一个潜在的AppEngine应用程序(参见下面)。

    3.5K110

    使用重采样评估Python中机器学习算法的性能

    在这篇文章中,您将了解如何使用Python和scikit-learn中的重采样方法来评估机器学习算法的准确性。 让我们开始吧。...我们必须对不用于训练算法的数据评估我们的机器学习算法。 评估是一个估计,我们可以用来谈论我们认为算法实际上可能在实践中做得如何。这不是表演的保证。...重复的随机测试列车拆分。 我们将从最简单的方法开始,称为训练和测试集。 1.分割成训练和测试集 我们可以使用最简单的方法来评估机器学习算法的性能,即使用不同的训练和测试数据集。...拆分的大小取决于数据集的大小和细节,尽管通常使用67%的数据用于训练,其余的33%用于测试。 这种算法评估技术是非常快的。...运行交叉验证后,您将得到k个不同的表现分数,您可以使用平均值和标准差进行总结。 结果是给出测试数据的新数据的算法性能的更可靠的估计。这是更准确的,因为算法是在不同的数据上进行多次训练和评估。

    3.8K121
    领券