前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >冠状病毒时代下的AI

冠状病毒时代下的AI

作者头像
磐创AI
发布于 2020-06-29 08:26:41
发布于 2020-06-29 08:26:41
3570
举报

磐创AI出品

来源 | towardsdatascience

编译 | Flin

作者 | Aparna Dhinakaran

【导读】当过去与现在不再相关时,我们如何预测未来?

极端环境的挑战

冠状病毒是2020年的“黑天鹅”。这种病毒首次出现,不仅是一个出人意料的极端异常事件,而且人类试图控制这种病毒的反应也在世界各地的医疗、商业、金融、零工经济、信贷、商业、自动交通和旅游等系统中掀起了巨大的波澜。

“黑天鹅”事件对机器学习(ML)模型提出了特殊的挑战。ML模型根据以前观察到的情况进行训练,以预测未来的情景。然而,今天这些模型看到的事件与它们曾经训练的对象有很大的不同。许多企业(特别是在信贷和金融领域)的组织中运行着100 -1000个实时生产模型,对影响未来业务结果的数据做出不正确的决策。未来几天或几个月可能出现问题的模型包括信贷、房屋定价、资产定价、需求预测、工厂的供求关系、广告定价等等。

建立一个模型来预测场景,而这个模型的训练数据从未在以往的训练数据中观察到,可以说建立这个模型是一件很困难的事情。

标准的模型训练过程向模型抛出尽可能多的数据,并将数据结构放入跨事件的通用数据中。一个真正的“黑天鹅”事件在其他事件之间没有足够的可学习的结构,需要让人们去填补数据和模型的空白。这该怎么办?

在这篇博客文章中,我们将首先通过进入系统的一些极端范围的数据点来量化这个“黑天鹅”事件。其次,我们将介绍一些最佳实践,通过对生产模型进行鲁棒性的监控、分析和故障排除来跟踪异常事件。

我们现在的环境有多极端

我们首先要问的问题是,当前的环境究竟有多极端?

毫无疑问,这是非常极端的。

今天,当你从天气、失业数据、交通模式、用户支出等方面查看进入生产模型的输入特征数据时,你会发现它与模型的训练数据有很大的不同。让我们对其进行量化。

首先,我们来看看本周刚刚发布的失业数据。328万申请失业救济的人数是第二高读数的4 - 5倍,是+25倍的sigma 事件。

任何使用失业数据作为输入并对这些数据做出决策的模型,都使用了超出期望值20个sigma的特征。这是一个每10万年才会发生一次的事件! 这只是极端事件范围的一个例子,这些极端事件正被输入到制定日常业务决策的模型中。

模型并不会完美地处理每一个意外的输入。记住这一点,重要的是要考虑整个系统对这些输入的弹性,以及在出现问题时进行故障排除的能力。最重要的是团队要有可观察的模型; 如果你不能观察,你就不能适应。这意味着要对模型决策进行检测分析

模型可观测性要求:

  • 异常值的事件应该能够被检测到并自动浮现
  • 异常值事件应该与分析联系起来,以便对模型响应进行故障排除

很明显,失业数据将严重脱离分布。

让我们看看关于汽车流量的数据。

纽约市星期三(3月18日)至星期二(3月24日)的交通量。交通量已经下降到日交通量的20%左右,从日交通量的1%到10%不等。

这一降幅远远超出了每日预期值,也只是模型预期值的一小部分

根据测量,迈阿密的客流量下降幅度没有纽约那么大。看来迈阿密人对隔离的态度不像纽约人那么强硬。在这种情况下,使用交通量作为输入特性的ML模型对城市进行特定的预测,它的输入变量会根据城市的不同而变化。

模型可观测性要求:

  • 监控输入数据的分布变化
  • 模型输入的鲁棒拼接和滤波能力

本周,我们已经看到人工智能对因冠状病毒产生的事件没有准备。天气预报的预测一直不准确,我们也看到银行在考虑人工智能模型可能无法应对市场低迷的情况。

在这些极端时期建立有弹性的模型

对于面临这些快速变化的企业来说,目前在生产中使用的AI/ML模型是根据与当今情况截然不同的数据进行训练的。

当一个企业的模型之前没有看到这些观察结果时,该怎么办?换言之,当过去与现在不再相关时,我们如何预测未来?

随着COVID-19继续影响许多人类生产的系统,利用AI/ML的企业将不得不在其生产环境中建立弹性模型。随着模型性能的波动,企业需要对生产模型进行实时监控,以了解模型输入是如何变化的,以及模型的不足之处。

输入的数据必须输出

这一切都是从数据进入用于生成预测的模型开始的。

如果罕见事件和其他极端事件之间有相似之处,可以使用多种方法将预测组合在一起,以创建基准期并启用分析。如果一个罕见的事件在输入数据结构中与训练集中的任何其他数据组都没有关系,则仍然需要监控它对模型的影响。

以COVID-19为例,这些情景不仅仅是一次性的异常情况,而是在世界各地不同城市发生的数以百万计的快速发展趋势,所有这些趋势都有不同的时间线和反应。展开场景的规模需要许多不同的分析和检查,跨越许多不同的预测子组。

这里有一些输入级监视器,一个AI/ML模型在生产中应该有:

  • 输入检查以确定特性的值和分布是否与正常基准周期有显著不同
  • 检查单个事件或少量最近事件以检测分布出错问题
  • 检测你的模型最敏感的特征是否发生了巨大的变化
  • 用于确定特征与训练集之间差距的统计信息

模型如何响应?

一旦知道模型的输入发生了变化,接下来要监视的是模型如何响应极端输入。

  • 检查预测的特定子类的模型性能。能源、航空业或旅游业等某些行业可能存在重大风险。你需要对不同的预测组进行快速的在线检查
  • 使用以前的时段生成最坏情况和基本情况的场景,然后与结果进行比较
  • 根据你收到的每一个新的真实事件(真实世界的预测反馈)实时监控预测
  • 如果由于时间延迟而无法获得真实世界的反馈,请使用代理度量——可以预测和测量的东西来确定模型性能

极端环境下生产ML模型的最佳实践

在Arize AI,我们每天都在考虑生产环境中的ML可观测性和弹性。我们的目标是在这个不确定的时期向你们的团队传授我们的一些经验。生产ML模型的最佳实践离生产软件的最佳实践不远——构建可观察性工具以了解模型或软件在影响客户之前捕获问题时发生的情况。

从我们在许多公司部署AI/ML模型的背景来看,我们正在这些极端环境中共享一些用于生产ML模型的最佳实践。

  1. 跟踪并识别异常事件

这包括跟踪输入数据和异常事件上的模型性能。在为未来的极端环境收集训练数据时,对这些事件进行注释并能够过滤离群事件会有所帮助。同样重要的是,要考虑是否要在数据中包含离群事件,以用于未来的模型训练。该模型将积极应对未来的极端情况,但它也可能认为极端情况是新常态。

  1. 决定一个模型备份计划

在过去,当你的模型没有什么可以学习的时候,它会做什么?了解你的模型在过去的极端环境中是如何执行的,可以帮助你了解你的模型现在是如何执行的。如果你的模型表现不佳,你能否基于最后N分钟或N天来建立朴素预测,并将你的模型性能与此朴素模型进行比较?

  1. 找到类似的事件

你是否对过去的类似事件有足够的可观察性来为当前的情况建立相似的模型?例如,如果你的模型将失业数据作为输入,那么你可能能够利用类似经济衰退中的失业数据,比如2008年的经济衰退。

  1. 建立一个多样化的模型组合并比较模型性能

与批量预测相比,对外部世界做出反应的实时模型在今天可能表现得更好。拥有一个多样化的模型组合,使团队能够比较从模型性能和路由流量到对极端环境有更好反应的模型。

  1. 当模型性能无法改善时,了解模型预测的不确定性。

有时,可能没有一个好的模型。在这些情况下,你知道你的模型有多不确定吗?在这种情况下,考虑Bayesian方法,在该方法中,你将返回模型的预测及其置信水平。

注意安全并监控你的模型!

参考文献:

https://www.aljazeera.com/news/2020/03/weather-predictions-affected-coronavirus-outbreak-200326104501955.html

https://www.americanbanker.com/opinion/ai-models-could-struggle-to-handle-the-market-downturn

原文链接:https://towardsdatascience.com/ai-in-the-time-of-corona-c6d3193fada8

- End -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
《AI和ML在药物警戒中的作用》专辑介绍
2022年5月,国际药物警戒学会官方期刊Drug Safety推出《AI和ML在药物警戒中的作用》专辑,全面介绍了该领域的最新进展和实践。
智药邦
2022/11/16
1.4K0
《AI和ML在药物警戒中的作用》专辑介绍
事件驱动思维杂谈
上周翻了一下《黑天鹅》,书中定义了黑天鹅事件的三个特征:稀有性、极大的冲击性和事后可预测性。其中第3点“事后可预测性”特征,作者鲜明的提出对立观点,认为黑天鹅这种不确定性危机很难用规律性的理论预防,而是需要增强适应性能力,从不确定性中获得收益。这个观点中,有两点值得我们关注:大家习惯对事件进行分析,并总结规律,这是惯性思维;不确定性事件无法预测,需要适应他。前者指的事后反向推演是人的习惯,一种容易让大家接受新事物的方式,善用好事件产生的机会,可以更好的落地工作要求;后者提出应对不确定性危机事件的有效方案是适应他,即危中有机,危后出机。
彭华盛
2022/11/16
7410
Marcos Lopez de Prado:金融机器学习的10大应用
Marcos Lopez de Prado,想必国内的读者这几年应该熟悉一些了吧!
量化投资与机器学习微信公众号
2020/10/27
1.2K0
Marcos Lopez de Prado:金融机器学习的10大应用
做成大事的秘诀:慢思考、快行动
本文节选自《怎样做成大事》 作者: [丹] 傅以斌 / [美] 丹·加德纳 出版社: 浙江科学技术出版社 出品方: 湛庐文化 原作名: How Big Things Get Done 译者: 贾拥民 出版年: 2024-4-1
小腾资讯君
2024/10/28
2100
用Python机器学习模型预测世界杯结果靠谱吗?附代码数据集
看到kaggle、medium上有不少人用球队的历史数据来进行建模预测,比如用到泊松分布、决策树、逻辑回归等算法,很大程度上能反映强者恒强的现象,比如巴西、英格兰等大概率能进8强,就像高考模拟考试成绩越好,大概率高考也会考得好。
派大星的数据屋
2022/12/20
1K0
用Python机器学习模型预测世界杯结果靠谱吗?附代码数据集
每个程序员都应该知道的 40 个算法(四)
大规模算法旨在解决庞大的复杂问题。大规模算法的特征是由于其数据规模和处理要求的缘故,需要多个执行引擎。本章首先讨论了什么类型的算法最适合并行运行。然后,讨论了与并行化算法相关的问题。接下来,介绍了计算统一设备架构(CUDA)架构,并讨论了如何使用单个图形处理单元(GPU)或一组 GPU 来加速算法。还讨论了需要对算法进行哪些更改才能有效利用 GPU 的性能。最后,本章讨论了集群计算,并讨论了 Apache Spark 如何创建弹性分布式数据集(RDDs)以创建标准算法的极快并行实现。
ApacheCN_飞龙
2024/05/24
1260
每个程序员都应该知道的 40 个算法(四)
2025年的可观测性:OpenTelemetry和AI填补空白
生成式AI技术的快速成熟、OpenTelemetry的更广泛使用以及削减成本的压力将塑造来年可观测性领域的发展。
云云众生s
2025/01/01
2530
一个为制造业而生的AI助手,普通员工向它提问就能做数据分析
产业链、供应链周期变短,不确定因素增加。数字化转型呼之欲出,AI落地的需求越来越明显。
量子位
2020/03/31
4880
一个为制造业而生的AI助手,普通员工向它提问就能做数据分析
AI日志分析如何塑造可观测性的未来
随着人工智能的发展,它将在日志管理方面释放更大的潜力,使其成为数字时代可观察性和系统弹性的关键工具。
云云众生s
2024/11/26
6170
活动回顾|敏捷应对不确定性 2022 Thoughtworks技术雷达峰会精彩上演
毋庸置疑,我们处在一个极度变化莫测的时代,环境、技术等加剧了不确定性。脆弱可以催生一种应激性反应,也可以是一种成长,让我们反脆弱。正如塔勒布在《黑天鹅》所言:“我们一直认为波动性、随机性、不确定性是一桩坏事,于是想方设法要去消除它们,但这些想消除它们的举动,让我们更容易遭到黑天鹅的攻击。”在技术引领的数字经济环境下,我们需要重新审视能够敏捷应对不确定性的各种技术,比如区块链、机器学习、云宇宙等。只有这样我们才能摆脱流程上的脆弱,踏上更加敏捷的成长历程。2022年6月18日,2022 Thoughtworks
ThoughtWorks
2022/06/24
4960
活动回顾|敏捷应对不确定性 2022 Thoughtworks技术雷达峰会精彩上演
综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略
这篇文章是关于如何使用人工智能构建鲁棒的反滥用保护系统系列文章中的第四篇,也是最后一篇。第一篇文章解释了为何 AI 是构建鲁棒的保护系统的关键,这种保护用来满足用户期望和日益提升的复杂攻击。在介绍完构建和启动一个基于 AI 的防御系统的自然过程之后,第二篇博文涵盖了与训练分类器相关的挑战。第三篇文章探讨了在生产中使用分类器来阻止攻击的主要困难。
机器之心
2018/07/26
5710
综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略
有赞效能数据赋能实践
2020年全球最大的黑天鹅事件——“新冠病毒”的爆发,对线下集中办公工模式产生了巨大的挑战。
有赞coder
2020/08/24
1.3K0
有赞效能数据赋能实践
可观测性建设路线图
可观测性在任何现代软件开发和生产环境中都是至关重要的。它使团队能够更好地识别改进领域,使他们能够就开发流程做出明智的决策。遥测作为可观测性的关键部分,指的是数据收集的连续性。这些数据使组织能够描绘出整个系统健康的全貌,并在管理其应用程序时实现更高水平的可观测性和响应能力。
FunTester
2024/07/30
2100
可观测性建设路线图
RPA是外包的”冠状病毒”?
疫情还在肆虐,在如何保护自己时, 我们有时会听到一些有些奇怪,但是很有新意的说法,譬如“和病毒共存”,我们以前也偶尔听说“和癌细胞共生”,在某种状态下,人类和我们的“敌人”—病毒甚至癌细胞, 在无法彻底消灭对方的情况下,学会共生共存是一种智慧一种谋略—额外的好处是,敌人让你变得更加强大,我在想,RPA 流程机器人是不是企业BPO的“冠状病毒”?RPA和BPO如何共存共生同发展?
RPA小葵
2020/06/02
8250
RPA是外包的”冠状病毒”?
数据分析中最常犯14个错误,该如何破?
在数据采集的时候,如果不能获取到总体的数据,那就要采集到可以代表总体的样本,抽样就显得尤其重要,如果样本不具有代表性,那么得出的结论一定是有失偏颇的。
张俊红
2021/01/18
1.9K0
数据分析中最常犯14个错误,该如何破?
利用数据可视化和相关历史背景分析在COVID-19影响下美国股市暴跌
如果你不知道过去两个月美国股市的下跌,那么你要么是个象牙塔里的大学生,要么是个既没有任何投资又没有要还一辈子的助学贷款的低级工人。不管怎样,不管你是否有没有在股票市场投入了大量家底,你都应该知道过去几周发生了什么。无论你在这场危机中是幸运还是不幸,你都目睹了一场黑天鹅事件。
deephub
2020/05/09
4700
利用数据可视化和相关历史背景分析在COVID-19影响下美国股市暴跌
人工智能驱动的服务模型加速故障排除
基于 AI 的服务建模可以更快地进行根本原因分析,持续优化和持续合规,从而更快地解决问题。
云云众生s
2024/08/08
1450
未来20年:Splunk会议展示新的AI和边缘解决方案
在本周于拉斯维加斯举行的.conf23活动中,Splunk在其安全性和可观测性解决方案组合中推出了一系列新的AI驱动的工具。
计算机视觉研究院
2023/08/24
4010
未来20年:Splunk会议展示新的AI和边缘解决方案
【AAAI 2020】RiskOracle: 一种时空细粒度交通事故预测方法
【前言】城市计算领域中,智能交通、智慧出行一直是一备受关注的话题,而交通事故在交通中扮演越来越着重要的角色,据WHO统计,已逐渐成为人类第8大杀手。传统的基础交通动态元素流量、速度预测等不能完全等同于事故预测,因为事故分布更为零星,影响它的因素也更为复杂,包括天气、人为因素、路网显著的动态变化,区域之间的动态关联等,且存在数据量不足的问题。本文提出一种更为短期的交通事故预测框架,提出了多任务差分时变图卷积网络(Multi-task Differential Time-varying Graph convolution Network, Multi-task DTGN),旨在提升交通出行安全,推进数据赋能交通发展,并通过设计一更为专有化的神经网络,推动人工智能社区的进步,为城市计算、时空数据挖掘中的相似问题(如流感预测、犯罪侦测预测等)提供新的思路。
微风、掠过
2020/02/13
1.2K0
什么是 AIOps?初学者指南
用于 IT 运营的人工智能(或简称 AIOps)仍然是开发人员、SRE 和 DevOps 专业人士的热门话题。鉴于当今跨混合和多云环境的可观测性工作的广泛性,AIOps 的案例尤其重要。与大多数可观测性平台一样,这一切都始于您的遥测数据:指标、日志、跟踪和事件。
点火三周
2022/09/16
4K0
什么是 AIOps?初学者指南
推荐阅读
相关推荐
《AI和ML在药物警戒中的作用》专辑介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档