首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >数据科学革新NFL四分卫传球评分新模型

数据科学革新NFL四分卫传球评分新模型

原创
作者头像
用户11764306
发布2025-12-18 08:23:18
发布2025-12-18 08:23:18
1430
举报

引言:解决业务问题的数据科学

在某个机构的专业服务团队中,首席数据科学家埃琳娜·埃利希的工作涉及从时间序列建模、计算机视觉项目到自然语言处理问题等多个领域。她的任务是为媒体、能源和体育等多个行业的客户解决数据问题citation:2。

客户有时会带着特定的模型构想前来咨询,寻求构建或优化的建议。但更多时候,客户仅仅有一个需要解决的商业问题。埃利希会与他们合作,用数月到数年的时间开发一套解决方案,并由客户在日后自行维护。她很喜欢这种无需更换工作或团队,就能将数据科学应用于不同垂直领域的能力citation:2。

核心挑战:精准预测“重尾”时间序列中的异常值

埃利希与NFL的合作是将科学应用于商业挑战的一个范例。她和同事独立开发了一种用于模拟“重尾”时间序列的方法。这类数据序列中可能出现剧烈且不可预测的尖峰,例如,一年中的极端降雨事件,或某个产品突然爆红导致需求激增citation:2。

许多统计方法在处理更均匀的曲线时表现良好,但面对“重尾”时间序列的“噪声”时却容易失效。然而,准确描述这些“尾部”特征至关重要。以心电图为例,必须能够判断心率的峰值是疾病的信号,还是仅仅是运动开始的标志。当时的预测模型无法可靠地识别此类异常citation:2。

在几个月的时间里,埃利希与某机构的两位研究员共同开发了解决方案,并在2021年国际学习表征会议(ICLR)的RobustML研讨会上发表了成果citation:2。

技术方案:拼接分箱-帕累托分布方法

他们的解决方案名为“拼接分箱-帕累托分布”方法,该方法融合了两种统计技术:分箱分布和帕累托分布。帕累托分布源于意大利经济学家维尔弗雷多·帕累托的“二八法则”,即80%的结果来自20%的原因。这种幂律关系经过推广,形成了极值理论的第二定理,该定理指出,任何分布的尾部都可以用广义帕累托分布来很好地近似citation:2。

研究人员将此与分箱分布相结合,分箱分布可将较大数据集内的区域离散化。他们的方法有效地隔离并聚焦于时间序列中的尖峰,从而提升了对这些极端值的处理能力,并能随着时间的推移校准对它们的估计,最终实现了更准确的重尾预测citation:2。

实际应用:构建全新的NFL传球评分

这项工作恰好契合了NFL的一项需求。虽然存在多种四分卫评分体系,但联盟希望有一个能评估传球表现的指标。然而,一个有意义的传球评分必须超越传球码数、达阵数和被抄截数,要能反映在特定比赛情境下取得这些结果的难度,从而真正评估四分卫的表现citation:2。

由此诞生的NFL传球评分,正是基于埃利希的“拼接分箱-帕累托分布”方法开发的。该评分能够将四分卫的表现置于联盟整体预期表现的背景中进行评估citation:2。这是因为它能够估计“重尾”——在这里指的是四分卫传球中的那些特殊时刻——并为其在总评分中分配适当的权重citation:2。

NFL在今年早些时候,即超级碗之前,正式推出了新的传球评分citation:2。这个案例体现了数据科学与机器学习技术正被越来越多地应用于体育数据分析领域,以构建更精细、更具洞察力的球员表现评估模型citation:2citation:7。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言:解决业务问题的数据科学
  • 核心挑战:精准预测“重尾”时间序列中的异常值
  • 技术方案:拼接分箱-帕累托分布方法
  • 实际应用:构建全新的NFL传球评分
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档