作者:Harshit Tyagi 编译:ronghuaiyang
导读
构建端到端机器学习项目的任务检查清单。
Image for post
我正在创建一系列[有价值的项目](https://towardsdatascience.com/howto -build-an- effective-dat-scienceportfoli-56d19b885aa8),我想到了将我从别人那里学到的或在工作中开发的实践记录下来。在本博客中,我整理了在处理端到端ML项目时经常提到的任务清单。
为什么我需要一个清单?
因为在一个项目中,你需要处理许多元素(争吵、准备、问题、模型、调优等等),所以很容易失去对事情的了解。
这个清单可以引导你完成接下来的步骤,并促使你检查每一个任务是否执行成功。
有时,我们很难找到起点,清单可以帮助你从正确的来源引出正确的信息(数据),以便建立关系并揭示相关的见解。
最好的做法是让项目的每个部分都经历检查。
正如Atul Gawande在他的书“The Checklist Manifesto”中所说,
我们所知道的东西的数量和复杂性已经超出了我们个人正确、安全或可靠地利用其优点的能力。
所以,让我带你过一遍这个简单的清单,它将减少你的工作量,提高你的产出……
在几乎每个ML项目中,你都必须执行8-10个步骤。其中一些步骤可以顺序互换执行。
这是为了理解和阐明问题的业务逻辑。它会告诉你:
在大多数情况下,如果你有了数据,并且希望围绕数据定义问题以更好地使用传入的数据,那么可以在第一步之前执行此步骤。
根据问题的定义,需要确定数据源,可以是数据库、数据存储库、传感器等。对于要部署在生产环境中的应用,应该通过开发数据管道来实现这一步的自动化,以保持传入的数据流入系统。
在这一步中,你需要研究影响你的结果/预测/目标的所有特征。如果你有一个巨大的数据块,在此步骤中对其进行采样,以使分析更易于管理。步骤:
现在可以通过定义用于数据转换、清洗、特征选择/特征工程和缩放的函数来执行前一步的发现了。
创建一个非常基本的模型,作为所有其他复杂机器学习模型的基线。检查表的步骤:
这需要成为你接近最终解决方案的关键步骤之一。主要步骤应包括:
交流的过程是多方面的。你需要记住所有现有的和潜在的相关因素。因此,主要步骤包括:
如果你的项目需要在实时数据上测试部署,那么你应该创建一个跨所有平台(web、android、iOS)使用的web应用或REST API。主要步骤(视乎项目而定)包括:
注意:检查表可以根据项目的复杂程度进行调整
—END—
英文原文:https://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0