问数据科学模型与培训-理解
EN

Stack Overflow用户

提问于 2018-01-10 14:36:27

回答 3查看 238关注 0票数 0

来自编写代码、测试、部署、运行的编程背景。我试图用数据科学中的“训练模型”或“受过训练的模型”的概念来思考，并部署这个经过训练的模型。

我并不真正关心部署环境，自动化等等。我在努力了解部署部队..。受过训练的模特。一个经过训练的模型在文件系统上是什么样子的，它包含什么？

我理解训练模型和将一组数据分成训练集和测试集的概念，但是让我说我有一个笔记本(python / jupyter)，我加载了一些数据，在训练/测试数据之间进行分割，并运行一个算法来“训练”我的模型。我的引擎盖下面有什么可交付的？当我训练一个模型的时候，我会想会有一定数量的数据存储在内存中。那么，这是如何成为训练模式的一部分的呢？显然，它不能包含用于培训的所有数据；因此，例如，如果我正在培训一个聊天机器人代理(基于检索)，在我添加/输入用户问题或“意图”的示例之后，作为培训的一部分，实际发生了什么?我的部署到经过训练的模型的范围是什么？这个经过训练的模型是否包含来自训练或术语数组的某种数据的总和，它能得到多大(可部署的大小)？

虽然这个问题看起来相对简单“什么是受过训练的模型”，但我该如何用简单的术语来解释这个问题呢？这是一个“对数据科学感兴趣的IT人员，试图在与数据科学人员的讨论中理解受过训练的模型的有形单元”。

谢谢

python

machine-learning

artificial-intelligence

jupyter-notebook

data-science

回答 3

Stack Overflow用户

发布于 2019-01-13 22:28:38

经过训练的模型将包含其参数的值。如果您只调优了几个参数，那么只有它们将包含新的调整值。不变的参数将存储默认值。

票数 1

Stack Overflow用户

发布于 2018-01-10 15:39:33

这取决于模型。例如，线性回归，训练将给你的系数的斜率和截距(一般)。这些是“模型参数”。传统上，当部署这些系数时，会将这些系数输入到不同的算法(字面上是y=mx+b)中，然后当询问“y应该是什么，当我有x时”时，它会用适当的值进行响应。

另一方面，“参数”是向量，预测算法计算出与给定给算法的向量之间的距离，然后返回最接近的聚类--通常情况下这些聚类都是经过后处理的，所以预测算法会说“鞋子”而不是"1,2,3,5"，这也是这些东西在野外发生变化的一个例子。

深入学习返回图、各种参数系统(如最大似然估计)的边权列表，返回描述特定分布的系数，例如均匀分布是桶数，高斯/正态分布是均值和方差，其他更复杂的系统具有更多的倾斜概率和条件概率。

票数 0

Stack Overflow用户

发布于 2018-06-20 02:48:28

一个经过训练的模型(泡菜)或你想要使用的任何东西，都包含它至少已经被训练过的特性。例如，以一个简单的基于距离的模型为例，您设计一个基于以下事实的模型：(x1、x2、x3、x4)特性非常重要，如果与模型有任何接触，则应返回得出洞见或结论的计算距离。同样，对于聊天机器人来说，你可以根据ner进行训练，任何你想要的功能。一旦文本与模型接触，就会根据模型提取特征，并得出见解/结论。希望能帮上忙!！我试着解释费曼的方式。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48197227

复制

【数据科学】数据科学家与数据科学

数据分析

仅仅在几年前，数据科学家还不是一个正式确定的职业，然而一眨眼的工夫，这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源 "数据科学"（DataScience）起初叫"datalogy "。最初在1966年由Peter Naur提出，用来代替"计算机科学"（丹麦人，2005年图灵奖得主，丹麦的计算机学会的正式名称就叫Danish Society of Datalogy，他是这个学会的第一任主席。Algol 60是许多后来的程序设计语言，包括今天那些必不可少的软件工程工具的原型。

陆勤_数据人网

2018/02/26

1.1K0