前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是 AI 模型,它怎么得来的

什么是 AI 模型,它怎么得来的

作者头像
春哥大魔王
发布2023-08-08 09:24:53
3600
发布2023-08-08 09:24:53
举报
文章被收录于专栏:服务端技术杂谈

简单了解 GPT 模型

简单了解机器学习的定义

假设设计一个基于机器学习的邮件过滤系统,这个系统要通过分析一系列事先已经被用户标注为有效邮件或垃圾邮件的记录,得到一个邮件的判别模型,这个模型可以分辨出新收到的邮件是否属于垃圾邮件。

机器学习中所说的模型训练,是指从真实世界的一系列历史经验中获得一个可以拟合真实世界的决策模型,这个过程通常会包括如下图所示的若干个步骤。

训练过程的第一步是处理如何从传感器中取得数据、怎样过滤噪声这些问题。

对整个训练过程而言,最终目的是获得一个高性能模型,用来拟合真实世界的结果。也就是说机器学习训练过程的产出物,就是所谓的“模型”。

模型就是一个可被计算的、有输出结果的方法或函数,这个函数可能是有科学含义的,也可能没有任何含义,可能用于决策,也可能用于预测。

学习训练得到的模型更加可能是一个人类所无法解释的黑盒,这样模型并不包含什么严谨的逻辑规律,只是单纯对真实世界的拟合模拟,计算机只要照着这个可被计算机运算的模型去执行,就能够把输入给模型的自然界的信息,通过模型映射得出该信息所隐含的某些特征,这些特征决定了输入数据是属于某个分类,或者对应于某个指标。

在机器学习这里,为了便于计算机处理,会使用一系列的向量来代表参与训练的每一个样本,在这个语境中,我们把这种有N个不同特征构成坐标轴的N维(有多少个特征就有多少个维度)空间称为“样本空间”(Instance Space)或者“特征空间”(Feature Space)。

相对应地,每一个样本被称为一个在该空间上的“特征向量”(Feature Vector)。

一旦把样本的表示形式从语言文字转化为数学中极为常见的向量之后,瞬间我们就拥有了大量的数学工具,如向量运算、矩阵等可以用来处理这些样本了,数学是沟通现实世界与计算机的最好桥梁。

电子邮件分类系统,是最典型的分类任务。分类任务通常是在样例数据上完成训练的学习任务类型。

如果仅仅是以一组样本来构造训练集,那这种机器学习一般会去做“聚类”(Clustering)方面的任务。

聚类是指机器通过训练集中获得的特征,自动把输入集合中的样本分为若干个分组(Cluster,簇,此处读者将其理解为“分组”即可),使得每个分组中存放具有相同或相近特征的样本。

聚类通常是为了发现数据的内在规律,将它们同类的数据放到一起,为进一步深入分析和处理建立基础。

比如购物网站的用户画像就是典型的聚类应用。

以样本数据作为训练集的机器学习过程称为“无监督学习”(Unsupervised Learning)。

邮件过滤系统的例子那样,以若干个样例来构成训练集,那机器学习的任务就通常会是“分类”(Classification)和“回归”(Regression)。

一般来说,既然都有标记信息了,肯定就没有必要再专门去做聚类了,因为标记所带的信息就可以作为聚类的直接依据。

“分类”和“回归”都是最典型的机器学习任务类型,总体而言,分类和回归都是根据样例训练集中得出的历史经验来推断新输入给模型的样本是否属于某一类,或者某种隐含特征的强度如何,使得机器可以代替人工,自动找出新输入数据的标签信息。

而分类和回归之间的主要差别是,回归做的是定量分析,输出的是连续变量的预测,而分类做的是定性分析,输出的是离散变量的预测。

分类的目的一般是用于寻找决策边界,用于做出决策支持,而回归的目标大多是希望找到与事实相符的最优化拟合,用于做事实模拟。这类以样例数据作为训练集的机器学习任务,被称为“监督学习”(Supervised Learning)。

无论训练集是由样本还是由样例构成,监督学习和非监督学习都是从历史经验之中学习,而强化学习并不主要依赖历史经验,而是一种基于环境对行为收益的评价来改进自身的模型。

强化学习的学习过程就好比是婴儿牙牙学语,婴儿出生时脑海中对人类语言是一无所知的,在语言学习过程中,婴儿最初是发出完全随机的声音,譬如,婴儿肚子饿时,他发出的声音又恰巧被大人们注意到,并且猜测到了他发声的意图是表达“我饿了”这个信息,然后给予喂食的话,下次婴儿再感到饥饿了也会继续发出类似的声音。

这个学习过程需要的不是“历史数据”,而是一位“裁判”或者“老师”,用来给行为进行打分评价,并对正确的行为给予激励,对错误的行为给予惩罚。

把衡量实际值y与模型输出值y’间差距大小的计算过程称作“损失函数”(Loss Function,有些资料中也称为“成本函数”或“代价函数”, CostFunction),计算y与y’差异大小的损失函数就记作“L(y, y')”或者直接用f(x)代替y',把损失函数记作“L((y, f(x))”。

损失函数这个知识点很重要,它既是机器学习中最基础的入门知识,又是整个统计机器学习的核心和精髓,现在机器学习的所有研究,很大一部分都是围绕着如何找到合适的损失函数、如何最优化损失函数来进行的。

其他的一些内容,譬如线性模型、决策树、支持向量机、贝叶斯分类器等各种学习算法,还有各种优化算法的细节等,一起支持你优化好、并得出一个好用的算法模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 春哥talk 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档