◆分类
识别图像中人脸的性别是男还是女
◆聚类
发掘喜欢类型的女朋友
◆回归
预测一下股市价格
◆分类的类别是离散的,回归的输出是连续的
◆实例
◆ 自然语言处理,数据挖掘,生物信息识别(如人脸识别) , 计算机视觉等
◆应用领域十分广泛
如DNA测序,证券分析
◆国家战略
多次出现在政府工作报告中
◆人才缺乏
◆监督学习
◆无监督学习 (也有介于两者的半监督学习)
◆强化学习
◆ 学习一个模型,使模型能够对任意给定的输入作出相应的预测
学习的数据形式是(X,Y)组合
◆学习一个模型,使用的数据是没有被标记过的,自己默默地在学习隐含的特征,寻找模型与规律
输入数据形式只有X.例如聚类
◆在没有指示的情况下,算法自己评估预测结果的好坏
从而使得计算机在没有学习过的问题上,依然具有很好的泛化能力
◆本质思想
使用现有的数据,训练出一个模型
然后再用这样一个模型去拟合其他的数据,给位置的数据做出预测
◆人类学习的过程
老师教数学题 ,学生举一反三 ,考试成绩是学习效果的检验
◆在数学上找到衡量预测结果与实际结果之间偏差的一个函数
◆通过反复(迭代)地训练模型,学习特征,使偏差极小化(注意不是最小化)
◆衡量预测偏差的函数称为:损失函数( loss function )
◆机器学习是一个求解最优化问题的过程
◆过拟合:模型训练过度,假设过于严格
◆欠拟合: 模型有待继续训练,拟合能力不强
◆Python
◆C++
◆Scala
◆ 统计学习
Spark(ml/mllib) scikit-learn Mahout
◆ 技术栈统一
便于整合Spark四个模块
◆ 机器学习模型的训练是迭代过程,基于内存的计算效率更高
◆ 天然的分布式:弥补单机算力不足,具备弹性扩容的能力
◆原型即产品
Spark 可直接适用在生产环境
◆支持主流深度学习框架运行
◆ 自带矩阵计算和机器学习库,算法全面
◆充分考虑生产环境与业务场景
◆尽量选择文档更详尽,资料更完备,社区更活跃的开源项目
◆考虑研发团队情况,力求技术栈精简统一,避免冗杂
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。