首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习经典算法(七)模式识别——分类器

faceSchool

经典算法(七)

模式识别 - 分类器

7

分类问题是机器学习中最常见的,最有用的,最有创造性的问题之一。

分类的内容是判断邮件是否是垃圾邮件判断文本是否是政治,娱乐话题。

我们选择以一个比较实用的话题入手 —— 构建一个餐厅的评价系统。

python 分类

构建一个餐厅的评价系统

从主体预测情感

假设你现在身处西雅图。今天特别想吃寿司, 西雅图有很多地方可以吃寿司,而且它们的评分都达到了四星级以上。

这时需要考虑的不仅是餐厅总体的评分。而且考虑的是具体的食物的,餐厅的环境,等等

那么是如何构建一个智能的餐厅推荐系统呢?

首先要从评论开始:

每一条评论都是由多条语句组成的

一些语句还包括不同情感的评价

选择包含sushi 寿司的语句

将筛选后的句子输入一个情感分类器,然后判断其是一个正面评价还是负面评价

最后将每个语句的结果求平均值,并且还找出找出最正面或最负面的评价并展示

这就是推荐系统的架构

分类器的利用

将评价根据好评差评分为正类和负类

当然在也可以分成多类

最常见的分类器是线性分类器

他的工作原理如下

在已知的单词列表中,通过计算正面单词和负面单词的个数,比较两者的个数从而推断正面和负面的情感

这就是简单的阈值分类器

但是 1.正面和负面单词的列表从哪里获得?

2. 显而易见,词语的情感 程度是不同的

例如 Great 和 Good 那么该如何度量词语的 情感程度呢?

3.并且单独的单词有时是不够的,eg: Bad 和 Not Bad

这些在以后的学习中都要进行讨论

对于词语的情感,我们可以通过训练数据来确定每个单词的权重,如下

假设我们已知所有的单词的权值

那么如何利用权值来训练分类器呢?像下面的例子一样,结果为正可以断定句子为正类

如果我们得知每个单词的权值,那么这个分类器为线性分类器。

决策边界

分类器是用于作决策的,那么我们将如何拒测呢

假设有两个权值非零的词语

awesome 和 awful 其权重为 1.0 和 - 1.5

将其分别作为X , Y 轴

决策边界为如图所示的直线,将正类和负类分隔开,但在这条线上的点无法判断为正类或负类

同理,在当有三个非零权重时,则决策边界为平面。 当多个非零权重时为超平面 此时分类器有跟那个复杂的形状

训练和评估分类器

1.

就像在回归模型中一样我们将数据分类训练集合测试集

测试集是用来评估分类效果的

有两种方式来评价分类效果

那么什么是好的精度呢?

2.

优于随机猜测的结果

对于二元的结果,精度要大于0.5

k 类 , 精度=1/ k

在最差的情况, 分类器也要比随机猜测的结果要好,否则无意义

3.

混淆矩阵

将分类器的分类结果称为预测标签

将真是的结果称为真实标签

这里的关系就为混淆矩阵

以简单的二元分类为例举例:

我们可以从中了解到我们犯的各种错误 ,这是分类问题得一个重要部分

接下来,我们会进行分类实践,来完成推荐系统

to be the end

我思故我在

知识电量不足5%

请立即充电

People always say that it's too late. However, in fact, now is the best appropriate time. For a man who really wants to seek for something, every period of life is younger and timely.

一起分享学习的点滴

扫码加入机器学习小组(为保证学习群质量请先加管理员经验证后自动加群)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180802G08KDB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券