概述文本分类,顾名思义,就是将一篇文档归为已知类别中的一类或者几个类,为了实现自动分类的目标,通常有以下几个步骤:
给定一篇待分类的文档,若对其进行自动分类,通常需要把文档表达成机器可以处理的数据类型。目前常用的文本表达方式有向量空间模型(VSM),即把文档映射为一个特征向量
其中ti为文档分词后的词条项,w(ti)为相应词条项的权重。
我们的自动文本分类系统,为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本的所属类别。目前平台能识别类别囊括了软件、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,且系统算法支持快速迭代更新已有类别及增加新类别。
目前我们的自动分类系统框架如图1.1所示。系统主要分为三大块:系统输入层、系统算法封装层和输出层。其中系统的输入可包含四个部分:包含文本的url、主标题和副标题及正文部分,其中前三个输入串可选;系统的算法封装层,封装了对文本目标进行分类的分类器及算法模型的迭代更新;系统的输出为该文档所属的类别。
图1.1 自动分类系统框图
目前我们系统构建的类别体系主要基于网页内容分类体系,主要类别涵盖了旅游资讯、游戏、人物访谈介绍、体育、音乐、影视、软件、文学、健康、美食、财经、教育、广告推广、犯罪类别、自然灾害、政治等40多个类别。每个类别体系下对应一个与类别相关的词特征文件。词特征文件的生成及挖掘更新,文章后面会有提及。此类别体系,易扩展,增加新的类别时,若与旧体系类别无交叉,则直接添加该类别及生成一个对应的词特征文件,原有类别体系不变。若为旧体系类别中的子类别时,只需分拆原有体系中对应的大类类别,即对该大类类别词特征文件分拆即可,别的类别词特征文件不变。图2.0为系统类别体系的一个缩略的层级结构。
图2.0 类别体系层级结构
2.2.1 概述
从图1.1中可以看到,我们的分类系统输入支持四个维度的特征:
直观上来说,url网址中的某些模式和类别呈现很强的正相关性。比如url包含“video”字符串,那么该url对应的文档分为影视类的概率就很大。同理,文档的标题所属的类别往往决定文档的最终类别。下图2.1为分类器分类的主要流程。其中数据预处理主要包括数据去噪、去重等,各个分类器请参见下节。
图2.1 分类器分类主要流程
2.2.2 分类模型
目前流行的分类算法有决策树、基于规则的分类、朴素贝叶斯、支持向量机SVM、逻辑回归、神经网络等。我们的自动分类系统根据目前类别体系及应用场景,最终采用了朴素贝叶斯+规则相结合的方法。
2.2.3 特征选择
从分类流程可看出,系统支持对url和文本内容分别分类,最后通过类别投票打分方式确定最终的类别输出。从系统的输入数据来看,提取的特征主要包括:url域特征和文本词特征。Url域特征通过简单的串分割即可得到,文本词特征可利用分词软件进行切分。文档通过分词之后,会包含大量的词。而有些词,如“的”、“很好”等对类别不具有区别性。因此需要通过特征选择方法来选择一批类别相关的词特征。常用的特征选择方法有基尼系数、互信息、信息增益、卡方统计等。通过比较,最终系统卡方统计方法来进行特征选择。图2.2为系统采用的特征选择流程。流程输入为类别的正样本和负样本。通过文档分词之后,可通过简单的词的idf及词性对词进行过滤。然后对于最后保留的词计算词与类别的卡方值,通过设置一个合理卡方值阈值及词个数阈值,选取大于阈值的词作为该类的特征词。对于最后选出的特征词,通过tf*idf
及归一化后的卡方值来确定该词的权重。Url域特征文件生成方法亦类似。
图2.2 类别特征选择流程
2.2.4 类别在线预测与特征词的离线挖掘
通过上面特征选择方法之后,最终系统会为类别体系中的每个类别生成类别词特征文件。为了提高分类时的时间性能,系统会为特征文件生成trie-tree,这样能更快的匹配命中的特征,而无需对全文档进行分词。考虑到输入的正文的长度,在实际分类时,算法会对正文按一定长度进行切分分别分类,最后加权综合得到正文的分类类别。目前,针对输入的文档,系统提供4个预测器分别给出url、主标题、副标题、正文的分类类别结果。为了判别出输入文档的最终类别,算法采用加权各个分类结果,最后投票得出。公式如下式所示:
其中加权权重wi可通过ada-boost学习算法训练得到。系统最终输出的是文档分为系统所支持的各个类别的得分。
上述分类算法对文档进行分类后,得到带有类别标签的文档数据,这部分数据可作为类特征词更新补充离线挖掘流程的输入集。图2.3给出了类别在线预测与特征离线挖掘流程。
图2.3 在线预测与离线挖掘流程
图2.3可看出,离线挖掘流程复用在线预测的分类部分,得到挖掘流程的输入数据,通过离线挖掘,更新类别的词特征,进而反馈给输入端,用于改进下一次的分类模型,如此则形成预测、更新的闭环。
图2.3中的特征离线挖掘,系统主要采用以下两种方式完成:
方式一: 把经过分类后的文本数据,即带有类别标签的数据,经过图2.2所示的特征挖掘流程得到类增加的特征集。由于输入的数据为直接系统分类后的数据,非人工标注的样本数据,因此,为了增加挖掘的特征准确性和可用性,经算法挖掘后的特征需要经过人工进行标注,并与旧特征集排重合并,最终离线迭代更新类的特征集。
方式二: 选取大批量数据进行主题模型(topic model)聚类训练(如LDA/word2vec聚类),得到隐含主题及描述该主题的特征词文件。再把经过分类后的文本数据用训练得到的隐含主题进行表征描述,通过卡方检验方法选择与类别相关的top N个主题,合并这些主题下的特征文件,同样经过人工标注剔除噪声特征,并与旧特征集排重合并,最终离线迭代更新类的特征集。
图2.4类特征离线挖掘两种方式
方式一和上述讲到的特征选择方法类似。方式二则基于图2.5所示直观理解所实现,即一篇文档可由多个抽象主题进行表达,而每个主题可直接由词特征集来表示。比如说一个典型的交通事故类别文章,可能会命中很多汽车类别中的汽车类型名,如“宝马”、“大货车”,同时也可能命中犯罪类别中的经常出现的“伤亡”、“死亡”等特征词。语义层面上,把文档用主题进行表达,可用相关的主题模型算法得到。本系统使用开源工具word2vec把词按隐含主题进行聚类。在主题模型聚类过程中,需要指定训练语料的隐含主题数,鉴于当前的应用场景,设定主题数为5000。通过word2vec工具得到的词特征集,覆盖面全且语义相近,能很好解决类别词特征覆盖的长尾问题。
图2.5 文档、主题、特征集关系表示
系统最初为网页抽取或转码时对网页进行分类。经过不断的迭代更新,目前系统适应的场景更加广泛,如微博等社交消息的分类处理与应用、网络热门话题识别与应用等。图4.1为系统分类的效果图示例。
图4.1 文本分类效果图
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。