基于域名的恶意网站检测
0x00. 数据来源
0x01. 基于网页内容的判别方法
0x02. 基于域名数据的判别方法
0x03. 参考文献
0x00....去掉重复的请求以及一些不指向具体网页的域名, 这类域名在请求中频繁出现, 包括网易的DNS检测域名xx.netease.com, 艾瑞数据在视频等网站中记录用户行为使用的域名xx.irs01.com,...根据之前项目得到一个赌博/色情网站的常用关键词列表。...模型训练
采用k折训练方法, 因为训练样本太少, k折验证可以提升小训练集在神经网络中的表达能力
计算模型结果
根据上一步的模型训练结果对爬取到的网页数据进行判断, 并将分类结果写入结果文件...的出现次数统计, 可以看出赌博色情网站比正常网站的分隔符略多
第三个是对特殊字符的出现频率检测, 在这一项上两者没有表现出特别大的区别
第四个是数字占域名总长度比例的统计, 对正常域名来说,