首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

互联网数据的发展

1基本内容

编辑

传统的数据分类问题假设数据样本是独立同分布的,主要是根据数据自身的属性,应用机器学习的方法,通过标注样本训练各种分类器对数据进行分类.而在因特网、生物网络、社会网络等网络中,数据样本之间是相互联系的.文中把用网络或者图描述的数据统称为网络数据.对网络数据进行分类,即网络数据分类,不仅要考虑各数据样本自身的属性,并且要考虑它们之间的相互关系,这与传统的数据分类有着很大的区别.因此,相较于传统数据分类,网络数据分类是一个重要且亟待解决的新问题.网络数据分类在不少领域有着广泛的应用.对网络数据进行准确的分类是一些网络研究的前提.[1]

网络数据随着以因特网为代表的信息技术的迅猛发展,人类社会大步迈入了网络时代。关于网络分析的需求日益增加,网络数据挖掘已成为数据挖掘中的一个重要研究课题。网络数据挖掘旨在从网络数据源中提取隐含的知识,完成实体分类、链接预测、社区发现、实体排序和网络聚类等任务,从而达到分析网络的性质、功能、动态变化和网络之间关系的目的。

2发展背景

编辑

高速以太网等计算机网络技术得到了广泛应用。通过以太网,各种设备之间的互联和数据交换变得简单、快捷、可靠,非常适合于解决设备间的兼容和互操作问题。以太网一个主要的特点是简单,在实践中,简单性带来了可靠、廉价、易于维护等特性,因此,以太网具有强大的生命力。

通过自定义数据帧,用户可以方便地扩展数据通信功能,或者加强数据通信控制,满足不同的业务需求。这为网络应用带来了极大的灵活性,但同时也带来了一些不便。由于网络上传输的数据多种多样,因此用户需要将接收到的网络数据进行分类,不同的业务应用使用不同的数据信息,这样才不会产生混淆,避免后续的数据处理出现错误。

随着计算机技术和网络技术的飞速发展,层出不穷的网络攻击所造成的危害越来越大,网络安全面临着严峻的挑战。如何在高速网络环境下及时、高效地处理大量的网络数据包和降低误报率是目前网络入侵检测系统面临的一个主要难题。对高速网络环境下的入侵检测系统模型进行了研究,提出了基于负载均衡机制的两阶段入侵检测模型—TSMBLB模型。基于该模型,提出了面向分层检测的攻击分类方法。由于入侵检测系统中所要处理的数据是海量的、非平衡的,因此,在TSMBLB模型的离线建模阶段采用了非平衡数据分类技术建立检测模型。

3数据分类

编辑

网络数据目前,高速以太网等计算机网络技术得到了广泛应用。通过以太网,各种设备之间的互联和数据交换变得简单、快捷、可靠,非常适合于解决设备间的兼容和互操作问题。以太网一个主要的特点是简单,在实践中,简单性带来了可靠、廉价、易于维护等特性,因此,以太网具有强大的生命力。以太网可以在同一总线上运行不同的传输协议,从而能够建立公共网络平台或基础架构。TCP/IP协议是最常见的网络互连协议,通常被定义为七层网络模型,用户可以根据实际需要,在应用层自定义数据帧格式。通过自定义数据帧,用户可以方便地扩展数据通信功能,或者加强数据通信控制,满足不同的业务需求。这为网络应用带来了极大的灵活性,但同时也带来了一些不便。由于网络上传输的数据多种多样,因此用户需要将接收到的网络数据进行分类,不同的业务应用使用不同的数据信息,这样才不会产生混淆,避免后续的数据处理出现错误。

4发展趋势

编辑

随着互联网的飞速发展和Web 2.0时代的来临,在线论坛、博客、社交网络、内容分享社区、微博客、维基等各种类型的社会化媒体(social media)不断涌现,网络社会化的趋势不断加强。传统Web网站的传播方式是单向的,大部分用户被动地接受少数权威或专家提供的内容。而在社会化媒体环境下,普通用户既是内容的消费者,又是内容的制造者,而且丰富的用户交互形成了一个社会网络。数据分类是数据挖掘的一个基本问题。传统的算法假设数据样本是独立同分布的,只根据数据自身的属性进行分类。而社会化媒体产生的海量、大尺度的数据是可以用图表示的网络数据[3]。网络数据分类不仅要考虑各数据样本自身的属性,还要考虑它们之间的相互关系。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200117A06XWW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券