数据工程是信息系统的基础工程。数据工程围绕数据的生命周期及管理要求,研究数据从采集清洗到应用服务的全过程,为信息系统运行提供可靠的数据基础,为信息系统之间的数据共享提供安全、高效的保障,为信息系统实现互连、互通、互操作提供支撑。组织的数据工程相关能力是其建设数据要素的关键,是组织数据资源化、数据标准化、数据资产化、数据价值化的重要手段。
有效且高质量的数据获取是组织数据要索建设的重要活动,关系到组织数据的质量基础、容量规模、价值化开发等。广泛多元的数据采集以及必要的预处理,是支撑和保障数据获取的主要活动。
数据采集又称数据收集,是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化数据、半结构化数据、非结构化数据。结构化数据是以关系型数据库表管理的数据;半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail等;非结构化数据是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML.各类报表、图像和音频/视频信息等。
数据采集的方法可分为传感器采集、系统日志采集、网络采集和其他数据采集等。传感器采集是通过传感器感知相应的信息,并将这些信息按一定规律变换成电信号或其他所需的信息输出,从而获取相关数据,是目前应用非常广泛的一种采集方式。数据采集传感器包括重力感应传感器、加速度传感器、光敏传感器、热敏传感器、声敏传感器、气敏传感器、流体传感器、放射线敏感传感器、味敏传感器等。
系统日志采集是通过平台系统读取、收集日志文件变化。系统日志记录系统中硬件、软件和系统运行情况及问题的信息。系统日志一般为流式数据,数据量非常庞大,常用的采集工具有Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog、syslog-ng等。
网络采集是指通过互联网公开采集接口或者网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式,是实现互联网数据或特定网络采集的主要方式。数据采集接口一般通过应用程序接口(API)的方式进行采集。网络爬虫(Web Crawler/Web Spider)是根据一定的规则来提取所需要信息的程序。根据系统结构和实现技术,网络爬虫可分为通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(FocusedWeb Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)等类型。
除此之外,还有一些其他的数据采集方式,如通过与数据服务商合作,使用特定数据采集方式获取数据。
整理不易动动你发财的小手点个“在看”哦!
您的支持是我坚持的动力,谢谢
领取专属 10元无门槛券
私享最新 技术干货