至善至美 茂林长青 数往知来 负衡据鼎
预告:今日开篇,持久续航!美林数据将每周推出1篇有关“泛在电力物联网”的原创推文,今日发布首篇《泛在电力物联网下的数据价值之道——数据引擎》,浅识拙见,不足之处,烦请指正。
作者|小猴子
“泛在电力物联网”第1篇:2500字 | 5 分钟阅读
数据引擎
阅读前,总览之:
数据引擎定义
主数据自动识别
数据标准自动识别
数据融合
数据目录
数据云图
数据分析
数据搜索
导读|
国家电网有限公司2019年“两会”提出建设“三型两网、世界一流”企业的战略目标,要打造全面感知、信息高效处理、应用便捷灵活的泛在电力物联网。建设泛在电力物联网,全面感知是基础,数据融通是驱动,需要进一步整合自身已有数据,挖掘潜在数据价值,将电网生产、管理、服务过程中的数据显性表达出来,把一切业务数据化。
一、数据引擎定义
数据引擎是用于存储、处理和保护数据的核心服务,利用数据引擎可控制访问权限并快速处理事务。围绕数据赋能,价值释放,数据引擎应包含主数据自动识别、数据标准自动识别、数据融合、数据云图、数据目录、数据搜索、数据分析等能力。
二、主数据自动识别
基于主数据识别现状,采用采用AHP层次分析构建主数据识别模型 ,分四个步骤:梳理数据实体类别、划分数据主题域、构建数据概念模型、制定识别评分模板。
梳理数据实体类别:从业务角度出发,在不同粒度和层次上系统地分析整个企业的业务流程和业务实体,作为主数据识别的对象;
划分数据主题域:通过参考 IBM 提出的IFW 模型并充分结合企业实际情况,整理并划分主数据的主题域;
构建数据概念模型:采用自底向上的概念模型设计模式,根据需求分析的结果对现实世界的数据进行抽象,设计各个局部视图,并集成局部实视图形成整体视图,设计全局概念模型;
制定识别评分模版:AHP层次分析是一种多目标、多维度的决策分析算法,该方法通过确定主数据的识别指标;利用综合加权法确定识别指标的权重;梳理业务实体,确定参评对象;构建主数据识别评分模版,识别主数据,四个步骤实现主数据的识别。
三、数据标准自动识别
数据标准治理:基于国网公司的数据标准治理现状,利用技术手段分2步实现数据标准治理,第一步通过数据概念模型、数据逻辑模型、数据物理模型,生成数据标准;第二步将数据标准与数据源系统、业务数据、融合数据进行数据校验,确定数据标准是否合理,针对不合理数据标准部分,进行业务校验,通过业务验证结果反向修正完善数据标准和数据模型,重新生成数据标准。
1、通过数据标准验证模型准确性,同时,通过概念模型、逻辑模型、物理模型的落地情况,对数据标准进行反验证。
2、通过源端数据、全业务领域数据以及融合数据的存储及关联情况,对数据标准进行校验。
3、通过业务验证,确保数据模型、逻辑模型、物理模型的准确性,同时,对数据标准进行反验证。
采用文本属性分析方法与图计算方法建立分类模型,其中利用文本属性分析法提取数据标准和系统数据中各个实体的属性,对于数值类属性,对其值进行比较,对于文本类属性,分析其语意上的相似度,综合判断数据实体之间的距离,达到标准与数据的验证;利用图计算方法分析图中实体间的结构与数据标准结构的差异,完成数据模型对业务数据的标准化的验证。
四、数据融合
数据级融合:基于业务节点或网架关系,利用知识图谱技术,自动发现数据关系,建立数据网络拓扑图,按业务节点或网架拓扑关系进行各节点数据融合。数据级融合基于知识图谱进行数据融合。知识图谱进行数据融合建模方法进行研究,建模过程分以下五个步骤:
第一步:实体抽取与合并
以实体为主要目标,实现对不同来源的数据进行映射与合并。
第二步:属性映射与归并
利用属性来表示不同数据源中针对实体的描述,形成对实体的全方位描述。
第三步:关系抽取
利用关系来描述各类抽象事物建模成实体的数据之间的关联关系,从而支持关联分析。
第四步:实体链接
通过实体链接技术,实现围绕实体的多种类型数据的关联存储。
第五步:动态事件描述
使用事件机制描述客观世界中动态发展,体现事件与实体间的关联,并利用时序描述事件的发展状况;
基于知识图谱进行数据融合方法,按照SG-CIM模型及数据关系映射构建各系统业务数据关系图谱,并建设数据融合模型进行各业务系统数据融合及融合结果校验。以营销、生产系统数据融合为例,第一步首先依据数据模型生成营销、生产拓扑图,第二步采用数据融合算法及差异感知实现两个系统间差异数据智能识别。第三步,使用图融合算法进行系统数据匹配融合。
特征级融合:采用通过K阶最近邻分类算法、特征压缩聚类法和神经网络等算法,对各源业务系统数据进行特征提取,然后把特征进行融合形成数据宽表,支撑跨专业数据应用。特征级融合先对数据做特征提取,再进行综合分析和处理。能够有效增强数据处理的实时性,融合结果中包含的特征数据对决策判断具有重要作用。
五、数据目录
企业数据目录维护公司拥有的所有数据的单个目录。这不仅可以包括生产数据,还包括备份、摘录、摘要。生产数据可以使用独特的签名进行“指纹识别”,以便过时的副本不会无意中进入关键任务应用程序。同样,副本和提取可以根据其预期用途进行标记。目录甚至可以通过确保标记有某些元标记的数据不会被覆盖来提高数据完整性。
六、数据云图
数据云图主要致力于对大数据的分析,从而进行资源的优化配置,实现数据价值的挖掘。利用知识图谱技术在数据目录的基础上,增加泛在数据之间的关系链接,且以可视化方法提供数据云图。
七、数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。提供自助式一体化分析工具,通过简单拖拽快速形成对数据的分析挖掘及可视化展现。
八、数据搜索
泛在电力物联网其数据具有海量、多样、异构、动态变化等特性。因此给人们要准确迅速的活的自己所需要的数据越来越难,尽管目前有各种搜索引擎,但是搜索引擎在数据的查全率考虑较多,而查准率不足,而且很难进一步挖掘深度数据。数据搜索需要建立搜索式的数据分析能力,即通过搜索引擎,把数据分析过程,变成寻找不同答案的过程,基于现有的数据认识,通过一系列假设、关联、验证,最终找到一个相对可靠的答案。
感谢大家阅读!希望有所收获!
*文章为作者原创,转载请后台留言申请。
总结——
当积累了足够多的业务数据,就能实现泛在电力物联网的另一个意义:数据业务化,即在数据中挖掘新的业务价值,产生新的业务模式。通过对泛在的各类能源、系统、环境,甚至生产过程数据的获取,提取出业务创新所需的信息。比如通过海量的数据积累和故障模式的学习,能够提前预测某个设备故障,实现预测性维护。当你的数据不够多,积累的故障模式不够全面,真正意义上基于人工智能的预测性维护是很难实现的。
下一篇好文预告:《综合能源中的几种演进形式》
领取专属 10元无门槛券
私享最新 技术干货