小编发现,很多人对结构化数据和非结构化数据的界限比较模糊,小编特意收集了一些资料,在这一篇进行总结。
在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。在数据分析行业,大致的统计是,世界上约80%的数据都是非结构化数据。
结构化数据
结构化数据可以使用关系型数据库来表示和存储,如MySQL、Oracle、SQL Server等,表现二维形式的数据。可以通过固有键值获取相应信息。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列能有效帮助我们进行查询和修改。
图1 结构化数据存储示例
举个栗子
半结构化数据
半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。
图2 半结构化数据存储示例
再举个栗子
非结构化数据
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。
国内对于非结构化数据的利用处在有概念、无工具的状态,然而,中国知网的KBase全文数据库管理系统解决了这一问题。
KBase是中国知网自主研发的全文数据库管理系统,以管理海量的文本、网页、档案、文献、办公文档等非结构化数据为主,具备中文智能信息处理能力的国产数据库管理系统。KBase作为中国国家知识基础设施(CNKI)的运营支撑平台,经过了20多年的实践检验,管理着目前全球最大的中文知识信息资源数据库,每天提供千万人次的信息检索服务,拥有以下几大亮点:
高效、准确的全文检索
KBase全文检索速度高达500G/S, 速度高达百万级文献量毫秒级响应。同时集成先进的全切分切词算法,很好地解决了歧义切分问题,使KBase与同类产品相比具有更高的查准率、查全率。
海量非结构化数据管理
KBase单表管理的记录数可达40亿,单表管理的数据容量可达TB级(分区表可达PB级)。
功能强大的关系数据库全文检索网关
KBase提供了对Oracle、DB2、SQL Server、Sybase、Informix等主流关系数据库管理系统(统称RDBMS)的全文检索网关,实现了RDMS和KBase 服务器之间的数据共享和实时同步,使用户在享有RDBMS卓越的数据处理功能的同时,拥有KBase优秀的全文检索功能。基于KBase 关系数据库全文检索网关,可以整合多种异构数据源,实现企业级信息资源的统一搜索。
大规模并发处理能力
KBase支持多服务器群集,可将多个独立的KBase服务器虚拟整合成一个整体,实现高效的分布式计算,大大提高系统的并发处理能力。
先进的中文智能信息处理能力
KBase拥有超过400万词汇量的、大百科式的概念关系词典,集成Smart TextMiner文本挖掘引擎和NLP自然语言处理引擎,可提供自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能。
易用的检索语言
KBase充分考虑用户使用习惯,提供类似SQL的查询语言—KSQL,设计更加人性化,带给客户更好的使用体验。
完整的应用开发接口
KBase针对有较高底层开发要求的用户提供完整的二次开发接口,包括C++开发接口、C#接口(支持ADO.Net标准)、Java接口(支持JDBC驱动)、PHP接口(支持PDO)、Python接口(支持DB API 2.0)等数据库访问接口。KBase同时支持Z39.50、OAI、OpenURL等访问接口。
支持多种编码
KBase提供对GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。
如果你还不知道怎么管理自己的结构化和非结构化资源,快联系我们吧,帮您挖掘被忽视的富矿!
想要了解更多
请关注中国知网
www.cnki.net
领取专属 10元无门槛券
私享最新 技术干货