首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kobai发布“土星”强化知识图谱力量

Kobai推出一款新产品Saturn(土星),旨在将知识图谱的力量应用于已经存储在数据湖仓(Lakehouse)的数据。通过在Snowflake和Databricks的Lakehouse上创建一个语义层,客户可以对这些数据运行SPARQL查询,这为他们提供了一种强大的新方法来收集见解,但避免了全面的图形数据库项目的复杂性。

Lakehouse是一种新的数据管理范式,从根本上简化了企业数据基础架构,有助于机器学习(ML)应用的加速创新。它是数据湖和数据仓库的结合。数据仓库和数据湖各自都存在着很多不足,而Lakehouse的出现综合了两者的优势,弥补了它们的不足。

Kobai由两名前通用电气软件工程师RyanOattes和Parag Goradia于五年前创立。这两人努力帮助通用电气的工业客户建立数据系统,以便能够长期时间内跟踪和查询事物的状态,例如飞机上的所有零件。

Kobai的首席技术官Oattes说:“设计、制造和服务超过25年的零件的寿命,你需要10名专家来解决真正棘手的问题。有这么多人需要围绕‘我们如何构建数据?’和‘我们想对它做什么分析?’进行合作。当你把它交给开发人员,那就更难了。”

基于RDF的知识图谱——具有围绕主题、对象和行为构建的三重存储——是组织这类信息的理想方式。但是,Oattes和Goradia没有从数据库级别开始构建,而是选择从另一端开始:用户界面。他们的第一个产品KobaiStudio以最终用户为中心。

Oattes称:“在我们的项目中,我们不会开始谈论数据。我们首先从业务用户和专家开始,他们会说‘让我们谈谈你的前五个或十个问题。你需要了解的业务是什么?’”。“最早的员工之一是用户体验设计师。用户将如何与之互动?我们如何让它像两三个人在白板周围协作一样变得可行?”

Kobai大多数工作都利用了由OpenLink软件开发的开源图形数据库Virtuoso(尽管任何带有SPARQL端点的东西都可以工作)。虽然Virtuoso为许多Kobai客户提供了很好的服务,但它基于Postgres,因此可扩展性有限。事实证明,对于Kobai的大客户来说,这是一个破坏交易的因素。

因此,在2021年底,Kobai的人们开始开发土星。土星的目标本质上是建立一个知识图谱,利用Databricks和Snowflake在其数据湖仓产品中已经开发的规模。

土星基本上是Kobai Studio和Snowflake或Databricks的底层湖屋之间的虚拟化层。该层采用Kobai Studio生成的SPARQL查询,并将其转换为Snowflake和Databricks所期望的SQL代码。然后,土星将查询结果返回给Kobai Studio用户,在那里它以可视化仪表板或以其他方式使用。

Oattes说:“我们有一些关于如何构建关系模式并在Databricks或Snowflake中长期维护它的知识产权,这些知识产权适用于在它上运行的性能图查询。”“因此,我们正在将数据吸收到由Kobai组织的Databricks或Snowflake中的一个架构中。这是Databricks或Snowflake内的土星架构,然后,当对其运行查询时,将通过顶部的Kobai服务来运行它们。”

Kobai采用Snowflake和Databricks有几个原因。最明显的是,这两家湖仓提供商正在吸引大量的数据。成千上万的客户将他们的数据存放在这两个数据湖仓中,并在那里投入资源来管理他们的数据。通过在数据湖仓上实现知识图谱服务层,Kobai可以最大限度利用现有的客户投资。

“我们正在编写针对Databricks案例中的Photon优化的查询,”Oattes说,并补充说他们对Snowflake也做了同样的操作。“它适应了这些环境。因此,客户在Databricks和Snowflake的投资,我们可以充分利用。”

数据湖仓还为Kobai客户提供了更低的拥有成本,以及工作负载隔离。如果用户启动了一个密集的图形查询,该查询触及Snowflake或Databricks查询的同一条数据,那么Kobai用户就不必担心这些工作负载冲突时会导致的性能问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230329A00XWC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券