互联网每天都会产生海量的数据,而数据和数据之间又存在着错综复杂的关系,这种关系的复杂给企业管理增加了难度。利用图技术来解决数据之间复杂性的方式已经无处不在。腾讯在 QQ、微信、支付、游戏等场景积累了丰富多样的图数据,这些图数据蕴藏了巨大的价值。但是,腾讯又是如何将图技术应用到业务实践中?智能图平台技术本身又有哪些优势?为了进一步了解智能图平台在腾讯业务中的作用和价值,在2021年1月8-9日的QCon全球软件开发大会(北京站)前夕,InfoQ 有幸采访了腾讯图计算/图数据库开源协同 Owner & PMC、数据平台部智能图平台负责人李晓森,听他来分享智能图平台在腾讯业务中的创新与实践。
近年来,针对图数据的深度学习和图数据库技术逐渐在工业界得到重视。而腾讯在 QQ、微信、支付、游戏等场景积累了丰富多样的图数据,这些图数据蕴藏了巨大的价值。为了提升用户体验、增强风控安全、提升业务效果,此时便需要图神经网络、图数据库等图技术来解决各种复杂场景的图问题。为此,腾讯于 2018 年开始建设自己的智能图数据平台。据腾讯数据平台部智能图平台负责人李晓森介绍,该智能图数据平台涵盖了图数据库、图计算、图可视化、图算法等技术。
谈及建设该平台的初衷,李晓森介绍称,一方面源于内部业务需求的推动,如金融支付、安全风控、广告推荐、知识图谱、调度系统等业务场景,传统的单点分析方法越来越难以应对各个复杂业务场景,促使我们在图技术方向不断探索、实践和创新;另一方面,腾讯也意识到,在不久的将来,图技术对内部业务、外部各行业的价值越来越大,而智能图平台更是支撑图在许多场景落地的平台级能力。
然而,建设这样一个智能图平台并不是件容易事。腾讯有着丰富的业务场景,也积累了海量的图数据,而构建支持百亿级顶点、万亿级边的智能图平台,这个目标本身就是有挑战的。从海量图数据的存储、到毫秒级实时查询、再到超大规模图计算和秒级可视化分析,各个组件都充满了技术挑战。
为了应对这些挑战,在两年多的研发时间里,腾讯数据平台部在平台本身技术和应用体验上都做了很多调整。在图计算方面,研发团队从开源的 Spark Graphx 调整到了自研的 Angel-Graph;在图数据库方向,同样经历了从开源到自研 EasyGraph 的过程。从平台的易用性上,腾讯站在产品的角度设计上层的交互,降低用户的使用成本。
此外,腾讯在图技术领域也在不断深耕创新,如团队在 VLDB、SIGMOD、ICDE 等顶会上发表了 10 多篇论文,同时也积累了许多在图领域的专利。目前智能图平台已支持千亿级边的图计算和万亿级边的存储查询服务,满足内部许多业务的实际需求。目前,研发团队已经把图数据库、图计算、图可视化等能力进行融合,形成了现在的智能图平台。后续智能平台不仅服务于腾讯内部业务,也将在腾讯云上提供图数据库 EasyGraph 在内的整体解决方案,为更多业务赋能。
腾讯的业务涵盖了许多社交类的产品,这些产品和业务场景都与图有关。那么,智能图数据平台是否能达到“以图治图”的效果?又能否真正地满足实际业务需求?针对这一问题,李晓森表示:
在谈哪些场景适合“以图治图”之前,先解释下什么是“以图治图”,其实它的根本思想是用图技术或图的视角来解决图的问题。如最早运用这种思想的欧拉在解决“柯尼斯堡七桥问题”时,将不同区域建模成点、把桥建模成边,用图找到了答案,而且发展出了图论。“以图治图”需要站在理论技术的角度,也需要从业务应用的角度来定义和思考问题,可以把它看作一种图技术和图应用的综合理念,这种理念也是团队一直倡导的。
所以,首先在设计图计算、图数据库、图可视化等框架时,需要以图治图:
除了上述从图技术的角度,也需要从业务问题的角度看“以图治图”。图本身是人和人、人和物、物和物形成的各种复杂网络,需要对业务问题进行图的抽象。如用户和用户构成的社交网络、支付网络;用户和物品构成的电商、视频、音乐等网络,以及设备和账号等构成的拓扑网络;从这些角度看,腾讯内部的微信、QQ、支付、广告、安全、视频、游戏等业务场景都有明显的图结构,甚至在我们公司级的太极机器学习平台底层的调度系统中,任务之间的依赖也可以抽象成图;如此诸多的业务场景都需要“以图治图”来提升业务效果。而在满足业务需求方面,李晓森表示,研发团队在图数据库和图挖掘方面也都做了比较多的尝试。
首先,团队将图数据库应用到太极机器学习平台的统一调度系统中,调度系统相当于平台管家,负责数据的入库、计算、出库、数据挖掘、模型分析等;每天支持着 750w+的任务调度、300W+的 SQL 查询,搬迁数据 300P+。在调度系统大量的任务并非独立运行,任务之间往往存在依赖关系,只有前置任务执行结束,当前任务才可以运行。如天级任务 C 依赖小时级任务 A 和 B,只有当 A 和 B 24 个小时的实例都执行完成,才会触发 C 的执行。在采用图数据库之前,由于缺少对任务依赖的图抽象,采用 MySQL 存储任务关系,随着历史数据的积累,任务依赖判断要用到表的连接,只能通过 2min 的轮询方式来解决,导致整点时刻任务集中,波峰效应比较明显。后面通过将任务依赖关系建模成图并存储到图数据库中,利用事件触发机制和图数据库多阶查询的高性能,将任务调度延时由 2min 下降到 30ms 以下,性能提升 4000+倍。而图算法如图表示学习算法和图神经网络也在多个业务中落地,比如安全风控场景的安全预警的覆盖率提升 100%,异常检测的覆盖率提升 10%;而在风控分析方面,通过图可视化分析技术,将原来耗时 17min 的业务判断问题降低至 1s,大幅度提升业务研判效率。
图可以表达复杂的关系数据,在社交、社区、金融、安全等方面有优势。然而,尽管图技术能够解决这样那样的问题,但图的技术还没有呈现出明显的、爆发性的增长。针对其中原因,李晓森认为:
图技术虽然没有爆发性的增长,但我们已看到星星之火。前期大数据时代积累了多样的数据,数据间的联系也更加复杂,对数据的多阶关联分析逐渐成为趋势。Gartner在2019年将图技术作为十大数据和分析的趋势之一。 当前推动图技术发展和限制图技术的因素都有,制约因素简单说两个方面。在图计算方向,图的深度学习如图神经网络变得火热,但是对工业界超大规模的图网络却难以形成好的应用,一方面受限于算力,另一方面也受限于深度学习的训练难度;比如腾讯内部十亿级顶点、千亿级的边图,通常顶点维度难以超过万维,但GNN训练可支持的数据维度还是比较低的,主要原因是资源开销极大;目前学术界和工业界都已意识到这个问题,已有在研究对图训练时如何兼顾performance、scalability和训练精度。 另一个限制发展的因素是图数据库还没有标准查询语言,像关系型数据库的SQL已经成熟多年,关系型数据库大家都比较熟悉。这块图的标准查询语言还比较欠缺,不过近年已在制定GQL;而国家也在做图数据库系统技术的标准,我们团队和腾讯云也参与到标准的制定中。 总体而言,限制因素虽然存在,但图技术和图应用的前景是很明朗的,所以大家都在努力打破这些因素的限制,希望图技术破解关联数据的孤岛问题,挖掘图数据的价值,用图来加速世界的智能化。
未来,智能图平台的研发重点仍然是图的平台级能力,特别是其中图数据库、图计算、图可视化等基本能力。当前的研发重点一方面是完善图数据库的能力,将图计算框架与图数据库的深度融合,另一个研发重点是平台的建设和产品的易用性,目前相比许多开源图项目,内部用户反馈智能图平台十分易用,也大幅度提升了业务效率,但需要做的工作还有很多;需要持续关注产品的设计,降低用户使用成本。
李晓森认为,智能图平台未来将作为各领域“智能”的基础能力而发挥更大的价值。人们常讲 AI 的三个核心能力:Cognition(认知)、Decision(决策)、Generation(生成)。实现三个核心能力不仅需要语音识别、计算机视觉、自然语言处理这样的基础研究,也需要图数据库和图计算形成的图平台能力解决知识的查询、计算、推理、解释等问题,图给 AI 带来更进一步的智能,所以未来基本的 AI 能力应该是结合了“图”形成智能 AI。比如在数据平台领域,以前提及比较多的是数据中台,现在或未来智能数据中台受到更多关注,其实也是要把机器学习+AI+图的能力结合起来形成平台的大脑,使得平台的调度、计算、决策等场景更加智能化。以后是万物互连的世界,图数据会无处不在,图技术及其应用也将无处不在,可以预期未来更多的领域会用逐渐到图技术或图平台。
关于更多图技术,李老师将会在 2021 年 1 月 8-9 日的QCon全球软件开发大会(北京站)分享《以图治图:智能图平台在腾讯业务中的创新与实践》,详细介绍腾讯数据平台部团队如何应对图计算和图数据库的挑战,满足调度系统、微信支付、风控安全等业务场景对智能图平台的诉求。
除此之外,还有微服务、大前端、高可用、云原生等热门技术领域的大厂创新技术实践分享,助你正确技术选型。目前大会门票 9 折抢购中,限时立减 680 元,优惠截至 12 月 25 日,团购优惠更多哦!抓紧锁定优惠吧,查看大会最新日程。
大会客户经理:17310043226(同微信)
采访嘉宾
李晓森(hansenli),硕士毕业于北京大学,腾讯高级研究员,现任腾讯图计算/图数据库开源协同 Owner & PMC、数据平台部智能图平台负责人。专注于图在支付、安全风控、推荐、知识图谱等业务场景中的落地,和团队一起在 ICDE 等顶级会议上发表图计算工业实践论文。
领取专属 10元无门槛券
私享最新 技术干货