
走向未来
我们正处在一个由生成式人工智能(Generative AI)和大语言模型(LLM)驱动的技术变革时代。这场变革正以前所未有的深度和广度渗透到各个行业,尤其是在知识密集型领域,其影响尤为深远。知识工程(Knowledge Engineering, KE),作为一门致力于以机器可读方式捕获、表示和维护人类知识的学科,正站在这次变革的风口浪尖。知识图谱(Knowledge Graphs, KGs)作为结构化知识的核心载体,长久以来一直是构建智能系统的基石。如今,LLM的崛起不仅为知识工程带来了前所未有的机遇,也引入了全新的复杂性。
LLM与知识工程的融合,催生了一种新的实践范式——“知识提示”(Knowledge Prompting)。这指的是知识工程师利用精心设计的提示(Prompts),引导LLM从其庞大的非结构化信息中提取、生成和推理出结构化的知识,用于知识图谱的构建和维护。这种新范式预示着知识工程的效率将得到极大提升,但同时也伴随着一系列严峻的挑战。知识的准确性如何保证?生成结果如何评估?工程师的技能需求发生了怎样的变化?以及,我们如何确保整个过程是负责任且合乎伦理的?
本文基于英国伦敦国王学院、德国耶拿大学、西班牙马德里理工大学等多个研究机构的最新论文、W3C的《PROV-O: The PROV Ontology》等多个成果,(这些参考资料可以从“走向未来”【https://t.zsxq.com/xpWzq】知识星球中获取),深入剖析生成式AI/大模型与知识工程结合所带来的变革,系统地探讨从业者在使用生成式AI时所面临的核心挑战,分析他们为适应新技术所必须具备的新技能,审视现有评估方法的局限性并探索新的评估范式,最后,本文将讨论伦敦国王学院提出的旨在增强透明度和可信度的实践框架——“知识图谱卡片”(KG Cards)。通过这次深入的探索,期望为知识工程师、AI研究人员以及技术决策者提供一幅清晰的路线图,以更好地驾驭这场由生成式AI引领的知识工程革命。
为了理解生成式AI带来的冲击,我们首先需要审视知识工程的现有格局及其与AI技术的复杂互动。传统的知识图谱生命周期是一个涉及多方协作、兼具手动与自动流程的复杂过程。根据领域内的共识,知识图谱的生命周期通常包含四个核心阶段:

在这个生命周期中,知识工程师、机器学习专家、领域专家、数据工程师乃至众包工作者等多种角色相互协作,共同确保知识图谱的质量和效用。LLM的出现,正以前所未有的方式颠覆上述的每一个环节。它不仅仅是作为现有NLP工具的升级版,更是一种能够执行端到端知识密集型任务的新兴力量。
LLM与知识图谱之间形成了一种共生关系:一方面,LLM极大地增强了知识图谱的构建和维护能力。例如,它可以直接根据用户故事生成能力问题,甚至初步的本体设计;能够从非结构化文本中高效地抽取出高质量的三元组;还可以用于知识补全,预测知识图谱中缺失的链接。另一方面,知识图谱也为LLM提供了重要的支持。高质量的知识图谱可以用于训练、增强(如通过RAG为LLM提供实时、准确的外部知识以减少“幻觉”)和评估LLM。
这种新兴的共生关系是知名学者王文广的灯塔书《知识增强大模型》中反复强调的核心思想。作为一名在AI芯片、大模型训练与产业应用领域拥有丰富实践经验的高级工程师,王文广将这种结合系统性地总结为“图模互补应用范式”。灯塔书的第八章详细阐述了知识图谱如何为大模型带来确定性、可追溯性和强大的逻辑推理能力,而大模型则赋予了知识图谱无与伦比的自然语言交互和知识抽取能力。这一理论框架不仅深化了我们对二者关系的理解,更为从业者提供了一套清晰的、可落地的实践指南,指导如何在实际项目中发挥“1+1>2”的协同效应。
这种深度融合催生了“知识提示”这一核心实践。知识工程师的角色正在从传统的“建模者”和“集成者”,转变为与AI协作的“引导者”和“验证者”。他们需要设计出能够精确引导LLM思维链、激发其内部知识并以结构化格式输出的提示。这不仅是一项技术挑战,更是一门艺术。
尽管前景广阔,但在实践中,知识工程师们普遍反映,将生成式AI融入日常工作流程充满了挑战。这些挑战集中在数据、提示和评估三个方面,核心都指向了如何驾驭LLM内在的不确定性。
在任何数据驱动的任务中,获取高质量的数据集都是首要任务。在知识工程任务中,数据集既是构建知识图谱的原材料,也是评估模型性能的基准(Ground Truth)。然而,参与研究的工程师们发现,为特定的、前沿的知识工程任务(如利用LLM进行本体对齐或推理)寻找合适的、带有标注的公开数据集极为困难。这种数据稀缺性不仅拖慢了项目进度,也使得模型的验证变得棘手。
有趣的是,挑战中也蕴含着机遇。一些工程师指出,LLM本身或许就是解决数据集问题的答案。他们认为LLM在从非结构化文本中提取概念、关系甚至约束方面表现出巨大潜力,理论上可以用来快速“合成”或“创建”任务所需的初始数据集。然而,这又引出了一个循环问题:如何验证由LLM生成的数据集的质量?这凸显了在生成时代,数据获取与数据验证之间相互交织的复杂关系。
提示(Prompting)是与LLM交互的核心。然而,参与者们普遍认为,设计高效的提示是一项极具挑战性的工作。这主要体现在以下几个方面:
对于这一挑战,工程师们的看法出现了分歧。一些人认为,随着经验的积累和社区“提示模板”的出现,这一问题可以得到缓解。而另一些人则认为,这暴露了LLM作为工程工具的根本缺陷,其内在的不可控性使其难以在严肃的生产环境中被完全信任。
在所有挑战中,评估(Evaluation)被认为是最大、最根本的障碍。传统的知识工程任务有相对明确的评估指标,如本体的逻辑一致性、知识抽取的精确率和召回率等。然而,当引入LLM后,评估变得异常复杂。
总而言之,知识工程师们发现,与LLM的互动不仅仅是技术问题,更是一个关于如何管理不确定性、建立信任和量化价值的深刻挑战。
评估的困境迫使我们必须重新思考,在生成式AI辅助的知识工程中,“成功”到底意味着什么。研究中的知识工程师们不仅指出了现有评估方法的不足,还提出了一些富有启发性的新方向。工程师们普遍认为,现有评估技术不足以应对LLM带来的挑战,主要原因在于:
面对这些局限,工程师们提出了多种创新的评估思路,这些思路超越了单纯的准确性度量,更加关注实用性、健壮性和人机协作效率。

这些新颖的观点标志着知识工程评估理念的一次重要转变:从单一、静态的准确性度量,走向一个更多元、动态、以人为中心的综合评估框架。
生成式AI的融入,正在深刻地重塑知识工程师的技能需求。未来的知识工程师不再仅仅是知识的建筑师,更需要成为驾驭强大AI工具的指挥家。研究揭示了在新时代下,哪些技能依然重要,哪些技能亟待培养。
尽管技术日新月异,一些基础技能的重要性反而更加凸显:
与此同时,一系列与生成式AI直接相关的新技能正成为知识工程师的新标配:
研究也清晰地揭示了当前知识工程师群体中存在的技能鸿沟。许多传统的语义网(Semantic Web)专家缺乏系统的NLP背景,这使得他们在理解和应用高级提示技术时感到吃力。反之,许多具备强大NLP和机器学习背景的工程师,又可能缺乏对本体论和知识表示形式化方法的深入理解。未来的知识工程教育和培训,必须致力于弥合这一鸿沟,培养兼具两种技能的复合型人才。为了弥合这一差距并始终站在技术前沿,持续学习和社群交流变得不可或缺。强烈建议加入最具价值知识星球“走向未来” (https://t.zsxq.com/xpWzq),一起探讨生成式人工智能、大模型、AIGC、AI芯片和机器人等的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型和智能体来为工作增效,为生活添彩。立即加入“走向未来”知识星球,一起走向AGI的未来。
当强大的生成式AI被用于构建代表我们世界知识的基础设施——知识图谱时,其伦理和社会影响不容忽视。然而,研究结果揭示了一个令人担忧的现象:在知识工程师群体中,对负责任AI(Responsible AI)的认知和实践普遍不足。他们或者不清楚具体需要关注哪些风险,或者认为这超出了自己的职责范围,是其他领域专家应该考虑的问题。这种将技术工程与伦理考量相分离的谷仓效应(各自为政)非常普遍。这并非源于缺乏兴趣,更多是由于缺乏相关的培训、工具和制度化的流程,使得伦理考量难以被整合到紧张的开发周期中。
当话题聚焦到偏见(Bias)这一更具体的概念时,工程师们的认知也显示出局限性。绝大多数人认为偏见主要来源于训练数据。他们很少认识到,偏见也可能存在于模型架构、本体设计(即知识的分类和组织方式)以及人机交互的整个流程中。一些工程师表现出一种对偏见的无奈甚至默许的态度,认为人类本身就是有偏见的,所以AI有偏见在所难免。这种心态可能会阻碍其主动采取措施去检测和缓解偏见。同时,对于如何系统性地缓解偏见,大多数人表示没有概念或怀疑现有测试的有效性。还有人担心,进行去偏见处理可能会损害模型的性能,这反映了在公平性与效用性之间存在的潜在权衡。此外,作为个体的工程师常常感到自己无力改变系统性的偏见问题,或者认为这并非自己的首要责任。
生成式AI的引入,为知识图谱带来了新的偏见来源。LLM本身可能携带和放大其训练数据中存在的社会偏见(如性别、种族、地域歧视)。因此,我们迫切需要将负责任AI的原则和实践,深度整合到知识工程的每一个环节。这不仅仅是提供一个偏见清单让工程师去检查。更重要的是,要在工程流程中创造出进行伦理审议的空间和机制。这意味着需要开发新的工具来度量和监控LLM辅助构建的知识图谱中的公平性,并为工程师提供关于偏见来源、影响和缓解策略的系统性培训,培养他们的责任感和行动力。
对于生成式AI在知识工程中的未来,受访的工程师们展现出一种复杂而矛盾的心态,既有对其潜力的巨大热情,也伴随着深刻的怀疑和谨慎。
乐观者认为,LLM是强大的“智能助手”,虽然不能完全替代人类专家,但可以在多个方面极大地提升知识工程的效率和体验:
然而,怀疑的声音同样强烈。许多工程师认为,在目前的阶段,将LLM用于生产级别的、严肃的知识图谱构建还为时过早。他们的顾虑主要集中在:
这种希望与疑虑并存的局面,清晰地指明了未来研究和发展的方向:我们必须在不断发掘LLM潜力的同时,致力于解决其可靠性、可控性和可评估性的核心问题,才能真正建立起人与AI之间的信任。解决这些问题的关键技术路径,正是以检索增强生成(RAG)为代表的知识增强方法。对此,王文广的灯塔书《知识增强大模型》一书提供了极为宝贵的实践指导。该书的第四章“检索增强生成”和第九章“知识图谱增强生成与GraphRAG”,为读者构建了一幅从入门到精通的路线图。书中不仅详细拆解了通用的RAG流程——从知识库构建、文本分块、向量化,到检索与生成,更进一步探讨了GraphRAG等前沿技术,展示了如何利用知识图谱的结构化优势进行更精准、更具深度的知识检索。对于那些希望将LLM从玩具变为可靠生产力工具的工程师和决策者而言,这本书无疑是指明方向的灯塔。
为了应对上述挑战,特别是解决透明度、可解释性和责任归属的问题,研究者们基于现有成果,提出了一个专门针对知识工程领域的文档化框架,旨在系统性地记录和披露知识图谱及其构建过程中的关键信息。
像模型卡片(Model Cards)和数据卡片(Data Cards)这样的框架,在提升机器学习模型和数据集的透明度方面已经取得了巨大成功。然而,它们并不能完全满足知识图谱的独特需求。知识图谱不仅仅是数据,它还包含着复杂的模式(本体、Schema)、语义关系和设计决策。因此,我们需要一个能够描述这些独特方面的文档标准。为此,研究者们提出了知识图谱卡片的概念,这是一个结构化的文档框架,旨在为知识图谱提供全面、透明的说明书。它包含六个核心部分:


通过使用知识图谱卡片,在共享和使用知识图谱时,能够主动地、透明地披露其背景信息,从而帮助用户做出更明智的判断。
除了为知识图谱本身创建卡片,研究者也建议将现有的“模型卡片”框架,应用于知识工程流程中使用的各种模型,特别是知识图谱嵌入模型(如TransE等,详见珠峰书《知识图谱:认知智能理论与实战》第7章《知识推理》部分,有系统性的介绍)。为这些模型提供模型卡片,可以清楚地说明其预期用途、性能指标、训练数据、潜在的偏见和伦理考量,从而提升整个知识工程生态系统的透明度和可信度。
生成式AI正以不可逆转之势,重塑知识工程的版图。它带来了前所未有的效率提升和自动化潜力,但同时也带来了关于评估、技能和伦理的深刻挑战。这次对知识工程师实践的深入研究,为我们揭示了在这一新时代下知识工程的未来航向。
未来,知识工程将不再是孤立的人类智力活动,而是一个深度人机协作的领域。知识工程师的角色将演变为AI的提示者、验证者和伦理监督者。要成功扮演这些新角色,他们必须拥抱一种融合了传统知识表示、高级提示工程、NLP技术和负责任AI原则的混合技能集。前方的道路并非一帆风顺,这条通往未来的道路充满挑战,但也孕育着无限可能,它呼唤着先行者们共同探索。加入最有价值的知识星球【走向未来】【https://t.zsxq.com/xpWzq】!在这里共同探索大模型时代知识工程的无限可能——从技术原理到产品落地,从应用实践到未来趋势。即刻加入,马上启程,一起驾驭方向盘,走向光明未来,不负热爱!当然,在这个过程中,我们也必须正视并系统性地解决当前面临的核心问题:
尽管有人预测,LLM的最终发展可能会让知识图谱变得过时。但在可预见的未来,两者的结合——利用知识图谱的严谨性来约束和增强LLM的创造力,同时利用LLM的灵活性来加速和扩展知识图谱的构建——无疑是一条强大而务实的前进道路。关键在于,知识工程师能否以一种批判性、创造性和负责任的态度,驾驭这项变革性的技术,用它来构建更加智能、可靠和公平的知识未来。这场变革才刚刚开始,而知识工程师正是绘制新航图的核心力量。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。