Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >读书千遍,其意自现?不如连接万遍。 ——创新自动机的诞生

读书千遍,其意自现?不如连接万遍。 ——创新自动机的诞生

原创
作者头像
Delphi Shen
发布于 2025-06-12 01:28:35
发布于 2025-06-12 01:28:35
2150
举报
文章被收录于专栏:腾讯云TVP腾讯云TVP

人类的创造力,本质是连接的游戏。

随手翻一本江南食俗志,乾隆的“美食创新”扑面而来:大煮干丝——豆腐干丝与鸡丝的缠绵;蟹粉狮子头——肉丸拥抱蟹黄的鲜香;松鼠桂鱼——刀工、热油与糖醋汁的共舞;龙井虾仁——虾的弹嫩浸透茶的清冽。看,创新门槛最低处,恰在烟火人间。拆解其结构,无非“连接”二字:把本不沾边或若即若离的两物,捏合一处,催生新价值——此乃大多创新的本相。

这连接若落在菜单,是道新菜;进入商业,铅笔头接上橡皮,便成了“橡皮头铅笔”;可若撞进缺乏实证的领域,就成了幻觉——木瓜丰胸、韭菜壮阳、丝瓜降火… 信者恒信。

回顾人类进化史和科学进化史,我们会发现,从生理上,脑神经就是一种“连接”,通过行为进行了强化——“有用的被加深记忆,无用的被遗忘”。知识的创造也是连接,我们为了解释苹果为何落地,需要将苹果和地球连接起来,我们给这种连接起了一个名字叫做“引力”;而当一个物体与"光速运动"连接,相对论就产生了。

“连接”暗藏两层意义:

1. 强行关联:让原本不想干的事物关联了起来;

2. 抽象定义:为这关联划定边界,赋予“关系函数”。

就像提起“龙井虾仁”,吃过的人脑中浮现的,绝非简单堆砌:是茶叶与虾仁精确的比例,是香气渗透的方式——真实与虚幻的龙井虾仁,差别就在这连接的“边界与函数”里。

真实的龙井虾仁
真实的龙井虾仁
 虚幻的龙井虾仁
虚幻的龙井虾仁

差异在于边界和关系(龙井和虾仁的比例和混合方式)

维特根斯坦说:“The limits of my language mean the limits of my world——我的语言的界限,就是我的世界的界限。” 语言,这人类最熟悉的连接系统,框定了我们认知的宇宙。从这个认知维度,我们认为,“连接”就是在编结哲学意义上的世界,这可能就是命运的织机一词灵感的来源。

我们再次从世界的演化来看待这一事实,人类文明持续的进步来自于连接,连接的可能性在于“多样性”,换而言之,文明进步的速率多样性X连接X概率,中国的四大发明,是因为人口的基数(足够的多样性)X中文(强连接引擎)带来的高连接性,在一定概率下,创新出现了。而社会的进步是在文明进步之上的一个整体升级,升级的速率则来自于生存的竞争(战争的频次与烈度),这就是为什么战争总是能极大的推动社会的进步;对于现代社会,商场如战场,也揭示了自由市场的创新力为何如此强大。

那么,AI大模型真与创新绝缘吗?

训练时,它本无“连接禁忌”,天马行空。但为了输出“合理”,我们用RLHF(人类反馈强化学习)给它套上缰绳——过滤掉大量“无意义连接”。副作用呢?一些边缘的、怪诞却潜在有价值的创新火花,可能就此湮灭。

我们无法向原始人解释“水+火+曲轴=蒸汽机”,亦难令古人理解“电+磁=无线电”。同理,当AI吐出一个石破天惊的“连接”时,我们如何分辨它是幻觉还是先知?迈向AGI的路上,或许急需一个“潜在创新判断值”——一套校准与评估未知连接的“连接函数”。

我们当然可以使用LLM生成海量、具备差异化背景的“虚拟角色”(Persona)。为每个角色设定:

  • 人口学特征: 时代、地域、文化、职业、教育水平、经济状况。
  • 认知特征: 知识领域偏好(专精/广博)、思维模式(分析型/直觉型/批判型/创意型)、价值观倾向、风险偏好、问题解决风格。
  • ……等等,试图突破物理人口限制,生成远超现实人口基数的“认知主体”,模拟人类认知的广谱分布。

但是我们发现,LLM生成1000个“不同”的农民观点,可能不如真实获取10个跨学科专家的碰撞。从知识点本质出发重构多样性和连接强度的量化方式,比模拟人口更直接,更加直指本质。我们可以通过知识点的“正交性多样性”度量 + 连接跨度来量化创新价值

具体量化执行方案:

一、知识多样性:从“数量堆砌”转向“认知维度覆盖”

核心思想: 多样性价值不在于知识点数量,而在于其认知维度上的正交性(Orthogonality)——即观点/知识向量在认知空间中的分散程度。

量化方案:

  1. 构建“认知维度空间”:
  • l 使用LLM将知识点/观点嵌入到多维向量空间(如基于学科树、思维框架、问题解决路径的定制化Embedding)。
  • l 关键维度示例:
    • n 学科距离:(数学←→艺术史)
    • n 抽象层级:(具体技术细节←→哲学原理)
    • n 时间尺度:(即时应用←→长期演化)
    • n 价值取向:(效率优先←→伦理优先)
    • n 证据类型:(实验数据←→经验直觉)
  1. 度量“正交性多样性”:
  • l指标1:认知散度(Cognitive Divergence)
    • 计算一组知识点向量在关键维度上的方差(Variance) 或 熵值(Entropy) 。方差越大/熵值越高,多样性越强。
    • 示例: 比较“10个农业专家观点” vs “1个农学家+1个气候学家+1个经济学家+1个伦理学家+1个AI工程师观点”的向量方差。
  • 指标2:覆盖密度(Coverage Density)
    • 将认知空间划分为网格,统计知识点分布的网格填充率。优先选择填充率低(覆盖稀疏区域)的新增知识点。
  • 指标3:对抗性指数(Adversarial Index)
    • 用LLM自动生成与现有知识集向量夹角最大(余弦相似度最低)的反事实观点,其夹角度数即为该知识集的“脆弱性/创新潜力”指标。

LLM如何操作:

  • 输入: 原始问题/议题 + 当前知识集合(文本或向量)。
  • 输出:

1) 高正交性知识推荐: 自动推荐填补认知空白的领域/观点(如:“当前讨论缺乏历史视角,建议引入工业革命时期的农业转型案例”)。

2) 多样性评分报告: 输出当前知识集的认知散度,覆盖密度,对抗性指数的数值及可视化。

3) 动态维度优化: 若检测到所有观点在“伦理-效率”维度高度聚集,自动新增“生态可持续性”维度重新评估。

刚才提到的10个跨学科专家的价值,正在于其观点在认知空间中的高分散度(覆盖多个正交维度),而1000个农民观点可能仅在“经验-短期-技术”维度形成高密度聚类。

二、连接跨度:量化“认知距离”的创新价值

核心思想: 借鉴六度空间理论,但跨度值本身不是目标——关键是远距离连接能否催生高价值创新。定义“认知距离”并关联创新潜力。

量化方案:

  1. 定义“认知距离”:
  • 路径距离(δ-path): 在知识图谱中,两个节点间最短路径的跳数(Hops)。
    • 示例: “水稻种植(农业)→ 光合作用(生物学)” δ=1; “水稻种植 → 区块链(计算机)” δ=4。
  • 语义距离(ζ-semantic): 知识点向量间的余弦相似度倒数或欧氏距离。
    • 示例: “宪法条文(法律学)”与“蜡染工艺”的ζ值很高。
  • 综合距离:Δ = α·δ + β·ζ (α, β为权重系数)
  1. 度量“连接创新价值”:
  • 指标1:跨度-价值相关性函数
    • 建立经验公式:创新潜力 ∝ Δ^γ · Relevance (γ为曲率参数,Relevance为问题关联度)
    • 关键洞察: 中远距离连接(Δ中等)常诞生突破性创新;超远距离(Δ极大)易产生无意义幻觉。γ控制“黄金距离”位置。
  • 指标2:结构洞强度(Structural Hole Strength)
    • 测量连接所桥接的网络模块性(Modularity)。连接两个高内聚低耦合的知识群落,则结构洞价值高。
    • 计算: 使用知识图谱的模块度(Modularity) 和边介数中心性(Edge Betweenness)。
  • 指标3:连接熵增(Connection Entropy Increase)
    • 计算连接后知识系统整体复杂度的提升(如网络熵值变化)。熵增越大,创新可能性越高。

LLM如何操作:

  • 输入: 待连接的两个知识点/领域。
  • 输出:

1) 动态距离报告: 实时计算并输出Δ路径距离、ζ语义距离、结构洞强度。

2) 创新潜力预测: 基于历史创新数据训练模型,输出该连接的创新潜力评分及置信区间。

3) 连接路径显影: 自动生成跨越δ路径的“知识阶梯”(如:区块链→智能合约→供应链追溯→农药使用监管→水稻种植)。

4) 抗幻觉校准: 当Δ极大时,自动触发“可行性筛查”(如检查物理定律兼容性)。

因此,连接带来的创新可以是 “农业专家+气候学家”连接(Δ中低)可能优化种植方案;而“农业+区块链”(Δ中高)可能诞生溯源革命;但“农业+弦理论”(Δ极高)需严格筛查防幻觉。

三、系统整合:LLM作为“认知空间导航仪”

将以上度量整合进文明进步公式: 创新价值 = [正交性多样性] × [创新加权连接跨度] × 验证概率

LLM工作流:

工作流
工作流
优势:

1. 避免“伪多样性”:用向量正交性替代简单标签差异。

2. 突破学科壁垒:显式量化并利用认知距离。

3. 聚焦高价值区:通过Δ^γ函数过滤无效远距连接。

4. 动态适应:随讨论进程自动调整多样性需求和连接阈值。

最终结论:

1. 知识多样性本质是“认知维度的覆盖度”,需用向量空间模型+信息熵量化。

2. 连接价值不取决于跨度绝对值,而取决于“距离-创新”关系函数结构洞(Structural Holes)占据

3. LLM的核心作用是成为:

— 认知空间的测绘仪(可视化正交性与距离)

— 远距连接的风险评估器(平衡Δ与可行性)

— 创新暗区的探照灯(识别高潜力结构洞)

这种框架下,只要有能源的持续供给,人类专家角色将升级为“维度定义者”和“价值裁判官”,而LLM则负责在浩瀚认知宇宙中精准导航,而不仅仅是“世界模型的识别”——这或许才是人机协同推动文明进步的最优解。当然,Matrix可能也是这么想的。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
紧跟技术发展趋势,快速了解NLP领域最新动态。今天继续给大家分享10篇最新论文,其中涉及大模型幻觉、大模型对齐、大模型剪枝、大模型隐私、大模型毒性、大模型评估、RAG能力增强、Transformer架构优化等热门研究方向。
ShuYini
2024/01/31
7990
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
每周AI论文速递(240909-240913)
最近,研究如何构建更好的代码指令微调数据集的兴趣逐渐增加。然而,我们观察到使用这些数据集训练的代码模型在HumanEval上表现优异,但在其他基准测试如LiveCodeBench上表现不佳。进一步调查显示,许多数据集存在严重的数据泄露问题。在清理大部分泄露数据后,一些知名的高质量数据集表现不理想。这一发现揭示了一个新挑战:识别哪些数据集真正符合高质量代码指令数据的资格。为此,我们提出了一种高效的代码数据修剪策略,用于选择优质样本。我们的方法从三个维度出发:指令复杂性、响应质量和指令多样性。基于我们选择的数据,我们推出了XCoder,一系列从LLaMA3微调而来的模型。我们的实验表明,XCoder在使用较少训练数据的情况下达到了新的最佳性能,验证了我们数据策略的有效性。此外,我们对数据组成进行了深入分析,发现现有代码数据集根据其构建方法具有不同的特征,为未来的代码大语言模型提供了新的见解。我们的模型和数据集已在https://github.com/banksy23/XCoder发布。
叶子的技术碎碎念
2025/04/08
900
每周AI论文速递(240909-240913)
Footprint Analytics x Future3 万字研报:AI 与 Web3 数据行业融合的现状、竞争格局与未来机遇探析(上)
GPT的横空出世将全球的目光吸引至大语言模型,各行各业都尝试着利用这个“黑科技”提高工作效率,加速行业发展。Future3 Campus携手Footprint Analytics共同深入研究AI与Web3结合的无限可能,联合发布了《AI与Web3数据行业融合现状、竞争格局与未来机遇探析》研报。该研报分为上下两篇,本文为上篇,由Footprint Analytics研究员Lesley、Shelly共同编撰。下篇由Future3 Campus研究员Sherry、Humphrey共同编撰。
Footprint Analytics
2023/12/05
3220
Footprint Analytics x Future3 万字研报:AI 与 Web3 数据行业融合的现状、竞争格局与未来机遇探析(上)
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8560
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
如何用知识图谱和Llama-Index来实现RAG?
幻觉是与大型语言模型(LLM)一起工作时常见的问题。LLM能够生成流畅连贯的文本,但往往会产生不准确或不一致的信息。避免LLM产生幻觉的方法之一是使用外部知识源,如数据库或知识图谱,提供事实信息。
山行AI
2023/12/19
2.8K0
如何用知识图谱和Llama-Index来实现RAG?
大模型面试百问百答
数据预处理->分块(这一步骤很关键,有时候也决定了模型的效果)->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出
NewBeeNLP
2024/03/18
2.5K0
大模型面试百问百答
XAI有什么用?探索LLM时代利用可解释性的10种策略
你是否也好奇,在大模型时代,可解释性人工智能技术(XAI)有怎样的使用价值?近日,来自佐治亚大学、新泽西理工学院、弗吉尼亚大学、维克森林大学、和腾讯 AI Lab 的研究者联合发布了解释性技术在大语言模型(LLM)上的可用性综述,提出了 「Usable XAI」 的概念,并探讨了 10 种在大模型时代提高 XAI 实际应用价值的策略。
机器之心
2024/04/12
2220
XAI有什么用?探索LLM时代利用可解释性的10种策略
AI日报 - 2024年05月13日
訾博ZiBo
2025/05/13
660
AI日报 - 2024年05月13日
Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式
在药物研发和材料科学领域,分子属性预测(如溶解度、血脑屏障通透性)是决定实验成败的关键。然而,传统方法依赖人工经验或复杂神经网络,存在可解释性差、知识整合困难等问题。
实验盒
2025/02/28
1930
Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式
十问农业大模型的当前和未来
11月6日OpenAI开发者大会带来的GPT-4 Turbo多模态能力升级和GPT Store生态策略,再次引起业界关注热潮。我国通过《生成式人工智能服务管理暂行办法》第一、第二批备案的大模型已经达到22个,除了通用大模型之外,行业或领域大模型开始逐渐增多。可以预见,通用大模型持续增强的听、说、看能力,将通过声音、视觉、图像等多模态开放接口,更便捷的输出给行业大模型的开发者和使用者,在带来更丰富场景的同时,进一步降低应用门槛。
晨涵
2023/11/16
5060
十问农业大模型的当前和未来
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
这几年,各种新技术、新产品层出不穷,其中,大模型(Large Language Models)作为AI领域的颠覆性创新,凭借其在语言生成、理解及多任务适应上的卓越表现,迅速点燃了科技界的热情。从阿尔法狗的胜利到GPT系列的横空出世,大模型不仅展现了人工智能前所未有的创造力与洞察力,也预示着智能化转型的新纪元。然而,大模型的潜力要真正转化为生产力,实现从实验室到现实世界的平稳着陆,还需跨越理论到实践的鸿沟。
zhouzhou的奇妙编程
2024/06/11
20.5K0
CVPR'24| 中大哈佛等提出creative Leap-of-thought探究大模型幽默创新力
多模态大模型具备创造的潜力吗?能力如何?本文从大模型创造力测评与增强等方面进行了探索,从幽默创新响应的角度,揭示了大模型在创新任务上的潜力和不足。目前该成果被计算机视觉顶级会议CVPR 2024录用。
用户9861443
2024/04/18
5030
CVPR'24| 中大哈佛等提出creative Leap-of-thought探究大模型幽默创新力
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-based Agent 的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了 Agent 相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。
机器之心
2023/09/19
12.1K0
复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来
独家 | 使用检索增强生成技术构建特定行业的 LLM
企业正在竞相采用大型语言模型(也可以被称为LLM)。让我们深入了解如何通过RAG(检索增强生成技术) 构建特定行业的大型语言模型。
数据派THU
2023/09/07
9090
独家 | 使用检索增强生成技术构建特定行业的 LLM
长文 | 腾讯提出 AI For FEW 构想,呼吁人工智能为地球思考
美国当地时间 4 月 3 日,联合国人居署与腾讯在纽约联合国总部共同举办主题研讨会,探讨地球所面临的最基础的挑战,以及如何利用人工智能(AI)等新兴技术提供解决方案,创新高效地实现可持续发展目标。联合国人居署执行主任、联合国副秘书长 Maimunah Mohd Sharif 、联合国人居署助理秘书长 Victor Kisob ,以及多位国家大使、新兴科技企业代表、可持续发展研究专家参加研讨。
腾讯技术工程官方号
2019/05/16
1.2K0
长文 | 腾讯提出 AI For FEW 构想,呼吁人工智能为地球思考
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
在构建大语言模型应用程序时通常有两种常见的方法来整合专有和特定领域的数据:检索增强生成和微调。检索增强生成通过外部数据增强提示,而微调将额外的知识整合到模型本身中。不过,对这两种方法的优缺点了解的却不够充分。
机器之心
2024/02/26
5350
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量
话接上文的召回多样性优化,多路索引的召回方案可以提供更多的潜在候选内容。但候选越多,如何对这些内容进行筛选和排序就变得更加重要。这一章我们唠唠召回的信息密度和质量。同样参考经典搜索和推荐框架,这一章对应排序+重排环节,考虑排序中粗排和精排的区分主要是针对低延时的工程优化,这里不再进一步区分,统一算作排序模块。让我们先对比下重排和排序模块在经典框架和RAG中的异同
风雨中的小七
2023/12/13
2.2K2
解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量
清醒吧,在AI时代的艺术中,人类创意不那么重要了
从2023年5月开始,人类就因为担心AI使他们失去工作,而发起了长达5个月的好莱坞大罢工。
小腾资讯君
2024/12/18
1430
文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首
在人工智能的浪潮中,以GPT4、Claude3、Llama 3等大型语言模型(LLM)无疑是最引人注目的潮头。这些模型通过在海量数据上的预训练,学习到了丰富的语言知识和模式,展现了出惊人的能力。在支撑这些大型语言模型应用落地方面,文本向量化模型(Embedding Model)的重要性也不言而喻。
中杯可乐多加冰
2024/04/23
3K0
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
“ 介绍了人工智能代理的历史渊源与演进,接着探讨了大型语言模型(LLMs)的发展,以及它们在知识获取、指令理解、泛化、规划和推理等方面所展现出的强大潜力。在此基础上,提出了一个以大型语言模型为核心的智能代理概念框架,该框架包括大脑、感知和行动这三个主要组成部分。”
技术人生黄勇
2024/07/19
6400
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
推荐阅读
相关推荐
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档