首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >开源模型与模块化如何打破AI垄断

开源模型与模块化如何打破AI垄断

原创
作者头像
用户11764306
发布2026-05-17 09:37:41
发布2026-05-17 09:37:41
230
举报

人工智能革命不会被垄断:开源如何击败规模效应(即使在LLM领域)

随着自然语言处理和大语言模型(LLM)的最新进展,以及像某机构这样的大公司主导该领域,许多人都在想:我们是否正进一步走向一个黑箱时代,模型越来越大,被隐藏在大型科技垄断企业控制的API之后?

并非如此。本文将深入探讨开源模型生态系统、关于行业中LLM用例的一些常见误解、实际案例以及软件开发的基本原则(如模块化、可测试性和灵活性)如何仍然适用。LLM是工具箱中强大的新工具,但最终目标仍然是创建一个能按需工作的系统。显式优于隐式,可组合的构建块仍然优于巨大的黑箱。

随着理念的发展,人们看到了越来越多高效利用计算资源的方法,从而产生运行成本更低、更易于控制的AI系统。以下将分享一些可立即应用的实用方法。如果要构建一个执行特定任务的系统,并不需要将请求转换为任意语言,然后调用最能理解任意语言的最大模型。开发那些模型的人在讲述那个故事,但其他人没有义务相信他们。

为何选择开源?

  • 透明
  • 无供应商锁定
  • 可扩展
  • 可在内部运行
  • 易于上手
  • 社区验证
  • 可编程
  • 保持最新
  • 并且免费

开源模型类型

  • 任务特定模型:小型、通常快速、运行成本低,但泛化能力不一定强,需要数据微调。
  • 编码器模型(如ELECTRA、T5):相对较小且快速,运行成本可承受,泛化和适应能力强,需要数据微调。
  • 大型生成模型(如Falcon、MIXTRAL):非常大,通常较慢,运行成本高,泛化和适应能力强,几乎不需要数据。

编码与解码任务

  • 编码器模型:针对特定任务训练的网络,使用模型对输入进行编码 → 文本向量 → 任务模型 → 任务输出。
  • 大型生成模型:模型生成文本,可解析为任务特定输出 → 模板提示 → 原始输出 → 解析器 → 任务输出。

规模效应

  • 获取人才、计算资源等
  • API请求批处理:高流量与低流量批处理

AI产品不仅仅是模型

  • 面向人类的系统 vs 面向机器的模型(如ChatGPT、GPT-4)
  • 最重要的区别是产品,而不仅仅是技术
  • 可替换的组件基于研究,影响可量化:成本、速度、准确率、延迟
  • UI/UX、营销、定制化
  • 那数据呢? 用户数据是产品的优势,而不是面向机器任务的基础。不需要特定数据来获得通用知识。

行业中的用例

  • 预测任务:实体识别、关系抽取、共指消解、语法与形态、语义解析、语篇结构、文本分类
  • 生成任务:单/多文档摘要、推理、问题解决、释义、风格迁移、问答
  • 许多行业问题本质上没有改变,只是规模发生了变化 → 结构化数据

问题定义的演变

  • 规则或指令 → 编程与规则
  • 机器学习示例 → 有监督学习
  • 上下文学习 → 提示工程
  • 指令:人类塑造,对非专家友好,但有数据漂移风险
  • 示例:细致和直观的行为,针对特定用例,但劳动密集

工作流示例

  1. 提示大型通用模型
  2. 使用领域特定数据进行持续评估(基线)
  3. 迭代的模型辅助数据标注
  4. 将知识蒸馏到任务特定模型(迁移学习)
  5. 持续评估蒸馏模型

从原型到生产

  • 处理管道原型:提示模型并将输出转换为结构化数据
  • 生产环境中的处理管道:交换、替换和混合组件
  • 结构化的机器可读Doc对象

结果与案例研究 (CoNLL 2003 命名实体识别)

模型

F值

速度 (词/秒)

GPT-3.5

78.6

< 100

GPT-4

83.5

< 100

spaCy

91.6

4,000

Flair

93.1

1,000

2023年SOTA

94.6

1,000

2003年SOTA

88.8

20,000

  • 少样本提示的SOTA (RoBERTa-base)
  • FabNER vs Claude 2 准确率(20个示例即可达到较高准确率)

这更多说明了众包工作者的方法论问题,而不是LLM本身的问题。我们不再需要众包工作者。

蒸馏后的任务特定组件特性

  • 模块化
  • 无锁定
  • 可扩展
  • 可测试
  • 灵活
  • 可预测
  • 透明
  • 可编程
  • 运行成本低
  • 可在内部运行

垄断策略与应对

  • 控制、资源调控、复合规模效应、网络效应
  • 面对:面向人类的产品 vs 面向机器的模型
  • 软件行业并不依赖秘密配方。知识被分享和发表。秘密不会带来垄断。
  • 使用数据对改进产品很有帮助,但不能泛化。数据不会带来垄断。
  • LLM可以成为产品或流程的一部分,并且可以替换为不同的方法。互操作性恰恰是垄断的对立面。
  • 如果我们允许,监管可能会造成垄断。监管应聚焦于产品和行为,而非基础组件。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 人工智能革命不会被垄断:开源如何击败规模效应(即使在LLM领域)
    • 为何选择开源?
    • 开源模型类型
    • 编码与解码任务
    • 规模效应
    • AI产品不仅仅是模型
    • 行业中的用例
    • 问题定义的演变
    • 工作流示例
    • 从原型到生产
    • 结果与案例研究 (CoNLL 2003 命名实体识别)
    • 蒸馏后的任务特定组件特性
    • 垄断策略与应对
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档