首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >用LLM辅助标注超越GPT性能

用LLM辅助标注超越GPT性能

原创
作者头像
用户11764306
发布2026-05-18 15:12:26
发布2026-05-18 15:12:26
270
举报

Workshop: 半小时的标注能力:我们能击败GPT吗?

视频地址:https://www.youtube.com/watch?v=Ta45SfbZNcM

大语言模型为现代自然语言处理提供了巨大价值,通常只需一个结构合理的提示词且几乎没有标注样本,就能在预测性NLP任务上实现令人惊讶的高准确率。但我们能否做得比这更好?利用大语言模型来创建分类器,而不是将它们用作分类器,这要有效得多。通过使用LLM辅助标注,我们可以快速创建标注数据并构建系统,这些系统比单独使用LLM提示要快得多且准确得多。本工作坊将展示如何在开发阶段利用LLM创建高质量数据集,并为您的业务问题训练特定、更小、私有且更准确的微调模型。


研讨会正文

spacy.io

面向工业级自然语言处理的开源库,下载量超过1.7亿次。

prodigy.ai

为机器学习开发者打造的现代脚本化标注工具,拥有9000+用户和800+家公司。

协作式数据开发平台。

生成式模型功能:单/多文档摘要、推理、问题解答、释义、风格迁移。

预测式模型功能:文本分类、关系提取、指代消解、语法与形态分析、实体识别、语义解析、篇章结构。

文本分类任务对比

在SST2、AG News、Banking77数据集上,GPT-3在不同标注数据比例(1% 5% 10% 20% 50% 100%)下的准确率从65%到100%不等。

实体识别任务对比

在FabNER数据集上,Claude 2在标注样本数量从0到500范围内,F1分数从约10%上升到90%以上。

标注流程

  1. 标注 → 评估 → 更新
  2. 解决分歧,召开回顾会议,评估是否需要更多数据
  3. 更新标注指南,添加更多示例,扩展标签定义

spacy-llm

配置与提示模板:spacy.io/usage/large-language-models

评估结果

在DISH、INGREDIENT、EQUIPMENT标注任务上:

  • 零样本:约60-70 F1
  • 思维链:约70-80 F1
  • 少样本:约75-85 F1
  • 任务特定模型:超过90 F1,处理速度达2000词/秒

专业提示

  • 使用任务路由来分配工作负载并确定标注者间的一致性(prodigy.ai/features/task-routing)
  • 关注模型产生分歧的样本,类似于主动学习(koaning.io/posts/large-disagreement-models)
  • 使用生成模型创建spaCy规则集(spacy.io/usage/rule-based-matching)

要点总结

  • 生成式模型补充预测式模型,而非取代它。
  • 利用生成式模型创建更好、更准确、更快、更小且私有的任务特定模型。
  • 借助良好工具,可以让人工输入更高效。

致谢

Explosion, spaCy, Prodigy

explosion.ai | spacy.io | prodigy.aiFINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档