Workshop: 半小时的标注能力:我们能击败GPT吗?
视频地址:https://www.youtube.com/watch?v=Ta45SfbZNcM
大语言模型为现代自然语言处理提供了巨大价值,通常只需一个结构合理的提示词且几乎没有标注样本,就能在预测性NLP任务上实现令人惊讶的高准确率。但我们能否做得比这更好?利用大语言模型来创建分类器,而不是将它们用作分类器,这要有效得多。通过使用LLM辅助标注,我们可以快速创建标注数据并构建系统,这些系统比单独使用LLM提示要快得多且准确得多。本工作坊将展示如何在开发阶段利用LLM创建高质量数据集,并为您的业务问题训练特定、更小、私有且更准确的微调模型。
研讨会正文
spacy.io
面向工业级自然语言处理的开源库,下载量超过1.7亿次。
prodigy.ai
为机器学习开发者打造的现代脚本化标注工具,拥有9000+用户和800+家公司。
协作式数据开发平台。
生成式模型功能:单/多文档摘要、推理、问题解答、释义、风格迁移。
预测式模型功能:文本分类、关系提取、指代消解、语法与形态分析、实体识别、语义解析、篇章结构。
文本分类任务对比
在SST2、AG News、Banking77数据集上,GPT-3在不同标注数据比例(1% 5% 10% 20% 50% 100%)下的准确率从65%到100%不等。
实体识别任务对比
在FabNER数据集上,Claude 2在标注样本数量从0到500范围内,F1分数从约10%上升到90%以上。
标注流程
spacy-llm
配置与提示模板:spacy.io/usage/large-language-models
评估结果
在DISH、INGREDIENT、EQUIPMENT标注任务上:
专业提示
要点总结
致谢
Explosion, spaCy, Prodigy
explosion.ai | spacy.io | prodigy.aiFINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。