首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Prodigy-HF与Hugging Face集成技术解析

Prodigy-HF与Hugging Face集成技术解析

原创
作者头像
用户11764306
发布2025-10-28 17:36:20
发布2025-10-28 17:36:20
1000
举报

介绍Prodigy-HF:与Hugging Face的直接集成

Prodigy是由某机构开发的标注工具,该公司以创建spaCy而闻名。这是一个完全可脚本化的产品,拥有庞大的社区。该产品具有许多功能,包括与spaCy的紧密集成和主动学习能力。但产品的主要特点是可通过Python进行编程定制。

为了促进这种可定制性,某机构开始发布插件。这些插件以开放的方式与第三方工具集成,鼓励用户处理定制化的标注工作流程。然而,有一个特定的定制值得特别庆祝。上周,某机构推出了Prodigy-HF,它提供了直接与Hugging Face技术栈集成的代码配方。这是Prodigy支持论坛上备受期待的功能。

功能

第一个主要功能是,该插件允许您在标注数据上训练和重用Hugging Face模型。这意味着如果您在我们的界面中为命名实体识别标注数据,可以直接基于此微调BERT模型。

安装插件后,您可以从命令行调用hf.train.ner配方,直接在您自己的数据上训练Transformer模型。

代码语言:bash
复制
python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

这将针对您存储在Prodigy中的数据集微调distilbert-base-uncased模型并将其保存到磁盘。类似地,该插件还通过非常相似的接口支持文本分类模型。

代码语言:bash
复制
python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

这提供了很大的灵活性,因为该工具直接与Hugging Face transformers的AutoTokenizer和AutoModel类集成。只需一个命令,就可以在您自己的数据集上微调模型中心上的任何Transformer模型。这些模型将在磁盘上序列化,这意味着您可以将它们上传到Hugging Face Hub,或重新使用它们来帮助您标注数据。这可以节省大量时间,特别是对于NER任务。要重新使用训练好的NER模型,您可以使用hf.correct.ner配方。

代码语言:bash
复制
python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

这将为您提供一个与之前类似的界面,但现在模型预测也将在界面中显示。

上传

第二个同样令人兴奋的功能是,您现在还可以将标注的数据集发布到Hugging Face Hub。如果您有兴趣分享其他人希望使用的数据集,这非常棒。

代码语言:bash
复制
python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

我们特别喜爱这个上传功能,因为它鼓励协作。人们可以彼此独立地标注自己的数据集,但在与更广泛的社区共享数据时仍然受益。

更多功能即将推出

我们希望这种与Hugging Face生态系统的直接集成能够让许多用户进行更多实验。Hugging Face Hub为广泛的任务和语言提供了许多模型。我们真诚希望这种集成使数据标注变得更加容易,即使您有更特定领域和实验性的用例。

该库的更多功能正在开发中,如果您有更多问题,请随时在Prodigy论坛上联系我们。

我们还要感谢Hugging Face团队对此插件的反馈,特别是建议添加上传功能的某专家。谢谢!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍Prodigy-HF:与Hugging Face的直接集成
  • 功能
  • 上传
  • 更多功能即将推出
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档