Prodigy是由某机构开发的标注工具,该公司以创建spaCy而闻名。这是一个完全可脚本化的产品,拥有庞大的社区。该产品具有许多功能,包括与spaCy的紧密集成和主动学习能力。但产品的主要特点是可通过Python进行编程定制。
为了促进这种可定制性,某机构开始发布插件。这些插件以开放的方式与第三方工具集成,鼓励用户处理定制化的标注工作流程。然而,有一个特定的定制值得特别庆祝。上周,某机构推出了Prodigy-HF,它提供了直接与Hugging Face技术栈集成的代码配方。这是Prodigy支持论坛上备受期待的功能。
第一个主要功能是,该插件允许您在标注数据上训练和重用Hugging Face模型。这意味着如果您在我们的界面中为命名实体识别标注数据,可以直接基于此微调BERT模型。
安装插件后,您可以从命令行调用hf.train.ner配方,直接在您自己的数据上训练Transformer模型。
python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"这将针对您存储在Prodigy中的数据集微调distilbert-base-uncased模型并将其保存到磁盘。类似地,该插件还通过非常相似的接口支持文本分类模型。
python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"这提供了很大的灵活性,因为该工具直接与Hugging Face transformers的AutoTokenizer和AutoModel类集成。只需一个命令,就可以在您自己的数据集上微调模型中心上的任何Transformer模型。这些模型将在磁盘上序列化,这意味着您可以将它们上传到Hugging Face Hub,或重新使用它们来帮助您标注数据。这可以节省大量时间,特别是对于NER任务。要重新使用训练好的NER模型,您可以使用hf.correct.ner配方。
python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl这将为您提供一个与之前类似的界面,但现在模型预测也将在界面中显示。
第二个同样令人兴奋的功能是,您现在还可以将标注的数据集发布到Hugging Face Hub。如果您有兴趣分享其他人希望使用的数据集,这非常棒。
python -m prodigy hf.upload <dataset_name> <username>/<repo_name>我们特别喜爱这个上传功能,因为它鼓励协作。人们可以彼此独立地标注自己的数据集,但在与更广泛的社区共享数据时仍然受益。
我们希望这种与Hugging Face生态系统的直接集成能够让许多用户进行更多实验。Hugging Face Hub为广泛的任务和语言提供了许多模型。我们真诚希望这种集成使数据标注变得更加容易,即使您有更特定领域和实验性的用例。
该库的更多功能正在开发中,如果您有更多问题,请随时在Prodigy论坛上联系我们。
我们还要感谢Hugging Face团队对此插件的反馈,特别是建议添加上传功能的某专家。谢谢!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。