Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通用文本标注工具 labelme

通用文本标注工具 labelme

原创
作者头像
理查德
修改于 2017-11-09 03:17:29
修改于 2017-11-09 03:17:29
11.5K4
举报
文章被收录于专栏:理查德的专栏理查德的专栏

导语: 一个支持文本类目标注和关键词打分的通用标注工具,为文本分类模型和关键词抽取任务提供训练和测试数据。-- by 慕福楠 & 孙振龙

1. 背景

很多 NLP 任务训练和评估都依赖大量标注数据,对于文本分类,使用标注数据进行模型训练和评测,如商业兴趣分类、电商分类、APP分类;对于关键词抽取,使用标注数据进行评测。在标注数据获取过程中存在以下问题:Excel 标注方式效率低下;腾讯系数据源多,标注数据难于管理;标注质量难以保证,依赖人工抽样,费时费力。因此,我们快速开发了一个通用的文本标注工具并开源,工具名称为labelme,翻译成“来标我”,现在labelme已经支持组内所有的标注任务。

2. 支持的特性

图1 labelme支持的特性

2.1 多场景

目前支持文本类目标注(图2)和关键词标注(图3)两个场景。类目标注支持树状类目体系,标注时自顶向下标注,从root标注到叶节点,例如图2中,先标一级“餐饮美食”,再标二级“餐馆”。关键词标注支持正在打分的关键词在文档中高亮和增加候选中没有的关键词功能。

图2 类目标注界面

图3 关键词标注界面

2.2 多任务

labelme支持多个任务同时标注,通过简单的配置即可增加新的标注任务,配置如图4,然后在系统登录页选择相应的Task进行标注,如图5所示。

图4 配置定义

图5 系统登录页

2.3 质量校验

为了保证标注数据质量,labelme引入质量校验特性,利用专家标注的数据验证普通标注人员的标注数据的准确率。将开发或者产品定义为Owner(专家),将外包同学定义为Labeler(普通标注人员),Owner标注的数据作为Golden Set,Labeler每天的标注数据中掺一定比例的Golden Set,比例可配置(配置定义中的owner_sample_ratio字段),每天以Golden Set作为正确答案,计算Labeler标注的准确率。Labeler之间的标注数据不会有交集,见图6,每天分配给Labeler的Golden Set是Labeler没有标注过的,所以一旦Golden Set用完,系统无法计算准确率,需要Owner定期标注一些Golden Set计算Labeler的准确率。

图6 各角色标注数据交集情况

2.4 Active Learning(待实现)

对于类目标注, 为了提高标注效率和减少不必要的标注,可以利用已有标注数据训练弱分类器,对未标注数据进行预测,假定预测的结果为Pi (i = 1, 2, ...N;N是类目的个数),预测结果为c = argmax_i Pi,即样本的预测类别为c,概率为Pc,labelme将Pc低于threshold的样本返回给标注人员进行标注,Pc高于threshold的样本认为是跟已标注样本很相似,不需要再标注。每天重新训练弱分类器,重新预测未标注样本的类别,重新估计threshold。另外,为了降低系统复杂度,弱分类器与labelme解耦,labelme提供接口给弱分类器,接口包括获取已标注数据和未标注数据,更改未标注数据预测类别,弱分类器由用户自行选择。另外,labelme优先展示概率比较大的类目,提高标注效率。

2.5 CDB数据管理

labelme采用mysql管理标注数据,mysql使用CDB,保证数据安全,毕竟标注数据需要大量人力。

2.6 报表推送

labelme会向任务的owner和labeler推送报表,报告样本总量,已标数据,剩余数量,每个人前一天标注数量和准确率。

3. 未来计划

未来工作包括UI优化和Active Learning。UI优化包括上一页按钮和查询界面,上一页按钮为了修改误标的数据,查询界面是报表的扩展,提供更多维度的查询,比如某个外包同学特定时间段内所有任务的标注量和正确率。对于Active Learning上文提到了未来的实现方式,这里不再赘述。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
4 条评论
热度
最新
求地址
求地址
回复回复点赞举报
求开源、
求开源、
回复回复点赞举报
开源地址在哪里?
开源地址在哪里?
回复回复点赞举报
开源在哪里
开源在哪里
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
NLP | 实用文本标注工具推荐
从事NLP以来,最常接触的就是各种文本标注工具,现在网上能找到的支持中文文本标注的开源工具不多。在我们团队发展前期,尝试了很多不同的开源工具,像是BRAT,YEDDA,DeepDive,由于之前做的大多是实体标注的项目,这些开源工具基本可以满足需求,但在使用过程中也存在着诸多不便,比如安装过程十分复杂,界面都是英文的,交互做的不够清晰,这些对标注人员都很不友好。
Ediwnaalee
2020/03/05
5.7K0
NLP | 实用文本标注工具推荐
标注工具labelme_数据标注从哪里接单
Labelme 是一个图形界面的图像标注软件。其的设计灵感来自于 http://labelme.csail.mit.edu/ 。它是用 Python 语言编写的,图形界面使用的是 Qt(PyQt)。
全栈程序员站长
2022/10/01
2.3K0
标注工具labelme_数据标注从哪里接单
业务安全(1)-天御内容安全
此系列将写一个系列给大家介绍腾讯云上的业务安全产品,希望加深大家对于腾讯业务安全产品的了解和熟悉,使用。
张瞳
2020/11/03
5.4K0
业务安全(1)-天御内容安全
Snorkel实战NLP文本分类
本文是作者一个tweet/微博文本分类实战项目的全程重现与总结。该项目的最大特点是使用了弱监督技术(Snorkel)来获得海量标注数据,同时使用预训练语言模型进行迁移学习。
用户1408045
2019/08/22
2.1K0
Snorkel实战NLP文本分类
​吊打labelme,这款AI开发神器的图像标注yyds!
AI 的发展有三大内核:数据、算法、算力。现如今,算法和算力在市面上的差距显然已经没有那么大,能够给 AI 提供充足弹药支持的当属数据了。深度学习算法精度的提升严重依赖于数据,谁的数据既多又准,谁的算法精度就可能领先一步。
3D视觉工坊
2021/07/28
1.2K0
​吊打labelme,这款AI开发神器的图像标注yyds!
美团大脑百亿级知识图谱的构建及应用进展
导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:
DataFunTalk
2022/07/23
2.3K0
美团大脑百亿级知识图谱的构建及应用进展
外卖商品的标准化建设与应用
外卖菜品命名个性化程度高,为运营分析、召回排序、后台管理等业务带来一定的困难。本文系外卖美食知识图谱系列的第二篇文章,介绍了外卖从零到一建设菜品标准化体系的过程及方案,涉及的主要技术包括NLP领域的实体抽取、文本匹配、关系分类,以及CV领域的图像匹配等。最后,通过标准名在外卖业务中的应用实践,验证了标准名体系建设的价值和意义。
美团技术团队
2021/05/31
9460
外卖商品的标准化建设与应用
干货 | 弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
近年来,得益于深度学习的巨大发展,自然语言处理(NLP)领域也爆发了多个如 BERT 等state-of-the-art模型,供从业人员使用。但是这些开源的最先进的模型大多是在通用的基准数据集上训练得到的,当我们在具体工业场景中使用时往往还是需要在具体使用场景的数据集上进行微调。获得这些特定领域数据集的传统方式是人工标注。这些手工标注的数据集创建起来既昂贵又耗时,特别是对于一些比较难的任务往往人工标记的准确度也无法达到要求。
携程技术
2021/09/10
2.4K0
干货 | 弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
IJCAI2019报告:基于无监督学习和图学习的大数据挖掘
在IJCAI-2019期间举办的腾讯TAIC晚宴和Booth Talk中,来自TEG数据平台的张长旺向大家介绍了自己所在用户画像组的前沿科研结果: 1. 非监督短文本层级分类; 2. 大规模复杂网络挖掘和图表示学习。 其所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图表示学习等做大数据挖掘。 科研结果1:非监督短文本层级分类 首先以下用户和AI算法的对话,显示了现实业务中使用现有监督文本分类算法的遇到
腾讯技术工程官方号
2019/08/20
1.5K0
IJCAI2019报告:基于无监督学习和图学习的大数据挖掘
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
机器之心报道 作者:QQ浏览器实验室 这篇ACL 2022研究提出了一个简单而有效的文本语义匹配的训练策略,通过分治的方式将关键词从意图中分离出来。 作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 举办。受到疫情影响,国内 NLP 从业者参与大会受到很多限制。 为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心在 5 月 21 日组织了「ACL 2022 线上论文分享会」。
机器之心
2022/05/27
9220
ACL 2022 | 腾讯QQ浏览器实验室提出文本语义匹配训练策略,与PLM结合效率不减
美团外卖美食知识图谱的迭代及应用
菜品是外卖交易过程的核心要素,对菜品的理解也是实现外卖供需匹配的重点。今天我们将一次推送三篇文章,系统地介绍了美团外卖美食知识图谱的构建和应用。《美团外卖美食知识图谱的迭代及应用》会介绍外卖知识图谱的体系全貌,包括菜品类目、标准菜品、美食基础属性和美食业务主题属性。《外卖商品的标准化建设与应用》将重点介绍外卖菜品标准化建设思路、技术方案和业务应用。由于外卖的业务特点是搭配成单,而《外卖套餐搭配的探索和应用》一文会针对性地介绍外卖套餐搭配技术的迭代以及应用实践。希望对从事相关工作的同学能够带来一些启发或者帮助。
美团技术团队
2021/05/31
9490
美团外卖美食知识图谱的迭代及应用
Python酒店评论文本数据分析:tf-idf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近算法KNN、随机森林、LDA主题模型
随着互联网的普及和移动端的应用的飞速发展,消费者在各大电商平台进行活动交易时产生了大量的行为数据,在线评论文本就是其中一种。
拓端
2023/01/10
7820
labelme:图像数据标注
深度学习第一步就是制作数据集,手动去标注一些数据。本文将介绍一个用于图像数据标注的软件:labelme,并介绍它的安装方法,使用方法等。
数据科学工厂
2023/02/27
5.1K0
labelme:图像数据标注
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
摘要:本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景,包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战;然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题,而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。
数据拾光者
2022/05/05
8200
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
YOLO半自动标注技术助力铁路检测,人工标注时间骤降80%!
大规模图像和视频数据集的人工标注通常耗时、易错且成本高昂,这成为铁路视频故障检测中机器学习工作流的主要瓶颈。本研究提出一种半自动化标注方法,利用预训练的YOLO(You Only Look Once)模型优化标注流程,提升铁路视频故障检测精度。通过以小规模人工标注数据为起点,该方法通过迭代训练YOLO模型,利用每轮输出提升模型精度,逐步减少人工干预需求。
CoovallyAIHub
2025/04/11
2190
YOLO半自动标注技术助力铁路检测,人工标注时间骤降80%!
labelme图像标注_ai标注工具
参考:https://blog.csdn.net/u011574296/article/details/79740633
全栈程序员站长
2022/10/01
1.3K0
labelme图像标注_ai标注工具
干货 | 深度学习在携程搜索词义解析中的应用
携程旅游研发部大数据与AI研发团队,为旅游事业部提供丰富的AI技术产品和技术能力。
携程技术
2022/12/14
1.3K0
干货 | 深度学习在携程搜索词义解析中的应用
PNAS | ChatGPT在文本标注任务中表现优于众包工作者
今天为大家介绍的是来自Fabrizio Gilardi的一篇讨论chatgpt能力的论文。许多自然语言处理(NLP)应用需要进行手动文本标注,用于训练分类器或评估无监督模型的性能,这是一个常见的任务。根据任务的规模和复杂程度,这些任务可能由众包工作者在MTurk等平台上进行,也可能由经过培训的标注员,比如研究助理,来完成。作者使用包含六千一百八十三个样本的四个推文和新闻文章数据集,展示了ChatGPT在多个标注任务中的表现优于众包工作者。在这四个数据集上,ChatGPT的零样本准确率平均超过众包工作者约25个百分点,同时ChatGPT的标注员间一致性在所有任务上均超过众包工作者和经过培训的标注员。此外,ChatGPT每个标注的成本不到0.003美元,比MTurk便宜约30倍。这些结果表明大型语言模型的潜力,能够大幅提高文本分类的效率。
DrugAI
2023/09/09
3160
PNAS | ChatGPT在文本标注任务中表现优于众包工作者
预训练技术在美团到店搜索广告中的应用
搜索广告在优化流量变现效率等商业指标之外,也需要重点优化用户体验,降低不相关广告对用户体验的损害,这样才能保证平台生态的健康发展。本文对预训练技术在广告相关性的落地方案进行了介绍,既包括训练样本上的数据增强、预训练及微调阶段的BERT模型优化等算法探索层面的工作,也包括知识蒸馏、相关性服务链路优化等实践经验。
美团技术团队
2021/12/09
1.6K0
预训练技术在美团到店搜索广告中的应用
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(SpeechLMs)也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音(TTS)、自动语音识别(ASR)或翻译,在其他模态数据和任务上的泛化能力十分有限。
新智元
2025/02/15
1590
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
推荐阅读
相关推荐
NLP | 实用文本标注工具推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档