前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我猜,你还不知道数据标注公司在做什么吧?

我猜,你还不知道数据标注公司在做什么吧?

作者头像
用户1737318
发布于 2018-12-24 07:44:03
发布于 2018-12-24 07:44:03
1.4K0
举报
文章被收录于专栏:人工智能头条人工智能头条

大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境: 首先对公司的管理方面就是巨大的挑战,在研发产品的同时还得把大量精力放在如何管理大量标注人员身上。 其次大量全职的标注人员的薪酬对于初创型公司和研究实验室也是一个不小的挑战.....

01

基础架构

数据标注行业,一个因为人工智能崛起而新兴的行业。

大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境:

首先对公司的管理方面就是巨大的挑战,在研发产品的同时还得把大量精力放在如何管理大量标注人员身上。

其次大量全职的标注人员的薪酬对于初创型公司和研究实验室也是一个不小的挑战。

为了更好的协调AI公司、AI实验室与群体标注人员的供需关系,本文中所指的标注公司就是在这样的大背景下,应需而生。

那么问题来了,如何运营一家标注公司呢?

本文先从最基础的标注公司架构开始介绍,不同阶段的标注公司的运营是有差别的。

最基础的标注公司应该具备以下4点:

· 标注员

这也是组成标注公司最重要的一点,有一批优秀的标注员一定可以让你的公司事半功倍。

那么怎么样的标注员才能算是优秀呢?这里有几个衡量标准:首先数据标注的终端是AI、是人工智能。

数据标注的最终数据是为计算机服务的,所以越精细的标注对计算机的训练越高效,这就要求我们的标注员一定要是一个细心认真的人。

越细心、越认真,标注数据的精细度就越有保证。

其次,因为需要标注的数据的场景是千变万化的,会有各种各样复杂的场景出现,这就要求我们的标注员要有较强的观察能力。

观察能力越强的人,标注出的物体轮廓也就离物品的真实轮廓越相近,越准确。

最后,因为数据标注在单一的场景中需要重复一个或者几个动作,除去判断,这种重复的劳动是相对比较枯燥的,这就要求我们的标注员需要有耐心能够坐得住。

越有耐心,能坐得住,标注数据的稳定性就越有保证。

· 审核员

审核员一般都是从优秀的标注员中挑选出来的。

因为数据标注是一个类似于熟能生巧的行业,一个标注员接触过的标注对象越多,场景越复杂,那么他也就越有可能更快、更准确的判断出复杂场景中的被标注元素,这些都是靠时间和经验堆积出来的。

自身是一个优秀的标注员,这种标注员在审核时会同样把自身对标注的要求传达给其他标注员,这对于提升标注数据的整体质量是有很好的帮助带动作用。

· 项目经理

项目经理主要就是对于项目组的各个成员(包括标注员和审核员)的管理,项目经理最好是能够有一定的AI基础。

有AI基础的项目经理,在和上游需求公司对接的时候能够供轻松的进入项目本身,能够更快更准确的了解上游公司标注的具体需求,减少沟通时间的同时,避免因为沟通规则上的误差导致下游标注员重复返工的情况。

· 运营总监

运营总监严格意义上也就是公司的创始人了,运营总监基本上就是奔波于各类 AI 企业,各种 AI 实验室,说简单一些就是寻找需求方。至于可能大家比较关心的怎么找,本文后续会有更多详细介绍。

人工智能或者说AI会成为未来的趋势,已经是大势所趋,不论国外还是国内的互联网科技巨头都在布局 AI 产业,从谷歌、亚马逊、Facebook 到阿里巴巴、腾讯、百度、京东都在积极的布局自己的 AI 体系。

与此同时,我们国家的决策层提出:人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。

02

市场结构

由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。 但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。 才能保证在发放任务的时候总是有充足的大众志愿者进行合作.....

随着 AI 浪潮的斩头露角,数据标注行业也犹如雨后春笋般蓬勃的发展起来。

本文就目前国内数据标注行业存在的几个阶段性结构特征进行展开,让更多想了解数据标注的 AI公司、AI 实验室、准备加入数据标注的朋友们,快速熟悉目前数据标注行业的现状和运营数据标注公司应该注意的若干问题。

数据标注市场目前有下面几种结构:

· 众包结构

顾名思义,就是把需要完成的任务分发给大众志愿者(也就是市场上说的兼职)。这其中就出现了众包公司。

众包公司联系到需求数据标注的客户,和客户建立合作关系后,将客户需求传达给合作的大众志愿者,从而形成一个“需求公司——数据标注众包公司——多个大众志愿者”这样一个众包结构 。

这种众包结构的优点就是可以组织起社会上的大众志愿者进行数据标注,而大众志愿者不用占用太多的公司资源,劳动力成本相对较低。

对于数据标注众包公司费用支出的核心——人工来说,无疑是可以极大的减少公司的运营成本,从而使公司自身在面对需求数据标注的客户时的报价更具有竞争力。

当然,众包结构的缺点和优点一样显而易见,甚至可以说它的缺点已经慢慢的大过了它的优点,为什么这么说呢?

需要拥有大量的志愿者基数,由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。

但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。

才能保证在发放任务的时候总是有充足的大众志愿者进行合作。

沟通成本高昂,而当大众志愿者的数量能够满足任务要求时,我们又不得不面对另一个事实:

数据标注众包公司在与需求公司洽谈合作时只能有针对性的进行数据标注类型的选择。

如果在选择数据标注项目上普遍撒网,就会面对公司自身需要投入巨大的精力去培训那些不断更迭的大众志愿者。

而很多时候公司在大众志愿者合作方面节约下来的成本,其实已经全部转嫁到了公司培训、纠错诸如此类的沟通环节。

数据保密困难,目前国内的AI公司,AI实验室还没有形成井喷之势。但就现阶段而言依然有众多AI公司,AI实验室在进行着高度重叠的产品研发。

对于有标注需求的公司来说,如果被标注数据都是真金白银获取来的,那么倘若在众包环节众包公司处理不当,很有可能AI公司辛苦获取的数据就成了其他AI公司的嫁衣。

无法给予需求公司灵活的服务,因为大众志愿者拥有流动性的特点,一旦需求公司改变原有标注需求,数据标注众包公司是没有办法在较短的时间进行调整的。

同时,数据标注众包公司的客户群体也相对单一,由于大众志愿者的群体特点,数据标注众包公司只能把更多精力放在需要大批量数据标注,同时标注规则相对简单的需求公司。

但是AI的训练是一个阶段性的过程,基本上都是:小批量找特征训练——较小批量简单场景训练——较小批量复杂场景训练——大批量训练。

在数据标注众包公司砍掉处在第一阶段的AI公司和AI实验室的时候,其实也就是砍掉了相当一部分潜在客户。

· 工厂结构

有了众包结构里的兼职架构,下面就着重介绍一下全职架构,也就是工厂结构。

工厂结构相较于众包结构形式上要简单一些,省去了中间众包商这个环节,进而形成了一个“需求公司——数据工厂”这样的工厂结构。

相较于数据众包公司,数据工厂的优点就是标注人员稳定,能做到需求方和数据标注方即时沟通,沟通成本大大降低。

同时,由于数据是以一对一的形式进行传递的,也大大降低了数据被泄露的可能性。

虽然工厂结构可以有效的规避很多众包结构中存在的种种问题,但是依旧有很多问题他是没办法解决的,那我们就看看有哪些问题工厂结构解决不了呢?

选择标注公司的困难,在市场上可能有成百上千个工厂结构的数据标注公司,但是有数据标注需求的公司应该如何选择呢?

如果没有选择正确的标注公司,不仅得不到高质量的标注数据,更有可能因为数据大批量不合格而重复返工,进而耽误了原本项目的工期。

而在这个AI公司百家争鸣的时代,时间才是最重要的,谁的产品最先出世,也就最有机会获得资本的垂青。

但是有标注需求的公司如何在众生百态的标注市场中选择一个质量和效率双重过硬的公司其实是一件非常困难的事情。

工厂结构公司两极分化,因为各种各样的原因,工厂结构的公司两极化很明显:较大的可以达到上千人;而较小的,只有几个人。

因为两级分化的原因,市场现在就会出现一个很有意思的现象:

大的公司很少会去对接短期且数据量较少的项目,因为承接较少的数据量对于一个较大的工厂结构的标注公司来说很有可能都不够公司日常的管理运营成本;

反之,小的标注公司可以承接短期数据量较少的项目,但是在大批量数据杀到的时候,又会显得捉襟见肘,难以承接。

人工成本风险较高,首先因为是全职,不论有没有任务,都涉及一个员工薪酬的发放。

其次,需求方公司的需求有大概率是呈周期性的,就是有可能这周公司有项目做,下周可能就没有了。

这就会映射出一个工厂结构的数据标注公司非常尴尬的处境:合同期限内需要完成的大项目可能需要大量人员进行参与。

可是一旦合同结束了,公司却又没有找到后续能够进行人员分配的项目,这就会给数据标注公司的运营带来挑战。

· 众包+工厂结构

有了众包和工厂结构的总结,我们不难发现,他们各有各的优点,也各有各的缺点。这里提出的众包+工厂结构,其实就是将两者进行了优缺点的融合,扬长避短。

那么大家肯定会有疑问,怎么融合呢?如何才能将这两种结构很好的在实际操作中统一起来呢,欢迎大家持续关注微博,在后面的篇幅里,会有详细介绍。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
面向接口/协议?看DuerOS的技能开发
一般地,开发一个对话系统或者机器人问答系统会涉及诸多领域的技术,除了硬件系统之外,还包括语言识别,自然语言处理/识别,知识图谱的搭建,自然语言生成及TTS播报等等,这对于企业及开发者个人而言,几乎是难以完成的任务。
半吊子全栈工匠
2019/03/18
7710
面向接口/协议?看DuerOS的技能开发
用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发
为什么要掌握JavaScript呢? 使用JavaScript能能否开发AI应用么?
半吊子全栈工匠
2019/04/25
2.8K0
用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发
DuerOS开发者春季沙龙之技术分享概要
若干年前的北大西南门早已消失在了四环路边,曾经的海淀图书城变成了现在的创业大街。周六的下午,在百度的创新体验中心,举办了DuerOS 核心开发者的交流活动。
半吊子全栈工匠
2019/04/25
3630
DuerOS开发者春季沙龙之技术分享概要
AI开发者大会中的公开课摘要解读——DuerOS技能开发与CFC编程
在百度2019AI开发者大会上有很多相对精彩的公开课,DuerOS相关的公开课有4场,分别是:
半吊子全栈工匠
2019/07/12
4620
AI开发者大会中的公开课摘要解读——DuerOS技能开发与CFC编程
声如其闻,DuerOS中的声音播放
智能语音设备的特点是语音交互成为人机交互的重要方式,智能语音设备的声音输出摆脱了预置的逻辑,成为了响应式反馈,尤其是对声音输入的响应。在智能语音设备上,基于语音交互的服务被称为技能,通过诸如DBP(DuerOS Bot Platform)开放平台开发技能,进而提供基于语音交互的服务,关于面向DuerOS的技能开发可以参考《面向接口/协议?看DuerOS的技能开发》。
半吊子全栈工匠
2020/10/10
2.8K0
声如其闻,DuerOS中的声音播放
谢谢...,DuerOS开放平台的2020
“逝者如斯夫,不舍昼夜”,这一年,DBP(DuerOS Bot Platform)作为DuerOS 的技能开放平台有哪些变化呢?
半吊子全栈工匠
2020/12/30
8600
一个安卓App,如何成为DuerOS 上的技能应用呢?
我们经常谈到的移动互联网是与智能手机密不可分的,iPhone 这样的智能手机改变了人们使用手机的交互方式——由功能机(feature phone)的按键式交互变成了触控式交互。对于开发者而言, 意味着嵌入式应用框架的转变,详情可以参考《探索嵌入式应用框架(EAF)》。
半吊子全栈工匠
2020/08/04
1.3K0
一个安卓App,如何成为DuerOS 上的技能应用呢?
调试DuerOS的智能语音技能
进入了智能语音时代,我们都已经熟悉了如何在DuerOS 上开发一个智能语音技能应用,典型的流程如下:
半吊子全栈工匠
2020/01/14
1.4K0
调试DuerOS的智能语音技能
故事工厂在DuerOS技能开发中的应用——百度2019AI开发者大会DuerOS公开课摘要解读之四
在百度2019AI开发者大会上有很多相对精彩的公开课,DuerOS相关的公开课有4场,分别是:
半吊子全栈工匠
2019/07/17
5770
故事工厂在DuerOS技能开发中的应用——百度2019AI开发者大会DuerOS公开课摘要解读之四
感知自然语言理解(NLU)
AI即人工智能是一个令人着迷的领域,尤其是基于对话式AI系统的智能音箱的兴起,使人工智能直接走进了我们的家庭。
半吊子全栈工匠
2019/03/12
1.9K0
感知自然语言理解(NLU)
DuerOS中的代理机制
代理,在架构设计中是一种常见的机制,在DuerOS 开发平台(DuerOS Bot Platform,DBP)中的设计同样如此。在《当你问代理机制的时候?指的是Agent,Proxy,Broker还是Delegate呢?》谈到了4种代理机制,在DBP中使用的是哪些代理机制呢?
半吊子全栈工匠
2021/07/14
6810
DuerOS 应用实战示例——机器狗DIY
【引子】我的专辑《DuerOS 的AI 实战》涵盖了DuerOS应用中较多方向的内容,有点有面,已经有39篇文字,本文是第40篇。四十不惑,如果读者目前还无法掌握DuerOS的应用全貌,或许这一篇文字能给大家提供帮助。
半吊子全栈工匠
2022/06/24
1.2K0
DuerOS 应用实战示例——机器狗DIY
DuerOS的零编程技能实现
我们正在步入智能语音时代,而DuerOS正在为生产和生活中的智能语音赋能。开发者可以使用DuerOS提高的Bot SDK,像开发Web应用程序那样完成智能语音技能的开发。
半吊子全栈工匠
2019/11/21
7920
DuerOS的零编程技能实现
聊聊“异步”
在我们编程的时候,经常会遇到一个概念——异步,诸如异步通信,异步线程,异步代码,异步调用,异步编程等等,那么
半吊子全栈工匠
2020/08/11
9920
聊聊“异步”
益智乐园——DuerOS的又一盈利之路
在小度系列产品中, 一个叫做『益智乐园』的栏目逐渐引起了人们的关注, 这是一个由益智、娱乐、游戏组成的板块,集成了多种领域相近,题材和形式又各不同的技能和内容。例如在我自己的小度有屏设备上, 益智乐园的样子是这样的——
半吊子全栈工匠
2022/03/29
9840
益智乐园——DuerOS的又一盈利之路
放心用吧!浅谈DuerOS的安全性
“我们每个人都是安全工作者”(参见关于软件开发,都应该知道的10个常识), 这绝不是一句戏言。在人工智能智能领域,安全同样是一个重要的话题。AI操作系统要保证系统的安全性,那么基于AI操作系统的开放平台同样要保证安全性。
半吊子全栈工匠
2019/05/28
1.2K0
聊聊“全双工”
“全双工”一词对于通信专业出身的老码农而言太容易引起曾经的记忆了,“通信就是计算机”也是大学的一位老师给我印象很深的一句话。那么——
半吊子全栈工匠
2020/05/15
2.4K0
聊聊“全双工”
AI开发者大会中的公开课摘要解读——如何在DuerOS技能中实现用户支付购买
在百度2019AI开发者大会上有很多相对精彩的公开课,DuerOS相关的公开课有4场,分别是:
半吊子全栈工匠
2019/07/12
9340
AI开发者大会中的公开课摘要解读——如何在DuerOS技能中实现用户支付购买
在校大学生能成为DuerOS 的独立开发者吗?
答案是肯定的。在去年百度开发者大会上,中学生都可以成为DuerOS的独立开发者。只要你会用Javascript(nodejs)或者python 编程,有一台可以上网的电脑再加上一个好点子,就可以零成本创建丰富的DuerOS 技能服务,成为一个合格的独立开发者。
半吊子全栈工匠
2019/05/13
5550
在校大学生能成为DuerOS 的独立开发者吗?
当你问代理机制的时候?指的是Agent,Proxy,Broker还是Delegate呢?
正如人们在各种日常活动中存在着形形色色的代理机制一样,在计算机科学领域,代理机制乃是解决各种复杂难解问题的基本途径之一。
半吊子全栈工匠
2019/07/24
4.4K0
推荐阅读
相关推荐
面向接口/协议?看DuerOS的技能开发
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档