首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI “智商”不及6岁小孩,如何提高他们有一招

AI星动向第期

在年轻人电脑前,图文、音频快速闪过。他们可能在为自动驾驶公司标注路上的红绿灯和行人,也可能是在为无人售货公司标注面包巧克力,还可能是在为医疗肺部影像标注病毒数据。

这是云测数据公司办公室的日常一景。尽管阿尔法狗已经能在围棋上战胜人类,但主流AI 的“智商”,还不如一位6岁小孩聪明。于是标注员的工作,就像是“幼儿园老师”教会机器识别。

举例来说,想要教会机器识别“苹果”,在人看来很简单的一件事,但在机器看来,苹果的颜色、大小、甚至被咬掉了一口的苹果,都需要大量且精准的“苹果”AI数据进行训练,直到“教会”机器人能识别各种不同的苹果。

如果标注的不够精准,就会导致后期机器学习时候出现差错。前不久,云测数据宣布,其数据最高交付质量精确度达到99.99%。

与外界认为的数据标注是一项劳动密集型产业,在云测数据总经理贾宇航看来,数据标注已经逐步走上技术密集型。

◎教AI认识世界

数据激增催生百亿标注产业

人工智能的三驾马车是数据、算力、算法,其中数据是人工智能行业的发展基石,也是驱动AI向前快速飞奔的“燃料”。

海量的数据需要进行加工、提炼,于是采集标注需求涌向市场。据艾瑞咨询《2020年中国人工智能基础数据服务白皮书》预测:到2025年,AI基础数据服务市场规模将突破100亿元。

“在5G时代,数据不再是以线性增长来衡量,有人测算过,近两年的生产量是历史数据依赖度90%。这么庞大的数据,从采集、清洗到标注,都需要在短时间内高质量完成。”贾宇航说,数据标注得越准确,数量越多,模型效果越好,最后的AI产品效果就越好。

伴随着业务的扩张,云测数据已经与数百家企业提供AI数据服务,在华东、华北、华南设有数据交付中心和数据采集基地,为智能驾驶,智慧城市,智能家居,智慧金融等领域提供数据采集和数据标注服务。

数据标注有外包、众包和自建几种方式,在贾宇航看来,随着产品量产加速、算法模型日趋成熟,人工智能更重视的是技术迭代,专人专用,发挥自己的长处。

◎有场景理解

从标注到给出预测乃至建议

当下,AI数据呈现越来越复杂的特性。AI产品落地场景的复杂性导致数据场景需求的多元化,如光线强度、拍摄角度、噪声要求、室内室外等;同类数据也表现出样本多样性,仅就声音的数据,可能就包括年龄、性别、口音等差别。此外,针对同一应用目标的数据多维化,例如智能驾驶就可能同时需要摄像头、激光雷达、超声波雷达等不同传感器产生的数据。

显然,AI发展初期那种直接应用或者购买成品“数据集”的做法行不通,数据标注质量的差异,成为不同AI细分领域行业的短板。

贾宇航认为,通过提升场景化数据采集的能力,帮助客户还原落地场景所需要的AI数据,从源头保证AI数据的质量,才能更好的应用于AI产业化的深度落地。

以机器人听懂人说话的这一需求为例,NLP数据具复杂性,除了对意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少,在这一过程中需要数据标注公司就需要对需求进行拆解、预判甚至提前给出建议,这对AI数据服务商的专业性提出了很大挑战。

“伴随着AI产品逐渐从感知智能上升到认知智能层面,已有的物体识别,人物识别,行为识别,其背后的目的,不只是为了识别,而是基于特定规则进行处理或统计。”贾宇航说,云测数据具备针对人工智能应用中的特定场景规则的解析能力,完成对特定规则范本的知识图谱搭建,配合感知智能的数据处理能力,进而为产业赋能。

◎不只是靠人力

高学历才能应对专业知识

在很多人看来,数据标注更像是一种重复性工作,而在云测数据看来,数据标注涉及的领域包括教育、安防、金融、交通医疗和电商等等,每天都在挑战学习能力,以更深入了解自己标注的内容可以应用到的行业。

“很明显,一个熟练的司机对驾驶场景的理解,就好过一个没有驾照的人。”贾宇航说,在自动驾驶领域,存在一个长尾效应。可能AI模型已经覆盖了90%的的场景,但剩下的10%的长尾场景需花费更多的精力去覆盖,才能应对突发情况,比如一个人穿着cosplay的服装在路上,TA也应该被算法识别为人。

围绕智能驾驶,要知道的情况远不止这些,比如标注员还要知道什么品牌、三厢还是两厢车,等等,通过比对发现,有驾驶经验的标注员显然比没有驾照的精度要高很多。而在医学领域,也只有专业的医生才能看懂CT。

贾宇航说,每一个行业都需要结合所对应的场景,对知识有足够的积累,才能完成标准的工作。随着人工智能从学术走向产品落地,数据标注已经从劳动密集型变成技术密集型,更需要有专业知识的加持。

“有时候开玩笑说,任何成年人去卖保险都没有问题。但他们对保险行业知识的理解、知识图谱的构建,并没有那么深刻理解。再比如,一些医疗领域,甚至需要专科人才、研究生,才能真正懂AI数据背后的实际意义。标注员现在标注数据,未来可能向数据治理、数据解决方案设计等方向发展,或者走向管理岗位。”

在贾宇航看来,数据标注产业正在向两个方向发展,一是随着人工智能从学术走向产业落地,对数据的精度需求也越来越高,质量也越来越严格;二是对场景的理解越来越高,早期数据标注是由计算机科学家来引领,但随着产业落地,也需要产业人士的一定参与。

【记者】郜小平

【策划】陈韩辉、程鹏

【出品】南方产业智库

【作者】 郜小平

南方产业智库

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201117A0AC6I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券