前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >解密「天池」:如何做好一场万人AI竞赛的「大后方」?

解密「天池」:如何做好一场万人AI竞赛的「大后方」?

作者头像
机器之心
发布于 2023-03-29 10:25:25
发布于 2023-03-29 10:25:25
5460
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

一场一万五千人的竞赛,如何确保比赛顺利进行?如何保证公平公正?在这场活动中,阿里技术专家为我们解读了阿里云天池平台背后的技术支撑。

人工智能大数据竞赛有所了解的同学想必都听过「天池」这个平台。各大论坛上也流传着各路学长 / 学姐通过天池晋升 AI 大神、Offer 收割机的传说。

除了让这些学长 / 学姐 C 位出道之外,天池最近又参与了一件大事——为首届全球人工智能技术创新大赛提供平台和算力支撑。

大赛由中国人工智能学会联合杭州市余杭区政府联合发起,参赛用户达到 15000 多人,其中不乏来自清华、北大、浙大、剑桥、牛津、密歇根、普渡、南洋理工等中外名校的参赛者。如果你发现身边有几个同学最近忙得脚不沾地,除了上课根本看不见人影,那他们八成也是「陷进去了」。

从规模来看,为这样一场赛事提供平台和算力支撑是一个不小的挑战:不仅要构建强大的数据集,还要解决数据集保护、算力公平性、结果可复现性等诸多问题。面对这些挑战,天池是如何克服的呢?

在大赛主办方发起的「AI 青年说」系列活动中,来自阿里云天池的两位技术专家——陈漠沙和盛乐乐为我们解答了关于天池平台、数据集建设的一些问题,揭开了「天池」的神秘面纱。

阿里云天池平台是中国最大的 AI 开发者社区,面向社会开放高质量数据(阿里数据及第三方数据)和计算资源,让参与者有机会运用其设计的算法解决各类社会或业务问题。如今,该社区已经承载了电商、金融、工业、医疗等上百种场景的赛事,合作或服务了百余家机构。

这些成就的取得离不开坚实的技术支撑。为了更好地支持各类比赛,天池平台推出了模型评估工具 TCC(TianChi Computing),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化。2020 年,天池在 TCC 的基础上推出了业界首创的流评测机制,推动竞赛模型评估迈向新高度。

在本次活动中,阿里云天池竞赛平台技术专家盛乐乐为我们详细解读了 TCC 在竞赛场景中发挥的作用,包括 TCC 在这次大赛中怎么使用、如何保障赛事公平公正,对参赛者的技术能力有哪些要求,以及一些历史案例解读、竞赛中常用工具分享等。

在支撑各类赛事的同时,这些比赛也为天池平台沉淀了大量的高质量数据集。为了让这些数据更好地服务社区,天池团队提出了一个系统化的建设思路。

在本次活动中,阿里云天池平台首席科学家陈漠沙为我们介绍了天池数据集的建设情况,包括天池数据集建设的初衷、在行业里的应用和价值以及生态建设情况等。

在圆桌讨论环节,两位专家还分享了自己在参与平台构建过程中的成长经历和业务思考,包括参赛要做哪些准备,有哪些常见误区等。

在下文中,机器之心在不改变原意的基础上对两位专家的分享进行了整理。

盛乐乐:天池竞赛平台 TCC 技术解密

大家好,作为今年全球人工智能技术创新大赛的平台支撑方,今天很荣幸来跟大家一起分享一下天池竞赛平台 TCC 的相关内容。首先我会先介绍一下 TCC 是什么,TCC 在这次大赛中怎么使用,TCC 如何在大赛中维持赛事的公平,以及 TCC 对各位选手的技术能力有哪些要求。然后我会简单结合我们过去几个不同领域的大赛,来解读一下 TCC。最后,我还想跟大家一起分享一下参赛中比较实用的一些工具,来帮助大家更好地去完成比赛。

TCC 是什么?

首先,为了保障这次竞赛的赛事质量,我们在复赛阶段都会采用 docker 的形式来提交。选手需要将自己的代码和软件环境打包成一个 docker 镜像提交到平台,平台会在统一的软件和硬件环境中运行,得到结果和分数。就像第一张图片所示,选手只需要提交自己的镜像链接,填写之后点击提交,页面里面就会出现一个状态的变化。

状态变化的过程中,你会收到一些邮件提醒,告诉你当前的代码运行情况。同时,每次状态的变化都会提醒你去查看日志或者查看成绩。对于长时间运行的代码,你可以及时得到反馈。当你收到结束的状态提醒的时候,你就可以到「我的成绩」页去直接查看自己的成绩。

如下图所示,这里其实举的是一个出错的状态截图。当你发现自己运行错误的时候,你就可以去点击「查看日志」的按钮,查看自己的错误日志,从而修改自己的代码。

如果一切顺利,那么你可以在「我的成绩」里面看到自己的成绩。同时,你可以在排行榜里面看到自己的排名。

在复赛的过程中,有的赛道你还可以看到自己模型的运行效率、时间,甚至你超时了多少条。

TCC 有什么用?

接下来,我们来看一下 TCC 在这次大赛里发挥的一些作用。

今年,全球人工智能技术创新大赛总共分了三个赛道,分别是医学影像报告异常检测、PANDA 大场景多对象检测跟踪以及小布助手对话短文本语义匹配。其实对于竞赛而言,公平公正永远是第一位的。TCC 作为平台支撑方,主要从三个方面来保证大赛的公平权威

首先,我们从数据安全出发,支持数据不可下载不可见,甚至是不可读,测试系统以流式的形式来分发测试集,支持同时在线训练和在线预测。本次大赛的三个赛道其实都要求测试集不可见,因此在线上做预测的时候会自动挂载测试集,防止模型对测试集的过度分析带来的过拟合等问题。

同时,TCC 特有的流评测机制可以实现类似荷官发牌的形式,将数据集以单条数据的形式分发给选手,这样可以避免选手模型过度接触测试集,防止基于测试集的无监督模型学习等。同时流评测的形式可以精细粒度地保障模型效率。比如在这次竞赛中,我们的赛道二是对大场景下的图像目标检测,赛题要求我们单张图片预测的时间必须控制在 90 秒内,否则成绩无效。

其次,从竞赛公平性上来看,平台统一的硬件环境可以帮助我们拉平选手间的算力差异。在以前没有提供 TCC 竞赛环境的时候,我们遇到过一只获奖队伍,在做代码复现时我们发现,选手是在 128 张 P100 的 GPU 上训练一周得到的模型。所以后面我们希望大家能在相同的算力条件下比拼算法。

统一的硬件环境也为模型的可复现性提供了基础。可复现性一直是竞赛里非常重要的一环,不仅需要统一的硬件环境,还需要完整的软件环境(不同的软件版本或者系统都可能导致复现出现较大偏差)。而 docker 镜像解决了软件环境问题。平台导出的优胜模型镜像具备了直接运行和可完整复现的能力。

此外,针对越来越来越多的环境交互类赛题,如强化学习,样本效率是评估模型非常重要的一个指标,如何限定在统一的样本效率下评估模型是平台能够支持此类赛题的要求。

其实除了以上这些,我们还有一个弹性的集群资源(GPU 资源),可以保证我们大赛选手在高频和大量并发提交的时候不用等待,在资源有限的情况下,让大家更好地去提交。

接下来,我想举几个具体的例子。这些例子来自不同领域的历史大赛,从中我们可以看出 TCC 在大赛中发挥了什么作用。

第一个是非常常见的工业质检类竞赛,这是我前年实地跑过的一个赛题。当时,江小白是希望最终应用在流水线上,代替人工识别瑕疵杂质的。所以我们必须要求选手模型对单张图片的预测效率满足流水线要求。TCC 的评测机制可以定制精细化的效率控制,精细到单张图片的预测时间。所以我们当时要求单次 infer 的时间必须要小于 4 秒。其实,TCC 在评测机制里面可以精细化地定制每一次预测时间的限制。

第二个例子是一道时序类的数据挖掘竞赛,我们需要用历史数据和日志来预测未来服务器的故障事件。但是这类时序类竞赛一直都有一个痛点,就是我们如何去保护测试集,防止模型提早读取到未来的数据来做预测。为了解决这一问题,天池的流评测就限制了测试集不可读。流评测通过给模型喂数据的形式掌握了模型预测的主动权,从而保障模型无法提前接触到未来的测试数据

最后介绍下我们去年举办的一个机器人竞赛,这也是我们首次尝试将 iros 的机械手臂赛事搬到云上举行。当时,我们面临着两大难题。第一,虚拟显示设备不具备 GPU 加速能力,导致模拟器帧率从几十帧降到线上的几帧,这严重影响了模型效率,可能导致模型无数据可读。后来我们自己开发了一套集群共享的 GPU 版本虚拟显示设备来解决这个问题。第二个问题是评测一次需要的时间非常长,大约要几天才能出一次成绩,这对于赛题方和选手来说都是难以接受的。因此,我们借助 TCC 的分布式评测架构将选手模型镜像到多台机器,协同完成全量场景的评测,将几天才能评测完的任务降低到了几个小时

TCC 与选手

其实在 TCC 的发展过程中,我们不只关注平台的技术发展,同时也会关注选手的成长。所以我们今年发布了第一本面向 AI 开发者的 Docker 电子书。

其实,docker 技术不止应用于大赛,更逐渐成为 AI 开发者的必备技能之一。天池成了很多开发者第一次接触 docker 的场景。这么多年来,我们培养了一批又一批的开发者,培养他们的 docker 使用习惯。很多学生赛后跟我说 docker 很好用,他们在实验室已经用起来了。因为实验室往往是多个同学共用一台服务器,大家可能使用的环境都不一样,用了 docker 大家可以互不影响。

除了电子书,我们去年也尝试发布了一个竞赛工具包——ai-hub。这是一个 Python 包,并不局限于竞赛,在日常开发中也会经常用到,主要目的是方便大家在云端进行开发、训练。

其中的 inferServer 模块已在大赛中得到了广泛应用。借助该模块,我们通过简单的几句调用就可以完成模型到服务的转化。

未来,我们会继续围绕开发者的需要开放更多功能模块,比如右边 Notice 模块。这个模块一直是我自己用的。因为训练模型是一个耗时的操作,开始训练后我需要去忙别的事情,但是我又希望训练异常或者训练结束时能够第一时间得到通知,这样可以节省我的时间和算力,快速开始下一个尝试。Notice 就提供了一个消息通知的能力,同时它也支持发送 plot 图像到手机端,因为云端往往没有显示器,想要看一下 loss 曲线或者某张图片其实是挺麻烦的,有了 ai-hub 就可以 plot 到手机端查看图表。

最后,我想讲一下 TCC 的愿景。我们希望 TCC 是做最公正的模型评估排行,做最专业的赛事保障,筛选最优秀的算法

TCC 致力于为选手提供公平公正的竞赛环境,通过技术的与时俱进和持续创新来保证赛题的权威,为参赛选手提供更好的参赛体验。

希望在大家的共同努力下,我们可以用算法解决更多实际的商业或社会问题。

陈漠沙:人工智能基石建设——数据集

大家好,我今天报告的题目是《人工智能基石建设:数据集》。我会从以下两个方面来进行陈述:第一部分我会整体介绍一下天池数据集;第二部分我会介绍下天池数据集的生态。

天池数据集简介

我们先从三组关键词说起。

第一组关键词是 AlphaGo 围棋战胜李世石、自动驾驶和 AlphaFold 破解蛋白质分子折叠结构。「AlphaGo 围棋战胜李世石」是 16 年的一则新闻,标志着深度学习技术的兴起;最近几年,「自动驾驶」也从人类幻想开始逐步走向商用;今年年初,又有了一条很令人振奋的消息:AlphaFold 破解蛋白质分子折叠结构。这些关键词的背后体现的是人工智能技术(AI)。

第二组关键词是大家比较熟知的,它其实更多是从数据层面来阐述的,包括大数据、数据技术,还有最近比较火爆的数字经济。这背后体现出的就是大数据,我们叫 Big Data。

第三组关键词包括分布式计算云计算、CPU、GPU,这背后体现的是算力,我们把它统称为 Cloud。

ABC 整体组成了人工智能的三驾马车:数据对应 Big Data,算力对应 Cloud,算法对应 AI。这三个元素之间是相辅相成的:数据规模的增加对算力提出了更高的要求;算力提升之后又会促进算法的提升;算法性能提升以后又会反过来反哺数据和算力。它们整体形成了一个正向的循环,保证了技术不断的迭代发展。

在这里面,数据是非常关键的一环,它是整个人工智能技术发展的基石。接下来我会从数据的角度来谈一下天池数据集建设的思路以及我们的一些经验

首先我先介绍一下什么是天池。天池是阿里巴巴于 2014 年推出的、面向全球的高端数据竞赛平台。经过这么多年的发展,天池目前已经承办了 400 多场机器学习、大数据的比赛,沉淀了 60 多万的大数据爱好者。这些开发者分布在 98 个国家的 4300 多所高校中。可以说,天池是中国目前最大的人工智能开发者社区。天池的比赛横跨很多行业,包括电商、金融、医疗、交通以及自然科学等多个领域。

通过比赛入口沉淀了这么多数据集以后,我们其实在想怎么能把这些数据集更好地组织起来,让它去服务社区的开发者。为此,我们提出了一个系统化的建设思路。

首先来看我们的使命。我们的使命是让开发者有机会接触和使用大数据,运用算法解决社会或者业务问题。我们的目标是通过制作并开放阿里集团脱敏后的精品数据集,联动第三方数据集提供方(比如高校、企业、事业单位)共建有影响力的 AI 科研数据平台,助力人工智能新基建发展。

从数据集的使用情况来看,其实科研占了非常大的比重。很多学生在写毕业论文的时候就已经在使用天池的数据集了,很多高校也使用天池的数据集发表了一些有影响力的工作,比如在 AAAI、ACL 等国际顶级会议上发表一些论文。

讲完天池的整体概况之后,我们来看一下天池数据集在行业里面的具体应用情况

以电商领域为例,我们提供了覆盖广告点击率预测、淘宝服装搭配、电商标题预测等核心场景的一些数据集。在自然科学领域,我们也做了气象预测(比如降雨量预测)等一些关注民生的赛题数据。在交通领域,我们有航班调度、路径规划等有意思的赛题数据。这些赛题都来源于真实的业务场景。我们希望通过数据来撬动算法的应用与创新,更好地推动人工智能算法在行业里面的落地与应用

在思考数据集在行业中的价值的时候,我们提出了这样一个观点:建设行业多任务标准数据集是人工智能技术规模化应用的前提。这一结论的得出是基于以下思考。

首先,行业在数字化转型的过程中,缺乏标准数据集和数据集标准,导致有些成果无法量化或者公开化评估。在今年刚颁布的「十四五规划」中,我们可以看到:在数字经济章节,国家首次提出了要建设重点行业人工智能数据集。这也呼应了我们的观点。

其次,算法模型的落地需要提升模型的泛化能力。过往都是算法在某个特定数据集或者某个特定任务上表现优异,迁移到其他数据集或任务上性能就会有很大落差。如何提升模型的泛化能力和通用性?一个很自然的思路就是构建一个多任务的数据集榜单或者 benchmark 来进行模型泛化能力的评估。

这两个行业痛点是我们提出行业多任务数据集背后的思考逻辑。

下图是我们在医疗领域做的一个多任务数据集榜单工作。这是一个中文医疗信息处理挑战榜,由中国中文信息学会医疗健康与生物信息处理专业委员会发起、天池以及其他从事医疗 AI 研究的单位共同协办,目标是建设成为医疗信息处理领域最权威的 benchmark,以促进行业的发展。 

这个榜单囊括了信息抽取、医学临床试验入组/出组筛选分类、医学问答等常见的医疗 AI 任务,包括 8 个公开的任务。榜单一经推出便得到了业界的广泛关注。参与打榜的选手包括各大知名高校和医院科研单位。欢迎大家扫码参与或提出建议。

天池数据集生态

在介绍完数据集之后,我来讲一下天池数据集的生态。

我们知道,光有数据集是不够的,我们需要思考如何发挥数据集的价值。为此,天池为开发者创造了一站式的学、练、赛开放平台,目标是全方位地提升开发者、人工智能从业人员的算法水平,帮助他们积累更多实践经验。

在「学」这个板块,我们提供了天池 AI 训练营,目标是为 AI 入门玩家提供从零到一的完整学习路径。此外我们也推出了天池读书会,每周会定期邀请行业大咖来给开发者分享热门书籍和实战经验,让大家学习更有效率。

在「练」这个板块,我们提供的天池 Notebook 是基于阿里巴巴机器学习 PAI 提供的 DSW 平台,提供了 IDE、计算资源一体化的实战平台。开发者可以在 notebook 上使用数据集,基于数据集开发算法,也可以通过优秀选手分享的解决方案来提升自己的能力。

经历了学和练之后,开发者们可以在比赛中一展身手,把自己所学应用到真实应用场景的数据集中,来验证效果,比如全球人工智能技术创新大赛。

很多选手通过天池一站式的学、练、赛平台和天池数据集掌握了人工智能技术。从这方面来讲,天池平台是在做一件公益性质的事情。

最后给大家提醒一点,如果要使用我们的数据集去做一些研究工作,并且要发表的话,大家需要进行规范的学术引用,格式如下:

如果有研究成果发表,大家需要通过天池的公共邮箱做一个申报,来获取激励。

圆桌论坛:天池学长的成长分享和业务思考

Q1:阿里云天池平台如今承载了电商、金融、工业、医疗等上百种场景的赛事,已合作或服务了百余家机构,这些赛事运作也为天池平台沉淀了海量的、高质量数据集,漠沙老师可否向我们科普下天池是如何参与这些数据集制作的?这应该是个门槛很高的事情吧?

陈漠沙:我们在做数据集的时候是非常讲究专业性的,要求专业的人来做专业的事情。从赛题的命制到数据的采集、标注,我们都有非常专业的团队来支撑。在拿到标注数据以后,我们还会有一个非常严格的质检流程。从而保证放出来的数据是高质量、高规格的。

Q2:所以我们可以理解天池平台的运作实际上需要大量的人力、物力、成本,那么天池作为一个有影响力的 AI 开发者社区,做这件事情的出发点是什么?尤其是在一家商业公司中,对天池的利好和挑战分别有哪些?

陈漠沙:这个问题其实让我想到了天池的初心。在 14 年的时候,大数据这个概念是非常火爆的。我们在走访一些高校的时候也发现,很多高校都已经开设了大数据的课程或者讲座,甚至还有一些学校成立了大数据学院。但当时的一个痛点是,老师和学生其实是接触不到企业大数据的。所以我们就在想,能不能把阿里的一些业务数据集开放给高校做科研。后来考虑到一些竞技性的因素,我们就把它做成了比赛。

在天池的发展过程中,我们发现很多复杂的算法其实还需要有比较强的算力。这些算力的成本是比较昂贵的,对绝大部分学生来说都不太现实。因此,我们就免费开放了天池实验室,学生可以在天池 Notebook 上玩转大数据,开发自己的算法。最终,我们是希望把天池打造成一个学习、比赛一体化的平台。

我们希望通过数据集更好地去服务科研和创新,同时助力传统行业进行数字化转型,让人工智能技术在业务场景中发挥更大的价值。我们的使命是让开发者有机会接触和使用大数据,并且通过算法来解决真实的社会、业务场景问题。天池会一直坚持自己的初心,让这个社会变得更美好。

Q3:从开放的天池平台中有收获的同学应该不少,乐乐也是其中一员。你作为曾经的天池大赛冠军,现在参与天池平台的架构设计、赛题开发、以及答辩评审等,天池平台对你有怎样的影响?特别是现在从事天池平台自身的建设,又有哪些体会?

盛乐乐:我觉得最大的体会应该是更看重模型的实用性。过去几年,我们有很多大赛并没有把模型效率作为大赛指标,但是在答辩环节经常会有专家老师询问选手模型的推理效率,并且很看重模型效率是否满足实际应用场景的需要。因此,TCC 应用后,我们也逐渐把模型效率考核纳入竞赛指标,让更多选手能在模型设计之初就将实用性考虑进来,从而推进优秀算法的可落地性。竞赛和实际应用不一样:在竞赛里面,分数是模型好坏的唯一标准;但是实际应用需要关注模型的实用性,包括如何落地、模型效率、泛化能力等。所以作为竞赛平台方,我们也在不断改进我们的评测机制,从而让竞赛不再只关注单一的指标。

Q4:今天收看节目的同学除了乐乐的心路经历,肯定也特别想了解参赛秘籍,可以给我们剧透一些吗?

盛乐乐:如果有秘籍的话,我就去打比赛了,哈哈~ 不过其实大赛也是不断轮回的过程,不同的场景和数据解决的是相同或者相似的问题,要学会利用历届大赛,把历史大赛分类总结。比如去年江小白的酒瓶瑕疵检测就对应了今年的广东工业瓷砖瑕疵检测。不同的场景数据,相同的瑕疵检测问题。直接借鉴历史大赛的代码分享和技术文章,再认真学习下当时的答辩视频,你也可以在新的大赛中获得很好的成绩。我觉得这算是一条秘籍吧。

Q5:所以参加天池竞赛到底需要哪些技术能力?门槛怎样?

盛乐乐:首先你需要选定一个方向,如 CV、NLP,然后找到对应的学习路径。天池平台其实也为刚入门的同学提供了一个类似知识树的页面。通过这个页面,你可以看到每个方向最简短的学习路径,对这个领域有一个大致的了解。

同时,你要学会边学边练,从学习赛开始。学习赛是我们从历届比赛中筛选出来的一些优秀比赛,已经有很多前辈在学习赛里面沉淀了很多优秀资料。一般的学习赛都会有一个 baseline,你可以从 baseline 开始,学习他们的代码,然后融会贯通。到了正式的比赛(大概两三个月的时间),如果你能坚持下去,在正式赛里面不断地和其他同学交流、学习,然后尝试这个领域不同的一些算法,那么两个月之后,你就会不知不觉地发现其实自己的能力已经得到了非常大的提升。这个时候,在这个领域里面,其实你已经有了相当丰富的经验了。

要参加天池的比赛,除了专业能力,你还要掌握基础的 docker 能力,才能完成大赛的提交。这部分可以参考我前面分享的面向 AI 开发者的 docker 电子书。其实你只需要掌握如何把自己的代码打包成镜像在云服务器上运行起来即可,不需要精通所有的操作,docker 是工具,满足需要即可。

Q6:我留意到刚才乐乐一直在强调数据集的使用。看起来在天池平台上,整个的使用体验和市面上的数据集概念是有明显区别的。漠沙老师,天池在数据集的构建方面到底有哪些特点?

陈漠沙:我觉得天池数据集有四个特点。第一个特点是,它是跟天池大赛结合起来的,我们也有很多独家的产业数据集在里面。第二点是安全性。因为针对不同安全等级的数据,我们会提供不同的安全策略来保证数据的安全。数据在我们平台上的安全系数是比较高的。第三点是系统性的一站式数据集托管平台。从数据的上线、申请到后续的论文引用,我们提供的是一个一体化的系统服务。如果你的数据集有一些论文代码,你也可以借助直播等形式在天池平台上做一些解读。最后一点就是刚刚说的专业性。在数据集的建设过程中,我们会整合阿里巴巴内部及外部的一些专家资源。以我们最近推出的一个中文信息处理挑战榜单为例,这个数据集由中国中文信息学会医疗健康与生物信息处理专业委员会发起,我们在参与过程中得到了阿里达摩院、阿里健康和夸克浏览器等兄弟部门的帮助,可以保证榜单的专业性和权威性。

Q7:其实业内一直都热衷讨论的话题就是如何让数据真实有效的同时,确保隐私和安全,这点天池是怎么做到的呢?

陈漠沙:首先一定要重视的一个问题是数据的合规性,比如像人脸、患者电子病历等涉及生物指纹的数据我们是不能去开放的。一些医学影像的数据,虽然我们平台有开放,但也是患者签署知情同意书之后才拿来做比赛的。我们背后有一个非常专业的法务团队帮我们去做审核。拿到数据以后,如果它的合规性没有问题,我们内部还有一个非常严格的审核机制。第一道是机器审核,用于拦截恐怖、色情等不健康的内容,保证开放出去的数据集是健康合规的。开放之后,如果社区开发者反馈说数据有问题,我们运营同学也会第一时间去跟进、审核,发现有问题就会下架。

在技术层面,我觉得阿里巴巴在数据开放层面走得是很靠前的,比如数据如何脱敏,如何打水印,这些研究成果已经在天池中采用了。另外,我们还会跟进一些非常前沿的数据安全技术,比如联邦学习区块链,不断升级我们的数据安全策略。

最后,从平台层面来讲,盛乐乐老师提到了 TCC 这样一个平台。数据开放模式包括以下几种:1)数据可下载;2)数据可见、不可下载;3)数据不可见、不可下载。针对不同的数据安全等级,TCC 会采取不同的数据安全策略。

综合以上三点,我们其实是能比较好地保证数据隐私和安全的。

Q8:天池平台在这方面的建设确实领先行业,相信未来会有越来越多的开发者通过平台了解更多技术,也一同加入平台的建设,两位老师可以给屏幕前的选手们一点寄语吗?鼓励鼓励!

盛乐乐:第一,坚持到最后才会胜利。其实我之前也参加过一场天池竞赛。竞赛就是逆水行舟。当时,我们是每天早上 8 点起来看排行榜更新。如果你前一天没有去更新你的成绩,就是没有往前走,第二天你一定就被别人超越了。在排行榜上,你可以看到今天你比昨天下降多少名。所以说找到一个志同道合的队友相互鼓励非常重要,比如我就是很难依靠自己走到最后的一个人。

第二,对数据的理解要深入。新手往往容易忽略数据集的重要性而放大模型的重要性,这是个误区。通常情况下,数据和模型花的时间要尽量做到五五分。当你的模型优化遇到瓶颈时,一定要回头看看数据。

第三,保持学习,尽量多尝试不同的方法。你在参加比赛的时候会遇到各种选手,大家各自用不同的方法。尽量把常用的方法都跑一遍。真正地自己跑一遍之后,你才能发现每一个方法到底有什么好,有什么不好,最后才能融会贯通,得到最优的一个解决方案。

陈漠沙:我觉得乐乐老师刚才的分享已经非常精彩、非常到位了。我想从其他角度提几点要求。第一点,我希望学生在取得好的成绩之后能够把经验分享给我们的社区,让社区更加繁荣。第二点其实要回到天池的初心,我们是做技术公益的。我们希望学生在参加这个比赛,通过数据集解决一些真实场景问题的时候,能有更多的思考。想一想如何能通过技术促进国家、社会的发展。

四期AI青年说,精彩不断

「AI青年说」系列活动共有四期,邀请多位嘉宾就 NLP、CV 以及本届大赛进行技术解读与圆桌讨论。点击阅读原文,收藏直播间,持续关注「AI青年说」系列活动。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属 BERT !
AI科技评论
2020/02/21
6170
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
BERT与Transformer模型
自然语言处理(NLP)作为人工智能(AI)的一个重要分支,致力于让计算机理解、生成和处理人类语言。近年来,随着深度学习技术的飞速发展,特别是Transformer架构的提出,NLP领域取得了显著进展。特别是BERT(Bidirectional Encoder Representations from Transformers)模型的出现,它彻底改变了NLP任务的处理方式,并在多个标准数据集上达到了前所未有的性能。
LucianaiB
2025/02/10
3480
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
本文介绍了 2019 年中 机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向。
机器之心
2020/02/24
3460
NLPer复工了!先看看这份2019机器学习与NLP年度盘点吧
MIT课程全面解读2019深度学习最前沿 | 附视频+PPT
人类公元纪年2019年伊始,深度学习技术也同样处在一个新的“开端”,宜review、宜展望。
量子位
2019/04/24
7230
MIT课程全面解读2019深度学习最前沿 | 附视频+PPT
受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19
论文链接:https://arxiv.org/pdf/1911.05507.pdf
AI科技评论
2020/02/21
9630
一文看尽2019全年AI技术突破
最近,Analytics Vidhya发布了2019年AI技术回顾报告,总结了过去一年中,AI在不同技术领域取得的进展,并展望了2020年的新趋势。
OpenCV学堂
2020/02/21
6380
「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,我想重点介绍一些我在2019年遇到的与机器学习和NLP相关的最重要的故事。我将主要关注NLP,但我还将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文,工程工作,年度报告,教育资源的发布等。
深度学习技术前沿公众号博主
2020/05/18
6570
「自然语言处理NLP」的“高光时刻” --- 28篇标志性论文
NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优
选自arXiv 机器之心编译 编辑:Panda 在当前 NLP 领域,基于 Transformer 的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升,也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考:预训练是否也能提升卷积在 NLP 任务上的效果?近日, 资源雄厚的 Google Research 的一项大规模实证研究填补了这一空白。结果发现,在许多 NLP 任务上,预训练卷积模型并不比预训练 Transformer 模型更差。本文将重点关注该研究的
机器之心
2023/03/29
2400
NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优
CNN+Transformer=SOTA!CNN丢掉的全局信息,Transformer来补
在计算机视觉技术发展中,最重要的模型当属卷积神经网络(CNN),它是其他复杂模型的基础。
新智元
2021/04/14
1.3K0
Transformer 架构—Encoder-Decoder
最初的Transformer是基于广泛应用在机器翻译领域的Encoder-Decoder架构:
JOYCE_Leo16
2024/03/19
1.1K0
Transformer 架构—Encoder-Decoder
ACL 2019年度回顾:自然语言处理发展趋势
今年7月底,计算语言学协会年会(ACL)在风景优美的佛罗伦萨召开。会场设在了一座古老的Medici家族的城堡中。
大数据文摘
2019/08/20
6940
ACL 2019年度回顾:自然语言处理发展趋势
不只有BERT!盘点2018年NLP令人激动的10大想法
最近,爱尔兰的NLP研究科学家Sebastian Ruder写一篇文章,基于12篇经典论文盘点了2018年NLP领域令人激动的十大想法。
量子位
2018/12/28
7010
2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?
2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究科学家 Sebastian Ruder 近日帮我们对去年的机器学习社区进行了一番总结。
机器之心
2021/01/27
5230
2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?
在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?
ICLR是机器学习社群最喜爱的会议平台之一。如今,机器学习领域的会议已成为预印本里论文质量的标志和焦点。但即使这样,论文的发表数量还是越来越庞大,这使得紧跟最新进展变得困难。
大数据文摘
2020/05/19
7100
在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?
从 ACL 2019 看 NLP 未来发展趋势
随着自然语言处理领域的顶级盛会 ACL 2019 落幕,亚马逊 Alexa AI 的机器学习科学家 Mihail Eric 对本次会议进行了一次比较全面的回顾。从奇闻轶事到学术前沿,本文一网打尽,自然语言处理领域的小伙伴们不要错过!
AI科技评论
2019/08/19
8100
从 ACL 2019 看 NLP 未来发展趋势
2019,不可错过的NLP“高光时刻”
谷歌AI 提出了 ALBERT 模型,这是 BERT 模型的简化版本,用于语境化语言表示的自监督学习。相较于 BERT,其在模型更加精练的同时更有效地分配了模型的容量。该模型在12个 NLP任务中都达到了最优效果。
AI科技大本营
2020/02/12
5680
2019,不可错过的NLP“高光时刻”
Transformer架构的演进:从BERT到GPT-5的技术突破
Transformer架构自2017年被提出以来,已成为自然语言处理(NLP)领域的核心架构。从BERT到GPT-5,这一架构经历了不断的优化和创新,推动了AI技术的快速发展。本文将深入探讨Transformer架构的演进历程,分析从BERT到GPT-5的技术突破,并提供详细的代码示例。
江南清风起
2025/03/28
2810
自然语言处理五年技术革新,快速梳理 NLP 发展脉络
机器之心发布 机器之心编辑部 机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。 2021 年伊始,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。 此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻
机器之心
2023/03/29
1.2K0
自然语言处理五年技术革新,快速梳理 NLP 发展脉络
谷歌研究院出品:高效 Transformer 模型最新综述
近年来,基于自注意力机制的 Transformer 模型在自然语言处理、计算机视觉、强化学习等领域的学术研究中取得了巨大进展。例如,在自然语言处理领域,Transformer 已经成为了现代深度学习技术体系中不可或缺的重要组件。
AI科技评论
2021/01/08
1.9K0
谷歌研究院出品:高效 Transformer 模型最新综述
原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
自然语言处理(Natural Language Process,简称NLP)是计算机科学、信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言。自然语言处理的研究,最早可以说开始于图灵测试,经历了以规则为基础的研究方法,流行于现在基于统计学的模型和方法,从早期的传统机器学习方法,基于高维稀疏特征的训练方式,到现在主流的深度学习方法,使用基于神经网络的低维稠密向量特征训练模型。
数据派THU
2020/11/03
1.1K0
原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
推荐阅读
相关推荐
势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档