四海八荒的兄弟姐妹们大家好,你们可爱的小编又来给美腻动人,风流倜傥的你带来各种你感兴趣的话题和新闻啦嘿嘿,欢迎大家来到,轻松快乐任你来逛的“生活情报站” 恐怕这些都是开发者们迫切想要「一探究竟」的问题。 对此,UCloud 特别来到深圳举办了主题为「抱紧云 AI 的未来,你准备好了吗?」的沙龙活动,重点聚焦云计算助力 AI 发展的诸多方面,结合具体实践为开发者们答疑解惑!
会上,UCloud LabU 深度学习开发工程师范融为与会开发者带来了有关「AI 公有云平台实践」的主题分享。 当谈及建设 AI 平台的必要性时,范融表示,如今 AI 技术在适应不同场景时所呈现的算法形式多种多样,为了实现更多场景的兼容性,高效的平台建设对广大开发者来说必不可少。 更重要的一点,在整个研发周期中,面对源于 AI 的诸多问题,无论是企业还是开发者自然都要选择可以兼容更多深度学习算法以及框架,并保证存储、网络性能优势解决方案。一个优质的平台恰好可以达到灵活的横向扩展能力以及对业务规模的支持,另外在弹性、容灾简单方便的代码迁移等方面更是表现出色,如此看来 AI 平台建设可谓「功在千秋」了。 另外,范融在分享中还详细介绍了 UCloud 关于 AI 基础平台架构的「那些事儿」。在基础架构中,为了可以提供兼容性更好的运行环境,采用了封装、预装、自由、可重用、兼容性等多种技术方式。 「所谓的封装性,就是在运行具体任务时,并不用担心会对自身的安装环境产生干扰;预装呢?顾名思义,就是我们针对用户经常使用的深度学习框架以及科学计算包做了预装,这样在本地使用的话直接下载就可以,非常方便;另外一点就是自由,虽然已经安装了大部分科技计算包的用户可以做到开箱自用,但不排除有的用户涉及到的领域比较冷门,这样一来完全可以依照需要自行下载,正常运行相关安装包完全没有问题;还有一点是可重用,这在开源镜像数据库领域表现明显,可以做到为开发者们大量节省时间等。」她详细补充道。 当然,整体架构在灵活接入数据源、弹性资源调节等方面也有显著的优势。
据悉,范融所在的团队目前已经推出 AI 在线服务、AI 训练服务两个产品。其中 AI 在线服务 PaaS 平台在 2016-2017 年可信云大会上获得了 AI 行业云服务奖;AI 训练服务全程支持了 2017 年 AI Challenger 大赛的顺利开展,在该领域表现十分出色。 作为 UCloud 互联网事业部解决方案架构师,徐强长期从事大数据和 APM 领域工作,尤其对大数据行为分析和应用性能监控领域有深刻理解和丰富经验,这次沙龙也受邀作为第二位分享嘉宾并进行了主题为「云计算助力人工智能快速搭建底层资源」的演讲。 「如今 AI 简直太火爆了,但对于 AI 系统建设,大家并不是太清晰。从我们自身出发,通常着重考虑三个方面:首先是兼容性,这一点在图像类以及语音类表现突出,AI 算法与其兼容主要包括切合性;另外会十分注重平台扩展性,因为这涉及到训练数据成倍增长的情况;此外就是分布式化的特点,实践证明如果采用线下单机模式会十分影响效率。」徐强表示。 如果说 AI 系统建设是第一步的话,那确保 AI「踏实」落地究竟有哪些解决思路呢? 他认为,以 UCloud 自身出发,首先会涉及到一个数据共享的平台。众所周知,再高深的算法都需要大量数据的支持,怎样获取数据实在是个问题。如今是否有一种模式可以最大能力整合数据用于训练呢?安全屋的相关产品或许会起到一定作用。 此外,在环境分离、底层资源共享后期扩展性以及等方面,徐强强调,安全屋产品就是在保证数据所有权不变的情况下完成最大可能性的数据流通。
说到代表性的案例,徐强提及了 2017 年 AI Challenger 大赛。 赛事规模自不用多说,就连科研数据也是最大数量级的,据了解有 1000 万的中英文翻译数据,30 万的图像数据。 由于数据量庞大,主办方选择 UCloud 作为 GPU 提供方,对此提供了有关 AI 的整体解决方案。 「在底层提供了强大的算力资源、中间布置了 AI 在线服务以及 AI 训练服务、然后就是安全屋。将庞大的数据放入安全屋中,然后根据需要分发给不同的选手;选手同时将自己的算法上传到安全屋中,基于分发的数据做训练,只要计算出模型就可以将数据导入,十分安全。」徐强描述道。 总结来说,UCloud 一方面提供了底层的计算方法以及环境的自动部署,方便直接上传到 AI 系统;另一方面在收费方面也表现的更加人性化,按需收费只在执行过程中,其他时间不涉及费用问题。 此外,谈及数据安全性,「安全屋底层都是基于公有云平台,更重要的一点,我们采用的加密技术是基于区块链的不可篡改性,并同时增加了审计机制来保障安全。」他补充道。 现如今文档资料的内容自动化处理是人工智能技术落地的关键应用之一。 作为复旦大学计算机软件与理论的硕士,达观数据联合创始人张健曾在盛大创新院负责相关推荐模块,在文学数据中心肩负任务调度平台系统和集群维护管理、开发智能审核系统等相关工作。
在有关 NLP 的知识以及实践的分享中,他提到,其实电脑理解的文本与人理解的文本会有一些共同之处,通常也是从三个等级来体会。 例如,对文本进行字词分析;再在这个基础上做一些段落分析,涉及语法关系、上下文的纠错等;再上层就是篇章级分析,可以达到文本相似度、组织模型、分类模型等结果。 但 NLP 实践中最重要的还是解决如何将机器学习或者深度学习高效应用在文本处理中。 对此张健表示,深度学习的基础结构其实就是一个基本的神经网络,神经网络并没有想象的那么复杂。可以理解为是最基本神经源结构,会接受 S1、S2 输出,实现很简单分类的功能,只是需要满足一个很复杂的场景需求罢了。 此外深度学习无法规避基本结构的问题,也就是 RNN 和 LSTM。「我们在理解语言的时候,其实是一个信息流,也是一个序列信息,会像 S0、S1、S2。 如果讲一个字,当前时刻就可以把之前时刻的这种字词信息收纳进来并作为前项的输入,再与当前的字词结合后输出;但是 LSTM 除了具备这样一个结构,还增加了一个优点,就是人们在讲话的过程中,不可避免的是上下文环境中有些字词重要,而有些则不那么重要,LSTM 会对之前的信息进行有选择通过或者丢弃。 」他强调。
总结来看,深度学习用于文本挖掘的确显示了很多优点,例如可以使用大量无监督的数据提高能力;端到端的过程让文本输入、任务训练再到输出的环节并不需要做很多处理,更重要的是能够克服传统模型的缺点。 但张健提出,这种方式并不是完全没有缺点的,例如在小数据量的前提下效果不一定好,需要根据场景严格挑选适合的模型;另外调参工作量有时不亚于特征工程,甚至会限制部分应用。 此外,在现场分享时,张健还为与会开发者们提供了实践经验的小贴士来参考。 首先在业务场景层面,用户需要尽可能理解数据,分析问题本质并选择合适的模型;在使用的初始阶段,可以选择传统机器学习模型作为尝试,通过不断深化针对数据的理解来解决相关问题;最后就是还需要在不断的实践中迭代经验解决问题。 分享接近尾声,与会开发者还提出了「在 NLP 处理的过程中如果遇到长文本如何处理」的问题。 关于这个问题,张健回答道,长文本在直接只用 NLP 处理得到的效果确实不尽如人意。但是可以考虑使用 CNN 的方式来实现分类目标,STM、CNN 做底层的表示,在上层构建一些 CNN,这样效果会更好很多。 精彩分享仍在继续,现场气氛始终火热不减。
当前,AutoML 是人工智能发展的一个重要方向,受到 Google,Facebook 等诸多公司的重视,近期在 AutoML 领域,特别是深度神经网络模型搜索也呈现了很多突破性的进展。
在「AutoML 人工智能自动化模型设计与进化算法实现」的分享中,钱广锐表示,在当前的实际场景中的确存在很多情况是单一模型并不能完全适应的,复合型模型在一些场景中特别需要。人工智能模型的设计是一个复杂的工作,要设计的小、准、快更是复杂,对此探智立方在该领域做了很多探索。 「所有的框架以及算法是我们从大概年初刚刚开始实践的,这样一个人工智能模型自动设计平台被称为达尔文 ML。 真正的希望就是能够实践产品化的工作,用户只要数据输入,不需要做任何之前的预设假定就可以完成模型建设。 」他说。 此外探智立方从数据准备、模型设计、生产对接为达尔文系统提供了整套「配置」,所以在设计生产平台的同时也设计了一个推理平台,确保流程顺畅。
例如在工业制造方面,整个实践过程中有 5 万张照片,采取 200×200 的分类,钱广锐将其放到新平台中去,准确率可以达到 75% 左右,其中并没有做复杂建模处理的工作,这个案例可以发现,达尔文设计出来的模型特别小,准确率特别高。 无论是人工智能发展还是现有的一些场景中,很多场景模型的设计不只是在云端,由于达尔文设计出的模型比较小,钱广锐也希望未来可以在手机端快速识别票据等。 除了帮助企业应用落地,如何能在各个场景,例如智能制造、摄象头等统统实现也是很重要的目标。 感谢可爱善良的各位阅读文章,如果各位觉得小编的文章为你带来了欢笑,让你和同学,同事尽情八卦了半天,就给小编一个鼓励吧,动动你的小手点个赞或者评论一下哦!如果觉得小编说的不对,也在下方疯狂吐槽吧,小编会努力改正的。
领取专属 10元无门槛券
私享最新 技术干货