10月30日,在“AI紫竹 数智赋能”2024发展论坛上,蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲发表了主题演讲,分享了蚂蚁数科在人工智能(AI)数据服务方面的实践经验,并阐述了高质量数据在推动AI产业化中的关键作用。
李哲指出,当前AI行业快速发展,数据的重要性愈发突出。与算力和算法相比,AI在应用落地中愈加依赖高质量、特定行业的垂类数据,特别是在解决细分场景的实际问题时,更需依靠具有行业针对性和高精度的数据支撑。因此,李哲强调,高质量的数据服务将成为未来AI产业化的基础。
李哲将AI数据服务的发展分为三个阶段。在2014至2022年间的弱人工智能时代,数据服务的关键词是“数据闭环”,即通过数据反馈和模型迭代来提升算法性能,如图像识别中的人脸识别技术。李哲指出,蚂蚁数科在这个阶段致力于提升人脸识别的安全性,通过自动化数据闭环系统不断优化算法,以应对包括深度伪造视频在内的多种风险,形成了一套高效的安全性测试流程。目前,这一系统已广泛应用于安卓手机的人脸识别安全测评,为行业安全标准树立了标杆。
进入2022至2023年,以大语言模型为代表的生成式AI带来了第二阶段的变革。此时的数据服务重点在于高效的数据标注,以确保AI能够通过大规模数据训练具备人类知识和理解能力。李哲介绍,蚂蚁数科AI基础数据服务标注业务,涵盖医疗、出行、社交、金融等多个场景,结合自动化标注能力形成覆盖多领域的高效专业标注体系。
随着AI技术迈向AGI(通用人工智能)时代,数据服务迎来了第三个阶段,即多模态数据合成。李哲指出,未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气数据和具身智能的数据。在此背景下,数据合成成为关键,蚂蚁数科通过仿真技术和强化学习等方法,将生成的高质量数据应用于多模态模型的训练,进一步提升AI的泛化能力和适应性。
在具体的实践中,蚂蚁数科通过多个创新项目推动AI数据服务的发展。在数据管理和流通方面,蚂蚁数科推出了“DataFab”数据处理解决方案,实现了数据的可信、可控流通。李哲介绍,这一系统将蚂蚁数科内部各类数据资源整合,通过安全的流转机制,使数据高效服务于不同业务场景。目前,DataFab已在蚂蚁内多个业务主体中应用,支持千PB级数据处理,有效提升了大模型训练效率。
此外,李哲还展示了蚂蚁数科在AI安全方面的探索。针对人脸识别安全,蚂蚁天玑实验室联合多个机构推出国内首个金融场景“AI 换脸”检测标准;针对大模型安全性测评与伦理道德问题,蚂蚁数科推出了“蚁鉴”“天鉴”服务,为大模型在行业应用提供了全方位的安全保障。
李哲表示,蚂蚁数科将继续在AI数据服务和技术创新上深耕,与更多产业伙伴合作,共同推进AI技术在多行业的应用落地。
李仕静/文
领取专属 10元无门槛券
私享最新 技术干货