——聚焦数据 · 改变商业
大模型迈向产业的深度应用,首要挑战是高质量数据供给和安全流通。正如在今年的世界人工智能大会上,产学研届多位专家达成的共识是,数据决定了AI能力的上限。
在实践中,行业大模型难以获得高质量数据进行训练,也就难以获得解决专业问题的能力;另一方面,在技术服务生态中,企业客户、大模型厂商之间缺少基于技术保障的互信,一方担心数据泄漏,另一方担心模型资产安全。
一个新的技术路线——密态计算,为解决这一难题提供了新的可能。蚂蚁集团在2024年世界人工智能大会(WAIC)上发布的“隐语Cloud”大模型密算平台,是这一技术路线的典型应用实例。密态计算的产业化应用,不仅为大模型的产业深度应用,也为打通数据要素流通的梗阻,提供新的思路。
无论是大模型的训练还是推理应用,都存在数据瓶颈
当大模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在大模型训练和推理应用两个阶段:
大模型训练阶段,行业数据分散在不同机构,难以通过汇聚不同机构的行业数据构建高质量的行业大模型。
行业中的高质量数据通常分散在不同的机构和企业中,这种分散性使得数据难以集中用于大模型的训练。以医疗行业为例,患者的诊疗信息分散在不同的医院、诊所和健康管理机构中。这些数据不仅分布广泛,而且由于涉及患者隐私和医院的商业机密,彼此之间的数据共享极其困难。金融行业也面临类似问题,银行、保险公司和金融科技企业各自掌握大量的金融知识和客户数据,但由于商业和法律的限制,数据难以共享和整合。
大模型的性能高度依赖于训练数据的质量和数量,缺乏足够的高质量数据会导致模型无法充分学习行业中的细节和模式,进而影响其在实际应用中的表现。
大模型推理应用阶段,大模型厂商与企业客户之间的信任缺失问题难以解决。
除了数据分散问题,大模型厂商与企业客户之间的信任问题也是一个重大障碍。一方面,大模型厂商在将其模型交付给企业客户时,普遍担心模型资产被客户窃取。另一方面,企业客户担心大模型厂商会窃取或滥用他们提供的数据,导致商业机密和用户隐私泄露。例如,某制造企业在使用大模型优化生产流程时,可能会提供大量的生产数据和商业信息。如果这些数据被不当使用或泄露,企业的竞争力和市场地位将受到严重影响。这种相互的不信任,形成了明显的信任壁垒。
数据流通和应用的可信性问题,是大模型应用中另一个关键障碍。即使企业和机构愿意共享数据,也需要确保数据在流通过程中和应用中的隐私和安全。现有的数据流通机制和技术手段往往无法满足这种高要求,导致数据要素在跨机构、跨行业流通时面临诸多障碍。
密态计算,解决数据难题的那把钥匙?
随着大模型在各行业应用中的潜力逐渐显现,解决数据流通和隐私保护的难题变得愈发迫切。传统的隐私计算虽然在一定程度上缓解了数据安全问题,但其复杂性和效率问题限制了其广泛应用。
隐私计算作为一种保护数据隐私的技术,已经在数据流通和共享中得到了一定的应用。然而,隐私计算技术路线众多,在实际产业落地过程中存在“讲不清”、“看不懂”、“不敢用”、“用不起”的问题。不同的隐私计算技术,如差分隐私、多方安全计算和联邦学习,各有其优劣,但在实际应用中往往面临性能瓶颈和复杂性问题,难以满足大规模商业应用的需求。
密态计算为代表的新兴隐私计算的技术,是指在整个计算过程中,数据始终处于加密状态,以确保数据安全和隐私。密态计算在传统隐私计算的基础上进行了演进和升级,解决了隐私计算在规模化应用中的安全和效率问题:
软硬件结合,实现高效的数据密态处理
通过可信执行环境(TEE)和多方安全计算(MPC)技术的结合,密态计算不仅可以实现全程保密的数据处理,还能满足大规模数据流通过程中的高性能和低成本的要求。针对不同安全分组的数据,可以通过不同的组合方式设计不同安全等级的密态计算方案,满足不同场景下安全性和效率的平衡。在提高计算效率和实现规模化商用方面更进一步,使得技术在各行业中的广泛应用成为可能。
科技商业化加码,蚂蚁集团落子数据要素技术
在今年数字中国建设峰会上,蚂蚁集团董事长兼CEO井贤栋透露蚂蚁未来十年的科技战略,聚焦人工智能和数据要素技术。
早在2016年,蚂蚁集团就开始探索隐私计算技术,技术能力涵盖了全栈可信技术、多方安全计算、联邦学习、同态加密、差分隐私、机密计算等隐私计算全谱技术域。2022年,蚂蚁首创的可信密态计算获得数字中国建设峰会“十大硬核科技奖”, 隐语可信隐私计算技术栈被评为世界人工智能大会“八大镇馆之宝”之一。
推进数据要素技术的战略,只有技术储备是不够的,还要打通技术和商业应用。只有构建一个良好的技术+商业的循环,才能实现良性、可持续的发展。今年5月31日,蚂蚁集团成立了蚂蚁密算科技有限公司,这释放了一个关键信号——蚂蚁集团在可信数据流通领域已经从内部技术探索,开始走向市场商业化。
在WAIC上,蚂蚁密算推出了首款商业化产品——“隐语Cloud”平台大模型密算服务,首批推出大模型密态托管和密态推理两种服务。
隐语 Cloud 大模型密算平台的原理和特色 资料来源:蚂蚁集团
在大模型密态托管方面,模型提供方将大模型加密后托管在平台上,通过先进的加密算法进行分段加密处理,确保模型在云端存储过程中的安全。在大模型密态推理方面,用户数据以加密形式进行处理,确保数据隐私和商业机密不被泄露。通过可信执行环境(TEE)等技术,保证数据在推理过程中的全程加密处理,并采用多层次的安全保障措施,包括内存加密、磁盘加密和可信执行环境,防止数据泄露和篡改。
为了提升大模型推理的效率,“隐语Cloud”平台在可信执行环境下支持GPU计算,显著提高加密状态下的推理速度,使其接近明文状态。
谈到密算的未来发展,蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬说:“蚂蚁集团笃定相信数据的价值,我们的业务也很依赖于数据。我们认为数据要素的流通将为全社会、全行业带来巨大的变革,这个变革是非常深远的。蚂蚁密算的使命,是通过密算科技推动数据可信流通。”
用密态计算释放数据要素价值,让大模型真正规模化商用
展望未来,密态计算作为一种创新技术,将进一步提升计算效率和安全性,扩大应用范围。在计算效率方面,随着硬件技术的不断进步,特别是GPU和其他专用加速器的发展,密态计算的性能将不断提升。未来,密态计算有望通过更高效的硬件加速和优化算法,使加密状态下的计算速度进一步接近明文状态,在考虑了数据明文流通过程中的风险成本之后,以密态计算为核心的密态全链路的流通成本一定会低于明文计算流通成本。
某种程度上,密态计算技术的发展可以类比光伏产业的发展路径。最初,光伏发电成本很高,仅限于高需求、高价值的行业应用。随着技术进步和规模化应用,成本逐渐降低,最终达到与传统能源发电成本相当的临界点,从而实现大规模推广应用,密态计算也将遵循类似的路径。
正如韦韬分享的那样:一方面,数据价值在不断提升,而数据泄露带来的成本也在同步提升。另一方面,通过一系列技术创新,密态计算的成本在逐步降低。最终,当数据泄露带来的损失,超过密态计算带来的成本,部署密态计算系统就变得有利可图。届时,我们将来到一个临界点——数据处理的“光伏平价”时刻,这个时候,密态计算市场将迎来爆发式的增长。韦韬判断,当整个全链路密态计算的成本降低到整个数据流通价值的5%,就到了实现规模化推广的临界点。
当然,无论是推动密态计算产业发展还是释放数据要素价值,都还有大量的问题需要去解决。其中,有两项工作尤为关键:
覆盖数据要素全链条,构建一个完备的密态计算技术产品和服务生态。
数据要素生命周期,涵盖数据采集、存储、管理、治理、分析挖掘、流通、应用等多个环节,每个环节都需要成熟的技术产品去提供服务。密态计算也需要不断丰富技术产品体系,来提供全链条的服务。就蚂蚁集团而言,此次推出的“隐语Cloud”只是打前阵,相信后面还会陆续推出一系列的产品。而且,一花独放不是春,百花齐放春满园,为了更好释放数据要素价值,将来有必要构建一个密态计算的服务生态体系,结合生态伙伴的力量,来更好满足市场需求。
构建密态计算行业标准,降低实施过程中的技术难度和企业成本。
密态计算涉及多种技术路线和产品形态,为了推动数据要素流通和实现规模化推广,必须制定统一的技术标准和安全分级方法。技术路线分级和产品分级有助于企业根据不同应用场景选择合适的解决方案,从而提高效率、降低成本。标准化的技术框架可以为行业提供明确的指引,这不仅能够确保技术在不同场景中的应用效果,还能降低企业在实施过程中的技术难度和成本。
挑战很多,但应用前景可期。正如韦韬所说,无论是从数据还是算力角度,密态计算都有广阔的应用前景。数据方面,数据密态是未来的必然趋势,密算会成为数据可信流通的新算力。只有让数据是密态方式流通的时候,才能发挥正向价值、控制负向风险;算力方面,算力将从智算走向密算,并且演变的速度及对中远期的影响比我们今天想象大得多。接下来大规模数据流转会发展为犹如“城市自来水网”的行业、区域间可信流通,形成“综合水利工程”。未来,大模型产业及各种数据要素的应用场景,都能充分应用数据要素价值,实现跨行业、跨地域和跨云可信流转和互联互通。
文:月满西楼 / 数据猿 责编:凝视深空 / 数据猿