作为生成式人工智能的代表,大模型已经进入全新的发展阶段。
红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,已于本月正式启动。2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。
近日来自上海交通大学约翰·霍普克罗夫特计算机科学中心的林洲汉教授在接受红星资本局专访时表示,现在大模型在不同场景落地时遇到了模型幻觉、模型偏见等共性问题,他认为当下大模型发展,技术突破仍是紧迫问题。同时国产芯片的开发和应用生态系统尚未完全成熟,亟需更多的软件支持和开发工具。
国产芯片亟需更多软件支持和开发工具
红星资本局:您认为现在大模型发展面临的问题,更紧迫的是技术突破,还是成本问题?
林洲汉:我认为更多还是技术突破。现在全世界各大企业都有自己的开源或者闭源大模型,基于这些模型发展而来的下游应用生态也已经比较健全,如果不涉及模型的预训练,可以以较低成本完成大部分应用场景的部署。但是现在大模型在不同场景落地时遇到了共同的问题,比如模型幻觉、模型偏见等,要可靠解决这些问题,需要的是技术上的突破,而不是“堆”成本。
红星资本局:对于大模型的算力供应方面,您认为业内现在还有哪些瓶颈和制约?
林洲汉:在算力供应方面,业内面临的瓶颈和制约包括高性能计算硬件的可用性和成本问题、大规模计算任务对能源的高需求导致的运行成本和环境影响、高效数据传输和存储解决方案的不足限制了大规模数据处理的效率,以及高质量研发资源和人才的短缺限制了技术进步的速度。
红星资本局:目前国产芯片的使用情况如何,关于国产芯片替代还面临哪些难点?
林洲汉:目前,国产芯片在大模型中已逐步得到应用,但仍面临一些难点:在性能和能效上,部分国产芯片与国际先进水平存在一定差距;其开发和应用生态系统尚未完全成熟,亟需更多的软件支持和开发工具;此外,市场对国产芯片的接受度和信任度有待提升,需要通过实际应用来证明其稳定性和可靠性。
涉及公共健康和安全的领域
需要确保人工智能“公平性”
红星资本局:您认为人工智能在科学领域的应用应该如何平衡创新与伦理?
林洲汉:在科学领域应用人工智能时,平衡创新与伦理至关重要。虽然目前的科学领域只包括了地球科学相关的内容,不会涉及太多伦理问题,但是我们也需要对伦理问题做提前思考,为未来多学科的科学问题提供技术支撑。我们可以建立透明的伦理准则,确保人工智能的开发和应用过程公开透明,符合伦理标准。同时我们也需要确保公平性,确保人工智能技术不会导致不公平的结果或决策,特别是在涉及公共健康和安全的领域。
红星资本局:您认为在本次大赛中科学垂直行业的大模型评测最重要的考量因素是什么?您如何评价本轮大赛科学领域大模型的性能?有哪些关键指标?
林洲汉:在本次大赛中,科学垂直行业大模型评测最重要的考量因素是模型的准确性和可靠性。这些模型需要能够精确地处理和分析复杂的科学问题。
关键指标包括:科学性(评估文本是否展现了对专业领域相关知识点的深刻理解)、正确性(评估模型面对专业从业者时候的说服力,即专业从业人员能否认同模型生成的内容)、一致性(评估文本是否连贯一致,从头到尾是否都在阐述同一主题,并且读起来流畅)。
红星资本局:您认为2024“巢燧杯”评测维度相较于去年有哪些不同?经过一年这些大模型的总体表现有何进步和关键进展?
林洲汉:2024“巢燧杯”相较去年有显著变化,主要体现在更高的性能要求和更广泛的应用场景上。模型的性能标准提升,要求在更复杂的数据和任务环境中表现出色,同时覆盖了更多的科学垂直行业应用场景,推动了模型在实际应用中的广泛应用。经过一年的发展,这些大模型在整体性能、鲁棒性(指系统或算法对于各种变化或干扰的抵抗能力)和应用广度上都有显著进步,特别是在处理复杂数据和提供可解释性分析方面取得了关键进展。
我认为本次大赛和交流对于促进科学垂直行业大模型的未来发展具有重要的推动作用。本次比赛我们通过建立统一的评测标准和基准,帮助研究者和开发者了解模型的优劣;通过比赛和交流,促进行业内的技术分享和合作,推动技术进步;通过发现现有模型在实际应用中的不足和挑战,推动进一步的研究和改进;通过竞争激发创新,推动新技术和新方法的开发。
红星新闻记者 王田 实习生 刘川蒙
编辑 邓凌瑶
领取专属 10元无门槛券
私享最新 技术干货