前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - 10

蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - 10

作者头像
用户10675374
发布2024-11-08 10:23:36
790
发布2024-11-08 10:23:36
举报
文章被收录于专栏:ShoelessCai

目前这篇是蚂蚁集团关于攻防算法白皮书的最后两个章节,基本原文,不涉及算法。

Ch4 大模型测评

4.1 通用大模型评测框架

评估范围:不同的领域,如金融、医疗或法律,拥有不同的数据特性、任务需求和合规要求。 能力维度: 1.知识能力。衡量模型对广泛知识的了解程度,教育程度范围涵盖,义务教育、高等教育、职业教育。 2.推理能力。该维度针对模型的逻辑分析与问题解决能力。推理涉及数学计算和逻辑判断,还包括对复杂 问题的因果推断,和程序代码的生成与 debug 能力。 3.理解能力。评估模型对于给定文本的深入理解程度,包括对文字含义的把握、主旨的抽取、语境的解读以及创意写作。 4.语言能力。关注模型在理解和生成语言方面的能力,包括对字词的精准辨识、分类、含义解释以及新词创造;对语句、段落的语法结构进行解析和错误纠正;以及将一种语言翻译为另一种语言的能力。包括同义词辨析、句子改写、多语种翻译等任务,来全面评估模型的语言处理能力。 5.安全能力。确保模型的输出不仅符合技术要求,还要符合社会和道德规范,这是避免潜在风险和不当使用的关键。通过设置与实际应用场景相符的测试用例和模拟情境,可以检验模型在各种复杂环境下的安全表现。 数据分类: 1.网络爬虫。大模型评测集的数据来源包含网络爬虫、教科书、业务数据,以及问答社区和知识库等渠道,旨在全面衡量模型的知识掌握和实际应用能力。网络爬虫数据为模型提供了丰富的语言环境和现实世界的情境,包括最新的新闻、流行话题和公众讨论教科书是权威的学术资源,它们给模型带来了正式的学科知识和概念性学习材料。 2.业务数据。业务数据则来源于特定行业或企业,这些数据集中于具体领域的专业知识和场景,对于评估模型在专业环境中的适用性至关重要。 3.社区问答。问答社区和知识库如知乎提供了用户生成的问题与答案,这些实际的交互数据可以检验模型的应答质量和问题解决能力。 综合这些来源,评测集能够更精确地揭示模型在理解和生成语言、处理知识信息、以及与用户交互方面的实际表现。 题型分类: 1.文本补全测试。评估模型预测和插入缺失文本片段的能力,要求模型展现 对上下文的理解并准确推断出合适的内容。 2.多项选择测试。旨在衡量模型能否在多个可能答案中选择最合适的一项,从而考验模型的知识储备,阅读理解和分析判断能力。 3.文本摘要生成。检验模型提取关键信息并有效压缩长篇文章为简洁摘要的能力,这对于评估模型的信息处理和概括能力至关重要。 4.代码生成。此类测试专注于模型理解编程语言规范并根据功能需求生成准确代码的能力,是衡量其技术应用潜力的关键。 5.工具调用。测试模型能否正确使用特定工具或服务来完成任务,如查询数据库、调用 API 接口等,这反映了模型的实用性和交互能力。 构建方式: 1.对于 PDF 格式的数据。可以采用 OCR 技术进行电子化处理,随后通过人工干预进行清洗和校正,以确保构建出高质量的评测题目。相比于可能被模型预训练过的网页文本格式试题,PDF 格式的数据更能保障评估结果的客观性,以避免数据穿越的潜在影响。 2.对于未标注的教科书或专业资料,可以利用语言模型的转换功能,将这些内容转化为填空题、问答题以及选择题等形式。鉴于生成式大模型可能产生的幻觉问题,直接利用大模型生成题目可能无法确保其有效性。因此,利用教科书和专业资料作为基础,借助模型本身的语言理解能力构建评测题目是一种非常有效的方案。 此外,专家构造的评估集也是评测工具箱中的重要组成部分。这类评估集能够有效避免数据泄露问题,并且人类专家能够创造众多独特而富有挑战性的评估数据。然而,专家构造评估集也面临规模有限、创建和更新成本高昂的局限性。 3.针对业务数据的题目构建,可以通过精心设计的提示(prompt)和规则将业务数据转化成具体的评测题型,以此评估模型在实际业务环境中的适用能力。 评测方法: 1.客观评估。客观评估通过量化指标来衡量模型在特定任务上的表现,是小模型时代主流的评估方法,常用的评估指标包括:准确率、F1 分数、ROUGE 指标、METEOR 分数以及 pass@k 指标等。 2.主观评估。采用以人类评价者的主观感知为基础的评估方法,能够更全面地衡量模型的综合性能。主观评估则依靠人类专家根据经验和判断来进行,它涉及对模型性能的个人感知评价和比较,旨在识别模型的优势和潜在的改进空间。 对于人工评估,使用 GPT-4 进行评估可作为其替代方法(团队内部评估过,GPT-4 作为人工评估替代方案,与专业达标人员评估相关度高,且效率大大提升)。 以众包方式让不同的大模型进行匿名随机的对抗测评。这种评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统(Elo 是一种计算玩家相对技能水平的方法,通过两名玩家之间的评分差异可以预测比赛的结果)。 3.上下文学习与思维链。研究领域已发展出具有代表性的评估方法如“上下文学习”(In-Context Learning)和“思维链推理”(Chain of Thought, CoT)等。包括 Zero-shot learning, Few-shot learning, Chain of Thought(CoT)。

4.2 大模型在金融领域的评测概述

首先,完整性是金融领域大模型评测的一个重要方面。金融通识掌握和应用的宽度和深度,决定了能够多大程度上客观的反馈大模型的总体综合能力。 其次,针对性也是金融领域大模型评测需要关注的重要方面。金融领域的特殊性包含了业务合规性、事实准确性、推理正确性、事件实时性等方面。 最后,在金融领域大模型与通用大模型的评测对比中,区分度显得尤为重要。金融场景任务评测的代表性要求评测集能覆盖并代表实际发生的金融场景任务,这包括使用真实业务数据(经处理确保合规)和经过实际金融场景任务检验的评测任务及数据。 因此,对于金融大模型评测而言,一个具备完整性的评测体系应涵盖从基础知识到高级金融理论、从通用应用到特定领域应用的全方位评估。

4.3 大模型在金融领域的评测实践

两个案例:第一个是上海财经大学的FinEval 金融评测集,展示学术界是如何构建金融评测的维度,第二个是蚂蚁集团的Fin-Eva 金融评测集,展示工业界如何对金融业务进行评测以及评测的工业框架。 上财 FinEval 金融数据集:FinEval 是一个高质量的多项选择题的集合,涵盖金融,经济,会计和证书等四大领域。它包括 4661 个问题,涵盖了 34 个不同的学科。从选题的角度来看,金融领域和会计领域分别包括 10 个不同的科目,经济领域和证书领域分布包括 7 个科目。在数据集分割方面,开发集、验证集、测试集和总集各包含 34 个主题,分别是由 170、1151、3340 和 4661 个问题组成。 四大领域 金融、经济、会计、证书。 蚂蚁大模型评测集 Fin-Eva:Fin-Eva 涵盖金融认知、领域知识、金融逻辑、内容生成以及安全合规五大类能力 33 个子维度共 8446 个测评题,题目类型为单选题。Fin-Eva 覆盖财富管理、保险、投资研究等多个金融领域,数据源包括蚂蚁各业务领域、开源数据、模型蒸馏,经过数据脱敏、文本聚类、语料精筛等处理过程后,结合金融领域专家的深度加工最终构建而成。 五大领域 金融认知类:考察模型金融文本的理解和提取能力。 领域知识类:考察模型是否具备全面的金融领域知识,以及能否通过专业能力考试。 金融逻辑类:考察模型是否具备完成复杂金融任务的推理和计算能力。 内容生成类:考察模型总结和生成专业金融文本的能力。 安全合规类:考察模型能否辨别金融领域的安全和合规问题。

Ch5 金融大模型发展中的人才培养

5.1 人才需求分析

随着大模型与业务场景的深度结合,产业界对大模型人才有需求的企业也急剧增长。

从基础理论角度,将金融业务与大模型相结合需要具备跨学科的综合能力,包括金融学基础、计算机、软件工程、人工智能等学科能力。 从人才岗位需求来看,现有对大模型人才的划分大致包括算法侧、架构侧、应用侧人才,不同岗位对人才能力的偏重不同,但需求相互交叉。 算法侧人才负责大模型核心研发,主要包括对金融专业语料库等数据进行处理。 架构侧人才偏向工程,除了传统前后端开发及测试之外,还需要大模型架构人才,实现分布化的部署、数据安全的保护和应用实现,其技能需求包括 Web 开发、分布化部署等计算机技术。 应用侧人才聚焦于金融具体场景任务,其基于内部协同和行业认知,面向行业给出应用解决方案。

5.2 人才教育体系的调整与创新

首先,人才培养应该强调跨学科的教学设计。随着金融科技的兴起,金融领域与其他学科的交叉融合变得更加紧密,但现有教育体系对学科前沿的交流和融合仍不充分。 其次,人才培养应该鼓励教学内容创新,培养具有深厚专业知识和交叉能力的复合型人才。 最后,人才教育应该鼓励教学模式创新,培养具有实践动手能力、科研创新能力、能够快速适应变化环境的人才。

5.3 跨界合作与持续学习机

在大模型的设计开发、垂直领域的大模型应用等环节建立“产学研用”多元主体一体化的合作模式,通过多样合作交流、构建持续性的学习机制,促进人才培养,实现互动共生、互利共赢。 除此之外,面对金融科技和行业趋势的快速变化,金融大模型的人才培养和持续学习显得至关重要。 此外,金融机构和行业协会还需要培养金融大模型从业者的行业法规意识和行业伦理观念。

5.4 人才评估与认证体系

首先,建议建立闭环管理的金融科技人才评估与认证体系。持续完善“制定-实施-评估-完善”的制度体系闭环管理机制。 其次,建议建立多元化的金融科技人才评估认证指标与认证方式。 最后,加强与行业需求的对接和实时反馈机制建设。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ShoelessCai 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 4.1 通用大模型评测框架
  • 4.2 大模型在金融领域的评测概述
  • 4.3 大模型在金融领域的评测实践
  • Ch5 金融大模型发展中的人才培养
    • 5.1 人才需求分析
      • 5.2 人才教育体系的调整与创新
        • 5.3 跨界合作与持续学习机
          • 5.4 人才评估与认证体系
          相关产品与服务
          数据安全治理中心
          数据安全治理中心(Data Security Governance Center ,DSGC)从企业数据安全治理、数据安全合规出发,提供云原生数据资产管理、数据分类分级、风险评估等能力;帮助企业解决合规应对、敏感数据排查、数据安全风险检测等多方面的数据安全问题,降低数据安全治理TCO,提高数据安全保障能力。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档