首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了

中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了

作者头像
机器之心
发布于 2023-08-07 06:31:33
发布于 2023-08-07 06:31:33
4250
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:小舟

如何用经济友好、内存节约的方式,来实现 LLM 生成能力和指令遵循能力的跨语言迁移?

2023 年过半,ChatGPT、GPT-4、LLaMA 等大型语言模型(LLM)一次次引起人们高度关注,它们具备令人惊艳的涌现能力,包括语言理解能力、生成能力、知识推理能力等等。

LLM 通常基于大规模语料训练知识表示与语言生成能力,随后在人工编写的指令数据上进行微调以实现与人类的意图对齐。因此,如何有效地进行指令微调使大型语言模型对齐人类偏好,对于模型的最终性能与用户体验至关重要。

现有研究在预训练和指令微调阶段使用的数据大多仅围绕英文组成,语言的不平衡现象成为了制约模型能力以及交互体验的主要瓶颈。然而,将各个语言分别引入预训练以及指令微调阶段是昂贵且低效的。

近期,中国科学院计算技术研究所冯洋研究员带领的自然语言处理团队针对这个问题探索了新的方案 —— 在指令微调阶段将英语与其他语言对齐,以交互式翻译任务为核心进行指令微调训练。

  • 项目主页:https://nlp.ict.ac.cn/bayling
  • Demo:https://nlp.ict.ac.cn/bayling/demo
  • 论文地址:https://arxiv.org/abs/2306.10968
  • 代码地址:https://github.com/ictnlp/BayLing

基于所提方法,研究团队在中科南京信息高铁研究院的算力和工程开发团队支持下,在中科院计算所信息高铁 Al 训练推理平台 MLOps 上训练并发布了新的大型语言模型「百聆」,旨在让大型语言模型对齐人类意图的同时,将其生成能力和指令遵循能力从英语泛化到其他语种。「百聆」以经济友好、内存节约的方式实现了多语言人机交互能力。

在交互式翻译任务中,研究团队通过一系列的交互向百聆提供涵盖中、英、德、法四门语言翻译相关的指令和约束条件,要求它必须在理解所有先前指令的基础上提供满足需求的反馈。借助于翻译任务的语义对齐特性,百聆能够实现生成能力在不同语言之间的迁移,并在交互式的过程中学习与人类意图进行对齐。

基于百聆-7B 和百聆-13B 的相关实验结果表明:在单轮翻译任务上,百聆达到了 GPT-4 95% 的性能,在交互式翻译上,百聆达到了 GPT-3.5-turbo 96% 的性能。

此外,研究团队还构建了双语多轮通用测试集 BayLing-80。在 BayLing-80 测试集上,百聆达到了 GPT-3.5-turbo 89% 的性能。在中文高考和英语标准化考试(SAT/GRE/GMAT等)任务上,百聆在众多大模型中位列第 2,仅次于 GPT-3.5-turbo。

出色完成各类任务

目前,研究团队已经开源了 7B 和 13B「百聆」模型权重以及 BayLing-80 双语多轮通用测试集,同时在中科南京信息高铁研究院的支撑下完成了「百聆」的线上部署,目前已经以邀请的方式开放内测。

我们来看一下「百聆」在交互式翻译、知识问答、文案写作、逻辑推理、生成与解释代码、数学计算和角色扮演多个任务上的实际表现。

交互式翻译

衡量大语言模型跨语言对齐能力的一个重要标志是其完成翻译任务的水平。百聆模型以交互式翻译任务为核心进行了指令微调训练,因此百聆在翻译方面性能优异。

例如,百聆可以将英文诗歌翻译成中文,语言优美,饱含感情,并且可以分析提炼诗歌的主旨大意:

除了常规的翻译任务以外,百聆还支持用户通过额外的自然语言指令交互来约束或调整翻译结果。有些英文诗歌直译之后缺乏节奏感,用户可以让百聆模型修改翻译结果:

当然,将中文翻译成英文也是可以的,例如翻译经典的《再别康桥》:

交互式的翻译体验让用户能按照自己的意图得到翻译结果。

知识问答

大型语言模型备受关注的一个重要原因是它们展现出「了解知识」的能力,包括常识和复杂知识。首先,我们看下百聆对日常问题「如何确定一个人是真正对谈话感兴趣还是只是礼貌地说话」给出的答案:

百聆的回答和我们实际生活中的分析方法基本一致,甚至更加全面。

对于更复杂的问题「解释量子计算的基础」,百聆也能给出大致回答,并且在进一步提问「这种方式相比于传统计算的优势」时,百聆给出了条理清晰的答案,这也说明它具备多轮问答能力。

文案写作

作为语言模型,文本生成是百聆模型的一项基本能力,我们实际测试了百聆的应用文案写作水平,要求它为机器之心写一则招聘广告:

生成结果基本满足我们的需求,简单修改一下就能直接用了。

另外,百聆还可以撰写简单的电子邮件,这类文案写作能力使百聆具备办公应用的潜力。

逻辑推理

机器学习领域,逻辑推理是一项非常困难的任务。也正因为如此,大型语言模型表现出的推理能力才让人们印象深刻。

我们发现百聆大模型具备逻辑推理能力。例如,面对问题:「一个典型的冬天会下多少雪花」,百聆模型给出了下雪的影响因素,并阐述了雪的形成原理,最后给出了估计下雪量的参考条件,强调要根据实际情况分析这个问题。

当然,作为一个语言模型,逻辑推理的结果未必是完全正确的。如果我们要求百聆模型证明推理是正确的,它会诚实地回答道:「我的回答仅为一个估计,可以为读者提供一些参考,但不能保证准确性。」

生成与解释代码

由于编程代码要求符合逻辑、严谨、可执行,因此生成代码对 LLM 来说也是一项非常有挑战性的任务。我们用「找出一组数中最大数」这个经典问题测试了百聆生成代码的能力,百聆生成的代码基本正确,并且还给出了这段代码的解释。

当然,你也可以用中文描述编程需求:

编写完 C++ 代码后,我们还可以要求「百聆」将代码转换成 Python 语言:

此外,「百聆」还能补全代码:

总体来说,百聆具备代码生成、解释和补全的能力。

数学计算

在数学计算方面,百聆使用「勾股定理」解决了一道「求线段长度」的数学问题:

这道题目说明百聆掌握了基本的数学计算和公式方法,同时也能看出它会使用直角坐标系(线段端点的表示方式)。

角色扮演

最后,我们来看一下百聆的「角色扮演」能力。以文学巨匠莎士比亚笔下的角色为例,我们发现百聆了解莎士比亚的写作风格:

如果让百聆假装自己是一位世界著名厨师,向评委介绍菜品,它马上就进入状态了:

这些测试样例表明百聆已经具备多方面的生成能力、理解能力和推理能力。值得注意的是,大部分测试的问题都是用中文描述和回答的,这说明百聆实现了生成能力在不同语言之间的迁移,并在交互的过程中学会了与人类意图进行对齐。

媲美 GPT-3.5

为了对百聆的交互翻译能力做细致的定量评价,研究团队邀请了 5 位持有英语专业八级证书的专业人员对百聆以及其他基线系统在随机打乱顺序的情况下进行人工评测。通过统计各个模型在测试用例上排名第一的占比,研究团队发现百聆的交互翻译能力与其他开源大模型相比具有明显优势,13B 参数量的百聆在这一任务上的性能甚至能与 175B 参数量的 ChatGPT 相媲美。

得益于百聆在中文能力方面的增强,百聆在涵盖九门科目的高考测试集上取得了第二名的成绩,仅次于 GPT-3.5-turbo。与其他专注于某种特定语言的大模型相比,百聆中英双语能力更加均衡。

为了详细考察百聆在通用任务上的能力,研究团队构建并开源了中英双语多轮通用任务测试集:BayLing-80。在使用 GPT-4 为百聆-13B 与 GPT-3.5-turbo 的生成结果进行评价的设定下,百聆-13B 在多个方向上达到了媲美 GPT-3.5-turbo 的性能。另一方面,研究团队也注意到百聆在代码生成、数学问题等需要较强推理能力的任务上的表现有待提升。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
百川智能团队继6月发布了7B预训练底座模型后,前段时间又最新开源了支持商用的13B模型(包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat)。
新智元
2023/08/07
1.1K0
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
机器之心
2024/04/19
2K0
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
自2022年底ChatGPT发布以来,其已经在人工智能的整个领域带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令微调,并从人类反馈中进行监督微调和强化学习,表明模型可以回答人类问题并在广泛的任务中遵循指令。在这一成功之后,对LLM的研究兴趣增强了,新的LLM在学术界和工业界频繁蓬勃发展。虽然非开源LLM(例如,OpenAI的GPT, Anthropic的Claude)通常优于它们的开源同行,但后者的进展很快。这对研究和商业都有至关重要的影响。在ChatGPT成立一周年之际,本文对这类LLMs进行了详尽的介绍。
zenRRan
2023/12/05
5180
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
模型如 ChatGPT 依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic 推出了 Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI 的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于 LLMs 显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
机器之心
2024/02/28
2770
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
2024年开年,很多小伙伴都已经回到了自己的工作岗位,并开始规划未来一年的工作。今天作者给大家梳理了2023年至今有关大模型的发展趋势。希望对大家有一些帮助。
ShuYini
2024/02/22
1.3K0
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.3K0
一篇关于LLM指令微调的综述
提升开源LLMs推理能力!清华 | 构建高质量对齐数据集,公布「 Eurus」系列模型
为了提升开源大模型(LLMs)的复杂推理能力,缩小与专有模型之间的差距。本文作者构建了一个大规模、高质量对齐数据集ULTRAINTERACT,它包含了多样化的指令和偏好树结构。作者基于该数据集训练得到了Eurus系列模型,实验表明,模型在数学解答、代码生成和逻辑推理等多种测试基准测试集上取得了开源模型中的SOTA。
ShuYini
2024/04/12
7670
提升开源LLMs推理能力!清华 | 构建高质量对齐数据集,公布「 Eurus」系列模型
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。
机器之心
2023/10/29
1.4K0
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo
在刚刚结束的全球开发者大会上,苹果宣布了 Apple intelligence, 这是一款深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的全新个性化智能系统。
机器之心
2024/06/17
2280
苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo
ChatGPT全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂
机器之心报道 机器之心编辑部 在众多开源项目中脱颖而出,OpenAssistant 有两把刷子。 事实证明,将大型语言模型 (LLM) 与人类偏好保持一致可以显著提高可用性,这类模型往往会被快速采用,如 ChatGPT 所证明的那样。监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 等对齐技术大大减少了有效利用 LLM 功能所需的技能和领域知识,从而提高了它们在各个领域的可访问性和实用性。 然而,像 RLHF 这样最先进的对齐技术依赖于高质量的人工反馈数据,这些数据的创建成本很高,而且通常仍然是
机器之心
2023/04/21
3270
ChatGPT全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂
VisCPM:迈向多语言多模态大模型时代
随着GPT-4和Stable Diffusion等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的多模态生成能力可以大致分为两类:
AI科技评论
2023/08/08
5700
VisCPM:迈向多语言多模态大模型时代
开源中文类LLaMA大语言模型汇总
近日笔者在调研开源中文大模型时发现LLaMA可以说是今年最受欢迎的大语言模型之一,LLaMA的开源带动了大语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。
siri
2023/09/24
2.3K1
开源中文类LLaMA大语言模型汇总
收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)
来源:AINLPer 本文约4000字,建议阅读8分钟 本文作者盘点了一些组织或者个人开源的模型。 ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚,OpenAI又官宣发布了图文多模态的GPT4模型,能力相对ChatGPT又是大幅提升,似乎闻到了以通用人工智能主导的第四次工业革命的味道。 无论是国外还是国内,目前距离OpenAI的差距越来越大,大家都在紧锣密鼓的
数据派THU
2023/05/11
2K0
收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
摘要:本文研究了在机器翻译(MT)任务中增强大型语言模型(LLM)翻译能力的策略。本文提出了一种新颖的范式,包括三个阶段:使用大量单语数据进行二次预训练,使用跨行文本格式文档进行持续预训练,以及利用源语言一致性指导进行监督微调。以往对 LLM 的研究主要集中在各种监督微调(SFT)策略上,但其效果有限。传统的机器翻译方法依赖于大量的平行双语数据,而我们的范例则强调了使用较小的高质量双语数据集的重要性。我们认为,重点应放在预训练过程中增强 LLM 的跨语言对齐能力,而不是在 SFT 过程中仅仅依赖大量双语数据。使用 Llama2 模型进行的实验结果,尤其是单语增强后的中文-Llama2,证明了 LLMs 翻译能力的提高。我们的方法的重大贡献在于第二阶段:该阶段只需不到 1B 的训练数据,因此我们的方法非常高效。此外,在第三阶段,我们观察到设置与源语言一致的指令有利于监督微调过程。实验结果表明,我们的方法超越了之前的工作,与 NLLB-54B 和 GPT3.5-text-davinci-003 等模型相比,尽管参数数量只有 7B 或 13B,但却取得了卓越的性能。这一成就确立了我们的方法在机器翻译领域的先驱地位。
zenRRan
2024/04/11
1.3K0
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
最强AI!三大维度、70项指标、3728道考题,文心3.5再拿第一!
7月25日消息,中文通用大模型综合性基准SuperClue发布了最新中文大语言模型排行榜。榜单结果显示,百度文心一言总分超GPT-3.5-Turbo,领跑国内大模型。
Amusi
2023/07/25
5010
最强AI!三大维度、70项指标、3728道考题,文心3.5再拿第一!
开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
机器之心专栏 机器之心编辑部 香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的医疗大模型 ——HuatuoGPT(华佗GPT),以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。 基于医生回复和 ChatGPT 回复,让语言模型成为医生提供丰富且准确的问诊。 在医疗领域,大规模语言模型(LLM)具有广阔的应用潜力。尽管像 ChatGPT 这样的语言模型能够生成内容详实、表述流畅、逻辑清晰的回复,但其在回应患者描述症状时,缺乏专业性和对患者输入的精确解读。其回复常常
机器之心
2023/05/31
1.6K0
开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
老K博客
2024/07/19
1230
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
Chem. Sci. | 微调语言大模型,深挖化学数据矿
化学文献中蕴含着丰富信息,通过“化学文本挖掘技术”提取关键数据,从而构建庞大的数据库,不仅能够为实验化学家提供详尽的物理化学性质和合成路线指引,还能够为计算化学家提供丰富的数据和洞见用于模型构建和预测。然而,由于化学语言的复杂性和论文风格的多样性,从化学文献中提取结构化数据是一项极具挑战性的任务。因此,许多文本挖掘工具应运而生,旨在解决这一棘手难题,助力科学研究迈向新的高峰。然而,这些针对特定数据集和语法规则构建的文本提取模型往往缺乏灵活的迁移能力。近两年,以ChatGPT为代表的大语言模型(LLMs)风靡全球,引领了人工智能和自然语言处理领域的快速发展。能否利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,解放数据标注工人的劳动力,加速领域数据的收集呢?
DrugAI
2024/06/18
4170
Chem. Sci. | 微调语言大模型,深挖化学数据矿
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
如你我所见,像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力,例如回答复杂问题、生成解释,甚至解决需要多步推理的问题,这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显,因此现在的挑战就是如何利用对大型语言模型不断增长的知识,进而提升较小模型的能力。
机器之心
2023/12/05
3970
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
推荐阅读
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
1.1K0
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
2K0
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
5180
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
2770
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
1.3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3.3K0
一篇关于LLM指令微调的综述
7.3K0
提升开源LLMs推理能力!清华 | 构建高质量对齐数据集,公布「 Eurus」系列模型
7670
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
1.4K0
苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo
2280
ChatGPT全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂
3270
VisCPM:迈向多语言多模态大模型时代
5700
开源中文类LLaMA大语言模型汇总
2.3K1
收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)
2K0
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
1.3K0
最强AI!三大维度、70项指标、3728道考题,文心3.5再拿第一!
5010
开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
1.6K0
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
1230
Chem. Sci. | 微调语言大模型,深挖化学数据矿
4170
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
3970
相关推荐
国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档