Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

作者头像
新智元
发布于 2023-09-19 00:42:19
发布于 2023-09-19 00:42:19
3190
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:编辑部

【新智元导读】这两天,刚刚空降编辑部的这名新员工,写文章、起标题,样样都很溜。谁能想到,这背后竟是因为腾讯云的大模型平台,把大模型精调的门槛给打下来了。

热闹了大半年后,大模型显然已经度过了「尝鲜期」。

虽然现在的业内共识是:一定要落地,一定要产生价值。但如何训练、如何精调、如何部署等等专业壁垒,却铸成了一道道高墙。

就在昨天的2023腾讯全球数字生态大会上,腾讯首次对外公布了腾讯混元大模型进展,并且宣布从技术底座、平台能力、智能应用三大维度升级腾讯云MaaS能力。

其中,腾讯云MaaS平台不仅包括了自研腾讯混元大模型底座,而且还支持业内20余款主流开源模型。升级后的腾讯云行业大模型精选商店,可以让用户更快速、更便捷地构建专属自己的大模型。

于是,一个令人兴奋的脑洞,正在编辑部办公室酝酿中……

四步训出「新智元」大模型

既然腾讯云的大模型平台可以让我们快速搭建一个自己的专属大模型,还能在平台上实现一键部署。

那不如就搞个新智元的大模型?让它作为编辑部的新任员工——帮我们写稿!

说干就干。

在学习了官方的文档之后发现,我们惊喜地发型:精调一个「新智元大模型」,竟然4步就能搞定!

第一步:创建挂载文档

首先,在腾讯云TI平台上创建一个用于存放数据的CFS文件存储系统。

然后,新建一个Notebook实例,并将配置好的CFS挂载到该容器实例上。

接下来,是非常重要的一步,数据准备。

为此,我们整理了近期新智元发表的文章。

第二步:选择模型、启动训练

进入「大模型精调」页面后,可以看到能够选用的各类大模型。

其中,除了腾讯自研的大模型外,还有Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多款主流开源模型。

腾讯云之所以集成了如此丰富的基础模型,是由于用户需求千变万化,不同行业和场景对模型要求不尽相同,用户希望能够在多样的产品做出选择。

基于这些模型,企业可以通过结合自身数据进行训练和精调,打造出更实用的智能AI应用。

然而,新的问题又随之而来:「这么多模型,我到底该选哪个才好」?

不着急,这个问题鹅厂也想到了,针对用户可能存在的「模型选择困难症」,平台推出了「快速试一试」功能。

你只需要点几下鼠标,就可以在TI平台上测试自己感兴趣的模型是不是符合实际的场景需求,期间完全不需要去进行复杂的手动搭建。

在这里,我们选用了能够一键试用的模型——腾讯自研「多行业客服场景大模型」。

选定基底模型之后,就到了精调「新智元大模型」的时间了。

整体而言,TI平台支持SFT和LoRA这两种常见的精调模式。

其中,SFT属于全量的微调。如果数据量大的话,SFT的效果就会足够好,可以视为对模型进行一次整体的重训。

而LoRA并不改变原有模型,是额外增加一个小参数矩阵,成本相对较低。只需使用少量数据,就可以给模型在特定任务上的能力进行补充和强化。

接下来,再配置一下参数,就可以开始模型的训练了。

整个过程,小编一行代码都没有编辑,就直接开启大模型精调了!

第三步:监控训练、查看输出

模型开始训练时,我们可以随时监控任务训练的过程。

TI平台提供自定义训练指标的上报接口,只需将重点关注的指标进行上报,便能够在页面进行可视化监控。

同时,平台还提供包含GPU利用率、网络带宽利用率等和多机多卡训练相关的监控指标。

经过全面升级后的腾讯云TI平台,可以提供模型训练所需的各种能力:

腾讯云TI平台提供的多机多卡、断点续训的能力,能够保障模型训练任务稳定高效地运行。

其次,训练监控能力,可以实时监测训练指标和资源利用率情况。

然后,任务管理能力,可自动管理模型多次迭代的训练任务,将每次训练任务进行超参快照记录,好处在于能够快速还原训练现场。

最后,腾讯云TI平台还支持记录模型中间结果checkpoint,可以选择指标最优的模型,进行发布部署、调用。

升级后的腾讯云TI平台优势在于,模型训练过程中出现问题后,客户能够及时检测,发现问题后纠正。

在训练过程中,我们会不可避免地遇到一些问题。

举个栗子,大模型训练过程中,周期长,因为各种因素会出现中断。

关于Meta内部的一次模型训练日志显示:

在训练完成到30%左右处,研究人员在两个星期内,因为硬件、基础设施或实验稳定性问题,重新启动了40多次。

可见,训练过程中「断点续训」对于模型连续性训练非常重要,同时还能为研究人员节省大量时间。

比起小模型,大模型的训练成本相对较高。

而TI平台提供的一大优势就是,能够让训练任务排队队列调度,实现自动化高效利用集群资源。

另外,TI平台还集成了一些巡检工具,针对常见故障,比如GPU掉卡、ECC异常、RDMA网络故障等常见的问题进行自动化排查,从而并及时解决问题。

在训练结束之后,我们就得到了精调后的「新智元大模型」。

总结来说,得益于TI平台的全面升级,我们在精调「新智元大模型」的整个过程中,体验都非常丝滑。

据介绍,TI平台在算力方面,接入了腾讯云HCC高性能计算节点及星脉高性能计算网络,可提供3.2Tbps的网络带宽;而在存储方面,也接入了具备TB级吞吐能力和千万级IOPS的高性能存储,可在跨机器的多机多卡训练中,性能有了大幅提升。

此外,全新升级的太极Angel大模型加速框架,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升了30%以上,推理加速比达到了2倍。

可以说,每一个环节,都在为大模型精调提速。

第四步:部署调用模型

最后,借助升级后的TI平台,我们现在就可以一键把「新智元大模型」部署成在线服务。

为了方便用户进行快速体验和生产上线,TI平台提供了页面可视化调用和API调用两种方式。

我们只需在页面中配置服务部署所需的资源,服务运行环境,服务的扩缩容策略等,即可完成服务部署。

最后,我们来验证一下,刚刚精调出的大模型究竟效果如何?

给它一段来自网上的英文原始材料,让它生成一篇关于英伟达GPU短缺的简讯。为了更贴近新智元的文风,我们要求它多用短句、多分段。

才几秒钟,新智元大模型的大作就诞生了。

整体来说可圈可点,不过,文字间难免还是有那么点AI的感觉。

解决完正文之后,那最让小编们头疼的标题效果如何?

你别说,还真有点那个味了!

现在可以宣布——新智元大模型,基本获得入驻编辑部资格!

值得注意的是,很多行业的需求实际上要复杂得多,进而也需要经过更加细致和繁琐的调试,才能最终投入使用。

除了这种通过快速问答来进行测试外,腾讯云TI平台还提供的批量测试功能——利用量化指标评估+人工主观观察模型在指定评测集上的效果。

如果发现模型效果不理想,可以先分析loss曲线,观察模型收敛情况,然后调节学习率等超参数。

更进一步的,可以分析badcase,定位出错误原因后,再去找一些相关数据做增强训练。

假如问题还是无法得到解决,或许就需要换一个基底模型,再尝试重新训练了。

鹅厂实战派,让技术更普惠

以上我们看到精调新智元大模型的不错表现,就有本次腾讯云MaaS全面升级的功劳。

其中,技术底座升级保障模型基本盘稳定,平台能力升级保证模型工具用起来顺心又顺手。

目前,腾讯云MaaS能力已在腾讯企点客服、腾讯企点分析、数智人、车载助手、AI绘画等产品中进行了有效验证。

此外,除了刚刚提到的20+主流开源模型,腾讯此次发布的自研混元大模型也是一大亮点,能够成为腾讯云行业大模型的坚实底座。

从「新智元大模型」的诞生中,我们可以看到,腾讯云能够快速、高效地帮助许多行业的客户构建专属自己的大模型以及智能应用,让千行百业都能在大模型热中分一杯羹。

大模型是今年AI界,当之无愧最火爆的话题。如果说,技术是入场票,那落地才是真正的赛点。

今年6月,腾讯出其不意,选择从行业角度切入,发力大模型。最近,他们又马不停蹄,持续迭代MaaS能力,从三大维度加速产业落地,引领效能革命。

腾讯云选择从行业大模型角度切入、深耕,离不开以往自身在技术实践中打下的基础。

一来技术能打,从数据库到计算集群都有涉猎;二来常年深耕产业互联网积累了大量的行业know-how,能够对技术应用场景有深刻的认识。

不论是推进AI研发,还是布局大模型,腾讯云的核心就是,让技术普惠。

而他们践行这个目标的路子也并不复杂:探索前沿技术、打造实用产品、通过高效平台,推进行业大模型在各个行业中落地生根。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-08 15:18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云MaaS再升级:混元筑底、生态扩容,持续推进“效能革命”
9月7日,2023腾讯全球数字生态大会于深圳举办。会上,腾讯首次对外公布腾讯混元大模型进展,并宣布从技术底座、平台能力、智能应用三大维度升级MaaS能力。基于自研腾讯混元大模型,同时支持业内20余款主流开源模型,助力客户构建专属大模型及智能应用,加速模型产业落地,推进“效能革命”。
小腾资讯君
2023/09/08
5750
腾讯云联合信通院发布《行业大模型标准体系及能力架构研究报告》
2023腾讯全球数字生态大会「行业大模型及智能应用专场」于9月7日举行,会上,腾讯云与信通院共同发布了《行业大模型标准体系及能力架构研究报告》,参考了腾讯云在行业大模型产业应用领域的实践和经验,为客户构建行业大模型提供了标准化流程、综合评估方法,以便更好地帮助行业伙伴构建专属大模型。
小腾资讯君
2023/09/25
1.7K0
腾讯云联合信通院发布《行业大模型标准体系及能力架构研究报告》
扒一扒腾讯混元大模型“老底”
模型亮相的同时,腾讯还宣布几大腾讯业务就已经直接用上了:腾讯文档、腾讯会议、腾讯广告等均已接入。
量子位
2023/09/19
5910
扒一扒腾讯混元大模型“老底”
国内首批丨腾讯云上架 Llama 3.1模型,支持在 TI 平台精调和推理
7月23日,Meta正式发布Llama 3.1 模型,包含8B、70B和405B 三种参数规模。其中405B 是目前最大开源模型之一,拥有4050 亿参数,支持多语言输入输出,在复杂数学和即时生成内容方面表现出色。
小腾资讯君
2024/07/24
3580
腾讯混元再次开源!腾讯云TI平台支持一键精调与推理
刚刚,腾讯混元又开源了两个重磅模型:最新的MoE模型「混元Large」以及混元3D生成大模型「Hunyuan3D-1.0」正式开源。开发者可在HuggingFace、Github等技术社区直接下载(链接请见阅读原文)。
小腾资讯君
2024/11/07
2580
大模型进入「落地战」,腾讯云下手「行业」大模型
自 Bert 出现之后,大模型成为 AI 领域的主流技术趋势,业界也因此掀起两轮热潮。
机器之心
2023/08/07
5080
大模型进入「落地战」,腾讯云下手「行业」大模型
AI大模型催生“效率革命”,重塑智能应用
9月7日,2023腾讯全球数字生态大会在深圳国际会展中心举行,聚焦产业未来发展新趋势以及自研技术产品的最新进展,展示了全方位的行业前沿与智慧洞见。
小腾资讯君
2023/09/15
4890
瞄准B端!腾讯云推多款行业大模型解决方案,打造模型应用商店
6 月 19 日,腾讯云在国家科技传播中心召开行业大模型及智能应用技术峰会,首次公布腾讯云行业大模型研发进展,依托腾讯云 TI 平台打造行业大模型精选商店,为客户提供 MaaS(Model-as-a-Service)一站式服务,助力客户构建专属大模型及智能应用。值得注意的是,此次腾讯云发布的大模型,主要瞄准的是 B 端市场。
深度学习与Python
2023/08/09
9370
瞄准B端!腾讯云推多款行业大模型解决方案,打造模型应用商店
大模型之战,腾讯来了
9 月 7 日,腾讯在数字生态大会上正式推出混元大模型。据介绍,腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
深度学习与Python
2023/09/18
4260
大模型之战,腾讯来了
腾讯发布业界首份行业大模型调研报告:向 AI 而行,共筑新质生产力 | 附下载
2024年政府工作报告明确提出,要“深化大数据、人工智能等研发应用,开展‘人工智能+’行动,打造具有国际竞争力的数字产业集群”。近年来,大模型成为人工智能领域的最大热点。如何有效将大模型技术融入各行各业的实际应用,助力生产力革新和产业升级,成为业界越来越关注的核心问题,也促进了行业大模型的发展。
小腾资讯君
2024/05/14
9.6K14
腾讯发布业界首份行业大模型调研报告:向 AI 而行,共筑新质生产力 | 附下载
腾讯全面拥抱大模型,腾讯混元正式亮相
9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。
混元
2023/09/07
2720
腾讯云公布行业大模型最新进展
这是每家企业的关切。然而,面对算力昂贵、数据有限、经验缺乏、人才不足等等挑战,实际难度不小。
腾讯云TI平台
2023/07/25
1.1K0
腾讯云公布行业大模型最新进展
【精彩回顾】腾讯云智能全链路大模型技术驱动产业智能化升级
腾讯云上海城市峰会AI产业应用分论坛聚焦"全链路大模型技术方案"展开深度研讨。腾讯云副总裁、腾讯云智能解决方案负责人王麒表示,基于混元大模型与DeepSeek技术的双引擎协同,腾讯云提供覆盖AI云智算基建、模型开发、部署、应用落地的完整技术体系,为产业智能化转型提供可验证的实践路径。
腾讯云AI
2025/03/27
2330
【精彩回顾】腾讯云智能全链路大模型技术驱动产业智能化升级
腾讯全面拥抱大模型,腾讯混元刚刚正式亮相
9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。
腾讯技术工程官方号
2023/09/09
6410
腾讯全面拥抱大模型,腾讯混元刚刚正式亮相
大模型“上车”,腾讯这样做!
我们已经和长安、一汽丰田、东风岚图、易车等十多家汽车相关企业,开启了汽车行业大模型在汽车研发、生产、营销、服务、企业协同等核心场景的合作。
小腾资讯君
2024/04/24
4630
2023国家网络安全周|腾讯吴运声:AIGC浪潮下,大模型应用的机遇与挑战
9月11日,由中央宣传部、中央网信办、教育部、工业和信息化部、公安部、中国人民银行、国家广播电视总局、全国总工会、共青团中央、全国妇联等十部门联合举办的2023国家网络安全宣传周在福建省福州市开幕。今年的网络安全宣传周继续以“网络安全为人民,网络安全靠人民”为主题,全面营造全社会共筑网络安全防线的浓厚氛围。
小腾资讯君
2023/09/27
3600
最高分!腾讯云TI平台再获认可,助力企业构建高效低成本AI模型
近日,腾讯云在《Forrester Wave™:2023 年第四季度中国人工智能/机器学习平台》报告中被评为“强劲表现者”。腾讯云TI平台在训练工具、训练评估、推理目标、应用工具、定价灵活性和透明度以及路线图等六项标准中获得了最高分。根据Forrester报告,腾讯云旨在帮助客户构建低成本、高效满足业务需求的AI模型。
小腾资讯君
2023/10/24
4180
腾讯混元宣布大语言模型和3D模型正式开源!
11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。
腾讯开源
2025/02/05
7470
腾讯混元宣布大语言模型和3D模型正式开源!
全国首个MaaS模型即服务标准!腾讯云牵头编制
AI大模型驱动"智慧涌现",为千行百业带来了全新发展机遇,模型即服务(MaaS)过去一年来也迎来了较快发展与突破。
小腾资讯君
2023/12/26
1.5K0
腾讯云吴运声:加速AI原生应用落地,让技术创新转化为实际生产力
“当前,AI应用领域呈现出交互体验更丰富、模型使用更高效、应用构建更快捷等趋势。”5月21日,在2025腾讯云AI产业应用峰会上,腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声发表主题演讲。
腾讯云AI
2025/05/22
2960
腾讯云吴运声:加速AI原生应用落地,让技术创新转化为实际生产力
推荐阅读
相关推荐
腾讯云MaaS再升级:混元筑底、生态扩容,持续推进“效能革命”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档