首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

「新智元大模型」上岗!0代码搞定,只需四步精调,写文超6

作者头像
新智元
发布于 2023-09-19 00:42:19
发布于 2023-09-19 00:42:19
3190
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:编辑部

【新智元导读】这两天,刚刚空降编辑部的这名新员工,写文章、起标题,样样都很溜。谁能想到,这背后竟是因为腾讯云的大模型平台,把大模型精调的门槛给打下来了。

热闹了大半年后,大模型显然已经度过了「尝鲜期」。

虽然现在的业内共识是:一定要落地,一定要产生价值。但如何训练、如何精调、如何部署等等专业壁垒,却铸成了一道道高墙。

就在昨天的2023腾讯全球数字生态大会上,腾讯首次对外公布了腾讯混元大模型进展,并且宣布从技术底座、平台能力、智能应用三大维度升级腾讯云MaaS能力。

其中,腾讯云MaaS平台不仅包括了自研腾讯混元大模型底座,而且还支持业内20余款主流开源模型。升级后的腾讯云行业大模型精选商店,可以让用户更快速、更便捷地构建专属自己的大模型。

于是,一个令人兴奋的脑洞,正在编辑部办公室酝酿中……

四步训出「新智元」大模型

既然腾讯云的大模型平台可以让我们快速搭建一个自己的专属大模型,还能在平台上实现一键部署。

那不如就搞个新智元的大模型?让它作为编辑部的新任员工——帮我们写稿!

说干就干。

在学习了官方的文档之后发现,我们惊喜地发型:精调一个「新智元大模型」,竟然4步就能搞定!

第一步:创建挂载文档

首先,在腾讯云TI平台上创建一个用于存放数据的CFS文件存储系统。

然后,新建一个Notebook实例,并将配置好的CFS挂载到该容器实例上。

接下来,是非常重要的一步,数据准备。

为此,我们整理了近期新智元发表的文章。

第二步:选择模型、启动训练

进入「大模型精调」页面后,可以看到能够选用的各类大模型。

其中,除了腾讯自研的大模型外,还有Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多款主流开源模型。

腾讯云之所以集成了如此丰富的基础模型,是由于用户需求千变万化,不同行业和场景对模型要求不尽相同,用户希望能够在多样的产品做出选择。

基于这些模型,企业可以通过结合自身数据进行训练和精调,打造出更实用的智能AI应用。

然而,新的问题又随之而来:「这么多模型,我到底该选哪个才好」?

不着急,这个问题鹅厂也想到了,针对用户可能存在的「模型选择困难症」,平台推出了「快速试一试」功能。

你只需要点几下鼠标,就可以在TI平台上测试自己感兴趣的模型是不是符合实际的场景需求,期间完全不需要去进行复杂的手动搭建。

在这里,我们选用了能够一键试用的模型——腾讯自研「多行业客服场景大模型」。

选定基底模型之后,就到了精调「新智元大模型」的时间了。

整体而言,TI平台支持SFT和LoRA这两种常见的精调模式。

其中,SFT属于全量的微调。如果数据量大的话,SFT的效果就会足够好,可以视为对模型进行一次整体的重训。

而LoRA并不改变原有模型,是额外增加一个小参数矩阵,成本相对较低。只需使用少量数据,就可以给模型在特定任务上的能力进行补充和强化。

接下来,再配置一下参数,就可以开始模型的训练了。

整个过程,小编一行代码都没有编辑,就直接开启大模型精调了!

第三步:监控训练、查看输出

模型开始训练时,我们可以随时监控任务训练的过程。

TI平台提供自定义训练指标的上报接口,只需将重点关注的指标进行上报,便能够在页面进行可视化监控。

同时,平台还提供包含GPU利用率、网络带宽利用率等和多机多卡训练相关的监控指标。

经过全面升级后的腾讯云TI平台,可以提供模型训练所需的各种能力:

腾讯云TI平台提供的多机多卡、断点续训的能力,能够保障模型训练任务稳定高效地运行。

其次,训练监控能力,可以实时监测训练指标和资源利用率情况。

然后,任务管理能力,可自动管理模型多次迭代的训练任务,将每次训练任务进行超参快照记录,好处在于能够快速还原训练现场。

最后,腾讯云TI平台还支持记录模型中间结果checkpoint,可以选择指标最优的模型,进行发布部署、调用。

升级后的腾讯云TI平台优势在于,模型训练过程中出现问题后,客户能够及时检测,发现问题后纠正。

在训练过程中,我们会不可避免地遇到一些问题。

举个栗子,大模型训练过程中,周期长,因为各种因素会出现中断。

关于Meta内部的一次模型训练日志显示:

在训练完成到30%左右处,研究人员在两个星期内,因为硬件、基础设施或实验稳定性问题,重新启动了40多次。

可见,训练过程中「断点续训」对于模型连续性训练非常重要,同时还能为研究人员节省大量时间。

比起小模型,大模型的训练成本相对较高。

而TI平台提供的一大优势就是,能够让训练任务排队队列调度,实现自动化高效利用集群资源。

另外,TI平台还集成了一些巡检工具,针对常见故障,比如GPU掉卡、ECC异常、RDMA网络故障等常见的问题进行自动化排查,从而并及时解决问题。

在训练结束之后,我们就得到了精调后的「新智元大模型」。

总结来说,得益于TI平台的全面升级,我们在精调「新智元大模型」的整个过程中,体验都非常丝滑。

据介绍,TI平台在算力方面,接入了腾讯云HCC高性能计算节点及星脉高性能计算网络,可提供3.2Tbps的网络带宽;而在存储方面,也接入了具备TB级吞吐能力和千万级IOPS的高性能存储,可在跨机器的多机多卡训练中,性能有了大幅提升。

此外,全新升级的太极Angel大模型加速框架,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升了30%以上,推理加速比达到了2倍。

可以说,每一个环节,都在为大模型精调提速。

第四步:部署调用模型

最后,借助升级后的TI平台,我们现在就可以一键把「新智元大模型」部署成在线服务。

为了方便用户进行快速体验和生产上线,TI平台提供了页面可视化调用和API调用两种方式。

我们只需在页面中配置服务部署所需的资源,服务运行环境,服务的扩缩容策略等,即可完成服务部署。

最后,我们来验证一下,刚刚精调出的大模型究竟效果如何?

给它一段来自网上的英文原始材料,让它生成一篇关于英伟达GPU短缺的简讯。为了更贴近新智元的文风,我们要求它多用短句、多分段。

才几秒钟,新智元大模型的大作就诞生了。

整体来说可圈可点,不过,文字间难免还是有那么点AI的感觉。

解决完正文之后,那最让小编们头疼的标题效果如何?

你别说,还真有点那个味了!

现在可以宣布——新智元大模型,基本获得入驻编辑部资格!

值得注意的是,很多行业的需求实际上要复杂得多,进而也需要经过更加细致和繁琐的调试,才能最终投入使用。

除了这种通过快速问答来进行测试外,腾讯云TI平台还提供的批量测试功能——利用量化指标评估+人工主观观察模型在指定评测集上的效果。

如果发现模型效果不理想,可以先分析loss曲线,观察模型收敛情况,然后调节学习率等超参数。

更进一步的,可以分析badcase,定位出错误原因后,再去找一些相关数据做增强训练。

假如问题还是无法得到解决,或许就需要换一个基底模型,再尝试重新训练了。

鹅厂实战派,让技术更普惠

以上我们看到精调新智元大模型的不错表现,就有本次腾讯云MaaS全面升级的功劳。

其中,技术底座升级保障模型基本盘稳定,平台能力升级保证模型工具用起来顺心又顺手。

目前,腾讯云MaaS能力已在腾讯企点客服、腾讯企点分析、数智人、车载助手、AI绘画等产品中进行了有效验证。

此外,除了刚刚提到的20+主流开源模型,腾讯此次发布的自研混元大模型也是一大亮点,能够成为腾讯云行业大模型的坚实底座。

从「新智元大模型」的诞生中,我们可以看到,腾讯云能够快速、高效地帮助许多行业的客户构建专属自己的大模型以及智能应用,让千行百业都能在大模型热中分一杯羹。

大模型是今年AI界,当之无愧最火爆的话题。如果说,技术是入场票,那落地才是真正的赛点。

今年6月,腾讯出其不意,选择从行业角度切入,发力大模型。最近,他们又马不停蹄,持续迭代MaaS能力,从三大维度加速产业落地,引领效能革命。

腾讯云选择从行业大模型角度切入、深耕,离不开以往自身在技术实践中打下的基础。

一来技术能打,从数据库到计算集群都有涉猎;二来常年深耕产业互联网积累了大量的行业know-how,能够对技术应用场景有深刻的认识。

不论是推进AI研发,还是布局大模型,腾讯云的核心就是,让技术普惠。

而他们践行这个目标的路子也并不复杂:探索前沿技术、打造实用产品、通过高效平台,推进行业大模型在各个行业中落地生根。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-08 15:18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
IDM 下载器怎么下载网盘文件 IDM 下载器支持哪些网盘
不用开通会员,也能高速下载网盘文件。使用 IDM 下载加速器,直接从服务器高速下载文件,轻松突破网盘限速。掌握 IDM 下载网盘文件的技巧,不仅可以节省会员费用,还可以大幅提高下载效率。有关 IDM 下载器如何下载网盘文件,IDM 下载器支持哪些网盘的问题,本文将进行详细操作演示。
逐梦岛
2025/07/22
1690
IDM 下载器怎么下载网盘文件 IDM 下载器支持哪些网盘
一个油猴脚本,让你的百度网盘下载不限速!
今天知识兔给大家分享一个油猴脚本,让大家可以实现一个稳定的绕过百度网盘下载速度的限制。
去小兔网下载
2023/01/15
10.8K0
3个方法解决百度网盘限速
360网盘关闭后,百度网盘似乎要成为国内网盘的唯一选择,但百度的“吃相”难看,下面有3个方法解决百度网盘限速的问题,演示的下载文件是大于1G的一个 War3.zip 单文件(用拖拽的方法打开,否则显示页面不存在),使用的宽带是电信20M,百度限速后的下载速度只有256KB/s,而理论上的下载速度是可以达到2M/s的。奶酪也将持续关注百度网盘限速的问题。 1. 百度网盘下载助手脚本 — 有效,2017-08-05 更新 最早是网友“有一份田”制作的脚本百度下载助手,可以显示直链,绕过大文件云盘下载,还可以
Zip
2018/07/20
3.2K0
百度网盘不限速下载方法,不用下载任何软件 Pandownload网页版
长期保持更新的百度网盘不限速下载PanDownload 目前已上线网页版,无需下载客户端即可解析获得直链。直链下载速度通常要比百度网盘网页版下载速度更快,不过经测试浏览器速度不如PanDownload 客户端快。网页版的好处是全平台通用例如你可以在安卓浏览器里直接发起直链下载,免去要安装百度官方安装客户端。所以如果追求更快的速度的话那么建议下载使用PanDownload 客户端,小文件什么的直接网页版下载即可。
微点
2019/05/15
19.4K0
百度网盘,利用Cheat Engine 7.4加速到狂飙
网上冲浪时发现一个神奇的事情:居然可以用变速精灵来拉满百度网盘下载文件的速度,直接拉满带宽。 众所周知,毒盘的下载速度有时候VIP都只能100K/秒,看我们用变速精灵速率调整使它破防。 PS:如果你在软件界面看到速度依然只有100K/秒,不用担心,实际上速度是飞快的,看下载文件的生成体积或者任务管理器中的网络速度就可以了。
纯情
2023/04/26
19.6K0
百度网盘,利用Cheat Engine 7.4加速到狂飙
IDM百度网盘不限速下载,油猴插件完美解决,贼快!
IDM是一款老牌知名的下载工具,想必大多数人都听说过,IDM的下载速度能提高多达5倍,用过的都说好。这里就不多介绍IDM的使用了,今天主要给大家说说如何用IDM下载百度网盘大文件不限速。
Eleven
2023/04/25
23.1K0
IDM百度网盘不限速下载,油猴插件完美解决,贼快!
百度网盘又被限速,终极加速大法来了!
百度网盘提速下载神器 Pandownload 最近好像被限速了,莱蒙随便试了个链接,使用切换 UserAgent 的网页下载方法只能达到 1MB/s 的速度:
小小詹同学
2019/10/15
65.1K1
【原创】PanDownload复刻PHP版实现某度网盘不限速下载
  由于某度网盘限速,给大家造成了很大的困扰。之前有大佬研究出解析链接并高速下载的方法,后来因为种种原因,都停止了维护。但日益增多的网盘资源下载需求,仍成为一大难题。本章将提供新的思路架设属于自己的PanDownload解析平台,配合Motrix进行高速下载。
零点
2023/04/09
4.2K0
【原创】PanDownload复刻PHP版实现某度网盘不限速下载
Proxyee-down – 百度网盘全平台满速下载神器,还带有IDM的全网嗅探功能
百度云网盘是目前最流行的在线文件分享途径,但它对免费用户的限速实在是严苛,即便是100M的宽带,常常也会遇到仅有几十KB/秒的速度,一个大文件要下载到天荒地老。
夏末浅笑
2019/03/02
6K0
Proxyee-down – 百度网盘全平台满速下载神器,还带有IDM的全网嗅探功能
【技术教程】百度网盘在线解析,不用在担心百度网盘的限速问题了
今天我就教大家如何用Motrin解决限速的问题,以后再也不用担心百度网盘的限速问题了
鸣奔博客
2023/04/06
31.3K22
【技术教程】百度网盘在线解析,不用在担心百度网盘的限速问题了
百度网盘插件
大家平时存一些学习资料时,一眼看到是百度云盘链接,炽热的学习火头一下子被不灭,不管你是5G网速还是多少G网速,在我在下载永远只是几十KB,网友被调侃“唯一能限制5G速度”的百度网盘,keyi教你如何打破百度云盘的限速。
keyi的猫
2022/04/02
11.3K0
百度网盘插件
惊了!百度官方居然推出了免费不限速的网盘下载工具?!
百度网盘是大家十分熟悉的一款产品,曾经功能、速度都还算良心,一度十分火爆。后来,经历了8秒教育片和几次限速之后,大家虽然迫不得已还在用,但是怨声载道。不甘心的技术宅们自然不愿掏钱买会员,去享受原本免费的服务,于是出现了各种魔改客户端,或者油猴脚本,配合别的下载器绕过限制或是多线程加速下载。然而官方经常封杀这些手段,导致这些办法也都是游击战性质,都不是长久之计。
不二小段
2018/07/25
6480
惊了!百度官方居然推出了免费不限速的网盘下载工具?!
百度网盘不限速
3.添加网盘分享地址(如果没有的,自己操作一下),在百度网盘复制链接和提取码后,粘贴到该页面会自动填充
汐语
2023/02/28
3.2K0
百度网盘不限速
新版不限速下载器PanDownload:20~60MB/S
大家都知道,要是在非会员的状态下载百度云盘的相关资源,那几十 KB/S 的龟速实在是让人难受。
逆锋起笔
2022/04/19
30.9K2
新版不限速下载器PanDownload:20~60MB/S
IDM下载器不限速下载百度云资源及教程 (电脑版、手机版、浏览器插件)
IDM全称是Internet Download Manager,它可以称得上是Windows平台上的最好用的资源下载利器,其支持各种不同类型的浏览器,基本上能满足日常所有下载需求,除bt、磁力外(bt、磁力链接,我们可以通过百度网盘离线下载到网盘,然后通过IDM下载到本地)。如果你经常需要下载资源,IDM是个不错的选择。嗅探下载网页视频(甚至M3U8视频都可以下载)、多线程、断点续传等,享誉全球的工具。
用户7442032
2023/01/03
5.4K0
超好用的百度网盘下载工具PanDownload
PanDownload是一款坚持以用户体验为中心,畅快淋漓的下载为理念而打造的下载工具。 从2017年2月9日首个版本推出,时至今日已经一年七个月了,首先感谢大家一直以来的支持与建议,促使着我不断地对软件进行完善。 历时半年之久,180多个日日夜夜的开发与测试,今天给大家带来全新的2.0版本,全新构架、全新界面、全新功能,还有更多强劲的功能正在开发中.....
爱游博客
2019/08/08
3.4K0
Aria2使用详细教程「建议收藏」
============软件资源已打包上传,请在下载里自行下载:aria2c+WebUI.rar-网络监控工具类资源-CSDN下载===============
全栈程序员站长
2022/09/07
24.9K0
Aria2使用详细教程「建议收藏」
百度又作妖,不能匿名下载分享链接?看看这些解决方案。
就这两天,百度网盘再次调整下载接口和规则,导致分享出来的文件链接如果不登录的话,不能下载,你说你一个网盘怎么这么不务正业,天天想着怎么不让用户使用呢!
课代表
2018/11/07
3.6K0
2020 年 4 月使用 Aria2 加速下载百度网盘文件
如果更换应用id还不行,那就试试今天介绍的 Aria2 吧,下载速度也能到2MB/s。
苏生不惑
2020/04/16
13.4K0
2020 年 4 月使用 Aria2 加速下载百度网盘文件
推荐阅读
相关推荐
IDM 下载器怎么下载网盘文件 IDM 下载器支持哪些网盘
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档