首页
学习
活动
专区
工具
TVP
发布

程序随笔

专栏成员
188
文章
66489
阅读量
24
订阅数
聊聊GLM-4-9B开源模型的微调loss计算
网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的loss计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。
Ryan_OVO
2024-06-13
1810
聊聊从大模型来看NLP解决方案之UIE
自然语言处理NLP任务的实现,相比较以前基于传统机器学习算法实现方法,现在越来越集中使用大模型来实现。 通过——数据标注-模型训练-模型调优/微调-模型压缩-预测部署的大模型流程,覆盖NLP多场景满足开发者落地实现与灵活定制的需求。 PaddleNLP是其中典型的NLP解决方案库,通过聚合业界优质预训练模型并提供开箱即用的开发体验,覆盖NLP多场景的模型库搭配产业实践范例可满足开发者灵活定制的需求。
Ryan_OVO
2024-04-23
6680
聊聊大模型的屏蔽词工程
在做微调训练时,鉴于业务场景的需要,可能会存在微调数据集中含有敏感词汇,譬如:自杀、跳楼等。而开源模型可能没有做敏感词汇的屏蔽工程。因此可能就会出现不可预控的现象,而我遇到的是,当我输入敏感词汇时,模型(基于ChatGLM3)大多数时候返回空,继续正常提问,还是空的。此时模型相当于已经挂了。 普遍来看,敏感词汇的覆盖场景是比较多的,尤其是控制不了用户的输入,很有可能就会恶意或无意的输入敏感词,而模型如果不能正常的回复,或是屏蔽这类词汇,很容易就会出现我的问题。
Ryan_OVO
2024-04-17
6340
聊聊ChatGLM3多用户并发API调用的问题
目前在公司内部4张A10的GPU服务器上部署了ChatGLM3开源模型;然后部署了官方默认的web_demo、api_demo两种模式;重新设计了前端,支持H5和安卓两个客户端调用。但却发现了不能并发访问的问题。
Ryan_OVO
2024-04-10
9601
聊聊大模型"打字机"效果的背后技术——SSE
SSE:Server Sent Event;服务器发送事件。 Server-Sent Events(SSE)是一种由服务器向客户端推送实时数据的技术。它是构建基于事件的、服务器到客户端的通信的一种方法,特别适用于需要实时更新和推送信息的应用场景,如实时通知、股票交易、实时游戏状态更新等。 SSE的工作原理是,一旦客户端(通常是浏览器)与服务器建立连接,该连接会保持开放状态,服务器就可以推送事件给客户端,直到客户端或服务器决定关闭它,而无需客户端不断地询问服务器是否有新消息。这大大减少了网络通信量,提高了应用程序的性能和响应速度。
Ryan_OVO
2024-03-28
6770
聊聊多模态大模型处理的思考
多模态:文本、音频、视频、图像等多形态的展现形式。 目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。 首先就要区分输入与输出,即输入的模态与输出的模态。从目前来看,模型的输出大多都是文本,模型的输入一般是图片/文本;但少数的大模型比如QWen、讯飞星火等支持语音的输入。
Ryan_OVO
2024-03-27
3070
聊聊ShareGPT格式的微调数据集
function_call表示函数调用,什么是函数调用?其作用是什么? 由于大模型的数据一般都是截止于某个时间点之前的数据,不具备实时性。比如,我要问今天的天气,正常来说,由于模型参数的局限性,是不会知道的。但基于函数调用的功能,就解决了这个问题。 所谓的function_call,在某个程度来说,可以理解为API调用,这个API就是一个function,提供了某种功能。 observation表示观测结果,即function_call的执行结果。 tools表示工具,即对function_call的总结描述。
Ryan_OVO
2024-03-26
1.8K0
聊聊心理医疗领域大模型的落地思考
近来,工作偏向于心理医疗领域方面的大模型,仅从领域大模型的落地,聊聊个人的一些思考。
Ryan_OVO
2024-03-21
1440
聊聊大模型微调训练全流程的思考
参考现有的中文医疗模型:MedicalGPT、CareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使LLM更有用更安全的响应用户的提示。
Ryan_OVO
2024-03-19
8700
聊聊ChatGLM-6B医疗数据微调
参考了多个医疗大模型,如扁鹊、灵心等,重新思考了下微调的方案以及数据集的格式;基于ChatGLM/其它LLM整合多种微调方法的非官方实现的框架,审视其数据集格式,以及调试效果,进行微调。 最终基于liucongg/ChatGLM-Finetuning开源框架成功的微调出来我想要的结果。
Ryan_OVO
2024-03-17
4520
聊聊大模型的微调实现及其应用
模型的微调有多种方式,对于入门的来说,一般都是基于官方的文档微调;最近发现很多开源库,其目的就是支持应用多种微调策略来微调模型,简化模型的微调门槛。比如 ChatGLM-Efficient-Tuning、LLaMA-Factory。其架构逻辑如下:
Ryan_OVO
2024-03-16
3780
聊聊ChatGLM-6B源码分析(二)
GLM模型中位置编码是2D的,有两层的位置表示,分别是序列的位置表示和mask block的位置表示。由get_position_ids函数处理。position_ids对应GLM论文中的postion 1,block_position_ids对应GLM论文中的position 2。
Ryan_OVO
2024-01-13
3900
聊聊ChatGLM中P-tuning v2的应用
论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf
Ryan_OVO
2024-01-13
3520
聊聊ChatGLM-6B的源码分析
作用:在微调时(以P-Tuning V2为例),方法训练时冻结模型的全部参数,只激活PrefixEncoder的参数。 其源码如下,整体来看是比较简单的。
Ryan_OVO
2024-01-09
6320
聊聊 从源码来看ChatGLM-6B的模型结构
ChatGLM是transformer架构的神经网络模型,因此从transformer结构入手,分析其源码结构。 transformer结构:
Ryan_OVO
2024-01-07
1.9K0
聊聊ChatGLM6B的微调脚本及与Huggingface的关联
本文首先分析微调脚本trainer.sh的内容,再剖析ChatGLM是如何与Huggingface平台对接,实现transformers库的API直接调用ChatGLM模型,最后定位到了ChatGLM模型的源码文件。
Ryan_OVO
2024-01-04
6480
聊聊流式数据湖Paimon(五)
在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件中的provided;否则运行时会报错: Error: A JNI error has occurred, please check your installation and try again
Ryan_OVO
2023-12-30
3810
聊聊流式数据湖Paimon(四)
Paimon中的表被多流填充数据且打宽维度后,支持流读、批读的方式提供完整的Changelog给下游。
Ryan_OVO
2023-12-29
6720
聊聊流式数据湖Paimon(三)
如果表没有定义主键,则默认情况下它是仅追加 表类型(Append Only Table)。 根据桶(Bucket)的定义,我们有两种不同的仅追加模式:"Append For Scalable Table"和"Append For Queue";两种模式支持不同的场景,提供不同的功能。 只能向表中插入一条完整的记录。 不支持删除或更新,并且不能定义主键。 此类表适合 不需要更新的用例(例如日志数据同步)。
Ryan_OVO
2023-12-26
1.1K0
聊聊流式数据湖Paimon(二)
Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖;CDC 数据来自数据库。一般来说,分析需求是不会直接查询数据库的。
Ryan_OVO
2023-12-26
1.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档