腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
程序随笔
专栏成员
举报
188
文章
66489
阅读量
24
订阅数
订阅专栏
申请加入专栏
全部文章(188)
数据(58)
模型(42)
asp(24)
接口(24)
数据库(20)
python(19)
对象(19)
core(18)
函数(18)
public(17)
框架(17)
分布式(15)
程序(15)
配置(15)
存储(14)
线程(14)
服务(13)
sql(12)
客户端(12)
并发(11)
队列(11)
事件(11)
事务(11)
源码(11)
容器(10)
编码(10)
连接(10)
flink(9)
开发(9)
算法(9)
索引(9)
c#(8)
神经网络(8)
self(8)
设计(8)
依赖注入(8)
开源(7)
服务器(7)
优化(7)
mvc(6)
内存(6)
同步(6)
aop(5)
数据湖(5)
管理(5)
脚本(5)
解决方案(5)
排序(5)
网络(5)
原理(5)
redis(4)
笔记(4)
部署(4)
测试(4)
基础(4)
集群(4)
日志(4)
数组(4)
spring(3)
网站(3)
医疗(3)
unity(3)
微服务(3)
async(3)
console(3)
hidden(3)
ioc(3)
masstransit(3)
mysql(3)
登录(3)
后台(3)
继承(3)
集合(3)
架构(3)
进程(3)
路由(3)
系统(3)
线程安全(3)
性能(3)
重构(3)
状态机(3)
缓存(2)
卷积神经网络(2)
zookeeper(2)
iis(2)
kafka(2)
聚类算法(2)
embedding(2)
event(2)
glm(2)
multiprocessing(2)
nlp(2)
null(2)
provider(2)
queue(2)
select(2)
session(2)
set(2)
size(2)
string(2)
twisted(2)
var(2)
闭包(2)
遍历(2)
变量(2)
产品(2)
递归(2)
动态代理(2)
翻译(2)
分布式事务(2)
后端(2)
前端(2)
入门(2)
设计模式(2)
生命周期(2)
实践(2)
协程(2)
协议(2)
学习笔记(2)
压缩(2)
异步(2)
异步编程(2)
异常(2)
语法(2)
源码分析(2)
中间件(2)
字符串(2)
自然语言处理(2)
云服务器(1)
机器学习(1)
html(1)
jquery(1)
api(1)
中文分词(1)
容器镜像服务(1)
语音合成(1)
mongodb(1)
运维(1)
mybatis(1)
推荐系统(1)
决策树(1)
二叉树(1)
rabbitmq(1)
大数据(1)
安全(1)
物联网(1)
数据结构(1)
架构设计(1)
特征工程(1)
迁移(1)
actor(1)
add(1)
apply(1)
chrome(1)
class(1)
cloud(1)
cpu(1)
data(1)
dataset(1)
db(1)
decimal(1)
email(1)
filter(1)
gateway(1)
gpt(1)
identityserver4(1)
input(1)
int(1)
jieba(1)
key(1)
leetcode(1)
list(1)
lock(1)
lstm(1)
mozilla(1)
msdn(1)
navicat(1)
pca(1)
position(1)
post(1)
prefix(1)
row(1)
semaphore(1)
sentinel(1)
server(1)
servicestack(1)
snapshot(1)
sse(1)
state(1)
task(1)
tcp(1)
text(1)
time(1)
torch(1)
transform(1)
ui(1)
using(1)
vector(1)
version(1)
web服务器(1)
xss(1)
版本控制(1)
编程(1)
编程语言(1)
编译(1)
表单(1)
博客(1)
操作系统(1)
代理(1)
定时器(1)
读书笔记(1)
多线程(1)
反射(1)
泛型(1)
分页(1)
高并发(1)
高性能(1)
工程化(1)
工具(1)
工作(1)
计算机科学(1)
加密解密(1)
教程(1)
交换机(1)
接口文档(1)
垃圾回收(1)
链表(1)
浏览器(1)
流量(1)
内存管理(1)
数学(1)
统计(1)
通信(1)
网关(1)
文件系统(1)
序列化(1)
研发(1)
音频(1)
语音(1)
注解(1)
装饰器(1)
作用域(1)
数据保护(1)
搜索文章
搜索
搜索
关闭
聊聊GLM-4-9B开源模型的微调loss计算
模型
数组
开源
glm
input
网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的loss计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。
Ryan_OVO
2024-06-13
181
0
聊聊从大模型来看NLP解决方案之UIE
模型
实践
nlp
解决方案
框架
自然语言处理NLP任务的实现,相比较以前基于传统机器学习算法实现方法,现在越来越集中使用大模型来实现。 通过——数据标注-模型训练-模型调优/微调-模型压缩-预测部署的大模型流程,覆盖NLP多场景满足开发者落地实现与灵活定制的需求。 PaddleNLP是其中典型的NLP解决方案库,通过聚合业界优质预训练模型并提供开箱即用的开发体验,覆盖NLP多场景的模型库搭配产业实践范例可满足开发者灵活定制的需求。
Ryan_OVO
2024-04-23
668
0
聊聊大模型的屏蔽词工程
开源
框架
模型
数据
算法
在做微调训练时,鉴于业务场景的需要,可能会存在微调数据集中含有敏感词汇,譬如:自杀、跳楼等。而开源模型可能没有做敏感词汇的屏蔽工程。因此可能就会出现不可预控的现象,而我遇到的是,当我输入敏感词汇时,模型(基于ChatGLM3)大多数时候返回空,继续正常提问,还是空的。此时模型相当于已经挂了。 普遍来看,敏感词汇的覆盖场景是比较多的,尤其是控制不了用户的输入,很有可能就会恶意或无意的输入敏感词,而模型如果不能正常的回复,或是屏蔽这类词汇,很容易就会出现我的问题。
Ryan_OVO
2024-04-17
634
0
聊聊ChatGLM3多用户并发API调用的问题
api
并发
部署
接口
模型
目前在公司内部4张A10的GPU服务器上部署了ChatGLM3开源模型;然后部署了官方默认的web_demo、api_demo两种模式;重新设计了前端,支持H5和安卓两个客户端调用。但却发现了不能并发访问的问题。
Ryan_OVO
2024-04-10
960
1
聊聊大模型"打字机"效果的背后技术——SSE
事件
sse
客户端
连接
模型
SSE:Server Sent Event;服务器发送事件。 Server-Sent Events(SSE)是一种由服务器向客户端推送实时数据的技术。它是构建基于事件的、服务器到客户端的通信的一种方法,特别适用于需要实时更新和推送信息的应用场景,如实时通知、股票交易、实时游戏状态更新等。 SSE的工作原理是,一旦客户端(通常是浏览器)与服务器建立连接,该连接会保持开放状态,服务器就可以推送事件给客户端,直到客户端或服务器决定关闭它,而无需客户端不断地询问服务器是否有新消息。这大大减少了网络通信量,提高了应用程序的性能和响应速度。
Ryan_OVO
2024-03-28
677
0
聊聊多模态大模型处理的思考
语音
语音合成
开源
embedding
模型
多模态:文本、音频、视频、图像等多形态的展现形式。 目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。 首先就要区分输入与输出,即输入的模态与输出的模态。从目前来看,模型的输出大多都是文本,模型的输入一般是图片/文本;但少数的大模型比如QWen、讯飞星火等支持语音的输入。
Ryan_OVO
2024-03-27
307
0
聊聊ShareGPT格式的微调数据集
脚本
开发
模型
设计
数据
function_call表示函数调用,什么是函数调用?其作用是什么? 由于大模型的数据一般都是截止于某个时间点之前的数据,不具备实时性。比如,我要问今天的天气,正常来说,由于模型参数的局限性,是不会知道的。但基于函数调用的功能,就解决了这个问题。 所谓的function_call,在某个程度来说,可以理解为API调用,这个API就是一个function,提供了某种功能。 observation表示观测结果,即function_call的执行结果。 tools表示工具,即对function_call的总结描述。
Ryan_OVO
2024-03-26
1.8K
0
聊聊心理医疗领域大模型的落地思考
开源
产品
模型
数据
医疗
近来,工作偏向于心理医疗领域方面的大模型,仅从领域大模型的落地,聊聊个人的一些思考。
Ryan_OVO
2024-03-21
144
0
聊聊大模型微调训练全流程的思考
医疗
模型
数据
算法
优化
参考现有的中文医疗模型:MedicalGPT、CareGPT等领域模型的训练流程,结合ChatGPT的训练流程,总结如下: 在预训练阶段,模型会从大量无标注文本数据集中学习领域/通用知识;其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令;最后使用对齐技术使LLM更有用更安全的响应用户的提示。
Ryan_OVO
2024-03-19
870
0
聊聊ChatGLM-6B医疗数据微调
模型
数据
医疗
开源
脚本
参考了多个医疗大模型,如扁鹊、灵心等,重新思考了下微调的方案以及数据集的格式;基于ChatGLM/其它LLM整合多种微调方法的非官方实现的框架,审视其数据集格式,以及调试效果,进行微调。 最终基于liucongg/ChatGLM-Finetuning开源框架成功的微调出来我想要的结果。
Ryan_OVO
2024-03-17
452
0
聊聊大模型的微调实现及其应用
架构设计
框架
模型
数据
开源
模型的微调有多种方式,对于入门的来说,一般都是基于官方的文档微调;最近发现很多开源库,其目的就是支持应用多种微调策略来微调模型,简化模型的微调门槛。比如 ChatGLM-Efficient-Tuning、LLaMA-Factory。其架构逻辑如下:
Ryan_OVO
2024-03-16
378
0
聊聊ChatGLM-6B源码分析(二)
hidden
self
编码
模型
源码分析
GLM模型中位置编码是2D的,有两层的位置表示,分别是序列的位置表示和mask block的位置表示。由get_position_ids函数处理。position_ids对应GLM论文中的postion 1,block_position_ids对应GLM论文中的position 2。
Ryan_OVO
2024-01-13
390
0
聊聊ChatGLM中P-tuning v2的应用
hidden
prefix
self
torch
模型
论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf
Ryan_OVO
2024-01-13
352
0
聊聊ChatGLM-6B的源码分析
hidden
self
size
函数
源码分析
作用:在微调时(以P-Tuning V2为例),方法训练时冻结模型的全部参数,只激活PrefixEncoder的参数。 其源码如下,整体来看是比较简单的。
Ryan_OVO
2024-01-09
632
0
聊聊 从源码来看ChatGLM-6B的模型结构
编程
ChatGLM是transformer架构的神经网络模型,因此从transformer结构入手,分析其源码结构。 transformer结构:
Ryan_OVO
2024-01-07
1.9K
0
聊聊ChatGLM6B的微调脚本及与Huggingface的关联
变量
脚本
模型
配置
源码
本文首先分析微调脚本trainer.sh的内容,再剖析ChatGLM是如何与Huggingface平台对接,实现transformers库的API直接调用ChatGLM模型,最后定位到了ChatGLM模型的源码文件。
Ryan_OVO
2024-01-04
648
0
聊聊流式数据湖Paimon(五)
flink
数据湖
version
脚本
框架
在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件中的provided;否则运行时会报错: Error: A JNI error has occurred, please check your installation and try again
Ryan_OVO
2023-12-30
381
0
聊聊流式数据湖Paimon(四)
数据湖
null
snapshot
time
数据
Paimon中的表被多流填充数据且打宽维度后,支持流读、批读的方式提供完整的Changelog给下游。
Ryan_OVO
2023-12-29
672
0
聊聊流式数据湖Paimon(三)
存储
数据湖
内存
数据
压缩
如果表没有定义主键,则默认情况下它是仅追加 表类型(Append Only Table)。 根据桶(Bucket)的定义,我们有两种不同的仅追加模式:"Append For Scalable Table"和"Append For Queue";两种模式支持不同的场景,提供不同的功能。 只能向表中插入一条完整的记录。 不支持删除或更新,并且不能定义主键。 此类表适合 不需要更新的用例(例如日志数据同步)。
Ryan_OVO
2023-12-26
1.1K
0
聊聊流式数据湖Paimon(二)
数据库
存储
数据湖
数据
同步
Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖;CDC 数据来自数据库。一般来说,分析需求是不会直接查询数据库的。
Ryan_OVO
2023-12-26
1.3K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档