暂无搜索历史
3.性能对比:与全精度Transformer LLM(FP16或BF16)模型大小和训练tokens相等,困惑度和端到端任务性能相同。
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augme...
论文介绍了一种评估和增强LLM在角色扮演方面能力的方法。作者首先提出了一个角色扮演基准(RoleBench),用于综合评估LLM的角色扮演能力,然后设计了一种名...
尽管LLM(大型语言模型)的模型和数据规模不断增加,但它们仍然面临事实错误的问题。现有的Retrieval-Augmented Generation (RAG)...
该研究目标是创建一个与用户意图更符合的小型语言模型。通过应用蒸馏监督微调(distilled supervised fine-tuning, dSFT)和蒸馏直...
当我们进行微批处理(mini-batch)时,虽然能减少计算浪费并以更灵活的方式批处理请求,但由于GPU内存容量的限制(特别是存储 KV 缓存的空间),仍然限制...
百川2技术报告详细介绍了模型的研发细节,包括7B和13B两个版本,以及在2.6T数据上进行了训练。报告还提及模型在数学、代码能力以及医疗和法律任务上的显著改善,...
为了保持论文中原汁原味的语义信息,保留相关原文,没有刻意翻译成中文,避免造成误解。
作者团队提出了BLIP-2,它是一种通用且高效预训练的策略,能够基于现有的预训练image encoders和预训练大语言模型(两者的模型参数都冻结)进行图像和...
(1)提出的蒲公英项目(Dandelion Project)旨在部署的大型语言模型不仅准确,而且透明,可信,可定制。
在本文中,我们首次尝试使用 GPT-4 生成用于 LLM 微调的指令跟随数据。我们对指令调优的 LLaMA 模型的早期实验表明,由 GPT-4 生成的 52K ...
在本文中,我们首次尝试使用仅基于语言的GPT-4生成多模态语言-图像指令跟随(instruction following)数据。通过对这些生成数据进行指令调整,...
在本文中,我们提出了LLaMA-Adapter V2,一种参数高效的视觉指令模型。具体而言,我们首先通过解锁更多可学习参数(例如,norm、偏置和比例),增强L...
https://github.com/ymcui/Chinese-LLaMA-Alpaca
SpellGCN:Incorporating Phonological and Visual Similarities into Language Models...
Pretraining Chinese BERT for Detecting Word Insertion and Deletion Errors
Pre-trained masked Language mOdel with Misspelled knowledgE
本期视频内容:肺部感染识别案例简介 视频地址:http://mpvideo.qpic.cn/0bc3eeabuaaa2aakaclypjrfaioddiqqag...
本期视频内容:手写字体识别 MNIST 视频地址:http://mpvideo.qpic.cn/0bc3lyab2aaa6eaifityebrfaxwddvpa...
本期视频内容:手写字体识别 MNIST (实战 - 下) 视频地址:http://mpvideo.qpic.cn/0bc3zaab2aaatqak6g3ykfr...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市