暂无搜索历史
最近半年,不管是和实验室的同学跑微调实验,还是和工业界做落地的朋友聊天,发现大家踩的很多坑,最后都绕回了同一个问题上 —— 大模型的记忆机制。
欢迎回到大模型挑战专栏!在上一篇文章中,我们深度分析了大语言模型(LLM)的“阿喀琉斯之踵”——**灾难性遗忘(Catastrophic Forgetting)...
以前我们总觉得,模型遗忘无非就是“新权重覆盖了旧权重”。但近期的理论物理和高维空间研究无情地戳破了这个简单的假设。在109B到1.5T参数规模的大模型(如Lla...
我们总在聊AI的“智能”,以transformer为底座,现在的AI模型已经写上万行严丝合缝的代码,能通过最难的律考和数学;能背下整本《经典力学》,一字不差地默...
大家好,我是赛博解生酱,今天带来一篇关于大语言模型(LLM)底层机理的硬核论文,但它探讨的话题却充满了浪漫主义色彩——“类比推理”(Analogical Rea...
这段时间,我反复研读了2026年2月发布在arXiv上,由韩国电子通信研究院Byung Gyu Chae撰写的《Emergence of Superintell...
大家好,我是赛博解生酱。在观察大模型展现出惊人的上下文学习(ICL)能力时,你是否曾苦恼于:在动辄万亿 token 的语料库中,究竟是哪些特定的样本“教”会了模...
大家好,我是赛博解生酱。邻近年底工作繁忙,从事LLM工作近一年来,个人大部分工作时间都忙于数据构造清洗以及结果分析。在年底换了新的业务方向后,整理汇报材料也占据...
大家好,我是赛博解生酱。在训练大模型的过程中,你是否曾因无法彻底清洗海量数据中的“有毒样本”而感到焦虑?今天给大家带来一篇来自Anthropic的前沿安全研究,...
在这个充斥着海量数据噪声的深度学习时代,看模型刷榜往往会有一种在混沌系统中寻找决定性规律的无力感 。传统的神经网络之所以能在复杂任务中生存,靠的往往不是对逻辑的...
大家好,我是赛博解生酱。最近对期权交易产生兴趣(高风险高收益),进行了一番了解和研究,包括相关概念及交易策略。许多初次接触期权的人,容易因其杠杆特性,将其误解为...
大家好,我是赛博解生酱,今天给大家带来大模型原理三部曲的最后一篇:信息篇。代数篇里我将一堆看似分散的 LLM 现象(SAE/超位置、连续 CoT、RLVR 的“...
在代数篇里,我用“看不清 / 看不全”去引出系统与尺度的语言;到了流形篇,我更想把这句话彻底几何化——学习这件事,本质上是在一个未知的低维几何体上,把“局部可用...
大家好,我是赛博解生酱。最近读了大量关于大模型的理论研究,涉及强化学习,泛化性,特征研究等各个方面。层出不穷的研究及进展背后,事实上是无数个LLM相关的孤立的现...
大模型的思维链(Chain of Thought)是一种通过分步解题来解决复杂问题的方法,其本质就是在输出最终回答之前输出更多的中间token。这一模式即LLM...
大家好,我是赛博解生酱。在处理长文档、代码或进行复杂对话时,你是否曾苦恼于当前的大语言模型常常“记性不好”,对话一长就忘了开头的内容?今天给大家深入解析一篇来自...
在AI模型迭代的赛道上,我们总习惯追逐“更大参数、更多数据”的竞赛,就像在有限空间里堆砌物品的粗放式收纳——只想着扩大空间(增大模型),却没琢磨过空间本身的利用...
大家好,我是赛博解生酱。AI语言模型在训练中常陷入“过度自信”的陷阱——过度拟合训练数据,却在新场景中表现脆弱。今天给大家带来一篇从信息论角度出发,提高LLM泛...
在这个充满不确定性的A股市场里交易,能够常常体会到湿实验室(Wet Lab)里盯着培养皿的忐忑感。生物体之所以能在这个熵增的宇宙中延续,靠的不是预测明天会发生什...
大家好,我是赛博解生酱。今天开启新的AI精品论文解读系列,专门解读AI领域高质量代表性论文,欢迎大家留言讨论与交流~
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市