赛博解生

文章/答案/技术大牛

发布

LV0

发表了文章 2天前2026-05-26 15:05:20

【深度解析】寻找大模型的心智坐标系：流形干预（Manifold Steering）探索

大家好，我是赛博解生酱。在操控或对齐大语言模型的过程中，你是否曾因生硬地插入一个特征向量（Steering Vector）却引发模型胡言乱语、甚至逻辑彻底崩溃而...

赛博解生 2天前2026-05-26 15:05:20

汽车、论文、模型、数学、神经网络

发表了文章 16天前2026-05-12 10:44:12

OpenCode：一款Claude Code的开源替代品

作为Claude Code的用户，我用了它将近半年的时间。不可否认，Claude Code在代码理解和生成方面的效果最近，表现无可挑剔，但随着使用深入，闭源工具...

赛博解生 16天前2026-05-12 10:44:12

开源、code、插件、代理、工具

发表了文章 2026-04-222026-04-22 20:08:51

榨干MLP的剩余价值：大模型“即插即用”的动态记忆改造术

大家好，我是赛博解生酱。在推进大模型业务落地的过程中，固定的流程是先训练，再评估，然后是部署。一旦业务上线，只能等待线上的反馈然后进行修复提升。今天给大家带来一...

赛博解生 2026-04-222026-04-22 20:08:51

测试、架构、论文、模型、重构

发表了文章 2026-04-162026-04-16 14:47:07

世界模型：不止是SeedDance 2.0的内核，更是AGI的核心基石

最近随着seeddance 2.0的出现，世界模型逐步走入大众的视野。当传统的大语言模型逐渐消耗完互联网的真实数据，性能走进瓶颈的时期，世界模型则作为一个核心概...

赛博解生 2026-04-162026-04-16 14:47:07

内核、视频、数据、机器人、模型

发表了文章 2026-04-092026-04-09 13:24:14

LLM 记忆机制研究：从底层逻辑出发，理解大模型的记忆本质与先天局限

最近半年，不管是和实验室的同学跑微调实验，还是和工业界做落地的朋友聊天，发现大家踩的很多坑，最后都绕回了同一个问题上 —— 大模型的记忆机制。

赛博解生 2026-04-092026-04-09 13:24:15

存储、模型、数据、优化、LLM

发表了文章 2026-04-092026-04-09 13:23:50

告别灾难性遗忘：大模型持续学习与 Nested Learning 架构解析

欢迎回到大模型挑战专栏！在上一篇文章中，我们深度分析了大语言模型（LLM）的“阿喀琉斯之踵”——**灾难性遗忘（Catastrophic Forgetting）...

赛博解生 2026-04-092026-04-09 13:23:50

数据、优化、nested、架构、模型

发表了文章 2026-04-092026-04-09 13:23:15

大模型挑战深潜系列：LLM的灾难性遗忘

以前我们总觉得，模型遗忘无非就是“新权重覆盖了旧权重”。但近期的理论物理和高维空间研究无情地戳破了这个简单的假设。在109B到1.5T参数规模的大模型（如Lla...

赛博解生 2026-04-092026-04-09 13:23:15

模型、数学、优化、LLM、路由

发表了文章 2026-04-092026-04-09 13:22:47

从开普勒到牛顿：如何改进Transformer读懂物理世界

我们总在聊AI的“智能”，以transformer为底座，现在的AI模型已经写上万行严丝合缝的代码，能通过最难的律考和数学；能背下整本《经典力学》，一字不差地默...

赛博解生 2026-04-092026-04-09 13:22:47

模型、数据、机器人、解决方案、论文

发表了文章 2026-04-092026-04-09 13:22:19

深度陷阱与几何奇迹：为什么越深的大语言模型，反而越容易失去“创造力”？

大家好，我是赛博解生酱，今天带来一篇关于大语言模型（LLM）底层机理的硬核论文，但它探讨的话题却充满了浪漫主义色彩——“类比推理”（Analogical Rea...

赛博解生 2026-04-092026-04-09 13:22:19

数学、连接、论文、模型、数据

发表了文章 2026-04-092026-04-09 13:21:56

从物理动力学视角，重新理解智能、超级智能与当前大模型的真实水平

这段时间，我反复研读了2026年2月发布在arXiv上，由韩国电子通信研究院Byung Gyu Chae撰写的《Emergence of Superintell...

赛博解生 2026-04-092026-04-09 13:21:56

系统、框架、论文、模型、统计

发表了文章 2026-04-092026-04-09 13:21:29

追踪大模型的“家谱”：如何从万亿数据中挖掘LLM超能力的因果起源？

大家好，我是赛博解生酱。在观察大模型展现出惊人的上下文学习（ICL）能力时，你是否曾苦恼于：在动辄万亿 token 的语料库中，究竟是哪些特定的样本“教”会了模...

赛博解生 2026-04-092026-04-09 13:21:30

函数、论文、模型、数据、LLM

发表了文章 2026-04-092026-04-09 13:20:59

“小而美”的方向总结——记LLM入坑一年感悟

大家好，我是赛博解生酱。邻近年底工作繁忙，从事LLM工作近一年来，个人大部分工作时间都忙于数据构造清洗以及结果分析。在年底换了新的业务方向后，整理汇报材料也占据...

赛博解生 2026-04-092026-04-09 13:20:59

LLM、架构、论文、模型、数据

发表了文章 2026-04-092026-04-09 13:20:09

【硬核解读】Anthropic新文：大模型“脑科手术”指南：与其事后遗忘，不如预先隔离

大家好，我是赛博解生酱。在训练大模型的过程中，你是否曾因无法彻底清洗海量数据中的“有毒样本”而感到焦虑？今天给大家带来一篇来自Anthropic的前沿安全研究，...

赛博解生 2026-04-092026-04-09 13:20:09

安全、架构、路由、模型、数据

发表了文章 2026-04-092026-04-09 13:19:43

智能的本质是压缩吗？CompressARC：不看训练集的单样本推理方法

在这个充斥着海量数据噪声的深度学习时代，看模型刷榜往往会有一种在混沌系统中寻找决定性规律的无力感。传统的神经网络之所以能在复杂任务中生存，靠的往往不是对逻辑的...

赛博解生 2026-04-092026-04-09 13:19:43

压缩、编码、论文、模型、数据

发表了文章 2026-04-092026-04-09 13:18:44

【深度量化】把随机性关进笼子里：期权交易中的 Black-Scholes 模型

大家好，我是赛博解生酱。最近对期权交易产生兴趣（高风险高收益），进行了一番了解和研究，包括相关概念及交易策略。许多初次接触期权的人，容易因其杠杆特性，将其误解为...

赛博解生 2026-04-092026-04-09 13:18:44

管理、量化、模型、数学、self

发表了文章 2026-04-092026-04-09 13:18:15

大模型原理三部曲-信息篇：从统计物理、信号处理到控制与信息论的一体框架

大家好，我是赛博解生酱，今天给大家带来大模型原理三部曲的最后一篇：信息篇。代数篇里我将一堆看似分散的 LLM 现象（SAE/超位置、连续 CoT、RLVR 的“...

赛博解生 2026-04-092026-04-09 13:18:15

统计、系统、原理、框架、模型

发表了文章 2026-04-092026-04-09 13:16:12

大模型原理三部曲-流形篇：从“点云”到“几何有效理论”，以及流形版Scaling Law

在代数篇里，我用“看不清 / 看不全”去引出系统与尺度的语言；到了流形篇，我更想把这句话彻底几何化——学习这件事，本质上是在一个未知的低维几何体上，把“局部可用...

赛博解生 2026-04-092026-04-09 13:16:13

函数、模型、数据、原理、scaling

发表了文章 2026-04-092026-04-09 13:07:10

大模型原理三部曲-代数篇：从表征到推理的多尺度动力学

大家好，我是赛博解生酱。最近读了大量关于大模型的理论研究，涉及强化学习，泛化性，特征研究等各个方面。层出不穷的研究及进展背后，事实上是无数个LLM相关的孤立的现...

赛博解生 2026-04-092026-04-09 13:07:11

集合、论文、模型、系统、原理

发表了文章 2026-04-092026-04-09 13:05:34

不止提升准确率：CoT 赋能 Transformer 的本质是 “串行计算”

大模型的思维链（Chain of Thought）是一种通过分步解题来解决复杂问题的方法，其本质就是在输出最终回答之前输出更多的中间token。这一模式即LLM...

赛博解生 2026-04-092026-04-09 13:05:34

网络、性能、论文、模型、数学

发表了文章 2026-04-092026-04-09 13:05:04

突破长序列建模瓶颈！谷歌Titans架构引入动态长期记忆机制

大家好，我是赛博解生酱。在处理长文档、代码或进行复杂对话时，你是否曾苦恼于当前的大语言模型常常“记性不好”，对话一长就忘了开头的内容？今天给大家深入解析一篇来自...

赛博解生 2026-04-092026-04-09 13:05:05

论文、模型、数据、优化、架构

12 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2026-04-05

个人成就

获得 26 次赞同
文章被阅读 6.6K 次

关注了：1关注者：10