首页
学习
活动
专区
圈层
工具
发布

#数学

白得 2 到 3 倍加速的投机采样机制解析:草稿模型和目标模型是怎么配合的

deephub

LLM 解码很慢,因为生成一个 token 需要每次都从 GPU 内存中加载全部模型权重。700 亿参数的模型意味着 140GB 权重,每一个 token 都要...

000

小学生在校“卖画”求生,反问我“你能养我吗? AI 时代缺了点什么?

AustinDatabases

我就和孩子说了,你现在是好好学习的年纪,不能不务正业,你数学做了吗?你英语背了吗?你唐诗写了吗?还有你的那个字,练练吧,别和你爸我字写的那么难看。

2100

分析了 3 万份简历,凯哥 做了个高考志愿智能体

凯哥

稳定就业类:临床医学、口腔医学、护理学、汉语言文学、小学教育、数学与应用数学、会计学、财务管理、法学、电气工程及其自动化。

4110

上下文腐烂 - 注意力有限

用户11705094

虽然注意力公式看起来没有任何偏置项,但其实偏置已经被编码进向量 query 和 key 里了。

2500

上下文腐烂 - 单次对话

用户11705094

这种现象的数学本质是,位置偏置把权重抬到两端,softmax把差距指数放大,有限容量让中间首先被压缩掉。

3300

为什么工业 AI 必须引入本体论?

用户11705094

它只是通过计算得出,在训练它的万亿级语料中,“水”、“100℃”和“沸腾”这几个词同时出现的概率最高。

2610

算力的迷雾

用户11705094

在旧金山,耗资数倍算力训练出来的GPT-5并没有像GPT-4那样带来预期中的、断层式的跃迁。

5710

人类算力的物理边界

用户11705094

2025年,如果你站在美国硅谷的街头,或者走进中国的科技园,你会感觉到空气中都弥漫着一种焦躁的电流声。那是无数GPU全速运转的轰鸣,也是金钱在高温中剧烈燃烧的声...

4710

逃离Scaling Law的魔咒:接替Transformer的下一代推理范式「循环架构」全景拆解

赛博解生

大家好,我是赛博解生酱。在当前的人工智能浪潮中,基于Transformer架构的大语言模型(LLMs)无疑是绝对的霸主。通过“更大参数规模、更多训练数据、更长上...

9810

梁文锋亲自署名!DeepSeek发布DSpark,大模型推理一口气提速85%

乐小野

石化盈科信息技术有限责任公司 | 算法工程师 (已认证)

结构化任务(数学、代码)的可接受长度天然更高,而开放式对话场景明显偏低。这也意味着DSpark在代码助手、数学解题等场景下的加速效果最为显著。

43610

大模型-代数基础知识(向量,矩阵,点积)

码农戏码

只有大小概念,没有方向的概念。通过一个具体的数值就能表达完整。比如:重量、温度、长度、提及、时间、热量等都数据标量

7700

2026-06-27:拆分到 1 的最小总代价。用go语言,给定一个整数 n。你需要把它不断地“拆分”为若干个 1,最后一共得到 n 个 1。 一次操作

福大大架构师每日一题

2026-06-27:拆分到 1 的最小总代价。用go语言,给定一个整数 n。你需要把它不断地“拆分”为若干个 1,最后一共得到 n 个 1。

6500

扩散模型为何能摆脱维度灾难?这篇论文给出了一个很漂亮的理论答案

DrugIntel

这是一篇非常值得关注的扩散模型理论论文。它不仅讨论“扩散模型为什么有效”,更进一步把扩散模型的训练过程、泛化能力和可控生成统一到一个低维结构学习的框架中。

8510

GPT-5 炸场发布:免费能用、编程封神,人类终于有了「博士级全能助手」?

HELLO程序员

GSK(中国) | 全栈架构师 (已认证)

数学题霸附体:在 2025 年美国 AIME 数学竞赛中,GPT-5 开启「thinking 模式」并调用 Python 工具,直接拿下 100% 满分;即便无...

12700

均匀扩散语言模型:第三条大模型路线,第一次被真正训练到了 7B

唐国梁Tommy

我们已经习惯了大模型一个字一个字往外蹦。从 GPT 到 Llama,主流大语言模型走的都是同一条路——自回归(autoregressive):从左到右,一次只决...

11710

当AGI不再是终点: DeepMind画出了通往"超级智能"的四条路

唐国梁Tommy

但 DeepMind 最近的一份报告,把问题往前推了一大步。这份报告的署名者里,有 DeepMind 联合创始人 Shane Legg,也有"通用智能数学理论 ...

15010

微软多模态Phi-4-reasoning-vision-15B:用200B token训出来的多模态推理模型,凭什么敢和1T+对打?

唐国梁Tommy

这篇报告解决的问题是:如何在显著更少的训练数据和推理计算开销下,构建一个在数学科学推理与GUI操控上竞争力强的多模态模型。核心贡献是系统化数据质量工程 + 动态...

10210

微软“小钢炮”rStar2-Agent,三大创新如何让小模型拥有超凡推理力

唐国梁Tommy

在AI圈,我们似乎已经习惯了“大力出奇迹”的叙事:更大的参数量、更海量的数据、更强的算力,似乎是通往更强智能的唯一路径。然而,微软最新发布的 rStar2-Ag...

10600

“通才”的胜利:为何混合训练(数学+代码+谜题)才是打造最强大模型的关键?

唐国梁Tommy

今天,我们要深入探讨一个在AI领域越来越重要的话题:大语言模型(LLM)的多领域推理能力。如今的LLM在单一任务上,如数学解题或代码生成,已经表现得相当出色。但...

8600

告别RL探索困境:「强化学习教师」重塑大模型推理(Reasoning)训练

唐国梁Tommy

近期,将强化学习(RL)应用于语言模型(LM)以提升其复杂推理能力,已经成为AI领域最前沿、最激动人心的方向之一。从DeepMind的AlphaCode到Dee...

12600
领券