首页
学习
活动
专区
圈层
工具
发布

#原理

大模型推理优化——从KV Cache到投机解码,原理+实战

烟雨平生

原理很简单:每层attention都要算Q、K、V三个矩阵。K和V只依赖之前的token,生成新token时没必要重新算。存下来就行。

500

吐槽一个“高精度” NTC 采集电路

云深无际

在我看来,这电路最多算“低成本 NTC 温度采集”,不能直接叫“高精度温度采集”;核心问题倒不是能不能测温,而是误差源太多,并且几个主要误差源已经达到 0.2°...

1700

勒索病毒连备份一起加密?不可变备份技术原理与部署实战——从瑞典市政事件说起

用户12493922

8910

勒索病毒连备份一起加密?不可变备份技术原理与部署实战——从瑞典市政事件说起

用户12493922

5610

AG-UI 不是炒作!这是 AI 开发者迟早要学的通信协议,从原理到落地一篇搞懂

HELLO程序员

GSK(中国) | 全栈架构师 (已认证)

AG-UI(智能体用户交互协议)是完善 AI 工具开发生态拼图的又一重要组件。本文将带您了解 AG-UI 究竟是什么,以及作为 Web 开发者和软件工程师的我们...

7910

有趣+实用!用 GPT-Image2 两套爆款科普绘,阅读感满分!附2完整 Prompt!

PikeTalk

直观剖开火山内部结构,清晰展示火山锥、岩浆通道、喷发口,搭配通俗知识点,告别抽象想象,轻松弄懂火山喷发原理。

9210

破解大模型推理的数据瓶颈:CAMEL-AI的Loong项目如何实现“自我造血”?

唐国梁Tommy

今天,我们要深入探讨来自 CAMEL-AI 的 《Loong: Synthesize Long Chain-of-Thoughts at Scale throu...

14710

Agent开发-ReactAgent 的工作原理

码农戏码

ReAct(Reasoning + Acting)是一种将推理和行动相结合的 Agent 范式。在这个范式中,Agent 会:

10510

内存泄漏该怎么办?

早起的鸟儿有虫吃

从原理上分析,然后找证据。找证据 需要深入计算机组成原理 gdb 内核源码 还是业务程序,一定找到答案,

7510

Claude Code 里的 7 种自定义方式,90% 的人只用了 CLAUDE.md 一种

码哥字节

这篇文章不是再做一遍「7 种方式逐一介绍」的平铺结构——那种文章已经有不少了。我要做的是:先给你 5 个真实场景,让你对号入座;再给你一个决策框架,帮你以后自己...

14310

详述PG修改字段类型不锁表的原理 step by step

AustinDatabases

那么原理是什么pgroll是一个基于什么原理的工作模式,这里有三个词,影子列,触发器,版本化视图,通过这三个组合,这里在操作中,他分为四个步骤,通过每个阶段持有...

7610

RTK 技术原理:一次典型会话里,80% 上下文是怎么省下来的

CandyTong

腾讯 | 前端开发 (已认证)

先看 PreToolUse 这类 hook 的通用原理。AI 助手准备调用 Bash 工具时,宿主先启动配置好的 hook 命令,并把这次工具调用的信息通过 s...

13910

彻底搞懂AI Agent:从原理、主流框架到到实战落地

三猫

你对着 ChatGPT 说:“帮我分析下上个月的销售数据,写一份报告,然后发到团队邮箱。”它会怎么做?它会告诉你:“好的,你需要这样做:先导出数据,然后用 Ex...

16210

视频理解太慢?VITA"秒级理解"的技术原理

gavin1024

视频理解延迟过高,往往受限于多模型串联的级联架构。VITA基于原生多模态大模型技术,在单个模型内完成端到端的多模态内容理解,视频首Token时延P95为2.47...

7610

Skill 完整入门教程:20 分钟梳理核心概念、深挖底层原理,手把手自研落地

架构精进之路

本文可以看作是一份「20 分钟 Skill 入门 + 进阶」速通指南:从概念、原理,到安装、使用,再到自制和组合,让你对 Skill 有一个成体系的认识。

26910

给 Hermes 装上"第二颗大脑":当 OpenViking 遇上 GitNexus

专业造轮子

它的工作原理是经典的 RAG:把文本切成块,扔进向量数据库,提问时做相似度检索,把最相关的上下文塞给大模型。

10600

CRDTs原理:像拼乐高一样合并分布式数据

专业造轮子

想象一个场景:你在手机上往购物车加了“牛奶”,同事在电脑上添加了“面包”,朋友用平板加了“鸡蛋”——但因为网络延迟,这三份操作被存在了不同服务器上。当网络恢复时...

7300

音频理解技术详解:AI"听懂"声音的原理

gavin1024

音频理解技术使AI能够直接处理和理解声音内容。本文介绍音频理解的技术原理,对比传统ASR方案与直接音频理解方案的差异,并说明VITA多模态理解模型如何通过原生多...

11010

像原始人一样和AI对话,费用可直接砍掉40%

用户11563501

如果你经常用ChatGPT API或者其他大模型,月底账单可能让你心疼。现在有个开源项目叫"caveman-compression",能帮你省下不少钱。

7010
领券