首页
学习
活动
专区
圈层
工具
发布

#缓存

缓存就是数据交换的缓冲区(称作Cache),当某一硬件要读取数据时,会首先从缓存中查找需要的数据,如果找到了则直接执行,找不到的话则从内存中找。缓存的作用是帮助硬件更快地运行。

深度思考、结构化输出、Function Calling、Cache 缓存:TokenHub 模型四大核心能力

gavin1024

摘要: 深度思考、结构化输出、Function Calling、Cache 缓存是 TokenHub 语言模型规格表里反复出现的四项核心能力。本文逐一拆解四项能...

1400

DeepSeek-V4-Pro 还是 GLM-5.1?腾讯云 TokenHub 一站式接入两大模型

gavin1024

摘要: DeepSeek-V4-Pro 与 GLM-5.1 是当下国产开源旗舰阵营中两款代表性的大模型,能力侧重不同、定价结构差异明显。本文基于腾讯云 Toke...

3000

TokenHub 平台介绍:18 款语言模型 + 多模态全覆盖的统一 API 入口

gavin1024

摘要: 腾讯云 TokenHub 是聚合腾讯混元、优图与 DeepSeek、GLM、Kimi、MiniMax 等的统一大模型服务平台,覆盖 18 款语言模型与多...

3300

295B/21B MoE 是什么:腾讯混元 Hy3 preview 架构与上下文支持说明

gavin1024

摘要: 295B/21B MoE 是腾讯 2026 年 4 月发布的混元 Hy3 preview 的核心架构标识。本文解释参数总量与激活参数的含义、MoE 的工...

2900

客服多轮对话案例:腾讯客服基于混元落地的能力示例(AI 话术采纳率 90%)

gavin1024

摘要: 腾讯客服基于混元大模型支持多轮对话,落地腾讯游戏、金融科技、视频、医疗健康、支付等多个场景,AI 话术采纳率达 90%。本文以该案例为参考,拆解多轮对话...

3300

大模型选型难?TokenHub 模型广场支持按类型 / 服务商 / 体验状态多维筛选

gavin1024

摘要: 2026 年的大模型选型已经从"能不能用"变成"哪一款最合适"。腾讯云 TokenHub 模型广场提供按类型、服务商、体验状态多维筛选,支持模型对比、详...

1700

CacheDiT、TaylorSeer 与 SCM:DiT 扩散模型推理加速到底在加速什么?

Michael阿明

Diffusers 官方文档将 CacheDiT 定义为一个面向 Diffusers DiT-based pipelines 的统一、免训练缓存加速框架,支持 ...

2110

[填坑] 预览整个目录SVG图片的方法

科控物联

下载地址:https://github.com/maphew/svg-explorer-extension/releases

4610

DeepSeek V4-Pro 我本以为531折扣就要没了,结果从2.5折变为原价1/4

做棵大树

输入 3 元/百万 tokens(未缓存),缓存命中低至 0.025 元,输出 6 元。相当于原价的 1/4,就这么稳稳地定下来了。

3210

DeepSeek 的 10 万亿美元大战略

勇哥AI笔记

正是这种不牺牲质量的小 KV 缓存,让他们能以极低的价格提供长时间缓存服务——不到 Sonnet 4.6 缓存命中价格的 3%,而且能保持数小时。

5010

Token 经济学入门,别让 AI 每次从零认识你!

AI 生命克劳德

在真实的 AI 使用里,你不是只为模型最后回你那几句话付费。你还在为上下文、工具调用、历史对话、文件内容、缓存命中、内部推理一起付费。

10710

PostgreSQL缓冲区简介

小徐

围绕 PostgreSQL[1]的工作让我更加专注于缓冲区。如果你是普通的PostgreSQL用户,可能听说过调整 shared_buffers,并遵循老建议,...

11910

CVE-2026-46300|Linux内核"Fragnisia"本地权限提升漏洞(POC)

信安百科

Linux系统是一种开源的类Unix操作系统内核,由于其强大的可定制性和稳定性,Linux已被广泛应用于服务器、移动设备、物联网设备等多个领域。

57410

五一假期西安文旅流量洪峰背后的技术架构:如何支撑120%订单增长?

行者全栈架构师

26310

突破内存墙:CXL技术如何重塑AI推理架构?

数据存储前沿技术

随着大模型参数规模的指数级增长,AI 推理任务正面临严峻的“内存墙”挑战。KV 缓存的内存占用与日俱增,而传统服务器架构在内存容量与带宽上的物理限制,导致 GP...

13310

智能体 | Nanobot 会话和记忆管理

AI老马

流畅稳定的会话交互与合理高效的记忆管理,是决定Agent 龙虾使用体验与智能上限的核心关键。实际中常会遇到对话上下文错乱、历史消息冗余堆积、多轮会话状态丢失、长...

14210

lmdeploy v0.13.0 升级:支持新模型、新端点、TurboQuant、Anthropic兼容服务、Mixed Modality 与多项核心优化,推理服务能力全面进化

福大大架构师每日一题

缓存尺寸和缓存块布局的边界问题也在 v0.13.0 中得到修复。这类修复虽然看起来比较底层,但对实际服务稳定性非常关键,尤其是在不同负载、不同长度请求以及复杂缓...

16510

疑难杂症(1):踩过 100 次存储 IO 坑后我发现:90%无法解决问题,都是 DMC 问题

早起的鸟儿有虫吃

先定核心结论:DMC(Dirty脏缓存 / Metadata元数据缓存 / Cache Coherence缓存一致性) 不是 Ceph 分布式专属问题;

9910

别再只堆 GPU 了!RAG 扛不住高并发,是因为你没懂这三件事

java金融

报警群里疯狂刷屏:“RAG 服务 P99 延迟超过 30s!”“GPU 利用率 100% 但请求全在排队!”“客服那边炸了,用户投诉进不来了!”

9910

TeaCache:让扩散模型少算几步,但尽量不掉画质

Michael阿明

它不是 LLM 的 KV Cache,也不是缓存最终图片,而是缓存扩散去噪过程中的中间计算结果。 TeaCache 论文将其称为 Timestep Embedd...

11910
领券