huggingface-transformers - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签huggingface-transformers

#huggingface-transformers

GGUF quantizer 独立指认 Transformer 三段式深度结构

山野大叔 11天前2026-07-09 17:15:22

我们刚刚完成了老旧 V100 上 bs=1 decode 的收官优化——Qwen3-8B TPOT 34.53 → 22.39 ms（1.54×），追回 lla...

7500

无库无捷径，PyTorch 手写完整 Transformer 大语言模型 LLM

小白学大数据 13天前2026-07-07 16:53:10

调用 from transformers import AutoModel 只要一行代码，但真正理解 Transformer 的人少之又少。多数开发者对 Att...

14710

2026全球AI大模型能力全景图谱：17家主流厂商万字深度实测与选型指南-OpenAI、Google、Anthropic、Meta、百度、阿里、腾讯、字节、智谱

jack.yang 28天前2026-06-22 17:37:35

站在2026年年中的节点回望，人工智能产业刚刚经历了一场人类科技史上最为惨烈也最为壮阔的洗牌期。如果说2023年是“百模大战”的草莽元年，2024年是应用落地的...

3.8K20

# CubeAttn-X：长程检索上为何反而比纯 Transformer 更强？

山野大叔 2026-06-142026-06-14 13:19:05

本文用一张架构对比图，讲清楚一件事：在大模型长程检索这件事上，混合架构（一半线性注意力 + 一半 Softmax）不仅更省内存，而且准确率更高——纯 Softm...

9301

DeepSeek-V3多头潜在注意力架构详解

用户11764306 2026-06-092026-06-09 16:29:12

在本系列的第一部分中，通过探索DeepSeek-V3的理论基础并实现关键配置元素（如旋转位置嵌入），为后续内容奠定了基础。该教程阐述了DeepSeek-V3如何...

31310

基于Transformer和自监督学习的食谱检索技术

用户11764306 2026-06-052026-06-05 15:13:10

在寻找烹饪创意时，人们常常从社交媒体和餐厅中获得灵感，保存喜欢的食物截图或照片。某机构已经构建了一项技术，让人们能够利用这些图像来查找对应的烹饪食谱。在2021...

11410

CubeAttn｜一篇推翻线性注意力评测惯例的「反常识」发现：U 型失效、种子陷阱与瓶颈定位

山野大叔 2026-06-062026-06-06 07:53:45

大模型的核心瓶颈之一是注意力机制的显存开销——标准 Transformer 要算一个 $L \times L$ 的大矩阵，序列越长越爆炸。

15010

Python用LLM词嵌入与Transformer自注意力机制在文本语义理解中的应用研究|附数据代码

拓端 2026-05-072026-05-07 12:16:14

摘要：大语言模型的迅猛发展深刻改变了人机交互范式。本文聚焦于支撑其核心能力的底层技术：词嵌入与自注意力机制。研究从传统稀疏表示法的局限性出发，系统对比了Wor...

31310

Transformer架构：驱动AI革命的核心理念

用户11764306 2026-05-052026-05-05 09:41:19

当今最强大的AI工具——无论是能够总结文档、生成艺术作品、创作诗歌，还是预测极其复杂蛋白质折叠方式的工具——都依赖于“Transformer”架构。这种神经网络...

17610

transformer进阶之路：#2 工作原理详解

AI-Frontiers 2026-04-292026-04-29 08:55:28

原文链接：https://mp.weixin.qq.com/s/D3ztMx5HeGMD30PenmDizg 欢迎关注公zh: AI-Frontiers

17110

transformer进阶之路：#1 整体概述

AI-Frontiers 2026-04-272026-04-27 08:24:45

原文链接：https://mp.weixin.qq.com/s/R3BxCMu5CSFo_HPcVJTuOA 欢迎关注公gh: Al-Frontiers

20510

循环深度Transformer与MoE路由编码教程

用户11764306 2026-04-262026-04-26 12:22:20

在本教程中，探索OpenMythos的实现，这是对Claude Mythos架构的理论重构，通过迭代计算而非增加参数规模来实现更深层的推理。构建并分析使用GQA...

19310

利用Transformer提升商品检索效果

用户11764306 2026-04-212026-04-21 18:16:45

在今年的知识发现与数据挖掘国际会议（KDD）上，我们介绍了一种新的学习排序方法，该方法纳入了绝对反馈。它还使用了在自然语言处理中非常流行的Transformer...

12910

万字详解：谷歌研究院推出的TurboQuant压缩算法 —— 极致压缩如何重塑大模型推理的未来

jack.yang 2026-03-262026-03-26 21:05:11

2026 年，生成式人工智能已进入“长上下文时代”。从 Claude 3 的 200K tokens 到 Gemini 2 的 1M tokens，大语言模型（...

8K20

MQ-Former：融合可学习与条件查询的图像分割新架构

用户11764306 2026-03-252026-03-25 13:18:08

在2025年计算机视觉与模式识别会议（CVPR）上发表的一篇论文中，介绍了一种新的图像分割方法，该方法能够跨不同的数据集和任务进行扩展。传统的分割模型在孤立任务...

15710

RAG系统中如何处理多跳问答（Multi-hop QA）？

ETL 小当家 2026-03-242026-03-24 09:44:47

🚀 本文收录于Github：AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助，欢迎 ⭐ Star 支持！

94210

#huggingface-transformers

GGUF quantizer 独立指认 Transformer 三段式深度结构

无库无捷径，PyTorch 手写完整 Transformer 大语言模型 LLM

2026全球AI大模型能力全景图谱：17家主流厂商万字深度实测与选型指南-OpenAI、Google、Anthropic、Meta、百度、阿里、腾讯、字节、智谱

# CubeAttn-X：长程检索上为何反而比纯 Transformer 更强？

DeepSeek-V3多头潜在注意力架构详解

基于Transformer和自监督学习的食谱检索技术

CubeAttn｜一篇推翻线性注意力评测惯例的「反常识」发现：U 型失效、种子陷阱与瓶颈定位

Python用LLM词嵌入与Transformer自注意力机制在文本语义理解中的应用研究|附数据代码

Transformer架构：驱动AI革命的核心理念

transformer进阶之路：#2 工作原理详解

transformer进阶之路：#1 整体概述

循环深度Transformer与MoE路由编码教程

利用Transformer提升商品检索效果

万字详解：谷歌研究院推出的TurboQuant压缩算法 —— 极致压缩如何重塑大模型推理的未来

MQ-Former：融合可学习与条件查询的图像分割新架构

RAG系统中如何处理多跳问答（Multi-hop QA）？

热门专栏

AutoML(自动机器学习)

玩转全栈

为了不折腾而去折腾的那些事

腾讯云TVP

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐