从压缩的Q中恢复Q (spqr，以稀疏的方式) - 腾讯云开发者社区

脚本使用Crypto库需要py2环境，更高版本用的是另外一个库（自行百度，懒）： pq可以尝试通过在线大整数分解网站求出 import math import sys from Crypto.PublicKey...import RSA keypair = RSA.generate(1024) keypair.p = 440140550843727826962832356360132665339 keypair.q...= 420226057252427765877741059207519510621 keypair.e = 65537 keypair.n = keypair.p * keypair.q Qn =...分解出pq后极容易求得phi(N) = (p-1)*(q-1)；由于c = m^e，m = c^d，所以可以尝试从ed的关系下手，而e，d满足条件e*d ≡ 1(mod phi(N)) 即 e*d =...1 + k*phi(N)；由上面的关系式可以知道，只要从1到∞遍历k，代入到1 + k*phi(N)，找到模上e后结果为0（整除）的那一项，即可得到正确的d！

8292 0

将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

为了解决准确性问题，来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR（Sparse-Quantized Representation，稀疏 - 量化表征），首次实现了...SpQR 通过识别和隔离异常权重来工作，这些异常权重会导致特别大的量化误差，研究者将它们以更高的精度存储，同时将所有其他权重压缩到 3-4 位，在 LLaMA 和 Falcon LLMs 中实现了不到...—— 稀疏量化表征（SpQR），可以将精确预训练的 LLM 压缩到每个参数 3-4 位，同时保持近乎无损。...最后，该研究评估了 SpQR 推理速度。该研究将专门设计的稀疏矩阵乘法算法与 PyTorch（cuSPARSE）中实现的算法进行了比较，结果如表 4 所示。...可以看到，尽管 PyTorch 中的标准稀疏矩阵乘法并没有比 16 位推理更快，但本文专门设计的稀疏矩阵乘法算法可以提高约 20-30% 的速度。

3351 0

您找到你想要的搜索结果了吗？

是的

没有找到

7 Papers | DeepMind用AI重写排序算法；将33B大模型塞进单个消费级GPU

，但实际上是捷径的方式连接项目。」...推荐：CVPR 2023 | 三维场景生成：无需任何神经网络训练，从单个样例生成多样结果。...等论文地址：https://arxiv.org/pdf/2306.03078.pdf 摘要：为了解决准确性问题，来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR...（稀疏 - 量化表征），首次实现了 LLM 跨模型尺度的近无损压缩，同时达到了与以前方法相似的压缩水平。...SpQR 通过识别和隔离异常权重来工作，这些异常权重会导致特别大的量化误差，研究者将它们以更高的精度存储，同时将所有其他权重压缩到 3-4 位，在 LLaMA 和 Falcon LLMs 中实现了不到

2631 0

ICLR2024，微软 | 提出LLM剪枝方法-SliceGPT，参数减少25%，保持99%的性能！

其中，剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本高昂且难以扩展。...作者最初的计划是从模型中收集信号，利用这些信号构建一个正交矩阵，然后删除部分网络。他们很快发现，网络中不同区块的信号并没有对齐，因此他们需要在每个区块应用不同的正交矩阵，即 Q_ℓ。...从结果中可以观察到与生成任务中类似的结论：OPT 模型比 LLAMA-2 模型更适应压缩，越大的模型经过剪裁后精度的下降越不明显。作者在 Phi-2 这样的小模型中测试了 SliceGPT 的效果。...最大型的 OPT 和 LLAMA-2 模型可以被有效压缩，当从 66B 的 OPT 模型中删除 30% 时，SliceGPT 可以做到仅损失了几个百分点。作者还进行了恢复微调（RFT）实验。...作者还发现 Phi-2 无法在 WikiText-2 数据集中，从被剪裁过的模型中恢复原有准确率，但在 Alpaca 数据集中能恢复几个百分点的准确率。

4631 0

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

5251 0

注意力机制进化史：从MHA到MoBA，新一代注意力机制的极限突破！

DeepSeek-V2架构示意图：MLA通过显著减少生成过程中的KV缓存，确保了高效的推理；而DeepSeekMoE则通过稀疏架构，以低成本训练出强大的模型。...这样，在计算注意力时，我们可以通过映射将该潜在向量恢复到高维空间，以重构键（keys）和值（values）。这种方法的优势在于，只需存储低维的潜在向量，从而大幅减少内存占用。...W^{UK} 和 W^{UV} 是两个向上投影矩阵（up-projection matrices），分别用于将共享的潜在向量映射回高维空间，以恢复键(K)和值(V)。...这些选择的键值对参与与 q_{t} 的注意力计算。滑动窗口（Sliding Window）：在注意力机制中，局部模式可能会主导学习过程，影响模型从压缩和选择令牌中学习。...形式上，对于查询令牌位置 pos(q) 在区间 I_{\bar{u}} 内的块 i ，设置 g_{i}=1 。从MoE角度看，MoBA中的当前块注意力类似于现代MoE架构中的共享专家角色。

2792 0

演讲 | 今日头条AI技术沙龙马毅：低维模型与深度模型的殊途同归

今天我以视觉为例，探讨低维模型和深度模型如何为了一个共同的目的从两个完全对立的方向走到了一起。从结果来看，压缩感知和深度学习都让我们能在像素级别处理图像的全局信息。而从方法论来看，这二者是互补的。...在视觉方面，有：从有部分测量缺失的结构化图像中恢复低维结构：低秩纹理修复（Liang, Ren, Zhang, and Ma, in ECCV 2012）；不同光线条件下立体结构修复（Wu, Ganesh...从有部分测量损坏的结构化图像中恢复低维结构：从移动摄像机的图像中得到全景（Panorama）（Zhou, Min, and Ma, in 2012)等。...从非线性形变和线性压缩采样中恢复低维结构：从旋转、扭曲过的图片中提取几何形状和纹理（Zhang, Liang, Ganesh, Ma, ACCV'10, IJCV'12.）...如果未来机器学习以效率优先为目标，那么一定会从监督学习到无监督学习，从深的模型到浅的模型，从大的模型到小的模型，从大的数据到小的数据。

1.8K7 0

单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

优势所在大语言模型（LLM）是拥有数十亿个参数的神经网络，以数万亿词库为基础进行训练。这种过高的成本就导致人们会转向在多个任务中重复使用预先训练好的模型，我们称为基础模型范式。...研究人员表示，虽然剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本十分高昂，且难以进行扩展。...剪枝方法的工作原理是将LLM中权重矩阵的某些元素设置为零，并更新矩阵的周围元素以进行补偿。结果就是，形成了稀疏模式，意味着在神经网络前向传递所需的矩阵乘法中，可以跳过一些浮点运算。...利用这一点来编辑Transformer架构中的每个区块，从而将区块间的信号矩阵1投影到其自身上，之后移除变换后权重矩阵的列或行，以减小模型的大小。 3....此外，在下游任务中，研究人员还对Phi-2模型进行了实验，结果表明所有模型的压缩率最高可达30%，同时还能保持 90%以上的密集性能。

1531 0

深度学习进阶篇7：Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。

1.基于Transformer模型应对长输入序列比较早期的是一方面从内存方面入手：Transformer-XL和内存压缩的Transformer，而另一种方法是各种稀疏注意力机制。...由于稀疏矩阵也可以用图和边来表示，所以稀疏化方法也是由图神经网络文献所启发的，具体关系在图注意力网络中概述。这种基于稀疏性的架构通常需要额外的层来隐含产生完整的注意力机制。图片标准的稀疏化技术。...FAVOR+：通过矩阵相关性实现快速注意力上文描述的分解允许我们以线性而非二次内存复杂度的方式存储隐式注意力矩阵。我们还可以通过分解获得一个线性时间注意力机制。...，并通过 query 随机特征向量进行左乘计算，以在最终矩阵中获得新行。...图片下面，我们可视化一个蛋白质Performer模型，使用基于 relu 的近似注意力机制进行训练，使用 Performer 来估计氨基酸之间的相似性，从序列比对中分析进化替换模式得到的替换矩阵中恢复类似的结构

7580 0

3万字详细解析清华大学最新综述工作：大模型高效推理综述

第二类侧重于压缩预训练模型(称为模型压缩)。此类别中的压缩模型通常只需要最小的微调即可恢复其性能。 5.1 有效结构设计目前，SOTA大模型通常使用Transformer架构，如2.1节所述。...该方法识别权重矩阵中的弱列，并为这些特定权重分配更高的精度，同时以较低的精度级别量化其余权重。SpQR引入了一种方法，在量化过程中识别和分配更高精度的权重异常值，而其余权重被量化为3位。...此外，QuantEase可以利用来自GPTQ的量化权重作为初始化，并进一步完善补偿过程。LLM-MQ采用FP16格式保护权重异常值，并将其存储在压缩稀疏行(CSR)格式中，以提高计算效率。...除了注意力级和token级的稀疏性之外，注意力修剪的范围扩展到各种粒度。Spatten还将修剪从token粒度扩展到注意力头粒度，消除了不必要的注意力头的计算，以进一步减少计算和内存需求。...当请求来临时，vLLM以不连续的方式动态地将生成的KV缓存映射到预分配的物理块。通过这种方式，vLLM显著减少了存储碎片，并在大模型服务中实现了更高的吞吐量。

1.9K1 1

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

压缩感知技术能够通过低维投影有效地采集和恢复稀疏的高维数据信号。...在之前的工作中，研究人员已经从潜变量生成建模、降维和其他角度出发，提出了大量的学习目标和算法。在本文中，我们将介绍一个受压缩感知启发而设计出的新的无监督表示学习框架。首先，我们将从统计压缩感知谈起。...然后，通过某些类型的随机矩阵进行信号采集，并通过求解 LASSO 优化方法进行信号恢复，这样便只需使用少量测量数据（大概是数据维度的对数）就能保证以很高的概率得到唯一的恢复结果。...在这项工作中，我们考虑统计压缩感知的情况，其中我们可以访问一个训练数据信号 x 的数据集 D。我们假设对于某些未知的数据分布 q_data，有 ? 。在训练时： 1....上面的目标函数最大化了从测量数据 y 中恢复出信号 x 的对数后验概率，这与上面提到的智能体在测试时的目标是一致的。

7952 0

数据压缩：视觉数据压缩感知技术在存储优化中的应用

return model.coef_def reconstruct_image(sparse_coef, image_shape): ""“从稀疏表示重构图像”"" # 从稀疏系数重构图像...稀疏编码：将提取的特征转换为稀疏表示，这意味着只有少量的系数是显著的，而大部分系数接近于零。量化和编码：对稀疏表示进行量化和编码，以进一步减少数据量。...解码和重建：在解码端，使用稀疏表示重构出图像，尽可能地恢复原始图像的视觉内容。III.B 视频流压缩视频流压缩则更加复杂，因为它不仅需要考虑单帧图像的压缩，还要考虑帧与帧之间的时间关系。...通过训练一个模型来学习数据的稀疏编码，然后在编码的基础上进行量化和编码，从而实现压缩。在解码过程中，通过重建步骤恢复出接近原始质量的数据。...实时反馈：在压缩过程中引入实时反馈机制，动态调整压缩参数，以适应当前的系统负载和性能要求。

4181 0

DeepSeek NSA打造高效稀疏Attention

算法设计令牌压缩（Token Compression）：通过聚合连续的键或值块为块级表示，得到压缩后的键值对，以捕获整个块的信息。...varphi 是带有块内位置编码的可学习MLP，用于将块中的键映射为单个压缩键。...这些选择的键值对参与与 q_{t} 的注意力计算。滑动窗口（Sliding Window）：在注意力机制中，局部模式可能会主导学习过程，影响模型从压缩和选择令牌中学习。...在长上下文评估中，对所有基线方法进行比较，并将所有稀疏注意力方法的稀疏度设置为相同，以确保公平性。在思维链推理评估中，由于稀疏注意力基线方法不支持训练，仅与全注意力模型进行比较。...粗粒度压缩以低计算成本识别相关上下文块，而对选择令牌的令牌级注意力确保了关键细粒度信息的保留，使NSA能够同时保持全局感知和局部精度, 在LongBench基准测试中，NSA同样表现出色。

1521 0

十字链表法，十字链表压缩存储稀疏矩阵详解

十字链表法，十字链表压缩存储稀疏矩阵详解对于压缩存储稀疏矩阵，无论是使用三元组顺序表，还是使用行逻辑链接的顺序表，归根结底是使用数组存储稀疏矩阵。...介于数组 "不利于插入和删除数据" 的特点，以上两种压缩存储方式都不适合解决类似 "向矩阵中添加或删除非 0 元素" 的问题。...对于此操作的实现，之前所学的压缩存储方法就显得力不从心。本节将学习用十字链表存储稀疏矩阵，该存储方式采用的是 "链表+数组" 结构，如图 1 所示。...图 1 十字链表示意图可以看到，使用十字链表压缩存储稀疏矩阵时，矩阵中的各行各列都各用一各链表存储，与此同时，所有行链表的表头存储到一个数组（rhead），所有列链表的表头存储到另一个数组（chead...因此通过以上分析，矩阵转置的实现过程需完成以下 3 步：将矩阵的行数和列数互换；将三元组表（存储矩阵）中的 i 列和 j 列互换，实现矩阵的转置；以 j 列为序，重新排列三元组表中存储各三元组的先后顺序

2411 0

CIKM23 | 统一的搜索推荐冷启动基础模型

本文的特点：用LM提取查询和item的文本特征，缓解冷启动时缺乏ID类特征的问题通过门控融合在融合样本中不同方面特征（文本，ID类特征，稀疏特征等）的同时，加入域信息（随机初始化的域emb），使得得到的最终...emb中融合了每个域各自的信息在多任务学习阶段和以往的方式类似，在得到基础模型后，针对下游的任务，作者提出可以采用微调的方式，即在得到多任务模型后，再针对单场景进行微调 2.方法如图所示，本文所提方法主要包含三部分...2.1.1 LLM作为域不变特征提取器使用bert，gpt等预训练好的语言模型从查询和item中提取域不变的文本特征，表示为 \phi_{lm}(Q)=\phi_{lm}(e_q^{Token}) \...每个域分支的输入为前面所述的用户，查询和item的emb，输出是对点击率ctr和查询-item相关性的预测。 2.4 下游任务有监督微调经过预训练的基础模型可以以预训练微调的方式使下游任务受益。...下游模型从基础模型中恢复参数，冻结部分参数并微调其余层。作者试验了不同的冻结微调拆分方式。

6726 0

每日论文速递 | GEAR:高效 KV Cache 压缩框架

GEAR框架在这些研究的基础上，通过创新的方法实现了KV缓存的高效压缩，以提高LLM推理的性能和效率。 Q3: 论文如何解决这个问题？...多任务和迁移学习：探索GEAR在多任务学习和迁移学习场景中的应用，特别是在不同领域和语言模型之间的迁移。实时压缩和推理：研究如何将GEAR集成到实时推理系统中，以支持低延迟和高吞吐量的在线服务。...压缩感知和稀疏表示：探索压缩感知技术在KV缓存压缩中的应用，以及如何结合稀疏表示来进一步减少内存占用。...安全性和隐私保护：研究在压缩过程中如何保护模型和数据的安全性和隐私，特别是在云计算和边缘计算环境中。开源实现和社区贡献：将GEAR框架开源，并鼓励社区贡献，以促进技术的迭代发展和广泛应用。...这些研究方向可以帮助GEAR框架在实际应用中更加健壮和高效，同时也为大型语言模型的压缩和推理领域带来新的突破。 Q6: 总结一下论文的主要内容？

9331 0

『论文阅读』XGBoost原理-XGBoost A Scalable Tree Boosting System

提出了一种新颖的稀疏感知(sparsity-aware)算法和加权分位数快速近似树学习算法。更重要的，我们提供关于缓存访问模式，数据压缩和分片的见解，以构建一个可扩展的树型增强系统。...XGBoost以统一的方式处理所有的稀疏模式。更重要的是，我们的方法利用稀疏性使计算复杂度与输入中非缺失条目的数量成线性关系。...近似计算中，原始算法复杂度，q是候选的划分点数量，分块近似算法复杂度，其中B是块行数中的最大值。...具体而言，我们在每个线程中分配一个内部缓冲区，将梯度统计信息提取到其中，然后以小批量方式执行累加。此预取将直接读/写依赖性更改为更长的依赖关系，并有助于在行数很大时减少运行时开销。...我们提出了一种处理稀疏数据的新颖的稀疏感知算法和一个理论上合理的加权分位图，用于近似学习。我们的经验表明，高速缓存访问模式，数据压缩和分片是构建可扩展的树型增强端到端系统的基本要素。

1.5K2 0

【Java数据结构和算法】003-稀疏数组和队列

一、稀疏数组sparsearray 1、一个实际的应用场景编写的五子棋程序中，有存盘退出和续上盘的功能：问题分析：因为该二维数组的很多值是默认值0, 因此记录了很多没有意义的数据，我们这个时候可以使用稀疏数组实现对二维数组的压缩...； ②记录在一个小规模的数组（稀疏数组）中，从而缩小程序的规模； 3、稀疏数组案例（这个真不错，只是在对数组进行读写的时候需要额外的一步转换操作，这是值得的！）...//首元素：行数、列数、元素个数 //其他元素：第几行、第几列、值是什么 4、稀疏数组转换的思路 ①使用稀疏数组，来保留类似前面的二维数组(棋盘、地图等等)； ②把稀疏数组存盘，并且可以重新恢复原来的二维数组数...若尾指针 rear 小于队列的最大下标 maxSize-1，则将数据存入 rear所指的数组元素中，否则无法存入数据。...(q.isFull()); //取出一个元素 System.out.println(q.getQueue()); //偷窥首元素：首元素从100变成了99

741 0

所有你要知道的 BERT 模型压缩方法，都在这里！

一、压缩方法 1、剪枝——即训练后从网络中去掉不必要的部分。这包括权重大小剪枝、注意力头剪枝、网络层以及其他部分的剪枝等。...还有一些方法也通过在训练期间采用正则化的方式来提升剪枝能力（layer dropout）。 2、权重因子分解——通过将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵。这给矩阵施加了低秩约束。...在预训练/下游数据上从头开始训练一个小得多的 Transformer，正常情况下，这可能会失败，但是由于未知的原因，利用完整大小的模型中的软标签可以改进优化。...4、权重共享——模型中的一些权重与模型中的其他参数共享相同的值。例如，ALBERT 对 BERT 中的每个自注意力层使用相同的权重矩阵。...6、预训练和下游任务——一些方法仅仅在涉及到特定的下游任务时才压缩 BERT，也有一些方法以任务无关的方式来压缩 BERT。二、论文一览 ?

9661 0

一文深入了解DeepSeek-R1：模型架构

“MLA 的核心是对注意力键和值进行低秩联合压缩，以减少推理过程中的键值 (KV) 缓存。”...第 2 步：Q、K 和 V 的向上投影压缩后，Q、K 和 V被向上投影回更大的尺寸以进行注意力计算。这个更大的尺寸可以匹配原始输入 h_t ，也可以遵循基于注意力头配置的结构。...，表示将压缩表示扩展回更大维度的空间以进行注意力计算。...我将尝试按照我从 DeepSeek 的技术报告中理解的方式来解释它。在传统的 Transformer 层中，RoPE 操作直接作用于 Q 和 K。...q_t^R 的生成方式是，它们可以连接到每个注意力头的输入查询嵌入，以便每个注意力头都具有位置信息。 [从等式来看，这个说法似乎是正确的，但需要进一步验证。]

6502 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python 从p, q, e参数恢复RSA私钥中的d

将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减

7 Papers | DeepMind用AI重写排序算法；将33B大模型塞进单个消费级GPU

ICLR2024，微软 | 提出LLM剪枝方法-SliceGPT，参数减少25%，保持99%的性能！

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

注意力机制进化史：从MHA到MoBA，新一代注意力机制的极限突破！

演讲 | 今日头条AI技术沙龙马毅：低维模型与深度模型的殊途同归

单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

深度学习进阶篇7：Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。

3万字详细解析清华大学最新综述工作：大模型高效推理综述

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

数据压缩：视觉数据压缩感知技术在存储优化中的应用

DeepSeek NSA打造高效稀疏Attention

十字链表法，十字链表压缩存储稀疏矩阵详解

CIKM23 | 统一的搜索推荐冷启动基础模型

每日论文速递 | GEAR:高效 KV Cache 压缩框架

『论文阅读』XGBoost原理-XGBoost A Scalable Tree Boosting System

【Java数据结构和算法】003-稀疏数组和队列

所有你要知道的 BERT 模型压缩方法，都在这里！

一文深入了解DeepSeek-R1：模型架构

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐