形状'[-1，2，4，28]‘对于大小为768的输入无效

对于给定的形状'[-1, 2, 4, 28]'，它表示一个四维张量，其中第一个维度的大小为-1，第二个维度的大小为2，第三个维度的大小为4，第四个维度的大小为28。这种形状对于大小为768的输入是无效的。

在深度学习中，输入数据的形状对于模型的训练和推理非常重要。形状定义了张量的维度和大小，它决定了数据在网络中的流动方式和计算过程中的维度匹配。在给定的形状中，-1表示该维度的大小将根据其他维度的大小和总元素数来自动计算。

对于给定的形状'[-1, 2, 4, 28]'，我们无法确定第一个维度的大小，因为它被设置为-1。在这种情况下，我们需要根据输入数据的大小和其他维度的大小来计算第一个维度的大小。然而，由于没有提供输入数据的大小，我们无法计算出第一个维度的大小。

对于大小为768的输入，我们需要根据具体情况来确定正确的形状。如果我们知道输入数据的维度和大小，我们可以根据需要调整形状。例如，如果输入数据是一个一维向量，我们可以将形状设置为[768]；如果输入数据是一个二维矩阵，我们可以将形状设置为[32, 24]等等。

总之，对于给定的形状'[-1, 2, 4, 28]'，它对于大小为768的输入是无效的，因为我们无法确定第一个维度的大小。我们需要根据具体情况来确定正确的形状，并根据需要调整形状以适应输入数据的维度和大小。

相关·内容

【pytorch】改造resnet为全卷积神经网络以适应不同大小的输入

为什么resnet的输入是一定的？因为resnet最后有一个全连接层。正是因为这个全连接层导致了输入的图像的大小必须是固定的。输入为固定的大小有什么局限性？...原始的resnet在imagenet数据集上都会将图像缩放成224×224的大小，但这么做会有一些局限性：（1）当目标对象占据图像中的位置很小时，对图像进行缩放将导致图像中的对象进一步缩小，图像可能不会正确被分类...（2）当图像不是正方形或对象不位于图像的中心处，缩放将导致图像变形（3）如果使用滑动窗口法去寻找目标对象，这种操作是昂贵的如何修改resnet使其适应不同大小的输入？...图像大小为：(387, 1024, 3)。而且目标对象骆驼是位于图像的右下角的。我们就以这张图片看一下是怎么使用的。...在数据增强时，并没有将图像重新调整大小。用opencv读取的图片的格式为BGR，我们需要将其转换为pytorch的格式：RGB。

3.5K2 1

问答 | 对于输入图像为 180 × 180 pixel 的卷积神经网络，我应该取多少个训练实例比较合适？

话不多说，直接上题问：对于输入图像为 180 × 180 pixel 的卷积神经网络，我应该取多少个训练实例比较合适？...来自社友的回答 ▼▼▼ @莱特•哈灵顿：这个没有固定的说法，我一般同比例缩放，比方说 180 * 180的图，180 的图其实不用缩，再缩就没有了，如果非要缩，就缩成 64 * 64 之类的。...@巴特莱•芬克：越多越好啊，百级和千级的数据量都不是太大，至少几百吧，可以的话最好是10K以上，不过有的只需要几张或者几十张，那种都是一些训练得非常好的模型了。

4393 0

问 ChatGPT 关于GPT的事情：压缩篇

为了将一个包含128个数字的数组arr采样为32个数字的加权平均值，我们可以使用矩阵相乘的方法。首先，我们创建一个大小为32x128的权重矩阵weights，其中每个元素都是随机生成的权重值。...然后，将数组arr视为大小为1x128的矩阵，并通过矩阵乘法将其与权重矩阵相乘。最后，将得到的32x128结果矩阵按行求和，得到一个大小为32的加权平均值数组。...("采样后 wot 的形状:", wo_sampled.shape) 输出结果为：采样后 wq 的形状: (128, 256) 采样后 wk 的形状: (128, 256) 采样后 wv 的形状: (...("采样后 wot 的形状:", wot_sampled.shape) ''' 采样后 wq 的形状: (768, 256) 采样后 wk 的形状: (768, 256) 采样后 wv 的形状: (768..., 256) 采样后 wot 的形状: (768, 256) '''

2023 0

LLM 加速技巧：Muti Query Attention

，m为当前步，m+1为阶跃，形状为[b, d] P_q, P_k:查询和键投影张量，形状为[h, d, k] P_v:值投影张量，形状为[h, d, v] P_o:学习到的线性投影，形状为[h, d,...v] Prev_K:上一步的关键张量，形状为[b, h, m, k] Prev_V:前一步的Value张量，形状为[b, h, m, v] new_K:加上当前步的键张量，形状为[b, h, m+1,...k] new_V:加了当前步长的Value张量，形状为[b, h, m+1, v] 维度表示如下： M:先前执行的步骤数 B:批量大小 D:输入和输出的尺寸 H:注意力头数 k:Q，K张量的另一个维度...在MQA中，键张量和值张量的大小分别为b * k和b * v，而在MHA中，键张量和值张量的大小分别为b * h * k和b * h * v，其中h表示头的个数。...MQA通过以下方法实现推理加速: 1、KV缓存大小减少了h(头数量)，这意味着需要存储在GPU内存中的张量也减少了。节省的空间可以用来增加批大小，从而提高效率。

7061 0

在 ML.NET 中使用Hugginface Transformer

将Huggingface Transformer 导出为ONNX 模型目前各种Pretraining的Transformer模型层出不穷，虽然这些模型都有开源代码，但是它们的实现各不相同，我们在对比不同模型时也会很麻烦...在这里，您不仅可以找到必要的输入/输出的名称，还可以找到它们的形状。这个完整的过程可以应用于任何ONNX模型，而不仅仅是从Huggingface创建的模型。...此方法有几个参数： modelFile – ONNX 模型文件的路径。 shapeDictionary – 输入和输出的形状。 inputColumnNames – 所有模型输入的名称。...4.2 输入/输出没有可变形状正如我们在前面的章节中看到的，您需要创建将处理模型输入和输出的类（类ModelInput和ModelOutput）。...public long[] Input { get; set; } } 遗憾的是，ML.NET 不支持可变大小的向量，您需要定义向量的大小。

1.1K1 0

图解BERT：通俗的解释BERT是如何工作的

所有深度学习都只是矩阵乘法，我们只是引入一个新的W层，其形状为（H x num_classes = 768 x 3），并使用我们的训练数据来训练整个架构并使用交叉熵损失进行分类。...，因此输入为： ?...例如，如果词汇表中没有plays ，我们可能仍会嵌入play 和##s 令牌嵌入：然后，我们通过索引大小为30000x768（H）的矩阵来获得令牌嵌入。...例如，对于诸如预测名词，动词或形容词之类的POS标记任务，我们将仅添加大小为（768 x n_outputs）的线性层，并在顶部添加softmax层以进行预测。...因此，在上面的例子中，我们定义了两个向量S和E(这将在微调过程中学习)，它们都有形状(1x768)。然后我们取这些向量与第二个句子BERT的输出向量的点积，得到一些分数。

2.7K3 0

Transformers 4.37 中文文档（八十六）

什么是输入 ID？ input_ids（形状为(batch_size, text_seq_len)的torch.LongTensor）— 词汇表中输入序列标记的索引。...head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部无效的掩码。...position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选） — 每个输入序列标记在位置嵌入中的位置索引。...如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（即没有将其过去的键值状态提供给此模型的那些）的形状为(batch_size, 1)的张量，而不是形状为...如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（这些不具有其过去键值状态的模型）的形状为(batch_size, 1)的张量，而不是形状为(batch_size

1941 0

VisionTransformer（ViT）详细架构图

这是原版的架构图，少了很多东西。这是我根据源码总结出来的详细版有几点需要说明的，看架构图能看懂就不用看注释了。（1）输入图片必须是 224x224x3 的，如果不是就把它缩放到这个尺寸。...（2）Tranformer要的是嵌入向量的序列，大概是SeqLen, HidSize形状的二维数组，然后图像是H, W, C的三维数组，想把它塞进去必须经过一步转换，这是嵌入模块做的事情。...简单来讲就是切成大小为16*16*3的片段（Patch）然后每个片段都经过一步线性映射转换为长度768的一维向量。这一步在代码中通过一个Conv2d来一次性完成。...我们的这个卷积层，包含768 个大小为16*16*3的卷积核，步长等于卷积核大小。也就是说，它相当于把图像切成16*16*3的片段，然后每个片段和每个卷积核相乘并求和得到一个值。...（3）之后会在序列开头添加一个特殊的嵌入向量，是，这个嵌入向量没有其它意义，只代表输出的这个位置的嵌入，应该计算为整个图像的类别嵌入。

4523 0

Transformers 4.37 中文文档（九十三）

如果使用past_key_values，用户可以选择仅输入形状为(batch_size, 1)的最后一个decoder_input_ids（那些没有将它们的过去键值状态提供给此模型的）而不是形状为(batch_size...如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（那些没有将其过去的键值状态提供给此模型的）的形状为(batch_size, 1)，而不是形状为(batch_size...调整大小的输入图像的目标尺寸。 patch_size (int, optional, 默认为 16) — 从输入图像中提取的补丁的大小。...original_sizes (Union[torch.Tensor, tf.Tensor, List[Tuple[int,int]]]) — 每个图像在调整大小为模型期望的输入形状之前的原始尺寸，格式为...对于 BPE-Dropout 无效。 nbest_size = {0,1}: 不执行采样。 nbest_size > 1：从 nbest_size 结果中采样。

1591 0

【NLP】初次BERT使用者的可视化指南

我们在两个模型之间传递的数据是一个大小为 768 维的向量。我们可以把这个向量看作是我们可以用来分类的句子的嵌入。 ? 模型训练虽然我们将使用两个模型，但我们只训练逻辑回归模型。...DistilBERT 的正确形状。...DistilBERT 的数据流通过 DistilBERT 传递输入向量的工作方式与 BERT 一样。输出将是每个输入 token 的向量。每个向量由 768 个数字(浮点数)组成。 ?...在 DistilBERT 将其作为输入处理之前，我们需要使用 token id 0 填充更短的句子，从而使所有向量具有相同的大小。填充之后，我们有了一个矩阵/张量，准备传给 BERT： ?...在我们的例子中，这是个形状为（2000,66,768）的 tuple。

1.1K1 0

视觉

对于低分辨率模式，我们期望是 512px x 512px 的图像。对于高分辨率模式，图像的短边应小于 768px，长边应小于 2000px。...计算成本图像输入按标记计量和收费，就像文本输入一样。给定图像的标记成本由两个因素确定：其大小和每个 image_url 块上的 detail 选项。...最短边长为 1024，因此我们将图像缩放到 768 x 768。需要 4 个 512px 的正方形瓦片来表示图像，因此最终标记成本为 170 * 4 + 85 = 765。...最短边长为 1024，因此我们进一步缩小为 768 x 1536。需要 6 个 512px 的瓦片，因此最终标记成本为 170 * 6 + 85 = 1105。...一个 detail: low 模式下的 4096 x 8192 图像成本为 85 个标记无论输入大小如何，低细节图像的成本都是固定的。常见问题解答我可以微调 gpt-4 的图像能力吗？

1611 0

基于AI的信道信息反馈性能提升Baseline分享

数据赛题数据来自多小区多用户的4T4R 的MIMO信道，数据通过H_4T4R.mat文件提供，数据样本数量为60万例样本，每例样本大小为768，按照24*16*2的顺序排列，其中分别对应24条传输径，...评价指标本赛题得分的公式为 score = (1000 -反馈比特数N) / 1000 + (1/1000) * (1-NMSE) 其中NMSE要求低于0.1，不然便是无效提交，排行榜上的0.000001...CRNet 这是CRNet的网络结构图，CRBlock使用残差连接来加深Decoder网络，本方案的结构与上图基本相同，仅仅是输入的数据维度不同，32 * 32 替换为 24 * 16, 全连接层的维度更改为...768，。...经过训练试验，本模型对于768反馈比特数是可以做到NMSE在0.1以内（线上线下同时），意味着通过该模型可以直接得到0.23以上的线上得分。

9844 1

图注意网络(GAT)的可视化实现详解

将每个文档作为单个[5] 1D文本数组放入BERT中，这样就得到了一个[5,768]形状的嵌入。为了方便演示，我们只采用BERT输出的前8个维度作为节点特征，这样可以更容易地跟踪数据形状。...我们将节点特征平铺(即广播)为3D形状，也就初始的[5,8]形状的节点特征，扩展成有[5,5,8]形状，其中第0维的每个单元格都是节点特征的重复。所以现在可以把最后一个维度看作是“邻居”特征。...对于第0个节点，它包括节点0到3的特征。对于第三个节点，它包括第三和第四个节点。下一步就是重塑为[25,8]，使每个相邻特征都是它自己的行，并将其传递给具有所需隐藏大小的参数化线性层。...得到了形状为[5,5,hidden_size]的注意力系数，这实际上是在n个节点的图中每个图边嵌入一次。...将[5,hidden_size, 5]形状乘以[5,5,8]形状得到[5,hidden_size, 8]形状。然后我们对hidden_size维度求和，最终输出[5,8]，匹配我们的输入形状。

4181 0

Transformers 4.37 中文文档（七十四）

这些值在[0, 1]范围内归一化，相对于批处理中每个单独图像的大小（忽略可能的填充）。您可以使用post_process()来检索未归一化的边界框。...如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（那些没有将其过去的键值状态提供给此模型的标记），形状为(batch_size, 1)，而不是形状为(...掩码值在[0, 1]中选择：对于“未屏蔽”的标记，为 1，对于“屏蔽”的标记，为 0。什么是注意力掩码？...如果使用了past_key_values，用户可以选择仅输入最后一个形状为(batch_size, 1)的decoder_input_ids（那些没有将它们的过去键值状态提供给此模型的）而不是所有形状为...如果使用了past_key_values，用户可以选择仅输入最后一个形状为(batch_size, 1)的decoder_input_ids（那些没有将其过去的键值状态传递给该模型的）而不是形状为(batch_size

2231 0

【关系抽取-mre-in-one-pass】模型的建立

output_layer的形状是[4,128,768]（这里表是句子的表示），其中4是batchsize的大小，128是最大的句子长度，768是每一个字对应的维度大小。...我们预先定义了一个最大的关系数量为12，我们将 output_layer变形为[4,12,128,768]，这里的12是定义的最大的关系相数量。...对于extras.e1_mas而言，它的维度是[4,1536]，我们将他们重新调整为[4,12,128,1] 接着将output_layer：[4,12,128,768]和e1_mas：[4,12,128,1...]进行逐元素相乘，得到e1：[4,12,128,768]，由于e1_mas是一个mask矩阵，相乘之后我们就将不是实体的字进行屏蔽了。...对实体表示进行归一化后得到[4,12,768]，在转换为[48,768]。对一个句子中的另一个实体进行同样的处理，得到e2，维度是[48,768]。

4355 0

腾讯优图｜基于模型剪枝的高效模型设计方法

剪枝流程分为三步，首先，正常训练一个网络；其次，对无效参数进行裁剪；最后，为恢复精度重新训练剪枝后的模型。...在训练-剪枝-再训练这样循环往复的迭代剪裁中，会对原有模型收敛情况产生一定的破坏，同时，如果一次剪枝中的裁剪比例过大，也会让模型难以恢复，因此剪枝技术对于减小模型大小，加快推理速度以及提高模型精度影响深远...02 衡量BN层是否有效：由于BN层的计算方式为，用Feature map值减去输入Feature map每个通道的均值，除以标准差，乘以BN层的权值Wi，然后加上偏置Bi。...Filter/Channel pruning 通道级别剪枝以滤波器的一个输出通道为单位进行裁剪，称为滤波器剪枝；以输入通道为标准进行裁剪，就是通道级别的剪枝。...通过对扩张通道的初始化，在特征图通过卷积层扩张的通道后，把所有输入通道保留下来，不改变值。由于输入特征图值为非负，通过ReLU后也不改变其值。

5621 0

Transformers 4.37 中文文档（七十三）

例如，google/vit-base-patch16-224指的是一个基本大小的架构，补丁分辨率为 16x16，微调分辨率为 224x224。所有检查点都可以在hub上找到。...例如，对于 BERT 系列模型，这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层的权重是在预训练期间从下一个句子预测（分类）目标中训练的。...head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）- 用于使自注意力模块的选定头部无效的掩码。...例如，对于 BERT 系列模型，这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是从预训练期间的下一个句子预测（分类）目标中训练的。...loss（形状为(1,)的tf.Tensor）—像素重建损失。

4511 0

Transformers 4.37 中文文档（八十五）

position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 每个输入序列标记在位置嵌入中的位置索引。...position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列标记在位置嵌入中的位置索引。...position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 每个输入序列标记的位置嵌入的索引。...inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 模型的输入嵌入。...position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 每个输入序列标记在位置嵌入中的位置索引。

2391 0

带掩码的自编码器MAE详解和Pytorch代码实现

它接受张量形状为 (batch_size, RGB_channels, height, width) 的图像。通过执行线性投影为每个Patch获得嵌入，这是通过 2D 卷积层来完成。...输入张量的形状为 batch_size, num_patches,decoder_embed_dim) 而最终输出张量的形状为 (batch_size, num_patches, 3 * patch_size...要检查Patch数量（索引 1）的变化是否影响前向传递，我们需要查看每一层的参数张量的形状。 norm层中的参数的形状为（batch, 1, encoder_embed_dim）。...前馈层有一个形状为(in_channels, out_channels)的权重矩阵和一个形状为(out_channels,)的偏置矩阵，两者都不依赖于patch的数量。...因此，出于同样的原因，patch的数量也不会影响参数张量的形状。由于并行处理允许将数据分批输入，所以批处理中的Patch数量是需要保持一致的。结果让我们看看原始论文中报道的预训练阶段的重建图像。

3.4K3 0

Transformers 4.37 中文文档（九十一）

size (Dict[str, int]，可选，默认为{“height” — 768, “width”: 768})：用于调整图像大小的大小。仅在do_resize设置为True时有效。...crop_size (int，可选，默认为{“height” — 768, “width”: 768})：用于中心裁剪图像的大小。仅在do_center_crop设置为True时有效。...do_resize (bool，可选，默认为self.do_resize) — 是否调整输入大小。如果为True，将输入调整为size指定的大小。...如果为 True，将对输入进行中心裁剪，裁剪到由 crop_size 指定的大小。...target_sizes (torch.Tensor的形状为(batch_size, 2)) — 包含批次中每个图像的大小(h, w)的张量。对于评估，这必须是原始图像大小(在任何数据增强之前)。

2861 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云