暂无搜索历史
一句话定义 :位置编码是加到输入序列每个元素上的一个向量,用来告诉模型该元素在序列中的位置(或相对位置)。
CLIP的核心目标是将 图像和文本映射到同一个向量空间 ,让语义相近的图像和文本在空间中靠近,语义不同的则远离。
想象你正在读一句话:“这只动物没看见那只鸟,因为它飞得太快了。” 当你读到“它”时,你的大脑会主动去寻找“它”指代的是“动物”还是“鸟”。这个过程就是 注意力 ...
嵌入模型的终极目标,可以用一句话概括:让语义相似的输入,在向量空间中距离相近;让语义不同的输入,距离相远。
模型微调(Fine-tuning)是将一个已经在海量数据上预训练好的通用模型,通过少量任务相关数据进一步训练,使其适应特定任务或领域的过程,既是大模型应用落地的...
Vision Transformer(ViT)是Transformer架构从自然语言处理跨界到计算机视觉的标志性成果,证明了“不需要卷积,纯Transforme...
ResNet(残差网络)通过引入 残差连接 ,解决了超深网络难以训练的问题,使得网络层数可以突破百层甚至千层,大幅提升了视觉任务的性能。
想象你有一堆朋友,你想向一个外国人介绍他们。你不能直接说“这是张三,他喜欢打篮球,性格开朗”,因为语言不通。你怎么办?你会给每个朋友 画一幅简笔画 ,画中包含了...
假设你训练了一个神经网络,让它识别图像中是 猫、狗还是鸟 (3分类问题)。网络的最后一层通常有3个神经元,每个输出一个数值,我们称这些数值为 logits (原...
向量数据库是当今AI技术栈中非常关键的一环,解决了传统数据库无法处理的 语义理解和相似性搜索 问题。
最近邻搜索 (Nearest Neighbor Search)是指在给定一个查询向量时,从海量数据集中找到与之距离最近(最相似)的向量。精确最近邻需要遍历整个...
在标准卷积中,我们通常设置步长stride=1,即卷积核每次移动一个像素,这样可以保持特征图尺寸基本不变(配合适当填充)。而步长卷积设置stride=2或更大,...
假设在机器人上做一个 实时物体检测 任务,识别10种常见物体,运行在Jetson Nano上。
接收原始图像的层。对于图像数据,输入通常是三维张量: 高度 × 宽度 × 通道数 。
通俗地说, 激活函数决定了神经元是否应该被“激活” ——即当前输入的综合信息是否足够重要,值得被传递到下一层。
前馈网络(Feedforward Neural Network, FNN),也叫 多层感知机(MLP) ,是最基础、最经典的人工神经网络结构。它的名字揭示了其核...
RNN 的全称是 Recurrent Neural Network(循环神经网络) 。它是一种专门用于处理 序列数据 的神经网络架构。
池化 是 CNN 中跟在卷积层后面的一种操作,简单来说就是 “下采样” 。它的作用类似于把一张高清图片压缩成一张缩略图——保留主要内容,但尺寸变小了。
卷积核可以把它想象成一个 特征探测器 。它是一个小的、可学习的权重矩阵,在输入图像上滑动,不断计算并提取图像中的特定模式。比如,有的探测器专门找“水平边缘”,有...
CNN 的全称是 Convolutional Neural Network(卷积神经网络) 。它是一种专门用来处理具有 网格结构 数据的神经网络,最典型的应用就...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址