首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DNN可以进行高阶特征交互,为什么Wide&Deep和DeepFM等模型仍然需要显式构造Wide部分?

作者:王鸿伟 链接:https://www.zhihu.com/question/364517083 理论上来说DNN可以拟合任意函数,因此可以拟合低阶特征+高阶特征组合;但是在实际中并不会将原始特征输入全连接的...DNN同时捕捉低阶+高阶特征组合,而是使用FM显式构造二阶项或者Wide&Deep的方式分别建模低阶和高阶特征。...DNN可以进行高阶特征交互,为什么RNN模型仍然需要各种门控单元来处理序列?DNN学不会遗忘信息或者保留信息吗?...这些二阶项能不能真的提高模型性能,并没有理论上的保证,因为这取决于具体的推荐系统场景中是否真的有很多这种二阶相关性(例如说“英语的用户喜欢看科幻电影”)。...但是构造四阶项的代价实在太大了,所以在Wide&Deep或者FM中只有二阶项,我们期望可以借此覆盖大多数的简单逻辑,而又不至于让模型过于复杂。

1.3K10

深入理解推荐系统:特征交叉组合模型演化简史

此外,FM的模型还具有可以用线性时间来计算,以及能够与许多先进的协同过滤方法(如Bias MF、svd++等)相融合等优点。FM通过特征对之间的隐变量内积来提取特征组合,其函数形式如下: ?...而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合 FNN模型总结 FNN为高阶bit-wise级的特征交叉,其优点是每个特征的嵌入向量是预先采用FM模型训练的,因此在学习DNN模型时,训练开销降低...从模型结构图可以看出,FM 和 DNN共用embedding层的结果,然后FM部分负责低阶特征组合(二阶),而DNN负责高阶特征组合,然后将低阶和高阶部分合在一起训练。...DCN模型总结 DCN为bit-wise高阶交叉,DCN引入的cross network理论上可以表达任意高阶组合,同时每一层保留低阶组合,参数的向量化也控制了模型的复杂度。...路漫漫其修远兮,吾将上下而求索。

2.8K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    推荐系统提纲笔记

    和 item 侧的特征各自通过一个 auto-encoder 来学习,而交互信息 R 矩阵依然做矩阵分解 U,V。...其中 W1,表示的用户侧特征 X 在 auto-encoder 过程中的 encode 部分,也就是输入到隐层的重建,P1 表示的是用户特征到交互矩阵 R 的映射;而 W2 表示物品侧特征 Y 在 auto-encoder...这种尝试为后续深度推荐模型的发展提供了新的思路 缺点 两阶段训练模式,在应用过程中不方便,且模型能力受限于FM表征能力的上限 FNN专注于高阶组合特征,但是却没有将低阶特征纳入模型 FM中进行特征组合...优点 引入Product层,不依赖预训练FM完成特征交叉 缺点 忽略了低阶特征 代码实现 Wide&Deep:FNN与PNN更多得捕捉高阶交叉特征,而忽略了低阶特征。...显然,光有Wide就是个LR模型,而Deep的加入是模型具有很好的泛化性能。

    45920

    Gold-YOLO:基于聚合与分配机制的高效目标检测器

    Gold - YOLO - N 在 COCO val2017 数据集上达到了出色的 39.9% 的平均精度均值(AP),在 T4 GPU 上实现了 1030 帧每秒(FPS)的速度,与具有相似帧率的先前最优模型...PART/2 背景 目标检测作为一项基础的视觉任务,旨在识别物体的类别并定位其位置。它在众多应用领域有着广泛用途,如智能安防、自动驾驶、机器人导航以及医学诊断等。...主干网络架构已得到广泛研究,而头部网络架构通常较为直接,由几个卷积层或全连接层构成。YOLO 系列中的颈部网络通常使用特征金字塔网络(FPN)及其变体来融合多层次特征。...为增强模型对不同尺寸物体的检测能力,我们开发了两个分支:低阶段聚合与分配分支(Low - GD)和高阶段聚合与分配分支(High - GD)。这两个分支分别提取并融合大尺寸和小尺寸的特征图。...低阶段聚合与分配分支 在这个分支中,我们选取主干网络输出的 B2、B3、B4、B5 特征进行融合,以获取保留小目标信息的高分辨率特征。其结构如下图(a)所示。

    20310

    每周学点大数据 | No.4算法的分析之时间复杂度

    王:不,这是一个常见的误解,算法的时间复杂度并不是指一个算法实际运行的时间。举个简单的例子,要访问一个集合中的每个数据,这在计算机科学中称为遍历。...王:在进行时间复杂度分析时,我们只保留多项式中的最高阶项。因为相比最高阶项而言,低阶项可以被忽略。同时,忽略其中的所有常数项系数。...根据前面的约定,忽略多项式中的低阶项,只保留最高阶项,就是 ;还要忽略常数项系数,就是n2,所以T(n)的数量级就是O(n2)。 小可:那么前面的大O表示什么呢? Mr. 王:嗯,这里需要说明一下。...很多时候当n不够大时,时间多项式中的低阶部分确实没有高阶部分大。比如对于常数较大的n2+c,当n比较小的时候,c可能会比n2还大,这就不符合c和关于n高阶项相比小到可以忽略这个要求。...换句话说,g(n)表示的是f(n)的上界。n0 的存在保障了我们研究的范围是n足够大时,它使得高阶项可以充分地大于低阶项。

    61190

    OS-Genesis来了,自动收集和标注Agent数据,高效且多样

    这种从低阶到高阶的逐步生成方法不仅确保了指令的逻辑一致性,还能最大化利用 GUI 环境中的动态特性。...与传统的二元过滤方法(即抛弃执行失败的任务)不同,TRM 允许部分不完整但具有探索价值的轨迹保留在数据集中,从而最大化地利用生成的数据。...其扩展版本 InternVL2-8B 具有更大的模型容量。 Qwen2-VL-7B-Instruct:一种多模态模型,具备一定的 GUI 交互能力,专为指令执行任务优化。...在 AndroidControl 中(OOD 实验),OS-Genesis 生成的轨迹在高阶和低阶任务中均表现出色,特别是在高阶任务中,其规划能力提升尤为明显。...逐步生成策略:OS-Genesis 从低阶指令逐步构建高阶指令,确保了指令的逻辑连贯性和可执行性,而人工编写的高阶指令有时会因缺乏细节而导致轨迹不完整。

    8510

    深度学习在CTR预估中的应用

    本文就近几年CTR预估领域中学术界的经典方法进行探究, 并比较各自之间模型设计的初衷和各自优缺点。通过十种不同CTR深度模型的比较,不同的模型本质上都可以由基础的底层组件组成。...,对高阶的特征学习表达较强,但wide部分的表达是缺失的, 模型对于低阶特征的表达却比较有限。...(记忆性) wide部分长处在于学习样本中的高频部分,优点是模型的记忆性好,对于样本中出现过的高频低阶特征能够用少量参数学习;缺点是模型的泛化能力差,例如对于没有见过的ID类特征,模型学习能力较差。...总结起来,DCN引入的crossnetwork理论上可以表达任意高阶组合,同时每一层保留低阶组合,参数的向量化也控制了模型的复杂度。...ctr预估领域方法变化层出不穷,但万变不离其宗,各种模型本质上还是基础组件的组合,如何结合自己的业务、数据、应用场景去挑选合适的模型应用,可能才是真正的难点所在。

    4.6K271

    推荐系统中的自动化特征工程

    其构造的新特征向量 中每个元素对应GBDT 模型中树的某个叶节点。...GBDT 模型能够学习高阶(树的深度越深,其特征的层级就越高)非线性特征交叉,对应树的一条路径(用叶节点来表示)就是一组高阶特征交叉。...假设样本有 个特征,FFM中的二次项中每个特征都有 个隐向量,而FM中所有特征的隐向量只有一个。FM可以看做是FFM的特例,所有特征都归属到一个域中。...只保留二次项,FFM的方程如下: FM和FFM通过枚举所有的二阶特征组合,用低维空间中的内积去代表两个特征的组合,取得了不错的效果。...比如我们可以通过FM模型把低阶特征进行单独建模。 之后把低阶特征交叉与DNN模型进行整合。二者的融合有两种方式:串行结构或并行结构。并行结构是在输出层对高阶部分和低阶部分进行连接。

    1.3K20

    R语言实现常用的5种分析方法(主成分+因子+多维标度+判别+聚类)

    主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。...因而EFA能够将具有错综复杂关系的变量综合为少数几个核心因子。...Reading和vocabulary这两个变量于第一项因子有关,而picture、blocks和maze变量与第二项因子有关,general变量于两个因子都有关系。 ?...在R中stats包的cmdscale函数实现了经典MDS。它是根据各点的欧氏距离,在低维空间中寻找各点座标,而尽量保持距离不变。 非度量MDS方法中,“距离"不再看作数值数据,而只是顺序数据。...R语言多元分析系列之五:聚类分析 聚类分析(Cluster Analysis)是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它是在没有先验知识的情况下,对样本按各自的特性来进行合理的分类

    8.5K90

    【技术分享】推荐系统中的自动化特征工程

    其构造的新特征向量 中每个元素对应GBDT 模型中树的某个叶节点。...[ed0dmbgmjd.png] GBDT 模型能够学习高阶(树的深度越深,其特征的层级就越高)非线性特征交叉,对应树的一条路径(用叶节点来表示)就是一组高阶特征交叉。...假设样本有nnn个特征,FFM中的二次项中每个特征都有n∗fn*fn∗f个隐向量,而FM中所有特征的隐向量只有一个。FM可以看做是FFM的特例,所有特征都归属到一个域中。...只保留二次项,FFM的方程如下: d.png FM和FFM通过枚举所有的二阶特征组合,用低维空间中的内积去代表两个特征的组合,取得了不错的效果。...所以这个时候embedding就派上用场了,它能够用低维向量对物体进行编码还能保留其含义。这里大概介绍几种推荐系统业界常用的embedding方法。

    3K2818

    【久远讲算法①】什么是时间复杂度

    举个现实的例子: 小明和小亮去企业面试,hr要求他们用代码实现一个需求,一天之后,两个人交付了各自的代码,都能实现hr的需求。而只有小明被录用了。...时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。...有以下几个原则: 如果运行时间是常数级的(例如:1,2,3,4,6等),则直接用常数1代替表示。 只保留时间函数中的最高阶项。 如果最高阶项存在,则省去最高阶项前面的系数。...这个推算过程即为: 1.保留函数中的最高阶项。 即: $5n^3+3n$ $->$ $5n^3$ 2.最高阶项存在,则省去最高阶项前面的系数。...$T(n) = 3n$ 最高阶项为$3n$ ,省去3,则转化为的时间复杂度为: $$T(n) = O(n)$$ [O(n)] $T(n) = 5logn$ , 最高阶项为 $5logn$,省去系数 5,

    34300

    给Transformer降降秩,移除特定层90%以上组件LLM性能不减

    尽管如此,越来越多的工作表明,基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。...一般来讲,在训练模型时大规模过度参数化似乎很有帮助,但这些模型可以在推理之前进行大幅剪枝;有研究表明神经网络通常可以去除 90% 以上的权重,而性能不会出现任何显著下降。...然而,通过进行一定程度的降秩后,模型的回答可以转变为正确的。 为了理解这一点,该研究还探索了其余组件各自编码的内容,他们仅使用其高阶奇异向量来近似权重矩阵。...这些结果表明,当嘈杂的高阶分量与低阶分量组合时,它们相互冲突的响应会产生一种平均答案,这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。...高阶组件存储什么呢?研究者使用高阶组件近似最终的权重矩阵(而不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。

    27510

    互联网广告CTR预估新算法:基于神经网络的DeepFM原理解读

    CTR是衡量互联网广告效果的一项重要指标。 CTR预估数据特点: 输入中包含类别型和连续型数据。...这两部分模型需要不同的输入,而Wide part部分的输入,依旧依赖人工特征工程。 但是,这些模型普遍都存在两个问题: 偏向于提取低阶或者高阶的组合特征。不能同时提取这两种类型的特征。...DeepFM在Wide&Deep的基础上进行改进,成功解决了这两个问题,并做了一些改进,其优势/优点如下: 不需要预训练FM得到隐向量 不需要人工特征工程 能同时学习低阶和高阶的组合特征 FM模块和Deep...好处:模型可以从最原始的特征中,同时学习低阶和高阶组合特征 不再需要人工特征工程。Wide&Deep中低阶组合特征就是同过特征工程得到的。...FNN缺点: Embedding的参数受FM的影响,不一定准确 预训练阶段增加了计算复杂度,训练效率低 FNN只能学习到高阶的组合特征。模型中没有对低阶特征建模 [PNN] PNN:为了捕获高阶特征。

    1.3K20

    FNN: Deep Learning over Multi-field Categorical Data

    (如LR、FM等)的CTR预测方案又被称为基于浅层模型的方案,其优点是模型简单,预测性能较好,可解释性强;缺点主要在于很难自动提取高阶组合特征携带的信息,目前一般通过特征工程来手动的提取高阶组合特征。...而随着深度学习在计算机视觉、语音识别、自然语言处理等领域取得巨大成功,其在探索特征间高阶隐含信息的能力也被应用到了CTR预测中。...为embedding后的向量。它由一次项 ? ,二次项 ? 组成,其中K是FM中二次项的向量的维度。而后面的 ? 则为神经网络的全连接层的表示。...而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合。  ...缺点: Embedding 的参数受 FM 的影响,不一定准确 预训练阶段增加了计算复杂度,训练效率低 FNN 只能学习到高阶的组合特征;模型中没有对低阶特征建模。

    1K10

    ECCV2020 | RecoNet:上下文信息捕获新方法,比non-local计算成本低100倍以上

    值得注意的是,在乘法过程中,通道维度C被消除,这意味着只表示空间上的注意力,而通道上的注意力被压缩。...在图1中展示了非局部non-local网络和RecoNet的工作流程,其基本思路是先用一系列低阶时序器来收集上下文特征的部分信息,然后将它们组合起来,重建精细的上下文特征。...受CP分解理论的启发,尽管上下文预测是一个高阶问题,但可以将其分为一系列低阶问题,这些低阶问题更易于处理。具体来说,不会直接预测上下文特征,而是会生成其片段。...本文的模型的流程如图2所示,由低阶张量生成模块(TGM),高阶张量重构模块(TRM)和全局池化模块(GPM)组成,以在空间和通道维度上获取全局上下文。...框架的流程,主要涉及两个部分,即张量生成模块(TGM)和张量重建模块(TRM)。TGM执行低阶张量生成,而TRM通过CP构造理论实现高阶张量重建。

    1.4K20

    【初阶数据结构与算法】新的旅程之时间复杂度和空间复杂度

    都有各自的优缺点和应用领域,所以我们要学各式各样的数据结构,如:线性表、树、图、哈希等,然后就可以在不同场景下很好的使用和管理数据    在之前我们已经学习完了C语言,接下来我们【初阶数据结构与算法】...⻓量级,也就是当N不断变⼤时T(N)的差别,上⾯我们已经看到了当N不断变⼤时常数和低阶项对结果的影响很⼩,所以我们只需要计算程序能代表增⻓量级的⼤概执⾏次数,所以复杂度的表⽰通常使⽤⼤O渐进表⽰法 3....O渐进表示法的几条规则: 时间复杂度函数式T(N)中,只保留最⾼阶项,去掉那些低阶项,因为当N不断变⼤时,低阶项对结果影响越来越⼩,当N⽆穷⼤时,就可以忽略不计了,比如: //时间复杂度函数式 T(N)...= N^2 + 2 ∗ N + 10 //使用大O渐进表示法后: O(N) = N^2(只保留最高阶) 如果最⾼阶项存在且不是1,则去除这个项⽬的常数系数,因为当N不断变⼤,这个系数对结果影响越来越⼩...T(N) = 2 * N + 10,要注意的是,里面的M不会随着用户的输入而改变,它的值只是10,后面的for循环只会循环10次,所以是常数    首先,根据大O渐进表示法的第一条规则,只保留最高次,

    7610

    人工智能|卷积及其图像处理的运用

    1卷积的定义 卷积的数学定义是两个函数f(x)与g(n-x)在x轴上的积分,其公式如下: ?...,所以,图像处理时保留图像的高阶特征对于提高图像处理精准度十分重要。...在电脑中,图像其实是一个m*n的矩阵(这里不讨论颜色通道),那么针对于像素点,我们可以使用卷积的原理,使用另一个矩阵,将图像的低阶特征去除掉,保留和突出图像的高阶特征,再根据后续操作,对图像进行分类或者识别...图3.2 卷积效果图 可以看到,图像中很多的细节通过卷积的操作之后已经被去除,只保留了图像的高阶轮廓等信息,这样一来,就给计算机省去了很多的空间。...这里卷积的操作的卷积核是已经确定的,在一般的图像处理中,卷积核是根据深度学习自己求出来的,需要不断地对模型进行训练,直到处理效果理想。 END

    65210

    惊人!MIT & 微软| 提出高效LLM剪枝方法LASER:无额外训练,且性能提升30%!

    当代的Transformer架构实例因其规模巨大而限制了它们的应用,并且在训练和推理过程中需要庞大的计算资源。...然而,越来越多的研究表明,「基于Transformer的模型并不需要所有的拟合参数来保留它们学到的知识」。...另外还观察到,LASER对以前正确问题的释义具有更高的鲁棒性。 此外,本文尝试推理关于高阶分量中存储了什么内容,以及它们的移除如何提升性能。...然而,在进行了一定程度的降维后,模型的回答变为正确。 为了解释上述现象,本文了剩余分量独立编码的内容;仅使用其高阶奇异向量来近似权重矩阵。...实验发现这些分量要么描述了与正确答案相同语义类别的不同响应,要么是通用的高频词汇。显然,当嘈杂的高阶分量与低阶分量相结合时,它们的冲突响应产生了一种“平均答案”,很可能是不正确。

    35610

    讨厌算法的程序员 | 第四章 时间复杂度

    增长量级 函数的增长量级 上一篇算法分析基础中,我们分析了插入排序,知道了其最好情况下的运行时间为T(n) = an + b,最差情况下的运行时间为T(n) = an2 + bn + c。...表达式中的常量a、b和c(实际上都是依赖每行代码的执行时间ci)进一步抽象了每行代码的执行时间,而凸显出输入规模n与运行时间T的关系。...我们知道,当n的值很大时,低阶项对T的贡献就没那么重要了,同时,最重要的高阶项的常量系数对T的贡献也没那么重要了。 对于插入排序最差情况来说,当忽略掉低阶项以及高阶项的常数系数,就只剩下了n2。...插入排序最差情况的运行时间,可记做T(n) = Θ(n2),其中Θ称作渐进记号,这种简化成为渐进分析。 渐进分析强调的是,对于足够大的输入,运行时间中的倍增常量和低阶项被输入规模本身的影响所支配。...这是因为Θ是一种紧确性的表示,而Ο是一种非紧确性、只描述了上限的表示。 《算法导论》中的翻译的这个词“紧确”,还是很形象的。我再说的直白点,就是绘制出的函数图形,是否比较“贴合”。

    1.2K80

    讨厌算法的程序员 4 - 时间复杂度

    增长量级 函数的增长量级 上一篇算法分析基础中,我们分析了插入排序,知道了其最好情况下的运行时间为T(n) = an + b,最差情况下的运行时间为T(n) = an2 + bn + c。...表达式中的常量a、b和c(实际上都是依赖每行代码的执行时间ci)进一步抽象了每行代码的执行时间,而凸显出输入规模n与运行时间T的关系。...我们知道,当n的值很大时,低阶项对T的贡献就没那么重要了,同时,最重要的高阶项的常量系数对T的贡献也没那么重要了。 对于插入排序最差情况来说,当忽略掉低阶项以及高阶项的常数系数,就只剩下了n2。...插入排序最差情况的运行时间,可记做T(n) = Θ(n2),其中Θ称作渐进记号,这种简化成为渐进分析。 渐进分析强调的是,对于足够大的输入,运行时间中的倍增常量和低阶项被输入规模本身的影响所支配。...这是因为Θ是一种紧确性的表示,而Ο是一种非紧确性、只描述了上限的表示。 《算法导论》中的翻译的这个词“紧确”,还是很形象的。我再说的直白点,就是绘制出的函数图形,是否比较“贴合”。

    1.1K30
    领券