Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >csv 转 ffm[通俗易懂]

csv 转 ffm[通俗易懂]

作者头像
全栈程序员站长
发布于 2022-08-28 04:11:24
发布于 2022-08-28 04:11:24
6490
举报

大家好,又见面了,我是你们的朋友全栈君。

1. FFM介绍

FFM最初的概念来自Yu-Chin Juan与其比赛队员,是他们借鉴了来自Michael Jahrer的论文中的field概念提出了FM的升级版模型。通过引入field的概念,FFM把相同性质的特征归于同一个field。 FFM 模型不同于常见的DataFrame格式文件,需要将数据格式转换成如下所示的格式:

y field_1:index_1:value_1 field_2:index_2:value_2 … 0 0:0:0.1 1:1:0.5 … 0 0:0:0.2 1:2:0.3 … 1 0:0:0.2 1:2:0.3 …

且满足一下三个要求:

1. 样本归一化:对样本进行归一化,否则容易造成数据溢出,梯度计算失败。

2. 特征归一化:为了消除不同特征取值范围不同造成的问题,需要对特征进行归一化。

3.省略零值特征:零值特征对模型没有任何贡献,省略零值特征,可以提高FFM 模型训练和预测的速度,这也是稀疏样本采用FFM 的显著优势

2. code

原始代码详将我的github:https://github.com/tide1994cc/csv2ffm

跪谢大家给的小星星~~~

处理代码如下,可以直接import 使用,使用方法非常简单,导入数据,然后实例化一个ffm对象即可,自动将转换后的数据保存在本地。创建对象时,如要的两个参数是 分类列是那些lie,用list表示,标签列是哪一列。也用list表示。详细使用方式如下:

部分原始处理代码如下:

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/146230.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
FFM模型详解[通俗易懂]
假设一个广告分类的问题,根据用户和广告位相关的特征,预测用户是否点击了广告。源数据如下:
全栈程序员站长
2022/09/06
1K0
FFM模型详解[通俗易懂]
FFM算法解析及Python实现
通过引入field的概念,FFM把相同性质的特征归于同一个field,相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型。
Bo_hemian
2020/09/09
1K0
理论:FM理论解析及应用FM的产生背景one-hot过程什么叫做组合问题组合特征后的表达形式方程定义完成了,下面就要开始数学定义下面让我们来解这个式子引申一个FFM概念代码实现
我其实没有做过很多ctr预估的事情,但是我在工作中常常遇到CRM流失预估、订单预估这些依赖于特征工程的事情,其中就涉及到特征的组合问题。
sladesal
2018/08/27
6040
理论:FM理论解析及应用FM的产生背景one-hot过程什么叫做组合问题组合特征后的表达形式方程定义完成了,下面就要开始数学定义下面让我们来解这个式子引申一个FFM概念代码实现
FM系列算法解读(FM+FFM+DeepFM)
  在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。   在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高度稀疏的情况下,并不能很好的进行学习。现在有很多分解模型可以学习到特征之间的交互隐藏关系,基本上每个模型都只适用于特定的输入和场景。推荐系统是一个高度系数的数据场景,由此产生了FM系列算法。   本文主要涉及三种FM系列算法:FM,FFM,DeepFM
全栈程序员站长
2022/07/01
1.2K0
FM系列算法解读(FM+FFM+DeepFM)
基于Tensorflow实现FFM
github:https://github.com/sladesha/deep_learning
用户1332428
2018/08/17
1.6K0
基于Tensorflow实现FFM
CTR预估算法之FM, FFM, DeepFM及实践
点击率(Click through rate)是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。 它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性。 点击率是广告点击次数除以总展示次数(广告投放次数)
全栈程序员站长
2022/07/01
5550
CTR预估算法之FM, FFM, DeepFM及实践
FFM模型在点击率预估中的应用实践
近期参加了kesci平台上的云脑机器学习训练营,接触到了FFM模型,因此这篇文章,将主要讲述FFM模型在CTR预估中的应用。
全栈程序员站长
2022/08/26
4780
FFM模型在点击率预估中的应用实践
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(上篇)
在广告、推荐系统CTR预估问题上,早期的完全规则方法被过渡到以LR为代表的机器学习方法,为了充分发挥组合特征的价值,在相当长一段时间里,业界热衷于使用LR+人工特征工程。但人工组合特征成本高昂 ,在不同任务上也难以复用。2010年FM因子分解方法的出现解决了人工组合特征的困境,2014年Facebook提出的GBDT+LR也给出了一种利用树模型特点构建组合特征的思路。不过随着深度学习的崛起,2015年以后,借助非线性自动组合特征能力的深度模型,开始成为业内的主流。从经典DNN到结合浅层的Wide&Deep,用于CTR预估的深度模型在近些年间百花盛开,各种交叉特征建模方法层出不穷,Attention机制也从其他研究领域引入,帮助更好的适应业务,提升模型的解释性。在这进化路线之下,核心问题离不开解决数据高维稀疏难题,自动化组合特征,模型可解释。我们梳理了近些年CTR预估问题中有代表性的模型研究/应用成果,并对部分经典模型的实现原理进行详细剖析,落成文字作为学习过程的记录。
炼丹笔记
2021/05/14
5.3K0
算法大佬看了流泪,为什么这么好的CTR预估总结之前没分享(上篇)
机器学习十大经典算法入门[通俗易懂]
一,SVM(Support Vector Machine)支持向量机 a. SVM算法是介于简单算法和神经网络之间的最好的算法。 b. 只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。 c. 高斯核函数 d. 缺点:计算量大
全栈程序员站长
2022/09/07
9200
机器学习十大经典算法入门[通俗易懂]
CTR学习笔记&代码实现1-深度学习的前奏LR->FFM
CTR学习笔记系列的第一篇,总结在深度模型称王之前经典LR,FM, FFM模型,这些经典模型后续也作为组件用于各个深度模型。模型分别用自定义Keras Layer和estimator来实现,哈哈一个是旧爱一个是新欢。特征工程依赖feature_column实现,这里做的比较简单在后面的深度模型再好好搞。完整代码在这里https://github.com/DSXiangLi/CTR
风雨中的小七
2020/03/19
4800
CTR学习笔记&代码实现1-深度学习的前奏LR->FFM
最全推荐系统传统算法合集
我花了半个多月将推荐系统传统算法分别进行了总结归纳,应该时目前全网最全的版本了。希望对大家了解推荐系统传统算法有所帮助。
张小磊
2022/02/28
1.2K0
最全推荐系统传统算法合集
【实例分割】1、SOLOv1: Segmenting Objects by Locations_2019[通俗易懂]
论文:https://arxiv.org/abs/1912.04488 代码:https://github.com/WXinlong/SOLO
全栈程序员站长
2022/09/23
6110
【实例分割】1、SOLOv1: Segmenting Objects by Locations_2019[通俗易懂]
Xlearn ——快速落地FM/FFM机器学习算法
Xlearn是你面对结构化数据分类/回归任务时,除了xgboost/lightgbm/catboost之外,又不想搞训练很慢的深度学习模型时,可以尝试考虑的一个能够快速落地的机器学习baseline基准。
lyhue1991
2024/01/04
4380
Xlearn ——快速落地FM/FFM机器学习算法
对dropout的理解详细版[通俗易懂]
dropout可以让模型训练时,随机让网络的某些节点不工作(输出置零),也不更新权重(但会保存下来,下次训练得要用,只是本次训练不参与bp传播),其他过程不变。我们通常设定一个dropout radio=p,即每个输出节点以概率p置0(不工作,权重不更新),假设每个输出都是独立的,每个输出都服从二项伯努利分布p(1-p),则大约认为训练时,只使用了(1-p)比例的输出,相当于每次训练一个子网络。测试的时候,可以直接去掉Dropout层,将所有输出都使用起来,为此需要将尺度对齐,即比例缩小输出 r=r*(1-p)。
全栈程序员站长
2022/08/18
1.9K0
对dropout的理解详细版[通俗易懂]
PinnerSAGE、ENSFM、MHCN、FFM…你都掌握了吗?一文总结推荐系统必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 18 个在推荐系统任务上曾取得 SOTA 的经典模型。 第 1 期:DSSM、Youtube_DNN、SASRec、PinSAGE、TDM
机器之心
2023/03/29
6330
PinnerSAGE、ENSFM、MHCN、FFM…你都掌握了吗?一文总结推荐系统必备经典模型(二)
自适应滤波算法综述[通俗易懂]
Created with Raphaël 2.2.0 开始 选择正交变换,把时域信号转变为变换域信号 变换后的信号用其能量的平方根归一化 采用某一自适应算法进行滤波 结束
全栈程序员站长
2022/07/01
6.5K0
自适应滤波算法综述[通俗易懂]
数据挖掘复习(包括一些课本习题)[通俗易懂]
1.1.数据挖掘处理的对象有哪些? 处理某一专业领域中积累的数据; 1.2.数据挖掘在电子商务中的客户关系管理起到非常重要的作用;
全栈程序员站长
2022/09/03
2.3K0
数据挖掘复习(包括一些课本习题)[通俗易懂]
【AI in 美团】深度学习在美团搜索广告排序的应用实践
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。
美团技术团队
2018/08/01
7650
【AI in 美团】深度学习在美团搜索广告排序的应用实践
一文带你通俗易懂地了解word2vec原理
单词表 V = { ω 1 , ω 2 , . . . , ω n } V = \{ ω_1, ω_2, … , ω_n\} V={ ω1​,ω2​,...,ωn​}
全栈程序员站长
2022/08/29
1.8K0
一文带你通俗易懂地了解word2vec原理
HMM超详细讲解+代码[通俗易懂]
#写在前面 老习惯,正文之前瞎扯一通。HMM学了很久,最初是在《统计学自然语言处理》里面就学到了相关内容,并且知道HMM CRF一直都是NLP比较底层比较基础且较为有效的算法模型(虽然感觉还是挺难的),之前仅仅局限在了解前向算法和维特比算法上。也没有去写代码,只知道个大概思路。最近从52nlpHMM系列讲解再次入手,结合多篇博客、github项目以及李航的《统计学习方法》比较全面的对HMM做了一次学习,要求对自己强制输出,所以在整体公式推导没有什么大问题之后,昨天花了一天完善了代码,今天来做一个全面的讲解,为人为己。 本文还是坚持自己的风格,讲解和公式穿插进行,数学公式永远是最精炼的语言 ^_^
全栈程序员站长
2022/11/03
1.8K0
推荐阅读
相关推荐
FFM模型详解[通俗易懂]
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档