算法工程师

Coggle数据科学

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

以往CTR（Click-Through Rate、点击率）预估模型更加关注于单个业务场景域（domain）的预测。在淘宝的App中，有多种domains需要用到CTR预估模型，比如首页推荐、猜你喜欢等等。如果每个场景都单独建模，模型的数目会很多，可能有几百个，维护成本变大，而且有的domains的数据比较少，模型的学习效果也不够好。考虑到不同domains之间有很大的共性，比如domains间的用户是重叠的、商品也是重叠的，一个思路是把多个domains放到一起建模，利用domains间的共享部分，提升其他domains的效果，减少模型的个数。

深入理解推荐系统：如何多种业务场景合并建模

互联网用户会训练大量在线产品和服务，因此很难区分什么对它们更有兴趣。为了减小信息过载，并满足用户的多样性需求，个性化推荐系统扮演着重要的角色。精准的个性化推荐系统有利于包括publisher和platform在内的需求侧和供给侧。

深入理解推荐系统：大厂如何进行CTR增量训练

WSDM Cup on Cross-Market Recommendation Competition

2022 WSDM-Xmrec：跨境电商推荐挑战赛题方案

在广告系统中，一个重要的指标是CTR。ctr=点击(Click)/曝光(Impression)。

深入理解推荐系统：CTR平滑问题

文章首先介绍了现有的点击率 (CTR) 预估模型大都满足相同的模式: 先将大量的稀疏类别特征 (Categorical Features) 通过 Embedding 技术映射到低维空间, 再将这些特征的低维表达按照特征的类别进行组合与变换 (文中采用 in a group-wise manner 来描述), 以形成固定长度的向量 (比如常用的 sum pooling / mean pooling), 最后将这些向量 concatenate 起来输入到一个 MLP (Multi-Layer Perceptron) 中, 从而学习这些特征间的非线性关系.

深入理解推荐系统：阿里DIN原理与实践

上面的所有模型都使用DNN来学习高阶特征交叉。然而，DNN可以以一个隐式的方式建模高阶特征交叉。由DNN学到的最终函数可以是任意形式，关于特征交叉的最大阶数（maximum degree）没有理论上的结论。另外，DNNs在bit-wise级别建模征交叉，这与FM框架不同（它会在vector-wise级别建模）。这样，在推荐系统的领域，其中DNN是否是用于表示高阶特征交叉的最有效模型，仍然是一个开放问题。在本paper中，我们提供了一个基于NN的模型，以显式、vector-wise的方式来学习特征交叉。我们的方法基于DCN（Deep&Cross Network）之上，该方法能有效捕获有限阶数（bounded  degree）的特征交叉。然而，我们会在第2.3节讨论，DCN将带来一种特殊形式的交叉。我们设计了一种新的压缩交叉网络CIN(compressed interaction network)来替换在DCN中的cross network。CIN可以显式地学到特征交叉，交叉的阶数会随着网络depth增长。根据Wide&Deep模型和DeepFM模型的精神，我们会结合显式高阶交叉模块和隐式交叉模型，以及传统的FM模块，并将该联合模型命名为“eXtreme Deep Factorization Machine (xDeepFM)”。这种新模型无需人工特征工程，可以让数据科学家们从无聊的特征搜索中解放出来。总结一下，主要有三个贡献：

深入理解推荐系统：微软xDeepFM原理与实践

2022科大讯飞大赛于6月9日正式开赛了。Datawhale作为大赛生态伙伴，与科大讯飞联合设计了学习型赛事，帮助大家提升数据挖掘、CV、NLP等方向的实践技能。

科大讯飞：电信客户流失预测赛方案

论文：《node2vec: Scalable Feature Learning for Networks》

GraphEmbedding实战系列：Node2vec原理与代码实战

在进行数据竞赛中，数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享，基本涵盖了大部分处理方式。

Kaggle知识点：缺失值处理

本文将介绍在时间序列预测相关问题中常见的异常检测算法，可以很大程度上帮助改善最终预测效果。

时序预测竞赛之异常检测算法综述

类别型特征（categorical feature）主要是指职业，血型等在有限类别内取值的特征。它的原始输入通常是字符串形式，大多数算法模型不接受数值型特征的输入，针对数值型的类别特征会被当成数值型特征，从而造成训练的模型产生错误。

Kaggle知识点：类别特征处理

时隔两年，这篇决赛方案梳理悄然登场，主要针对前十名的方案进行学习，17的腾讯赛算法是比较早的ctr比赛，很多方法都值得借鉴，同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛，不过在之后的比赛中，也常分析这场经典赛事。接下来让我们回到两年前，以前来学习优秀方案。

一文梳理2017腾讯广告算法大赛决赛方案

本文将带来最近一场比赛的方案分享，这是一场有关时间序列的问题，虽然没有进决赛，不过很多点还是非常值得学习的。希望能给大家带来帮助，也欢迎与我进行更多讨论。

2019CCF-BDCI-乘用车细分市场销量预测方案（Top1%）

首先很幸运能和杰少、林有夕成为队友，与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助，并且一起交流学习。

TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享（季军）

来自小米商业算法部广告算法（CTR组）的广告推荐职位，感兴趣的小伙伴，欢迎将简历投递至：wanghe11@xiaomi.com

小米广告算法（CTR组）招聘

作为【推荐系统】系列文章的第九篇，将以“序列化推荐算法”作为今天的主角，主要介绍相关的模型原理和发展方向。

深入理解推荐系统：十大序列化推荐算法梳理

文本相似度是指衡量两个文本的相似程度，相似程度的评价有很多角度：单纯的字面相似度（例如：我和他 v.s. 我和她），语义的相似度（例如：爸爸 v.s. 父亲）和风格的相似度（例如：我喜欢你 v.s. 我好喜欢你耶）等等。

Kaggle知识点：文本相似度计算方法

涵盖了常用到的距离与相似度计算方式，其中包括欧几里得距离、标准化欧几里得距离、曼哈顿距离、汉明距离、切比雪夫距离、马氏距离、兰氏距离、闵科夫斯基距离、编辑距离、余弦相似度、杰卡德相似度、Dice系数。

机器学习中“距离与相似度”计算汇总

作为【推荐系统】系列文章的第七篇，将以CIKM2020中的一篇论文“Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction”作为今天的主角，主要介绍针对Lifelong用户行为序列建模的方案，用户行为长度可以达到上万，而且可以像DIN那样，对于不同的候选商品从用户行为里查找有效的信息建模用户的特殊兴趣。

深入理解推荐系统：超长用户行为序列建模

该抽样方法是按等概率原则直接从总中抽取n个样本，这种随机样本方法简单，易于操作；但是它并不能保证样本能完美的代表总体，这种抽样的基本前提是所有样本个体都是等概率分布，但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中，得到的结果是不重复的样本集，还可以使用有放回的简单随机抽样，这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。

数据竞赛之常见数据抽样方式

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Coggle数据科学专栏，为你提供了Coggle数据科学的相关文章，致力于帮助开发者快速成长与发展。

Coggle数据科学

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐