首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
专区首页 >优选文章
海量短文本场景下的去重算法
在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担,更糟糕的是降低了文本内容的质量。因此需要一种准确而高效率的文本去重算法。而最朴素的做法就是将所有文本进行两两比较,简单易理解,最符合人类的直觉,对于少量文本来说,实现起来也很方便,但是对于海量文本来说,这明显是行不通的,因为它的时间复杂度是,针对亿级别的文本去重时,时间消耗可能就要以年为单位,此路不通。
腾讯云大数据
2018-10-30
19.2K2
视频打标签算法探讨
随着内容时代的来临,多媒体信息,特别是视频信息的分析和理解需求,如图像分类、图像打标签、视频处理等等,变得越发迫切。目前图像分类已经发展了多年,在一定条件下已经取得了很好的效果。本文因实际产品需求,主要探讨一下视频打标签的问题。 查阅了部分资料,笔者拙见,打标签问题无论是文本、图像和视频,涉及到较多对内容的“理解”,目前没有解决得很好。主要原因有以下一些方面,标签具有多样性,有背景内容标签,细节内容标签,内容属性标签,风格标签等等;一些标签的样本的实际表现方式多种多样,样本的规律不明显则不利于模型学习;标
腾讯云大数据
2018-08-21
16.3K5
Elasticsearch 新机发布,爆款冰点价仅此一次
跨年迎双节,2020 年最后一次囤货的机会来啦! Elasticsearch Service 星星海新机型发布,更高性能,更低价格。 爆款机型限时特惠,帮助您顺畅体验 Elasticsearch 云上集群;更特邀 Elastic 原厂专家直播《ES 应用监控管理平台搭建实战》课程,手把手教学轻松入门。 下面,就由小编来为大家盘点 2020 年终 Elasticsearch 限时特惠活动, Get 诚意满满的干货及亮点~ PART 01 为云而生的星星海机型,高适配性、高性能、高稳定性、高安全性、高性价比,
腾讯云大数据
2020-12-11
16K0
用户增长分析——用户流失预警
1 前言 针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率和活跃度。本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。 2 分析背景 “根据美国贝恩公司的调查,在商业社会中5%的客户留存率增长意味着公司利润30%的增长,而把产品卖给老客户的概率是卖给新客户的3倍。所以在‘增长黑客’圈内有一句名言:留住已有的用户胜过拓展新的客户,也就是俗称的
腾讯云大数据
2018-10-09
15.5K0
神盾推荐——特征构造方法
在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等。
腾讯云大数据
2018-08-07
10.1K3
相关推荐之反浩克装甲
本文介绍了 SNG 数据中心立身 QQ 大数据构建的神盾推荐系统中,基于热传导模型的相关推荐模块。
腾讯云大数据
2018-05-22
9.3K8
神盾推荐系统的超大规模参数学习探究
前言 本文介绍我们在推荐系统领域的大规模参数学习研究. 问题的起源是探究给每一个用户学习一个 ID 层级的表征, 而在千万量级的业务上, 学习如此特征将会牵涉到超十亿规模的参数学习. 对此我们根据推荐算法的特点, 实现了一个无需使用参数服务器, 在普通 Spark 能够运行的支持大规模参数学习的 FM 算法, 我们称之为 Elastic Factorization Machines (EFM). 从理论上, EFM 算法能够支持千亿规模的参数训练. 在实践中, 限于资源我们实现了一个十亿级的 EFM 算法
腾讯云大数据
2018-09-11
8.5K4
神盾推荐——MAB算法应用总结
导语:在推荐领域,用户或物品的冷启动,以及如何使推荐结果更加多样的问题在很多实际应用场景中都会遇到。本文主要讲述了神盾推荐在腾讯内部业务场景中,使用MAB方法来解决这两个问题的经验总结,同时本文也较为简单的对MAB问题做了综述性介绍,希望能够帮助到大家。 1问题  1.1 某业务拉新场景—冷启动决策问题 拉新场景是指在大流量业务场景中投放拉新业务的相关优质内容,从而吸引用户访问,快速增加用户量。这个拉新场景需要从4千+专辑池(每日会加入一些新的物品)中挑选出两个专辑投放给用户,使用这两个专辑来吸引新用户,
腾讯云大数据
2018-07-10
6.9K2
神盾推荐——离线算法平台
| 导语 腾讯神盾产品化为推荐业务提供了一站式的解决方案,大大节约算法和开发的时间,同时提高推荐转化率。离线算法平台是神盾产品化中负责训练离线算法模型,并出库模型和特征到线上推荐的模块,最小训练粒度为小时级。同时,离线算法平台还整合了离线批量打分、文本内容理解与特征工程等针对特定需求的功能。 一、离线算法平台简介 算法+特征是推荐的基础,自然也是离线算法平台的两个核心模块。 离线算法平台算法库,提供了LR、CF、XGBoost、FM等多个算法模型,并且为部分算法提供了不同的优化器。 离线算法平台特征引擎,
腾讯云大数据
2018-06-11
6.6K0
一种海量社交短文本的热点话题发现方法
直接从海量文本中生成语法正确、意思明确的话题,是一件不容易的事情。本文主要介绍在话题生成上运用的一个较为简单高效的方法。
腾讯云大数据
2018-07-03
5.3K1
产品指标体系如何搭建
做了几个产品的数据工作,对指标体系概念以及规划方法有一定的积累,总结出来作为知识储备。
腾讯云大数据
2018-05-09
5K7
Flink CDC 原理、实践和优化
CDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GROUP BY)、多表的关联(JOIN)等。
腾讯云大数据
2021-03-31
5K0
自建迁移EMR实践案例
自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这些问题的。
腾讯云大数据
2024-06-13
3.9K0
Clickhouse在大数据分析平台-留存分析上的应用
导语 | 本文实践了对于千万级别的用户,操作总数达万级别,每日几十亿操作流水的留存分析工具秒级别查询的数据构建方案。同时,除了留存分析,对于用户群分析,事件分析等也可以尝试用此方案来解决。 文章作者:陈璐,腾讯高级数据分析师   背景 你可能听说过Growingio、神策等数据分析平台,本文主要介绍实现留存分析工具相关的内容。 留存分析是一种用来分析用户参与情况/活跃程度的分析模型,可考查进行初始行为后的用户中,有多少人会进行后续行为,这是衡量产品对用户价值高低的重要指标。如,为评估产品更新效果或渠道推广
腾讯云大数据
2020-08-07
3.8K1
看云上 ClickHouse 如何做计算存储分离
12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。 在 QCon 盛会上,腾讯云大数据专家工程师陈龙为大家带来了题为《看云上 ClickHouse 如何做计算存储分离》的分享,以下是分享整理全文。 各位朋友大家好,我是陈龙,我今天给大家分享的内容是:看云上 ClickHouse 如何做计算存储分离。 首先介绍下我自己,我来自腾讯云
腾讯云大数据
2020-12-11
3.8K0
重构实践:基于腾讯云Elasticsearch搭建QQ邮箱全文检索
导语 | 随着用户邮件数量越来越多,邮件搜索已是邮箱的基本功能。QQ 邮箱于 2008 年推出的自研搜索引擎面临着存储机器逐渐老化,存储机型面临淘汰的境况。因此,需要搭建一套新的全文检索服务,迁移存储数据。本文将介绍 QQ 邮箱全文检索的架构、实现细节与搜索调优。文章作者:干胜,腾讯后台研发工程师。 一、重构背景 QQ 邮箱的全文检索服务于2008年开始提供,使用中文分词算法和倒排索引结构实现自研搜索引擎。设计有二级索引,热数据存放于正排索引支持实时检索,冷数据存放于倒排索引支持分词搜索。在使用旧全文检索
腾讯云大数据
2020-11-02
3.6K0
手Q游戏中心的个性化推荐实战
自手Q游戏中心V6.0改版以来,产品形态发生了较大的转变,不再是纯粹通过app列表做游戏分发,而是试图通过内容来带游戏分发,全新的产品形态给推荐算法带来了许多的挑战。
腾讯云大数据
2018-05-09
3.2K5
用户增长分析——用户分群分析
| 导语在产品的增长分析当中,想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访问时长等),还希望知道其中差异较大的细分群体。用户分群方法,能帮助我们对差异较大的群体分别进行深入分析,从而探究指标数字背后的原因,探索实现用户增长的途径。 一、用户分群的应用场景 在日常的数据工作中,我们经常接到这样的需求:想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访问时长等),还希望知道具体是哪些人符合这些条件。然后查看这些人的数据导出用户名单,针对性的发送tips消息。有时
腾讯云大数据
2018-06-19
3K0
微信 ClickHouse 实时数仓的最佳实践
作者:微信WeOLAP团队&腾讯云数据仓库 Clickhouse 团队 微信作为一款国民级应用,已经覆盖了社交、支付、出行等人们生活的方方面面。海量多样化的业务形态,对数据分析提出了新的挑战。为了满足业务数据分析的需求,微信 WeOLAP 团队联手腾讯云,共建千台规模、数据 PB 级、批流一体的 ClickHouse 数据仓库,实现了 10 倍以上的性能提升。下文将由浅入深,为大家揭晓微信在 ClickHouse 实时数仓实践中积累的经验及方法。 一、微信遇到的挑战 一般来说,微信主要的数据分析场景包含
腾讯云大数据
2021-11-26
2.8K0
秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用
导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务上的技术思路和迭代方案,希望与大家一同交流探讨。文章作者:王方晓,腾讯运营开发工程师。 一、背景 奕星 (EAS) 是腾讯内部专注于游戏营销活动分析的系统,在营销活动效果分析中,奕星遇到一个最大的问题就是对活动参与人数的去重,并给出对应的活动号码包。单个营销活动的周期是固定的,但活动与活动之间时间很少会有完全相同的情况。 比如A活动时间是1-10号
腾讯云大数据
2020-10-16
2.6K0
点击加载更多
14
粉丝
118
内容
11
讨论
腾讯云大数据
关注【腾讯云大数据】公众号,了解大数据产品最新动态
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券