前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >TikTok背后的AI如何运作

TikTok背后的AI如何运作

作者头像
喵叔
发布于 2022-05-05 00:00:12
发布于 2022-05-05 00:00:12
9310
举报
文章被收录于专栏:喵叔's 专栏喵叔's 专栏

从工程师的角度探索TikTok推荐系统架构。

TikTok是一款视频共享应用程序,可让用户创建和共享短视频。它以个性化的“just for you”的推荐给用户留下了深刻的印象。它在Z世代中非常受欢迎,容易让人上瘾。在它的背后,它是由人工智能技术驱动的。

TikTok架构

TikTok推荐系统的架构包括三个组件:大数据框架、机器学习微服务架构。 大数据框架是系统的起点。它提供实时数据流处理,数据计算和数据存储; 机器学习是推荐系统的大脑。使用一系列机器学习和深度学习算法与技术用于构建模型并生成适用于个人偏好的建议; 微服务架构是底层的基础设施,使整个系统快速高效地提供服务。

大数据框架

没有数据,就没有情报。 分析的大多数数据来自用户的智能手机。这包括操作系统和已安装的应用程序等。更重要的是,TikTok特别关注用户的活动日志,例如观看时间,滑动,喜欢,分享和评论。

日志数据通过flume和scribe收集和汇总。它们通过管道进入Kafka 队列。然后,Apache Storm使用Apache Hadoop生态系统中的其他组件实时处理数据流。 Apache Hadoop生态系统是一个用于数据处理和存储的分布式系统,这包括第一代分布式数据处理系统MapReduce。它与批处理并行处理数据。YARN 是用于作业调度和群集资源管理的框架。HDFS 是一个分布式文件系统HBase 是一个可扩展的分布式数据库,支持大型表的结构化数据存储。Hive 是提供数据汇总和查询的数据仓库基础结构。 Zookeeper是一项高性能的协调服务。 随着数据量的快速增长,实时数据处理框架也随之出现。Apache Spark是第三代框架,有助于对大数据工作负载进行近乎实时的分布式处理。Spark通过在内存中处理来增强MapReduce的性能。在过去的几年里,TikTok应用了第四代框架Flink。它旨在本机执行实时流式处理。 数据库系统包括MySQLMongoDB和许多其他系统。

机器学习

这是TikTok如何赢得个性化,且令人上瘾的算法家喻户晓的名字的中心。

在大量数据集涌入后,接下来是内容分析、用户分析和上下文分析。神经网络深度学习框架(如TensorFlow)用于执行计算机视觉和本地语言处理(NLP)。计算机视觉将使用照片和视频解释图像。NLP包括分类、标记和评估。 使用经典的机器学习算法,包括逻辑回归(LR),卷积神经网络(CNN),递归神经网络(RNN)和梯度提升决策树(GBDT)。它应用了常见的推荐方法,例如基于内容的过滤 (CBF)、协同过滤 (CF) 和更高级的矩阵分解 (MF)。 TikTok用来读你心思的秘密武器是:

  1. 算法实验平台:工程师对LR和DNN等多种机器学习算法的混合进行实验,然后运行测试(A / B测试)并进行调整。
  2. 广泛的分类和标签:这些模型基于用户的参与度,例如观看时间,滑动以及常用的喜欢或分享(你潜意识反映所做的事比你所说的更能说明你)。用户特征、向量和类别的数量超过了世界上大多数推荐系统,而且它们还在不断增加。
  3. 用户反馈引擎:在多次迭代中检索用户反馈后,更新模型。体验管理平台基于此引擎构建,最终改进了条件和建议。

为了解决建议中的冷启动问题,使用了召回策略。它是从数千万个已被证明受欢迎且高质量的视频中选择数千名候选人。 与此同时,一些人工智能工作已经转移到客户端,以实现超快速的响应。这包括在设备上完成的实时训练、建模和推理。TensorFlow Lite或ByteNN等机器学习框架用于客户端。

微服务架构

TikTok已经运用了云原生基础设施。推荐组件(如用户分析、预测、冷启动、召回和用户反馈引擎)用作 API。这些服务托管在Amazon AWS和Microsoft Azure等云中。作为系统的结果,视频策展将通过云推送给用户。

TikTok采用基于Kubernetes容器化技术。Kubernetes 被称为容器编排器。它是自动化应用程序生命周期的工具集。Kubeflow致力于在Kubernetes上部署机器学习工作流。 作为云原生堆栈的一部分,Service mesh 是另一个处理服务到服务通信的工具。它控制应用程序的不同部分如何相互共享数据。它在平台层插入功能或服务,而不是在应用程序层插入。 由于高并发性的要求,服务是使用 Go 语言和 gRPC 构建的。在TikTok中,Go因其良好的内置网络和并发支持而成为服务开发中的主导语言。gRPC 是一个远程过程控制框架,用于有效地构建和连接服务。 Tiktok的成功在于,它将加倍努力提供最佳的用户体验。他们构建内部工具,以最大限度地提高低级别(系统级别)的性能。例如,ByteMesh是Service Mesh的改进版本,KiteX是高性能的Golang gRPC框架,Sonic是增强的Golang JSON库。其他内部工具或系统包括参数服务器、ByteNN 和 abase等。 正如TikTok机器学习负责人Xiang Liang所说,有时下面的基础设施比上面的(机器学习)算法更重要。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022/05/04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TikTok的算法为何如此有效?
抖音的推荐系统非常擅长理解用户需求——好到让埃隆·马斯克这样的科技巨头都羡慕不已。但抖音的成功秘诀是什么呢?
云云众生s
2025/01/26
1820
TikTok的算法为何如此有效?
全世界的TikTok:揭秘它背后强大的算法系统
「病毒式传播」让我们开诚布公地说吧,有谁会不喜欢滑稽小狗或者小奶猫的视频呢?尤其是在全球因疫情陷入困境的今天,这样的小视频多多少少能让人逃离现实。
后端码匠
2020/08/04
1.5K0
全世界的TikTok:揭秘它背后强大的算法系统
数据架构的未来——浅谈流处理架构
数据架构设计领域正在发生一场变革,其影响的不仅是实时处理业务,这场变革可能将基于流的处理视为整个架构设计的核心,而不是将流处理只是作为某一个实时计算的项目使用。本文将对比传统数据架构与流处理架构的区别,并将介绍如何将流处理架构应用于微服务及整体系统中。
用户6070864
2019/08/30
6600
数据架构的未来——浅谈流处理架构
大数据学习路线
上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解:
小歪
2019/12/15
9150
浅析2025年后端编程发展趋势
随着技术的不断发展,2025年的后端编程可能会有多种热门技术。云原生技术将持续火热,云原生应用强调将应用程序完全构建和部署在云环境中,充分利用云计算的优势。容器化技术作为云原生的重要组成部分,像Docker这种容器化技术可以将应用程序及其依赖项打包成一个独立的运行单元,实现了跨平台、可移植的部署方式,在2025年也依然会是后端开发的重要技术。
码农编程进阶笔记
2024/11/29
9580
浅析2025年后端编程发展趋势
2025年AI智能体元年:这些编程语言让你走在风口浪尖
2025年,基于DeepSeek R1的AI智能体构建将成为热门趋势,核心编程语言包括Python、TypeScript、Go、Rust、Java和C++,以及针对特定领域的SQL、JavaScript和C#。移动端开发主要使用Swift/Kotlin,统计建模使用R,大数据处理使用Scala,分布式系统使用Erlang/Elixir。
程序员吾真本
2025/02/12
6120
2025年AI智能体元年:这些编程语言让你走在风口浪尖
Spring AI发布!让Java紧跟AI赛道!
在当今技术发展的背景下,人工智能(AI)已经成为各行各业中不可忽视的重要技术。无论是在互联网公司,还是传统行业,AI技术的应用都在大幅提升效率、降低成本、推动创新。从智能客服到个性化推荐,从语音识别到图像处理,AI的广泛应用已经渗透到生活中的各个角落。\
有一只柴犬
2025/02/16
3110
Spring AI发布!让Java紧跟AI赛道!
两届黑客马拉松冠军:K8S深度学习平台实践经验分享
内容来源:2017年11月19日,饿了么资深后端工程师江骏在“11.19上海 | K8S Sail!系列技术沙龙”进行《饿了么Docker&K8S实践经验分享》演讲分享。IT 大咖说(微信id:itd
IT大咖说
2018/04/18
8300
两届黑客马拉松冠军:K8S深度学习平台实践经验分享
女友问粉丝过万如何庆祝,我发万字长文《保姆级大数据入门篇》感恩粉丝们支持,学姐|学妹|学弟|小白看了就懂
Java基础语法,面向对象,字符串,异常,集合,IO,线程、数据库、JDBC,Maven
Lansonli
2021/10/11
4840
国外知名互联网公司的系统设计和推荐算法汇总
作者 | theinsaneapp.com 译者 | 张健欣 策划 | 万佳 今天,我们会讨论一些不同的东西,例如 Spotify、YouTube、Signal Messenger、Amazon 等科技巨头的推荐算法,以及像 Uber、Twitter、Netflix、Airbnb、Dropbox、Google Docs、Zoom 之类企业的系统设计。 说明:本文基于我的个人研究。有些东西可能不是 100% 准确,但我已经尽力保证它的准确性、信息和价值。 Uber 系统设计 图片来源:Geeks for
深度学习与Python
2023/04/01
1K0
国外知名互联网公司的系统设计和推荐算法汇总
这些项目,入选了 2019 年最佳开源软件榜单!
InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源界的贡献,以及在业界的影响力评选出当年的 “最佳开源软件”(2019 InfoWorld Bossie Awards,Best of Open Source Software awards),该奖项评选已经延续了十多年。
GitHubDaily
2019/11/22
1.3K0
这些项目,入选了 2019 年最佳开源软件榜单!
大数据测试能力--大数据开发技术(下)
Hadoop 生态系统中具有大量应用程序和执行引擎,提供了多种可满足您的分析工作负载需求的工具。
rainbowzhouj
2023/03/16
5110
大数据测试能力--大数据开发技术(下)
文末福利-如何构建核心竞争力? | 25位技术大咖的通关秘籍在此
核心竞争力的概念首次出现是在1990年,将其定义为“是在组织内部经过整合了的技术、知识和技能,尤其是关于怎样协调多种生产机能和整合不同技术和技能”。概括地讲,就是指提供企业竞争优势基础的多方面技术、技能和知识的有机组合。 它是企业竞争力的基础和获得竞争优势的根源,特别在中国加入WTO以后,经济全球化进程日益加快,企业间的竞争也愈加激烈,构建并提高自身的核心竞争能力不仅成为企业的必然选择,也成为每位技术人的追求目标。 由msup主办的第44届MPD工作坊深圳站将于9月21日-22日在深圳华侨城洲际酒店举
腾讯大讲堂
2019/09/17
1K0
文末福利-如何构建核心竞争力? | 25位技术大咖的通关秘籍在此
2021腾讯犀牛鸟精英工程人才培养计划课题介绍(上篇)
12月11日,2021年腾讯犀牛鸟精英科研人才培养计划正式对外发布。计划截止申报时间为2021年1月28日24:00。 本年度犀牛鸟精英计划首次发布(试运行)“犀牛鸟精英工程人才培养计划”,该计划由校/院级教学组织推荐学生及指导老师组队申报,入选团队及学生将借助产业真实问题和实战平台,深度参与推进技术在产业场景中应用落地。 首次试运行共发布8项课题,其中包含腾讯微信、地图、安全等与日常生活紧密相关的核心产品及技术领域。 本文推送计划中四个课题内容: 课题一场景化多模态聊天助手; 课题二面向抢占式资源的多云
腾讯高校合作
2021/01/06
1.8K0
使用 Istio 治理微服务
使用云平台可以为组织提供丰富的好处。然而,不可否认的是,采用云可能会给 DevOps 团队带来压力。开发人员必须使用微服务以满足应用的可移植性,同时运营商管理了极其庞大的混合和多云部署。Istio 允许您连接、保护、控制和观测服务。
搜云库技术团队
2019/10/17
9740
2020:我们处在一个什么样的技术浪潮当中?
在软件架构领域,经历了从单体应用到 SOA 再到微服务; 在云计算领域,经历了从虚拟机到容器; 在数据库领域,从关系数据库到 NoSQL 再到 NewSQL; 在大数据领域,从批处理到流处理; 在运维领域,从手工运维到 DevOps、AIOps; 在前端领域,从 jQuery 到 React 等三大框架; …… 除此之外,还有一些新兴的领域如 AI、区块链等等,开启了一波又一波的风口。
一个会写诗的程序员
2019/08/20
9070
java转大数据方向如何走?
大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。
张哥编程
2024/12/19
1270
java转大数据方向如何走?
百度沈国龙:BML百度大规模机器学习云平台实践
为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委
用户1737318
2018/06/06
1.2K0
在线推理和在线学习,从两大层级看实时机器学习的应用现状
与美国、欧洲和中国一些大型互联网公司的机器学习和基础设施工程师聊过之后,我发现这些公司可以分为两大类。一类公司重视实时机器学习的基础设施投资(数亿美元),并且已经看到了投资回报。另一类公司则还在考虑实时机器学习是否有价值。
机器之心
2021/01/20
1.2K0
大数据技术学习路线指南
要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。如果您感觉阅读文字太累,可以点击下面音频!
用户2292346
2019/01/26
7370
大数据技术学习路线指南
推荐阅读
相关推荐
TikTok的算法为何如此有效?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档