首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

系统设计:Facebook的新闻流设计

需求 让我们设计Facebook的新闻提要,其中包含来自Facebook的帖子、照片、视频和状态更新 用户关注的所有人和页面。...3.提要可能包含图像、视频或文本。 4.我们的服务应支持在所有活动的新闻提要中添加新帖子用户。 非功能性要求: 1.我们的系统应该能够实时生成任何用户的新闻提要-看到的最大延迟最终用户将是2s。...(string):注册用户的api开发者密钥可用于,根据分配的配额限制用户。...这是关于这些实体之间关系的一些观察结果: •用户可以跟随其他实体并与其他用户成为朋友。 •用户和实体都可以发布包含文本、图像或视频的提要。...5.视频和照片存储,以及缓存:Blob存储,用于存储帖子中包含的所有媒体。 6.新闻源生成服务:收集并排列所有相关帖子,供用户生成新闻源和存储在缓存中。

6.2K283

系统设计面试的行家指南(中)

候选 : 包含哪些内容类型?仅 HTML 还是 pdf 和图像等其他内容类型? 面试官 :只有 HTML。 候选 : 我们要考虑新增或编辑的网页吗? 面试官 : 是的,要考虑新增加或编辑的网页。...过滤掉不想要的页面:在有限的存储容量和抓取资源下,反垃圾邮件组件有利于过滤掉低质量和垃圾页面[13] [14]。 数据库复制和分片:复制和分片等技术用于提高数据层的可用性、可伸缩性和可靠性。...这些 API 是基于 HTTP 的,允许客户端执行操作,包括发布状态、检索新闻提要、添加好友等。我们讨论两个最重要的 API:提要发布 API 和新闻提要检索 API。...新闻订阅源检索 API 检索新闻提要的 API 如下所示: GET /v1/me/feed 参数: auth _ token:用于认证 API 请求。...聊天系统包含以下组件:用于实时消息传递的聊天服务器、用于管理在线状态的状态服务器、用于发送推送通知的推送通知服务器、用于聊天历史持久性的键值存储以及用于其他功能的 API 服务器。

23910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    GitHub 变 Twitter?强“喂”新推荐算法引公愤,开发者从“编程乌托邦”被驱赶到了信息茧房

    但其基本思路仍然不变,还是要把原本各自独立的“Following”和“For You”两类提要合并起来。 其中,“Following”提要展示的是“您所关注的用户和代码仓库中的活动”。...对于那些希望自定义的用户,GitHub 表示增强了过滤控件,仅显示对用户最重要的事件类型,过滤项目包括:公告、版本、赞助商、星星、存储库、存储库活动、关注和推荐等类别。...“在当前的 feed 中,无论你添加了多少个过滤器,我都找不到我感兴趣的信息。” 这位用户向 GitHub 呼吁道,请停止接触那些不是非常必要的东西!帖子下面有大量开发者跟帖表示赞同。...当时,就有不少开发者直言道,“我不需要看到推荐,也不需要看到我不关注的人的活动,GitHub 正在试图推出社交功能,但我们在这里是为了工作”、“请不要把 GitHub 变成 Facebook”、“请给我一个选项来完全禁用算法提要...但是拜托,别在更新的同时把好东西撤掉,按时间排序已经存在多年、而且实践也证明这是个效果很好的选项。 我们没必要把一切都搞得像 Twitter、Facebook 或者 Instagram 那样。

    19120

    基于视频理解的智能裁剪和预览

    ,有利于非线性观看;也可以帮助我们把视频转录成不同形式的文本。...智能裁剪可以自动改变视频的长宽比,比如从 16×9 的水平模式改变成 1×1 或者 4×5,适应 Facebook 提要中推荐使用 4×5 或者 1×1 宽高比的要求。...训练了一个卷积神经网络来进行预测,对仅 RGB 和 RGB 加运动的情况分别进行了实验。在预测显著性图之后,放置一个窗口来确定在哪里进行裁剪。...利用中值过滤技术可以产生相对自然的结果,同时使用文本检测技术,文本检测具有很强的响应能力,这能够提供更好的用户体验。 智能预览 介绍 上节中我们讨论了如何使用空间显着性和时间信息来进行视频裁剪。...为此,我们设计了一个用于过滤和选择视频中有趣区域的预处理步骤,同时对语音和短边界进行检查,以便不会出现突然的开始和停顿,但是考虑到项目的持续时间,这种方案并不总是可行。

    84420

    【Python环境】探索 Python、机器学习和 NLTK 库

    在这个目录中,存在一个用于相同名称的 Python 包的 locomotive 目录。 清单 3 显示了这个目录结构。 清单 3....我用来获得示例提要数据的第一个方法是只提取在某个文本文件中指定的列表中的 RSS 提要。...与 RSS 提要项目一样,每篇 Reuters 新闻文章中都包含一个标题和一个正文,所以这个 NLTK 预分类的数据非常适合于模拟 RSS 提要。...test/14826 trade test/14828 grain 自然语言是混乱的 RSS 提要分类算法的原始输入,当然是以英语书写的文本。原始,确实如此。...当然,我不希望为了将 RSS 提要项目传递给算法就要为每个 RSS 提要项目创建一个包含 250,000 个布尔值的对象。那么,我会使用哪些单词?

    1.6K80

    基于AIGC的写作尝试:Presto: A Decade of SQL Analytics at Meta(翻译)

    首先,FROM GRAPH子句不引用表,而是引用“图形”。这是我们在Meta仓库中引入的新元数据工件,其中包含从图形的模式(顶点或边缘类型以及其属性的名称和类型)到存储图形的底层表的映射。...复杂的过滤器下推:用户可以使用诸如all_match之类的函数在路径上指定过滤器,从而允许指定适用于输入路径的所有元素的任意谓词。例如,列表1仅查询所有边缘属性为TRUE的路径。...Presto与所有这些表格格式都有集成,但仍然仅依赖于Meta的解决方案“delta”来支持更灵活的数据变异。Giraph [15]是一个开源解决方案,用于进行图形分析。...Gremlin [49]是一种用于查询图形的API,遵循更多的数据流结构,并与声明性的类SQL语言不同。FUTURE WORK 本文中提到的技术是我们处理更复杂工作负载的初步探索。...非SQL API:第6.4节中的GraphSQL仅适用于与图形相关的用例的SQL扩展。

    4.9K111

    人类的悲欢虽不相通,但情感分析模型读得懂

    内容提要:社交媒体逐渐成为当今人们生活的一部分,而它也成为心理学家们进行研究的重要数据来源。与此同时,研究者也尝试利用自然语言处理、机器学习技术,来预测社交媒体用户的情绪波动。...因此,超神经为大家推荐一个来自 2014 NLPCC 的中文微博情感分析数据集。 该评测数据来自新浪微博,对于输入的整条微博,任务要求判断出该微博是否包含情绪。...数据集详细信息如下: 中文微博情感分析数据集 数据提供:NLPCC2014 发布时间:2014 年 包含数量:数十万微博文本 数据格式:.xml 数据大小:18 MB 下载地址:https://hyper.ai...最终过滤出 1439 个句子成分用来预测「效价」,675 个句子成分预测「唤起」。...社交平台用于心理学,潜力无限 也许对于很多人来说,社交平台无非是一个分享生活、美照、看八卦的地方,但事实上它在心理学研究中拥有着巨大的潜力。

    72210

    读完 DALL-E 论文,我们发现大型数据集也有平替版

    代码部分,官方目前只开放了用于图像重建部分的 dVAE 模块,该模块的目的是,减少在文本-图像生成任务中所训练的 Transformer 的内存占用。...于是,团队以此为突破口,从网上收集了一个包含 2.5 亿个图像文本对的数据集,在这一数据集上训练一个包含 120 亿个参数的自回归 Transformer。...二:基于文本的过滤 算法从 HTML 网页中获取描述文本(Alt-text),删除带有非描述性文本的标题(如 SEO 标签或 hashtag),并根据预设的指标比如包含色情、脏话、亵渎、个人资料照片等注释的...最终,只有 3% 的候选文本通过筛选。 除了基于图像和文本内容的单独过滤之外,还过滤掉那些文本标记都无法映射到图像内容的数据。...在高精度过滤标准下,只有 0.2% 的图像、标题对通过了筛选,其余的标题往往是因为包含了专有名词(人物、地点、位置等)而被排除。

    1.3K20

    【转】系统设计-第11章:设计一个信息推送系统

    根据 Facebook 帮助页面,“动态是位于首页中间不断更新的动态列表。动态包括您在 Facebook 上关注的用户、公共主页和小组发布的状态更新、照片、视频、链接、应用事件和点赞。”[1]。...POST /v1/me/feed参数:content:帖子内容的文本。auth_token:它用于验证API请求。...信息流检索 API检索信息流的API如下:GET /v1/me/feed参数:auth_token:它用于验证API请求。信息发布(Feed publishing)图11-2显示了发布流程的高层设计。...一致性哈希是缓解热键问题的一个有用技术,因为它有助于更均匀地分配请求/数据。让我们仔细看看图11-5中所示的扇出服务。扇出服务的工作原理如下:从图形数据库中获取朋友 ID。...图数据库适用于管理朋友关系和朋友推荐。 希望了解更多有关此概念的感兴趣的读者应参阅参考资料 [2]。从用户缓存中获取朋友信息。然后,系统根据用户设置过滤出朋友。

    9710

    使用Python和SAS Viya分析社交网络|附代码数据

    背景 SAS Viya的最新版本提供了用于探索实验问题的全套创新算法和经过验证的分析方法,但它也是基于开放式体系结构构建的。...出于演示目的,我使用一个名为Jupyter的接口,该接口是一个开放的,基于Web的交互式平台,能够运行Python代码以及嵌入标记文本。 ...包创建图形  呈现了以下网络,并提供了图形的第一视图。...同一社区中的人们通常具有共同的属性,并表示他们之间有着密切的联系。  现在,更新后的节点表包含一个附加列 _Community_  ,其中包含我们网络中每个节点的值。...以下代码过滤并渲染了社区2的网络,仅使我们对该子网络有了更好的可视化。 上面的示例使用了标准的二维导向图布局。在更复杂的情况下,可能还需要在分析网络结构时考虑使用其他维度。

    1K00

    通过案例带你轻松玩转JMeter连载(49)

    图29 聚合报告 文件名:要保存或/读取的测试结果文件名,包含路径。 仅显示错误日志:仅显示错误的日志。 仅显示成功日志:仅显示成功的日志。 配置:配置与第4.2.10节察看结果树的配置一致。...图30 汇总报告 文件名:要保存或/读取的测试结果文件名,包含路径。 仅显示错误日志:仅显示错误的日志。 仅显示成功日志:仅显示成功的日志。 配置:配置与第4.2.10节察看结果树的配置一致。...Ø 列标签:按结果标签过滤。可以使用正则表达式,例如:登录。 在显示图形之前,单击【应用过滤器】按钮刷新内部数据。 标题:在图表的标题上定义图表的标题。空值是默认值:“汇总图”。...在显示图形之前,单击【应用过滤器】按钮刷新内部数据。 标题。 Ø 图标题。空值是默认值:“响应时间图”。 Ø 按钮【同步名称】定义标题与监听器的标签。...Ø 显示号码分组:是否显示Y轴标签中的数字分组。 图例定义图表图例的位置和字体设置。 5 图形结果 图形结果生成一个简单的图形,用于绘制所有采样时间。

    2.4K10

    Audiocraft——一个基于PyTorch的AI音频生成深度学习研究库

    Audiocraft Audiocraft是一个基于PyTorch的音频生成深度学习研究库。目前,它包含了MusicGen的代码,这是一种最先进的可控文本生成音乐模型。...预训练模型包括: •small:300M模型,仅支持文本到音乐的转换 - Hub[13]•medium:1.5B模型,仅支持文本到音乐的转换 - Hub[14]•melody:1.5B模型,支持文本到音乐和文本...+旋律到音乐的转换 - Hub[15]•large:3.3B模型,仅支持文本到音乐的转换 - Hub[16] 我们观察到在medium或melody模型中质量和计算之间取得了最佳平衡。...模型类型: MusicGen包含了一个用于音频标记的EnCodec模型,以及基于Transformer架构的自回归语言模型用于音乐建模。...该模型有不同的大小:300M、1.5B和3.3B参数;以及两个变种:一个用于文本到音乐生成任务的模型,和一个用于基于旋律的音乐生成的模型。

    2K10

    使用Python和SAS Viya分析社交网络

    背景 SAS Viya的最新版本提供了用于探索实验问题的全套创新算法和经过验证的分析方法,但它也是基于开放式体系结构构建的。...出于演示目的,我使用一个名为Jupyter的接口,该接口是一个开放的,基于Web的交互式平台,能够运行Python代码以及嵌入标记文本。...包创建图形 呈现了以下网络,并提供了图形的第一视图。...同一社区中的人们通常具有共同的属性,并表示他们之间有着密切的联系。 现在,更新后的节点表包含一个附加列_\_Community\__ ,其中包含我们网络中每个节点的值。...以下代码过滤并渲染了社区2的网络,仅使我们对该子网络有了更好的可视化。 ? 上面的示例使用了标准的二维导向图布局。在更复杂的情况下,可能还需要在分析网络结构时考虑使用其他维度。 ? ---- ?

    1.4K20

    通过局部聚集自适应的解开小世界网络的纠结

    在第一步中,计算了仅依赖于图结构的边嵌入度度量。基于这些边权值,过滤步骤将删除低于给定阈值的所有边。...为了在算法的每一次迭代中找到这些位置,每个节点都被重新定位为所有其他节点的函数。在下一节中,我们将提出一个仅依赖于图形结构的度量,但是它仍然是最终布局质量的一个适当的指示器。...模块化通常用于聚类质量评估,但我们不使用它,这是因为它的反直觉行为:即使是对图的完美划分,也只包含有连接的组件,而模块化具有多样性,并且与1的最优值有很大的不同。...这些网络最初来自Facebook,包含了美国100所高等教育机构的学生的社会关系。网络大小不同,从762到41K个顶点,从16K到160M条边。...这表明我们的方法甚至可以应用于非发球图上,使图更清晰地显示出一个已经清晰的组结构。 ? 图9 来自facebook 100数据集的网络图(Rice31,|V|=4k,|E|=9.7w)。

    1.1K10

    2018年11月机器学习Github开源项目TOP 10

    ,这意味着我们在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务(如回答问题)。...BERT优于以前的方法,因为它是第一个用于预训练NLP的无监督、深度双向系统。无监督意味着BERT仅使用纯文本语料库进行训练,这很重要,因为大量纯文本数据在网络上以多种语言公开。...utm_source=mybridge&utm_medium=blog&utm_campaign=read_more 3.Horizon Horizon是一个开源的端到端平台,用于在Facebook开发和使用的应用强化学习...该平台包含用于训练流行的深度RL算法的工作流程,包括数据预处理,特征转换,分布式训练,反事实策略评估和优化服务。由Facebook Research提供。 Github评星1318。...和Sonnet中构建图形网络。

    54830

    全方位支持图文和音视频、100+增强功能,Facebook开源数据增强库AugLy

    机器之心报道 编辑:陈萍 Facebook 近日开源了数据增强库 AugLy,包含四个子库,每个子库对应不同的模态,每个库遵循相同的接口。支持四种模态:文本、图像、音频和视频。...以文本短语「love the way you smell today」为例,该文本想要表达的意思是喜欢,但是将此短语应用到臭鼬的图片上时,想要表达的意思全部变了。...AugLy 更类似于人们为了了解周围的世界而从多种感官获取信息的方式。随着数据集和模型变得越来越具有多模态,在一个统一的库和 API 下转换项目的所有数据是非常有必要的。...例如,同一条信息可能以不同的形式重复出现。又例如图像经过修改后被裁剪了几个像素,或者用过滤器或新的文本覆盖进行了增强。...除了使用 AugLy 训练模型外,该库还可用于确定模型相对于一组增强的鲁棒性。

    42620

    Facebook系统HTML转PDF文档可能引起的RCE漏洞

    原因在于漏洞页面中用于填充输入的HTML标签未经转义,就被直接传递给了“HTML至PDF转化器”(HTML to PDF Converter)进行下一步文件转化。以下为作者的分享思路。...当属于公司或群组的个人创建Workplace by Facebook账号时,会从Facebook官方邮箱legal_noreply@fb.com收到一封确认邮件,该邮件中包含一个需由帐号所有者签署的在线协议...因为我对ASP.NET不熟,但我当时猜想,是否Web应用打开IE中的HTML页面用到了某种Windows API接口?...还有在那个HTML页面中是否包含了一个用于截屏或文档转化的Javascript代码,如类似于开源PDF文档生成工具 jsPDF一样?...:除其中的邮件生成模板不可更改外,却可以任意指定收件人邮箱地址和收件人姓名,然而,由于收件人姓名字段没有对HTML注入做出限制过滤,因此我可以对邮件正文执行编辑修改,并对其它部分添加文字说明(具体参见writeup

    1.4K10

    Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

    大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。...为了解决这一问题,在去年七月份,Facebook曾发布了第一个系统处理Wikipedia上所有语言(包括资源贫乏的语言和方言)的数据集WikiMatrix,大约包含了亿级的并行语料,覆盖1620种语言对...为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。...来识别文档中的语言,最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容,只保留较低困惑度的文档。...由于规模庞大且使用了大量公共文本,或许CCMatrix将成为NMT领域中用于构建和评估系统的最常用资源之一。

    39310
    领券