Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >阅读笔记 | CODA: Toward Automatically Identifying and Scheduling COflows in the DArk

阅读笔记 | CODA: Toward Automatically Identifying and Scheduling COflows in the DArk

作者头像
Ranlychan
发布于 2023-10-15 00:38:25
发布于 2023-10-15 00:38:25
1960
举报
文章被收录于专栏:蓝里小窝蓝里小窝

info: Zhang H , Chen L , Yi B ,et al.CODA: Toward Automatically Identifying and Scheduling Coflows in the Dark[C]//Conference on Acm Sigcomm Conference.ACM, 2016.DOI:10.1145/2934872.2934880.

1.1 问题背景

最近的一系列研究工作表明,利用coflows来利用应用层信息可以显著提高分布式数据并行应用程序的通信性能。但现有方案的无法实现coflows自动识别和调度。

1.2 要解决的问题

我们能否在不手动更新任何数据并行应用程序的情况下自动识别和调度coflows?这可以归结为三个关键设计目标有待解决:

  • 对应用透明的coflows识别:我们必须能够在不修改应用程序的情况下识别coflows。
  • 容错的coflows调度:coflows识别无法保证100%的准确性。coflows调度器必须对一些识别错误导致的错误输入具有鲁棒性。
  • 可即时部署:解决方案必须与数据中心环境中的现有技术兼容。

1.3 现有方法的缺点

  • 现有方法所基于的假设在多数情况下难以满足:即,所有在共享集群中的分布式数据并行应用程序(无论是平台即服务(PaaS)环境还是共享私有集群)都已经修改过,以正确使用相同的coflow API。在许多情况下,强制要求满足这个假设是不可行的。
  • 应用程序和coflow API以及环境都有可能或经常变化,使得系统易出错,难实现。

1.4 文章的主要工作

主要提出了一个可在不修改应用程序的情况下实现自动快速准确识别和容错性调度coflows的算法CODA,并实现原型进行了小规模部署以及大规模仿真测试,结果符合预期。

对应用层的透明性方面,研究者巧妙利用了基于DBSCAN密度聚类算法的incremental Rough-DBSCAN进行在线聚类,并辅以离线属性探索和距离度量学习,实现了快速准确的coflows识别,替代了之前研究提出的手工的侵入性的方式(比如在编写应用的时候通过注释),从而实现了自动地coflows识别。

容错性coflows调度方面,研究者分析了pioneers和stragglers两类误识别的影响并指出了stragglers对于CCT指标的显著的负面影响,针对此采用了延迟绑定最小化其影响。此外,研究者指出了coflow内部排序对于识别错误的关键影响,针对此采用了流内核流间优先级相结合的调度策略。最终容错性设计带来了CCT指标提升和错误影响的减少。

系统采取了主从架构,将流信息采集和coflow调度的执行交由代理机执行,流识别和调度决策由Master机执行,做了一个分离,实现了低性能损失下的高可伸缩性。

1.5 个人思考

  • 系统采用了主从结构,但未明确提到其Master机是中心化的还是分布式的。但从其Discussion节对于CODA聚类识别的讨论中可以猜测其Master机是中心化的,因为其未实现并行的R-DBSCAN算法。我认为在大规模的数据中心中,主从结构可能带来性能瓶颈。但若是分布式的方案,又会增加复杂性。因此我想是否可以将相对耗时的聚类算法利用邦联学习的思想实现分布式学习,从而在各个agent完成学习或完成部分学习,提高整体性能。
  • CODA的架构设计和SDN有一些相似之处,其agent只负责收集流信息和执行coflow调度策略,类似于SDN中的数据平面;而CODA的master机负责聚类识别和流调度决策指定,类似于SDN的网络控制平面。

1.6 延伸阅读

info: Chowdhury M , Stoica I .Coflow: a networking abstraction for cluster applications[C]//Acm Workshop on Hot Topics in Networks.ACM, 2012.DOI:10.1145/2390231.2390237.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
阅读笔记|Efficient and Safe Network Updates with Suffix Causal Consistency
info: S. Liu, T. A. Benson, and M. K. Reiter, “Efficient and Safe Network Updates with Suffix Causal Consistency,” in Proceedings of the Fourteenth EuroSys Conference 2019, Dresden Germany: ACM, Mar. 2019, pp. 1–15. doi: 10.1145/3302424.3303965.
Ranlychan
2023/10/15
1190
阅读笔记 | Neural Network Meets DCN: Traffic-driven Topology Adaptation with Deep Learning
info: Wang M , Cui Y , Xiao S ,et al.Neural Network Meets DCN: Traffic-driven Topology Adaptation with Deep Learning[C]//Abstracts of the 2018 ACM International Conference.ACM, 2018.DOI:10.1145/3219617.3219656.
Ranlychan
2023/10/15
2080
阅读笔记 | Neural Network Meets DCN: Traffic-driven Topology Adaptation with Deep Learning
阅读笔记 | AuTO: scaling deep reinforcement learning for datacenter-scale automatic traffic optimization
info: Chen L , Lingys J , Chen K ,et al.AuTO: scaling deep reinforcement learning for datacenter-scale automatic traffic optimization[C]//the 2018 Conference of the ACM Special Interest Group.ACM, 2018.DOI:10.1145/3230543.3230551.
Ranlychan
2023/10/15
2810
阅读笔记 | AuTO: scaling deep reinforcement learning for datacenter-scale automatic traffic optimization
阅读笔记 | Chameleon: scalable adaptation of video analytics
info: J. Jiang, G. Ananthanarayanan, P. Bodik, S. Sen, and I. Stoica, “Chameleon: scalable adaptation of video analytics,” in Proceedings of the 2018 Conference of the ACM Special Interest Group on Data Communication, Budapest Hungary: ACM, Aug. 2018, pp. 253–266. doi: 10.1145/3230543.3230574.
Ranlychan
2023/10/15
2330
阅读笔记 | Chameleon: scalable adaptation of video analytics
SDN最新研究进展
自SDN出现以来,关于SDN的研究一直没有停止,只是不同的阶段关于SDN的研究的重点不同。比如最开始的时候,探讨最多的是SDN的可行性,以及如何将SDN应用到对应的网络场景中。本文是笔者在最近阅读2015年至今的若干SDN论文后总结的SDN最新研究进展,希望对读者提供一些帮助。 SDN/NFV SDN和NFV都是当下网络界研究的热点,而如何将两者整合部署,也是研究的热点之一。设计SDN/NFV整合部署框架的研究是这个研究方向的主要研究切入点之一,比如参考文献[1]中就提出了一个SDN/NFV的整体架构。框
SDNLAB
2018/04/02
1.5K0
SDN最新研究进展
工业互联网+边缘计算的相关研究进展新观察
前言:近年来,随着新一代信息技术的进步和相关政策的支持,我国制造业正积极地向数字化、智能化、网络化方向转型,然而制约制造业转型的瓶颈仍有很多,例如,工业现场存在众多“信息孤岛”;现有数据资源的可利用率不高,降低了数字化的实用价值;工业现场网络协议多样异构,设备互联互通困难等,这些因素都为制造业转型发展造成了巨大阻碍。
CNCF
2020/11/02
9250
工业互联网+边缘计算的相关研究进展新观察
基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?
---- 新智元报道   编辑:LRS 【新智元导读】在浮躁的机器学习领域,仍然有人致力于研究基础算法。 由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & beyond」第五期,本期的主题是算法上的进步(algorithmic advances),撰写作者是谷歌研究院的副总裁Vahab Mirrokni. 往期链接: 超详超硬Jeff Dean万字总结火热出炉!图解谷歌2022年AIGC、LLM、CV三大领域成就 谷歌2022年度
新智元
2023/02/24
6950
基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?
基于SDN网络的QoS机制研究(下)
当前OpenFlow规范中的单个控制器解决方案对于大型多域网络来说是不可伸缩的,这是由于单个控制器处理能力的限制,由远程网络设备导致的延迟以及由于控制器和交换机之间的消息传递而导致的大量开销造成的。因此,需要一个具有多个控制器的分布式控制平面,每个控制器负责网络的一个部分(域)。在这些网络之间路由端到端QoS流需要收集最新的全局网络状态信息,例如每个链接的延迟、带宽和丢包率。然而在大型网络上这是一项困难的任务,因为问题的维度(大小)和网络运营商不打算详细共享内部精确的网络动态。因此,分布式QoS路由模型需要考虑所有这些挑战,以确保应用的端到端QoS最优。
网络工程师笔记
2021/05/17
1.3K0
KDD2016论文亮点解析(一)
导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。 论文一题目:稳定流体近似的卷积神经网络 摘要 在空气动力学相关设计、
AI科技评论
2018/03/07
1.4K0
KDD2016论文亮点解析(一)
边缘计算资源分配与任务调度优化综述
摘 要 随着物联网和移动终端的迅速发展,边缘计算技术应运而生,通过将计算和存储配置在互联网边缘,处理物联网终端产生的大量数据,应对时延敏感型应用请求。为提高计算资源使用效率,优化性能指标,边缘计算资源分配与任务调度优化问题受到了广泛关注。边缘计算资源的地理分散性、异构性以及对性能、能耗、费用、稳定性等的需求,增加了优化调度的复杂性。通过介绍边缘计算和物联网、云计算协同的系统模型,给出优化的指标、调度模型及其求解算法,包括精确算法、启发式方法及智能优化方法等,归纳典型应用案例,指出有待进一步研究的内容和方向,有助于促进边缘计算的发展。
边缘计算
2021/12/02
3.3K0
边缘计算资源分配与任务调度优化综述
关于智能网卡, 您需要了解的相关的技术-DPU相关技术
网络接口卡 (NIC) 是现代高速网络系统的基本组件,支持 100 Gbps 的速度并提高可编程性。 将计算从服务器的 CPU 卸载到 NIC 可以释放大量服务器的 CPU 资源,这使得 NIC 成为提供有竞争力的云服务的关键。 因此,了解将网络应用程序卸载到 NIC 的性能优势和局限性至关重要。 在本文中,我们测量了来自全球最大 NIC 供应商之一的四种不同 NIC 的性能,支持 100 Gbps 和 200 Gbps。 我们表明,虽然当今的 NIC 可以轻松支持数百千兆位的吞吐量,但频繁执行 NIC 数据包分类器的更新操作(如网络地址转换器 (NAT) 和负载均衡器对每个传入连接所做的操作)会导致吞吐量急剧下降,高达 70 Gbps 或完全拒绝服务。 我们的结论是,所有测试的 NIC 都无法支持需要跟踪大量频繁到达的传入连接的高速网络应用程序。 此外,我们还展示了各种反直觉的性能假象,包括使用多个表对数据包流进行分类的性能影响
晓兵
2024/02/11
4930
关于智能网卡, 您需要了解的相关的技术-DPU相关技术
深入浅出——基于密度的聚类方法
作者 祝烨 编辑 (没脸) “The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL “人类所有知识的基础就是观察和寻找相似与相异” —— 阿尔弗雷德·伯恩哈德·诺贝尔 前言 我们生活在数据大爆炸时代,每时每刻都在产生海量的数据如视频,文本,图像和博客等。由于数据的类型和大小已经超出了人们传统
机器学习算法工程师
2018/03/06
3.3K0
深入浅出——基于密度的聚类方法
【陆勤阅读】数据挖掘会议
通过上网查询以及看同行对会议的公共认识,数据挖掘领域的顶级会议是KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining),公认的、排名前几位的会议是KDD、ICDE、CIKM、ICDM、SDM,期刊是ACM TKDD、IEEE TKDE、ACM TODS、ACM TOIS、DMKD、VLDB Journal等。会议及期刊的全称如下: 会议 ACM SIGKDD Conference on Knowledge Discov
陆勤_数据人网
2018/02/26
1.4K0
KDD 2021最佳论文等奖项出炉,首尔大学、斯坦福获奖,北理工上榜
机器之心报道 机器之心编辑部 国际数据挖掘顶会 KDD 2021 刚刚放出了最佳论文等奖项,最受瞩目的最佳论文奖由首尔大学和斯坦福大学等机构的研究者分别摘得,最佳学生论文奖由维也纳大学的研究团队获得。 KDD 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。 目前,KDD 2021 大会正在线上如火如荼地举行当中,议程包括主题演讲、专题小组、特邀报告、精选研究、workshop 等。大会共计收到 1541 篇有效投稿,
机器之心
2023/03/29
2890
KDD 2021最佳论文等奖项出炉,首尔大学、斯坦福获奖,北理工上榜
阅读笔记|The evolution of network configuration: a tale of two campuses
info: H. Kim, T. Benson, A. Akella, and N. Feamster, “The evolution of network configuration: a tale of two campuses,” in Proceedings of the 2011 ACM SIGCOMM conference on Internet measurement conference, Berlin Germany: ACM, Nov. 2011, pp. 499–514. doi: 10.1145/2068816.2068863.
Ranlychan
2023/10/15
1800
关于操作系统调度器的三篇论文
【引子】没有忘记,目前从事的是DingOS 操作系统相关工作,没有因为LLM 而迷失。LLM 会成为基础设施,LLM 会为操作系统赋能,但是操作系统的价值是客观存在的,除非,计算机体系结构发生了翻天覆地的变化。
半吊子全栈工匠
2023/09/02
3770
关于操作系统调度器的三篇论文
专栏 | 让AI简单且强大:深度学习引擎OneFlow技术实践
本文内容节选自由 msup 主办的第七届 TOP100summit,北京一流科技有限公司首席科学家袁进辉(老师木)分享的《让 AI 简单且强大:深度学习引擎 OneFlow 背后的技术实践》实录。
机器之心
2019/05/10
9970
专栏 | 让AI简单且强大:深度学习引擎OneFlow技术实践
边缘计算顶会SEC 2019论文速览(一)
SEC是由ACM和IEEE联合举办的边缘计算顶级会议(ACM/IEEE Symposium on Edge Computing,SEC),是全球首个以边缘计算为主题的科研学术会议。至今已举办4届,SEC 2019 于2019年11月7日至9日在美国华盛顿隆重召开。
边缘计算
2019/11/28
1.7K0
【大数据分析 | 机器学习】分布式机器学习
  机器学习方法是计算机利用已有的数据生成某种模型,并利用此模型预测的一种方法。在确定模型结构之后,根据已知模型寻找模型参数的过程就是训练,训练过程中不断依据训练数据来迭代调整模型的参数值,从而使模型的预测结果更为准确。在现实应用中,要达到好的效果,训练数据集可能很大,模型参数量剧增,会带来很多性能和算法设计问题,单台机器难以胜任,需要分布式的机器学习架构。本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
Francek Chen
2025/01/22
1330
【大数据分析 | 机器学习】分布式机器学习
快速入门Flink (1) —— Flink的简介与架构体系
历时一个多月,我们终于结束了【企业级360°全方位用户画像】的项目,想看具体详情的朋友,可以移步至博主的大数据项目专栏一饱眼福…
大数据梦想家
2021/01/27
9680
快速入门Flink (1) —— Flink的简介与架构体系
推荐阅读
相关推荐
阅读笔记|Efficient and Safe Network Updates with Suffix Causal Consistency
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档