面对在线推理服务使用的GPU资源不断增加、GPU利用率普遍较低的挑战,美团视觉研发团队决定通过模型结构拆分和微服务化进行优化,他们提出了一种通用高效的部署架构,来解决这种常见的性能瓶颈问题。
JVM 预热是一个非常头疼而又难解决的问题。基于 JVM 的应用程序在达到最高性能之前,需要一些时间来“预热”。当应用程序启动时,通常会从较低的性能开始。这归因于像即时(JIT)编译这些事儿,它会通过收集使用配置文件信息来优化常用代码。最终这样的负面影响是,与平均水平相比,预热期间接收的 request 将具有非常高的响应时间。在容器化、高吞吐量、频繁部署和自动伸缩的环境中,这个问题可能会加剧。
JVM 预热是一个非常头疼而又难解决的问题。本文讨论了在运行在 Kubernetes 集群中的 Java 服务如何解决 JVM 预热问题的一些方法和经验。
近些年,各家公司都在不断推出各种新的 App,百万 DAU 成为各种 App 的最基本目标。本文将详解如何通过大规格服务器 +K8s 的方案简化这些新项目的成本评估、服务部署等管理工作,并在流量增长时进行快速扩容。同时,本文还介绍了微博核心业务采用此方案部署时遇到的问题以及对应的解决方案。
当有人提到需要管理Kubernetes计算资源(尤其是CPU和内存)时,就会想到控制这个词。之所以提出控制资源使用,大都是在Kubernetes 平台部署了一段时间、开发人员正在广泛使用该集群、经常因为资源争用出现问题。
作者 | 微博研发中心基础架构部 孙云晨 编辑 | 蔡芳芳 近些年,各家公司都在不断推出各种新的 App,百万 DAU 成为各种 App 的最基本目标。本文将详解如何通过大规格服务器 +K8s 的方案简化这些新项目的成本评估、服务部署等管理工作,并在流量增长时进行快速扩容。同时,本文还介绍了微博核心业务采用此方案部署时遇到的问题以及对应的解决方案。 问题与挑战 以一个常见的社交 App 后端服务为例,如果采用主流微服务架构进行设计,通常会包含用户、关系、内容、提醒、消息等多个模块;每个模块又会分别包含各自
今天有大概 30 分钟,Cloudflare 网站的浏览者收到了 502 错误,起因是我们网络中的 CPU 使用率飙升。这个 CPU 的峰值是由一个错误的软件部署造成的,这一错误已经回滚,回滚后,服务恢复正常,Cloudflare 返回到了正常的通信水平。
当我们千辛万苦完成了前面的数据获取、数据清洗、模型训练、模型评估等等步骤之后,终于等到老大说“上线”啦。想到辛苦训练出来的模型要被调用还有点小激动呢,可是真当下手的时候就有点懵了:模型要怎么部署?部署在哪里?有什么限制或要求?
如果你已经有一个已经存在并且独立运行的独立服务器部署的话,例如在页面 single-server deployment examples 中部署的服务器, 现在你希望将这个独立部署的服务器合并到集群的部署方式中的话,下面的这部分内容将会帮助你完成这个切换和合并的过程。 这个过程包括有如何对硬件进行的选择和针对 Master/Data/Query 服务器应该如何进行组织。
SPIRE 的容量是有限的,随着工作负载强度的不同,需要有不同的规模。一套 SPIRE 中的 Server 部分,可能由一或多个共享数据存储的 SPIRE Server 组成;还可以是同一信任域的多个 SPIRE Server;至少有一个 SPIRE Agent,当然,多数时候是多个 Agent。 部署规模和负载规模相关。单个 SPIRE Server 能够承载一定数量的 Agent 和注册项。SPIRE Server 负责管理和签发注册项的身份,因此它的内存和 CPU 消耗是随着负载注册条目的数量线性增长的。单一的 SPIRE Server 部署还可能导致单点失败。
人工智能产业应用发展的越来越快,开发者需要面对的适配部署工作也越来越复杂。层出不穷的算法模型、各种架构的AI硬件、不同场景的部署需求(服务器、服务化、嵌入式、移动端等)、不同操作系统和开发语言,为AI开发者项目落地带来不小的挑战。
本文对Kubernetes集群在虚拟机和裸机上在CPU、内存、存储和网络性能方面的表现进行了详细的比较和分析。
最近在一个客户的项目拓展和做过程中,希望客户在IDC中自建的容器服务能够部分使用云上的容器服务,基于IDC环境和虚拟机上的容器服务之间,做了一些静态和动态的性能对比测试。测试过程终于到一些问题,针对问题前后经过多轮分析对比,在问题定位和分析上的一些总结,希望能供大家借鉴。
我们在使用k8s过程中经常有这样的需求:我的k8s集群有多台服务器,配置不尽相同。我想把数据库部署到CPU、内存比较好的这几台机;我想把静态承载服务部署到有固态硬盘的机器等;而这些需求,就是我们今天要讲的k8s的调度:
现代互联网数据中心的规模随着应用服务需求的快速增长而不断扩大,但服务器资源利用率却一直很低,导致企业基础设施成本不断上涨。随着云原生技术的发展,混合部署成为了降低成本的一大手段。本文结合华为云云原生团队在混合部署方面的研究和实战,介绍了混合部署的背景、概念、混部技术的设计方案和实际落地情况,以及对未来的计划和展望。
上周在kubernetes里发布了一个redis PaaS服务,不过其它同学简单测了一下,虽说功能上没啥问题,但性能相比物理上运行的Redis集群差太远,而且随着redis的分片数增加,性能并不能很好地线性增长,增长到一定程度就停止了,这个是需求方不能接受的,于是本周接了活,对部署在kubernetes中的redis服务进行性能优化。
从拿到Z423的那一刻起,我一直在想,怎么才能榨干它的全部性能呢?仅仅是用来跑一些docker项目嘛?这或许未免有点太屈才了。思来想去想到一个最极致的方式,那便是AI绘画了。恰好近两年又是AI绘图的元年,而Z423的AMD 5825U恰好又是一颗8核16线程的cpu,如果用来画图会是什么效果呢?
今天在同步其他团队的 grafana 监控大盘时,Prometheus 服务报告说不能找到名为 container_cpu_usage_seconds_total{job=“cadvisor”} 的指标,一般来说可能有几个原因。
制定线程池的长度并不是一门精密的科学,需要做的仅仅是避免“过大”和“过小”者两个极端情况。如果一个线程池过大,那么线程对稀缺的CPU和内存资源的竞争,会导致内存的高使用量,还可能耗尽资源。如果过小,由于存在很多可用的处理器资源却未在工作,会对吞吐量造成损失。
只有第一启动是需要执行一下步骤,下一次启动,只需要执行docker start keosd命令即可。
Redis子进程负责AOF或者RDB文件的重写,它的运行过程主要涉及CPU、内存、硬盘三部分的消耗
文章https://cloud.tencent.com/developer/article/1753788 已经简述了Jmeter Suite的操作过程,为了更为详细地介绍操作过程,尽可能做到看文章就会用工具,特此写了一篇详细说明。
最近看到了一份收集Kubernetes故障案例的资料,资料由ZalandoTech的高级首席工程师Henning Jacobs加以维护。这个由社区驱动的项目全面介绍了Kubernetes反模式以及为何导致Kubernetes运行错误的原因。
数据库是企业核心业务运行的重要组成部分,数据是企业的生命线,如果数据库出现宕机、数据丢失或不可用等问题,将会对企业的生产、营销和决策产生难以预估的影响,因此,一套高可用的数据库架构对于企业来说至关重要,可以最大化保证业务稳定性和数据可靠性。腾讯云MySQL推出全场景高可用性架构(All-Scenario High Availability Architecture,AS-HAA),用户可根据实际业务需求、业务类型自行配置。
近期ssh连不上服务器,找服务器厂商客服得知是cpu高导致的,但是没法看到进程信息,不清楚是哪个进程导致的。
micro-quickstart 适合于笔记本电脑等小型计算机,主要用于能够快速评估 Druid 的使用场景。
背景 公司内部的云平台为各个业务线提供了大量的实体机和虚拟机来运行业务的服务,经过统计发现,这些分配给业务的机器cpu, memory等资源利用并不充分; 如果能够充分利用这些机器上的空闲资源同时又能保证业务服务的正常运行,将会节省不少的机器资源; 选型 一提到多任务运行和调度,大部分人可能首先都会想到Kubernetes(k8s) + Docker, 跑起来如清风拂面, 顺畅无比。然而我们的业务机器大部分为centos 6.2, linux kernel 2.6的环境,而docker的运行需要Linux
我们知道,OceanBase 3.X 版本部署单机架构(一个ZONE,一台SERVER)需要耗费较多硬件资源才能正常使用。OceanBase 4.X 版本发布后,在资源占用这块做了很多优化,官方宣称4.X 版本是单机分布式一体化的架构,单台OB SERVER对数据的处理与单机数据库相比性能相当。比如对于 OceanBase 3.X 版本,就算是单机部署,对多个分区的数据更新依然需要两阶段提交来保证其原子性;对于OceanBase 4.X 单机部署,对多分区的数据更新不再需要两阶段提交来保证其原子性。
micro-quickstart尺寸适合笔记本电脑等小型机器,目的是用于快速评估使用情况。
dnf(Dandified Yum)是一个RPM包管理器,用于管理Linux系统上的软件包。它对云服务器的配置要求取决于您的具体需求,至少需要1核CPU、1GB内存和足够的磁盘空间。
如何持续集成 0 :开发人员提交代码到github 1 :触发jenkins操作 2 :jenkins将代码编译、验证 3 :将代码封装在docker镜像并上传至docker仓库 4 :jenkins
Linkerd 数据平面的代理是多线程(multithreaded)的, 并且能够运行可变数量的工作线程, 以便它们的资源使用(resource usage)与应用程序工作负载(application workload)相匹配。
这里比较重要而且会令人觉得意外的是: 调度器在调度时并不关注各类资源在当前时刻的实际使用量,而只关心节点上部署的所有pod的资源申请量之和。尽管现有pods的资源实际使用量可能小于它的申请量,但如果使用基于实际资源消耗量的调度算法将打破系统为这些已部署成功的pods提供足够资源的保证。 例子: 如果节点上部署了三个pod。它们共申请了节点80%的CPU和60%的内存资源。 新pod D将无法调度到这个节点上,因为它25%的CPU requests大于节点未分配的20%CPU。 而实际上,这与当前三个pods
毛东方,后台开发工程师,负责IEG-业务安全部的后台实时系统Kubernetes相关的开发与运营,目前主要致力于提高集群的资源利用率,减少机器成本。 背景 随着公司业务上云的呼声越来越高,越来越多的团队已经完成业务上云的进程,K8s 集群在公司整体机器成本中的比重越来越大。 本人所在平台的应用部署上云后,在资源管理方面出现了一系列的问题,这些问题或多或少都对成本优化或应用的服务质量造成了一定程度的影响。 a. 应用资源使用设置不合理 云原生的资源管理方式要求应用在部署之前,提前设置好 CPU、内存、磁盘的
作者 | 刘东阳 审校 | 赵钰莹 2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。经过四年多的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包含 VTraining、VServing、VContainer 三大模块,对外提供模型训练、模型推理和容器化能力的基础设施。平台的容器集群有数千个节点,拥有超过数百 PFLOPS 的 GP
当今时代,各行各业与人工智能(AI)加速融合,通过智能化创新来寻求业务转型升级。与为数不多的顶级AI研发公司相比,大多数传统行业或企业有着更丰富的 AI 应用场景,推动着规模化的AI应用落地,其AI应用更具有实践意义。然而,在智能化技术架构和平台选择上,它们又往往面临着“拿着钉子到处找锤子”的尴尬局面。
爱飞狗后台的数据爬虫以及数据服务器资源都部署在k8s上,使用rancher搭建。在不影响太多性能的情况下尽量选择最低配置的机器。对于内存不足的情况适当的使用交换文件代替(swap)。整个集群大致结构如下:
在Kubernetes中,自动扩展是通过Horizontal Pod Autoscaler(HPA)实现的。HPA可以自动调整Pod的副本数,以确保应用程序的负载得到满足。HPA基于CPU使用率指标进行自动扩展,可以根据应用程序的负载动态调整Pod的副本数,从而确保应用程序的高可用性和性能。
但使用 Kubernetes 不仅仅是设置它并向其部署 pod。Kubernetes 中许多使应用程序更具弹性和高可用性的丰富功能不仅仅是一件事,而是不同流程和配置的组合。从如何在不停机的情况下部署应用程序,到调度Pod 以确保它们在节点之间正确分布。这些是我们将在本文中讨论的配置和技术的要点:
在第六篇, Spring Boot 微服务部署到容器平台已经完工. 接下来我们就会对Spring 微服务的相关设计和开发, 以及K8S(或OpenShift)与Spring Boot之间的协作进行更深一层的设计和开发.
4、Pivotal Supported Greenplum 必须部署Mirroring Segment
AI 科技评论按:本文作者李博杰,本文整理自知乎问题《如何评价微软在数据中心使用 FPGA 代替传统 CPU 的做法?》下的回答,AI 科技评论授权转载。
并且一个项目配置好一次以后,部署的步骤和部署的人通常很固定,所以大部分开发者也没机会去学习它。
在日常的运维工作中,备份是一个非常重要的环节。而使用Shell脚本可以让备份操作变得更加便捷。
问题「用 FPGA 代替 CPU」中,这个「代替」的说法不准确。我们并不是不用 CPU 了,而是用 FPGA 加速适合它的计算任务,其他任务仍然在 CPU 上完成,让 FPGA 和 CPU 协同工作。 本回答将涵盖三个问题: 为什么使用 FPGA,相比 CPU、GPU、ASIC(专用芯片)有什么特点? 微软的 FPGA 部署在哪里?FPGA 之间、FPGA 与 CPU 之间是如何通信的? 未来 FPGA 在云计算平台中应充当怎样的角色?仅仅是像 GPU 一样的计算加速卡吗? 一、为什么使用 FPGA? 众所
https://github.com/PaddlePaddle/Paddle-Lite
本文从应用背景的角度论述了Google研制Tensor Processing Unit(TPU)并将其应用于数据中心的原因。在后续的技术篇中,文章会从技术架构的角度,并结合其论文来详细讨论。
领取专属 10元无门槛券
手把手带您无忧上云