截至2023年6月份底,企业的特色性能测试体系初步建成,全链路压测平台接入供应商项目组超过20个,测试执行项目超过60个,脚本产出超过400个,场执行超过4000场。
该企业建立了标准的性能流程规范,落地了供应商系统验收流程规范,使得系统质量验收实现了从供应商自验收到企业测试部门科学验收的转变,让第三方供应商的系统质量有了科学验证的渠道。
通过生产环境核心链路交易的多次测试,明确各个供应商在生产测试的职责边界,沉淀性能测试资产数据,使得测试周期从3周缩短到1周,做到每次大促前在生产环境做容量回归,使生产环境的应用质量得到保障,从之前每年都有生产故障,到支持活动中万级用户同时在线并且系统稳定。
结合线下环境的根因分析,丰富业务性能保障方法,提高核心业务运行稳定性,深度挖掘更多的性能问题,减少因回归不充分引发的性能故障。
减少服务器资源成本投入,测试环境只使用生产环境的四分之一配置,复用生产环境进行测试,而不是搭建与生产环境等比配置的测试环境,减少硬件成本投入。
测试部门基于核心链路项目的测试,已沉淀和提供项目组相关指南及规划,目前和新业务项目组做持续优化探索中。
测试团队进行性能测试有规范可以参考。通过标准流程和规范,该企业改变了供应商团队性能质量参差不齐的状态,使各团队都可以设计出合理且符合业务场景的测试策略。
测试平台服务化,为项目组提供7天24小时测试服务。测试实施人员基于平台的快捷功能,可以快速上手性能测试,快速产出系统性能质量验收报告。
平台通过负载发生器资源池功能,提高机器资源利用率,同时支持在线虚拟并发用户20000个。
作为测试工程师,当在生产环境中遇到性能测试问题时,可以遵循以下步骤来处理:
立即将问题报告给相关的利益相关者,包括但不限于项目经理、运维团队和开发团队。确保所有必要的人员都了解当前的情况。
收集尽可能多的相关数据,例如服务器日志、应用程序日志、网络流量信息、CPU和内存使用情况等。
使用性能监控工具(如APM工具)来捕捉详细的性能指标。
分析收集到的数据以确定性能瓶颈的根源。这可能涉及到数据库查询效率、代码逻辑、第三方服务响应时间等方面。
尝试重现问题,以便更好地理解其发生条件。
评估性能问题对用户的影响程度。了解有多少用户受到影响,以及问题是否阻止了关键业务功能的正常运行。
如果问题是严重的,并且正在影响用户体验或业务操作,考虑实施一个临时解决方案或回滚最近的更改来快速缓解问题。
向所有受影响的内部和外部利益相关者提供定期更新,保持沟通的透明度。
在问题得到控制后,进行彻底的根本原因分析(RCA),找出导致问题的根本原因,以防止未来再次发生。
根据根本原因分析的结果,开发团队应该修复问题并优化系统,以提高整体性能。
对任何变更进行充分的测试,确保它们不会引入新的问题。
性能问题解决后,召开事后会议(Post-mortem meeting),讨论事件的过程,记录下所学到的经验教训。
更新文档和流程,根据需要调整性能测试策略,为未来的测试活动做好准备。
预防措施:
强化性能测试过程,增加自动化性能测试,设置性能基线和警戒阈值,以便在问题变得严重之前能够检测到。
通过以上步骤,你可以更有效地应对生产环境中的性能测试问题,并采取适当的行动来解决问题,同时学习如何避免类似的问题在未来发生。
阅读后若有收获,不吝关注,分享,留言评论等操作!!!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。