Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM赋能测试活动实现端到端自动化的四个环节八项关键任务

LLM赋能测试活动实现端到端自动化的四个环节八项关键任务

作者头像
Antony
发布于 2024-12-09 05:02:05
发布于 2024-12-09 05:02:05
3600
举报

1LLM赋能测试活动实现端到端自动化

1.1愿景: L4/5级的自动驾驶

测试活动主要围绕着测试设计、用例编写、执行、结果分析和补充验证等环节。过往的自动化测试往往只局限于用例执行的自动化,依然需要人工编写自动化用例,更遑论用例执行结果的分析和用例、环境的维护等工作。结合着AI4SE,畅想一下实现整个测试活动端到端的自动化的可行性,形成了如下4个阶段8项关键任务,如下图所示。

笔者建议从 单元测试-接口测试-整个测试活动的自动化,从小达到,按照PDCA的方式,不断扩大自动化环的外延,来逐步实现测试活动的端到端自动化。

2四个阶段八项关键任务的解读

2.1 测试用例编写的自动化

天下武功,唯快不破,通过自动化提供测试质量的快速反馈可以解决绝大部分测试问题。而传统意义上的自动化测试其实是测试用例的自动化执行。此类自动化测试实施失败的一个典型问题就是“来不及写自动化测试”。因为这类的自动化实施,其投入和产出的极限是一种线性关系,也就是投一个人插1天秧,就有一天的成果,投两个人,就有两个人天的成果。甚至随着投入规模的扩大,协同方面的负效应还会拉低这种方式的回报率。通过考虑测试用例在编写方面的自动化程度,才是团队能更快从自动化测试的投资泥潭中脱身,更快迎来Break-even Point, 形成自动化测试的正反馈循环。这也是LLM被首先应用于(自动化)测试用例编写的原因。

【单元测试】目前来讲,这一部分的自动化目前应用较多的还是单元测试用例的自动化生成。按照PDCA理论,这一工作的任务明确、可验证性强,且可快速反馈,是端到端测试自动化的一个缩影。这一部分目前的方案已转向通过多Agent以多轮对话的方式实现测试用例的生成-验证-修复-筛选,以提升生成效果。据说阿里通义灵码即将发布的新版本IDE插件中将提供次方案。当然,笔者团队目前实施下来,该方案虽然对生成效果有帮助,但也拉长了耗时。在IDE中生成单测用例其实是一个时间敏感型的任务,这是后续要解决的核心问题。当然,如何通过各种方式来提升首次生成的成功率,这是一个基本的着力点。

【手工测试用例】也有部分团队,如字节、华为、工行等,等正在探索基于LLM来生成(手工)测试用例。目前对于测试点的生成效果已经达到(外包)中级测试工程师的能力。当然,整个方案的核心还在,将历史PRD与用例pair作为知识库。如果仅仅只将本次被测PRD作为输入,生产上几乎无法使用。

【自动化测试用例】在更高级别的,如接口自动化测试用例生成上,笔者也关注到了华为的团队,也是通过历史(手工)用例步骤-代码脚本pair作为知识库,当测试人员针对某个PRD的测试用例写完测试步骤后,通过LLM自动翻译成对应的测试脚本。由此笔者不禁想到,对于历史上推行了BDD/ATDD等自动化实践的团队来说,其实拥有了很大的一个宝藏。

简单小结一下,就是基于LLM的单元测试用例生成目前方案已经成熟,后续目标是提高速度。而手工测试用例和接口/UI自动化测试用例的生成,非常依赖于知识库的建设,如 需求-用例知识库、手工用例-自动化用例知识库等。一个意外发现是BDD/ATDD的团队很有机会厚积薄发。

2.2测试用例执行自动化

这部分包括用例执行和环境制备这两个部分。

测试环境的自动化程度决定了测试准备的便捷性、环境的一致性和测试的可重复性。环境和数据的管理,是自动化测试能成功实施的关键。当很多人把目光聚焦到测试平台等关于测试用例怎么写、在哪里写等表面问题时,老司机则会去重点抓测试环境和测试数据的基准化、更新维护等水面之下的问题,以确保团队能顺利出海而不是直接触礁。

一个判定成熟度的快速问题是,一次自动化测试用例集的执行,它的起点是什么? 越接近环境的动态申请/初始化以及使用、回收,成熟度越高。

在这个环节不是直接应用LLM,而是说通过LLM pipeline的编排,把测试环境、测试数据的动态获取、测试用例的发起执行等任务通过 LLM tools 模块能进行编排,让其成为整个LLM驱动端到端测试自动化的关键一环。

简单总结一下,这部分与其说这是LLM的应用能力,不如说这是组织在DevOps平台和环境/数据管理能力。

2.3结果收集与分析

在通过测试用例编写的自动化之后,用例的产生不再是瓶颈,团队获得自动化测试用例的成本已经接近于0。在这个情况下,工作量的洪峰来到了测试执行结果的分析上面。跟其它检测类似,自动化测试也存在“误报”和“漏报”的问题。

由于测试用例的巨大数量,即使是小概率的假失败,也会有相当数量的失败用例需要人工排查,然而因为这些是假失败用例,其排查结果必然是一场“死亡行军”,整个过程必然是充满压力,但是只会给团队带来挫败感。因此,这个情况下,团队必然要考虑引入测试结果的自动化分析,并提高对“假失败(误报)”判定结果的确信度。毕竟因为对”假失败“的误判可能会直接带来线上缺陷。

在运维领域,很早就提出了AIOPS的概念,而根因分析(RCA)则是其中一个核心的场景,运维团队通过各种AI算法来试图在运维事件、故障发生后快速、准确地进行根因分析,甚至是实现解决方案的自动推荐/自动实施。来到了LLM时代,不少运维团队也将目光从传统AI算法上转移到了LLM。其实,类似的能力完全可以用于测试用例执行结果的分析上。

在2024年的AIDD/QECON等大会上,来自华为等公司的团队均分享了他们在失败用例根因分析的案例。此类方案其实是在精准测试基础上的一个延伸。如某个(自动化)用例执行过程中,测试平台在收集用例执行结果(pass/fail)之外,还应收集

a)测试用例自身执行的日志

b)测试用例执行过程中在被测应用端产生的日志(需要流量染色+可观测平台)

再结合用例执行失败的根因知识库、历史执行记录等数据,就可以判断本次用例执行成功/失败是否符合预期,是一个缺陷(true positive),还是一次假失败(false negative)。

另外一方面,通过”需求/调用链/代码行覆盖率“等测试完成指标的判定,提高对”假正确(漏报)“,也就是漏测缺陷的挖掘,进行补充测试。这在基于LLM的单元测试用例生成中已经是一个遴选有效用例的有效方案。

简单总结一下,测试管理者要充分认识到这一部分基建的重要性。

2.4用例报告和补充测试

这属于PDCA中的最后一环。根据分析结果,补充或者修复用例。

LLM生成测试报告是目前最为广泛的一个应用。在此基础上,通过对于预设完成标准(测试退出标准)的判断,找出其差距,然后进行补充测试,也就是进入第二轮次的端到端测试自动化过程,进而逼近该完成标准。这是后续的努力方向。

写在最后,笔者建议从 单元测试-接口自动化-整个测试活动的自动化 各个级别,通过PDCA环的不断变大,来逐步实现测试活动的端到端自动化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 软件测试那些事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
介绍一款功能游戏,玩通关你也能变学霸
今天正式公布一款全新功能游戏《微积历险记》 。 微积分?! 没错,就是大学数学里的微积分,听起来像听天书的那个?每逢考试必挂科的那个? 当你面对微积分、线代、高数、概率迷茫崩溃的时候,你要相信大洋彼岸
腾讯大讲堂
2018/07/02
4370
游戏 Idea:No.1 废墟
「游戏描述」:单人游戏,横版卷轴冒险,解谜游戏。 「体验」:废墟跑酷 + 历史解谜 「故事设定」:废墟未来世界。主角一觉醒来,发现世界已经崩塌,他开始被蔓藤、奇怪的动植物追赶。他发现自己有看见历史的能力,于是想调查清楚到底发生了什么。在历史和现实的切换之中,他最终看到了历史的真相:那颗发射的核弹所点燃的全面核战争。那一刻,他能否用一己之力改变历史呢? 「游戏机制」:现实世界中,主角需要通过奔跑、跳跃、攀爬、使用武器等躲避/消灭敌人(动植物)。在历史世界中,主角需要解决各种谜题,理解曾经发生过的历史。 「关卡
王兵
2018/06/14
4790
3.29 VR扫描:《黑色洛城:VR档案》登录Oculus Rift;中国大陆地区PSVR套件降价600元人民币
今日,AR游戏工作室Ubiquity6宣布已完成1050万美元A轮融资。此轮融资由Index Ventures领投,First Round Capital、Kleiner Perkins、Google
VRPinea
2018/05/18
6950
国内VR赛道爬坡,华为、爱奇艺、小朋们如何打开新世界
经历了2016年的爆红,2017年的投资腰斩之后,国内的VR市场似乎进入了等水澄清的沉淀期。
用户2908108
2020/04/24
4920
国内VR赛道爬坡,华为、爱奇艺、小朋们如何打开新世界
Jetbrains第二组谜题解答
今年是Jetbrains公司创立20周年,怪不得Jetbrains会推出福利活动,顺带还有第二个解谜活动。当然我消息知道的晚了, 估计活动已经结束了,但是这个解谜活动还是挺有趣的,所以我还是尝试一下解解看。
乐百川
2020/03/18
5340
Jetbrains第二组谜题解答
10.21VR行业大事件:PICO面向海外推出企业级头显;《Moss:Book II》已登陆Steam
(VRPinea 10月21日讯)今日重点新闻:PICO面向海外市场推出PICO 4企业版;VR深海游戏《TheBlu》的开发商Wevr获得新一轮融资;VR冒险解谜游戏《Moss:Book II》已登陆PCVR头显。
VRPinea
2022/11/17
8120
10.21VR行业大事件:PICO面向海外推出企业级头显;《Moss:Book II》已登陆Steam
女性天生不适合写代码?扯淡。
提到程序员,大部分人脑海中首先浮现的是穿着格子衫的小哥哥,或者秃头的中年码神。作为男性领地的外来者,「女程序员」一直被当作“稀有动物”,很多人对女码农充满偏见,认为女生天生不适合编程。可事实上,女性程序员真的不如男性吗?并不见得。 今天 Cocos 人物志专访了引擎组的放空小姐姐,一起来看看「女程序员」在职场里到底是什么样的工作状态吧!
陈皮皮
2020/10/09
6610
女性天生不适合写代码?扯淡。
Cinemachine(三)自动选择/切换最适合的摄像头(Cinemachine Clear Shot Camera)「建议收藏」
在很多的解谜类游戏中,场景中往往会有很多密室,玩家需要在不同的房间中来回穿梭,除了第三人称摄像头外,我们也可以通过在不同的房间中布置不同的Camera,然后当角色到达指定房间后开启对应的Camera来处理。类似的效果如下图:
全栈程序员站长
2022/08/24
4580
Cinemachine(三)自动选择/切换最适合的摄像头(Cinemachine Clear Shot Camera)「建议收藏」
韩伟:解谜腾讯游戏海量服务架构
网络游戏和其他互联网服务一样,需要面对承载海量用户的压力,同时还需要满足游戏所要求的低延迟、业务逻辑高复杂度的特性。腾讯游戏研发部资深架构师韩伟为大家带来了“解谜腾讯游戏海量服务架构”的主题分享。
腾讯云开发者社区
2018/01/22
1.7K0
韩伟:解谜腾讯游戏海量服务架构
VR游戏推荐之:论《如何让小盆友们好好地度过这个暑假》
已时至七月中旬,又到了令小朋友们喜大普奔的暑假时间。同时,也是家长们更加劳心劳力的一段时期。如何平平安安、“你好、我好、大家好”地度过这个假期,又成了摆在家长眼前的老问题。小编已经可以脑补出一场又一场的“世纪大战”了。
VRPinea
2018/07/26
5260
VR游戏推荐之:论《如何让小盆友们好好地度过这个暑假》
估值120亿美元增强现实技术公司,为开发者开放其SDK
image.png 近日估值120亿美元增强现实科技公司MagicLeap公司宣布,将其增强现实平台的SDK向开发者开放。该公司还表示,该SDK利用了Unity和Unreal的游戏引擎来打造内容,如果感兴趣的开发者可以在它的官网注册登录.MagicLeap创始人RonyAbovitz虽然不知道怎么生动地形容自己公司的产品,但是他很明确一点,自己公司的产品不会像其他虚拟现实或者增强现实的护目镜一样,让人感到不舒服。   由于MagicLeap异常神秘,所以无法将其与微软的全息眼镜HoloLens进行对比。而
BestSDK
2018/02/26
5070
估值120亿美元增强现实技术公司,为开发者开放其SDK
论如何又收一个新年解谜红包 – 2022 篇
各位好,我是KAAAsS。2022年的新年解谜红包也顺利的结束了~和往年一样,我也写了官方题解来解释解释今年的解谜红包。题目依旧在这里:https://redpacket.kaaass.net/。
KAAAsS
2022/02/08
4100
论如何又收一个新年解谜红包 – 2022 篇
硅谷VR大会火热进行中,快来看看大洋彼岸正发生什么吧
当前,第四届硅谷虚拟现实峰会(SVVR)正于美国圣荷西会议中心举行。来自北美、欧洲和亚洲的100多家VR领域的公司,将从硬件、软件、流媒体技术等方面进行集中交流和展示,并探讨VR技术在游戏、娱乐、教育
VRPinea
2018/05/15
7340
《Luna》测评|一段不算平凡的故事,VR游戏中的白月光
生活没有时光机,也没有魔法棒,它变不出女巫和骑士,结局也未必美好。如果有一个世界,让人们可以逃离与躲藏,平静温柔的如同水一般的月光……
VRPinea
2018/09/28
5410
开拓VR新娱乐市场,7663与《密逃联盟》开展深度合作
随着VR的不断发展,VR线下店回头客少且难维护的问题接踵而至,因此整个市场对于好的、新颖的内容需求变得极为迫切。而作为国内领先的VR平台,7663VR竞技平台则一直致力于将市场上最优质的内容带给用户,
VRPinea
2018/05/17
5060
【Rust日报】2022-09-05 Unreal Rust 宣布
原文链接: https://maikklein.github.io/unreal-rust-1/
MikeLoveRust
2022/11/28
5820
【Rust日报】2022-09-05 Unreal Rust 宣布
5.9 VR扫描:7-11携手官方推出《死侍2》AR体验;《Beat Saber》将增加关卡编辑器
珑璟光电联手上海理工大学研发新型AR光学方案 近日,珑璟光电宣布,与国内光学领域研发权威科研机构上海理工大学签约合作,并投入超百万元用于研发新型AR光学方案——光波导方案。当前的AR眼镜普遍囿于外形
VRPinea
2018/06/11
5270
AI和你一起书写冒险传奇,GPT-2加持的「AI地下城2」网页版上线
AI 参与游戏制作已经不稀奇了。不久前,GitHub 项目「AI 地下城」一经推出便广受好评,不少网友都体验了一把。最近这款游戏上线了网页和 app 版。新版本不仅减少了 bug 和卡顿问题,还有很多惊艳之处。
机器之心
2020/02/12
6360
AI和你一起书写冒险传奇,GPT-2加持的「AI地下城2」网页版上线
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。
机器之心
2025/02/19
790
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
【愚公系列】《高效使用DeepSeek》019-外语学习
📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主!
愚公搬代码
2025/03/27
1410
推荐阅读
相关推荐
介绍一款功能游戏,玩通关你也能变学霸
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档