首页
学习
活动
专区
圈层
工具
发布
首页标签模型测试

#模型测试

大模型测试:性能优化的5大实战策略

顾翔

引言 随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——...

5410

大模型测试团队如何成功转型?

顾翔

在传统软件测试时代,测试工程师的核心价值常被简化为‘用例执行者’或‘缺陷捕手’。而随着大语言模型(LLM)深度融入产品架构——从智能客服、代码补全到AI原生应用...

4710

大语言模型自动化鱼叉式钓鱼效能评估与防御机制研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

以大语言模型为代表的生成式人工智能具备文本生成、语义理解、个性化内容适配等能力,在网络安全领域呈现典型的双重用途属性。本文依托 101 名受试者的四组对照实验数...

12410

探索HTTP流式返回:Python实战与Ollama本地模型测试

Michael阿明

在现代Web应用和API设计中,高效的数据传输至关重要。传统的HTTP请求/响应模型通常是一次性返回所有数据,这对于小数据量来说没有问题。但当处理大规模数据集、...

13510

开源方案:大模型测试实战指南

顾翔

引言:当大模型从实验室走向产线,测试不再是‘锦上添花’,而是‘安全底线’。据2024年MLTest Survey数据显示,73%的企业在大模型落地过程中遭遇过未...

31510

大语言模型赋能下钓鱼邮件的语义逃逸与防御范式重构

芦笛

中国互联网络信息中心 | 工程师 (已认证)

随着大语言模型(LLM)技术的爆发式增长,网络钓鱼攻击的形态正经历着从“语法错误频发”向“高度个性化、语义完美化”的范式转变。Cloudflare于近期发布的安...

13110

大模型测试性能优化:测试专家必看

顾翔

引言 随着ChatGLM、Qwen、DeepSeek、Llama系列等大语言模型(LLM)在金融、政务、医疗等关键场景加速落地,软件测试正面临前所未有的范式变革...

23610

ARC-AGI-2:抽象推理与泛化能力的终极测试

A小码哥

随着AI模型能力的快速演进,传统的知识密集型基准测试(如MMLU、GPQA)已经面临严重的饱和问题。ARC-AGI-2(Abstraction and Reas...

38710

BrowseComp AI模型 Benchmark 详解

A小码哥

BrowseComp 是由 OpenAI 于 2026 年推出的一项全新 AI 模型评测基准,专门用于评估大语言模型在实时互联网浏览场景下的信息检索和推理能力。...

28710

同一业务场景下,只用 ChatGPT Agent 和多模型协同的实际差异

用户12007056

从 Demo 阶段来看,这个判断并没有问题。 但真正进入生产环境后,我们逐渐意识到: 问题并不在于 Agent 的能力,而在于它被放在了不合适的位置。

11010

你的电脑“原生盾牌”挡不住钓鱼攻击?英美测试敲响警钟,中国专家呼吁构建动态防御新范式

芦笛

中国互联网络信息中心 | 工程师 (已认证)

一场由英国消费者权益组织 Which? 发起的网络安全测试,意外揭开了全球主流操作系统在反钓鱼能力上的“遮羞布”。测试显示,无论是 Windows 11 自带的...

20210

小模型大作为:小型语言模型如何在钓鱼网站攻防战中“以轻制重”?

芦笛

中国互联网络信息中心 | 工程师 (已认证)

当大型语言模型(LLM)还在云端消耗数百GB显存、动辄需要数十万美元部署成本时,一群“身材娇小”的小型语言模型(Small Language Models, S...

13010

Live VLM WebUI:在NVIDIA Jetson上实现实时视觉语言模型测试与部署

GPUS Lady

在人工智能飞速发展的当下,视觉语言模型(VLM)已逐渐走向边缘部署,从 4B 到 90B + 参数的各类模型层出不穷,为实时视觉分析场景带来了无限可能。然而,传...

48810

构建AI智能体:模型智能训练控制:早停机制在深度学习中的应用解析

未闻花名

在深度学习模型训练过程中,我们常常面临一个关键问题:何时停止训练? 训练不足会导致欠拟合,模型无法充分学习数据特征;训练过度则会导致过拟合,模型过度记忆训练数据...

45721

基于大语言模型的反钓鱼培训内容生成与效果评估

芦笛

中国互联网络信息中心 | 工程师 (已认证)

用户教育是组织防御钓鱼攻击的关键环节,但传统培训材料存在更新滞后、场景单一、缺乏个性化等问题,难以应对日益逼真的现代钓鱼邮件。本文基于意大利巴里大学开展的两阶段...

19210

小型语言模型在钓鱼网站检测中的应用研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

随着网络钓鱼攻击的持续演进与规模化,传统基于规则或浅层机器学习的检测方法在面对高度伪装、动态生成的恶意页面时逐渐显现出局限性。近年来,大型语言模型(LLM)在网...

20700

Claude Opus 4.5深度评测:如何以1/3成本实现旗舰级AI性能

AI日志

当前AI模型的价格战已经发展到一个出人意料的程度。Anthropic发布的Claude Opus 4.5不仅在性能方面得以实现突破,还把旗舰级模型的价格进行下调...

1.7K20

编码设计场景下的AI 模型选择分析

李福春

小冰跃动 | 架构师 (已认证)

通用编码冠军: GPT-5 在 SWE-bench Verified 上得分 74.9%,是目前代码能力最强的模型,并且在前端开发中 70% 的时间优于 o3

47800

快递AI-模型测试评估

默默的开发

为公司选择外部大模型并开展场景化测试,需结合场景需求、模型能力、数据安全、定制化及成本等维度综合评估。以下是分阶段的解决方案:

33610
领券