首页
学习
活动
专区
圈层
工具
发布
首页标签模型测试

#模型测试

我用workbuddy建立一个大乐透彩票模型,实战中#WorkBuddy

用户12488963

帮开体彩店的朋友做购彩方案推荐,这是我做这个项目的初衷。朋友每天面对大量彩民,总被追问“今天买什么号”,他希望我能借助AI的力量,开发一套自动化推荐系统。正好手...

10710

关于测试HY3 preview时发现的几个问题

用户12475481

deepseek-v4-flash上限后一直都在使用这个模型,感觉日常推理使用,完全足够了,可以承担一个作为分析的辅助脑使用,刚好最近HY3做1折活动,本着能省...

11410

MiMo V2.5测试

Luo rr

最近在测 MiMo V2.5:原生全模态(jointly trained on text/image/video/audio),混合注意力机制(hybrid a...

12510

模型训练整体流程

小单

epochs:训练轮数,训练轮数越多,数据效果越好data:数据集配置文件,对应data中的yaml文件

3900

Sentieon | 300X WES临床级全外单机只要15分钟

INSVAST

在基因组学研究中,全外显子组测序(Whole Exome Sequencing, WES)已成为解码基因编码区域变异的常规工具,能够全面捕获人类基因组中约 2%...

11210

大模型测试:性能优化的5大实战策略

顾翔

引言 随着ChatGLM、Qwen、DeepSeek及Llama系列大语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——...

27710

大模型测试团队如何成功转型?

顾翔

在传统软件测试时代,测试工程师的核心价值常被简化为‘用例执行者’或‘缺陷捕手’。而随着大语言模型(LLM)深度融入产品架构——从智能客服、代码补全到AI原生应用...

18310

大语言模型自动化鱼叉式钓鱼效能评估与防御机制研究

芦笛

中国互联网络信息中心 | 工程师 (已认证)

以大语言模型为代表的生成式人工智能具备文本生成、语义理解、个性化内容适配等能力,在网络安全领域呈现典型的双重用途属性。本文依托 101 名受试者的四组对照实验数...

17010

探索HTTP流式返回:Python实战与Ollama本地模型测试

Michael阿明

在现代Web应用和API设计中,高效的数据传输至关重要。传统的HTTP请求/响应模型通常是一次性返回所有数据,这对于小数据量来说没有问题。但当处理大规模数据集、...

23110

开源方案:大模型测试实战指南

顾翔

引言:当大模型从实验室走向产线,测试不再是‘锦上添花’,而是‘安全底线’。据2024年MLTest Survey数据显示,73%的企业在大模型落地过程中遭遇过未...

45310

大语言模型赋能下钓鱼邮件的语义逃逸与防御范式重构

芦笛

中国互联网络信息中心 | 工程师 (已认证)

随着大语言模型(LLM)技术的爆发式增长,网络钓鱼攻击的形态正经历着从“语法错误频发”向“高度个性化、语义完美化”的范式转变。Cloudflare于近期发布的安...

19010

大模型测试性能优化:测试专家必看

顾翔

引言 随着ChatGLM、Qwen、DeepSeek、Llama系列等大语言模型(LLM)在金融、政务、医疗等关键场景加速落地,软件测试正面临前所未有的范式变革...

31910

ARC-AGI-2:抽象推理与泛化能力的终极测试

A小码哥

随着AI模型能力的快速演进,传统的知识密集型基准测试(如MMLU、GPQA)已经面临严重的饱和问题。ARC-AGI-2(Abstraction and Reas...

53610
领券