简介
OSWorld 是一个面向多模态智能体(Multimodal Agents)的系统级评测基准数据集,旨在评估大模型在真实计算机环境中的开放式任务执行能力。
腾讯云 Agent Runtime 针对 OSWorld 评测场景特别推出了面向 OSWorld 评测场景的沙箱类型,为 OSWorld 评测提供以下优势特性:
1. 启动迅速:秒级创建评测环境,大幅缩短评测准备时间。
2. 高并发支持:可同时处理批量评测任务,提升评测效率。
3. 高度兼容性:完全兼容 OSWorld 任务定义,无需额外修改适配。
4. 资源隔离:确保每个评测任务独立运行,互不干扰。
5. 稳定可靠:提供持续稳定的评测环境,保障评测过程顺利进行。
该服务专为 OSWorld 评测场景优化设计,能够满足各类评测需求,帮助用户快速完成评测任务。
前提条件
在开始操作前,请确保已完成以下准备工作:
1. 已开通腾讯云 Agent Runtime。
2. 已创建 OSWorld(Beta) 类型沙箱工具。
3. 已获取到以下信息,将填入到 .env 文件中。
4. 您的运行环境中有 uv、git 软件包。
# .env文件示例# AGS (Agent Sandbox) Configuration# 请从Agent沙箱服务获取APIKEY填写到此处E2B_API_KEY=your_api_key_here# 此处填写您创建OSWorld沙箱工具对应区域的地址E2B_DOMAIN=ap-guangzhou.tencentags.com# 此处填写您创建的OSWorld沙箱工具的名称AGS_TEMPLATE=your_osworld_template_id# 此处填写您想要OSWorld沙箱存活的时间AGS_TIMEOUT=36000# 如果您想真实运行评测,请填写以下内容OPENAI_API_KEY=your_openai_api_key_hereOPENAI_BASE_URL=https://api.openai.com/v1
快速开始
# 克隆仓库git clone https://github.com/TencentCloudAgentRuntime/ags-cookbook.gitcd ags-cookbook/examples/osworld-ags# 克隆OSWorld原仓库git clone https://github.com/xlang-ai/OSWorld.git osworldcp -R overlay/OSWorld/. osworld/# 复制并填写.env文件cp .env.example osworld/.env# 编辑 .env# 安装依赖make setup# 快速启动make run
详细使用
1. 获取示例代码
git clone https://github.com/TencentCloudAgentRuntime/ags-cookbook.git
2. 进入示例目录
cd /path/to/ags-cookbook/examples/osworld-ags
3. 在示例目录中克隆 OSWorld 到 ./osworld
# workdir:/path/to/ags-cookbook/examples/osworld-agsgit clone https://github.com/xlang-ai/OSWorld.git osworld
4. 应用 overlay
# workdir:/path/to/ags-cookbook/examples/osworld-agscp -R overlay/OSWorld/. osworld/
5. 配置环境变量
# workdir:/path/to/ags-cookbook/examples/osworld-agscp .env.example osworld/.env
填写 .env 文件。
# 请从腾讯云Agent沙箱服务产品控制台获取API KEYE2B_API_KEY=your_ags_api_key_here# 请根据您使用的region修改,如广州地域为ap-guangzhou.tencentags.comE2B_DOMAIN=<region>.tencentags.com# 请在腾讯云Agent沙箱服务产品控制台创建OSWorld类型沙箱工具,并将沙箱工具名称填写在这里AGS_TEMPLATE=your_osworld_template_id# 如果您想要真实运行OSWorld评测,请填写您的OpenAI密钥OPENAI_API_KEY=your_openai_api_key_hereOPENAI_BASE_URL=https://api.openai.com/v1
6. 安装依赖
# workdir:/path/to/ags-cookbook/examples/osworld-agsmake setup
7. 快速运行
# workdir:/path/to/ags-cookbook/examples/osworld-agsmake run
8. 真实评测
# 注意,您需要在.env中填写OpenAI密钥来运行cd osworlduv run --python .venv/bin/python run_multienv.py --provider_name ags --model gpt-4o --num_envs 2
更多信息
沙箱运行 OSWorld 评测效果

