AI 助手正风靡一时,但如何打造一个专注于分析、整理和从海量数据中得出结论的助手呢?
Google 的数据科学助手就实现了这一点:这款由 Gemini 2.0 驱动的全新 AI 助手现已在特定国家和语言地区向 18 岁以上用户免费开放,可以自动化数据分析流程。
该助手通过 Google Colab 提供服务。Colab 是 Google 运营了 8 年的在线 Python 代码运行平台,可以使用 Google 的图形处理单元 (GPU) 和张量处理单元 (TPU)。
数据科学助手最初于 2024 年 12 月向受信任测试者推出,旨在帮助研究人员、数据科学家和开发人员优化工作流程,可以直接在浏览器中根据自然语言描述生成完整功能的 Jupyter 笔记本。
这次扩展符合 Google 将 AI 驱动的编码和数据科学功能整合到 Colab 的持续努力,延续了 2023 年 5 月发布的 Codey 驱动的 AI 编码助手等更新。
这也可以看作是对 OpenAI 的 ChatGPT 高级数据分析功能 (原代码解释器) 的一种高级且延迟的回应,该功能现已内置于运行 GPT-4 的 ChatGPT 中。
什么是 Google Colab?
Google Colab (Colaboratory 的简称) 是一个基于云的 Jupyter Notebook 环境,允许用户直接在浏览器中编写和执行 Python 代码。
Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含实时代码、方程式、可视化和叙述文本的文档。它起源于 2014 年的 IPython 项目,现在支持包括 Python、R 和 Julia 在内的 40 多种编程语言。这个交互式平台广泛应用于数据科学、研究和教育领域,用于数据分析、可视化和编程概念教学。
自 2017 年推出以来,Google Colab 已成为机器学习 (ML)、数据科学和教育领域最广泛使用的平台之一。
正如 Spectralops.io 的数据科学负责人 Ori Abramovsky 在 2023 年一篇优秀的 Medium 文章中详细介绍的那样,Colab 易于使用且免费提供 GPU 和 TPU 访问权限,使其成为许多开发人员和研究人员的出色选择。
他指出,低门槛、与 Google Drive 的无缝集成以及对 TPU 的支持使他的团队在开发 AI 模型时大大缩短了训练周期。
然而,Abramovsky 也指出了 Colab 的一些限制:
会话时间限制 (尤其是免费用户)。
高峰期资源分配不稳定。
缺乏关键功能,如高效的管道执行和高级调度。
支持方面的挑战,因为 Google 提供的直接帮助选项有限。
尽管存在这些缺点,Abramovsky 强调 Colab 仍然是最好的无服务器笔记本解决方案之一,特别是在 ML 和数据分析项目的早期阶段。
用 AI 简化数据分析
数据科学助手在 Colab 的无服务器笔记本环境基础上消除了手动设置的需求。
用户可以用简单的英语描述他们的分析目标 ("可视化趋势"、"训练预测模型"、"清理缺失值"),助手就会生成可完全执行的 Colab 笔记本作为响应。
它通过以下方式支持用户:
自动化分析:生成完整的工作笔记本,而不是孤立的代码片段。
节省时间:消除手动设置和重复编码。
增强协作:为基于团队的项目提供内置共享功能。
提供可修改的解决方案:用户可以调整和自定义生成的代码。
数据科学助手已经加速了现实世界的科学研究
据 Google 称,早期测试者在使用数据科学助手时报告了显著的时间节省。
例如,劳伦斯伯克利国家实验室的一位研究热带湿地甲烷排放的科学家估计,使用该助手后,数据处理时间从一周缩短到了仅仅 5 分钟。
该工具在行业基准测试中也表现出色,在 Hugging Face 的 DABStep:多步推理数据代理基准测试中排名第四,超过了 ReAct (GPT-4.0)、Deepseek、Claude 3.5 Haiku 和 Llama 3.3 70B 等 AI 代理。
然而,OpenAI 的竞争对手 o3-mini 和 o1 模型,以及 Anthropic 的 Claude 3.5 Sonnet,都优于新的 Gemini 数据科学助手。
入门指南
用户可以按照以下步骤开始使用 Google Colab 中的数据科学助手:
打开新的 Colab 笔记本。
上传数据集 (CSV、JSON 等)。
使用 Gemini 侧边栏用自然语言描述分析需求。
执行生成的笔记本以查看洞察和可视化结果。
Google 提供示例数据集和提示建议,帮助用户探索其功能,包括:
Stack Overflow 开发者调查:"可视化最流行的编程语言。"
Iris Species 数据集:"计算并可视化 Pearson、Spearman 和 Kendall 相关性。"
Glass Classification 数据集:"训练随机森林分类器。"
每当用户想要使用新助手时,他们需要导航到 Colab 并点击"文件",然后选择"在 Drive 中新建笔记本",生成的笔记本将存储在他们的 Google Drive 云账户中。
我的简短演示体验喜忧参半
诚然,作为一名普通的科技记者而非数据科学家,我到目前为止使用新的 Gemini 2.0 驱动的数据科学助手的体验并不那么顺畅。
我上传了五个 CSV 文件 (来自 Excel 或 Sheets 的标准逗号分隔值电子表格文件),并询问"我每月和每季度在公用事业上的支出是多少?"
助手进行了以下操作:
合并数据集,处理日期和账号不一致问题。
过滤和清理数据,确保只保留相关支出。
按月和季度对交易进行分组以计算支出。
生成可视化效果,如用于趋势分析的折线图。
以清晰、结构化的报告总结发现。
执行前,Colab 显示确认消息,提醒我它可能会与外部 API 交互。
它在浏览器中非常快速流畅地完成了所有这些工作,只用了几秒钟。观看它通过可见的逐步描述来完成分析和编程的过程令人印象深刻。
然而,它最终生成的图表不准确,只显示了一个月的公用事业支出,没有认识到这些表格包含了按月分类的全年数据。当我要求修改时,它试图改进,但最终无法生成正确的代码来回答我的提示。
我在 Google Colab 的新笔记本中用完全相同的提示重新尝试,它产生了一个更好但仍然奇怪的结果。
我需要继续尝试排除故障,正如我所说,初始的错误结果可能是由于我缺乏使用数据科学工具的经验。
Colab 定价和 AI 功能
虽然 Google Colab 保持免费,但需要额外计算能力的用户可以升级到付费计划:
Colab pro ($9.99/月):100 个计算单元、更快的 GPU、更多内存、终端访问权限。
Colab pro+ ($49.99/月):500 个计算单元、优先 GPU 升级、后台执行。
Colab enterprise:Google Cloud 集成、AI 驱动的代码生成。
按需付费:100 个计算单元 $9.99,500 个计算单元 $49.99。
除了数据科学助手,Google 一直在扩展 Colab 中的 AI 功能。
Google 收集提示、生成的代码和用户反馈以改进其 AI 模型。数据存储最长 18 个月,但会进行匿名处理,删除请求可能不会总是得到满足。建议用户不要提交敏感或个人信息,因为人工审核员可能会处理提示。此外,应仔细审查 AI 生成的代码,因为它可能包含不准确之处。
欢迎反馈
Google 鼓励用户通过 Google Labs Discord 社区的 #data-science-agent 频道提供反馈。
随着 AI 驱动自动化成为数据科学的关键趋势,Google 在 Colab 中的数据科学助手可以帮助研究人员和开发人员更多地关注洞察而不是编码设置。随着该工具扩展到更多用户和地区,将会很有趣地看到它如何塑造 AI 辅助分析的未来。
领取专属 10元无门槛券
私享最新 技术干货