首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Gemini 3.0 Canvas制作PPT-结构逻辑和呈现效果有质的提升

Gemini 3.0 Canvas制作PPT-结构逻辑和呈现效果有质的提升

作者头像
人月聊IT
发布2025-11-24 18:02:54
发布2025-11-24 18:02:54
50
举报

大家好,我是人月聊IT。

这两天Gemini3.0推出后,很多人的朋友圈可能都被刷屏了。我实际最想验证的还是Google的AI IDE工具Anti Gravity,但这个工具下载安装完成后,在浏览器端通过账号授权验证成功后无法返回到IDE端,导致无法正常使用。因此今天先讲下Gemini Canvas的PPT制作能力。

整个功能我试用下来感觉结构,逻辑和呈现比原来2.5的时候都有明显的提升。基本和天工AI,GenSpark这些通用智能体做PPT的水平相当。这个功能既可以通过需求叙述来生成,也可以上传你完整的方案文章转PPT。

今天验证测试了制作一个AI Agent的PPT,提示语如下:

帮我生成一个介绍AI Agent的PPT,包括基本概念,功能架构,运行机制,开发工具和流程,应用场景等关键内容。

基于该提示语完成整个PPT的制作,而且最终生成的PPT还可以完整导出PPT文件到本地进一步编辑使用。

接着我又让AI,帮我生成了一个基于该PPT的演讲稿如下:

AI Agents: 从被动问答到自主行动 —— 下一代人工智能的范式转移

演讲时长预估: 25-30 分钟适用场景: 行业峰会、技术分享会、企业内部培训

开场白:被忽视的变革

(演讲者走上台,面带微笑,眼神环顾全场)

大家好!很高兴今天能和各位聚在一起,探讨一个可能正在重塑我们在座每一位工作方式的话题。

过去的一年多里,我们都经历了“大模型”的洗礼。ChatGPT 的横空出世让我们惊叹:AI 终于会“说话”了,它能写诗、能写代码、甚至能通过图灵测试。但是,在惊叹之余,大家有没有过一种微妙的失落感?

当我们想让 AI 帮我们要订一张机票、处理一份复杂的报表,或者去网上搜集最新的竞品信息时,我们往往发现,它还是只会“说话”。它会给你写一份完美的“订票攻略”,但它不会真的帮你把票买好。它像是一个博学但瘫痪在床的教授,满腹经纶,却无法对物理世界产生实质性的干涉。

但是,今天我要告诉大家,这个局面正在改变。我们正在跨越一个临界点,从 Generative AI(生成式 AI) 迈向 Agentic AI(代理式 AI)

这就是我们要讨论的主题 —— AI Agents(人工智能智能体)

[切换到 PPT 第 1 页:封面页]

请看大屏幕。我们的主题是:AI Agents —— 下一代人工智能的前沿。

如果说 ChatGPT 是给每个人发了一本《百科全书》,那么 AI Agents 就是给每个人配了一位“全能助理”。它的关键词是:智能、自主、行动导向

今天,我将带大家深入拆解这个概念,看看它是如何工作的,我们该如何构建它,以及它将把我们带向何方。

[切换到 PPT 第 2 页:演进对比]

首先,我们需要厘清一个概念:Agent 和我们熟悉的 Chatbot(聊天机器人)到底有什么本质区别?

大家请看这张图。左边是我们熟悉的传统 AI,也就是 Chatbot。 不管是早期的客服机器人,还是现在的 ChatGPT 网页版,本质上它们都是被动的(Reactive)。

  • 交互模式是线性的: 你输入一句话,它吐出一句话。任务结束。
  • 它是孤立的: 它生活在一个文本的真空里,不知道现在的具体时间,也不能去 Google 搜索最新的新闻,更不能帮你点击鼠标。
  • 它是健忘的: 虽然现在有了上下文窗口,但一旦对话过长或开启新对话,它就忘记了之前的你是谁。

而右边,是 AI Agent。 这不仅仅是更聪明的 Chatbot,这是一种物种的进化。

  • 它是主动的(Proactive): 当你给它一个目标,它不是坐在那里等你给下一步指令,而是自己思考:“为了达成这个目标,我第一步该做什么,第二步该做什么?”
  • 它是行动导向的(Action-Oriented): 它长出了“手”和“脚”。它可以调用 API,可以浏览网页,可以执行 Python 代码。
  • 它是自主的(Autonomous): 它能自我纠错。如果第一步尝试失败了,它不会死机,而是会尝试第二种方案。

打个比方:Chatbot 就像是一个新来的实习生,你必须告诉他:“打开 Excel,在 A1 单元格输入数据,保存文件。”每一个动作都要你指挥。 而 Agent 就像是一个资深经理,你只需要告诉他:“下周要把季度销售报告发给我。”至于他是用 Excel 还是 SQL,是周一做还是周二做,中间遇到数据缺失怎么处理,他自己搞定。

这就是从“工具”到“伙伴”的跨越。

[切换到 PPT 第 3 页:核心能力]

那么,Agent 是靠什么实现这种自主性的呢?我们将它的能力拆解为四个核心支柱。

  1. 推理能力 (Reasoning):这是 Agent 的大脑。传统的自动化脚本(RPA)也能做事,但它们是死板的。Agent 的核心在于利用大语言模型(LLM)进行逻辑推理。面对一个模糊的指令,比如“帮我策划一次难忘的旅行”,它需要分析什么是“难忘”,需要拆解为订票、酒店、攻略等子任务。这种“规划”能力是 Agent 的灵魂。
  2. 工具使用 (Tool Use):这是 Agent 的手脚。如果没有工具,LLM 只是缸中之脑。通过 API 接口,Agent 获得了与数字世界交互的能力。它可以是一个搜索引擎,可以是计算器,也可以是你们公司的 CRM 系统接口。Agent 懂得在什么时候,拿起什么工具去解决问题。
  3. 多模态感知 (Perception):人类不只是通过文字交流,我们看图、听声音。新一代的 Agent 具备了“眼睛”和“耳朵”。它能读取屏幕上的 UI 界面,能识别 PDF 中的图表,甚至能分析语音指令。这极大地拓宽了它的应用边界。
  4. 记忆存储 (Memory):这是 Agent 的经验库。人类之所以能不断进步,是因为我们有记忆。Agent 利用向量数据库(Vector DB)来存储长期的知识和过往的交互历史。当它下次遇到类似问题时,它能调用之前的经验,而不是从零开始。

[切换到 PPT 第 4 页:功能架构]

这就引出了 Agent 的解剖学结构。让我们像生物学家一样,把一个 Agent 切开来看看它的内部构造。

大家看这张图,它清晰地展示了 Agent 的四大组件是如何协同工作的。

  • 最核心的是大脑(The Brain): 也就是 LLM。它负责处理所有的输入信息,维持 Agent 的“人设”(Persona)。比如你设定它是一个“严谨的律师”,它的每一次思考都会带上严谨的滤镜。
  • 左侧是感知(Perception): 它是信息的入口,处理来自环境的文本、图像或数据流。
  • 中间是规划(Planning): 这是最精彩的部分。大家可能听过“思维链”(Chain of Thought)或 ReAct 模式。这就是 Agent 在“自言自语”。在行动之前,它会先在脑子里预演:“用户想要 X,为了得到 X,我应该先做 A,然后做 B。”这种将宏观目标拆解为微观步骤的能力,是智能的体现。
  • 右侧是行动(Action): 规划完成后,指令被转化为具体的执行动作,去触碰外部世界。

这个架构告诉我们:Agent 不是一个单一的模型,它是一个系统工程。它是由模型、提示词工程、记忆模块和工具接口共同组成的复杂有机体。

[切换到 PPT 第 5 页:认知循环机制]

这种架构是如何动起来的呢?这就涉及到了 Agent 的“心跳” —— 认知循环机制(The Cognitive Loop)

传统的程序是线性的:输入 -> 处理 -> 输出 -> 结束。 但 Agent 的运行是一个闭环。请看屏幕上的这个时间轴,这是一个不断循环的过程:

  1. 观察 (Observe):假设我告诉 Agent:“帮我看看今天旧金山的天气,如果下雨就帮我买把伞。” 首先,Agent 观察这个指令。
  2. 思考 (Think): 它开始推理:“用户的意图是买伞,但前提是下雨。所以我第一步不能买伞,而是要查天气。我需要调用天气 API。”
  3. 行动 (Act):Agent 真的去调用了天气 API。
  4. 评估 (Evaluate):这是最关键的一步。 比如 API 返回了“晴天”。Agent 会自我评估:“既然是晴天,那‘如果下雨’的条件不成立,我的目标变成了‘不需要买伞’。” 于是,它决定停止任务,并反馈给用户:“今天是晴天,不用买伞。”

如果 API 报错了怎么办?Agent 会在“评估”阶段发现错误,重新回到“思考”阶段:“天气 API 挂了,我能不能换个方式?比如搜索网页?” 这种自我修正、不断循环的能力,让 Agent 能够应对充满不确定性的现实世界。

[切换到 PPT 第 6 页:底层技术栈]

要把这个理论变成现实,我们需要哪些技术储备?

左边的代码片段展示了一个极简的 Agent 初始化过程。看起来很简单,对吧?但每一行代码背后,都是深厚的技术支撑。

  • 大语言模型 (LLMs): 比如 GPT-4, Claude 3 或开源的 Llama 3。它们是 Agent 的基石。模型的推理能力越强,Agent 越聪明,越不容易“发疯”或陷入死循环。
  • 向量数据库 (Vector Databases): 为什么我们需要它?因为 LLM 的上下文窗口(Context Window)虽然在变大,但仍然昂贵且有限。我们不能把整本公司手册每次都塞给它。 向量数据库(如 Pinecone, Weaviate)允许我们将海量知识变成数学上的“向量”。当 Agent 需要查资料时,它进行的是“语义搜索”,能瞬间找到最相关的那几段话。这是 Agent 的“海马体”。
  • 函数调用 (Function Calling): 这是连接 AI 与软件工程的桥梁。以前,我们很难让 LLM 输出稳定的 JSON 格式去调用 API。现在,通过 Function Calling 技术,模型能精准地输出 { "tool": "calculator", "args": "5*5" } 这样的结构化数据。这让 AI 操控软件成为了可能。

[切换到 PPT 第 7 页:开发生态工具]

有了技术原理,我们用什么工具来造 Agent 呢?目前的开发生态已经非常繁荣,也就是我们常说的 AI Infrastructure

  • LangChain: 如果你做过 AI 开发,一定听过它。它是 Agent 领域的“瑞士军刀”。它提供了大量的工具包,帮你把 LLM、内存、工具链连接起来。虽然上手稍有门槛,但它是目前最通用的标准。
  • AutoGen: 这是微软推出的神器。它的理念非常超前——多智能体对话。你不需要自己写复杂的循环,你只需要定义两个 Agent,一个叫“开发者”,一个叫“测试员”,让它们俩自己聊天。开发者写代码,测试员提 Bug,开发者改代码……直到问题解决。这种“左右互搏”的模式极大地增强了解决复杂问题的能力。
  • CrewAI: 这个框架最近非常火,它把 Agent 拟人化了。你在 CrewAI 里定义的不是代码逻辑,而是“角色”。比如定义一个“研究员”、一个“撰稿人”。它更像是在经营一家公司,非常适合业务流的编排。
  • Vertex AI Agent: 对于企业级用户,Google 的 Vertex AI 提供了一站式的平台。它强调的是Grounding(落地性/真实性),能直接连接企业的私有数据,而且更安全、合规。

[切换到 PPT 第 8 页:商业应用场景]

说了这么多技术,Agent 到底能用来干什么?它是只能陪聊,还是真的能产生商业价值?

答案是肯定的。Agent 正在渗透进企业的各个角落。

  1. 自主客户服务 (Autonomous Customer Support):以前的客服机器人只能扔给你一个帮助文档的链接。 现在的 Agent 客服,能验证你的身份,查询你的订单状态,判断是否符合退款条件,并在后台系统中直接点击“退款”按钮。它完成的是一个闭环的业务操作,直接降低了人工客服 80% 的工单量。
  2. 软件工程 (The AI Engineer):大家可能听过 Devin,那个号称第一个 AI 软件工程师的 Agent。 它不仅仅是像 Copilot 那样补全一行代码。当你给它一个 GitHub Issue 链接,它能克隆代码库,阅读现有代码,定位 Bug,编写修复代码,运行单元测试,如果报错了自己修,直到测试通过,最后提交 Pull Request。这完全改变了软件开发的流程。
  3. 智能数据分析 (Data Analysis):对于非技术人员,查询数据库是痛苦的。 有了 Agent,你可以直接问:“帮我分析一下上个季度华东地区销售下滑的原因。” Agent 会自己写 SQL 去查数据库,用 Python 的 Pandas 库分析数据,用 Matplotlib 画出趋势图,最后还给你写一段分析报告。它让每个人都拥有了数据分析师的能力。

[切换到 PPT 第 9 页:开发流程]

如果你们公司也想开发自己的 Agent,应该遵循什么样的流程呢?我总结了四个步骤。

  • 第一步:定义角色 (Define Persona)。不要上来就写代码。先想清楚,你要造的是一个什么样的“人”?它的职责边界在哪里?它需要多专业?给它写一段详细的 System Prompt(系统提示词),这是它的灵魂。
  • 第二步:配置工具 (Equip Tools)。根据它的职责,给它配备武器。如果是财务 Agent,给它计算器和汇率 API;如果是销售 Agent,给它发邮件和查 CRM 的权限。记住,工具给得越多,Agent 越强大,但也越容易出错,要遵循“最小权限原则”。
  • 第三步:编排流程 (Orchestrate)。选择合适的框架(如 LangChain)。决定它是单兵作战,还是团队协作?它的思考模式是 ReAct 还是更复杂的 Plan-and-Solve?这一步是构建它的神经系统。
  • 第四步:评估与护栏 (Eval & Guard)。这是最容易被忽视的一步。AI 是概率模型,它会“幻觉”(一本正经胡说八道)。你需要建立一套评估体系(Evals),用成百上千个案例去测试它。同时,要加上安全护栏(Guardrails),防止它执行危险操作,比如删库或输出违规内容。

[切换到 PPT 第 10 页:未来展望]

最后,我想谈谈未来。Agent 的终局在哪里?

请看这张充满未来感的图。我认为,未来属于 多智能体系统 (Multi-Agent Systems),也就是我们常说的“智能体蜂群”(Agent Swarms)。

现在的 Agent 大多还是单打独斗的“全能型选手”。但就像人类社会分工一样,未来的 AI 也会走向专业化。 我们将不再试图训练一个无所不知的上帝模型,而是构建无数个小而精的专家 Agent。

想象一下,当你对其说“帮我开发一个 App”:

  • 产品经理 Agent 首先站出来,帮你梳理需求,画出原型图。
  • 它把需求传给 架构师 Agent,设计技术栈。
  • 前端 Agent后端 Agent 开始并行写代码。
  • 测试 Agent 实时监控代码质量,把 Bug 扔回给开发。
  • 而你需要做的,只是像 CEO 一样,喝着咖啡,审核最后的成果。

这就是协作(Collaboration)的力量。这种协作带来的规模扩展(Scalability),将让我们能够处理现在的 AI 无法想象的文明级难题——比如新药研发、气候模拟或者复杂的城市规划。

[切换到 PPT 第 11 页:致谢与问答]

各位朋友,我们正站在 AI 时代的第二个风口。 如果说第一个风口是让 AI 学会了“思考”,那么现在的风口就是让 AI 学会了“行动”。

Agent 不仅仅是一种技术架构,它是一种新的生产力组织形式。它将重新定义什么是“软件”,什么是“员工”,甚至是什么是“公司”。

希望今天的分享,能为大家打开一扇通往 Agent 世界的窗户。

这是我的联系方式和相关的开源项目地址,非常欢迎大家在会后与我深入交流。

谢谢大家!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人月聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI Agents: 从被动问答到自主行动 —— 下一代人工智能的范式转移
    • 开场白:被忽视的变革
    • [切换到 PPT 第 1 页:封面页]
    • [切换到 PPT 第 2 页:演进对比]
    • [切换到 PPT 第 3 页:核心能力]
    • [切换到 PPT 第 4 页:功能架构]
    • [切换到 PPT 第 5 页:认知循环机制]
    • [切换到 PPT 第 6 页:底层技术栈]
    • [切换到 PPT 第 7 页:开发生态工具]
    • [切换到 PPT 第 8 页:商业应用场景]
    • [切换到 PPT 第 9 页:开发流程]
    • [切换到 PPT 第 10 页:未来展望]
    • [切换到 PPT 第 11 页:致谢与问答]
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档