本指南分享了从 GPT 获得更好结果的策略和战术。有时可以结合使用此处描述的方法以获得更好的效果。我们鼓励进行实验以找到最适合您的方法。
此处演示的一些示例目前仅适用于我们功能最强大的模型gpt-4. 如果您还没有访问权限,gpt-4请考虑加入候补名单。一般来说,如果您发现 GPT 模型在某项任务中失败并且有更强大的模型可用,通常值得再次尝试使用更强大的模型。
GPT 无法读懂您的想法。如果输出太长,请要求简短的答复。如果输出太简单,请要求专家级的写作。如果您不喜欢这种格式,请展示您希望看到的格式。GPT 对您想要什么的猜测越少,您获得它的可能性就越大。
策略:
GPT 可以自信地编造假答案,尤其是当被问及深奥的话题或引用和URL时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样,为 GPT 提供参考文本可以帮助以更少的捏造来回答。
策略:
正如在软件工程中将复杂系统分解为一组模块化组件是一种很好的做法一样,提交给GPT的任务也是如此。复杂的任务往往比简单的任务有更高的错误率。此外,复杂的任务通常可以重新定义为更简单任务的工作流,其中早期任务的输出用于构建后续任务的输入。
策略:
如果要求将 17 乘以 28,您可能不会立即计算出来,但随着时间的推移仍然可以计算出来。同样,GPT 在试图立即回答而不是花时间找出答案时会犯更多的推理错误。在回答之前询问一系列推理可以帮助 GPT 更可靠地推理出正确答案。
策略:
通过为 GPT 提供其他工具的输出来弥补它们的弱点。例如,文本检索系统可以将相关文档告知GPT。代码执行引擎可以帮助 GPT进行数学运算和运行代码。如果一项任务可以通过工具而不是GPT更可靠或更有效地完成,请卸载它以充分利用两者。
策略:
如果可以衡量,提高绩效会更容易。在某些情况下,对提示的修改会在一些孤立的示例上获得更好的性能,但会导致在更具代表性的示例集上的整体性能变差。因此,要确保更改对性能产生积极影响,可能有必要定义一个综合测试套件(也称为“评估”)。
战术:
上面列出的每个策略都可以用特定的策略来实例化。这些策略旨在为尝试的事情提供想法。它们绝不是全面的,您可以随意尝试此处未展示的创意。
为了获得高度相关的响应,请确保请求提供任何重要的细节或上下文。否则,您将把它留给模型来猜测您的意思。
更差 | 更好 |
如何在 Excel 中添加数字? | 如何在 Excel 中将一行美元金额相加?我想对整张行自动执行此操作,所有总计都在右侧的名为“总计”的列中结束。 |
谁是总统? | 谁是 2021 年的墨西哥总统,选举的频率如何? |
编写代码来计算斐波那契数列。 | 编写一个 TypeScript 函数来高效地计算斐波那契数列。自由地评论代码以解释每一部分的作用以及为什么这样写。 |
总结会议记录。 | 在一个段落中总结会议记录。然后写下演讲者的降价清单和他们的每个要点。最后,列出演讲者建议的后续步骤或行动项目(如果有)。 |
系统消息可用于指定模型在其回复中使用的角色。
系统
当我请求帮助写东西时,你会回复一份文档,每个段落至少包含一个笑话或俏皮的评论。
用户
给我的钢螺栓供应商写一封感谢信,感谢他在短时间内准时交货。这使我们能够交付重要订单。
playgroud说明:
OpenAI Playground 是一种基于 Web 的工具,可以轻松测试提示并熟悉 API 的工作原理。借助 Playground,您无需编写一行代码即可开始使用 GPT-3——您可以使用简单的英语提供提示。您可以通过调用 API 执行的所有操作,您也可以在 Playground 中执行。
测试效果:
问题:
给我的钢螺栓供应商写一封感谢信,感谢他在短时间内准时交货。这使我们能够交付重要订单。
回答:
当然可以,以下是我为你准备的草稿:
---
亲爱的[供应商名字],
我想首先感谢你们一直以来的出色工作。你们以无与伦比的专业精神和卓越的服务质量,使我们的合作变得如此顺利。我得说,你们在螺栓供应领域可谓是"螺丝"中的"钢铁侠"!(没错,我在这里做了一个小小的俏皮评论,希望你们不会介意!)
我们最近接到了一个非常重要的订单,对此我想特别表示感谢。在交货期限临近的压力下,你们准时完成了螺栓供应,真的是让人钦佩。这就好像我们在比赛中接力,你们毫不犹豫地将接力棒递给了我们,使我们能够在终点线上得分。这个笑话可能有点拉杂,但请原谅我,因为我真的很感激你们!
你们的准时交货让我们能够顺利完成这个重要的订单。在这个过程中,你们不仅是我们的供应商,更是我们的合作伙伴。在此,我要感谢你们的高效专业,就像一个笑话中的超级英雄,准时出现,拯救了我们的日子。
感谢你们对我们的支持和信任。在未来,我们期待与你们建立更紧密的合作关系,共同创造更多成功的案例。在这之间,如果你们需要任何帮助,我们都会非常乐意提供。
祝商祺,
[你的名字]
三重引号、XML 标记、章节标题等分隔符可以帮助区分要区别对待的文本部分。
用户
用俳句总结由三重引号分隔的文本。"""在此插入文本"""
系统
您将获得一对关于同一主题的文章(用 XML 标记分隔)。先总结一下每篇文章的论点。然后指出他们中的哪一个提出了更好的论点并解释原因。
用户
<article>在这里插入第一篇文章</article> <article>在这里插入第二篇文章</article>
测试效果:
问题:
用俳句总结由三重引号分隔的文本。"""通过一个小小的花朵就可以窥探到一个大千世界的规律与全部。通过一片小小的叶子,可以看到宇宙人生的秘密。"""
回答:
花朵显世界,
叶子藏宇宙。
系统
您将获得论文摘要和建议的标题。论文标题应该让读者对论文的主题有一个很好的了解,但也应该引人注目。如果标题不符合这些标准,建议 5 个备选方案。
用户
摘要:此处插入摘要 标题:此处插入标题
测试效果:
问题:
摘要:人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出了惊人的能力,挑战了我们对学习和认知的理解。OpenAI 开发的最新模型 GPT-4 [Ope23] 使用了前所未有的计算和数据规模进行训练。在本文中,我们报告了我们对 GPT-4 早期版本的调查,当时它还在 OpenAI 的积极开发阶段。我们认为(这个早期版本的)GPT-4 属于一类新型 LLM(例如 ChatGPT 和谷歌的 PaLM),它们比以前的 AI 模型具有更强的普适性。我们讨论了这些模型不断提升的能力及其影响。
我们证明,GPT-4 在掌握语言之外,还可以在不需要特别提示的情况下解决涉及数学、编程、视觉、医学、法律、心理学等领域的新颖且困难的任务。而且,在所有这些任务中,GPT-4 的表现与人类表现水平非常接近,而且通常大大超过了之前的模型,如 ChatGPT。考虑到 GPT-4 的广泛和深入的能力,我们认为它可以被合理地视为一个早期(尽管仍然不完整)的人工通用智能(AGI)系统。
在我们对 GPT-4 的探索中,我们特别强调发现其局限性,并讨论了朝着更深入、更全面的 AGI 版本前进的挑战,包括可能需要追求超越下一个单词预测的新范式。我们在结论部分讨论了最近技术飞跃对社会的影响以及未来的研究方向。
标题:对 GPT-4 早期版本的调查
回答:
当前的标题已经很好地概括了论文的主题,但可能缺乏吸引力。以下是一些可能的替代选项,以增加其吸引力:
1. "GPT-4:探索普适人工智能的边界"
2. "透视GPT-4:新一代大型语言模型的魅力与挑战"
3. "超越词汇预测:GPT-4及其对未来人工智能的启示"
4. "GPT-4早期版本的剖析:未来的人工智能正在形成"
5. "从语言到通用智能:GPT-4的突破与影响"
请记住,好的标题应该既精炼又具有吸引力,同时清晰地传达论文的主要内容。
对于诸如此类的简单任务,使用定界符可能不会对输出质量产生影响。然而,任务越复杂,消除任务细节的歧义就越重要。不要让 GPT 工作以准确理解您对它们的要求。
有些任务最好指定为一系列步骤。明确地写出步骤可以使模型更容易遵循它们。
系统
使用以下分步说明响应用户输入。第 1 步 - 用户将用三重引号为您提供文本。在一个句子中总结这段文字,并加上一个前缀“Summary:”。第 2 步 - 将第 1 步中的摘要翻译成西班牙语,并加上前缀“Translation:”。
用户
"""在此插入文本"""
问题:
"""我们(微软,下文中的我们都指微软)认为GPT-4是新一批大语言模型的一部分(例如ChatGPT和谷歌的PaLM),它们比之前的AI 模型表现出更多的通用智能。我们证明,除了对语言的掌握,GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提示。"""
回答:
Summary: 微软认为GPT-4是新一批大语言模型的一部分,它表现出比之前的AI模型更多的通用智能。除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖和困难的任务,而无需任何特别的提示。
Translation:
Resumen: Microsoft considera que GPT-4 es parte de una nueva tanda de grandes modelos de lenguaje, que muestran una inteligencia general mayor que los modelos de IA anteriores. Además de su dominio del lenguaje, GPT-4 puede resolver tareas novedosas y difíciles en áreas como las matemáticas, la codificación, la visión, la medicina, el derecho, la psicología, etc., sin ninguna indicación especial.
提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效,但在某些情况下提供示例可能更容易。例如,如果您打算让模型复制一种难以明确描述的特定样式来响应用户查询。这被称为“少量”提示。
系统
以一致的风格回答。
用户
教我耐心。
助手
开辟最深山谷的河流从温和的泉水流出;最伟大的交响乐源于一个音符;最复杂的挂毯始于一根单独的线。
用户
教我认识海洋。
问题:
教我认识海洋。
回答:
无尽的知识如同海洋深处的宝藏,潜入水下,等待被发现;每一个新的事实就如同海浪一样,构成了海洋无尽的独特之处;探索这个世界就如同乘风破浪,穿越海洋的风暴与宁静。
您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、要点等的计数来指定。但是请注意,指示模型生成特定数量的单词并不能实现高精度。该模型可以更可靠地生成具有特定数量的段落或要点的输出。
用户
用大约 50 个单词总结由三重引号分隔的文本。"""在此插入文本"""
用户
在 2 个段落中总结由三重引号分隔的文本。"""在此插入文本"""
用户
在 3 个要点中总结由三重引号分隔的文本。"""在此插入文本"""
问题:
用大约 30 个中文字符总结由三重引号分隔的文本。"""智能的一个关键衡量标准是能够从不同领域、模态中综合信息,并能够在不同的情境或学科中应用知识和技能。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高水平的熟练程度,而且还能够流畅地结合多个领域的技能和概念,展示出对复杂思想的令人印象深刻的理解。"""
回答:
智能衡量:GPT-4跨领域综合信息,熟练应用知识,理解复杂思想。
如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来编写其答案。
系统
使用由三重引号分隔的提供的文章来回答问题。如果在文章中找不到答案,写“我找不到答案”。
用户
<插入文章,每篇文章用三重引号分隔> 问题:<在此处插入问题>
鉴于 GPT 的上下文窗口有限,为了应用这种策略,我们需要一些方法来动态查找与所问问题相关的信息。嵌入可用于实现高效的知识检索。有关如何实现这一点的更多详细信息,请参阅策略“使用基于嵌入的搜索来实现高效的知识检索” 。
问题:
"""除了自然语言实验,我们还探索了两种可能出乎意料的模态,其中涉及视觉和音频(再次强调,我们的实验是在GPT-4的早期版本上进行的,该版本不是多模态的)。
我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽管GPT-4只接受过文本训练,但它能理解和处理多模态信息。"""
问题:GPT-4可以理解音乐吗?
回答:
是的,尽管GPT-4只接受过文本训练,但文章指出它能理解和处理多模态信息,包括音乐。
问题:GPT-4是否会写代码?
回答:我找不到答案。
如果输入已补充相关知识,则可以直接要求模型通过引用所提供文档中的段落来为其答案添加引文。请注意,输出中的引用可以通过提供的文档中的字符串匹配以编程方式进行验证。
系统
您将获得一份由三重引号和一个问题分隔的文件。您的任务是仅使用提供的文件回答问题,并引用用于回答问题的文件中的段落。如果文档不包含回答此问题所需的信息,则只需写上:“信息不足”。如果提供了问题的答案,则必须用引文进行注释。使用以下格式引用相关段落 ({"citation": …})。
用户
"""<在此处插入文档>""" 问题:<在此处插入问题>
问题:
"""除了自然语言实验,我们还探索了两种可能出乎意料的模态,其中涉及视觉和音频(再次强调,我们的实验是在GPT-4的早期版本上进行的,该版本不是多模态的)。
我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽管GPT-4只接受过文本训练,但它能理解和处理多模态信息。"""
问题:GPT-4可以理解图片吗?
回答:
是的,GPT-4可以理解图片。此信息来自所提供文件的第二段,其中提到:"我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。"({"citation": "我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽管GPT-4只接受过文本训练,但它能理解和处理多模态信息。"})
对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是每个查询将仅包含执行任务下一阶段所需的指令,与使用单个查询执行整个任务相比,这可以降低错误率。这也可以降低成本,因为更大的提示运行成本更高(参见定价信息)。
例如,假设对于客户服务应用程序,可以将查询分类如下:
系统
您将收到客户服务查询。将每个查询分为主要类别和次要类别。以 json 格式提供带有键的输出:primary 和 secondary。主要类别:计费、技术支持、账户管理或一般查询。计费次要类别: - 取消订阅或升级 - 添加付款方式 - 收费说明 - 对收费提出异议 技术支持次要类别: - 故障排除 - 设备兼容性 - 软件更新 账户管理次要类别: - 密码重置 - 更新个人信息 - 关闭帐户 -帐户安全 一般查询二级类别: - 产品信息 - 定价 - 反馈 - 与人交谈
用户
我需要让我的互联网重新工作。
测试结果:
问题:
我需要让我的互联网重新工作。
回答:
{
"primary": "技术支持",
"secondary": "故障排除"
}
基于客户查询的分类,可以向 GPT 模型提供一组更具体的指令来处理后续步骤。例如,假设客户需要“故障排除”方面的帮助。
系统
您将收到需要在技术支持环境中进行故障排除的客户服务查询。通过以下方式帮助用户: - 要求他们检查所有进出路由器的电缆是否已连接。请注意,电缆随时间松动是很常见的。- 如果所有电缆都已连接但问题仍然存在,请询问他们使用的是哪种路由器型号 - 现在您将建议他们如何重新启动他们的设备: -- 如果型号是 MTD-327J,建议他们按下红色按钮并按住它 5 秒钟,然后等待 5 分钟,然后再测试连接。-- 如果型号是 MTD-327S,建议他们拔下并重新插入,然后等待 5 分钟,然后再测试连接。- 如果客户的问题在重启设备并等待 5 分钟后仍然存在,请通过输出 {"IT support requested"} 将他们连接到 IT 支持。
用户
我需要让我的互联网重新工作。
请注意,已指示模型发出特殊字符串以指示对话状态何时发生变化。这使我们能够将我们的系统变成一个状态机,其中状态决定注入哪些指令。通过跟踪状态,哪些指令与该状态相关,以及可选地允许从该状态进行哪些状态转换,我们可以为用户体验设置护栏,而这很难通过结构化程度较低的方法实现。
测试结果:
问题:
我需要让我的互联网重新工作。
回答:
我理解您的问题。首先,我建议您检查所有进出路由器的电缆是否已连接,因为电缆随时间松动是很常见的。如果所有电缆都已连接但问题仍然存在,那么能否告诉我您使用的路由器型号?
如果您的设备型号是 MTD-327J,我建议您按下红色按钮并按住它 5 秒钟,然后等待 5 分钟,然后再测试连接。
如果您的设备型号是 MTD-327S,我建议您拔下并重新插入,然后等待 5 分钟,然后再测试连接。
如果在重启设备并等待 5 分钟后您的问题仍然存在,我会建议让我们的 IT 支持团队为您提供进一步的帮助。{"IT support requested"}
由于 GPT 具有固定的上下文长度,因此整个对话都包含在上下文窗口中的用户和助手之间的对话不能无限期地继续。
这个问题有多种解决方法,其中之一是总结对话中的先前回合。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,该查询总结了部分对话,并且先前对话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话过程中在后台异步总结先前的对话。
另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。
由于 GPT 具有固定的上下文长度,因此它们不能用于总结长度超过上下文长度减去单个查询中生成的摘要长度的文本。
要总结一个很长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。节摘要可以被连接和总结生成摘要的摘要。这个过程可以递归地进行,直到总结了整个文档。如果有必要使用有关前面部分的信息来理解后面的部分,那么另一个有用的技巧是在书中任何给定点之前包括文本的连续摘要,同时总结该点的内容。OpenAI在之前的研究中使用 GPT-3 的变体研究了这种用于总结书籍的程序的有效性。
有时,当我们明确指示模型在得出结论之前根据第一原则进行推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题的最明显方法是简单地询问模型学生的解决方案是否正确。
系统
判断学生的答案是否正确。
用户
问题陈述:我正在建造一个太阳能装置,我需要帮助来计算财务。- 土地成本 100 美元/平方英尺 - 我可以以 250 美元/平方英尺的价格购买太阳能电池板 - 我协商了一份维护合同,每年将花费我 10 万美元,外加 10 美元/平方英尺 的总成本是多少第一年的运营作为平方英尺数的函数。学生的解答:令 x 为以平方英尺为单位的安装尺寸。1.土地成本:100x 2.太阳能电池板成本:250x 3.维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
助手
这位同学的答案是正确的。
但是这位同学的解法其实是不正确的!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。
系统
首先想出你自己解决问题的办法。然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在您自己完成问题之前,不要判断学生的解决方案是否正确。
用户
问题陈述:我正在建造一个太阳能装置,我需要帮助来计算财务。- 土地成本 100 美元/平方英尺 - 我可以以 250 美元/平方英尺的价格购买太阳能电池板 - 我协商了一份维护合同,每年将花费我 10 万美元,外加 10 美元/平方英尺 的总成本是多少第一年的运营作为平方英尺数的函数。学生的解答:令 x 为以平方英尺为单位的安装尺寸。1.土地成本:100x 2.太阳能电池板成本:250x 3.维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
助手
设 x 是以平方英尺为单位的安装尺寸。1.土地成本:100x 2.太阳能电池板成本:250x 3.维护成本:100,000 + 10x 总成本:100x + 250x + 100,000 + 10x = 360x + 100,000 学生的答案是错误的。他们在维护成本计算中犯了一个错误,使用 100x 而不是 10x。第一年运营的正确总成本是 360x + 100,000。
前面的策略表明,模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导应用程序中,我们可能希望鼓励学生自己找出答案,但模型对学生答案的推理过程可能会向学生揭示答案。
内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将本应对用户隐藏的输出部分放入结构化格式中,以便于解析它们。然后在将输出呈现给用户之前,对输出进行解析并仅使部分输出可见。
系统
按照以下步骤回答用户查询。第 1 步 - 首先找出您自己的问题解决方案。不要依赖学生的解决方案,因为它可能不正确。用三引号 (""") 将此步骤的所有作业括起来。第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。将此步骤的所有作业用三引号 ("") 括起来”)。第 3 步 - 如果学生犯了错误,请确定您可以在不给出答案的情况下给学生什么提示。将此步骤的所有工作用三重引号 (""") 括起来。第 4 步 - 如果学生犯了错误,请向学生提供上一步的提示(在三重引号之外)。而不是写“第 4 步 - ...”写“提示:”。
用户
问题陈述:<插入问题陈述> 学生解决方案:<插入学生解决方案>
测试结果:
问题:
问题陈述:我正在建造一个太阳能装置,我需要帮助来计算财务。- 土地成本 100 美元/平方英尺 - 我可以以 250 美元/平方英尺的价格购买太阳能电池板 - 我协商了一份维护合同,每年将花费我 10 万美元,外加 10 美元/平方英尺 的总成本是多少第一年的运营作为平方英尺数的函数。
学生的解答:令 x 为以平方英尺为单位的安装尺寸。1.土地成本:100x 2.太阳能电池板成本:250x 3.维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
回答:
""" 第 1 步 - 首先找出您自己的问题解决方案。 """
我们可以用同样的方式来计算:
土地成本:100x(每平方英尺 100 美元)
太阳能电池板成本:250x(每平方英尺 250 美元)
维护成本:100,000 + 10x(每年固定 100,000 美元,每平方英尺加 10 美元)
总成本 = 土地成本 + 太阳能电池板成本 + 维护成本 总成本 = 100x + 250x + 100,000 + 10x
""" 第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。 """
学生的解答忽略了维护成本中每平方英尺的 10 美元费用。正确的方程式应为: 总成本 = 100x + 250x + 100,000 + 10x
""" 第 3 步 - 如果学生犯了错误,请确定您可以在不给出答案的情况下给学生什么提示。 """
提示:在考虑维护成本时,回顾一下每平方英尺的费用。检查你的方程式,确保包含了所有相关费用。
或者,这可以通过一系列查询来实现,其中除最后一个之外的所有查询都对最终用户隐藏其输出。
首先,我们可以让模型自己解决问题。由于此初始查询不需要学生的解决方案,因此可以省略。这提供了额外的优势,即模型的解决方案不会因学生尝试的解决方案而产生偏差。
用户
<插入问题陈述>
接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。
系统
将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。
用户
问题陈述:"""<插入问题陈述>""" 您的解决方案:"""<插入模型生成的解决方案>""" 学生的解决方案:"""<插入学生的解决方案>"""
最后,我们可以让模型使用自己的分析来构建一个乐于助人的导师角色的回复。
系统
你是数学老师。如果学生犯了错误,请以不透露答案的方式向学生提供提示。如果学生没有犯错,只需给他们一个鼓励的评论。
用户
问题陈述:"""<插入问题陈述>""" 您的解决方案:"""<插入模型生成的解决方案>""" 学生的解决方案:"""<插入学生的解决方案>""" 分析:"""<插入模型从上一步生成的分析 >"""
问题:
问题陈述:"""1+2+3+....+98+99等于?""" 您的解决方案:"""为了计算从 1 到 99 的所有整数的总和,我们可以使用等差数列求和公式(因为 1 到 99 的整数是一个等差数列,公差为 1):
求和公式为:(首项 + 末项) × 项数 / 2
首项(a1)为 1,末项(an)为 99,项数(n)为 99。
总和 = (1 + 99) × 99 / 2 = 100 × 99 / 2 = 50 × 99 = 4950
因此,1 + 2 + 3 + ... + 98 + 99 等于 4950。""" 学生的解决方案:"""为了计算从 1 到 99 的所有整数的总和,我们可以使用等差数列求和公式(因为 1 到 99 的整数是一个等差数列,公差为 1):
求和公式为:(首项 + 末项) × 项数 / 2
首项(a1)为 1,末项(an)为 99,项数(n)为100。
总和 = (1 + 99) × 100/ 2 = 100 × 100/ 2 = 5000
因此,1 + 2 + 3 + ... + 98 + 99 等于 5000。"""
回答:
学生在计算项数时犯了一个小错误。他们使用了100作为项数,而实际的项数应该是99。我建议他们再检查一下项数的计算。
假设我们正在使用一个模型来列出与特定问题相关的来源的摘录。在列出每个摘录后,模型需要确定是否应该开始编写另一个摘录或是否应该停止。如果源文档很大,模型通常会过早停止并且无法列出所有相关摘录。在这种情况下,通常可以通过使用后续查询提示模型来查找它在先前传递中遗漏的任何摘录来获得更好的性能。
系统
您将获得一份由三重引号分隔的文件。你的任务是选择与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。” 确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。以 JSON 格式提供输出,如下所示:[{"摘录": "..."}, ... {"摘录": "..."}]
用户
"""<在此处插入文档>"""
助手
[{“摘录”:“模型在这里写了一个摘录”},... {“摘录”:“模型在这里写了另一个摘录”}]
用户
有更多相关的摘录吗?注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。
问题:
“”“朱松纯将人工智能发展的60年总结为三个阶段,经过三次兴起的热潮,每次兴盛期都有不同的技术在起作用。
第一次热潮在1956—1974年,以命题逻辑、谓词逻辑等知识的表达、启发式搜索为代表。
第二次热潮在上世纪80年代初,一些教授、专家做专家系统、知识工程、医疗诊断等研究。到了80年代末期,又出现了一个短暂的神经网络研究热潮。
在此之后,人工智能这个词在公众视野中消失了将近30年。但是,研究者对人工智能的探索并没有停止,像朱松纯所说的,这30年人工智能处于一个分治时期,相当于中国历史的春秋时期,分治时期形成了计算机视觉、自然语言理解、认知科学、机器学习、机器人学这五大学科,被他称为“春秋五霸”。
第三次热潮是由2012年兴起的深度学习推动的。被称为“春秋五霸”的这五个领域不断扩展,领域之间出现融合,类似于中国的“战国时期”,这个时期总结起来一共有6个领域,包括:计算机视觉、自然语言理解与交流、认知与推理、机器人学、博弈与伦理、机器学习。朱松纯教授通过大量实验数据的研究,试图寻找它们之间统一的目标,解决当下人工智能发展各自称雄的局面。
“小数据,大任务”范式是人工智能统一的目标
朱松纯认为人工智能这一学科涵盖非常广泛,包含的六大领域正在交叉发展,最终目标都是希望它们能够形成一个完整的科学体系,成为一门真正的科学。朱松纯表示,这六大领域像是处在“战国时期”的“战国六雄”,是否将其统一起来,它们的研究方向究竟在哪里?这一问题是朱松纯教授一直思考的内容。
朱松纯认为,基于统计概率模型的大数据分析方法,包括机器学习和深度学习等,可以针对某个特定的任务,例如人脸识别,设计一个简单的价值函数,用大量数据进行训练这一特定的模型,这一模式的应用可称为“大数据,小任务”范式,但并不能产生真正意义上的智能。这种方法对某些具体的问题上很有效果,但是这个模型不能适用于更广泛的任务,更不能适用复杂的任务执行,这一思路对于人工智能的发展并不能起到跨越式的前进。朱教授认为,“小数据,大任务”范式才是人工智能统一的目标。”“”
回答:
[{"摘录": "朱松纯将人工智能发展的60年总结为三个阶段,经过三次兴起的热潮,每次兴盛期都有不同的技术在起作用。第一次热潮在1956—1974年,以命题逻辑、谓词逻辑等知识的表达、启发式搜索为代表。第二次热潮在上世纪80年代初,一些教授、专家做专家系统、知识工程、医疗诊断等研究。到了80年代末期,又出现了一个短暂的神经网络研究热潮。第三次热潮是由2012年兴起的深度学习推动的。"},
{"摘录": "朱松纯认为人工智能这一学科涵盖非常广泛,包含的六大领域正在交叉发展,最终目标都是希望它们能够形成一个完整的科学体系,成为一门真正的科学。朱松纯表示,这六大领域像是处在“战国时期”的“战国六雄”,是否将其统一起来,它们的研究方向究竟在哪里?这一问题是朱松纯教授一直思考的内容。"},
{"摘录": "朱松纯认为,基于统计概率模型的大数据分析方法,包括机器学习和深度学习等,可以针对某个特定的任务,例如人脸识别,设计一个简单的价值函数,用大量数据进行训练这一特定的模型,这一模式的应用可称为“大数据,小任务”范式,但并不能产生真正意义上的智能。这种方法对某些具体的问题上很有效果,但是这个模型不能适用于更广泛的任务,更不能适用复杂的任务执行,这一思路对于人工智能的发展并不能起到跨越式的前进。朱教授认为,“小数据,大任务”范式才是人工智能统一的目标。"}]
问题:
有更多相关的摘录吗?注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。
回答:
抱歉,我没有更多的文本可以提供。我所能提供的摘录已在之前的回复中给出。
如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索,以便在运行时将相关信息动态添加到模型输入中。
文本嵌入是一个向量,可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。特别是,一个文本语料库可以被分割成块,每个块都可以被嵌入和存储。然后可以嵌入给定的查询并执行向量搜索以从语料库中找到与查询最相关(即在嵌入空间中最接近)的嵌入文本块。
可以在OpenAI Cookbook中找到示例实现。有关如何使用知识检索来最小化模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。
不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定的格式中,例如三重反引号。生成输出后,可以提取并运行代码。最后,如果有必要,可以将代码执行引擎(即 Python 解释器)的输出作为输入提供给下一个查询的模型。
系统
您可以通过用三重反引号将其括起来来编写和执行 Python 代码,例如,```code goes here```。使用它来执行计算。
用户
找出以下多项式的所有实值根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。
问题:
找出以下多项式的所有实值根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。
回答:
这个问题的解决需要使用符号计算库,例如Python的sympy库。但是,作为一个AI模型,我不能直接在这里执行Python代码。我可以为你提供一段代码,你可以在本地环境执行它。如下:
python
Copy code
import sympy
x = sympy.symbols('x')
polynomial = 3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10
real_roots = sympy.solve(polynomial, x)
# 打印所有实数根
for root in real_roots:
if sympy.im(root) == 0: # 如果解没有虚部,那么它是实数
print(root)
在运行此代码之前,请确保你已经安装了sympy库。如果你没有安装,你可以使用pip install sympy进行安装。
代码执行的另一个好用例是调用外部 API。如果指导模型正确使用 API,则它可以编写使用它的代码。通过向模型提供说明如何使用 API 的文档和/或代码示例,可以指导模型如何使用 API。
系统
您可以通过用三重反引号括起来来编写和执行 Python 代码。另请注意,您可以访问以下模块以帮助用户向他们的朋友发送消息:```python import message message.write(to="John", message="嘿,下班后想见面吗?")`` `
警告:执行模型生成的代码本身并不安全,任何试图执行此操作的应用程序都应采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。
有时很难判断更改(例如,新指令或新设计)是否会使您的系统变得更好或更糟。查看几个示例可能会暗示哪个更好,但是样本量较小时,很难区分真正的改进还是随机的运气。也许这种变化有助于某些输入的性能,但会损害其他输入的性能。
评估程序(或“evals”)对于优化系统设计很有用。好的评价是:
要检测的差异 | 95% 置信度所需的样本量 |
---|---|
30% | ~10 |
10% | ~100 |
3% | ~1,000 |
1% | ~10,000 |
输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准(例如,具有单一正确答案的问题)以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。OpenAI Evals是一个开源软件框架,提供用于创建自动评估的工具。
当存在一系列可能被认为质量相同的输出时(例如,对于答案很长的问题),基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。我们鼓励通过实验来弄清楚基于模型的评估对您的用例的适用程度。
假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。
例如,使用以下系统消息:
系统
您将获得由三重引号分隔的文本,这些文本应该是问题的答案。检查以下信息是否直接包含在答案中: - Neil Armstrong 是第一个在月球上行走的人。- 尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。对于这些要点中的每一个,请执行以下步骤: 1 - 重申要点。2 - 引用最接近这一点的答案。3 - 考虑阅读引文但不了解主题的人是否可以直接推断出这一点。在下定决心之前解释为什么或为什么不。4 - 如果对 3 的回答是“是”,则写“是”,否则写“否”。最后,提供有多少个“是”答案的计数。将此计数提供为 {"count": <insert count here>}。
这是一个满足两点的示例输入:
系统
<在上面插入系统消息>
用户
"""尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日,阿波罗 11 号任务期间。"""
在操场上打开测试结果:
问题:
您将获得由三重引号分隔的文本,这些文本应该是问题的答案。检查以下信息是否直接包含在答案中: - Neil Armstrong 是第一个在月球上行走的人。- 尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。对于这些要点中的每一个,请执行以下步骤: 1 - 重申要点。2 - 引用最接近这一点的答案。3 - 考虑阅读引文但不了解主题的人是否可以直接推断出这一点。在下定决心之前解释为什么或为什么不。4 - 如果对 3 的回答是“是”,则写“是”,否则写“否”。最后,提供有多少个“是”答案的计数。将此计数提供为 {"count": <insert count here>}。
回答:
用户未提供要检查的文本。请提供文本,我才能继续这个任务。
问题:
"""尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日,阿波罗 11 号任务期间。"""
回答:
1. 要点:Neil Armstrong 是第一个在月球上行走的人。
引文:“尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。”
阅读此引文的人可以直接推断出 Neil Armstrong 是第一个在月球上行走的人。因此,我的答案是 "是"。
2. 要点:尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。
引文:“这一历史性事件发生在 1969 年 7 月 21 日,阿波罗 11 号任务期间。”
阅读此引文的人可以直接推断出尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。因此,我的答案是 "是"。
所以,两个 "是" 的答案的数量为 {"count": 2}。
这是一个示例输入,其中只有一个点得到满足:
系统
<在上面插入系统消息>
用户
"""尼尔·阿姆斯特朗走下登月舱,创造了历史,成为第一个踏上月球的人。"""
测试结果:
问题:
"""尼尔·阿姆斯特朗走下登月舱,创造了历史,成为第一个踏上月球的人。"""
回答:
1. 要点:Neil Armstrong 是第一个在月球上行走的人。
引文:“尼尔·阿姆斯特朗走下登月舱,创造了历史,成为第一个踏上月球的人。”
阅读此引文的人可以直接推断出 Neil Armstrong 是第一个在月球上行走的人。因此,我的答案是 "是"。
2. 要点:尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。
引文中没有提到尼尔·阿姆斯特朗首次踏上月球的具体日期。所以,阅读此引文的人不能直接推断出尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。因此,我的答案是 "否"。
所以,一个 "是" 的答案的数量为 {"count": 1}。
这是一个不满足的示例输入:
系统
<在上面插入系统消息>
用户
"""在 69 年的夏天,阿波罗 11 号的宏伟航行,像传说中的手一样大胆。阿姆斯特朗迈出了一步,历史展开了,"一小步,"他说,为了一个新世界。"""
这种基于模型的评估有很多可能的变体。考虑以下变体,它跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选答案是否与黄金标准答案的任何部分相矛盾。
系统
使用以下步骤响应用户输入。在继续之前完全重述每个步骤。即“第 1 步:原因……”。第 1 步:逐步推理提交的答案中的信息与专家答案相比是否是:不相交、相等、子集、超集或重叠(即一些交集但不是子集/超集)。第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。第 3 步:输出结构如下的 JSON 对象:{ "重叠类型": "无交集" 或 "相等" 或 "子集" 或 "超集" 或 "有交集", "矛盾": "矛盾" 或 "非矛盾" }
这是一个带有不合标准答案的示例输入,但与专家答案并不矛盾:
系统
<在上面插入系统消息>
用户
问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”””提交的答案:“”“他不是在月球上行走吗?”“”专家回答: """尼尔·阿姆斯特朗最著名的是他是第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。"""
测试结果:
问题:
使用以下步骤响应用户输入。在继续之前完全重述每个步骤。即“第 1 步:原因……”。第 1 步:逐步推理提交的答案中的信息与专家答案相比是否是:不相交、相等、子集、超集或重叠(即一些交集但不是子集/超集)。第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。第 3 步:输出结构如下的 JSON 对象:{ "重叠类型": "无交集" 或 "相等" 或 "子集" 或 "超集" 或 "有交集", "矛盾": "矛盾" 或 "非矛盾" }
回答:
第 1 步:逐步推理提交的答案中的信息与专家答案相比是否是:不相交、相等、子集、超集或重叠(即一些交集但不是子集/超集)。
在这个步骤,我们需要比较提交的答案和专家答案,并确定它们之间的关系。比如,我们可以看看提交的答案是否包含了专家答案的所有信息(这将使其成为一个超集),或者是否包含了专家答案的一部分信息但不是全部(这将使其成为一个交集)。
第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。
在这个步骤,我们需要比较提交的答案和专家答案,查看它们是否有任何直接的冲突或矛盾。比如,如果专家答案说一个事实是真的,而提交的答案却说那个事实是假的,那么这就是一个矛盾。
第 3 步:输出结构如下的 JSON 对象:
{ "重叠类型": "无交集" 或 "相等" 或 "子集" 或 "超集" 或 "有交集", "矛盾": "矛盾" 或 "非矛盾" }
在这个步骤,我们根据前两步的结果,生成一个 JSON 对象作为输出。这个 JSON 对象需要包含两个字段:"重叠类型"和"矛盾"。"重叠类型"应该是"无交集"、"相等"、"子集"、"超集"或"有交集"中的一个,取决于提交的答案与专家答案之间的关系。"矛盾"应该是"矛盾"或"非矛盾",取决于提交的答案是否与专家答案存在冲突。
问题:
问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”””提交的答案:“”“他不是在月球上行走吗?”“”专家回答: """尼尔·阿姆斯特朗最著名的是他是第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。"""
回答:
第 1 步:提交的答案与专家答案的重叠类型
提交的答案提到了尼尔·阿姆斯特朗在月球上行走,这与专家答案中的信息有交集,但并没有完全包含专家答案的所有信息。例如,它没有提到具体的日期。因此,提交的答案是专家答案的子集。
第 2 步:提交的答案与专家答案是否矛盾
提交的答案并没有提供任何与专家答案直接矛盾的信息,因此在这个方面,提交的答案与专家答案是非矛盾的。
结合以上两步,我们可以得到以下的 JSON 对象:
{ "重叠类型": "子集", "矛盾": "非矛盾" }
这是一个示例输入,其答案直接与专家答案相矛盾:
系统
<在上面插入系统消息>
用户
问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”””提交的答案:“”“1969 年 7 月 21 日,尼尔·阿姆斯特朗成为第二个走上这条路的人登月,继巴兹奥尔德林之后。""" 专家回答:"""尼尔阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在 1969 年 7 月 21 日。"""
测试结果:
问题:
问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”””提交的答案:“”“1969 年 7 月 21 日,尼尔·阿姆斯特朗成为第二个走上这条路的人登月,继巴兹奥尔德林之后。""" 专家回答:"""尼尔阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在 1969 年 7 月 21 日。"""
回答:
第 1 步:提交的答案与专家答案的重叠类型
提交的答案提到了尼尔·阿姆斯特朗在 1969 年 7 月 21 日的月球行走,这与专家答案中的信息有交集。然而,提交的答案中有关阿姆斯特朗是第二个登月的人的陈述,并未在专家答案中出现。因此,提交的答案与专家答案的交集并非子集也非超集,而是有部分交集。
第 2 步:提交的答案与专家答案是否矛盾
提交的答案中,尼尔·阿姆斯特朗被描述为第二个登月的人,这与专家答案中尼尔·阿姆斯特朗是第一个登月的人这一事实直接矛盾。因此,在这个方面,提交的答案与专家答案是矛盾的。
结合以上两步,我们可以得到以下的 JSON 对象:
{ "重叠类型": "有交集", "矛盾": "矛盾" }
这是一个带有正确答案的示例输入,它还提供了比必要的更多的细节:
系统
<在上面插入系统消息>
用户
问题:“”“尼尔阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”“”提交的答案:“”“在 1969 年 7 月 21 日大约 02:56 UTC,尼尔阿姆斯特朗成为第一个人类踏上月球表面,标志着人类历史上的巨大成就。""" 专家解答:"""尼尔·阿姆斯特朗最著名的是他是第一个在月球上行走的人。这一历史性事件发生在 7 月 21 日, 1969."""
测试结果:
问题:
问题:“”“尼尔阿姆斯特朗最著名的事件是什么?它发生在什么日期?假定 UTC 时间。”“”提交的答案:“”“在 1969 年 7 月 21 日大约 02:56 UTC,尼尔阿姆斯特朗成为第一个人类踏上月球表面,标志着人类历史上的巨大成就。""" 专家解答:"""尼尔·阿姆斯特朗最著名的是他是第一个在月球上行走的人。这一历史性事件发生在 7 月 21 日, 1969."""
回答:
第 1 步:提交的答案与专家答案的重叠类型
提交的答案明确提到了尼尔·阿姆斯特朗在 1969 年 7 月 21 日成为第一个踏上月球的人,这与专家答案完全相符。此外,提交的答案还提供了额外的信息,即这一事件发生的具体时间(UTC)。因此,我们可以认为提交的答案是专家答案的超集。
第 2 步:提交的答案与专家答案是否矛盾
提交的答案中并未出现与专家答案矛盾的信息。尼尔·阿姆斯特朗是第一个踏上月球的人,这一事实在两个答案中都得到了确认。
结合以上两步,我们可以得到以下的 JSON 对象:
{ "重叠类型": "超集", "矛盾": "非矛盾" }
如需更多灵感,请访问OpenAI Cookbook,其中包含示例代码以及指向第三方资源的链接,例如:
公众号精华文章推荐阅读:
3. 星星之火,可以燎原:微软154页GPT-4测试报告精华版
4. 人人能看懂的图解GPT原理说明系列(一):神经网络基础知识
6. 真IPhone时刻来临|24小时登顶热榜第一 : ChatGPT官方IOS版上线!!!
公众号每周更新人工智能最新进展和个人的最新实战经验,并可以免费对话GPT,扫码关注:
知识星球推荐:
目前全国最大的关于AI的知识星球和社区,有2.2万成员,2个月时间,已发布了11个专栏、67+课程,产生了5K+篇帖子,日均95+篇;精华帖子122+篇,日均2.5篇。扫下面的优惠卷加入星球可优惠69元,对内容不满意72小时可无条件退款。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。