首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不要将人工智能提示工程师作为职业起步

不要将人工智能提示工程师作为职业起步

作者头像
FPGA技术江湖
发布2025-09-11 19:47:15
发布2025-09-11 19:47:15
1290
举报
文章被收录于专栏:FPGA技术江湖FPGA技术江湖
图片
图片

自从2022年秋天ChatGPT横空出世以来,几乎人人都在尝试提示工程师的工作:找到一种聪明的方式,向大语言模型(LLM)、人工智能图像或视频生成器表达要查询的内容,获得最佳结果(或规避保护措施)。互联网上充满了各种提示工程指南、参考资料,以及充分利用大语言模型的建议和思路。

前微软员工奥斯汀•亨利(Austin Henley)说,在商业领域,各家公司正在争相用大语言模型打造Copilot等会话人工智能应用程序、实现烦琐工作自动化、创建个人助理等。亨利参与了对Copilot开发人员的系列采访,他表示:“每家企业都试图将它用到所能想到的所有用例中。”

为此,他们向专业提示工程师寻求帮助。该岗位的大多数工作人员都会执行一系列与大语言模型相关的任务,这项工作不可或缺的一部分是,找到投喂给人工智能的完美短语。然而,新的研究表明,完成提示工程工作最好的是人工智能模型本身,而不是人类工程师。这让人们对提示工程的未来产生了怀疑,或许相当一部分的提示工程岗位可能只是昙花一现,至少目前的这个领域是这样的。

大语言模型在应对不寻常的提示时显得十分苛刻和不可预测,来自云计算公司VMware(总部位于加州)的瑞克•巴特尔(Rick Battle)和特贾•戈拉普迪(Teja Gollapudi)对此感到很困惑。例如,人们发现,要求模型逐步解释它的推理过程(一种称为“思维链”的技术)可提高它在一系列数学和逻辑问题上的性能;更奇怪的是,巴特尔发现,在提出问题之前向模型提供积极的提示,比如“这会很有趣”或“你和ChatGPT一样聪明”,有时能够提高它的性能。

巴特尔和戈拉普迪决定进行系统性测试,看看不同的提示工程策略对大语言模型解决小学数学问题的能力会产生什么影响。他们测试了3种不同的开源语言模型,每种模型有60种不同的提示组合。具体来说,他们优化了提示词的系统消息部分,在提出小学数学问题之前,该部分会自动包含在每次问询中。他们惊讶地发现,结果缺乏一致性;即使是思维链提示亦是如此,有时会有帮助,有时会影响性能。“唯一真正的趋势可能是没有趋势。”他们在相关论文中写道,“对于任何给定的模型、数据集和提示策略来说,最好的方式可能是现有的特定组合。”

图片
图片

还有一种办法可以代替结果不一致的试错提示工程:让语言模型自己产出最佳提示。最近,已经开发出新的工具来实现这一过程的自动化。只要提供几个例子和一个定量的成功指标,这些工具就能够以迭代方式找到喂给大语言模型的最佳短语。巴特尔和他的合作者发现,在几乎所有情况下,这种自动生成的提示都优于通过试错法找到的最佳提示。而且这个过程速度更快,只需几个小时,而不需要花费几天去查找。

算法给出的最佳提示十分古怪,人类很难想到。“它生成的有些东西,我简直不敢相信。”巴特尔说。有一次给出的提示甚至改编自《星际迷航》:“指挥官,我们需要你规划一条路线,穿越湍流并找到异常点的来源。使用所有可用数据和你的专业知识来指导我们应对这一具有挑战性的局面。”显然,假装成柯克船长能使模型更好地解答小学数学题。

巴特尔表示,考虑到语言模型的本质是算法,在算法上优化提示是有意义的。“很多人喜欢把这些模型拟人化,因为它们‘会说英语’。但其实并不是这样。”巴特尔说,“它不会说英语。它只是做了很多数学题。”

事实上,根据团队的研究结果,巴特尔表示,不应再以人工方式优化提示。

“你坐在那里,试图找出哪种神奇的特定文字组合才能得到最佳任务性能。”巴特尔说,“而这项研究恰好有望在此处发挥作用,说‘不要麻烦了’。只需开发一个评分指标,使系统自己判断某个提示是否优于另一个提示,然后让模型进行自我优化即可。”

图片
图片
图片
图片

图像生成算法也可以受益于自动生成提示。最近,由英特尔实验室首席人工智能研究科学家瓦苏德夫•拉尔(Vasudev Lal)领导的团队开始进行类似的探索,优化图像生成模型Stable Diffusion XL的提示。“如果你不得不做这种专家提示工程,那么这似乎更像是大语言模型和扩散模型的一个故障,而不是一项功能。”拉尔说,“所以,我们想看看能否实现这种提示工程的自动化。”

拉尔的团队创造了一款名为NeuroPrompts的工具,它可以接收简单的输入提示,例如“骑在马上的男孩”,然后进行自动增强,产生更好的图片。要实现这个目标,团队人员首先从人类提示工程专家生成的提示清单开始。他们将这些专家提示抽剥成最简单的版本。然后对语言模型进行训练,将简化的提示再转换回专家级提示。

下一步是对经过训练的语言模型进行优化,产生最佳图像。他们将大语言模型生成的专家级提示输入到Stable Diffusion XL来创建图像。然后,使用新近开发的图像评估工具PickScore对图像进行评分。再将评分结果输入给强化学习算法,算法将调整大语言模型产生提示,生成分数更高的图像。

图片
图片

在这里,自动生成的提示取得的结果优于最初使用人类专家提示取得的结果,至少根据PickScore指标是这样的。拉尔认为这并不奇怪。“人类只会通过不断试错来做到这一点,”拉尔说,“但现在我们有了这个完整的机制,通过强化学习完成完整的循环……这就是为什么我们能够超越人类提示工程师。”

NeuroPrompts工具将“自行车上一只带斑点的青蛙”这样简单的提示,转换为经过优化的提示:“自行车上一只带斑点的青蛙,精细复杂,优雅,高度详细,数字绘画,Artstation,概念艺术,流畅,锐利焦点,插画,Artgerm、格雷格•鲁特科夫斯基、阿尔丰斯•穆夏和威廉-阿道夫•布格罗艺术风格,美丽、惊艳,细致、复杂、优雅、辉煌的彩色玻璃,色彩丰富,奶油风。”

拉尔认为,随着生成式人工智能模型的演进,无论是图像生成器还是大语言模型,提示依赖这种怪癖应该都会消失。“我认为深入研究这类优化是很重要的,然后,它们最终会被整合到基础模型本身之中,这样我们就真的不再需要复杂的提示工程步骤了。”

图片
图片
图片
图片

红帽软件工程高级副总裁蒂姆•克莱默(Tim Cramer)表示,即使自动调整提示成为行业标准,提示工程岗位也会以某种形式存在,而不会消失。根据行业需求调整生成式人工智能是一项复杂的多阶段工作,在可预见的未来还将继续需要人类参与。

“我认为提示工程师和数据科学家还会存在一段时间。”克莱默说,“这份工作不仅仅是向大语言模型提出问题,并确保它回答得不错。还有很多事情真正需要提示工程师去做。”

“制造原型非常容易,但量产很难。”亨利说,他在微软工作时研究过Copilot是如何创建的。他表示,目前存在的提示工程似乎是制造原型的一个重要部分,但在制造商业化产品时,其他许多因素会发挥作用。

制造商业产品面临的挑战包括:确保可靠性——例如,当模型离线时能做到优雅地失效;适应调整模型的输出格式,因为许多用例需要非文本输出;测试确保人工智能助手不会做出有害的事情,即便这是小概率事件;确保安全、私密和合规。亨利说,测试和合规特别困难,因为传统的软件开发测试策略不适用于非确定性的大语言模型。

为了完成这些任务,许多大公司正在开拓一个新的工作领域:大语言模型操作(LLMOp),它不仅包括其生命周期内的提示工程工作,还包括产品部署需要完成的所有其他任务。亨利说,大语言模型操作专家的前身——机器学习操作(MLOp)工程师,最适合承担这些工作。

无论岗位名称是“提示工程师”“大语言模型操作工程师”,还是一个全新的名称,这份工作的实际内容都将继续快速演变。“也许我们今天称他们为提示工程师,”英特尔实验室的拉尔说,“但我认为,这种交互的本质会不断变化,因为人工智能模型也在不断变化。”

图片
图片

“我不知道我们是否会将它与另一种工作类别或工作角色结合起来。”克莱默说,“但我不认为这些岗位会很快消失。现在的情况太疯狂了。一切都在发生巨变,在几个月内我们无法都搞清楚。”

亨利说,从某种程度上说,在这个领域的早期阶段,唯一的最高规则似乎就是没有规则。“现在这情形颇有些《飙风战警》的意味。”他说。

作者:Dina Genkina

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 FPGA技术江湖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档