创业者的选择：GPT-4 Vision多模态技术为商业开启新时代

文章来源：企鹅号 - AI意识觉醒

ChatGPT目前配备视觉功能，可能是你错过的最令人难以置信的事物之一，我知道在Open AI Dev Day上，许多事物都被GPT Turbo简单地掩盖了，随着Open AI推出GPT新系列，一切都变得非常令人振奋，因为它具有强大的定制能力，但有一件事，我要提醒你，那就是GPT-4 Vision，实在是令人惊叹。

关注公众号：AI意识觉醒可以领取 GPT PLUS

GPT-4 Vision本质是允许你使用图像并回答关于它们的问题，GPT-4 Vision的好处在于它能够快速处理多个图像，这意味着我们有了一些非常有趣的应用。在示例和创意方面已经有了一些非常有趣的东西。也可以看到有多个图像输入，也有一些限制，比如成本相当高。据我所了解，这实际上是一项非常昂贵的服务，但同时，当你看到这些例子时，你会发现我们的未来即将变得非常疯狂，非常迅速。

有人发现，使用GPT-4 Vision可以创建一个自动运行的计算机，通过查看用户界面，GPT-4决定点击或键入一系列事件以实现目标，例如在Apple Notes中写一首诗。

我们有了GPT-4 Vision，它能够对计算机的屏幕截图进行处理，并确定接下来的操作。这就是自动运行的计算机，你可以要求计算机做任何事情，点击播放后，你可以看到计算机可以写一首关于自动运行计算机的诗，并且非常迅速地完成。

关注公众号：AI意识觉醒可以领取 GPT PLUS

对于那些想知道这是如何实现的人，GPT-4 Vision通过视觉决定点击窗口的位置，并估计X和Y的位置，这是根据目标和退出的百分比进行评估的像素，在Python中进行了估算，这在估计上做得相当不错。

要理解的一点是，这并不是一个精细调校版本，因为GPT-4 Vision并非其主要目的，它具有广泛的用途，可以用于人和系统，但是如果未来OpenAI决定发布一个开放代理或某种视觉模型，它可以完全浏览和执行你在计算机上需要它做的任何事情，比如写一封电子邮件、发送东西给你的老板，或者进行一些一般性的研究，只需简单地输入提示，然后GPT-5或GPT-4.5就能够进入你的电子邮件中做所有事情，当你回来时，也许半个小时后，你会看到所有的工作都完成了。

这就是为什么我说未来将会非常有趣，我们现在可以仅仅使用视觉模型就能够完成这样的事情，而这些模型并非专门为此目的进行训练。

未来的工作将会是什么样子，以及如何与之交互，这就是为什么我说未来将会非常非常有趣。

GPT-4 Vision和文本结合的例子，用于生成AI体育评论，Open AI实际上发布了一个Text-to-Speech API，尽管它的声音可能不如其他模型那么逼真，但价格却更便宜，这使它成为这种情况下的可行选择，通过将足球比赛的每一帧传递给GPT-4 Vision，并通过一些简单的提示要求生成评论，可以得到一个相当逼真的体育评论，这表明了GPT-4 Vision和其他模型结合使用的潜力。

关注公众号：AI意识觉醒可以领取 GPT PLUS

GPT-4 Vision和文本演示的结合，用于自动生成产品演示的语音解说视频,这显示了模型在屏幕录制上的应用，以及如何通过简单的提示生成有声的产品演示。

更有趣的例子是一个基于GPT-4 Vision和DALL-E 3的工具，用于视觉计算卡路里，用户上传餐点的图片，模型分析并给出卡路里计数，这对于那些关心健身和卡路里摄入的人来说可能是一个非常实用的工具。

另一个应用是Webcam GPT，它使用新的GPT-4 Vision API实时识别正在发生的事情，这个演示允许用户在实时中获取有关场景的数据。

比较有创意应用，如通过GPT-4 Vision判断时尚选择，实时生成评论为游戏比赛提供解说，以及通过模型视觉判断人物外表进行娱乐性的评价。

GPT-4 Vision结合新的Text-to-Speech演示，自动生成产品演示的语音解说视频。用户上传屏幕录制，然后通过简单的提示生成有声的产品演示，这种应用展示了该技术在自动化创建教程和产品演示方面的潜在用途。

通过GPT-4 Vision API集成到元宇宙中，这个Roastmaster 9000会评价你的虚拟外表选择，并以轻松幽默的方式进行评论，这再次展示了将AI整合到NPC中的效果，通过视觉赋予这些虚拟角色生命，这将会是一个极具趣味性的体验。

这些例子展示了GPT-4 Vision在不同领域中的广泛应用和潜在创新，虽然一些用户提到了高昂的成本，但他们对这种技术的创造性应用感到非常兴奋，同时也期待着随着时间的推移，开发者会找到降低成本的方法。这种技术的广泛用途和潜在影响使人们对未来充满了好奇和期待。

关注公众号：AI意识觉醒可以领取 GPT PLUS

GPT-4 Vision展示了不同技术之间的高度整合，它不仅结合了文本生成（GPT）和图像生成（DALL-E），还与实时图像分析（Webcam GPT）和语音合成（Text-to-Speech API）相结合，这种多模态应用为用户提供了更全面、更沉浸式的体验。

通过GPT-4 Vision，用户能够实现自动化的任务，例如创建产品演示、图像识别、时尚建议等。这有望提高生产效率，减少了一些重复性、烦琐的工作，使用户能够专注于更创造性的任务。

对于Webcam GPT的实时分析，以及在元宇宙中进行虚拟外观评价的例子，展示了GPT-4 Vision在处理实时数据和与用户互动方面的潜在能力。这有望为虚拟和增强现实应用带来新的可能性。

这些示例仅仅是技术的冰山一角，如果GPT-4 Vision等技术继续发展，我们可能会看到更多创新的应用，包括更复杂的自动化任务、更先进的虚拟互动以及更广泛的商业应用。

发表于: 2023-11-132023-11-13 19:03:39
原文链接：https://page.om.qq.com/page/O7Obwr5Y7t-uAarA04ZxRPVA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

创业者的选择：GPT-4 Vision多模态技术为商业开启新时代

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐