在这个AI驱动的应用程序变得无处不在的时代,理解和管理语言模型的使用情况至关重要。OpenAI 一直处于开发高级语言模型的前沿,这些模型驱动着从聊天机器人到代码生成的众多应用程序。然而,随着应用程序的复杂性和规模的增长,观察确保最佳性能和成本效益的关键指标变得至关重要。特别是在性能和可靠性监控以及成本管理方面的需求,对于最大化语言模型的潜力至关重要。
随着组织采用 OpenAI 的多样化 AI 模型,包括语言模型(如 GPT-4o 和 GPT-3.5 Turbo)、图像模型(如 DALL·E)和音频模型(如 Whisper),全面的使用监控对于跟踪和优化每个模型的性能、可靠性、使用情况和成本至关重要。
Elastic 的新 OpenAI 集成 提供了开发人员和企业在使用这些模型时面临的挑战的解决方案。它旨在提供一个统一的视图,展示您所有模型类型的 OpenAI 使用情况。
OpenAI 的基于使用量的定价模式适用于所有这些服务,因此跟踪消耗量并识别正在使用的模型至关重要,以控制成本并优化部署。Elastic 的新 OpenAI 集成利用 OpenAI 使用 API 跟踪消耗量并识别特定的模型使用情况。它提供了一个开箱即用的体验,带有预构建的仪表板,简化了监控使用模式的过程。
继续阅读以了解您将通过集成获得的内容。我们还将向您展示设置过程、如何利用预构建的仪表板以及从 Elastic 的 LLM 可观测性中可以获得哪些见解。
要跟随本文,您需要:
如果您是 OpenAI 的新手,并希望尝试此集成,您可以快速设置它并使用示例数据填充您的仪表板。您只需要通过与 OpenAI API 交互生成一些使用数据。如果您没有 OpenAI API 密钥,可以在 这里 创建一个。有关身份验证的更多信息,请参阅 OpenAI 的 文档。
OpenAI 文档提供了每个 API 端点的详细示例。以下是生成示例使用数据的相关部分的直接链接:
您还可以探索更多端点以生成示例使用数据。
运行这些示例后(使用您的 API 密钥),请记住 OpenAI 使用 API 有一个延迟。使用数据出现在您的仪表板上可能需要一些时间(通常几分钟)。
要将 OpenAI 集成连接到您的 OpenAI 账户,您将需要 OpenAI 的 Admin API 密钥。集成将使用此密钥定期从 OpenAI 使用 API 检索使用数据。
该集成支持八个不同的 数据流,对应于不同类别的 OpenAI API 使用情况:
默认情况下,所有数据流都是启用的。您可以禁用任何与您的使用不相关的数据流。所有启用的数据流都会在一个综合仪表板中可视化,提供一个统一的使用视图。
对于高级用户,集成还提供了额外的配置选项,包括设置桶宽度和初始间隔。这些选项在官方集成 文档 中有详细记录。
您可以通过两种方式访问 OpenAI 仪表板:
预构建的仪表板提供了 OpenAI API 消耗的结构化视图,显示了关键指标,如令牌使用情况、API 调用分布和按模型调用次数。它突出了表现最佳的项目、用户和 API 密钥,并对图像生成、音频转录和文本到语音使用情况进行了细分。通过分析这些见解,用户可以跟踪使用模式并优化 AI 驱动的应用程序。
此仪表板部分显示了 OpenAI 的关键使用指标,包括调用率、令牌使用情况和表现最佳的模型。它还突出了调用总次数和令牌总数以及按对象类型的调用次数。理解这些见解可以帮助用户优化模型使用、降低成本并提高将 AI 模型集成到应用程序中的效率。
在这里,您可以分析基于调用次数的顶级项目 ID、用户 ID 和 API 密钥 ID。这些数据提供了宝贵的见解,帮助组织跟踪不同项目和应用程序的使用模式。
在此仪表板部分,您可以看到不同模型的令牌使用趋势。这可以帮助您分析输入类型(例如音频、嵌入、审核)、输出类型(例如音频)和输入缓存令牌的趋势。此信息可以帮助开发人员微调他们的提示并优化令牌消耗。
AI 生成的图像在各行各业中越来越受欢迎。本节提供了图像生成指标的概述,包括按模型的调用率和最 常见的输出尺寸。这些见解有助于评估调用成本并分析图像生成使用情况。
OpenAI 的 AI 驱动转录服务使语音到文本转换比以往任何时候都更容易。本节跟踪音频转录指标,包括调用率和每个模型的总转录秒数。理解这些趋势可以帮助企业在构建基于音频转录的应用程序时优化成本。
OpenAI 的文本到语音(TTS)模型为辅助工具和虚拟助手等应用程序提供了逼真的语音合成。本节探讨了 TTS 调用率和每个模型合成的字符数,提供了 AI 驱动语音合成采纳的见解。
与其他 Elastic 集成一样,所有日志和指标信息都可以充分利用 Elastic Observability 的每一项功能,包括 SLO、告警、自定义 仪表板、深入的 日志探索 等等。
为了主动管理您的 OpenAI 令牌使用并避免意外成本,请在 Observability Alerts 中 创建 自定义阈值规则。
示例:定位相关的数据流,并配置规则以汇总相关的令牌字段(如果适用,还包括其他令牌相关字段)。设置一个表示您期望的使用限制的阈值,如果在指定的时间范围内(例如每日或每小时)超过此限制,告警将通知您。
当满足告警条件时,告警通知中链接的告警详情视图提供了有关违规的详细见解,例如违规开始的时间、当前状态以及类似违规的历史记录,从而实现主动问题解决并提高系统弹性。
示例:要创建监控 OpenAI 中模型分布的 SLO,请首先定义自定义的度量 SLI 定义,添加良好事件,其中
openai.base.model
包含
gpt-3.5*
和包括所有 OpenAI 请求的总事件,按
openai.base.project_id
和
openai.base.user_id
分组。然后,设置一个合适的 SLO 目标,例如 80%,并在 7 天滚动窗口内监控,以识别可能过度使用较昂贵模型的项目和用户。
您现在可以按项目和用户跟踪不同 OpenAI 模型的请求分布。此示例展示了 Elastic 的 OpenAI 集成如何帮助您优化成本。通过监控由成本效益高的 GPT-3.5 模型处理的请求百分比(SLI)与 80% 目标(SLO)进行比较,您可以快速识别哪些特定项目或用户通过过度使用模型(如 GPT-4-turbo、GPT-4o 等)导致成本上升。这种可见性使得目标优化策略成为可能,确保您的 AI 计划在利用先进功能的同时保持成本效益。
现在,您知道 Elastic 的 OpenAI 集成为依赖 OpenAI 模型来驱动其应用程序的任何人提供了一个重要工具。通过提供一个全面且可自定义的仪表板,此集成使 SRE 和开发人员能够有效地监控性能、管理成本并轻松优化您的 AI 系统。现在,按照本文中的说明上手这个应用程序并开始监控您的 OpenAI 使用情况吧!我们非常希望听到您的反馈,并始终欢迎改进的建议。
要了解如何设置 OpenAI 驱动应用程序的应用性能监控(APM)跟踪,请阅读这篇 博客。有关进一步阅读和更多 LLM 可观测性用例,请探索 Elastic 的可观测性实验室博客 这里。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有