
该项目提供两种主要的使用方式:
pip安装项目包。(1)需求1:用户希望将数据检索(RAG)能力深度集成到核心操作符中,允许在映射、提取、归并和过滤等操作中,通过简单的配置引用外部知识库(如LanceDB向量数据库),并自动将检索到的上下文信息注入到提示词中,以增强LLM处理效果。
(2)需求2:用户希望为数据采样和排序操作增加元数据追踪能力,例如在执行基于向量相似度的“Top-K”检索时,不仅返回结果,还应附带每个结果的相似度分数和在结果集中的排名信息,以提升结果的可解释性。
(3)需求3:用户希望支持更灵活、基于自然语言的流水线生成方式,例如通过对话描述任务目标,由系统自动生成初始的流水线YAML配置,并将更强大的模型(如GPT-5)作为默认的生成引擎,以提升创建效率。
(4)需求4:用户希望为流水线添加交互式、可拖拽的可视化编辑界面,不仅用于运行,还能生成用于技术报告或论文的流程图,增强项目的演示和沟通能力。
(5)需求5:用户希望在操作符(如Gather)中扩展上下文获取策略,除了基于位置的临近块,还应支持基于语义相似度和关键词搜索来智能选取相关上下文,从而实现类似检索增强的处理效果。
(6)需求6:用户希望增加对特定文件格式(如Markdown)和更多非UTF-8文本编码(如欧洲语言常用的Windows-1252, ISO-8859-1)的原生支持,以提升项目在国际化场景下的适用性。
(7)需求7:用户希望优化系统的容错和降级机制,例如为大语言模型调用实现后备模型支持,当主模型调用失败时能自动切换到备用模型重试,提升流水线运行的稳定性和可靠性。
(8)需求8:用户希望为操作(特别是Map)增加输出结果限制功能,允许在处理过程中提前停止,例如只处理满足特定条件的前N个文档,以节省成本并快速验证流水线逻辑。
article id:eaf6e0af591eb5666006347a35b89801
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。