搜索引擎我们接触比较多的人工智能技术,大家更为熟悉的elasticsearch就是一种企业级全文检索引擎,如果用es去实现企业内部知识库的检索大概需要5个步奏去实现。
全文检索的准确度严重依赖分词器的分词结果,因此用户关键词的匹配程度决定了搜索结果,这在一定程度上在某些领域要求用户要掌握一定的搜索小技巧,例如程序员搜索一个异常“NullPointerExcepiton com.tencent.cloud.controller.staffController.getUid() ”,作为一个程序员一定知道搜索的过程中需要将自己的包名去掉搜索才能搜到关键信息“NullPointerExcepiton”
例如索引库中有“李四的电话是13333333333”,当用户搜索李四的手机号是什么的时候,电话和手机号在本语境下其实是同义词,如果要实现这个效果需要不断扩充同义词的词库
当用户输入中英文混杂、中文数字混杂情况下搜索准确度下降太快,例如007之金手指,搜索结果就会很混乱,一般解决这种问题的方法还是已添加词库来实现此类检索。
下一篇我们将详细分析RAG的两大关键技术。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。