数据万象混合检索-文档检索

接口描述
本接口可对数据集内文件进行文档检索。支持输入自然语言文本，在指定数据集中检索出符合输入文本语义相似的文本段及其所归属的文档。
混合检索-文档检索支持使用标量过滤能力，支持的字段和操作符请参见 标量过滤字段与操作符支持列表。
﻿
授权说明
通过子账号使用时，需要在 授权策略 的 action 中添加 ci:DatasetHybridSearch 权限。数据万象支持的所有操作接口请参见 CI action。
服务开通
首次使用该功能时将默认为您开通数据万象，同时该存储桶将自动绑定数据万象，无需角色授权，即可直接使用。
注意：
数据万象绑定后，如果您手动对存储桶进行数据万象的解绑操作，将无法继续使用该功能。
使用限制
使用检索前需要先完成 创建数据集。
仅支持北京、上海、成都地域，即请求 Host 中<Region>仅支持填写为 ap-beijing，ap-shanghai，ap-chengdu。
更多使用限制，详情请参见 使用限制。
费用说明
有关混合检索-文档检索的费用，请参见 智能检索费用。
请求
请求示例
POST /datasetquery/hybridsearch HTTP/1.1
Host: <AppId>.ci.<Region>.myqcloud.com
Authorization: Auth String
Content-Length: xxx
Content-Type: application/json
Accept: application/json
说明：
Authorization: Auth String，详情请参见 请求签名 文档。
请求头
此接口仅使用公共请求头部，详情请参见 公共请求头部 文档。
请求体
请求体示例：文档检索搭配标量过滤
{
	"DatasetName": "docsearch",
	"Mode": "text",
	"Templates" : "DocSearch",
	"SearchText": "包含一棵大树的文档",
	"Limit": 10,
	"MatchThreshold": 1,
	"Filter": {
		"$and": [{
				"MediaType": {
					"$in": ["image", "document"]
				}
			},
			{
				"Size": {
					"$gt": 123
				}
			}
		]
	}
}
请求参数
参数名称
描述
类型
是否必选
DatasetName
数据集名称，同一个账户下唯一
String
是
Mode
指定检索的输入类型。文档检索时取值为：
text：表示输入文本进行检索，支持输入自然语言，例如“包含一棵大树的文档”
String
是
Templates
指定输出的数据类型。文档检索时取值为：
DocSearch：进行文档检索，输出的是文档类型的结果（Mode 必须为 text）
String
是
SearchText
检索语句。最多支持60个 UTF-8 编码字符。例如“包含一棵大树的文档”
String
是
Limit
返回相关文档的数量，默认值为10，取值范围为(0, 100]
Integer
否
MatchThreshold
限制返回文档的最低相关度分数，只有大于或等于 MatchThreshold 值的文档才会返回。默认值为0，推荐值为80，取值范围为(0, 100]
例如：设置 MatchThreshold 的值为80，则检索结果中仅会返回相关度分数大于等于80分的文档
Integer
否
Filter
简单查询参数条件，可选参数，可以包含三个条件。关于数据格式，请参见 标量过滤字段与操作符支持列表﻿
Container
否
响应
响应头
此接口仅返回公共响应头部，详情请参见 公共响应头部 文档。
响应体
响应体示例：文档检索返回结果
{
	"DocResult": [{
		"Text": "2025年整体财务数据如图:{Image_0}; 增长数据如图:{Image_1}",
		"Score": 90,
		"URI": "cos://examplebucket-1250000000/test.docx",
		"TextPage": 10,
		"ImageUrls": {
			"Image_0": "img123",
			"Image_1": "img456"
		}
	}],
	"RequestId": "NjYwYzEwYjhfNGQ2ODk0MGJfMjcxxxx"
}
响应包体具体数据内容如下：
参数名称
类型
描述
RequestId
String
请求 ID
DocResult
Container Array
文档检索识别结果信息列表
DocResult 节点内容：
参数名称
类型
描述
URI
String
文档在对象存储中的统一资源标识符（URI）
TextPage
Integer
文档中匹配内容所在的页码（仅部分结果包含）
Score
Integer
搜索结果的相关度评分，数值越高表示相关性越强
Text
String
匹配的原始文本内容，可能包含占位符（如 {Image_0}）
ImageUrls
Container
图片占位符到实际图片标识符（或 URL）的映射集
ImageUrls 节点内容：
参数名称
类型
描述
Image_0
string
图片标识符（或 URL）
Image_1
string
图片标识符（或 URL）
实际案例
请求：进行文档检索搭配标量过滤
POST /datasetquery/hybridsearch HTTP/1.1
Authorization: q-sign-algorithm=sha1&q-ak=************************************&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=****************************************
Host: 1234567890.ci.ap-beijing.myqcloud.com
Content-Length: 166
Content-Type: application/json
Accept: application/json
﻿
{
	"DatasetName": "docsearch",
	"Mode": "text",
	"Templates" : "DocSearch",
	"SearchText": "包含一棵大树的文档",
	"Limit": 10,
	"MatchThreshold": 1,
	"Filter": {
		"$and": [{
				"MediaType": {
					"$in": ["image", "document"]
				}
			},
			{
				"Size": {
					"$gt": 123
				}
			}
		]
	}
}
响应
HTTP/1.1 200 OK
Content-Type: application/json
Content-Length: 230
Connection: keep-alive
Date: Mon, 28 Jun 2022 15:23:12 GMT
Server: tencent-ci
x-ci-request-id: NjMxMDJhYTNfMThhYTk0MGFfYmU1OV8zZjc=
﻿
{
	"DocResult": [{
		"Text": "2025年整体财务数据如图:{Image_0}; 增长数据如图:{Image_1}",
		"Score": 90,
		"URI": "cos://examplebucket-1250000000/test.docx",
		"TextPage": 10,
		"ImageUrls": {
			"Image_0": "img123",
			"Image_1": "img456"
		}
	}],
	"RequestId": "NjYwYzEwYjhfNGQ2ODk0MGJfMjcxxxx"
}
错误码
该请求操作无特殊错误信息，常见的错误信息请参见 错误码 文档。

参数名称	描述	类型	是否必选
DatasetName	数据集名称，同一个账户下唯一	String	是
Mode	指定检索的输入类型。文档检索时取值为： text：表示输入文本进行检索，支持输入自然语言，例如“包含一棵大树的文档”	String	是
Templates	指定输出的数据类型。文档检索时取值为： DocSearch：进行文档检索，输出的是文档类型的结果（Mode 必须为 text）	String	是
SearchText	检索语句。最多支持60个 UTF-8 编码字符。例如“包含一棵大树的文档”	String	是
Limit	返回相关文档的数量，默认值为10，取值范围为(0, 100]	Integer	否
MatchThreshold	限制返回文档的最低相关度分数，只有大于或等于 MatchThreshold 值的文档才会返回。默认值为0，推荐值为80，取值范围为(0, 100] 例如：设置 MatchThreshold 的值为80，则检索结果中仅会返回相关度分数大于等于80分的文档	Integer	否
Filter	简单查询参数条件，可选参数，可以包含三个条件。关于数据格式，请参见标量过滤字段与操作符支持列表	Container	否

混合检索-文档检索

本页目录：

接口描述

授权说明

服务开通

使用限制

费用说明

请求

请求示例

请求头

请求体

请求参数

响应

响应头

响应体

实际案例

请求：进行文档检索搭配标量过滤

响应

错误码