create

最近更新时间:2024-09-27 18:00:12

我的收藏

Method 与 URL

在已创建的 AI 类 Database 中创建 CollectionView:POST https://{实例访问 IP 地址}:{实例网络端口}/ai/collectionView/create

使用示例

注意:
如下示例 api_key 的值 A5VOgsMpGWJhUI0WmUbY******************** 与 10.0.X.X,需要分别替换为具体实例的 API Key 以及访问地址。
如下示例,为 AI 类数据库 db-test-ai,创建一个集合视图 coll-ai-files,用于直接存储文件。
curl -i -X POST \\
-H 'Content-Type: application/json' \\
-H 'Authorization: Bearer account=root&api_key=A5VOgsMpGWJhUI0WmUbY********************' \\
http://10.0.X.X:80/ai/collectionView/create \\
-d '{
"database": "db-test-ai",
"collectionView": "coll-ai-files",
"description": "this is a collection view description",
"embedding": {
"language": "zh",
"enableWordsEmbedding": true
},
"splitterPreprocess": {
"appendTitleToChunk": true,
"appendKeywordsToChunk": true,
"chunkSplitter": "\\n{2,}"
},
"indexes": [
{
"fieldName": "author",
"fieldType": "string",
"indexType": "filter"
},
{
"fieldName": "tags",
"fieldType": "array",
"indexType": "filter"
}
]
}'

请求参数

参数
参数含义
子参数
是否必选
配置方法
database
指定 CollectionView 所在的 Database 名称。
-
使用 /database/list 获取集群中的数据库列表,复制数据库名。
collectionView
指定 CollectionView 的名称。
-
CollectionView 命名要求如下:
只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。
长度要求:[1,128]。
description
指定 CollectionView 的描述信息
-
取值类型:string。
字符长度要求:[1,256]。
示例:this is the collection view description。
embedding
Embedding 相关配置
language
指定文件的语言类型,取值如下所示:
zh:中文。
en:英文。
multi:多语言。
enableWordsEmbedding
配置在检索时,是否开启词(Words)向量精排,并进行词向量化。
true:开启。
false:不开启,默认为 false
splitterPreprocess
文件预处理方式配置
appendTitleToChunk
在对文件拆分时,配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示:
false:不追加。默认值为 false。
true:将段落 Title 追加到切分后的段落,默认值为 true
appendKeywordsToChunk
在对文件拆分时,配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示:
false:不追加。
true:将全文的 keywords 追加到切分后的段落。默认值为 true。
chunkSplitter
以正则表达式的方式配置文档拆分方式,例如:
\\n{2,} 代表以两个及以上的换行进行拆分,常用在 QA 对文件拆分中。
indexes
配置需使用 Filter 索引的字段,以便检索时使用该字段的 Filter 条件表达式过滤查找文档。


fieldName
自定义配置可作为 Filter 索引的文件 meta 信息的标量字段名。
说明:
Filter 索引(Filter Index)是建立在标量字段的索引。该标量字段名称、类型均由用户自定义,不限制标量字段数量。
标量字段被建立 Filter 索引之后,向量检索时,将依据 Filter 指定的标量字段的条件表达式进行过滤查询和范围查询来匹配相似向量。
建立 Filter 索引时,选取需要使用 Filter 表达式高效过滤数据的标量字段。不做过滤查询、检索的标量字段不必建立 Filter 索引。切勿将所有标量字段建立索引,导致内存资源的浪费。
fieldType
指定自定义字段的数据类型。取值如下:
string:字符型。
uint64:指无符号整数(unsigned integer)。
array:数组类型,数组元素为 string。
indexType
该参数固定设置为 filter。

响应消息

{
"code": 0,
"msg": "operation success",
"affectedCount": 1
}
参数名
参数含义
affectedCount
影响行数,即为创建集合数量。