功能描述
本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据索引。
授权说明
使用限制
每个数据集最多可为1亿个文件建立元数据索引。
仅支持北京、上海地域,即请求Host中的
<Region>
仅支持填写为beijing
。请求
请求示例
POST /dataset HTTP/1.1Host: <AppId>.ci.<Region>.myqcloud.comAuthorization: Auth StringContent-Length: xxxContent-Type: application/jsonAccept: application/json
请求头
请求体
该请求操作的实现需要有以下请求体。
{"DatasetName": "test","Description": "test","TemplateId": "Official:COSBasicMeta"}
具体的数据内容如下:
参数名称 | 描述 | 类型 | 是否必选 |
DatasetName | 数据集名称,同一个账户下唯一。命名规则如下: 长度为1~32字符。 只能包含小写英文字母,数字,短划线(-)。 必须以英文字母和数字开头。 | String | 是 |
Description | 数据集描述信息。长度为1~256个英文或中文字符,默认值为空。 | String | 否 |
TemplateId | 与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子。 默认值为空,即不关联检索模板,不进行任何元数据的采集。 | String | 否 |
Version | 数据集版本。basic、standard,默认为basic。 | String | 否 |
Volume | Version为basic时为50w。Version为standard时,默认为500w,可设置1-10000,单位w。传0采用默认值。 | Integer | 否 |
TrainingMode | 训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于cos某个bucket目录下文件。仅在Version为standard时生效 | Integer | 否 |
TrainingDataset | 训练数据的数据集名称。仅在TrainingMode为0时生效。 | String | 否 |
TrainingURI | 训练数据的资源路径。仅在TrainingMode为1时生效。 | String | 否 |
响应
响应头
响应体
{"Dataset": {"BindCount": 0,"CreateTime": "2023-12-25 15:16:20.692674978 +0800 CST","DatasetName": "test","Description": "test","FileCount": 0,"TemplateId": "Official:COSBasicMeta","TotalFileSize": 0,"UpdateTime": "2023-12-25 15:16:20.692675128 +0800 CST"},"RequestId": "NWFjMzQ0MDZfOTBmYTUwXzZkZV8z****"}
响应包体具体数据内容如下:
参数名称 | 类型 | 描述 |
Dataset | Container | 数据集信息。 |
RequestId | string | 请求 ID。 |
Dataset 节点内容:
参数名称 | 类型 | 描述 |
BindCount | Long | 数据集当前绑定的 COS Bucket 数量。 |
CreateTime | String | 数据集创建时间的时间戳,格式为 RFC3339Nano。 |
DatasetName | String | 数据集名称。 |
Description | String | 数据集描述信息。 |
FileCount | Long | 数据集中当前已建立了元数据索引的文件数量。 |
TemplateId | String | 检索模板。 |
TotalFileSize | Long | 数据集中当前已建立了元数据索引的文件的总大小,单位为字节。 |
UpdateTime | String | 数据集修改时间的时间戳,格式为 RFC3339Nano。 创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同。 |
BindCount | Long | 数据集当前绑定的数据源数量。 |
FileCount | Long | 数据集中当前已建立了元数据索引的文件数量。 |
TotalFileSize | Long | 数据集中当前已建立了元数据索引的文件的总大小,单位为字节。 |
DatasetType | Integer | 表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。 |
Version | String | 数据集版本。 |
State | String | 训练状态:Unstart、Running、Success、Failed。 |