工具介绍

最近更新时间:2024-09-29 10:49:11

我的收藏
tcvdb-text 是由腾讯云向量数据库团队提供的一款稀疏向量工具包。它旨在帮助用户高效生成稀疏向量,并提供了一系列高级灵活的功能,能够满足用户在不同领域和任务中的个性化需求。
快速生成稀疏向量:具有优化的算法和数据结构,并区分写入和检索场景,使用不同的词表拆分计算方法,将文本内容快速转换为稀疏向量表示。当前支持中文、英文两种语言,默认为中文。
训练自定义语料:支持针对特定领域的数据集进行模型训练,生成适配特定领域的词频计算参数,并可下载与上传参数,以灵活调整优化参数,持续提高模型稀疏向量生成的准确性。
SDK :为了帮助用户快速生成稀疏向量,腾讯云向量数据库提供了 Python、Java(即将支持)、Go(即将支持)三种语言的稀疏向量生成工具。
说明:
在使用不同语言的工具生成稀疏向量时,由于底层使用的分词工具存在差异,因此在支持的拆分参数以及拆分结果上可能会存在细微差别,如 Python SDK 支持指定使用 PaddlePaddle 的分词库,其他语言暂不支持。
语言
语言版本
SDK 下载
SDK 源码
Python
Python 3.6 及以上版本
推荐使用 3.8 及以上版本
安装最新版 tcvectordb SDK,即可直接下载tcvdb-text。
pip install tcvectordb
执行如下命令,可单独安装 tcvdb-text 最新版本。
pip install tcvdb_text