wikipedia-2023-11-embed-multilingual-v3是Cohere公司发布的一个多语种嵌入(Embedding)表示的维基百科数据集,该数据集包含了2023年11月1日维基百科在300多种语言中的全部数据集转储,其中每篇文章被切分成段落,并利用先进的Cohere Embed V3多语种嵌入模型进行编码,整个数据集规模达536G,包含约2.5亿个段落嵌入。该数据集为跨语言的语义搜索提供了便捷途径,亦可作为RAG应用的知识库。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3
领取专属 10元无门槛券
私享最新 技术干货