我有一个向量,表示我的对象,并通过使用余弦相似性来计算哪个对象与另一个对象相似。
为了创建这个向量,我结合了许多可以表示唯一对象的特性。例如,我有一个向量,如下所示:
a = [1,2,3,4,5,6]在这个向量中,1,2,3代表feature A,4,5代表feature B,6代表feature C
我的问题是:
如何确定向量中需要哪些特征?我需要这个结果来找出我需要在向量中包含的特征。
非常感谢你的建议!救命啊!
发布于 2022-12-23 09:11:55
与其他向量相比,要确定向量中的每个元素对余弦相似性的贡献,可以计算向量和其他向量之间的余弦相似性,同时依次排除每个元素。这将允许您查看排除特定元素时余弦相似性的变化情况。
例如,假设有两个向量a和b要使用余弦相似性进行比较:
A= 1,2,3,4,5,6 b= 2、4、6、8、10、12
为了确定向量a中的每个元素对余弦相似性的贡献,您可以计算a和b之间的余弦相似性,同时依次排除每个元素:
不包括元素1:余弦相似性= (2 *2+4*4+6*6+8*8+ 10 * 10 + 12 * 12) / (sqrt(2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2) * sqrt(2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)) = 0.94
不包括元素2:余弦相似性= (1 *2+3*4+6*6+8*8+ 10 * 10 + 12 * 12) / (sqrt(1^2 + 3^2 + 6^2 + 8^2 + 10^2 + 12^2) * sqrt(2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)) = 0.86
不包括元素3:余弦相似性= (1 *2+2*4+4*6+8*8+ 10 * 10 + 12 * 12) / (sqrt(1^2 + 2^2 + 4^2 + 8^2 + 10^2 + 12^2) * sqrt(2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)) = 0.82
从这一分析中,您可以看到元素1对余弦相似性的影响最大,其次是元素2和元素3,您可以优先保留元素1、2和3,并在必要时考虑删除其他较低的重要元素。
https://datascience.stackexchange.com/questions/117262
复制相似问题