我有数以千计的大型标记云数据集;我可以使用一个简单的select/group语句来检索每个集合的加权标记云(例如)
SELECT tag, COUNT( * ) AS weight
FROM tags
WHERE set_id = $set_id
GROUP BY tag
ORDER BY COUNT( * ) DESC
我想知道的是--什么是比较加权标记云的最佳方法,找出其他最相似的集合,考虑到权重(集合内出现的次数),甚至计算一个比较分数,所有这些都在一个比较有效的语句中进行?
我发现网络缺乏关于这一主题的高质量文献,我认为它有点广泛的相关性,并试图抽象我的例子,以保持它的普遍适用性。
我需要创建这个软件光栅,给定投影(P)、视图(V)和模型(M)矩阵,可以从给定的角度以位图格式(单色位图)从给定的角度创建点云(pc)的2D图像。
我已经把数学记下来了(事情似乎大部分都在进行中):
转换点云的点pc' = (P x V x M) x pc (注意点云已经在同构系统中)
对于每个点,用它的w除以所有组件(同时要小心地丢弃w接近于零的点。
丢弃属于视域之外的点(通过使用描述的P方法从中提取锥面)
将每个点的x和y坐标转换为使用(x + 1) * imageWidth / 2和(-y + 1) * imageHeight / 2 (具有正确的y坐标)屏幕坐标