simhash_distributed
2016-03-31 02:33:45 2 举报
simhash_distributed是一种分布式哈希算法,主要用于海量数据去重和相似性搜索。它将原始数据通过哈希函数映射为固定长度的哈希值,然后将这些哈希值分布式地存储在多台服务器上。当需要查询某个数据的相似项时,只需计算该数据的哈希值,然后在服务器上查找与其哈希值相近的其他数据。这种算法具有高并发、低延迟、可扩展性强等优点,适用于大规模的数据去重和相似性搜索场景。
作者其他创作
大纲/内容
Spark Node
+w2-w2+w2-w2-w2-w2
指纹n
指纹1
map
消息n
+wN-wN-wN+wN+wN+wN
1 1 0 1 0 1
hash
reduce (_+_)
+w3+w3-w3+w3-w3+w3
消息1
指纹2
5 33 -9 7 -12 0
消息2
-w1-w1+w1+w1-w1+w1
收藏
0 条评论
下一页