大数据去重算法
2019-08-09 14:25:25 0 举报
AI智能生成
大数据去重算法整理
作者其他创作
大纲/内容
Hash 分割
思路:将大数据集进行分割,然后去重最后合并
方法:选择 hash 函数, 用 md5 作为转码规则几乎不会碰撞,
进行分割时候对 个数取模
进行分割时候对 个数取模
MapReduce,Hadoop
完事后进行 取低位 Hash 对比
Trie 树实现
Redis 分布式 搞定 HashTable
dump load性能问题
dump load性能问题
shingling NLP去重
Bloom Filter
简介:多哈希函数映射的快速查找算法
用途:通常用于在一些需要快速判断某个元素属于集合
,但不严格要求 100% 正确的场景
,但不严格要求 100% 正确的场景
评估点:错误率,哈希函数个数,Bloom 位数大小
改进:引入几个独立的 hash 函数 减少碰撞概率
当集合中的元素过多时候 n/m 过大时候 组建新的 Filter 来减小误判
当集合中的元素过多时候 n/m 过大时候 组建新的 Filter 来减小误判
SimHash
简介:Google 指纹生成算法,降维操作
相似度判断 海明距离
相似度判断 海明距离
应用:降维搜索比较,提高搜索速度
双层桶划分
划分数据然后将数据分离到不同区域
在不同区域中利用 bit map解决
BerkeleyDB
磁盘判重方案提供了相应的方法去判重
方法:将 url 作为 key 值为固定值做判重
MD5+ 去重树
0 条评论
下一页