猿问

Python检测是否已有数据

现在的实现是一个字典类型,拥有500万条数据,KEY是40位的Hash
做的是从里面确定某个Hash是否存在,但是这样的方法内存占用太多了
准备尝试bloomfilter替换但是感觉增加数据有点麻烦,是否有其他类似的算法可以用?
====另一种介绍===
每次拿到一个HASH在列表中寻找,如果有,则停止执行,如果没有,则将该HASH添加到列表,继续重复执行。
问题在:内存/效率
MMTTMM
浏览 1054回答 2
2回答

HUX布斯

因为hash40位,是16进制数的,我将字母替换为数字,然后转化为数字来存,这样应该可以省内存,效率应该会比较O(n)低。我的代码:#!/usr/bin/envpython#-*-coding:utf-8-*-SHIFT=5#如果计算机为32位,SHIFT为5;如果计算机为64位,SHIFT为6MASK=0x1F#如果计算机为32位,MASK为0x1F;如果计算机为64位,MASK为0x3FclassBitBucket(object):def__init__(self):self._unique_key_count=0#唯一的key有多少个self._total_key_count=0#加入的key有多少个self._bit={}self._map={'a':'1','b':'2','c':'3','d':'4','e':'5','f':'6'}defset(self,value):"""returnlastbit"""value=self._translate(value)self._total_key_count+=1ifnotself._has_key(value):self._unique_key_count+=1key=value>>SHIFTself._bit[key]=self._bit.get(key,0)|(1SHIFTself._bit[key]=self._bit[key]&(~(1SHIFTreturnself._bit.get(key,0)&(1
随时随地看视频慕课网APP

相关分类

JavaScript
我要回答