一、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
首先申请512M的内存,512M的内存可以存储2^29B = 2^32 * 2 bit = 1G内存
然后实现一个bitmap就是用1/0表示当前位数据是否存在 每个数分配1bit
。读入40亿个数,设置相应的bit位,读入要查询的数查看相应bit位是否为1,为1表示存在,为0表示不存在。
二、在2.5亿个整数中找出不重复的整数,内存空间不足以容纳这2.5亿个整数。
这次我们采用2-Bitmap标记数据,每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义。
共需内存2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。
三、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件url列表的交集?如果是三个乃至n个文件呢?
谈到两个文件的交集,或者多个文件的交集,我么首先想到的就是bloom过滤器。bloomfilter判断一个数据不在是100%肯定的,但是判断在一个集合中,是存在概率问题的。
如果允许有一定的错误率,可以使用Bloom filter。4G内存可以表示2^328=340亿bit。n=50亿,如果按出错率(E=0.01)算需要的大概是nlog2(1/E)1.44 =650亿个bit。现在可用的是340亿,相差并不多,可能会使出错率上升些。
方案:将其中一个文件中的url使用Bloom Filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。
python bloomfilter
rom pybloom_live import BloomFilter bf = BloomFilter(capacity=1000) bf.add("www.baidu.com") print("www.baidu.com" in bf) # Trueprint("www.douban.com" in bf) # False
java 实现bitmap
public class BitMap { /** 插入数的最大长度,比如100,那么允许插入bitsMap中的最大数为99 */ private long length; private static int[] bitsMap; private static final int[] BIT_VALUE = { 0x00000001, 0x00000002, 0x00000004, 0x00000008, 0x00000010, 0x00000020, 0x00000040, 0x00000080, 0x00000100, 0x00000200, 0x00000400, 0x00000800, 0x00001000, 0x00002000, 0x00004000, 0x00008000, 0x00010000, 0x00020000, 0x00040000, 0x00080000, 0x00100000, 0x00200000, 0x00400000, 0x00800000, 0x01000000, 0x02000000, 0x04000000, 0x08000000, 0x10000000, 0x20000000, 0x40000000, 0x80000000 }; public BitMap(long length) { this.length = length; // 根据长度算出,所需数组大小 bitsMap = new int[(int) (length >> 5) + ((length & 31) > 0 ? 1 : 0)]; } /** * 根据长度获取数据 比如输入63,那么实际上是确定数62是否在bitsMap中 * * @return index 数的长度 * @return 1:代表数在其中 0:代表 */ public int getBit(long index) { if (index < 0 || index > length) { throw new IllegalArgumentException("length value illegal!"); } int intData = (int) bitsMap[(int) ((index - 1) >> 5)]; return ((intData & BIT_VALUE[(int) ((index - 1) & 31)])) >>> ((index - 1) & 31); } /** * @param index * 要被设置的值为index - 1 */ public void setBit(long index) { if (index < 0 || index > length) { throw new IllegalArgumentException("length value illegal!"); } // 求出该index - 1所在bitMap的下标 int belowIndex = (int) ((index - 1) >> 5); // 求出该值的偏移量(求余) int offset = (int) ((index - 1) & 31); int inData = bitsMap[belowIndex]; bitsMap[belowIndex] = inData | BIT_VALUE[offset]; } public static void main(String[] args) { BitMap bitMap = new BitMap(63); bitMap.setBit(63); System.out.println(bitMap.getBit(63)); System.out.println(bitMap.getBit(62)); } }
作者:张晓天a
链接:https://www.jianshu.com/p/706b4bd4520e