百度面试题,如何快速找出文件(大文件无法一次性读取)中的重复项?

百度面试题,大致意思是说,有个文件,文件很大不能一次性读取(可能是不能一次性加载到内存中),文件中存放的是IP地址,如何快速找出重复的IP地址?求指点思路。
文件很大,可以逐行读取,append到list中,取set,再取差集,不知是否可行?
一只名叫tom的猫
浏览 588回答 2
2回答

慕容3067478

不可行。append到list中,,跟直接一次性读取没差,都是要占用所有数据的内存;取差集只能set-list,不能list-set

FFIVE

条件不充分阿。如果有1000万条记录地址,只有几个重复,目前想到的可以先排序,然后map-reduce。如果有1000万条记录,其中900万是重复的,用hashTable就解决了。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript