那位大神能提供告诉下 10W数据 快速查询的算法谢谢

那位大神能提供告诉下  10W数据 快速查询的算法谢谢

我自己在写一个网络蜘蛛玩  里边的URL去重  要是用常规方法 需要花很久的时间

我希望能以算法实现快速查找

 

希望路过的  都给吓意见吗  小弟在这里 谢谢啦

POPMUISE
浏览 334回答 10
10回答

蛊毒传说

对URL进行hash,32bit的hash就足够了,使用hashcode做index,查询速度是客观的。我现在也在做抓取工作,采用的方式就是这种,数据库文件体积8G+了。

jeck猫

周公说的对...

Helenr

@落幕残情:  就是周公的说的。sorry,没有具体实现。

慕尼黑5688855

用蚁群算法

一只甜甜圈

说明URL是常用的搜索条件,给它建立索引试试看吧,应该会快一些。

MMMHUHU

纯10w不多,放内存都没啥问题,直接遍内存一下就出来了。 10w对于mssql,查一下就出来了,也很快。 如果再往上,自己在数据存储上花点功能,比如把域名建成分类,这样查询时就可以按域名缩小范围。

蓝山帝景

我是URL 去重复    网络爬虫在 筛选URL  不去读取重复URL ,10W确实少了点 ,目前我能做到的是 蜘蛛每天可以读取100W网页
打开App,查看更多内容
随时随地看视频慕课网APP