蜘蛛程序,怎么判断重复页面

像百度蜘蛛那样的程序,是怎么判断抓取了重复页面的呢?比如说一个登陆页面,可能有N个页面有这个链接,该怎么判断呢? 一定要判断的话“登录”页面的链接,勉强还算可以写出个判断语句来的,但要是再复杂的链接,又该怎么判断呢??麻烦高手指点下啊!!!

慕桂英546537
浏览 519回答 2
2回答

侃侃无极

把链接字符串用MD5转换为 128位整数,然后放到 Dictionary 里面判断重复
打开App,查看更多内容
随时随地看视频慕课网APP