我想利用利用Lucene.net做个网路蜘蛛。主要想利用Lucene.net创建索引,数据采集的工作自己开发完成。现在有些问题请教大家:
蜘蛛采集的数据存放在数据库中还是存放在哪里,我打算放在数据库中,哪个性能上好些呢?
蜘蛛为什么要下载网页呢?我看每个蜘蛛都有下载文件的功能,但是不清楚为何一定要下载网页呢?边解析html边往数据库中存不行吗?
希望高手赐教。谢谢
慕少森
相关分类