Java网络爬虫有哪些比较好的技术，技术方法或者技术框架

5回答

慕少森

自己做简单的网站爬虫。可以用这些：请求：HttpClient解析HTML：Jsoup模拟浏览器：htmlunit 成熟的爬虫框架：1.nutch地址：apache/nutch · GitHubapache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。 2.Heritrix地址：internetarchive/heritrix3 · GitHub很早就有了，经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。 3.crawler4j地址：yasserg/crawler4j · GitHub因为只拥有爬虫的核心功能，所以上手极为简单，几分钟就可以写一个多线程爬虫程序。

0 0

呼如林

简单的逆向的话可以用直接用Apache的HttpClient模拟请求，需要登录的要自己维护cookie和session，然后调用api用jackson框架将返回的json数据映射到对象。如果是解析html页面的话，可以用webmagic框架，功能丰富，但是没有登录模块。

0 0

肥皂起泡泡

webmagic

0 0

婷婷同学_

简单的用curl都行，复杂的当然是phantomjs了，脚本化的浏览器环境，可以直接和网页里的js交互

0 0

叮当猫咪

WebCollector传送门个人觉得这个是一个不错的Java框架，简单好用

0 0