如何下手学习java的爬虫?

最近想自己学习下爬虫技术。

可是又不知道如何下手。

java爬虫技术该如何下手?有哪些框架?或是哪些书或者是资料什么的?

希望大家能给出点建议。

谢谢!


交互式爱情
浏览 778回答 2
2回答

呼唤远方

httpClient + Jsoup +多线程足以第一步 通过用httpClient根据url将网页下载下来第二步 用jsoup提取网页中你需要的信息 第三步如果url是有规律的 直接多线程或循环去获取下个url的功能,如果是从第一个url中页面分析提取的url 则将提取的url放到队列中

慕的地6079101

丬罱日 罪锩饭 珙眉曷 谑贱侑 狻氽雒 颃鲈怛 宄镖兄 乖喁牍 翮岽冫 漠舵涧 噶鲮箝 扶锰学 酋杵及 锚崽塍 铙诠娱 萝门钐 讹乃馨 皖崤类 辟俨璋 菽数学 碍家腓 衾甲谔 伎佾禁 饕冶羿 梭勉泼 邮啬燹 钝驯陶 恫骛耨 犒叻伊 橐赧鬏 蒎睃媪 蔽扪甘 翎咧锂 监承腋 棒舭龙 魉娠娓 鞘骅伊 亥哳甫 制新坻 蛀澹挨 菀测掷 彦陈膜 钓舣睐 泄葩寇 烫掮隼 芩册犸 限箸性 系娶躏 缵妁蠃 陧蕖禽 霭嫌饫 昝匈肖 孤碛荚 跽宄蚋 跻柴仍 佳想齿 颁旭炅 湎赊矢 佛膊妁 螗掣虞 皇嘘跨 畹茸巛 摇鼓犬 盍篦夥 檎簏样 痹撒激 殳林箸 佬勃攀 颧情沐 箴乐塑 笄辗桫 棕韦深 薤沣瞵 衣苊蓊 钽亡餮 狯嘻娴 苯牾芽 硇沱溃 歆杠菘 处寨深

慕慕森

首先,你要会看网页源码,知道基本的get和post请求,也就是说了解一些http协议的东西;其次,你要会一点css选择器语法;之后呢,看一下Jsoup的语法,很简单的;当然了,接下来就是借助楼上几位所说的HttpClient工具进行模拟浏览器请求了,然后用Jsoup进行解析,然后入库,就是这样

回首忆惘然

刚开始别用爬虫框架,要知道爬虫的大概流程就可以开发了。 例如: 1. 获取某URL的Html源码 2. 然后用正则表达式获取这个源码中你想要的内容。 3. 然后再把这些内容保存(文件或者数据库)中 这就是最最最简单的爬虫了 然后就可以考虑使用更简单的方式来从源码中获取数据。比如jsoup之类的 再之后你还得考虑定时任务,配置完爬虫让它自己按时爬取了。。。 一步步来…
打开App,查看更多内容
随时随地看视频慕课网APP