时候,发现下载的内容中没有我们在浏览器上看到的阅读数、评论数、喜欢数这三部分的内容。当时解释过是因为这些内容是浏览器通过 JS 动态渲染的结果。也就是浏览器先下载了 html 页面内容,然后通过 AJAX 请求了新的数据,再通过 JS 将元素添加到 Dom 树中的。所以直接下载的 html 代码中是看不到这部分内容的。那么是否我们就无法通过爬虫获取到这部分的内容呢。也不是。这就要引入一个新的工具 selenium 来实现。
selenium 介绍
selenium 是一套 web 自动化测试的软件。他能够通过编程的方式调用系统的浏览器,并驱动浏览器模拟人的方式进行操作。例如点击、输入信息、滚动屏幕等。通过这样的方式,我们就可以在程序中自动运行我们的 web 页面。同时,对于爬虫程序来说,也可以驱动浏览器访问我们要的目标页面,并且因为是在浏览器中访问的网页,所以浏览器会自动渲染动态的内容。这样就可以解决上次发生的用 OkHttp 下载网页无法获取到动态内容的问题。
selenium Windows 环境安装
selenium 可以支持几种主流的浏览器。chrome、firefox 都在支持之列,浏览器是通过不同的 WebDriver 来驱动的。所以除了对应的浏览器,我们就是要安装对应的 WebDriver。这里来演示如何在 Windows 环境中安装 WebDriver。
对于 Chrome 的 WebDriver 来说,不同版本的 WebDriver 支持的 Chrome 浏览器的版本范围都不一样。所以我们要针对自己安装的 Chrome 版本选择安装不同的 Chrome Web Driver 。例如,现在最新的版本 2.44 支持的 chrome 版本范围是 v69-71 。
首先我们要确认自己机器安装的 chrome 的版本号。启动 chrome 浏览器,点击右上角的菜单,依次选择“帮助”、;“关于 Google Chrome” 选项,如下所示
选择关于
然后出现下面的界面
chrome 版本
其中红字部分是版本号,我这里是最新版本70。
然后我们要去地址 http://chromedriver.chromium.org/downloads 去下载对应的 chrome 版本。
image.png
这里会有不同版本对不同 chrome 版本支持的说明,选择一个对应的就可以了。我的版本是70 ,所以选择了最新版本 2.44 下载
web driver 不同平台
在具体的下载页面选择对应的平台即可。我这里选择了 chromedriver_win32.zip 。下载后解压出来一个 chromedriver.exe 文件,保存到一个指定的目录即可。
这样我们将一个windows 的 selenium 环境设置好了。
使用 selenium 和 chrome 下载动态网页
我们是在 Java 中使用 selenium ,所以在前文的基础上增加 selenium 相关的依赖
<dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-java</artifactId> <version>3.141.59</version> </dependency>
然后我们来改造一下 用 jsoup 分析下载的 html 内容 一文中的程序。原来是通过 OkHttp 来下载网页,这里就通过 selenium 结合 chrome 浏览器来进行
WebDriver webDriver = null; try { String url = "https://www.jianshu.com/p/675ea919230e"; //启动一个 chrome 实例 webDriver = new ChromeDriver(); //访问网址 webDriver.get(url); Document document = Jsoup.parse(webDriver.getPageSource()); Element titleElement = document.selectFirst("div.article h1.title"); Element authorElement = document.selectFirst("div.article div.author span.name"); Element timeElement = document.selectFirst("div.article span.publish-time"); Element wordCountElement = document.selectFirst("div.article span.wordage"); Element viewCountElement = document.selectFirst("div.article span.views-count"); Element commentCountElement = document.selectFirst("div.article span.comments-count"); Element likeCountElement = document.selectFirst("div.article span.likes-count"); Element contentElement = document.selectFirst("div.article div.show-content"); if (titleElement != null) { System.out.println("标题:" + titleElement.text()); } if (authorElement != null) { System.out.println("作者:" + authorElement.text()); } if (timeElement != null) { System.out.println("发布时间:" + timeElement.text()); } if (wordCountElement != null) { System.out.println(wordCountElement.text()); } if (viewCountElement != null) { System.out.println(viewCountElement.text()); } if (commentCountElement != null) { System.out.println(commentCountElement.text()); } if (likeCountElement != null) { System.out.println(likeCountElement.text()); } if (contentElement != null && contentElement.text() != null) { System.out.println("正文长度:" + contentElement.text().length()); } } catch (Exception e) { e.printStackTrace(); } finally { if (webDriver != null) { //退出 chrome webDriver.quit(); } }
运行这段代码之前,我们需要在虚拟机参数中指定 webdriver.chrome.driver 参数,值应该是我们下载的 chromedriver.exe 的路径。例如
虚拟机参数设置
这里,为了区分版本,我将 chromedriver.exe 改名为 chromedriver_2.44.exe 了。运行这个代码,会看到程序自动打开了一个 chrome 窗口,并且自动访问 url 地址
自动运行 chrome
运行完毕后,窗口自动推出。其中红字部分表明这个 chrome 是被 selenium 自动控制得。在控制台会输出如下内容
标题:是什么支撑了淘宝双十一,没错就是它java编程语言。 作者:Java帮帮 发布时间:2018.08.29 14:49字数 561 阅读 628 评论 0 喜欢 4 正文长度:655
可以看到,上一次通过 OkHttp 下载是没有得阅读、评论、喜欢数量能够被解析并且输出来了。
selenium chrome 的一些操作说明
上面的例子只是说明了如何在 selenium 中打开一个网页并获取他的内容。实际上我们前面说过了 selenium 是一个 web 的自动化测试框架,他是可以模拟人对页面的元素进行操作的。例如定位元素,在文本框里输入内容,点击元素等。下面的代码就演示了如何通过程序自动打开简书的首页并且在网站内查询 Spring Boot 相关的内容
WebDriver webDriver; try { String url = "https://www.jianshu.com/"; webDriver = new ChromeDriver(); webDriver.get(url); webDriver.findElement(By.cssSelector("#q")).sendKeys("SpringBoot"); webDriver.findElement(By.cssSelector(".search-btn")).click(); } catch (Exception e) { e.printStackTrace(); }
执行这段代码,程序会自动打开一个 chrome 窗口,并且在首页的搜索窗口输入 Spring Boot 文本,并且自动点击搜索按钮,然后得到搜索结果页面。
自动执行简书搜索
作者:阿土伯已经不是我
链接:https://www.jianshu.com/p/b5b48f1b9a9e