说几句:
昨天在 秋色开源团队 群里和网友聊天,有网友提到了一个概念,做站需要知道的:分析IIS日志。
然后上网找了一下资料看了下,可是 秋色园 寄放在人家虚拟目录的子目录中,根本没有IIS日志可言,于是昨晚就直接把秋色园移往新购买的VPS,正式搬到传说中的赌城“拉斯维加斯”去了,中间出了不少问题,折腾到夜里4点。
于是目前 秋色园 所在的地址就是“拉斯维加斯”了,不过数据库仍是用的Access。
下面进正题,于是自己跑IIS看了一下日志,发现一堆数据,不好分析,于是自己写了个工具来解析这些数据。
引言:
做SEO的朋友,都会时常分析IIS日志,通过对日志的分析,可以发现网站存在的一些问题,只有对这些问题进行合理的处理后,网站SEO才能做得更好,如何分析IIS日志呢?一条一条看数据,太费力了,为了更好的分析和统计这些日志,特别写了一个小工具,可以帮助你更容易分析这些情况。
工具名称:CYQ.IISLogViewer
下面为工具截图介绍:
1:双击运行工具,点击“>>”定位IIS日志所在的文件夹
2:点击“分析”,进行IIS 日志分析,并得到每个文件的汇总统计结果
说明:
由于IIS进行会一直进行写日志,所以是读不了当天的日志文件的,所以有了红色的错误提示。
3:切换到“查看明细”,可以看到每个日志文件的状态码,根据状态码,可以大体了解一下站点运行状态。
4:切换到“访问时间”,可以查看每种蜘蛛的访问时间明细,了解搜索引擎的访问时间段
下载地址:http://www.cyqdata.com/download/article-detail-426 [有源码提供下载]
下面是IIS日志原始数据相关的介绍:
如IIS的一行数据:
2009-09-09 00:52:03 W3SVC1 2**.7**.1**.7* GET /***/index.html - 80 - 220.181.7.43 Baiduspider+(+baidu/search/spider.htm) 200 0 0
解析说明:
2009-09-09 00:52:03:蜘蛛的访问时间
W3SVC1:是记录的文件夹
2**.7**.1**.7*:是IIS服务器所在的IP
GET /***/index.html :是被蜘蛛访问的页面地址
-80:是端口;
220.181.7.43:是百度蜘蛛的IP
200 0 0:状态码:200成功访问该页面,0代表抓取成功并带回数据库
状态码有很多种,其它状态码说明如下:
200 0 64
64的出现不代表百度要K你,但是64的大量出现确实会带来很大的问题,
网络上流传着这么几种解释:
第一:64为K站的前兆。
第二64的出现只是64位操作系统。
第三:网络不可达,由于某种原因无法完全打开页面,或者网络不稳定这些原因,导致蜘蛛无法带回页面或者说不抓取该页面。
304 0 0
这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。
404 0 0
这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了,崩溃~~~~,要是这样的话基本上你要倒霉了,因为你有太多的404,那么蜘蛛就会不断是抓取,不断的带走,这样会造成无数的重复页面,最终导致K站或者降权,正确的返回代码是404 0 64 这就代表蜘蛛没有抓取你这个页面。
500错误
500错误是服务器内部错误,是由程序的错误造成的,我不懂程序,但是500错误是会给你减分的,这点基本的逻辑都可以想的到,发现500错误,马上查看是哪个页面的,然后去修正以下错误吧!
302
在日志中发现302的返回码也是需要注意的,302为临时重定向,如果你是长期的将这个页面重定向到另一个页面,麻烦你使用301永久重定向,如果是302的话百度蜘蛛下次来还会访问这个页面,这样又会造成复制大量页面的问题,结果肯定是K,所以,抽空检查以下。