网站服务器日志文件分析及注意事项

   服务器日志是可以记录你网站的服务器的请求记录的,通过这个日志咱们是可以看出网站被哪些蜘蛛来抓取过,抓取网站的哪些页面,可以看到抓取的时间,抓取的页面是否抓取成功。


    服务器日志在网站的主机的控制面板里面,文件管理里面常规一般都是log结尾的文件里面。


    不同的服务器空间记录的天数也不一样,一般的服务器都是可以记录一周左右的日志。你们用到的服务器空间一般只能记录三天的日志。


    分析日志我们有专业的日志分析工具来分析网站的服务器日志(光年日志分析工具)


    我们先在服务器文件管理里面下载某一天的日志,打开光年日志分析软件来分析日志


    分析的注意事项:


    概要分析:


    哪些蜘蛛来抓取过我们的网站。


    只代表你分析的那一天的,并不代表每天都是如此。


    目录抓取:分析蜘蛛抓取了你网站的哪些目录


    重点需要分析抓取的目录文件名称,哪些是对排名有价值的,哪些是对排名没有价值的,对于排名没有价值的目录文件写到robots文件里面进行屏蔽掉。


    ***.****.com/a/about


    ***.***.com/about


    Disallow:/a/


    Disallow:/skin/


    第二个,通过蜘蛛抓取的目录,我们可以在更新内容的时候更有针对性,蜘蛛经常抓取哪些目录,我们更新内容就重点围绕那个目录去更新内容


    分析三天的日志ABC栏目


    三天A目录每天都被抓取到


    下次更新内容在A栏目多去更新内容。


    B和C目录并不是每天抓取。


    分析原因,是不是因为这两个目录的内容质量度做的低了,更新的频率有问题,这两个目录而是需要提高内容质量度。提高内容的原创性。


    页面抓取需要结合页面抓取的状态码来分析,同时也需要分析下抓取的链接是不是有用。


    ***.***.com/a/1.html200


    ***.***.com/a/2.html404


    找到这个链接看看是否还存在,存在的话删掉,不存在屏蔽掉。


    关键字分析:


    分析是用户通过搜索什么关键词进入网站的,任何的日志分析工具在分析这一项的时候并不是很精准。


    我们一般要分析关键词来源,使用百度统计来分析:


    状态码分析


    状态码分为用户状态码和蜘蛛状态码


    需要重点分析网址里面包含.html结尾的文件,我们直接给网站做一个404自定义页面引导用户继续访问网站的其他页面


    网名请求的返回的链接状态码


    蜘蛛状态码指的是蜘蛛抓取的链接返回的服务器状态码


    重点需要分析蜘蛛的状态码


    服务器状态码分为很多


    200  301 302 404  502


    重点需要注意是404这个状态码


    网址能修改的尽量修改,不能修改直接屏蔽。


    如果经常出现502这个状态码那么建议网站更换服务器