网站日志没有内容就是代表怎么知道蜘蛛有没有抓取网站内容没有来抓取过吗

搜索引擎蜘蛛日志怎么看?监控蜘蛛数据的意义!
查看蜘蛛爬行日志是非常有必要的,从数据反馈问题发现问题,才能有目标性的去改进调整。怎么查看搜索引擎对网站的爬行记录,可能有些朋友还不了解,下面来介绍一下。
首先得取出网站的访问日志,里面包括了用户访问和蜘蛛访问。日志文件在服务器里面,用ftp软件登录到服务器下载就可以了。注意:不同的服务器位置不一样,通常logs的文件夹就在里面。日志文件每天会更新,有些按周更新看服务器设置问题。
拿到日志文件之后,需要用工具把文件拆分开来,方便分析。工具有很多,笔者习惯使用光年数据分析工具,很老的工具了。用这个工具可以拆分出百度蜘蛛,和其他蜘蛛,按照不同时间段等等,按照不同纬度来拆分数据,从而做出判断。
工具怎么使用我们下次说,我们就谈一下通过搜索引擎蜘蛛数据,我们可以解决什么问题。做SEO优化相信大家的目的都是一致的,就是流量!流量!流量!
搜索引擎流量的前提是排名,排名的前提是收录,收录的前提是抓取。通过蜘蛛爬行日志,我们可以知道网站内容有多少被抓取过,有哪些内容是没有被抓取的,文章的抓取率是多少,抓取过的内容收录率多少。
从数据反馈网站最根本的问题,比如内容没有被抓取,我们需要多提交链接或者做一下外链解决抓取的问题;内容抓取率低,可以从网站布局和蜘蛛入口方面想办法;抓取了但不收录,可以从文章质量入手。
下面我们来看看搜索引擎蜘蛛日志帮我们解决了什么问题。
网站上线3个月搜狗还没收录,笔者拿到他网站的日志,查看搜狗的蜘蛛之后,终于知道搜狗为什么不收录,因为抓取的都是不存在的页面,都是404,唯一一个200还是爬虫协议。
后来了解到这个网站经过改版重新上线的,以前一堆老链接还在搜狗的爬行库里面,笔者只是让他做了一个动作。就是robots里面把蜘蛛爬行的404目录给屏蔽掉。
把不存在的目录屏蔽掉后,在搜狗站长工具后台提交首页链接,第二天蜘蛛开始正常爬取。如果没有看蜘蛛数据,那么就不知道是什么问题,看到一直不收录可能以为是文章质量问题,事实上根本就没有抓取何来收录?
从蜘蛛数据发现大量的相同链接同时抓取,第一次抓取后301重定向到第二次;
问题,网页中大量存在不带/的栏目链接,蜘蛛自动重定向到带/的链接。这里就需要找出这些代码修改一下调用规则。
从蜘蛛数据发现大量的404,是网站个性化的浏览器图标标识
问题:页面的模版图标链接用了相对链接,改回绝对链接即可。
我们可以在蜘蛛的日志文件发现很多问题,然后针对问题来解决问题,而不是盲目判断做一些无谓工。另外从蜘蛛数据长期监控趋势,再结合网站的操作,可以发现操作会对SEO有什么影响,好的加大力度,不好的改进。
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点网站日志分析工具推荐,网站LOG日志对SEO的作用
来源:搜酷网
浏览:5,496 views
作为一名网站SEO优化者,网站进行日志分析是必备的工作,通过日志分析蜘蛛返回的状态码能及时发现网站里面是否存在错误或者蜘蛛无法爬取的页面,得以发现问题及时解决。搜酷网推荐下好用的网站日志分析工具及网站LOG日志对SEO的作用。
一:查看目录抓取概况
目录抓取,可以清晰的查看到光顾网站的蜘蛛爬行过哪些目录。要知道:有些目录是没有价值的,如一些图标目录、下载目录、留言目录等,还有后台目录、数据库,如果任由蜘蛛爬行,也是一种安全隐患。另外一方面,搜索引擎对于不同的站点都有着抓取配额,无用目录,更不要占用这样的配额,以免减少有效配额的抓取量。
二:查看页面抓取概况
页面抓取可以准确的查看到蜘蛛爬行的每一个页面,这也是对于LOG日志分析上非常重要的一个环节。如:多重URL链接的抓取?垃圾页面的抓取?都是可以在其中展现出来的。甚至:某个页面抓取频率越高,通常代表这个页面更有价值。
如果你想优化的页面,抓取频率偏低,那么就要为其增加适当的曝光度,来达成你想要的结果。
三:查看状态码信息
状态码分为两种,一种是蜘蛛状态码,另一种是用户状态码,通过蜘蛛状态码可以准确的查看到网站是否存在抓取问题。例如:404代表的是错误页,301、302代表的是重定向,还有一些:504、500、等状态码,值得说的是:除去200状态码,出现其他的状态码都是应当值得注意的,当然,如果只是个别几条则无需理会。但是如果数量一旦偏多,网站则100%出现问题了。
而用户状态码,则代表用户的访问情况,在这其中可以清晰的看到用户最为关注哪些页面。上面说的是一些LOG日志工具都有的功能,还有一些进阶类型的东西需要进一步掌握:
A:如果想要更多有效的着陆页被蜘蛛更多的抓取,那么请进行结构内链的完善。
B:不希望蜘蛛抓取那些没有优化意义的页面上,那么robots.txt上来进行封闭。
C:“蜘蛛陷阱”无止尽的循环,浪费抓取配额,通过页面抓取,都可以直观看到。
D:曝光力度够了,蜘蛛一样不抓取,只能说页面价值太低,需要进一步优化。
E:我们希望每个页面的下载时间足够快,可以在有效的时间内抓取更多的页面。
F:不是所有的蜘蛛都是真的蜘蛛,要学会查看蜘蛛是否为“采集”和“模拟”。
G:分析每天的蜘蛛,可以查看上升或者下降的趋势,明显变化,网站会出事的。
H:降低或者封禁不会带来流量的蜘蛛,以减少服务器压力,对大型网站很重要。
网站日志分析工具推荐:
爱站SEO工具包下载:http://gongju.aizhan.com/download/aizhanseo_setup.rar
此工具可以自动识别IIS、Apache、Nginx日志格式,支持直接拖拽日志一个或多个文件(夹)至窗口进行分析,每一项数据都分别以“数据显示”和“图形显示”两种不同方式向用户展示数据结果。
以上是搜酷网推荐的网站日志分析工具及网站LOG日志对SEO的作用,希望对大家有所帮助。
网站日志分析相关文章
做SEO是一个不断调整的过程,因为搜索引擎的算法一直在变化更新
网站排名的变化除了网站内容相关,很多时候受搜索引擎算法影响,
SEO是一个不断变化的行业,需要持续关注和思考着陆页的改善、链
做EBAY的朋友越来越多,尤其是外贸类,那么如何做好店铺优化在众
SEO是搜索引擎优化的简称,就是让你的网站排名更加的靠前从而获
很多人听说过站群,但却不清楚站群具体怎么做,不同的人可能做站
做好APP排名,首先要清楚各个应用商店的算法,不同的商店排名计
在网站SEO优化中,相关的因素很多,作为SEO新手首先要掌握网站常
Copyright www.SeoCool.com Rights Reserved温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(1048)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'百度蜘蛛抓取网站不存在路径的原因',
blogAbstract:'  网站的服务日志(服务日志是iis日志)是SEOer必需时常观察和分析的工作,想要查看网站的变化和搜索引擎的规则。SEOer就要学会掌握百度蜘蛛爬去的路径,还有蜘蛛抓取的页面和长时间停留的页面。很多的站长在检查服务日志的时候会发现百度蜘蛛爬去的一些页面路径在我们的网站是不存在的,这也是今天我们主要说的话题。那就是
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}西西教你怎么查看百度蜘蛛有没有来你的网站_西西软件资讯
西西软件园多重安全检测下载网站、值得信赖的软件下载站!
→ 西西教你怎么查看百度蜘蛛有没有来你的网站
1.0.6 官方最新版
类型:图像浏览大小:13.0M语言:英文 评分:3.6
怎么看百度蜘蛛有没有来你的网站? seo新手对搜索引擎蜘蛛可能有所了解。百度蜘蛛实际上是一种搜索引擎的一种抓取程序。百度的蜘蛛如果经常来你的网站,说明你的网站价值比较高。百度蜘蛛的经常光临还能提升你的收录率。本文介绍下,怎么看百度蜘蛛有没有来过你的网站?要观察百度蜘蛛的爬行记录,最好的办法是通过查看网站日志。只要你的网页被访问过,不管是人还是百度蜘蛛、或者其他搜索引擎蜘蛛。网站日志中都可以把它记录下来。正规的网站空间一般提供网站日志服务。网站日志的下载可以通过ftp。具体的目录可以咨询网站空间商。比较常见的目录有:www_logs、logs等。如果网站空间不提供网站日志服务,你应该考虑更换网站空间了。因为这是最基本的网站空间服务。如果连网站日志记录功能都没有,说明空间质量肯定不会很高。另外,如果你的网页是php动态的。即网页后缀为php。我们也可以安装一组查看蜘蛛的代码,来实时记录百度蜘蛛的爬行记录。代码如下:&?phpfunction get_naps_bot(){$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);if (strpos($useragent, ‘googlebot’) !== false){return ‘Googlebot’;}if (strpos($useragent, ‘msnbot’) !== false){return ‘MSNbot’;}if (strpos($useragent, ‘slurp’) !== false){return ‘Yahoobot’;}if (strpos($useragent, ‘baiduspider’) !== false){return ‘Baiduspider’;}if (strpos($useragent, ‘sohu-search’) !== false){return ‘Sohubot’;}if (strpos($useragent, ‘lycos’) !== false){return ‘Lycos’;}if (strpos($useragent, ‘robozilla’) !== false){return ‘Robozilla’;}}function nowtime(){$date=date(“Y-m-d.G:i:s”);return $}$searchbot = get_naps_bot();if ($searchbot) {$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);$url=$_SERVER['HTTP_REFERER'];$file=”log.txt”;$time=nowtime();$data=fopen($file,”a”);$PR=”$_SERVER[REQUEST_URI]“;fwrite($data,”Time:$time robot:$searchbot URL:$tlc_thispage\n page:$PR\r\n”);fclose($data);}将上面的代码保存成一个sp.php文件,将文件上传到网站根目录。然后使用一句php代码调用它即可。&&?php include(“sp.php”);?&&&&&&&&&当然,如果您的空间不支持php的话,或者你的网页为静态页面。则可以通过网站空间提供网站日志来查看百度蜘蛛的访问情况。?&
01-2401-2401-2301-2301-2101-1701-1701-1501-1301-12
阅读本文后您有什么感想? 已有23人给出评价!
名称大小下载网站日志分析记录和跟踪
发布日期:
SEO诊断、外包、顾问业务 请联系QQ:
网站日志分析是SEO中非常重要的一个操作。新网站上线可以通过网站日志分析进行查看是否被蜘蛛抓取,网站是否存在404错误进行及时纠错,是否被整站扫描下载等,这只是一些常见的日志用途。
通过网站日志分析还可以得到很多其他的信息。正是因为网站日志分析如此的重要,CRAZYSEO工程师建议大家在选择服务器的时候一定要询问服务器提供商是否支持日志记录。
日志记录的内容分类主要有两大类型,分别是访客访问信息和蜘蛛抓取信息,下面CRAZYSEO工程师就这两种类型信息进行讲解。
1.访客访问信息的内容:
00:23:04 W3SVC.155.150.92 GET /hello/seo.html & 80 & 222.88.71.11 Mozilla/5.0+(Windows+NT+6.1;+WOW64;+rv:30.0)+Gecko/+Firefox/30.0 200 0 0
这是一段用户访问记录,内容是7月1日凌晨12点23分的时候,IP地址为222.88.71.11的用户使用火狐浏览器正常访问了网站的/hello/seo.html这篇文章。这条记录信息需要注意的几个点:访问网页地址、访问时间、IP地址以及返回状态码。前面几条比较明晰,状态码可能是站长们比较头疼的。
16:52:52 W3SVC.155.150.92 GET /html/success.html & 80 & 202.108.4.123 Mozilla/4.0+(+MSIE+7.0;+Windows+NT+5.1) 404 0 64
这是一条用户访问404错误信息,由于网站改版造成的目录及网页文件更改后遗症。这些信息也有可能被蜘蛛抓取,所以需要提交百度改版信息或robots屏蔽或提交死链接来屏蔽蜘蛛的抓取。从而减少页面404错误抓取信息。
17:35:10 W3SVC.155.150.92 HEAD /www.abc.com.rar & 80 & 27.150.236.228 Mozilla/4.0+(+MSIE+8.0;+Windows+NT+6.1;+Trident/4.0) 404 0 2
这是用户用软件批量扫描网站备份文件所造成的404错误信息其中的一条,很多黑客用这种方法下载网站备份信息从而爆破网站达到网站入侵的方法,可以把网站备份信息单独存放到web目录外的其他目录中预防这种情况发生以及通过屏蔽IP地址等方法解决。
网站日志分析
2、蜘蛛抓取信息:
16:00:46 W3SVC.155.150.92 GET /hello/seo.html & 80 & 66.249.64.36 Mozilla/5.0+(+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0
这是谷歌机器人对网站中/hello/seo.html网页文件的正常抓取信息。
02:47:09 W3SVC.155.150.92 GET /sitemap.xml & 80 & 123.125.71.106 Mozilla/5.0+(+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
这是百度蜘蛛对网站/sitemap.xml网站地图的304抓取信息,304代表着文件无修改,百度服务器已经存放了相同信息,缓存信息无修改,无需更新。
网站日志分析贯穿于SEO过程的始终,从分析搜索引擎蜘蛛爬行到观测用户访问网页情况,再到遇到攻击后分析攻击这信息和程序BUG,因此CRAZYSEO工程师建议大家一定要认真阅读这篇内容,务必掌握网站日志分析的技巧和方法。
这里CRAZYSEO工程师推荐给大家一款非常好用的网站日志分析软件&光年日志分析工具&,搜索引擎搜索下载即可,界面如图1,使用非常简单,相对于其他网站日志分析软件&光年日志分析工具&有很多优点。
图1&光年SEO日志分析系统
首先这是第一个专门为SEO设计的网站日志分析软件。以前的很多网站日志分析软件,都是顺带分析一下SEO方面的数据,而这个软件里面分析的每一个指标都是为SEO设计的。而且很多的分析维度,都是其他网站日志分析软件没有的。这能让你看到很多非常有用、但是以前获取不了的数据。
其次&光年SEO日志分析系统&能分析无限大的日志,而且速度很快。很多的网站日志分析软件,在日志大于2G以后,都会越来越慢或者程序无响应。而这个软件能分析无限大的日志,并且每小时能分析完40G的日志。这对于那种需要分析几个月内的日志、以及要分析几十G的大型网站的日志都非常有帮助。
最后是&光年SEO日志分析系统&能自动判断日志格式。现在很多的网站日志分析软件,对Nginx或者CDN日志都不支持,而且对日志记录的顺序都要格式要求。而这个软件就没有这么多的限制,它能从日志中自动检测到哪个是时间、哪个是URL、哪个是IP地址等等。

我要回帖

更多关于 下午看到蜘蛛代表什么 的文章

 

随机推荐