河北邯郸电信19元河北移动流量王套餐卡为什么不能修改套餐?

robots.txt文件决定了哪些蜘蛛的访问是受欢迎的,哪些不能进入
楼主正文显示宽度
跟帖显示为
本帖只代表的个人观点,不代表人民网观点。 如将本文用于其他媒体出版, 请与联系。举报
微信扫一扫分享本帖到朋友圈
微信扫一扫分享本帖到朋友圈
图文编辑模式
14:27:36&)
4612字(181/0)
请登录后继续操作....
强国社区-人民网件商品,共计
(诚邀合作 共赢财富)
独家推出全新OEM分销体系
极具杀伤力的价格,超大利润
BaiDuSpider百度蜘蛛占用流量,robots.txt设置
注:以下等于百度蜘蛛、等于google蜘蛛、等于搜狗蜘蛛一、问题因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:网站访问日志也可看见很多蜘蛛爬行记录。如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为(不限流量)。二、认识、学习我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出占用流量非常大,首先在网站跟目录下面建立一个robots.txt文件。例1. 禁止所有搜索引擎访问网站的任何部分   User-agent: * Disallow: / 例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)   User-agent: *   Allow: 例3. 禁止某个搜索引擎的访问(禁止)  User-agent: BaiDuSpider Disallow: / 例4. 允许某个搜索引擎的访问   User-agent: Baiduspider allow:/ 例5.禁止二个目录搜索引擎访问&&&&User-agent:&*Disallow: /admin/Disallow: /install/例6. 仅允许Baiduspider以及Googlebot访问User-agent: BaiduspiderAllow: /User-agent: GooglebotAllow: /User-agent: *Disallow: /例7. 禁止百度搜索引擎抓取你网站上的所有图片User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$三、问题解决(规则设置)根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决:User-agent:&*Disallow:&/admin/Disallow:&/install/User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。&如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问  )&&&四、Baiduspider抓取造成的带宽堵塞?Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至百度,如果能够提供您网站该时段的访问日志(在虚拟主机控制面板中可以下载)将更加有利于我们的分析。投诉网址:&&&&五、知识加强为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读以下标准资料:其他办法: 使用伪静态规则拦截蜘蛛访问& 帮助中心&&& 帮助中心&&& 帮助中心& Robots.txt 详细介绍:baidu提供标准robots.txt写法:如果按流程禁止了百度蜘蛛访问但是仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理:&&
编辑:西部数码
& && 相关文章
&&&&&&&&&&&&&&&&由于该网站的robots.txt文件限制指令
百度无法抓取--百度百家
由于该网站的robots.txt文件限制指令
百度无法抓取
分享到微信朋友圈
百度搜索淘宝或者天猫都会看到“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”这是怎么回事,淘宝的原因,还是百度系统处理问题。
很对人百度搜索淘宝或者天猫都会看到“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”这是怎么回事,淘宝的原因,还是百度系统处理问题。其实不仅百度搜索“淘宝”这个词会出现这句话,其实搜索淘宝相关的词都会出现这句话比如:淘宝网、淘宝官网、taobao、tb等,而且百度搜索“天猫”也会出现这句话,这是为什么呢?
由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述
百度搜淘宝
搜索天猫同出现由于该网站的robots.txt文件存在限制指令
百度搜索天猫同样出现
其实出现“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”这句话没有什么大不了的,对于我们普通用户而言只要淘宝或者天猫能打开就没有问题,并且通过百度搜索能访问淘宝网或天猫网就行了。至于为什么?这是由于马云与李彦宏两个男人之间的事,一下涉及一些有关网站优化的知识,专供SEO人员参考。
如果你感兴趣可以打开淘宝网或者天猫的robots.txt看一下就知道了,地址:http:/robots.txt 看一个究竟呗。如下图所示:
淘宝网的robots.txt文件
淘宝网的robots文件展示如图所示
robots是什么意思?可以翻译成:机器人;robots.txt是一个文件,也就是我们常说的一种协议。在上图中提到:
User-agent: Baiduspider
Dissallow: /
是什么意思呢?Baiduspider翻译成中文:百度蜘蛛;Dissallow翻译成中文:不允许,禁止。也就是说淘宝网禁止百度蜘蛛抓取网站的信息,导致在百度搜索“淘宝”相关的词时,出现“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”这句话,我们平时在百度上看到的网站简介都是由百度蜘蛛抓取保存的,只有网站允许百度蜘蛛抓取才有网站简介,不然只会出现“由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述”属于正常情况。
对于一般的网站都有robots.txt文件,这是网站必备的文件用于指引搜索引擎蜘蛛更好的了解网站,比如可以看一下本站点的robots.txt协议,地址:http://seo.ibaicha.top/robots.txt&
本站robots.txt文件展示
本站robots.txt文件展示
至于为什么马云的淘宝网和天猫不允许百度抓取呢?菜鸟个人觉得主要是因为:马云没有李彦宏长得帅,马云生气了,很明显菜鸟的网站允许所有蜘蛛抓取,也包括百度蜘蛛抓取,哎~~我本可以靠脸吃饭,却偏偏靠技术混口饭吃。
robots协议对于网站优化尤为重要,请各位SEO从业者认真对待,除非你可以成为马云,不然不要屏蔽百度蜘蛛抓取,淘宝网屏蔽百度抓取是淘宝网发展的大战略,一般人不要模仿。淘宝天猫是刻意屏蔽屏蔽百度抓取的,不是人为失误操作。本文由菜鸟SEO博客提供仅供参考,如有错别字欢迎拍砖!!
原文地址:
相关推荐:
分享到微信朋友圈
在手机阅读、分享本文
还可以输入250个字
推荐文章RECOMMEND
热门文章HOT NEWS
今天下午在家里写着文章,有人提醒我淘宝小卖家正在QT语音频道里...
百度新闻客户端
百度新闻客户端
百度新闻客户端
扫描二维码下载
订阅 "百家" 频道
观看更多百家精彩新闻错误的robots.txt 百度K站没商量 - 营销推广 - 黑帽网
&>&&>& > 正文
错误的robots.txt 百度K站没商量
相信很多站长都很清楚robots.txt文件,robots.txt是中访问的时候要查看的第一个文件,Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。A5优化小组http://./认为robots.txt文件重要作用就是robots.tx可以屏蔽重复的内容收录,避免同一个网页被百度收录N次。robots.txt虽然很是重要,但是很少有站长能够正确配置文件,即使是大企业大人物的网站,也很难正确配置好robots.txt。  比如康盛创想发布的Discuz!X1.0论坛版本,当时很多站长使用Discuz!X1.0导致百度收录数量剧增,但帖子数量没增加,A5优化小组经过全面检测Discuz!X1.0发现,同一个帖子可以使用五个以上的不同网址访问,但robots.txt并没有屏蔽掉重复的网址,导致网站收录数量剧增,最后很多使用Discuz!X1.0版本的论坛被百度毫不留情的K掉。A5优化小组为了帮助使用Discuz!X1.0的站长,第一时间在Discuz!论坛发布了正确的robots.txt配置文件,A5优化小组同时联系康盛创想官方反应robots.txt存在的问题。康盛创想积极听取了A5优化小组意见,在Discuz!X1.5及更新版本中,A5优化小组发现康盛创想已经几乎完美配置了robots.txt。  比如著名SEO专家ZAC的博客,是使用的wordpress博客系统建立的,因为robots.txt没有配置好,导致每篇博文,收录几十次甚至上百次,A5优化小组通过检测ZAC的博客发现,只要博文被评论一次,就可能被百度一次博文,如果一篇博文被评论一百次,那么这篇博文就可能被百度收录一百次。是什么原因导致ZAC博客严重重复收录呢?A5优化小组发现,几乎所有重复收录的网页的网址后面都存在?replytocom=****,replytocom是博客的一个参数,****是代表数字,只是数字不同,为什么会出现这种现象?这是因为百度蜘蛛扫描ZAC博客的replytocom参数的页面&replytocom& 相当无用。ZAC博客应该如何解决这种重复收录呢?A5优化小组认为,既然ZAC博客进行了伪静态,就应该把所有动态网址屏蔽掉,robots.txt文件增加一行:Disallow: /*?*即可解决ZAC博客重复收录现象。  A5优化小组自从提供SEO诊断优化服务以来,发现很多网站存在网页大量重复收录现象,不少网站因为内容重复收录,被百度直接K掉,毫不留情
您对本文章有什么意见或着疑问吗?请到您的关注和建议是我们前行的参考和动力&&

我要回帖

更多关于 河北移动流量王套餐28 的文章

 

随机推荐