该网站的如何解除robots限制.txt文件存在限制指令,打不开网站

在线网站robots.txt文件生成器 - aTool在线工具
默认 - 所有机器人是:
Sitemap: (留空为无)
普通搜索机器人:
baiduspider
MSN Search
yahoo-slurp
Scrub The Web
DMOZ Checker
Alexa/Wayback
ia_archiver
naverbot, yeti
特殊搜索机器人:
Google Image
googlebot-image
Google Mobile
googlebot-mobile
yahoo-mmcrawler
MSN PicSearch
SingingFish
Yahoo Blogs
yahoo-blogs/v3.9
路径是相对的,但每个路径之前都要包含:"/"
生成 Robots.txt
什么是robots.txt文件 | What Is Robot.txt
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
robots.txt文件内容 | Content Of Robot.txt
搜索引擎蜘蛛的是否可访问性或者说可爬行性。
搜索引擎蜘蛛针对目录或者文件的可访问性。
网站站点地图sitemap路径定义。
搜索引擎蜘蛛爬行的时间间隔限制。
关于robots.txt文件生成器 | Robot.txt Generator
通过web界面设置好要配置的数据, 点击生成器的生成即可在最下方的文本输入框获得robots.txt的文件内容。
现在,你创建一个空白的文本文件,命名为:“robots.txt”,然后把上面的内容,复制并粘贴到“robots.txt”中去。
把“robots.txt”放在你网站的根目录,访问http://www.atool.org/robots.txt(相应替换为你的域名),确保他能让访问者(如搜索引擎)访问到。
推荐功能 / 猜你喜欢 | Suggest
评论 | Comments
公众号: atool-org网站优化攻略:Robots.txt使用指南
网站优化攻略:Robots.txt使用指南
搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。
  搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在<a class="article" 网络上常看到的&拒绝Robots访问标准&(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
  1) 一个User-Agent(用户代理)字符串行;
  2) 若干Disallow字符串行。
  记录格式为: &:&
  下面我们分别对这两个域做进一步说明。
  User-agent(用户代理):
  User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot
  一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符&*&就搞定了,即:User-agent: * Disallow(拒绝访问声明):
  在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如&Disallow: email.htm&对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而&Disallow: /cgi-bin/&则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中&Disallow: /cgi-bin/&声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而&Disallow:/bob&则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。
  空格 & 注释
  在robots.txt文件中,凡以&#&开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:
  1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解&Disallow: bob #comment&这样一条指令。有的Spiders就会误解为Disallow的是&bob#comment&。最好的办法是使注解自成一行。
  2) RES标准允许在一个指令行的开头存在空格,象&Disallow: bob #comment&,但我们也并不建议大家这么做。
  Robots.txt文件的创建:
  需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也&应该&能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子&&白费力气了。
  对RES标准的扩展:
  尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。
  附录I. Robots.txt用法举例:
  使用通配符&*&,可设置对所有robot的访问权限。
  User-agent: *
  Disallow:
  表明:允许所有搜索引擎访问网站下的所有内容。
  User-agent: *
  Disallow: /
  表明:禁止所有搜索引擎对网站下所有网页的访问。
  User-agent: *
  Disallow: /cgi-bin/Disallow: /images/
  表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
  User-agent: Roverdog
  Disallow: /
  表明:禁止Roverdog访问网站上的任何文件。
  User-agent: Googlebot
  Disallow: cheese.htm
  表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
  上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件
  附录II. 相关robots.txt文章参考:
  1. Robots.txt常见问题解析
  2. Robots Meta Tag的使用
  3. Robots.txt检测程序
SEO/搜索引擎优化安全检查中...
请打开浏览器的javascript,然后刷新浏览器
hainei.org 正在遭受攻击,请稍等片刻.
还剩 5 秒&由于该网站的robots.txt文件存在限制指令,怎么办_百度知道
由于该网站的robots.txt文件存在限制指令,怎么办
去掉这一句disallow:/,解除屏蔽抓取,告诉搜索引擎你的网站已经对它解除了屏蔽.txt文件存在限制指令的解决办法找到根目录下的robots  由于该网站的robots,主动对搜索引擎示好;下面一步很关键,现象就会消失了。&nbsp.txt文件,可以来抓取我的网页内容了,快照更新过来之后,就是到站长平台下去更新robots文件
网站运营总监
其他类似问题
为您推荐:
txt文件的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁拥有10年以上经验丰富的网站制作团队,具备科学的建站流程和快速的客户服务体系(诺贝尔妈妈网gzyhdz)
最短时间、最快速度、最简操作、最低投入提高品牌展示率
搜索引擎优化,百度自然排名第一,真正实现点击不收费!
冠辰中国独家采用独立IP,减少IP被封机率;利于优化排名
您当前位置: >>
>> 浏览文章
时间:日&点击量:次
淘宝客想要只让百度的蜘蛛来访问,其它蜘蛛全部屏蔽,而且要限制每天最多来访在一万次以内,这个robots.txt文件该怎样写?我现在没有用robots.txt文件,每天蜘蛛爬了5万多次,爬得太厉害了。。。
补充:在原程序里有以下这个robots.txt文件,说是限量的,大家看下有没有作用。
User-agent: *
Crawl-delay:150
robots.txt文件主要包含两个区域,&User-agent:&和&Disallow:&,每个区域每条指令都是独立一行。还有两个区域就是注释&#&和网站地图&sitemap:&
1、&User-agent:&区域的书写
建议指定允许哪一些搜索引擎蜘蛛抓取,如果给出参数,则只有指定的搜索引擎蜘蛛能够抓取;如值为通配符&*&号,代表允许搜索引擎所有蜘蛛抓取。
User-agent: Googlebot
表示只允许Google的蜘蛛;
User-agent: *
表示允许全部所有搜索引擎蜘蛛抓取。
注意:User-agent必须出现在网站代码第一行(有意义的行,注释除外)
2、&Disallow:&区域的书写
User-agent: *
Disallow: /
指定禁止一些搜索引擎蜘蛛抓取的目录或文件
User-agent: *
Disallow: /help.php
禁止搜索引擎抓取根目录下help.php文件;
User-agent: *
Disallow: /admin/
禁止搜索引擎抓取根目录下的admin子目录中页面任何内容;
User-agent: *
值为空时,表示不限制,蜘蛛便可以抓取网站内任何内容。
3、&#&表示注释
#这个是允许搜索引擎所有蜘蛛
User-agent: *
文章由四川冠辰编辑整理,转载请注明出处
业务咨询:
业务咨询:
服务热线:028-
服务热线:028-
免费热线:400-000-2367
??????????
版权所有 Copyright &
四川冠辰科技开发有限公司 保留所有权利 蜀ICP备号
地址:四川省成都市营门口路439号幸福丽景B座306室
服务热线:400-000-088588 总机:028-
传真:028-

我要回帖

更多关于 网站的 robots限制 的文章

 

随机推荐