什么是robots.txt?
robots.txt是位于网站根目录的一个纯文本文件。
robots.txt从构成上、写法上都不难,但是很有用。有人不在意,觉得放不放都没关系,但是从SEM的角度,如果你想更专业,我建议你使用。百度和谷歌都是使用robots.txt的。
robots.txt有什么用?
不久前刚说到过Robot(搜索引擎探测器)是什么,只有先了解了robot,你才能明白为什么网站需要有robots.txt。
因为robots.txt就是引导robot用的,所以robots.txt主要用途有两条:
1.引导Robot(搜索引擎探测器)。让好的robot索引你的网站,屏蔽坏的robot的骚扰。不过插一句题外话,原则归原则,坏的robot通常也不会遵守robots.txt。
2.屏蔽不需要的内容。不论出于何种原因,不论是因为技术原因还是个人原因,只要你不想让搜索引擎看到与索引的东西,都可以屏蔽。例如:死链接、错误链接、图片、网站内部一级目录、重复动态链接等。
robots.txt基础写法:
本篇只介绍robots.txt的基础写法,即屏蔽技巧,80%以上的场合已适用够用,更复杂的Robots META标签等以后有机会再讲解,其实用到的场合不很多。
根据robots.txt两条作用分述如下:
1.控制Robot(搜索引擎探测器):
a.允许任何robot收录全部页面,即无限制。最简单的robots.txt。
User-agent: *
Disallow:
b.禁止特定robot,例子中为badeggrobot
User-agent: badeggrobot
Disallow: /
c.仅允许特定robot,例子中为googlebot
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
2.控制屏蔽页面:
Disallow: 全部页面开放,允许搜索
Disallow: / 全部页面禁止索引
Disallow: /bbs/ 禁止索引bbs目录文件
Disallow: /badegg.html 禁止收录badegg.html页面
Disallow: /login.php? 禁止收录login.php开头的动态链接
注意事项两条:
1.robots.txt文件名为小写。
2.文件内的:后都有一个空格。
最后提供谷歌和百度的robots.txt网址,供大家自己学习、比较、赏析一下。
http://www.google.com/robots.txt
http://www.baidu.com/robots.txt
作者:杨灿灿@SEM界 SEM第一版 2009-09-02
SEM-ALL,中国SEM学习运营第一品牌
本文SEM-ALL版权所有,未经批准转载必究。