针对Google的robots文件使用

来源：拓宽seo 作者： yaohua 时间：2011-12-07

很多站长抱怨Google的抓取过于频繁(消耗了大量带宽)，而且访问站点内容很少，而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容，还放到了Google的索引当中。在此拓宽动力深圳seo公司提出阻止Google抓取某些特定页面的最有效方法是使用robots.txt文件。robots.txt是一个简单的ASCIl文本文件，放在站点的根目录下面。例如，如果你的域名http://www.comseo.net的话，那么该文件应该被放置在ht t p:/ / w w w.c o m s eo.net/r o bots.txt 。我们可以通过robots.txt来阻止Google索引图片、运行PERL脚本(例如，需要客户填写的表恪)或者访问带有版权的页面。robots.txt文件的每块的第一行是蜘蛛的名称，接下来是不允许防问的目录或文件的列表，块与块之间用空行分隔。文件名的格式还支持通配符，例如用“#”和“?”来代表任意数字或字母。

　　接下来介绍一下robots.txt文件阻止所有的爬虫访问图片目录和PERL脚本目录，并且又阻止Googlebot访问带有版权的内容和版权声明页面(假使图片放置在“image’’目录下，并且带有版权的内容放置在“copyright”目录下)的方式方法：
　　User-agent:*

　　Disallow:/images/

　　Disallow:/cgi—bin/

　　User—agent:Googlebot

　　Disallow：/copyright/
　　另一方面如果我们需要控制Googlebot的抓取速率的话，就需要注册Google站长工具了。你可以选择三个等级：快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量，但是同时Google的抓取也会变得不那么频繁了。需要注意的是，并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的网络蜘蛛)。比如说很多蜘蛛程序不支持写在网页meta标签中的元数据爬虫指令。但是为了兼顾完整性，我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写：
�0�2�0�2�0�2�0�2�0�2�0�2�0�2 <metaname=”robots”content=”NOINDEX”>
　　
　　而不让蜘蛛程序抓取该页面上的链接，则meta标签可以这样写：
　　
　　<metaname=”robots”content=”NOFOllOW”>

�0�2�0�2�0�2�0�2�0�2�0�2�0�2 Google对NOINDEX和NOFOIlLOW都是支持的，但是其他搜索引擎通常都不支持。

下一篇：网站优化五部曲之内部链接优化上一篇：做seo添加文章内容要注意什么

拓宽动力是深圳一家互联网基础服务商，提供深圳网站建设-深圳网站制作- 深圳SEO-深圳网站优化- 深圳网络推广-深圳网站推广，集网站建设、网站优化、网站推广、网站运营于一体！力助企业实现网络梦想，帮助企业打造网络赚钱机器。咨询热线：0755-88842685.

您现在所在的位置：主页 > 新闻动态 > 搜索引擎优化专题 >

针对Google的robots文件使用

相关文章

最新文章

热门文章

信息导航

关于我们-联系我们-诚征英才-法律声明-付款方式-加盟合作-友情链接-站点地图