User-agent: SemrushBot
Disallow: /
做网站优化的站长都知道,网站上线后,网络上会有很多的搜索引擎蜘蛛爬虫会访问我们的网站。这些搜索引擎蜘蛛爬虫中既包括了百度、360、谷歌等主流搜索引擎的蜘蛛,也会有大量垃圾搜索引擎蜘蛛爬虫。
这些垃圾搜索引擎蜘蛛爬虫不但不会给我们网站带来任何流量,而且还会严重增加网站服务器的压力,降低网站的打开速度。这时我们需要屏蔽某些搜索引擎蜘蛛爬虫访问。
常用的屏蔽搜索搜索引擎的方法是通过 ROBOTS 文件来屏蔽。如下:
User-agent: SemrushBot
Disallow: /
这种屏蔽方法只能屏蔽那些遵守协议的搜索引擎,有些是不遵守就对它们无效了。下面介绍一种彻底屏蔽某些搜索引擎蜘蛛爬虫访问的方法。
找到自己主机根目录下的规则文件.htaccess(如果没有,可以手工创建.htaccess 文件到站点根目录)
<IfModule mod_rewrite.c>
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]
RewriteRule !(^robots\.txt$) - [F]
</IfModule>
如果不想某些蜘蛛抓取就将这些蜘蛛名称写进去即可。
注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可
附各大蜘蛛名字:
专业提供WordPress主题安装、深度汉化、加速优化等各类网站建设服务,详询在线客服!