宿主/Service

网站怎么彻底屏蔽拦截搜索引擎蜘蛛爬虫抓取

阿里云

做网站优化的站长都知道,网站上线后,网络上会有很多的搜索引擎蜘蛛爬虫会访问我们的网站。这些搜索引擎蜘蛛爬虫中既包括了百度、360、谷歌等主流搜索引擎的蜘蛛,也会有大量垃圾搜索引擎蜘蛛爬虫。

这些垃圾搜索引擎蜘蛛爬虫不但不会给我们网站带来任何流量,而且还会严重增加网站服务器的压力,降低网站的打开速度。这时我们需要屏蔽某些搜索引擎蜘蛛爬虫访问。

也想出现在这里?联系我们
创客主机

常用的屏蔽搜索搜索引擎的方法是通过 ROBOTS 文件来屏蔽。如下:

  1. User-agent: SemrushBot
  2. Disallow: /

这种屏蔽方法只能屏蔽那些遵守协议的搜索引擎,有些是不遵守就对它们无效了。下面介绍一种彻底屏蔽某些搜索引擎蜘蛛爬虫访问的方法。

找到自己主机根目录下的规则文件.htaccess(如果没有,可以手工创建.htaccess 文件到站点根目录)

  1. <IfModule mod_rewrite.c>
  2. RewriteEngine On
  3. #Block spider
  4. RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]
  5. RewriteRule !(^robots\.txt$) - [F]
  6. </IfModule>

如果不想某些蜘蛛抓取就将这些蜘蛛名称写进去即可。

注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可

附各大蜘蛛名字:

  • google 蜘蛛:googlebot
  • 百度蜘蛛:baiduspider
  • 百度手机蜘蛛:baiduboxapp
  • yahoo 蜘蛛:slurp
  • alexa 蜘蛛:ia_archiver
  • msn 蜘蛛:msnbot
  • bing 蜘蛛:bingbot
  • altavista 蜘蛛:scooter
  • lycos 蜘蛛:lycos_spider_(t-rex)
  • alltheweb 蜘蛛:fast-webcrawler
  • inktomi 蜘蛛:slurp
  • 有道蜘蛛:YodaoBot 和 OutfoxBot
  • 热土蜘蛛:Adminrtspider
  • 搜狗蜘蛛:sogou spider
  • SOSO 蜘蛛:sosospider
  • 360 搜蜘蛛:360spider

网站怎么彻底屏蔽拦截搜索引擎蜘蛛爬虫抓取

已有 529 人购买
查看演示升级 VIP立刻购买

收藏
(0)

发表回复

热销模板

Ashade - 作品展示摄影相册WordPress汉化主题
LensNews

本站承接 WordPress / PbootCMS / DedeCMS 等
系统建站、仿站、开发、定制等业务!