如何禁止搜索引擎爬虫抓取网站页面?

如何禁止搜索引擎爬虫抓取网站页面


万千封印
浏览 1500回答 1
1回答

幕布斯6054654

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。1、通过 robots.txt 文件屏蔽可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:User-agent: BaiduspiderDisallow: /User-agent: GooglebotDisallow: /User-agent: Googlebot-MobileDisallow: /User-agent: Googlebot-ImageDisallow:/User-agent: Mediapartners-GoogleDisallow: /User-agent: Adsbot-GoogleDisallow: /User-agent:Feedfetcher-GoogleDisallow: /User-agent: Yahoo! SlurpDisallow: /User-agent: Yahoo! Slurp ChinaDisallow: /User-agent: Yahoo!-AdCrawlerDisallow: /User-agent: YoudaoBotDisallow: /User-agent: SosospiderDisallow: /User-agent: Sogou spiderDisallow: /User-agent: Sogou web spiderDisallow: /User-agent: MSNBotDisallow: /User-agent: ia_archiverDisallow: /User-agent: Tomato BotDisallow: /User-agent: *Disallow: /2、通过 meta tag 屏蔽在所有的网页头部文件添加,添加如下语句:<meta name="robots" content="noindex, nofollow">3、通过服务器(如:Linux/nginx )配置文件设置直接过滤 spider/robots 的IP 段。
打开App,查看更多内容
随时随地看视频慕课网APP