识别百度蜘蛛(Baiduspider)的简单步骤

多个蜘蛛爬行一个网站增加了服务器负担。

为了提高可访问性,中国的网站一般会识别和允许百度(Baidu)中国最大的搜索引擎中的蜘蛛,并阻止小型搜索引擎中的蜘蛛。

这里有两个简单的步骤来识别百度蜘蛛。

检查用户代理

如果它的用户代理不在下面的列表中,那么蜘蛛就不是百度,百度蜘蛛的 UA 分为 3 类:移动、桌面和应用。

百度移动 UA

Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

或

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

百度桌面 UA

Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

或

Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

百度应用 UA

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
Baiduspider详细介绍

图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
商务搜索:Baiduspider-ads
网页以及其他搜索:Baiduspider 

反向查找 IP

网站管理员可以通过反向查找其 IP 来找出蜘蛛是否来自百度。如何反向查找 IP 取决于您的操作系统。以下是 3 个操作系统的验证方法:Linux、Windows 和 Mac 操作系统。

Linux

在 Linux 中,您可以使用命令主机 IP反向查找蜘蛛。百度蜘蛛的主机名包括**.baidu.com 或**.baidu.jp。如果没有这个主机名,那么蜘蛛不是百度来的。这是一个由IP反查域名的指针记录完成的。下图显示了百度蜘蛛的两个例子:

host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer aiduMobaider-119-63-195-254.crawl.baidu.jp

Windows

在 Windows 或 IBM OS/2 中,您可以使用命令nslookup IP来反向查找蜘蛛。打开CMD并键入nslookup xxx.xxx.xxx.xxx(IP)。如果域不包括 **.baidu.com 也不**.baidu.jp,那么蜘蛛不是百度。

MAC

在 Mac 操作系统中,您可以使用命令dig IP来反向查找蜘蛛。打开CMD并键入dig xxx.xxx.xxx.xxx(IP)。如果域不包括**.baidu.com 或**.baidu.jp,那么蜘蛛不是百度。

赞成提示:我们经常被问到的另一个问题是,我们是否可以将百度蜘蛛的IP添加到爬行的白色列表中。不幸的是,百度没有为蜘蛛提供恒定的IP,因为爬行者是动态的。

蜘蛛常见IP段

220.181.108.75~220.181.108.123(百度蜘蛛电信段IP)
123.125.71.12~123.125.71.117(百度蜘蛛联通段IP)
220.181.107.*
220.181.38.177
220.181.19.*
159.226.50.*
202.108.11.*
202.108.22.*
202.108.23.*
202.108.249.*
202.108.250.*
61.135.145.*
61.135.146.*
61.146.178.35 ~ 61.146.178.32 (爱站网的假百度蜘蛛抓取首页)

百度蜘蛛IP段解析:
123.125.68.* 这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或者被降权。
220.181.68.* 每天这个IP 段只增不减很有可能进沙盒或K站。
220.181.7. ~ 123.125.66. 代表百度蜘蛛IP造访,准备抓取你东西。
121.14.89.* 这个ip段作为度过新站考察期。
203.208.60.* 这个ip段出现在新站及站点有不正常现象后。
210.72.225.* 这个ip段不间断巡逻各站。
125.90.88.* 广东电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
180.76.15.* 这个是降权蜘蛛,有这个ip说明网站不会在收录了,一直到这个ip段消失。
111.206.221.*
111.206.198.* 这两个是百度渲染蜘蛛,专门抓取js、css和图片用的。
123.125.71.* 段IP代表抓取内页收录的权重比较低。可能由于你采集文章或拼文章暂时被收录但不放出来。(意思也就是说待定)。
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.107 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.87 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
123.125.71.96 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.* 段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,一般在24小时内放出来和隔夜快照。
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)
220.181.108.91 属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.75 重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
220.181.108.95 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.83 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.89 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.94 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.97 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.80 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.86 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.119 专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
220.181.108.158 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.184 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.115 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.180 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.93 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.156 重点抓取内页,爬过的文章或首页基本24小时放出来。
220.181.108.120 ~ 220.181.108.146 这两个蜘蛛是抓取/robots.txt
220.181.108.82 抓取tag页面

一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64,别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。

默认图片
Marugu Fuyeor
欢迎来到复网 - 教程与解决方案 - Marugu Fuyeor
文章: 95

留下评论