关于 FueBot (Fuyeor Spider)

FueBot 是 Fuyeor 的网络爬虫,其中 Fue 是 Fuyeor 的缩写。FueBot 是复网的网络爬虫UA,为 OneLive 搜索抓取数据。

  • FueBot 现阶段并未推出,以下为 FueBot 推出后将采用的信息。

哪些流量是 FueBot ?

来自 FueBot 的流量可通过它的用户代理进行识别,DNS指针反向解析会以 *.fue.oneliving.com 域名,现阶段IP地址是固定的,为:47.96.129.235

  • FueBot:Web spider,抓取网页信息。
  • LiveBot:Live spider,巡逻更新及抓取实时新闻信息。

确认 IP 是否为 FueBot

下面给出了在3种常用系统中使用 IP 反查主机名的方法示例。注意,现阶段 FueBot 不支持主机UA。

  • 注意:现阶段暂不支持主机UA。

Windows

在 Windows 系统中,您可以使用命令 nslookup IP 来反向查找蜘蛛。点击 Win+R 输入cmd 打开 CMD 并键入nslookup xxx.xxx.xxx.xxx(IP)”。示例:

  • 注意:现阶段暂不支持主机UA。
>nslookup 47.96.129.235
服务器:  xxxx
Address:  xxx.xxx.xxx.xxx

名称:    47-96-129-235.fue.oneliving.com
Address:  47.96.129.235

macOS

在 macOS 中,可以使用 host 命令来确定 IP 地址是不是 FueBot 的一部分。以下示例显示了 host 命令和相应的结果:

$ host 47.96.129.235
235.129.96.47.in-addr.arpa domain name pointer 47-96-129-235.fue.oneliving.com.

另外,host 命令还可用于确认 DNS 是不是指向同一 IP 地址:

$ host 47-96-129-235.fue.oneliving.com
47-96-129-235.fue.oneliving.com has address 47.96.129.235

Linux

在 Linux 中,您可以使用命令host IP反向查找 FueBot。FueBot 主机名是*.fue.oneliving.com。如果没有这个主机名,那么爬虫则不是 FueBot。

robot 规则

我们严格遵循标准 robots 规则和 User-agent: FueBot 的 robots.txt 指令。

示例:

#针对 FueBot 的 robots 规则
# robots by fuyeor.com
User-agent: FueBot
Allow: /
Disallow: /?s
Disallow: /w
Disallow: /search/

Sitemap: https://fuyeor.com/sitemap.xml

以上指令禁止了 FueBot 抓取、索引包括下列路径的 URL:

  • https://fuyeor.com/?s*
  • https://fuyeor.com/w*
  • https://fuyeor.com/search/

HTML Meta 规则

Applebot 支持 HTML 文稿中的 robots 元标签。要在元标签中指定 robots 规则,请将标签置于文稿的 <head> 部分中(如下所示):

<!DOCTYPE HTML>
<html>
<head>
<meta name="FueBot" content="规则"/>

</head>
  • noindex:不收录(索引)此页面。
  • nosnippet:返回结果不包括描述 (Description)。结果中仅包含页面的标题,示例:
docs.fuyeor.com
https://docs.fuyeor.com/test-page/
此网站建议不提供该页面的具体描述。
  • nofollow:不追踪此页面上的所有链接,并不传递权重或与你的网站关联。
  • none:等同于noindex, nofollow,OneLive 不会收录、索引该页面。
  • noarchive:该指令暂时针对 OneLive 无效,因 Onelive 不缓存任何页面。
  • all:无任何限制。该指令为默认值,因此填写和不加 Meta 标签相同,无任何效果。

Meta 标签可并列,请使用半角(英文)逗号分隔。示例:

<meta name="robots" content="noindex,nofollow”>