Google Bot 檢索器和擷取程式來源 | IT人生

身為網站管理者或 SEO 專員，檢查伺服器日誌（Server Logs）是我們的日常工作。你是否曾經在流量報表中看到大量的「Googlebot」訪問紀錄，心想：「哇！Google 最近很愛我的網站，SEO 要起飛了嗎？」

先別高興得太早！在網路上，有許多惡意程式、垃圾郵件機器人或駭客工具，會刻意將自己的 User-Agent 偽裝成 Googlebot。它們這樣做的目的，通常是為了繞過網站的防禦機制，進行內容爬取、尋找漏洞，甚至是消耗你的伺服器資源。

那麼，我們該如何一眼識破誰是「真警察」，誰是「穿著警服的小偷」呢？
這篇文章將用最簡單的方式，教你如何利用官方提供的方法，驗證 Google 爬蟲的真實身份。

Google 爬蟲的三大類型：誰在敲你的門？

在學習驗證之前，我們先來認識一下 Google 派出的「探員」有哪幾種。根據 Google 官方文件，主要分為三大類：

1. 常見檢索器 (Common Crawlers)

這是我們最熟悉的 SEO 爬蟲。

代表人物： Googlebot (搜尋引擎用)。
行為模式： 它們非常乖巧，一律遵守 robots.txt 的規則。如果你的網站禁止爬取，它們就不會進來。
用途： 建立 Google 搜尋索引，決定你的排名。

2. 特殊情況檢索器 (Special Case Crawlers)

這些是為了特定 Google 產品服務的爬蟲。

代表人物： AdsBot (Google 廣告用)。
行為模式： 不一定會遵守 robots.txt。因為這是基於你與該產品（如 Google Ads）之間的協議運作的。
用途： 檢查廣告到達頁面的品質與內容。

3. 使用者觸發的擷取程式 (User-triggered Fetchers)

這不是 Google 主動發起的，而是「因為有人要求」才來的。

代表人物： Google Search Console 的「網址審查工具」、Google 翻譯、或是 Google Cloud 上的應用程式。
行為模式： 因為是用戶下的指令，所以它們通常會忽略 robots.txt。
用途： 當你在 Search Console 按下「測試現有網址」時，來的即使這個傢伙。

站長小筆記： 如果你發現某些 Google IP 不遵守 robots.txt，先別急著封鎖，確認一下它是否屬於第 2 或第 3 類。

如何驗證 Google 爬蟲身份？(兩種方法)

要確認來訪的 IP 是不是真的 Google 員工，官方提供了兩種方法：手動查詢與自動比對。

方法一：手動指令查詢 (適合偶爾檢查)

如果你只是想確認某幾個可疑的 IP，使用電腦內建的終端機（Command Line）是最快的方法。這個過程就像是進行「雙重身分認證」。

步驟流程：

反向 DNS 查詢： 問這個 IP，「你的名字是什麼？」(確認它聲稱自己是 Google)。
正向 DNS 查詢： 拿著它給的名字去問 DNS 系統，「這個名字真的對應這個 IP 嗎？」(確認它沒說謊)。

實戰範例：

假設我們在日誌中看到一個 IP 66.249.66.1 自稱是 Googlebot。

Step 1：執行反向查詢 (使用 host 指令) 在終端機輸入：

host 66.249.66.1

系統回應：

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

判斷點： 網域名稱必須包含 googlebot.com、google.com 或 googleusercontent.com。

Step 2：執行正向查詢 (驗證剛才得到的網域) 在終端機輸入：

host crawl-66-249-66-1.googlebot.com

系統回應：

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

結論： 兩次結果吻合，且網域正確，這就是真．Googlebot。

方法二：自動化解決方案 (適合工程師/防火牆設定)

如果你的網站流量很大，不可能每天手動敲指令。這時候你需要透過程式自動比對 Google 公布的 IP 清單。

Google 會定期更新這些 JSON 格式的 IP 列表，你可以讓你的工程師將這些清單加入防火牆的白名單中。

一般檢索器 (Googlebot)： googlebot.json
特殊檢索器 (AdsBot 等)： special-crawlers.json
使用者觸發 (工具類)：user-triggered-fetchers.json 或 user-triggered-fetchers-google.json

注意： 這些 IP 範圍會變動，建議設定自動排程定期抓取最新的 JSON 檔案，不要寫死 (Hard code) 在程式裡喔！

結論：保護網站，從辨識真假開始

在 SEO 的世界裡，數據的準確性至關重要。學會分辨真假 Google 爬蟲，不僅能讓你的流量分析報告更精準（排除假流量），還能透過防火牆阻擋惡意偽裝的掃描工具，提升網站安全性。

最後幫大家做個總結：

看到 Googlebot 別急著開心，先保持懷疑。
少量檢查用 host 指令做雙向 DNS 驗證。
大量防護請使用 Google 官方提供的 JSON IP 清單。

希望這篇文章能幫助你更了解自家網站的訪客！

參考來源

Google 搜尋中心：驗證 Google 檢索器