身為網站管理者或 SEO 專員,檢查伺服器日誌(Server Logs)是我們的日常工作。你是否曾經在流量報表中看到大量的「Googlebot」訪問紀錄,心想:「哇!Google 最近很愛我的網站,SEO 要起飛了嗎?」
先別高興得太早!在網路上,有許多惡意程式、垃圾郵件機器人或駭客工具,會刻意將自己的 User-Agent 偽裝成 Googlebot。它們這樣做的目的,通常是為了繞過網站的防禦機制,進行內容爬取、尋找漏洞,甚至是消耗你的伺服器資源。
那麼,我們該如何一眼識破誰是「真警察」,誰是「穿著警服的小偷」呢?
這篇文章將用最簡單的方式,教你如何利用官方提供的方法,驗證 Google 爬蟲的真實身份。
Google 爬蟲的三大類型:誰在敲你的門?
在學習驗證之前,我們先來認識一下 Google 派出的「探員」有哪幾種。根據 Google 官方文件,主要分為三大類:
1. 常見檢索器 (Common Crawlers)
這是我們最熟悉的 SEO 爬蟲。
- 代表人物:
Googlebot(搜尋引擎用)。 - 行為模式: 它們非常乖巧,一律遵守
robots.txt的規則。如果你的網站禁止爬取,它們就不會進來。 - 用途: 建立 Google 搜尋索引,決定你的排名。
2. 特殊情況檢索器 (Special Case Crawlers)
這些是為了特定 Google 產品服務的爬蟲。
- 代表人物:
AdsBot(Google 廣告用)。 - 行為模式: 不一定會遵守
robots.txt。因為這是基於你與該產品(如 Google Ads)之間的協議運作的。 - 用途: 檢查廣告到達頁面的品質與內容。
3. 使用者觸發的擷取程式 (User-triggered Fetchers)
這不是 Google 主動發起的,而是「因為有人要求」才來的。
- 代表人物: Google Search Console 的「網址審查工具」、Google 翻譯、或是 Google Cloud 上的應用程式。
- 行為模式: 因為是用戶下的指令,所以它們通常會忽略
robots.txt。 - 用途: 當你在 Search Console 按下「測試現有網址」時,來的即使這個傢伙。
站長小筆記: 如果你發現某些 Google IP 不遵守 robots.txt,先別急著封鎖,確認一下它是否屬於第 2 或第 3 類。
如何驗證 Google 爬蟲身份?(兩種方法)
要確認來訪的 IP 是不是真的 Google 員工,官方提供了兩種方法:手動查詢與自動比對。
方法一:手動指令查詢 (適合偶爾檢查)
如果你只是想確認某幾個可疑的 IP,使用電腦內建的終端機(Command Line)是最快的方法。這個過程就像是進行「雙重身分認證」。
步驟流程:
- 反向 DNS 查詢: 問這個 IP,「你的名字是什麼?」(確認它聲稱自己是 Google)。
- 正向 DNS 查詢: 拿著它給的名字去問 DNS 系統,「這個名字真的對應這個 IP 嗎?」(確認它沒說謊)。
實戰範例:
假設我們在日誌中看到一個 IP 66.249.66.1 自稱是 Googlebot。
Step 1:執行反向查詢 (使用 host 指令) 在終端機輸入:
host 66.249.66.1
系統回應:
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
判斷點: 網域名稱必須包含
googlebot.com、google.com或googleusercontent.com。
Step 2:執行正向查詢 (驗證剛才得到的網域) 在終端機輸入:
host crawl-66-249-66-1.googlebot.com
系統回應:
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
結論: 兩次結果吻合,且網域正確,這就是真.Googlebot。
方法二:自動化解決方案 (適合工程師/防火牆設定)
如果你的網站流量很大,不可能每天手動敲指令。這時候你需要透過程式自動比對 Google 公布的 IP 清單。
Google 會定期更新這些 JSON 格式的 IP 列表,你可以讓你的工程師將這些清單加入防火牆的白名單中。
- 一般檢索器 (Googlebot):
googlebot.json - 特殊檢索器 (AdsBot 等):
special-crawlers.json - 使用者觸發 (工具類):user-triggered-fetchers.json 或 user-triggered-fetchers-google.json
注意: 這些 IP 範圍會變動,建議設定自動排程定期抓取最新的 JSON 檔案,不要寫死 (Hard code) 在程式裡喔!
結論:保護網站,從辨識真假開始
在 SEO 的世界裡,數據的準確性至關重要。學會分辨真假 Google 爬蟲,不僅能讓你的流量分析報告更精準(排除假流量),還能透過防火牆阻擋惡意偽裝的掃描工具,提升網站安全性。
最後幫大家做個總結:
- 看到 Googlebot 別急著開心,先保持懷疑。
- 少量檢查用
host指令做雙向 DNS 驗證。 - 大量防護請使用 Google 官方提供的 JSON IP 清單。
希望這篇文章能幫助你更了解自家網站的訪客!






