Google Bot 檢索器和擷取程式來源

身為網站管理者或 SEO 專員,檢查伺服器日誌(Server Logs)是我們的日常工作。你是否曾經在流量報表中看到大量的「Googlebot」訪問紀錄,心想:「哇!Google 最近很愛我的網站,SEO 要起飛了嗎?」

先別高興得太早!在網路上,有許多惡意程式、垃圾郵件機器人或駭客工具,會刻意將自己的 User-Agent 偽裝成 Googlebot。它們這樣做的目的,通常是為了繞過網站的防禦機制,進行內容爬取、尋找漏洞,甚至是消耗你的伺服器資源。

那麼,我們該如何一眼識破誰是「真警察」,誰是「穿著警服的小偷」呢?
這篇文章將用最簡單的方式,教你如何利用官方提供的方法,驗證 Google 爬蟲的真實身份。

Google 爬蟲的三大類型:誰在敲你的門?

在學習驗證之前,我們先來認識一下 Google 派出的「探員」有哪幾種。根據 Google 官方文件,主要分為三大類:

1. 常見檢索器 (Common Crawlers)

這是我們最熟悉的 SEO 爬蟲。

  • 代表人物: Googlebot (搜尋引擎用)。
  • 行為模式: 它們非常乖巧,一律遵守 robots.txt 的規則。如果你的網站禁止爬取,它們就不會進來。
  • 用途: 建立 Google 搜尋索引,決定你的排名。

2. 特殊情況檢索器 (Special Case Crawlers)

這些是為了特定 Google 產品服務的爬蟲。

  • 代表人物: AdsBot (Google 廣告用)。
  • 行為模式: 不一定會遵守 robots.txt。因為這是基於你與該產品(如 Google Ads)之間的協議運作的。
  • 用途: 檢查廣告到達頁面的品質與內容。

3. 使用者觸發的擷取程式 (User-triggered Fetchers)

這不是 Google 主動發起的,而是「因為有人要求」才來的。

  • 代表人物: Google Search Console 的「網址審查工具」、Google 翻譯、或是 Google Cloud 上的應用程式。
  • 行為模式: 因為是用戶下的指令,所以它們通常會忽略 robots.txt
  • 用途: 當你在 Search Console 按下「測試現有網址」時,來的即使這個傢伙。

站長小筆記: 如果你發現某些 Google IP 不遵守 robots.txt,先別急著封鎖,確認一下它是否屬於第 2 或第 3 類。

如何驗證 Google 爬蟲身份?(兩種方法)

要確認來訪的 IP 是不是真的 Google 員工,官方提供了兩種方法:手動查詢自動比對

方法一:手動指令查詢 (適合偶爾檢查)

如果你只是想確認某幾個可疑的 IP,使用電腦內建的終端機(Command Line)是最快的方法。這個過程就像是進行「雙重身分認證」。

步驟流程:

  1. 反向 DNS 查詢: 問這個 IP,「你的名字是什麼?」(確認它聲稱自己是 Google)。
  2. 正向 DNS 查詢: 拿著它給的名字去問 DNS 系統,「這個名字真的對應這個 IP 嗎?」(確認它沒說謊)。

實戰範例:

假設我們在日誌中看到一個 IP 66.249.66.1 自稱是 Googlebot。

Step 1:執行反向查詢 (使用 host 指令) 在終端機輸入:

host 66.249.66.1

系統回應:

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

判斷點: 網域名稱必須包含 googlebot.comgoogle.comgoogleusercontent.com

Step 2:執行正向查詢 (驗證剛才得到的網域) 在終端機輸入:

host crawl-66-249-66-1.googlebot.com

系統回應:

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

結論: 兩次結果吻合,且網域正確,這就是真.Googlebot

方法二:自動化解決方案 (適合工程師/防火牆設定)

如果你的網站流量很大,不可能每天手動敲指令。這時候你需要透過程式自動比對 Google 公布的 IP 清單。

Google 會定期更新這些 JSON 格式的 IP 列表,你可以讓你的工程師將這些清單加入防火牆的白名單中。

注意: 這些 IP 範圍會變動,建議設定自動排程定期抓取最新的 JSON 檔案,不要寫死 (Hard code) 在程式裡喔!

結論:保護網站,從辨識真假開始

在 SEO 的世界裡,數據的準確性至關重要。學會分辨真假 Google 爬蟲,不僅能讓你的流量分析報告更精準(排除假流量),還能透過防火牆阻擋惡意偽裝的掃描工具,提升網站安全性。

最後幫大家做個總結:

  1. 看到 Googlebot 別急著開心,先保持懷疑。
  2. 少量檢查用 host 指令做雙向 DNS 驗證。
  3. 大量防護請使用 Google 官方提供的 JSON IP 清單。

希望這篇文章能幫助你更了解自家網站的訪客!

參考來源

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端