快速從 DNS 驗證合法爬蟲,不要再浪費效能給惡意爬蟲!!!

網站在運作從提供服務的運算或是輸出的流量,每樣事物對於經營者來說都是成本。好的爬蟲帶來流量,惡意的爬蟲帶來只有滿滿的帳單金額。起初並沒有太針對爬蟲的有太多研究,一切起源於想收集惡意攻擊IP名單同時整合進防火牆阻擋的過程中,才思考到清單內是否會帶有搜尋引擎爬蟲的 IP,全阻擋掉的結果會一起封鎖搜尋引擎爬蟲,導致網站無法被正確爬蟲索引,畢竟現在網站流量來源有絕大多數靠著搜索引擎帶進來的。

理論上主流的搜尋引擎爬蟲現在都有自主規範,爬蟲在搜索數據時都會主動表明身分在 User-Agent 的字串中,而字串的來源建立於網路世界的互相信任,但對於即將要把黑名單的IP清單匯入防火牆中,阻擋會發生在網路的 Layer 3,不會等看到字串內容後後才決定是否封鎖IP來源。

快速從 DNS 驗證合法爬蟲,不要再浪費效能給惡意爬蟲!!! 閱讀全文 »