震撼賬單的來源!了解AI爬虫

什麼是AI爬蟲 (AI Crawler)

首先要理解現在像ChatGPT這些AI,它們的常識來源有一大部份是透過網站內容取得,透過AI爬虫不斷從網路抓取資料來訓練AI。其實它們做的事情跟搜尋器爬虫是差不多,差異在於AI競賽當中,AI公司需要在短時間內取得更多資料,所以會採取更進取的方法爬蟲。

為什麼AI爬虫會造成震撼賬單?

「更進取」的意思是,AI爬蟲會用更密集,更高頻率方式去拿資料,這個會對網站主機造成額外的負擔。

我們曾經處理過最極端的案例是,網站放在某大雲端,Instance CPU長期100%,網站等於直接掛掉。我們協助把網站搬遷過來進行過濾,看到網站有超過 95%流量都是來自單一AI爬虫(某社交媒體的AI爬虫)。這裡看到兩個問題,首先以上個案反應AI爬蟲已經影響網站穩定性本身,同時客戶因為這樣花了一筆額外的費用而造成震撼賬單,因為雲端是按算力計算收費的,而這個過案,絕大部份算力都是被那個爬虫佔用,而不是一般訪客。

下方截圖是另一位客戶的記錄,可以看到排名第一的爬虫佔超過三份一流量,是排名第四爬虫的二十倍 。留意截圖顯示的 34.69%抓取的都是動態內容,所以實際資源佔用影響遠遠高於三份一。

什麼網站會特別受爬虫影響?

根據我們經驗,多內容,多頁數的網站會比較受AI爬虫影響,例如論壇,部落格,購物網站等等。而其中最近我們發現爬虫有嘗試針對分類頁面較多,或者有過濾功能的頁面進行更進取的爬蟲行為。這些功能比較吃主機資源,同樣造成額外負擔。

現在過濾AI爬虫的辦法,這些辦法真的有用嗎?

比較知名,而又有提供免費過濾功能的應該是Cloudflare,他們可以讓用家選擇封鎖特定甚至完全封鎖AI爬虫。這裡有兩個問題

1、封鎖某社交媒體的爬虫,有可能會影響網站連結分享到某社交媒體 (缺少了預覽)。

2、能夠封鎖的前提是AI爬虫說自己是爬虫,但現在很多爬虫並沒有這樣做,所以單純以Useragent過濾並不是100%有效方式。

過濾會有什麼壞處?

有些客戶會使用「操SEO」的概念去「操AI」,例如灌輸那個那個網站的產品特別好給AI,假如網站封鎖了AI,那效果可能會未如理想。

你們有什麼處理方式?

早於Cloudflare 有提供AI Bot過濾功能之前,其實我們已經有注意到AI爬虫的潛在問題,而我們立場是

1、沒有表明,但行為是AI爬虫,而且來源可疑,我們直接封鎖

2、保持不主動干預,但假如有影響主機穩定性,我們會主動封鎖

3、我們有特別為某社交媒體的AI爬虫客製化限流方式,當客戶網站受波及的時候,我們會設置限流但網站影響可以正常於某社交媒體分享並且能夠正確顯示預覽。

假如你的網站也受AI爬虫的困擾,歡迎聯絡我們了解我們提供的網頁寄存服務。

科比擁有經營虛擬主機、網站代管20年經驗與眾多口碑青睞,網頁相關服務都可以交給我們!

 

優惠的年費與貼心售後服務一直是我們致力想提供給客戶的,持續創新與進步的技術支援、解決需求,希望讓客戶用划算的價格體驗最好的服務!

你也會喜歡

個案分享

2026-01-29

AI有沒有用?工程師的剩餘價值

自從ChatGPT出現,多了許多客戶會拿ChatGPT(或者其他AI)的答案去嘗試「跟進」我們客服或工程師提供 […]

個案分享

2026-01-28

工程師日常:一次過搬遷400個網站

去年底我們接了一個案子,需要從客戶的舊主機搬遷約400個網站過來科比主機。當時的初步了解,舊主機採用Plesk […]

科比教室

2026-01-09

SSL與DNS的關係,終極懶人包

科比國際的所有虛擬主機方案都有含免費SSL,只要網域有正確指向到我們主機,免費SSL就能夠啟用。當中有一些客戶 […]

IT新聞

2025-12-15

主管叫你開LINE群組!提防新形式電郵詐騙!

最近有不少客戶以及同行回報,收到從「公司主管」發出,標題是公司名稱的郵件,郵件內容像以下: 因工作需要,請先建 […]

WordPress, 科比教室

2025-11-13

使用Cloudflare Zerotrust讓WordPress更安全

相信有很多用家會使用Cloudflare 的CDN功能讓網站提速,而其實Cloudflare 還有許多實用功能 […]

IT新聞, 個案分享

2025-10-21

使用台灣主機排除海纜影響?

從星期六開始 (10/18),我們陸續有收到客戶查詢需要從國外廠商搬遷網站到我們的台灣主機,因為網站突然變得超 […]

買主機送網域

購買虛擬主機,即贈送一年網域名稱

買主機送網域

購買虛擬主機,即送一年網域名

買主機送網域

購買虛擬主機,即贈送一年網域名稱