AI 爬蟲把主機爬到當機?用 Cloudflare 處理就對了

AI 爬蟲是最近讓很多部落客主機 CPU 超載當機的真兇,它們不是來帶流量,而是把你整站文章抓回去餵模型。很多人第一個反應是升級主機硬體,但那是無底洞,你升多少它就爬多少。正確做法是用 Cloudflare 擋在最前線,再用 robots.txt 處理利益良善的爬蟲。這篇會講主機為什麼當機、AI 爬蟲分哪幾種、哪些該開哪些該擋、紐時和 CNN 怎麼設定,還有 Cloudflare 付費版白名單為什麼值得花。

為什麼主機會三天兩頭 CPU 超載當機?

「我網站又掛了,主機商說是 CPU 超載,可是我流量明明就沒爆增啊?」這是最近很多部落客一來找我,劈頭就問的第一句話。答案通常不是你的真人訪客變多了,而是有一群你在後台看不到的訪客,正在同一時間湧進你的主機,把 CPU 吃到滿載。

如果你用的是共享主機或入門的虛擬主機,CPU 跟記憶體都有上限。平常真人一次進來幾個、十幾個,主機輕鬆應付。但機器人不一樣,它可以在一分鐘內對你網站發出上百次請求,一頁一頁把你站內文章全部翻過一遍。主機一旦要同時處理這麼多請求,CPU 瞬間衝到 100%,輕則網站變超慢,重則直接回你 500 錯誤、整站當機。

更麻煩的是,這種狀況不是偶發。它會三天兩頭發生,因為爬你的不是同一隻機器人,而是來自世界各地、一隻接一隻輪流上門。

真兇不是流量暴增,是 AI 爬蟲

把主機爬到當機的,十之八九是 AI 爬蟲。這跟我們以前認識的搜尋引擎爬蟲是兩回事。

Google 那種 SEO 爬蟲(Googlebot)其實很有禮貌,它知道過度抓取會拖垮你的主機,所以會自己控制頻率、分散時間,慢慢來。它爬你是為了把內容收進搜尋結果,對你是有好處的,你會因此拿到排名跟點擊。關於搜尋引擎怎麼看你的網站,我在部落格 SEO 教學完整懶人包裡有完整說明。

AI 爬蟲就沒這麼客氣了。它們是來抓資料的,要把你整站文章一篇不漏地搬回去餵給 AI 模型。它們不太在乎你的主機受不受得了,短時間內就是猛爬、狂爬,這才是 CPU 超載的真正來源。

這邊先破除一個迷思:你可能聽過 robots.txt 可以管爬蟲,但 robots.txt 救不了一台已經在當機的主機,為什麼,我留到後面專門講。

升主機是無底洞,阻擋爬蟲要靠 Cloudflare

面對 AI 爬蟲,升級主機硬體是最直覺、卻也最燒錢的錯誤解法

我懂那個邏輯,主機不夠力嘛,那就加 CPU、加記憶體、換更貴的方案。問題是,AI 爬蟲的數量只增不減,你今天升一級撐住了,過陣子又有新的 AI 公司推出新爬蟲,照樣把你升級後的主機塞爆。你等於拿自己的錢,去餵一個永遠填不滿的洞。我看過部落客一路從入門方案升到接近主機商最高階的方案,結果還是會當,錢花了、問題沒解決。

真正該做的,是把這些不必要的請求擋在主機外面,根本不讓它們進來消耗資源,這就是 Cloudflare 的角色。Cloudflare 是一層擋在你的網站跟全世界之間的反向代理,所有請求都要先經過它才到得了你的主機。換句話說,你可以在 Cloudflare 這一關就先把那些別有目的的爬蟲攔下來,它們連碰到你主機的機會都沒有,CPU 自然就降下來了。同樣的道理,我之前寫過用 Cloudflare 保護 WordPress 後台,也是把壞傢伙擋在門外的思路。

AI 爬蟲分兩種:即時抓取跟模型訓練差在哪?

AI 爬蟲大致分兩種,一種是來抓資料訓練模型的,一種是使用者問問題時、即時去抓你網頁的。搞懂這個差別,你才知道哪些該擋、哪些該留。

模型訓練型的爬蟲,目的是把你的文章抓回去當成 AI 的學習素材。它讀完就走,不會幫你帶來任何一個訪客,對你的曝光沒有半點好處,卻是最會狂爬、最會吃資源的一群。

即時抓取型的剛好相反。它通常是有一個真人在另一端,問了 AI 一個問題,AI 為了回答他,才即時跑來讀你這篇文章。這種爬蟲背後是真實的需求,而且 AI 在回答時很可能會引用你、標出你的網站來源,等於幫你做了一次曝光。這跟答案引擎優化(AEO)的概念是相通的,你會希望 AI 在回答問題時提到你。

所以這裡有個關鍵的取捨:你會想讓它即時來抓你的文章,但不要讓它把你的文章拿去訓練。這是做得到的,後面設定那段會教你怎麼分。

這裡舉一個容易混淆的例子。你自己叫 ChatGPT 或 Google 的 NotebookLM 去讀你某一篇文章、幫你整理重點,這種就是使用者觸發的即時抓取,背後是你這個真人想看內容。麻煩在哪?像 Google NotebookLM 這類工具去抓網頁時,是直接無視 robots.txt 的,你在 robots.txt 寫的規則它根本不甩。這也再次說明,robots.txt 從來就不是真正的防線。

很多人會問我:那我到底要不要讓 AI 抓我的文章?我的答案是,即時抓取盡量留著,那是免費的曝光;模型訓練看你自己,想保護內容就擋,想多被 AI 學去、提高品牌出現的機率就留,這沒有標準答案,只有取捨。

主流 AI 爬蟲哪些該開、哪些該擋?

先講結論,要擋的是訓練型爬蟲,要開的是搜尋與即時抓取型爬蟲。

我幫你把目前主流的整理一下。光是 OpenAI 跟 Anthropic 兩家,就各自養了三隻機器人,分別管訓練、管 AI 搜尋、管使用者即時提問,所以你不能只認得一個名字就以為處理完了。

建議阻擋的是這幾隻模型訓練爬蟲,它們只吃資源、不帶曝光:

  • GPTBot(OpenAI 訓練)
  • ClaudeBot(Anthropic 訓練)
  • Google-Extended(Google 訓練)
  • CCBot(Common Crawl,很多 AI 拿它的資料去訓練)
  • Bytespider(字節跳動,以爬得兇出名)

建議放行的是這幾隻,它們會幫你帶來 AI 曝光:

  • OAI-SearchBot、ChatGPT-User(OpenAI 的搜尋與使用者即時抓取)
  • Claude-User(Anthropic 的使用者即時抓取)
  • PerplexityBot(Perplexity 的 AI 搜尋)
  • Googlebot(一般 SEO 爬蟲,絕對要留,擋了排名就沒了)

除了 AI 爬蟲,還有一件事可以順手做,就是擋掉機器人去爬那些沒必要的歸檔頁。像標籤頁、分類頁、作者頁、站內搜尋結果頁,這些頁面對人沒什麼閱讀價值,內容又重複,但機器人很愛一頁一頁翻。把這些頁面也擋掉,等於少掉一大塊被爬的範圍,主機會輕鬆很多。

robots.txt、llms.txt 跟 Cloudflare 實際怎麼設定?

設定分兩個層次,robots.txt 負責對利益良善的爬蟲喊話,Cloudflare 才是真正動手擋人的那一關,我一步一步講。

第 1 步:用 robots.txt 跟守規矩的爬蟲講清楚

robots.txt 是放在你網站根目錄的一個文字檔,爬蟲進來之前會先看它,照裡面的規則決定要爬哪、不爬哪。重點是這個會先看、會照做的前提,是這隻爬蟲願意守規矩。一份典型的設定長這樣:

# 阻擋模型訓練爬蟲
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
User-agent: CCBot
User-agent: Bytespider
Disallow: /

# 放行即時抓取與 AI 搜尋,保留 AI 曝光
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: Claude-User
User-agent: PerplexityBot
Allow: /

# 阻擋沒必要的歸檔頁,省主機資源
User-agent: *
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: /?s=

但這裡要講重話:robots.txt 防的是君子,防不了小人。它只是一張請勿進入的告示牌,守規矩的爬蟲會停下來,但別有目的、或像前面講的 NotebookLM 那種根本不看告示牌的,照樣長驅直入。所以 robots.txt 能減輕一部分負擔,卻救不了一台已經被狂爬到當機的主機。

第 2 步:開 Cloudflare,把擋不住的真正擋下來

這才是真正解決當機的關鍵。Cloudflare 的付費方案裡有一個機器人對抗模式(Super Bot Fight Mode),它會把流量分成幾類:確定是機器人的、可能是機器人的、以及已驗證的好機器人(像 Googlebot)。你可以設定把確定是機器人那一類直接擋掉,這些人連你主機的門都摸不到,CPU 也就不會再被它們吃爆。robots.txt 講好話沒用的那些小人,到這一關就被硬擋下來了。

那 llms.txt 要不要做?做了也擋不住

我必須先打個預防針。最近很多人在討論一個叫 llms.txt 的新檔案,說它是專門寫給 AI 看的。我要很明確地告訴你:llms.txt 目前完全擋不住任何 AI 爬蟲,更救不了你的主機。沒有任何一家主流 AI 公司保證會遵守它,連 Google 官方都公開講過,沒有任何 AI 系統在用這個檔案。所以你千萬不要以為做了 llms.txt,爬蟲就會乖乖被擋住、主機就不會再當機。它頂多是替未來留個伏筆,現階段絕對不能把它當成防護工具。

紐約時報和 CNN 怎麼設定 AI 爬蟲?

想知道怎麼設定才專業,直接去看大型媒體的 robots.txt 就好,它們在這件事上走在最前面。

CNN 的做法相當強硬,它幾乎把市面上叫得出名字的 AI 爬蟲全部擋光,包含 OpenAI、Anthropic、Google 的訓練爬蟲,還有一大票其他家的,清一色不放行。對它們這種等級的內容生產者來說,內容就是最值錢的資產,與其讓 AI 免費抓去訓練,不如全擋,要用就來談授權。

紐約時報這類媒體則偏向選擇性開放的策略,原則是擋掉模型訓練、保留 AI 搜尋。它們不希望自己的報導被無償拿去訓練模型,但又不想放棄使用者問 AI、AI 引用到自己這份曝光,所以會把訓練類的爬蟲擋掉、把搜尋類的留著。

這給我們部落客的啟發很清楚:你不一定要像 CNN 那樣全擋,但你應該想清楚自己的內容值不值得被免費訓練,再決定要走全擋路線,還是擋訓練、留搜尋的折衷路線。

機器人防禦會誤殺:你買的 PICSEE 也可能被擋

把機器人擋光是有副作用的,連你自己花錢在用的好工具,都可能被一起擋掉。

最常見的例子就是 PICSEE。你用 PICSEE 縮短網址、貼到社群上,它需要派一隻爬蟲去抓你那篇文章的標題跟預覽圖,社群貼文才會出現漂亮的縮圖卡片。但在 Cloudflare 眼裡,PICSEE 的爬蟲也是機器人,一旦你把機器人全擋,它就會被誤擋,結果你的短網址貼出去變成一張沒有預覽圖的醜卡片。

所以這裡要建立一個很重要的觀念:開了 Cloudflare 不代表一勞永逸,它一定有一段適應期。剛打開機器人對抗模式的頭幾天,你得去看哪些是真的該擋、哪些是被誤殺的好工具,然後把好工具一個一個加進白名單。這是一個需要你持續去調校的過程,而不是打開自動功能、就以為它會幫你把所有事情都處理得好好的。把判斷全部交給 Cloudflare 自己決定,遲早會誤傷到你自己。

為什麼 Cloudflare 付費版的白名單值得花?

因為只有付費版,你才做得了那個精準擋訓練、放行搜尋跟好工具的白名單。

先講一個很多人沒想到的代價:擋掉訓練爬蟲不是完全沒成本的。當你把訓練類爬蟲擋光,你的內容就比較不會被新一代的 AI 模型學進去,長期來看,未來大家問 AI 問題時,AI 回答裡提到你、引用你的機會也會跟著變少。這對想經營個人品牌、想被 AI 看見的部落客來說,是一個實實在在的取捨。

正因為有這個取捨,白名單才這麼重要。Cloudflare 免費版能做的很有限,差不多就是一刀切,要嘛全放、要嘛粗暴地擋。但你的需求根本不是非黑即白,你想擋的是吃資源又不帶曝光的訓練爬蟲,想放行的是會幫你曝光的 AI 搜尋、還有 PICSEE 這種你自己在用的工具。這種擋一部分、放一部分的細緻操作,要靠付費版的 Super Bot Fight Mode 搭配防火牆規則才做得出來。一個月二十美金左右,換來主機不再三天兩頭當機、又能保住該有的 AI 曝光,比你一路盲目升級主機硬體划算太多了。

當然,這些設定要全部自己摸,是有點門檻的,光是分辨哪隻爬蟲該擋、哪隻該放,還有後續的白名單調校,就夠讓人頭痛。如果你不想自己跟這些設定耗,這正是我們在做的事,幫你把主機跟 Cloudflare 一次搞定,讓你專心寫你的文章就好。

金城老師觀點

金城老師觀點

老實說,AI 越來越普及之後,我收到主機當機求救的原因裡,AI 爬蟲佔的比例越來越高,早就不像以前多半是流量暴增或外掛衝突了。我特別想提醒你的是,千萬別一遇到當機就急著升級主機,那條路我看太多部落客走過,錢花了一堆,問題一個沒解決。真正的解法是想清楚我要讓誰進來、把誰擋在門外,然後用 Cloudflare 在最前線處理掉。設定是要花一點工夫沒錯,但這是一勞永逸的投資,不是無底洞。會自己動手就照這篇做,不想碰的就交給我,怎麼樣都比你眼睜睜看著主機一直當好。

延伸閱讀

參考資料

常見問題

robots.txt 真的可以擋掉 AI 爬蟲嗎?

只能擋一部分。robots.txt 像一張請勿進入的告示牌,願意守規矩的爬蟲會照做,但別有目的的爬蟲根本不看,照樣闖進來吃你主機資源。所以它能減輕負擔,卻救不了已經當機的主機,真正要擋人還是得靠 Cloudflare。

我叫 AI 去讀我網站的某篇資料,這種爬蟲會不會被我自己的設定擋掉?

這屬於使用者觸發的即時抓取,背後是真人想看你的內容,原則上應該放行。但要注意,有些工具像 Google NotebookLM 抓網頁時會直接無視 robots.txt,你寫的規則對它沒用;反過來如果你在 Cloudflare 把機器人全擋,也可能連這種即時抓取一起誤殺,所以記得加白名單。

升級主機方案可以解決 AI 爬蟲的問題嗎?

不能,這是最常見的誤區。AI 爬蟲只增不減,你升多少它就爬多少,等於拿錢去填永遠填不滿的洞。正確做法是用 Cloudflare 把不必要的爬蟲擋在主機外面,從源頭減少請求,而不是一直加 CPU 跟記憶體。

那個專門寫給 AI 看的 llms.txt,要不要設定?

現階段它擋不了任何爬蟲,也救不了你的主機。沒有任何一家主流 AI 保證遵守 llms.txt,連 Google 官方都說沒有 AI 系統在用它。你可以做來替未來留伏筆,但千萬別把它當成防護工具,更別以為做了就不會再被爬到當機。

開了 Cloudflare 機器人對抗模式就一勞永逸了嗎?

不是,它一定有適應期。剛開的頭幾天,你得去看哪些是真的該擋、哪些是被誤殺的好工具(例如 PICSEE 的預覽爬蟲),再把好工具一個一個加進白名單。這是需要持續調校的過程,不能打開自動功能就放著不管。

文章目錄