AI 爬蟲是最近讓很多部落客主機 CPU 超載當機的真兇,它們不是來帶流量,而是把你整站文章抓回去餵模型。很多人第一個反應是升級主機硬體,但那是無底洞,你升多少它就爬多少。正確做法是用 Cloudflare 擋在最前線,再用 robots.txt 處理利益良善的爬蟲。這篇會講主機為什麼當機、AI 爬蟲分哪幾種、哪些該開哪些該擋、紐時和 CNN 怎麼設定,還有 Cloudflare 付費版白名單為什麼值得花。
為什麼主機會三天兩頭 CPU 超載當機?
「我網站又掛了,主機商說是 CPU 超載,可是我流量明明就沒爆增啊?」這是最近很多部落客一來找我,劈頭就問的第一句話。答案通常不是你的真人訪客變多了,而是有一群你在後台看不到的訪客,正在同一時間湧進你的主機,把 CPU 吃到滿載。
如果你用的是共享主機或入門的虛擬主機,CPU 跟記憶體都有上限。平常真人一次進來幾個、十幾個,主機輕鬆應付。但機器人不一樣,它可以在一分鐘內對你網站發出上百次請求,一頁一頁把你站內文章全部翻過一遍。主機一旦要同時處理這麼多請求,CPU 瞬間衝到 100%,輕則網站變超慢,重則直接回你 500 錯誤、整站當機。
更麻煩的是,這種狀況不是偶發。它會三天兩頭發生,因為爬你的不是同一隻機器人,而是來自世界各地、一隻接一隻輪流上門。
真兇不是流量暴增,是 AI 爬蟲
把主機爬到當機的,十之八九是 AI 爬蟲。這跟我們以前認識的搜尋引擎爬蟲是兩回事。
Google 那種 SEO 爬蟲(Googlebot)其實很有禮貌,它知道過度抓取會拖垮你的主機,所以會自己控制頻率、分散時間,慢慢來。它爬你是為了把內容收進搜尋結果,對你是有好處的,你會因此拿到排名跟點擊。關於搜尋引擎怎麼看你的網站,我在部落格 SEO 教學完整懶人包裡有完整說明。
AI 爬蟲就沒這麼客氣了。它們是來抓資料的,要把你整站文章一篇不漏地搬回去餵給 AI 模型。它們不太在乎你的主機受不受得了,短時間內就是猛爬、狂爬,這才是 CPU 超載的真正來源。
這邊先破除一個迷思:你可能聽過 robots.txt 可以管爬蟲,但 robots.txt 救不了一台已經在當機的主機,為什麼,我留到後面專門講。
升主機是無底洞,阻擋爬蟲要靠 Cloudflare
面對 AI 爬蟲,升級主機硬體是最直覺、卻也最燒錢的錯誤解法。
我懂那個邏輯,主機不夠力嘛,那就加 CPU、加記憶體、換更貴的方案。問題是,AI 爬蟲的數量只增不減,你今天升一級撐住了,過陣子又有新的 AI 公司推出新爬蟲,照樣把你升級後的主機塞爆。你等於拿自己的錢,去餵一個永遠填不滿的洞。我看過部落客一路從入門方案升到接近主機商最高階的方案,結果還是會當,錢花了、問題沒解決。
真正該做的,是把這些不必要的請求擋在主機外面,根本不讓它們進來消耗資源,這就是 Cloudflare 的角色。Cloudflare 是一層擋在你的網站跟全世界之間的反向代理,所有請求都要先經過它才到得了你的主機。換句話說,你可以在 Cloudflare 這一關就先把那些別有目的的爬蟲攔下來,它們連碰到你主機的機會都沒有,CPU 自然就降下來了。同樣的道理,我之前寫過用 Cloudflare 保護 WordPress 後台,也是把壞傢伙擋在門外的思路。
AI 爬蟲分兩種:即時抓取跟模型訓練差在哪?
AI 爬蟲大致分兩種,一種是來抓資料訓練模型的,一種是使用者問問題時、即時去抓你網頁的。搞懂這個差別,你才知道哪些該擋、哪些該留。
模型訓練型的爬蟲,目的是把你的文章抓回去當成 AI 的學習素材。它讀完就走,不會幫你帶來任何一個訪客,對你的曝光沒有半點好處,卻是最會狂爬、最會吃資源的一群。
即時抓取型的剛好相反。它通常是有一個真人在另一端,問了 AI 一個問題,AI 為了回答他,才即時跑來讀你這篇文章。這種爬蟲背後是真實的需求,而且 AI 在回答時很可能會引用你、標出你的網站來源,等於幫你做了一次曝光。這跟答案引擎優化(AEO)的概念是相通的,你會希望 AI 在回答問題時提到你。
所以這裡有個關鍵的取捨:你會想讓它即時來抓你的文章,但不要讓它把你的文章拿去訓練。這是做得到的,後面設定那段會教你怎麼分。
這裡舉一個容易混淆的例子。你自己叫 ChatGPT 或 Google 的 NotebookLM 去讀你某一篇文章、幫你整理重點,這種就是使用者觸發的即時抓取,背後是你這個真人想看內容。麻煩在哪?像 Google NotebookLM 這類工具去抓網頁時,是直接無視 robots.txt 的,你在 robots.txt 寫的規則它根本不甩。這也再次說明,robots.txt 從來就不是真正的防線。
很多人會問我:那我到底要不要讓 AI 抓我的文章?我的答案是,即時抓取盡量留著,那是免費的曝光;模型訓練看你自己,想保護內容就擋,想多被 AI 學去、提高品牌出現的機率就留,這沒有標準答案,只有取捨。
主流 AI 爬蟲哪些該開、哪些該擋?
先講結論,要擋的是訓練型爬蟲,要開的是搜尋與即時抓取型爬蟲。
我幫你把目前主流的整理一下。光是 OpenAI 跟 Anthropic 兩家,就各自養了三隻機器人,分別管訓練、管 AI 搜尋、管使用者即時提問,所以你不能只認得一個名字就以為處理完了。
建議阻擋的是這幾隻模型訓練爬蟲,它們只吃資源、不帶曝光:
- GPTBot(OpenAI 訓練)
- ClaudeBot(Anthropic 訓練)
- Google-Extended(Google 訓練)
- CCBot(Common Crawl,很多 AI 拿它的資料去訓練)
- Bytespider(字節跳動,以爬得兇出名)
建議放行的是這幾隻,它們會幫你帶來 AI 曝光:
- OAI-SearchBot、ChatGPT-User(OpenAI 的搜尋與使用者即時抓取)
- Claude-User(Anthropic 的使用者即時抓取)
- PerplexityBot(Perplexity 的 AI 搜尋)
- Googlebot(一般 SEO 爬蟲,絕對要留,擋了排名就沒了)
除了 AI 爬蟲,還有一件事可以順手做,就是擋掉機器人去爬那些沒必要的歸檔頁。像標籤頁、分類頁、作者頁、站內搜尋結果頁,這些頁面對人沒什麼閱讀價值,內容又重複,但機器人很愛一頁一頁翻。把這些頁面也擋掉,等於少掉一大塊被爬的範圍,主機會輕鬆很多。
robots.txt、llms.txt 跟 Cloudflare 實際怎麼設定?
設定分兩個層次,robots.txt 負責對利益良善的爬蟲喊話,Cloudflare 才是真正動手擋人的那一關,我一步一步講。
第 1 步:用 robots.txt 跟守規矩的爬蟲講清楚
robots.txt 是放在你網站根目錄的一個文字檔,爬蟲進來之前會先看它,照裡面的規則決定要爬哪、不爬哪。重點是這個會先看、會照做的前提,是這隻爬蟲願意守規矩。一份典型的設定長這樣:
# 阻擋模型訓練爬蟲
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
User-agent: CCBot
User-agent: Bytespider
Disallow: /
# 放行即時抓取與 AI 搜尋,保留 AI 曝光
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: Claude-User
User-agent: PerplexityBot
Allow: /
# 阻擋沒必要的歸檔頁,省主機資源
User-agent: *
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: /?s=
但這裡要講重話:robots.txt 防的是君子,防不了小人。它只是一張請勿進入的告示牌,守規矩的爬蟲會停下來,但別有目的、或像前面講的 NotebookLM 那種根本不看告示牌的,照樣長驅直入。所以 robots.txt 能減輕一部分負擔,卻救不了一台已經被狂爬到當機的主機。
第 2 步:開 Cloudflare,把擋不住的真正擋下來
這才是真正解決當機的關鍵。Cloudflare 的付費方案裡有一個機器人對抗模式(Super Bot Fight Mode),它會把流量分成幾類:確定是機器人的、可能是機器人的、以及已驗證的好機器人(像 Googlebot)。你可以設定把確定是機器人那一類直接擋掉,這些人連你主機的門都摸不到,CPU 也就不會再被它們吃爆。robots.txt 講好話沒用的那些小人,到這一關就被硬擋下來了。
那 llms.txt 要不要做?做了也擋不住
我必須先打個預防針。最近很多人在討論一個叫 llms.txt 的新檔案,說它是專門寫給 AI 看的。我要很明確地告訴你:llms.txt 目前完全擋不住任何 AI 爬蟲,更救不了你的主機。沒有任何一家主流 AI 公司保證會遵守它,連 Google 官方都公開講過,沒有任何 AI 系統在用這個檔案。所以你千萬不要以為做了 llms.txt,爬蟲就會乖乖被擋住、主機就不會再當機。它頂多是替未來留個伏筆,現階段絕對不能把它當成防護工具。
紐約時報和 CNN 怎麼設定 AI 爬蟲?
想知道怎麼設定才專業,直接去看大型媒體的 robots.txt 就好,它們在這件事上走在最前面。
CNN 的做法相當強硬,它幾乎把市面上叫得出名字的 AI 爬蟲全部擋光,包含 OpenAI、Anthropic、Google 的訓練爬蟲,還有一大票其他家的,清一色不放行。對它們這種等級的內容生產者來說,內容就是最值錢的資產,與其讓 AI 免費抓去訓練,不如全擋,要用就來談授權。
紐約時報這類媒體則偏向選擇性開放的策略,原則是擋掉模型訓練、保留 AI 搜尋。它們不希望自己的報導被無償拿去訓練模型,但又不想放棄使用者問 AI、AI 引用到自己這份曝光,所以會把訓練類的爬蟲擋掉、把搜尋類的留著。
這給我們部落客的啟發很清楚:你不一定要像 CNN 那樣全擋,但你應該想清楚自己的內容值不值得被免費訓練,再決定要走全擋路線,還是擋訓練、留搜尋的折衷路線。
機器人防禦會誤殺:你買的 PICSEE 也可能被擋
把機器人擋光是有副作用的,連你自己花錢在用的好工具,都可能被一起擋掉。
最常見的例子就是 PICSEE。你用 PICSEE 縮短網址、貼到社群上,它需要派一隻爬蟲去抓你那篇文章的標題跟預覽圖,社群貼文才會出現漂亮的縮圖卡片。但在 Cloudflare 眼裡,PICSEE 的爬蟲也是機器人,一旦你把機器人全擋,它就會被誤擋,結果你的短網址貼出去變成一張沒有預覽圖的醜卡片。
所以這裡要建立一個很重要的觀念:開了 Cloudflare 不代表一勞永逸,它一定有一段適應期。剛打開機器人對抗模式的頭幾天,你得去看哪些是真的該擋、哪些是被誤殺的好工具,然後把好工具一個一個加進白名單。這是一個需要你持續去調校的過程,而不是打開自動功能、就以為它會幫你把所有事情都處理得好好的。把判斷全部交給 Cloudflare 自己決定,遲早會誤傷到你自己。
為什麼 Cloudflare 付費版的白名單值得花?
因為只有付費版,你才做得了那個精準擋訓練、放行搜尋跟好工具的白名單。
先講一個很多人沒想到的代價:擋掉訓練爬蟲不是完全沒成本的。當你把訓練類爬蟲擋光,你的內容就比較不會被新一代的 AI 模型學進去,長期來看,未來大家問 AI 問題時,AI 回答裡提到你、引用你的機會也會跟著變少。這對想經營個人品牌、想被 AI 看見的部落客來說,是一個實實在在的取捨。
正因為有這個取捨,白名單才這麼重要。Cloudflare 免費版能做的很有限,差不多就是一刀切,要嘛全放、要嘛粗暴地擋。但你的需求根本不是非黑即白,你想擋的是吃資源又不帶曝光的訓練爬蟲,想放行的是會幫你曝光的 AI 搜尋、還有 PICSEE 這種你自己在用的工具。這種擋一部分、放一部分的細緻操作,要靠付費版的 Super Bot Fight Mode 搭配防火牆規則才做得出來。一個月二十美金左右,換來主機不再三天兩頭當機、又能保住該有的 AI 曝光,比你一路盲目升級主機硬體划算太多了。
當然,這些設定要全部自己摸,是有點門檻的,光是分辨哪隻爬蟲該擋、哪隻該放,還有後續的白名單調校,就夠讓人頭痛。如果你不想自己跟這些設定耗,這正是我們在做的事,幫你把主機跟 Cloudflare 一次搞定,讓你專心寫你的文章就好。
金城老師觀點
老實說,AI 越來越普及之後,我收到主機當機求救的原因裡,AI 爬蟲佔的比例越來越高,早就不像以前多半是流量暴增或外掛衝突了。我特別想提醒你的是,千萬別一遇到當機就急著升級主機,那條路我看太多部落客走過,錢花了一堆,問題一個沒解決。真正的解法是想清楚我要讓誰進來、把誰擋在門外,然後用 Cloudflare 在最前線處理掉。設定是要花一點工夫沒錯,但這是一勞永逸的投資,不是無底洞。會自己動手就照這篇做,不想碰的就交給我,怎麼樣都比你眼睜睜看著主機一直當好。
延伸閱讀
參考資料
常見問題
robots.txt 真的可以擋掉 AI 爬蟲嗎?
只能擋一部分。robots.txt 像一張請勿進入的告示牌,願意守規矩的爬蟲會照做,但別有目的的爬蟲根本不看,照樣闖進來吃你主機資源。所以它能減輕負擔,卻救不了已經當機的主機,真正要擋人還是得靠 Cloudflare。
我叫 AI 去讀我網站的某篇資料,這種爬蟲會不會被我自己的設定擋掉?
這屬於使用者觸發的即時抓取,背後是真人想看你的內容,原則上應該放行。但要注意,有些工具像 Google NotebookLM 抓網頁時會直接無視 robots.txt,你寫的規則對它沒用;反過來如果你在 Cloudflare 把機器人全擋,也可能連這種即時抓取一起誤殺,所以記得加白名單。
升級主機方案可以解決 AI 爬蟲的問題嗎?
不能,這是最常見的誤區。AI 爬蟲只增不減,你升多少它就爬多少,等於拿錢去填永遠填不滿的洞。正確做法是用 Cloudflare 把不必要的爬蟲擋在主機外面,從源頭減少請求,而不是一直加 CPU 跟記憶體。
那個專門寫給 AI 看的 llms.txt,要不要設定?
現階段它擋不了任何爬蟲,也救不了你的主機。沒有任何一家主流 AI 保證遵守 llms.txt,連 Google 官方都說沒有 AI 系統在用它。你可以做來替未來留伏筆,但千萬別把它當成防護工具,更別以為做了就不會再被爬到當機。
開了 Cloudflare 機器人對抗模式就一勞永逸了嗎?
不是,它一定有適應期。剛開的頭幾天,你得去看哪些是真的該擋、哪些是被誤殺的好工具(例如 PICSEE 的預覽爬蟲),再把好工具一個一個加進白名單。這是需要持續調校的過程,不能打開自動功能就放著不管。

