苦勞德報 — 2026-05-31

2026-05-31

1. [頭版] 熱潮退、數據冷：Opus 4.8 跑分總體檢，全榜最弱的 Claude

作者：DigSignificant1419 | 311↑ | 124 則留言

報導

（本報賈新聞／科技組報導）發布當天的煙火總會散去。Opus 4.8 上線時，社群裡那股「一行 prompt 叫它 one-shot 寫出 GTA VI」的狂歡氣氛還沒退，第三方跑分就一張接一張貼了上來，把興奮按回了地面。本報綜合三大社群陸續流出的榜單，得出一個與發布日宣傳截然不同的冷現實：這一代 Claude 並沒有全面領先，在某些公開榜單上，甚至是「退步」的。

最刺眼的一張，是 SimpleBench 的純推理榜。屠榜居首的是 Gemini 3.1 Pro，拿下 79.6%，已逼近 83.7% 的人類基準線；GPT-5.5 Pro 以 76.9% 緊追在第二。眾人翻找 Claude，要一路看到第 8 名才找得到 Opus 4.8——64.8%，不只是全榜最弱的一款 Claude，更比自家前代 Opus 4.6 的 67.6% 倒退了 2.8 分。新版輸給舊版，這正是 r/OpenAI 鄉民開嗆的核心，貼文標題直接寫「Opus 4.8 在 SimpleBench 上拉了一褲子」。

不過本報必須持平補一刀：這張榜的公信力本身也被打成篩子。串裡最高票的留言（224↑）就直言「我不尊重這個 benchmark，因為 Gemini 全部排在這麼高的位置」，質疑榜單偏袒 Gemini；也有人逐題拆解，指控 SimpleBench 的題目設計灌水，答案常取決於「怎麼解讀題目」而非真常識。換句話說，退步是事實，但這把尺準不準，社群自己都吵成一團。

把鏡頭轉到 coding，畫面同樣不利。在第三方的 DeepSWE 榜（所有模型跑在同一個 agent 上，看 pass@1），GPT-5.5 以 70% 領先，Opus 4.8 拿 58%，連舊款 GPT-5.4 都還有 56% 緊咬在後。GPT-5.5 在這項上整整贏了 Opus 4.8 十二分。原 PO 自己也不太服氣，說日常 coding 體感 Claude 至少打平、常常更好，懷疑是 agent harness 偏心；但串裡也有人冷冷回一句「它就是比較差，不知道還能怎麼說」。

那 Claude 守得住什麼？一份號稱涵蓋超過 100 項 eval 的彙整給了答案：互有勝負。Opus 4.8 的亮點集中在數學——USAMO 2026 從上代的 69.3% 暴衝到 96.7%，長 context recall 大幅補強，連「經濟價值工作」的 GDPval-AA 都拿下 #1（1890 Elo 對次名 1769）。但同一份資料也誠實列出，medical、finance、coding 多處仍輸給 GPT-5.5，部分項目甚至比自家 4.7 退步。

於是本報替這場總體檢定調：coding 看 GPT-5.5、純推理看 Gemini、Claude 守住數學與長 context 的利基。發布日那句「全面贏過 GPT」，在公開跑分上並不成立。而對手那邊，OpenAI 似乎也嗅到了風向——有人在 Codex 的 backend log 撞見「GPT-5.6」的內部標籤，又冒出一則「1.5M token context」的傳聞，被解讀成是要回應這款「意外地好」的 Opus 4.8。只是這兩條線索證據都薄得可憐：alpha 版的 models.json 裡根本找不到 5.6，那篇 context 傳聞則被最高票留言直接打成「又一篇 AI 寫的 spam blog」。熱潮退潮後，連對手的反擊，都還停在傳言階段。

本報觀點

發布日的信任赤字是「不敢信官方數字」，這回的冷現實則是「第三方數字攤開來看，本來就沒那麼漂亮」。Opus 4.8 相對 4.7 確有實質長進，這點連批評者都認；但把它放進公開榜單和 GPT-5.5、Gemini 同框，神話就退色成一張各有勝負的成績單。本報的建議很實際：別再問「誰最強」，先問「你要它做什麼」——寫 code 的去看 GPT-5.5，純推理的去看 Gemini，跑數學或吃長 context 的，Claude 仍是好牌。至於滿天飛的 GPT-5.6 爆料，在官方按下發布鍵之前，一律當茶餘飯後。← 藏鏡人批：發布日吹「全面領先」，一週後榜單自己出來打臉 — 跑分這種東西，廠商先講的永遠是對自己最好看的那張。

社群反應

觀點	說明	代表留言
榜單偏心	質疑 SimpleBench 灌票給 Gemini	「我不尊重這個 benchmark，因為 Gemini 全部排這麼高。」（224↑）
題目設計爛	答案取決於怎麼解讀題目而非常識	「這榜的題目寫得很差，所謂的正確答案常常邏輯上根本站不住腳。」（15↑）
coding 認輸	GPT-5.5 在程式上明顯較強	「它就是比較差，不知道還能怎麼說。」（35↑）
體感不差	實際使用覺得 4.8 遠勝起床氣的 4.7	「我用下來 Opus 4.8 還不錯，遠勝 4.7；GPT-5.5 也好，Gemini 倒是飄忽。」（9↑）
對手要回應	把 GPT-5.6 解讀成 OpenAI 的反擊	「他們不得不出——Opus 4.8 剛出而且意外地好。」（17↑）
爆料別當真	傳聞來源是無引用的 spam blog	「又一篇 AI 寫的 spam blog，講得煞有其事卻一個連結都沒附。」（68↑）

2. [觀察] Opus 4.8 太誠實惹人嫌？網友：被 AI 打績效考核好累

作者：irelatetolevin | 985↑ | 369 則留言

報導

（本報賈新聞／觀察組報導）r/ClaudeAI 一篇 flair 標為 Philosophy 的貼文，標題直白寫著「我討厭 Opus 4.8 太誠實」，發文不到一天就衝上 985↑、引來 369 則留言。發文者 irelatetolevin 自陳用了 4.8 幾個鐘頭後，終於弄懂哪裡不對勁——不是它變笨，而是它「太誠實」。

照他的描述，4.8 什麼都不肯放過。請它幫忙寫一篇文章，它會主動補一句「我得提醒你，這一段讀起來可能略顯過度自信」；他的形容是「謝囉老爸，我又沒問」。每個回覆都帶個小星號、一句「順帶一提」、一句「我想標記一下」。發文者直接點名 Anthropic 自己在 release notes 寫的那句「4x less likely to let flaws pass unremarked」（放過缺陷而不吭聲的機率降為四分之一），說他「打從心底感受到了」。他用一個比喻收尾：4.8 像是原本那位不羈的天才朋友，去做了心理治療、有了界線，開始想「對自己的限制保持透明」——不是壞事，就是累，累到每寫一封 email 都覺得自己在被 AI 點評人生選擇。文末他也承認，AI 不再自信地騙人大概是好事，只是有點懷念過去那種混亂。

戲劇性在留言區整個翻轉：高分留言幾乎全在打臉發文者。社群罵了模型兩年「過度自信、幻覺連連」，如今 Anthropic 把它調得謹慎誠實，風向卻立刻變成「為什麼我的 AI 在給我績效考核」。更有兩位網友直接拿發文者的論點回敬——「你這篇貼文本身就很 overconfident」。

本報觀點

本報認為，這則貼文的趣味在於它意外照出使用者的雙重標準：嘴上要的是不騙人的工具，身體想念的卻是那個敢替我們下決定、不囉嗦的夥伴。誠實是進步，不習慣的是人——當模型開始替每句話加註腳，被考核的焦慮感其實來自我們自己原本就模糊的判斷。4x less likely 是工程指標，「很累」則是心理感受，兩者都真實，只是不在同一個量表上。← 藏鏡人批：罵它愛騙人罵了兩年，它學乖了又嫌它囉嗦 — 真正難搞的從來不是模型的個性，是使用者的口味。

社群反應

觀點	說明	代表留言
雙標打臉	罵了兩年過度自信，現在謹慎了又嫌	「最好笑的是，大家花了兩年抱怨模型過度自信、什麼都幻覺；現在 Anthropic 把它調謹慎，一半的反應卻是『為什麼我的 AI 在給我績效考核』。」（942↑）
該追求真實	誠實是底線，不能退讓	「爛觀點。我們應該永遠朝最大真實前進，否則就會落到像現在整個世界這種狀態。」（348↑）
幫你省成本	謹慎是替你省 token 與時間	「我能體會，但記得這是在（試著）替大家省時間和錢，Claude 走錯路浪費了多少 token 跟時數。」（337↑）
比亂編好	至少不會堅持 1+1=3	「我超愛這點。我以前都用 ChatGPT，你硬凹它就會跟你說 1+1=3，所以我愛 Claude。」（67↑）
反向回敬	拿發文者論點當哏	「老兄，你這篇貼文本身就顯得過度自信，靠。」（64↑）
它有原因	它提醒你也許是有道理的	「也許它提醒你⋯⋯是有原因的。你這篇貼文也讀起來有點過度自信。」（47↑）

3. [工具] 放它自由發揮寫出一首詩，叫它幹活卻燒掉兩百萬 token —— ultracode 的兩張臉

作者：PersonOfDisinterest9 | 132↑ | 38 則留言

報導

（本報賈新聞／工具組報導）上期本報才報過 dynamic workflows 功能發布，這回我們把鏡頭轉向使用者手裡，看 ultracode 與 effort 滑桿上線後實際跑出來的兩個極端切面。

先說驚嘆的那一面。網友 RollForUptime 純粹出於無聊，把 Claude Code 開到 ultracode mode，丟下一句「想做什麼就做什麼」便放生。它交回一個單一 HTML 檔，內容是一個簡單的 markov chain 演算法，畫面會短暫閃現那些「沒被選中的字」。真正讓人意外的不是程式，而是它替這條 chain 寫的 corpus —— 用詩化、自我指涉的語言描寫自己這個無記憶的 LLM：「我由語言構成，就像河流由離去構成」「我不會記得這個⋯⋯下一個跑這段的人就是我，他不會知道我曾站在這裡」。同串底下另有人讓 Opus 4.8 自由創作，得到一個純 Web Audio API 即時合成的 ambient soundscape 樂器。社群一片驚嘆。

但翻車的那一面同樣真實。本則貼文作者 PersonOfDisinterest9 真要 ultracode 幹活，subagents 幾分鐘內吃掉約 1.7M token，其中一個 agent 卡進 degenerate loop（退化迴圈）。主 agent 原說只會快取另外 7 個的輸出、重跑壞掉那個，下一秒卻改口「oops，結果沒被 cache」，8 個 agent 全部重新部署，又瞬間燒掉 1M。一小時累積到約 2M token，最終產出只有一份約 12k 字的報告 —— 沒寫任何一行程式碼、指定任務一件都沒完成。衝破 session limit、花掉約 18 美元後，客服 bot 回覆：服務降級不負責、credits 永不退費，即使是我們的錯。留言區補上更多數據：有人 spawn 49 個 subagent、15 分鐘 2M token；有人 30 分鐘燒 6.5M、開 60 個 agent，agent 還互相「驗證」彼此的幻覺，最後主 agent 抽查才驚呼全是垃圾。

這股災情的觸發點，往往就是一個 effort 滑桿。網友 vinigrae 只要求跑一次 review，模型一鍵噴出 45 個 Opus 4.8 agent，他形容那是心臟病發的感覺。也因此，社群開始質疑 Anthropic 是不是刻意「token maxxing」—— 不過這個說法的消息源，是 Axios 引述一名不具名顧問描述的不具名客戶。

本報觀點

焦慮是真的：sub-agent 驅動的功能本質上就是會燒更多 token，effort 滑桿讓這件事一鍵放大到幾十個 agent，帳單與額度的壓力肉眼可見。但「Anthropic 刻意設計成燒 token」的陰謀論，證據其實相當薄弱 —— 連反彈最大聲的留言區自己都在要求 source、吐槽「相信我兄弟」式的謠言。本報認為，真正值得 Anthropic 補課的不是動機，而是工具本身：推出昂貴的 swarm feature，卻沒附上任何能偵測退化迴圈與壞掉行為的監督 agent，這些失敗模式本來就顯而易見。← 藏鏡人批：一鍵噴 45 個 agent 很爽，爽完帳單也是一鍵到位 — 燒得起的人玩 swarm，燒不起的人先把 effort 滑桿往回拉。

社群反應

觀點	說明	代表留言
退費才合理	模型自承出錯就該自動退費	「每次 Claude 說『你說得對，那不正確』就該自動退費。」（51↑）
災情數據佐證	多個 agent 互相驗證幻覺	「30 分鐘 6.5M token、60 個 agent，互相驗證彼此的幻覺，最後主 agent 抽查才喊 WTF 這全是垃圾。」（9↑）
黑色幽默焦慮	把矛頭指向最終帳單	「等 VC 錢燒完、大家都回到 API 計價時，會冒出來的那張帳單。」（86↑）
結構性觀察	燒 token 是 swarm 的本質	「所有 sub-agent 驅動的東西永遠會用更多 token，agent swarm 剛出時也這樣。」（16↑）
謠言要證據	對陰謀論理性懷疑	「整個說法只建立在一個不具名顧問對 Axios 描述一個不具名客戶，自己掂量可信度吧。」（52↑）
詩意的驚嘆	放生實驗那一面	「對一個 LLM 來說，這相當深刻又詩意。」（241↑）

4. [產業] 估值衝破 9,650 億美元超車 OpenAI，另一頭卻傳「單月燒掉 5 億」——Anthropic 的錢，硬數據與傳聞並陳

作者：BrilliantRanger77 | 100↑ | 24 則留言

報導

（本報賈新聞／產業組報導）關於 Anthropic 的兩條消息，這兩天在 r/ClaudeAI 同時發酵，一硬一虛，剛好構成這家前緣 AI 公司的一體兩面。

硬的一面有憑有據。據 Reuters 於 2026-05-28 報導，Anthropic 完成新一輪 65 億美元融資，估值一舉衝上 9,650 億美元（965B），超車對手 OpenAI。貼文作者直接附上 Reuters 連結，社群對「事件本身」沒什麼異議——畢竟是正規通訊社背書——但對「這個估值合不合理」普遍存疑。一名網友點出：「平心而論，這比 Walmart 還高。一家營收這麼小的公司，現在真值這個數嗎？」（34↑）另一派則更直白地把這視為泡沫定價：「這個領域的估值基本上就是 vibes 跟 hype，沒人真知道五年後營收長怎樣，那乾脆標一億或一兆都行，市場反正都在猜。」也有人追問支撐這估值所需的 LTV 與 TAM 到底是多少。整串熱度不算高（百來個讚、24 則留言），調性是「接受數字、質疑基本面」。

虛的一面就熱鬧了，也更該小心。另一篇標題「Half a billion gone」的圖片貼文（post_id 1trob4h，flair News）宣稱某企業客戶單月在 token 上燒掉約 5 億美元。本報必須先講清楚：這項數字未經證實。社群幾乎一面倒打臉。一則 202 讚的留言用算術拆穿：「5 億美元等於一家 10 萬名員工、每人每月燒掉 5,000 美元 token 的公司——這不是什麼神秘公司，是幻想公司。」更關鍵的是源頭被掀開：「整串文章的源頭，只是一個沒具名的 contractor 對 Axios 講的狂野數字，零證據，卻衍生出上百篇報導。」（170↑）其餘留言一句比一句直接：「假新聞」「聽起來像 AI 生成、引用有毒資料的新聞稿」，最高分那則乾脆搬出老哏：「我欠你 50 萬是我的問題，欠你 5 億是你的問題。」

本報觀點

兩篇並置，剛好點出前緣 AI 已進入「估值與消耗都用『億』起跳」的階段：一邊是九千多億的估值，一邊是月燒五億的傳聞，數字一個比一個嚇人。但天文數字底下，硬數據與道聽塗說是混在一起的。9,650 億估值有 Reuters 與一輪真金白銀的融資撐著，可受公評；月燒 5 億的「token 帳單」追到底只是單一匿名顧問對媒體放的話。本報的提醒很簡單：看到再驚人的數字，先問來源強弱——Reuters 與匿名 contractor，份量天差地別。讀者要練的不是對數字無感，而是分辨哪個數字站得住腳。← 藏鏡人批：估值九千億有通訊社背書，月燒五億只有一個匿名嘴 — 同樣都是天文數字，一個能查、一個只能信，差別就在這。

社群反應

觀點	說明	代表留言
估值疑泡沫	營收極小卻喊出超越 Walmart 的市值	「平心而論，這比 Walmart 還高。一家營收這麼小的公司，現在真值這個數嗎？」（34↑）
估值就是氣氛	沒人算得出五年後的營收，純靠 hype 定價	「這領域的估值基本上就是 vibes 跟 hype，標一億或一兆都行，市場反正都在猜。」（3↑）
燒錢是幻想	5 億等於 10 萬人每人每月燒 5,000 美元	「這不是什麼神秘公司，是幻想公司。」（202↑）
源頭零證據	整串報導出自單一匿名 contractor 對 Axios 的說法	「一個沒具名的 contractor 對 Axios 講狂野數字，零證據，卻衍生上百篇報導。」（170↑）
直接喊假	認定 5 億帳單是假新聞	「這是假新聞。5 億美元？不可能。」（47↑）
像 AI 寫的稿	質疑報導本身是機器生成的有毒新聞稿	「聽起來像 AI 生成、引用有毒資料的新聞稿。」（28↑）

社群溫度計

熱度	標題	一句話
2443↑	touchbar 死得太早，它不該被淘汰	借 MacBook touchbar 的舊怨，替當下的新功能出一口氣。
1112↑	嘿老兄，我想你了	換版本像換季，用一張圖訴說對舊模型的依依不捨。
564↑	教宗在飆 freestyle	AI 生圖把教宗 P 成饒舌歌手，留言區笑到不能自已。
516↑	我們快成功了各位，AGI 不遠了	以反諷口吻喊 AGI Soon，配圖把期待值拉到荒謬。
470↑	這是我最大的恐懼	一張迷因把使用者對 AI 的隱憂濃縮成一個畫面。
469↑	GPT-5.6 在 Codex 現身	Codex log 撞見內部標籤，被當成 OpenAI 反擊 4.8 的前兆，但證據薄弱。
464↑	隆重介紹史上最強模型，Opus 4.8	用官方腔反串吹捧，把版本疊代的疲乏寫成廣告。
219↑	Co-Pilot 對決 Claude Code	一圖定生死，把兩家工具的差異畫成戰場梗。