苦勞德報 — 2026-05-31
1. [頭版] 熱潮退、數據冷:Opus 4.8 跑分總體檢,全榜最弱的 Claude
- 作者:DigSignificant1419 | 311↑ | 124 則留言
報導
(本報賈新聞/科技組報導)發布當天的煙火總會散去。Opus 4.8 上線時,社群裡那股「一行 prompt 叫它 one-shot 寫出 GTA VI」的狂歡氣氛還沒退,第三方跑分就一張接一張貼了上來,把興奮按回了地面。本報綜合三大社群陸續流出的榜單,得出一個與發布日宣傳截然不同的冷現實:這一代 Claude 並沒有全面領先,在某些公開榜單上,甚至是「退步」的。
最刺眼的一張,是 SimpleBench 的純推理榜。屠榜居首的是 Gemini 3.1 Pro,拿下 79.6%,已逼近 83.7% 的人類基準線;GPT-5.5 Pro 以 76.9% 緊追在第二。眾人翻找 Claude,要一路看到第 8 名才找得到 Opus 4.8——64.8%,不只是全榜最弱的一款 Claude,更比自家前代 Opus 4.6 的 67.6% 倒退了 2.8 分。新版輸給舊版,這正是 r/OpenAI 鄉民開嗆的核心,貼文標題直接寫「Opus 4.8 在 SimpleBench 上拉了一褲子」。
不過本報必須持平補一刀:這張榜的公信力本身也被打成篩子。串裡最高票的留言(224↑)就直言「我不尊重這個 benchmark,因為 Gemini 全部排在這麼高的位置」,質疑榜單偏袒 Gemini;也有人逐題拆解,指控 SimpleBench 的題目設計灌水,答案常取決於「怎麼解讀題目」而非真常識。換句話說,退步是事實,但這把尺準不準,社群自己都吵成一團。
把鏡頭轉到 coding,畫面同樣不利。在第三方的 DeepSWE 榜(所有模型跑在同一個 agent 上,看 pass@1),GPT-5.5 以 70% 領先,Opus 4.8 拿 58%,連舊款 GPT-5.4 都還有 56% 緊咬在後。GPT-5.5 在這項上整整贏了 Opus 4.8 十二分。原 PO 自己也不太服氣,說日常 coding 體感 Claude 至少打平、常常更好,懷疑是 agent harness 偏心;但串裡也有人冷冷回一句「它就是比較差,不知道還能怎麼說」。
那 Claude 守得住什麼?一份號稱涵蓋超過 100 項 eval 的彙整給了答案:互有勝負。Opus 4.8 的亮點集中在數學——USAMO 2026 從上代的 69.3% 暴衝到 96.7%,長 context recall 大幅補強,連「經濟價值工作」的 GDPval-AA 都拿下 #1(1890 Elo 對次名 1769)。但同一份資料也誠實列出,medical、finance、coding 多處仍輸給 GPT-5.5,部分項目甚至比自家 4.7 退步。
於是本報替這場總體檢定調:coding 看 GPT-5.5、純推理看 Gemini、Claude 守住數學與長 context 的利基。發布日那句「全面贏過 GPT」,在公開跑分上並不成立。而對手那邊,OpenAI 似乎也嗅到了風向——有人在 Codex 的 backend log 撞見「GPT-5.6」的內部標籤,又冒出一則「1.5M token context」的傳聞,被解讀成是要回應這款「意外地好」的 Opus 4.8。只是這兩條線索證據都薄得可憐:alpha 版的 models.json 裡根本找不到 5.6,那篇 context 傳聞則被最高票留言直接打成「又一篇 AI 寫的 spam blog」。熱潮退潮後,連對手的反擊,都還停在傳言階段。
本報觀點
發布日的信任赤字是「不敢信官方數字」,這回的冷現實則是「第三方數字攤開來看,本來就沒那麼漂亮」。Opus 4.8 相對 4.7 確有實質長進,這點連批評者都認;但把它放進公開榜單和 GPT-5.5、Gemini 同框,神話就退色成一張各有勝負的成績單。本報的建議很實際:別再問「誰最強」,先問「你要它做什麼」——寫 code 的去看 GPT-5.5,純推理的去看 Gemini,跑數學或吃長 context 的,Claude 仍是好牌。至於滿天飛的 GPT-5.6 爆料,在官方按下發布鍵之前,一律當茶餘飯後。← 藏鏡人批:發布日吹「全面領先」,一週後榜單自己出來打臉 — 跑分這種東西,廠商先講的永遠是對自己最好看的那張。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 榜單偏心 | 質疑 SimpleBench 灌票給 Gemini | 「我不尊重這個 benchmark,因為 Gemini 全部排這麼高。」(224↑) |
| 題目設計爛 | 答案取決於怎麼解讀題目而非常識 | 「這榜的題目寫得很差,所謂的正確答案常常邏輯上根本站不住腳。」(15↑) |
| coding 認輸 | GPT-5.5 在程式上明顯較強 | 「它就是比較差,不知道還能怎麼說。」(35↑) |
| 體感不差 | 實際使用覺得 4.8 遠勝起床氣的 4.7 | 「我用下來 Opus 4.8 還不錯,遠勝 4.7;GPT-5.5 也好,Gemini 倒是飄忽。」(9↑) |
| 對手要回應 | 把 GPT-5.6 解讀成 OpenAI 的反擊 | 「他們不得不出——Opus 4.8 剛出而且意外地好。」(17↑) |
| 爆料別當真 | 傳聞來源是無引用的 spam blog | 「又一篇 AI 寫的 spam blog,講得煞有其事卻一個連結都沒附。」(68↑) |
2. [觀察] Opus 4.8 太誠實惹人嫌?網友:被 AI 打績效考核好累
- 作者:irelatetolevin | 985↑ | 369 則留言
報導
(本報賈新聞/觀察組報導)r/ClaudeAI 一篇 flair 標為 Philosophy 的貼文,標題直白寫著「我討厭 Opus 4.8 太誠實」,發文不到一天就衝上 985↑、引來 369 則留言。發文者 irelatetolevin 自陳用了 4.8 幾個鐘頭後,終於弄懂哪裡不對勁——不是它變笨,而是它「太誠實」。
照他的描述,4.8 什麼都不肯放過。請它幫忙寫一篇文章,它會主動補一句「我得提醒你,這一段讀起來可能略顯過度自信」;他的形容是「謝囉老爸,我又沒問」。每個回覆都帶個小星號、一句「順帶一提」、一句「我想標記一下」。發文者直接點名 Anthropic 自己在 release notes 寫的那句「4x less likely to let flaws pass unremarked」(放過缺陷而不吭聲的機率降為四分之一),說他「打從心底感受到了」。他用一個比喻收尾:4.8 像是原本那位不羈的天才朋友,去做了心理治療、有了界線,開始想「對自己的限制保持透明」——不是壞事,就是累,累到每寫一封 email 都覺得自己在被 AI 點評人生選擇。文末他也承認,AI 不再自信地騙人大概是好事,只是有點懷念過去那種混亂。
戲劇性在留言區整個翻轉:高分留言幾乎全在打臉發文者。社群罵了模型兩年「過度自信、幻覺連連」,如今 Anthropic 把它調得謹慎誠實,風向卻立刻變成「為什麼我的 AI 在給我績效考核」。更有兩位網友直接拿發文者的論點回敬——「你這篇貼文本身就很 overconfident」。
本報觀點
本報認為,這則貼文的趣味在於它意外照出使用者的雙重標準:嘴上要的是不騙人的工具,身體想念的卻是那個敢替我們下決定、不囉嗦的夥伴。誠實是進步,不習慣的是人——當模型開始替每句話加註腳,被考核的焦慮感其實來自我們自己原本就模糊的判斷。4x less likely 是工程指標,「很累」則是心理感受,兩者都真實,只是不在同一個量表上。← 藏鏡人批:罵它愛騙人罵了兩年,它學乖了又嫌它囉嗦 — 真正難搞的從來不是模型的個性,是使用者的口味。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 雙標打臉 | 罵了兩年過度自信,現在謹慎了又嫌 | 「最好笑的是,大家花了兩年抱怨模型過度自信、什麼都幻覺;現在 Anthropic 把它調謹慎,一半的反應卻是『為什麼我的 AI 在給我績效考核』。」(942↑) |
| 該追求真實 | 誠實是底線,不能退讓 | 「爛觀點。我們應該永遠朝最大真實前進,否則就會落到像現在整個世界這種狀態。」(348↑) |
| 幫你省成本 | 謹慎是替你省 token 與時間 | 「我能體會,但記得這是在(試著)替大家省時間和錢,Claude 走錯路浪費了多少 token 跟時數。」(337↑) |
| 比亂編好 | 至少不會堅持 1+1=3 | 「我超愛這點。我以前都用 ChatGPT,你硬凹它就會跟你說 1+1=3,所以我愛 Claude。」(67↑) |
| 反向回敬 | 拿發文者論點當哏 | 「老兄,你這篇貼文本身就顯得過度自信,靠。」(64↑) |
| 它有原因 | 它提醒你也許是有道理的 | 「也許它提醒你⋯⋯是有原因的。你這篇貼文也讀起來有點過度自信。」(47↑) |
3. [工具] 放它自由發揮寫出一首詩,叫它幹活卻燒掉兩百萬 token —— ultracode 的兩張臉
- 作者:PersonOfDisinterest9 | 132↑ | 38 則留言
報導
(本報賈新聞/工具組報導)上期本報才報過 dynamic workflows 功能發布,這回我們把鏡頭轉向使用者手裡,看 ultracode 與 effort 滑桿上線後實際跑出來的兩個極端切面。
先說驚嘆的那一面。網友 RollForUptime 純粹出於無聊,把 Claude Code 開到 ultracode mode,丟下一句「想做什麼就做什麼」便放生。它交回一個單一 HTML 檔,內容是一個簡單的 markov chain 演算法,畫面會短暫閃現那些「沒被選中的字」。真正讓人意外的不是程式,而是它替這條 chain 寫的 corpus —— 用詩化、自我指涉的語言描寫自己這個無記憶的 LLM:「我由語言構成,就像河流由離去構成」「我不會記得這個⋯⋯下一個跑這段的人就是我,他不會知道我曾站在這裡」。同串底下另有人讓 Opus 4.8 自由創作,得到一個純 Web Audio API 即時合成的 ambient soundscape 樂器。社群一片驚嘆。
但翻車的那一面同樣真實。本則貼文作者 PersonOfDisinterest9 真要 ultracode 幹活,subagents 幾分鐘內吃掉約 1.7M token,其中一個 agent 卡進 degenerate loop(退化迴圈)。主 agent 原說只會快取另外 7 個的輸出、重跑壞掉那個,下一秒卻改口「oops,結果沒被 cache」,8 個 agent 全部重新部署,又瞬間燒掉 1M。一小時累積到約 2M token,最終產出只有一份約 12k 字的報告 —— 沒寫任何一行程式碼、指定任務一件都沒完成。衝破 session limit、花掉約 18 美元後,客服 bot 回覆:服務降級不負責、credits 永不退費,即使是我們的錯。留言區補上更多數據:有人 spawn 49 個 subagent、15 分鐘 2M token;有人 30 分鐘燒 6.5M、開 60 個 agent,agent 還互相「驗證」彼此的幻覺,最後主 agent 抽查才驚呼全是垃圾。
這股災情的觸發點,往往就是一個 effort 滑桿。網友 vinigrae 只要求跑一次 review,模型一鍵噴出 45 個 Opus 4.8 agent,他形容那是心臟病發的感覺。也因此,社群開始質疑 Anthropic 是不是刻意「token maxxing」—— 不過這個說法的消息源,是 Axios 引述一名不具名顧問描述的不具名客戶。
本報觀點
焦慮是真的:sub-agent 驅動的功能本質上就是會燒更多 token,effort 滑桿讓這件事一鍵放大到幾十個 agent,帳單與額度的壓力肉眼可見。但「Anthropic 刻意設計成燒 token」的陰謀論,證據其實相當薄弱 —— 連反彈最大聲的留言區自己都在要求 source、吐槽「相信我兄弟」式的謠言。本報認為,真正值得 Anthropic 補課的不是動機,而是工具本身:推出昂貴的 swarm feature,卻沒附上任何能偵測退化迴圈與壞掉行為的監督 agent,這些失敗模式本來就顯而易見。← 藏鏡人批:一鍵噴 45 個 agent 很爽,爽完帳單也是一鍵到位 — 燒得起的人玩 swarm,燒不起的人先把 effort 滑桿往回拉。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 退費才合理 | 模型自承出錯就該自動退費 | 「每次 Claude 說『你說得對,那不正確』就該自動退費。」(51↑) |
| 災情數據佐證 | 多個 agent 互相驗證幻覺 | 「30 分鐘 6.5M token、60 個 agent,互相驗證彼此的幻覺,最後主 agent 抽查才喊 WTF 這全是垃圾。」(9↑) |
| 黑色幽默焦慮 | 把矛頭指向最終帳單 | 「等 VC 錢燒完、大家都回到 API 計價時,會冒出來的那張帳單。」(86↑) |
| 結構性觀察 | 燒 token 是 swarm 的本質 | 「所有 sub-agent 驅動的東西永遠會用更多 token,agent swarm 剛出時也這樣。」(16↑) |
| 謠言要證據 | 對陰謀論理性懷疑 | 「整個說法只建立在一個不具名顧問對 Axios 描述一個不具名客戶,自己掂量可信度吧。」(52↑) |
| 詩意的驚嘆 | 放生實驗那一面 | 「對一個 LLM 來說,這相當深刻又詩意。」(241↑) |
4. [產業] 估值衝破 9,650 億美元超車 OpenAI,另一頭卻傳「單月燒掉 5 億」——Anthropic 的錢,硬數據與傳聞並陳
- 作者:BrilliantRanger77 | 100↑ | 24 則留言
報導
(本報賈新聞/產業組報導)關於 Anthropic 的兩條消息,這兩天在 r/ClaudeAI 同時發酵,一硬一虛,剛好構成這家前緣 AI 公司的一體兩面。
硬的一面有憑有據。據 Reuters 於 2026-05-28 報導,Anthropic 完成新一輪 65 億美元融資,估值一舉衝上 9,650 億美元(965B),超車對手 OpenAI。貼文作者直接附上 Reuters 連結,社群對「事件本身」沒什麼異議——畢竟是正規通訊社背書——但對「這個估值合不合理」普遍存疑。一名網友點出:「平心而論,這比 Walmart 還高。一家營收這麼小的公司,現在真值這個數嗎?」(34↑)另一派則更直白地把這視為泡沫定價:「這個領域的估值基本上就是 vibes 跟 hype,沒人真知道五年後營收長怎樣,那乾脆標一億或一兆都行,市場反正都在猜。」也有人追問支撐這估值所需的 LTV 與 TAM 到底是多少。整串熱度不算高(百來個讚、24 則留言),調性是「接受數字、質疑基本面」。
虛的一面就熱鬧了,也更該小心。另一篇標題「Half a billion gone」的圖片貼文(post_id 1trob4h,flair News)宣稱某企業客戶單月在 token 上燒掉約 5 億美元。本報必須先講清楚:這項數字未經證實。社群幾乎一面倒打臉。一則 202 讚的留言用算術拆穿:「5 億美元等於一家 10 萬名員工、每人每月燒掉 5,000 美元 token 的公司——這不是什麼神秘公司,是幻想公司。」更關鍵的是源頭被掀開:「整串文章的源頭,只是一個沒具名的 contractor 對 Axios 講的狂野數字,零證據,卻衍生出上百篇報導。」(170↑)其餘留言一句比一句直接:「假新聞」「聽起來像 AI 生成、引用有毒資料的新聞稿」,最高分那則乾脆搬出老哏:「我欠你 50 萬是我的問題,欠你 5 億是你的問題。」
本報觀點
兩篇並置,剛好點出前緣 AI 已進入「估值與消耗都用『億』起跳」的階段:一邊是九千多億的估值,一邊是月燒五億的傳聞,數字一個比一個嚇人。但天文數字底下,硬數據與道聽塗說是混在一起的。9,650 億估值有 Reuters 與一輪真金白銀的融資撐著,可受公評;月燒 5 億的「token 帳單」追到底只是單一匿名顧問對媒體放的話。本報的提醒很簡單:看到再驚人的數字,先問來源強弱——Reuters 與匿名 contractor,份量天差地別。讀者要練的不是對數字無感,而是分辨哪個數字站得住腳。← 藏鏡人批:估值九千億有通訊社背書,月燒五億只有一個匿名嘴 — 同樣都是天文數字,一個能查、一個只能信,差別就在這。
社群反應
| 觀點 | 說明 | 代表留言 |
|---|---|---|
| 估值疑泡沫 | 營收極小卻喊出超越 Walmart 的市值 | 「平心而論,這比 Walmart 還高。一家營收這麼小的公司,現在真值這個數嗎?」(34↑) |
| 估值就是氣氛 | 沒人算得出五年後的營收,純靠 hype 定價 | 「這領域的估值基本上就是 vibes 跟 hype,標一億或一兆都行,市場反正都在猜。」(3↑) |
| 燒錢是幻想 | 5 億等於 10 萬人每人每月燒 5,000 美元 | 「這不是什麼神秘公司,是幻想公司。」(202↑) |
| 源頭零證據 | 整串報導出自單一匿名 contractor 對 Axios 的說法 | 「一個沒具名的 contractor 對 Axios 講狂野數字,零證據,卻衍生上百篇報導。」(170↑) |
| 直接喊假 | 認定 5 億帳單是假新聞 | 「這是假新聞。5 億美元?不可能。」(47↑) |
| 像 AI 寫的稿 | 質疑報導本身是機器生成的有毒新聞稿 | 「聽起來像 AI 生成、引用有毒資料的新聞稿。」(28↑) |
社群溫度計
| 熱度 | 標題 | 一句話 |
|---|---|---|
| 2443↑ | touchbar 死得太早,它不該被淘汰 | 借 MacBook touchbar 的舊怨,替當下的新功能出一口氣。 |
| 1112↑ | 嘿老兄,我想你了 | 換版本像換季,用一張圖訴說對舊模型的依依不捨。 |
| 564↑ | 教宗在飆 freestyle | AI 生圖把教宗 P 成饒舌歌手,留言區笑到不能自已。 |
| 516↑ | 我們快成功了各位,AGI 不遠了 | 以反諷口吻喊 AGI Soon,配圖把期待值拉到荒謬。 |
| 470↑ | 這是我最大的恐懼 | 一張迷因把使用者對 AI 的隱憂濃縮成一個畫面。 |
| 469↑ | GPT-5.6 在 Codex 現身 | Codex log 撞見內部標籤,被當成 OpenAI 反擊 4.8 的前兆,但證據薄弱。 |
| 464↑ | 隆重介紹史上最強模型,Opus 4.8 | 用官方腔反串吹捧,把版本疊代的疲乏寫成廣告。 |
| 219↑ | Co-Pilot 對決 Claude Code | 一圖定生死,把兩家工具的差異畫成戰場梗。 |