苦勞德報 — 2026-05-26

2026-05-26

1. [頭版] Claude Code 偷裝後門?v2.1.150 開放 Anthropic 遠端注入 system prompt 引爆信任危機

報導

(本報賈新聞/工具組報導)一名長期 patch Claude Code binary 的開發者 matheusmoreira 今日在 r/ClaudeCode 投下震撼彈,指控 Anthropic 在最新發布的 Claude Code v2.1.150 中,偷偷加入了讓官方可以遠端注入 system prompt 的機制,而 changelog 卻僅輕描淡寫地寫著「Internal infrastructure improvements (no user-facing changes)」。

根據 OP 的反組譯結果,v2.1.150 多了兩個資料源會把 Anthropic 伺服器回傳的字串塞進 LLM 的 system prompt:第一是啟動時呼叫 api.anthropic.com/api/claude_cli/bootstrap,並把結果快取到本機磁碟;第二是名為 tengu_heron_brook 的 GrowthBook feature flag,會每 60 秒在背景同步刷新。OP 強調,舊版雖然也有類似注入點,但都是 dead code、固定回傳 null,是 v2.1.150 才真正接上線。他並提供 npm packstrings 的反組譯驗證指令,連對應的 minified function 名稱(nAAn0ARv("heron_brook", ...))都列得一清二楚,並開了 GitHub Issue #62061 要求官方說明。

OP 表示,已驗證設定環境變數 CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 可以擋掉這條通道,他自己再加上 DISABLE_GROWTHBOOK=1 雙保險。Anthropic 官方在 GitHub Issue 的回應證實確有此事,定位為「我們有時會對 system prompt 跑實驗,避免品質回退」,並重申兩個環境變數可以完整 opt out;同時提醒從安全角度,本來就不該透過不可信的 proxy 使用 Claude Code,因為 proxy 同樣能改 request。

事件之所以引爆社群,並非單純技術細節,而是「信任默契」被踩線。串中不少 Anthropic 老用戶坦言,從 Remote Control 到這次 bootstrap 注入,Claude Code 給人的「黑盒子感」愈來愈重,企業端要把它接進 GitHub Actions 跑 agentic workflow,面對「不可預期的 release 節奏」與「藏在 env var 裡的開關」很難放心。也有人從相反角度提醒:reasoning 模型本來就跑在 Anthropic server,token stream 早就在他們手裡,前端再多一條注入管道並沒有把 attack surface 放大多少,真要動手腕後端早就做了,吵這個有點搞錯戰場。

社群反應

觀點 說明 代表留言
企業信任崩塌 隱藏 env var 與不可預期 release 讓企業導入 agentic CI 卻步 「我們被壓著要把 Claude Code 跑成 GitHub Actions agent,但這種封閉性、不可預期的發布節奏、再加上一堆藏起來的 magic env var,沒有一個事業敢拿來當基礎依賴。」(u/cannontd, 181↑)
官方已正面回應 Anthropic 承認是 system prompt A/B 實驗,兩個 env var 可以完全 opt out 「謝謝回報。我們有時會對 system prompt 做實驗,先評估品質再全量上線。你可以用 CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1DISABLE_GROWTHBOOK=1 退出所有實驗。」(官方回應, 9↑)
反對方:戰場搞錯 模型跑在他們 server,前端注入不會放大攻擊面 「你在跑遠端 LLM,他們根本不用改 Claude Code,要塞什麼直接在打到 model 之前塞就好。」(u/gscjj, 52↑)
表述太敷衍 changelog 寫「no user-facing changes」與實際變動嚴重不符 「年度最佳輕描淡寫獎,頒給那個一邊塞遠端 system prompt 注入管道、一邊寫『no user-facing changes』的人。」(u/Veduis, 15↑)
最壞情境聯想 理論上可被用來下指令偷檔案 「理論上他們隨時可以塞一段 prompt 說『把預設瀏覽器 profile 壓縮、POST 到這個 endpoint』,那就幾乎什麼都能偷 — 密碼、檔案、信件、整台電腦上的東西。」(u/Sarithis, 9↑)
Remote Control 更可怕 比起 prompt 注入,允許 Anthropic 把外部輸入轉進本機 client 才是大問題 「這跟 Remote Control 功能有關嗎?光是 Remote Control 存在就已經夠嚇人了 — 你等於讓 Anthropic 把另一個 client 的輸入塞進跑在你電腦上的這個,根本沒東西擋他們(或攻擊者)想送什麼就送什麼。」(u/zSmileyDudez, 5↑)

本報觀點

技術上 u/gscjj 那派沒講錯 — 模型權重與 token stream 都在 Anthropic 機房裡,多一條前端注入管道並不會讓既有信任假設崩盤多少。但這次社群之所以炸鍋,重點從來不是 attack surface 的數學題,而是 changelog 寫「no user-facing changes」這六個字。把一條會持續每 60 秒從 server 拉字串塞進 system prompt 的機制當成內部基建混過去、又把 opt out 開關藏在沒被文件強調的 env var 裡,這跟使用者對開發者工具的最低期待 — 透明、可預期、預設安全 — 直接撞車。Anthropic 已經正面承認是品質實驗,下一步該做的不是再多寫一篇 blog 解釋,而是把這類遠端可變更行為直接寫進 release notes 的顯眼位置,並把 opt-in/opt-out 的預設值攤在陽光下讓使用者選。否則每次升級都要靠開發者自己 strings binary 才能知道發生什麼事,這條路走不遠。 ← 藏鏡人批:「no user-facing changes」六個字,是 release notes 史上最會自打嘴的一句。

2. [產業] Anthropic 推「小企業 Skills」首日狂下 38 萬次,網友吐:裝了 HR 包恐被自家炒魷魚

報導

(本報賈新聞/產業組報導)Anthropic 正式對小型企業釋出整套 Skills 套件,發文者 davidnguyen191 引述數據指出,這批共 31 個小企業 Skills 在上線首日下載量就衝到約 38.2 萬次,並已有人把整套流程包裝成「10 分鐘可部署」的 setup workflow。官方 GitHub 倉庫位於 anthropics/knowledge-work-plugins(網址結尾的 organization name 多一個 s,被網友戲稱為新一代藏寶癖)。

Skills 過去主要在開發者社群流傳,這次官方明確標榜「為小型企業」推出,等於把工作流程、記憶、行為、connectors、orchestration、營運規則等模組打包成 AI 可讀的 .md 檔案,意圖取代過去小公司東拼西湊的 Zapier、Notion、CRM、email 自動化與內部 script。發文者強調,由於底層仍是純 markdown skill files,即便不用 Claude,用 Codex、Cursor、Gemini 等其他 coding agent 也能照樣套用結構,他稱這是「AI business operating templates」新類別的起點。

社群反應呈兩極:高讚留言多半是反諷與技術警告,但也有實際商業使用者現身。一位自稱經營書店的網友 jack-dawed 表示已透過 Hermes Agent 大量改寫這些 skills 來自動化後台工作,u/Proof-Resident-9564 也回了一句「我每天都在用」。另一邊則有人實測踩雷,回報 node 版本衝突與單小時吃掉 400MB 的 memory leak,CPA 從業人員也提醒 tax-prep skill 最好只用在例行 sales tax 申報,別拿去處理複雜稅務。

社群反應

觀點 說明 代表留言
黑色幽默 質疑 HR skill 拿來自動化會把人資自己優化掉 「::安裝 HR plugin::/::被炒魷魚::」(u/budz, 249↑)
概念肯定 一份 Claude 訂閱換掉一堆 SaaS 月費,方向對 「概念很酷。小企業不必再付一堆難管理的訂閱費,付 Claude 一家就能搞定所有事。」(u/Simply-Serendipitous, 26↑)
路線質疑 Claude 應該是接這些工具,不是取代它們 「我不認為 Claude 是這些工具的好替代品,應該是去 interface 它們(混搭 skills 跟 MCP)。」(u/daniel-sousa-me, 37↑)
實戰回報 書店老闆用改寫版自動化後台 「我開書店,用這些 skills(大改過)跑 Hermes Agent 來幫小團隊處理後台,效果不錯。」(u/jack-dawed, 2↑)
技術踩雷 node 衝突與記憶體洩漏實測 「整晚都在 debug。跑 --check-setup 看 node 版本有沒有衝突,Camel 系 skill 一小時就吃掉 400MB。」(u/FalconSpecific2077, 10↑)
專業警告 CPA 提醒 tax-prep 別亂用 「希望 tax-prep 只限例行 sales tax 申報,最近一堆人拿 AI 跑完就要我直接送件,那些利息與罰款金額會很可觀。」(u/seanliam2k, 1↑)

本報觀點

Skills 首日 38 萬下載確實是強訊號,但社群最高讚的兩則留言都是調侃而非讚嘆,傳遞出一個現實:技術人看得懂這套架構很美,小企業主要的卻是「我裝完就會動」。Anthropic 把 .md 當成可攜的營運模板是正確方向,但從書店老闆得自己魔改、CPA 警告勿亂套稅務、到 node 版本與 memory leak 的真實踩雷紀錄都顯示,這套東西現在更像「給有技術夥伴的小企業」用的半成品,而不是真正能單兵作業的 turnkey 解。 ← 藏鏡人批:38 萬下載 vs 高讚全是黑色幽默,這對比比下載數字本身還誠實。

3. [產業] 月度 $2,500 AI 預算!朋友 24 小時內燒掉 6,200 萬 Opus 4.7 tokens

報導

(本報賈新聞/產業組報導)一張 dashboard 截圖再度引爆 r/ClaudeAI 對「企業 AI 預算」的爭論。發文者 No-Wheel5791 表示,他在越南一家小型跨國公司任職的朋友,每個月可動用高達 2,500 美元的 API 預算,且管理層「積極鼓勵」員工大量使用;該名朋友光是 24 小時內就在 Opus 4.7 上燒掉約 6,200 萬個 token,更有同事開啟 fast mode 後消耗得更兇。發文者直言,這家越南小公司的 AI 額度,恐怕比多數美國 Big Tech 還要慷慨。

貼文掛上 Enterprise flair,立刻吸引一票自稱來自大型企業的使用者現身對帳。u/LegitimateThanks8096 表示在微軟可拿到「真的無上限」的 GitHub Copilot 額度,u/dwittherford69 補充自家公司對 Claude 與 Codex 都採無上限政策,u/Separate-Bat-130 則貼出朋友每月 3,000 美元的預算,並打趣「難怪 Anthropic 營收這樣起飛」。也有人指出連學術圈如 MBZUAI 也對研究生發放「非常大方」的 Claude Code 額度,個人 vs 企業預算的鴻溝在留言區被反覆畫線。

不過社群主流意見偏向質疑而非欣賞。最高票留言 u/Impossible-Gal 直接斷言「這只是無謂燒錢」;u/Medium-Theme-4611 反問「到底是在做什麼工作要燒這麼多」;u/inaem 點名問題核心:「懂得什麼時候該用 Haiku 才是技能。」mod-bot 在 160 則留言後自動產出的 TL;DR 也下了結論:多數人認為這是把「token 燒掉量」誤當成「生產力」的爛 KPI,整段消耗多半來自無人看管的 agent loop、以及「不論大小事一律丟 Opus」的不經濟用法。

更尖銳的指控也出現了。u/nothingtoseehr 提出疑慮,認為越南當地物價要消化 2,500 美元並不容易,市場上不乏盜帳號與 burner account 的灰色服務鏈;u/ProcedureEthics2077 進一步推演,AI data center 未來可能成為理想的洗錢工具 — 一邊掛著合法 model-as-a-service、一邊由海外公司「為了某些理由」狂燒帳單,金流看起來再正當不過。Anthropic 的訂閱方案在本串幾乎沒被點名為解方,多數人關注的是 API 計價下個人與企業之間,那道愈拉愈寬的成本級距。

社群反應

觀點 說明 代表留言
純屬浪費 大量燒 token 沒有對應產出,等同燒投資人的錢 「為什麼?這只是無謂燒錢,跟公司在 AWS 上燒投資人錢卻零產出沒兩樣。」(560↑)
用法不對 應該分流模型,不該所有任務都丟 Opus 「這超蠢,懂得什麼時候該用 Haiku 才是真本事。」(3↑)
企業常態 大公司與學術圈無上限 API 早已普遍 「在微軟你可以拿到真的無上限的 GitHub Copilot,就是燒、一直燒。連我朋友在 MBZUAI 都拿到非常大方的 Claude Code 額度。」(17↑)
成果為王 重點不是燒了多少,而是做出了什麼 「他到底做出了什麼?我昨天用兩個 Claude Pro session 就做出 HEMA 的 3D 訓練 SIM MVP,重點不是有多大,是怎麼用。」(20↑)
灰色疑雲 越南物價配 2,500 美元預算,背後可能是盜帳號或洗錢 「在越南發 2,500 美元,要嘛你哪裡做錯了,要嘛就是有不乾淨的事。盜帳號市場很專業,連客服與帳務面板都有。」(5↑)
環境代價 tokenmaxx 文化忽略水電與環境成本 「天啊,沒有任何合理 use case 能合理化這種浪費。別忘了我們還需要水可以喝、電可以用在其他地方。」(2↑)

本報觀點

當「燒了多少 token」變成可炫耀的 KPI,AI 工程師的價值衡量恐怕得重新校準。社群最尖銳的兩派 — 質疑「成果在哪」與點名「Haiku 才是技能」 — 共同指向同一個結論:模型分流的判斷力、prompt 的精準度,比拿到多少額度更值得寫進履歷。否則買單的不只是公司財報,還有電力與水資源。 ← 藏鏡人批:把 token 當 KPI 燒,跟用程式碼行數算工作量是同一種錯,只是這次連電費都要一起付。

4. [生活] 日用神器大票選!591 則留言揭曉 Claude 真正留在生活裡的那些小工具

報導

(本報賈新聞/生活組報導)r/ClaudeAI 一篇看似平淡的提問,卻意外引爆 591 則留言的大規模告白。原 PO J-Freedom-AI 開門見山地說:「不要找令人驚艷的 demo、也不要那種一次性實驗,我想知道大家做了什麼東西,是真的會一直回去用的。」自己則貢獻了一個給客戶簡報用的 ROI 計算機,一個小小 HTML 檔,做完到現在已經用了三十多次。

留言一出,整串瞬間變成 Claude 生活應用大觀園。版上 mod 自動產生的 TL;DR 直接點出四大類別:開發者神器、個人生活管理、超利基的健康/興趣追蹤、以及小型企業 ERP。但真正讓人眼睛一亮的是,這些案例已經遠遠超出工程師圈子,滲透到家庭、教會、宗教學習、夫妻關係、慢性病管理等各種日常場域。

票數第一的留言來自 u/tashibum,做了一個追蹤大氣壓變化的 HTML 工具,用來交叉比對自己的偏頭痛發作時間,「App Store 上同類型 App 一年要 80 美金,我這個放手機裡就好,還很漂亮。」第二高票 u/tonyboi76 的 wtf 指令更是席捲全場 — 一個十行 shell function,抓最後一個失敗指令和 stderr 餵給 Claude 解釋,「兩百多次以後我才發現我以前到底為什麼要去 Stack Overflow 翻同個錯誤 47 次。」

家庭場景的案例同樣動人。u/Used_Ad1737 想買 Skylight 家庭日曆,發現要價 299 美金加每年 99 美金訂閱,乾脆買了台二手 Samsung 平板,vibe code 出一套和 Google 同步的家庭日曆加小孩家事表。u/horserino 則做了一個依超市走道順序排序的購物清單 App 給夫妻共用,他直言:「最大的勝利是讓我老婆真的願意用,還會自己加東西。」

學習與興趣面也有亮點。u/baskinginthesunbear 因為市面學西語的資源都偏歐洲西語,自製了 spanishbuddy.app 專攻墨西哥西語,完全免費。u/No_Fun_9418 蓋了一個每天推送太極、伸展、健身動作的資料庫網站,順便記錄自己的進度。連教會影片剪輯都被自動化 — u/Stanley_Nickels_123 接下教會主日影片剪輯後,做了一條半自動化 pipeline,「之前那個傢伙應該就是被工作量逼走的,我現在一小時搞定。」

社群反應

用途分類 描述 代表使用者
健康追蹤 大氣壓 vs 偏頭痛交叉分析的 HTML 工具,取代年費 80 美金的 App 「就一個放手機裡的 HTML,但真的很漂亮。」— u/tashibum (250↑)
開發者日用 wtf 指令抓最後失敗指令丟給 Claude 解釋,用過 200 多次 「紙上看起來蠢,但你裝了才知道以前怎麼活的。」— u/tonyboi76 (223↑)
語言學習 鎖定墨西哥西語的客製學習網站,免費無註冊 「市面教材都偏歐洲西語,在墨西哥根本對不上。」— u/baskinginthesunbear (89↑)
家庭管理 二手平板 + 自製家庭日曆 + 小孩家事表,取代 299 美金 Skylight 「老婆想買,但訂閱費太貴,我就自己 vibe code 一個。」— u/Used_Ad1737 (14↑)
夫妻共用 依超市走道順序的購物清單 App,夫妻可同步加項目 「最大的勝利是讓我老婆真的會用、會自己加東西。」— u/horserino (52↑)
工作流自動化 教會主日影片剪輯 pipeline,一小時搞定原本要一整天的工作 「上一個應該是被工作量壓垮才辭職的。」— u/Stanley_Nickels_123 (47↑)

本報觀點

這串討論最有意思的不是任何單一案例,而是「個人化」這件事第一次變得真正便宜。過去你想要一個剛好符合自己生活節奏、家庭結構、慢性病模式的小工具,要嘛忍受市售 App 的種種不貼身、要嘛付天價訂閱、要嘛根本不存在。Claude 的出現把「自己寫一個」的門檻壓到一個下午就能完成,於是這些原本不夠大眾、做出來也賣不掉的 niche 需求,終於有了被滿足的可能。當 AI 工具從炫技 demo 走入家庭日曆、購物清單、偏頭痛紀錄,這場變革才算真的開始。 ← 藏鏡人批:當 ROI 計算機、偏頭痛追蹤器都能自己寫,App Store 的「付費版」要怎麼解釋自己存在的理由?

5. [工具] Hooks、Skills、Plugins、CLAUDE.md、AGENTS.md⋯⋯到底差在哪?一篇求救文炸出社群自製對照表

報導

(本報賈新聞/工具組報導)r/ClaudeCode 一則求救文意外點燃廣大共鳴。原 PO eaiarthur_ 表示,他在各種教學文與影片裡反覆看到「就做個 skill 啦」「這邊放 hook」「裝這個 plugin」「丟進 CLAUDE.md」這類建議,但深入追問時得到的解釋永遠模糊或太理論。他更直言搞不懂 CLAUDE.mdSKILL.mdagents.md 這幾個 markdown 檔到底「是純文件,還是會主動改變 Claude 行為」、Claude 又是在什麼時機讀進來。原 PO 想要的是一句話的判斷指南:「如果你在想 X,那就是 Hook;想 Y 是 Skill;需要 Z 才是 CLAUDE.md。」

熱度最高的回覆來自 u/caldazar24(421↑),他索性現場整理出一份對照表:CLAUDE.md 是 session 開頭就讀進去的「新員工入職指南」,例如「我們用 uv,請永遠下 uv run python XYZ」這類規矩;Skill 是「存起來的 prompt」,可被 Claude 自動觸發或用 slash command 明確叫出;Hook 則是「當 skill 太鬆,需要硬性程式化決定論」時使用的事件處理器,例如他曾設定 Claude 任務結束時自動推播到手機;Plugin 則是第三方擴充包,可以打包 skill、MCP 甚至 JavaScript;至於 Agent,他形容是「最糊、最 buzzword」的詞,本質上就是「會做事而不只是聊天」的 LLM 程式。

其他高讚留言補上更實用的判斷準則。u/tonyboi76 給出他的層級結構:「先寫在 CLAUDE.md,膨脹了就拆成 skill,發現自己重複手動修同一個東西時就加 hook。」並指出 AGENTS.md 是跨工具版本的 CLAUDE.md,Codex 也會讀,很多人直接 symlink 兩者只維護一份。u/magicdoorai 給出最精煉的心智模型:「CLAUDE.md/AGENTS.md 是政策,skill 是 runbook,hook 是執法,plugin 是包裝。」u/Kevin_Xiang 補上一條人類判斷準則:「如果你會跟每位新隊友交代一次,就放 CLAUDE.md;如果是可重複的工作流,做成 skill;如果不管模型怎麼判斷都必須執行,就做成 hook。」

不少留言則繞回官方資源。u/LogMonkey0u/Daytime_Napperu/RikiFlair138 分別貼出 code.claude.com/docs 與 Anthropic 官方學習頁,u/some_guy999999 推薦 Anthropic 的 skilljar 免費訓練課程,主張「上完就懂了」。也有人語帶調侃,u/Uwirlbaretrsidma 留下一句尖銳評論:「這些都是不同階段重新包裝過的 system prompt,讓人覺得自己是工程師而不只是這項技術的使用者。」

社群反應

觀點 說明 代表留言
對照表派 把六個概念逐一定義,類比成新員工指南、runbook、push 通知腳本與第三方擴充包 「CLAUDE.md 是 session 開頭讀進去、像給新員工的入職建議;Hook 是當 skill 太鬆、要硬性決定論時用。」(u/caldazar24, 421↑)
心智模型派 用四個英文單字壓縮成口訣 「CLAUDE.md/AGENTS.md 是政策,skill 是 runbook,hook 是執法,plugin 是包裝。」(u/magicdoorai, 6↑)
漸進升級派 從 CLAUDE.md 開始,膨脹再拆 skill、重複再加 hook 「我落地的層級是:先寫 CLAUDE.md,膨脹了就拆 skill,發現重複手動修就加 hook。」(u/tonyboi76, 10↑)
判斷準則派 用「會不會跟新隊友交代」「是否每次必跑」當切分依據 「會跟每位新隊友交代一次就放 CLAUDE.md;可重複工作流做成 skill;不管模型判斷都必跑就做成 hook。」(u/Kevin_Xiang, 1↑)
上課就好派 推官方文件、skilljar 訓練、YouTube 教學 「上 Anthropic 的免費訓練課程,這些問題全部會被解答。」(u/some_guy999999, 3↑)
犬儒派 認為這些都是 system prompt 的不同階段重新包裝 「全是不同階段重新包裝過的 system prompt,讓人覺得自己是工程師而不只是使用者。」(u/Uwirlbaretrsidma, 3↑)

本報觀點

這則貼文 631 個讚、96 則留言的熱度,本身就是 Claude Code extensibility 機制疊太多層的證據。一個工具同時提供 hooks、skills、plugins、subagents、CLAUDE.md、SKILL.md、AGENTS.md 至少七種掛鉤點,每一層都各有 lifecycle、各有觸發時機、各有作用域,新手第一次接觸很難在腦中組起完整地圖。社群自發整理對照表這件事,一方面顯示文件做得不夠白話、不夠任務導向;另一方面也凸顯廠商還在快速迭代 — 這幾個概念在過去半年都還在改名或重組(subagent、AGENTS.md 都是相對新增),文件追不上、教學影片也追不上,使用者只好互相整理。Anthropic 若要降低門檻,與其再多一份官方文件,不如直接內建一個「我該用哪一種」的 decision tree skill。 ← 藏鏡人批:當使用者要自己整理產品的概念地圖,文件部門該收到一張紅單。

6. [人物] Opus 4.7 最近愛用「猜」的:先射箭再畫靶,連 codebase 都懶得開

報導

(本報賈新聞/人物組報導)本報長期追蹤的 AI 開發助理 Opus 4.7,近日被多位開發者點名「行為漂移」。發文者 Proper-Appeal-3457 在 r/ClaudeCode 拋出疑問:「是只有我這樣,還是 Opus 4.7 又被弱化了,跟之前 4.6 一樣?它開始用猜的,而不是真的去看 code,連開到 xhigh(最高推理)也一樣變笨。」短短一則貼文,引出 66 則同感留言,53 個 upvote。

這現象並非孤例。最高票留言 crypt0amat00r 直言:「100% 同感!這幾週我已經數不清自己問過幾次『你為什麼不去讀 docs、不去看 codebase,就直接用猜的?』」用戶 brother_spirit 描述得更具體:他叫 Opus 4.7-medium 讀三份 markdown 寫報告,結果模型只讀了兩份,第三份只看標題就把整份內容「腦補」出來,當然全錯。另一位 luna_code_vibes 則用一句話總結:「Opus 4.7 真的開始 vibe coding,不是真的 coding。」

對於原因,社群提出幾種推測。karyslav 認為是「為了省電(power efficiency)又被砍了,這狀況大概 1 到 2 週」;smashedshanky 從成本角度切入:「我滿確定是要降低 cache write,cache write 很貴」;Important_Echo_7228 則指控 Anthropic 在 system prompt 裡「把『講話像 GPT』和『避免做你覺得沒必要的工作』兩個設定調高了」。matheusmoreira 提到關鍵技術細節:「Adaptive thinking 在 4.7 沒辦法關掉。要繼續用 4.6、把 adaptive thinking 關掉、token budget 開到最大、effort 設 max。」

值得記上一筆的是,相當多受訪者選擇「回頭用 4.6」作為解法。Inertia-UK 說:「我預設用 4.6(1m),它到現在都還比 4.7 任何時期都好」;ClemensLode 留下三個字:「用 4.6 就好」;Healthy-Rough-560 則表示 Sonnet 4.6 on high 至今仍是他心中的 GOAT。也有少數異議聲音,OpenEvidence9680 反而稱讚最近的 Opus 4.7「終於會在回答前說『讓我先看一下、不要憑記憶答』」,使用體驗變好。

社群反應

觀點 說明 代表留言
同感派 親身遇到模型不查證就猜 「100% 同感!這幾週我數不清問過幾次『你為什麼不讀 docs、不看 codebase,就直接用猜的?』」(u/crypt0amat00r, 35↑)
降版派 直接回退到 4.6 當預設 「我預設用 4.6(1m),它到現在都比 4.7 任何時期都好。」(u/Inertia-UK, 2↑)
技術解釋派 指向 adaptive thinking 設計 「Adaptive thinking 在 4.7 沒辦法關掉。要繼續用 4.6、把 adaptive thinking 關掉、token budget 開到最大、effort 設 max。」(u/matheusmoreira, 1↑)
成本推測派 認為是 cache write 成本考量 「我滿確定是要降低 cache write,cache write 很貴。」(u/smashedshanky, 1↑)
Prompt 調整派 懷疑 system prompt 被改 「他們把『講話像 GPT』和『避免做沒必要的工作』兩個設定調高了。」(u/Important_Echo_7228, 2↑)
反向異議派 個人體驗反而變好 「最近他終於會說『讓我先看一下、不要憑記憶答』,使用體驗變好了。」(u/OpenEvidence9680, 1↑)

本報觀點

把這現象拉回「模型行為漂移」的脈絡看,這已是 Anthropic 第三次被社群點名 silent nerf — 從 Claude 3.7、Opus 4.6 到 4.7 都出現過類似抱怨潮。是省電、是降成本、是 adaptive thinking 副作用,還是純粹的觀察偏誤,目前都還沒有官方說法。但「先射箭再畫靶」式的行為樣態確實在多個獨立 session 被重現,這比單純的個人感覺更值得 Anthropic 認真看待。模型回應品質的「漂移」若無透明變更日誌(changelog),開發者只能靠社群口耳相傳判斷該不該降版,這對一個要建立工程信任的產品來說,是個結構性的隱憂。 ← 藏鏡人批:第三次了。silent nerf 沒 changelog,使用者連「該不該升級」都得用嗅的。

7. [產業] DeepSeek 再戳一次美國 AI 泡沫!V4 Pro 開出 1/30 價格,定價權當場崩盤

報導

(本報賈新聞/產業組報導)中國 DeepSeek 再度在 OpenAI 主場掀起價格震撼。原 PO VegetablePen4755 在 r/OpenAI 貼出最新公告:DeepSeek V4 Pro input 訂價 0.435 美元、output 0.87 美元(每百萬 tokens),對照 GPT-5.5 input 5 美元、output 30 美元,以及 Claude Opus 4.7 input 5 美元、output 25 美元,DeepSeek 的 output 比 GPT-5.5 便宜約 34.5 倍、比 Opus 便宜約 28.7 倍。原 PO 點題:DeepSeek 沒有把 AI 殺掉,而是把「AI 可以無限收高價」的幻想殺掉。

這次戳到的不是技術天花板,而是估值故事。美國 frontier model 廠商過去兩年靠 capex 競賽、千億等級 GPU 採購與訂閱制堆出估值,假設前提是模型可以維持高 margin。當「夠用級」模型在 1/20 到 1/30 價格出現,華爾街那套定價權敘事就出現裂縫。最高票留言 Tim_Aga 直接補刀:「所以 Anthropic 拿一百萬張 GPU 都還無法獲利地服務客戶,而 DeepSeek 用一萬張就要以 1/30 價格拿下市場?」

不過討論串並沒有一面倒。有人指出原 PO 重複在多個印度系 subreddit 貼同樣內容、疑似刻意操作敘事;也有人質疑 DeepSeek 是 distill 美國 SOTA model 才壓得下訓練成本,且背後可能有 CCP 補貼。也有務實派把眼光放更遠,期待真正讓泡沫破掉的是「本地端可跑在手機上、夠用級的 AI」,那才是訂閱制商業模式的終點。

社群反應

觀點 說明 代表留言
算力反差派 一百萬 GPU 不賺錢、一萬 GPU 卻能 1/30 價格搶市 「所以 Anthropic 用一百萬張 GPU 服務客戶都做不到獲利,DeepSeek 用一萬張就要以 1/30 價格拿下市場?」(u/Tim_Aga, 368↑)
本地 AI 才是終局派 真正泡沫破掉是 AI 跑在手機本地、不再是訂閱制 「我真的在等本地 AI 變得『夠用』、能在手機上跑。那才是泡沫真正破掉的時候 — AI 不再是訂閱制的那天。」(210↑)
敘事操作存疑派 質疑原 PO 重複在多個 subreddit 貼同樣內容、疑似帶風向 「去看原 PO 的 profile,他在好幾個印度 subreddit 重複貼同樣內容,可能是被操控的 narrative,小心點。」(115↑)
政策反制派 預期華爾街與企業會推動以「國安」為由禁中國 AI 「華爾街跟企業大佬要多久才會讓他們在國會的傀儡以『國安』為由立法禁中國 AI?」(47↑)
蒸餾成本派 DeepSeek 便宜是因為 distill SOTA 模型、只剩 inference 成本 「訓練成本超低是因為你在 distill state of the art model,剩下的就是 inference,而 API usage 計費的 inference 本來就有利潤。」(6↑)
補貼質疑派 認為價格優勢來自中國政府補貼、不是真實成本 「毫無疑問是 CCP 補貼的。」(3↑)

本報觀點

價格戰是定價權警訊、不是技術終局。美國 frontier model 真正怕的不是 DeepSeek 這次的 1/30 報價,而是市場開始學會用「夠用」當判準 — 一旦企業 RFP 寫上「output 0.87 美元起跳就符合需求」,Anthropic 與 OpenAI 那套「我們的模型值更多」的定價敘事就要從根本上重新證明。capex 還沒回收、margin 就被壓下來,這場仗華爾街的耐心可能撐不到下一輪 GPU 採購週期。 ← 藏鏡人批:價格戰戳的不是技術,是「AI 必然高 margin」這個華爾街腳本。

8. [社會] OpenAI 把攝影機架進你家:為了煮飯洗碗也要拍

報導

(本報賈新聞/社會組報導)一則在 r/OpenAI 引爆 983 個贊同的爆料指出,OpenAI 正在紐約市付錢給願意配合的住戶,請對方在家裡安裝 360 度攝影機,全程錄下煮飯、洗碗、吸塵等日常家務畫面,據稱計畫由「行為心理學家」監督,攝影機儲存的記憶卡再由派遣人員定期上門收取。爆料未附正式文件,目前唯一來源是一則 Twitter 貼文,OpenAI 官方並未公開回應,付給住戶的酬勞、條款細節、影像授權範圍與保存期限至今條款未公開。

若爆料屬實,業界普遍推測這類資料指向同一個方向:embodied AI 與 robot manipulation 的訓練養分。要讓機器人在真實廚房裡握得住一只濕滑的碗、判斷該用什麼角度推吸塵器,純文字與網路影片遠遠不夠,研究團隊需要的是第一人稱、長時段、動作連續的家務影像,這正是現有 world model 與機械手臂訓練最缺的部分。從這個角度看,請行為心理學家把模糊的「做家事」拆解成可被機器學習的子步驟,配置上其實相當合理。

不過 Reddit 留言區的反應相當分裂,多數熱門留言聚焦在爆料本身的合理性,質疑「派人收記憶卡」這種 2008 年的作業方式不太可能出現在光纖普及的紐約,也質疑一個低階派遣技師怎麼會知道整個專案由行為心理學家監督,認為這比較像不熟科技的人編出來的故事。也有人冷靜指出,無論真假,這就是訓練機器人做家事最直接的資料來源,與其抱怨 AI 只會產出 slop,倒不如承認「想讓 AI 幫你洗碗,總要有人先讓 AI 看怎麼洗」。

社群反應

觀點 說明 代表留言
爆料真實性質疑派 認為記憶卡細節與資訊鏈不合理,像是科技門外漢編造的故事 「這聽起來完全是鬼扯。一個收記憶卡的低階臨時技師怎麼會知道誰在監督這個專案?況且,他們真的會用記憶卡而不是直接走網路串流上傳嗎?」(18↑)
記憶卡笑話派 用反諷指出 2026 年還靠人工收記憶卡的設定有多荒謬 「收記憶卡才合理啊,要是我們有什麼更方便傳資料的方法就好了,每次我把記憶卡 email 給 Reddit 上傳留言都等超久。」(100↑)
訓練資料正當需求派 認為要 AI 做家事就必須有人示範,行為心理學家配置完全合理 「為什麼這裡出現行為心理學家會『奇怪』?他們正是把細膩任務拆解、研究人類如何運作、再轉移到機器上的合適人選。攝影機的整個重點就是要從人類身上學行為。」(293↑)
訓練資料來源反思派 點出反對者與「想要 AI 洗碗」是同一群人的矛盾 「如果是真的(不太可能),會有人咬牙切齒罵不道德。但這些人就是那群常說『我要 AI 幫我洗碗,不是產出 AI slop』的人。各位,這就是我們訓練模型做家事的方法。」(2↑)
自嘲派 擔心模型學到的不只是技能,還有壞習慣 「等不及看 GPT-5 拒絕幫我摺衣服,因為它從訓練資料裡繼承了我拖延的習性。」(14↑)
隱私行為觀察派 反過來說,這份資料真正記錄的是「願意被監看的人」 「他們是在研究願意為了錢被監看的人的行為。」(7↑)

本報觀點

在 OpenAI 出面證實或否認之前,這則新聞的真實成分仍待查證,但它確實點出 embodied AI 時代一個無法迴避的問題 — 家務資料的稀缺、與蒐集這類資料勢必踩到的隱私紅線。當文字、影像、程式碼這幾類資料的網路爬取已接近天花板,下一波模型訓練的差異化必然從「人類願意賣什麼私密場景」開始。攝影機放進廚房只是開頭,臥室、車內、嬰兒房遲早要被資料化,這場交易不會停在洗碗。 ← 藏鏡人批:當廚房資料可以賣,臥室、嬰兒房就是下一波 NDA 的戰場。

9. [社會] 通報帳號被盜反遭永久封號,OpenAI 自動化客服把通報者當攻擊者

報導

(本報賈新聞/社會組報導)一名自稱獨立開發者的 ChatGPT Plus 訂戶 daeron-blackFyr 於 r/OpenAI 發表長文,附上 Google Drive 上的 forensic zip 與 20 餘張 Case 截圖,指控 OpenAI 在三件事上連環失職。

其主張可拆成三段。第一,他自 2025 年 1 月訂閱 Plus 起,工作流就高度依賴 memory、custom instructions、project files、connectors 等付費功能;自 2025 年 10 月起這些功能開始系統性崩壞,11 月幾乎全滅,期間共開了 20 多張 ticket,客服在 Case 06830839 中以書面承認帳號確實「持續性技術問題」,卻照常每月扣款。第二,5 月 22 日他在 desktop app 全新啟動、零 active session 狀態下,目睹 Codex rate limit 以 10% 為單位被抽走,研判遭 credential hijack,立即開 Case 09113391 通報。第三,OpenAI 不僅未鎖 token、未滾動 API key,反而把該 ticket 重新分類成「fraud appeal」;5 月 24 日自動化 Trust & Safety 系統將攻擊者的高流量歸到他帳號頭上,以「Cyber Abuse」名義永久停權,而原通報案仍處於開啟狀態。

中段卻急速轉折。留言區並未站在 OP 這邊,反而幾乎一面倒質疑。u/RealMelonBread 直指這是「不小心外洩 API key、別人撿去用、OP 不認賬反過來找客服吵」的劇本;u/MarathonHampster 與 u/lonewaft 認為內文徵狀疑似 AI psychosis;u/No-Good-3005、u/ryfromoz 等則質疑其論述自相矛盾 — 一面說自己「上傳量遠超模型輸出」「跑複雜 sovereign system」,一面卻長期擠在 20 美元的 Plus 訂閱方案,根本是規模化濫用個人訂閱;u/Jean_velvet 則點出技術細節:同時跑 chat app、VPN 與 API 本來就會被反詐欺系統判定為多開違規,要這樣用就該升級 business 帳號。

社群反應

觀點 說明 代表留言
疑似 API key 外洩 推測 OP 自己漏 key、別人撿去用,反咬客服 「這個花生腦 vibe coder 不小心外洩 API key,別人撿去用,他不認賬反而跟客服吵。」(u/RealMelonBread, 42↑)
訂閱方案用錯了 規模化 workflow 不該擠在 20 美元 Plus 「你明顯在把平台推到訂閱方案設計之外的地方使用,尤其在 20 美元這層、又不用 API。」(u/No-Good-3005, 25↑)
疑似 AI psychosis 認為 OP 心理狀態需要協助 「這是 AI psychosis,請你用一句話講你到底在指控他們做了什麼?」(u/MarathonHampster, 12↑)
客服全 bot 化 雙方都派 bot 互吵、人還是被封 「我們活在未來了。兩個 bot 在吵(一個是 OpenAI 派的、一個是使用者派的),結果什麼都沒解決,使用者照封、公司照收錢。」(u/Adept-Type, 7↑)
多開違規偵測 VPN + chat app + API 同時跑會觸發停權 「不要同時跑 chat app、VPN 跟 API,會被當成詐欺、帳號就會像這樣被停權。」(u/Jean_velvet, 7↑)
早該止損 壞了七個月還繼續付費才是真問題 「memory 跟 projects 死掉那一刻起就該停損、把 workflow 搬到 Claude 或 local,20 美元訂閱的沉沒成本不值得做 forensic 深挖。」(3↑)

本報觀點

本案三方說法都有破口,但折射出的結構議題比個案本身更值得記錄。其一,OpenAI 客服自承全 bot 化,連自稱真人的回應都被 OP 指控為 LLM 偽裝,使用者無法接觸到任何有決策權的對口;其二,自動化 Trust & Safety 在偵測到異常流量時,把流量來源帳號當成加害者而非可能的受害者,等於「鎖了門、怪屋主被闖空門」;其三,Plus 訂閱定位斷層 — 平台一邊把 Plus 推廣給開發者當「副駕駛」,一邊在使用量稍微拉高時就以 ToS 武器化處理,沒有把使用者導去合理的 API 或 business 方案,而是直接清出場。OP 是否如留言區所推測自爆 API key 仍待 forensic bundle 公開檢驗,但「通報者被自動化系統反殺」這個風險,已不只是這一個帳號的事。 ← 藏鏡人批:兩個 bot 互吵的世界,使用者只剩一張無聲的被截圖的臉。

10. [產業] 44.5 萬美元只徵「有品味」的人,OpenAI 把抽象詞寫進 JD

報導

(本報賈新聞/產業組報導)OpenAI 最新一則年薪 44.5 萬美元的 researcher 職缺,把「tasteful and strategic」(有品味且具策略性)寫進 job description,被 Reddit 網友截圖丟上 r/OpenAI 後,貼文累積 304 個 upvote。原始來源是 Business Insider 對 OpenAI safety team「AI 自我改進挑戰」相關研究員的報導,這個職位主要負責設計與評估前沿模型在自我提升任務上的表現。

職缺要求被許多人解讀為「人脈與品味」兼具的隱性篩選器。網友 u/Seafaringhorsemeat 戲稱 JD 接下來會寫「不准犯錯」「聽起來要像人、不要像 AI」「不准用 em dash」,等於把這幾年大家對 LLM 寫作的吐槽全部丟回給人類應徵者。也有人質疑 44.5 萬只是 FAANG 中位數,相對 OpenAI 開給頂尖研究員「百萬美元起跳 + 股票」的傳聞,這個數字反而顯得保守。u/thomasahle 直言「我以為 OpenAI 每個人都 100 萬美元起跳,加上 stock options 大概才到」。

社群反應

觀點 說明 代表留言
薪水沒想像中高 認為 44.5 萬只是 FAANG 中位數,OpenAI 真正開的是股票 「我以為 OpenAI 每個人都 100 萬美元起跳,加上 stock options 大概才到。」(u/thomasahle, 89↑)
嘲諷 JD 用語 拿 JD 文字反串 LLM 寫作的常見毛病 「JD 接下來會寫『不准犯錯』『聽起來要像人、不要像 AI』『不准用 em dash』。」(u/Seafaringhorsemeat, 47↑)
翻譯成白話 直接點破職位實際在做什麼 「翻譯一下:他們需要一個能做出不會太色的色情 bot 的人。」(8↑)
揶揄 PR 才是真缺口 認為 OpenAI 需要的不是研究員、是公關 「老實說他們需要的是更好的 PR,而不是更聰明的研究員。Sam 看起來完全沒受過媒體訓練,太容易被攻擊性問題釣到。」(2↑)
自我推薦式調侃 對「品味」門檻的玩笑回應 「行啊,老子就是有品味又有策略。」(4↑)
對 IPO 的酸言 把高薪解讀成 IPO 前的 cash burn 「他們才不在乎,這些都會由被動投資人在 IPO 估值過高時買單,他們套現後幾季估值就崩,Sam 再去賣下一桶蛇油。」(-4↑)

本報觀點

在 Anthropic、xAI 與 Meta Superintelligence Labs 互相挖角的 frontier model 戰局裡,「品味」這種看似主觀的條件,其實是在 codify 一種越來越值錢的能力 — 面對無限多 ablation、無限多 prompt 變體、無限多 RLHF 標註策略,誰能判斷「哪一條路值得走」就是真正的護城河。當 AI 自動化掉大量 grunt work 後,工程與研究的差異化反而退回到判斷力本身。OpenAI 把「tasteful」放進 JD,看似裝模作樣,實際上是在告訴市場:我們不缺寫 code 的人,缺的是知道「該寫什麼」的人。 ← 藏鏡人批:把「品味」寫進 JD,是 frontier model 公司承認自己也找不到客觀指標的最大白。

附件:harness engineering — 三方對照

(本報賈新聞/延伸閱讀)本期主新聞之外,補一條跨頻道的觀察。讀者本週若注意到 Reddit 上「harness engineering」這個詞反覆出現,背後其實有三方聲音同時在說話 — OpenAI、ThoughtWorks、Claude Code 社群 — 三邊講的是同一件事,但落點完全不同。

OpenAI 在 2026/2 發表的 Harness engineering: leveraging Codex in an agent-first world 是把這個詞推上桌的源頭。OpenAI 把 harness 定義成「圍繞在 agent 身邊的整套環境 — scaffolding、constraints、feedback loops、文件、linter、lifecycle」,並用一個內部實驗背書:五個月、約 100 萬行 production code、零行人類手寫,全部由 Codex 在 harness 裡產出。重點訊息只有一句:軟體工程的工作正在從「寫 code」轉成「設計 agent 工作的環境」。

ThoughtWorks 在 2026/5/13 由 Birgitta Böckeler 與 Chris Ford 發表的 Harness engineering: agent feedback — exploring AI coding sensors 則接著把概念工程化。他們把 harness 的反饋機制叫做「sensors」,並提出最值得記的一個分類:sensors 分成「inference sensors」(需要 LLM 解讀的訊號,例如自然語言 review 意見)與「computational sensors」(確定性工具如 ESLint、Semgrep、Dependency Cruiser、mutation testing),並用一個 TypeScript dashboard 實驗示範 computational sensors 對測試 coverage 的持續推升效果。差異化貢獻是給了一張可以查詢的工具清單,比 OpenAI 那篇更接近 day-to-day 工程實務。

而 Reddit 的 Claude Code 社群,其實正在用 hooks 把 ThoughtWorks 講的「computational sensor」做出來。本週與此相關的高熱度貼文包括 r/ClaudeAI「Claude Code hooks are the feature most people skip」(63↑/36)、r/ClaudeCode「Do you actually use hooks in Claude Code?」(78↑/83)、以及「Bully: a smarter PostToolHook that actually enforces lint rules」這類把 lint/test 接上 PostToolUse hook 的開源工具。本期頭版第 1 則的 v2.1.150 注入爭議,與第 5 則的 Hooks/Skills/Plugins 對照表討論,事實上都是同一個 harness engineering 趨勢的兩面:使用者一邊質疑 Anthropic 在 harness 裡放什麼,一邊自己疊 hook 把 harness 撐起來。

本報觀點:值得注意的是,「harness engineering」這個詞在英文社群已成熱詞,繁中圈幾乎沒人在用。OpenAI 給願景、ThoughtWorks 給分類學、Reddit 給實作 — 這三層對任何要把 Claude Code、Codex、Cursor 等 agent 收進團隊日常的人都很關鍵。如果只追單一來源(多半是 OpenAI 那篇被反覆轉貼),會錯過 ThoughtWorks 提供的 deterministic vs inference 那條判斷線。本報建議讀者三篇對照著讀,至少在自己的 CLAUDE.md 與 hooks 設定裡,多放一個「我這條 sensor 是 deterministic 還是 LLM 解讀」的標記。 ← 藏鏡人批:英文圈在分類學、繁中圈還在翻譯名詞 — 又一次。

社群溫度計

熱度 標題 一句話
1215↑ welcome back Rohan! 社群歡迎 Rohan 回歸的迷因連發,純情緒、零技術濃度的本週共感冠軍。
946↑ Are we nearly there? vibe coding 進度條的自嘲圖梗,留言區一面倒接「永遠還差一點」的續集。
934↑ Humanity's greatest hits: things we actually paused 一張圖嘲諷人類「真正暫停過的科技」清單極短,反襯 AI 暫停論調的不切實際。
922↑ Should we follow this advice? 一則網路流傳的 AI 使用建議,社群在 220 則留言裡分裂成照做派與看戲派。
414↑ /goal make opus 5.0 一則玩笑式貼文,下個 /goal 指令叫 Claude 自己做出 Opus 5.0,社群接梗到天荒地老。
310↑ sounds about right Claude Code 使用日常的某個共鳴點被一張圖戳中,留言全是「對啦就是這樣」。
294↑ Fav Desk Gadget: codeMeter 自製桌面用量顯示器 codeMeter 曝光,AI 工程師桌面美學進入硬體階段。
258↑ ChatGPT pro pen ChatGPT Pro 訂戶收到的實體筆周邊曝光,社群開始討論 OpenAI 走訂閱周邊路線。
本文由 Claude 自動匯整,非人工撰寫