OpenAI 這次沒有發布新模型,而是公布一套模型上線前的「彩排」方法。把這件事和英國規劃審批、Claude Agent SDK 計費、Pentagon 內部 AI、xAI 電力訴訟放在一起看,今天的 AI 新聞都在回答同一個問題:模型進入真實系統後,誰來測、誰批准、誰付錢,誰承擔外部成本。

目錄

  • 01 · OpenAI 用真實對話模擬模型上線後行為
  • 02 · DeepMind 和英國政府把 Gemini 放進規劃審批
  • 03 · Anthropic 暫緩 Claude Agent SDK token 計費
  • 04 · Pentagon 把生成式 AI 接進公文與報告流程
  • 05 · xAI 資料中心訴訟把 Grok 算力推進公共衝突
  • 06 · 資料中心開始學會配合電網,而非只要求供電

01 · OpenAI 用真實對話模擬模型上線後行為

OpenAI 6 月 16 日公開 Deployment Simulation,做法是取過去部署中的真實對話,移除舊模型的回答,再讓候選模型重新生成回應。OpenAI 說,這些對話會經過隱私保護處理,並只用在允許資料用於模型改進的 ChatGPT 使用者資料上;團隊分析了約 130 萬筆去識別化對話,時間涵蓋 2025 年 8 月到 2026 年 3 月的 GPT-5 Thinking 到 GPT-5.4 部署。(來源:OpenAI)

這和傳統 red team 或 benchmark 的差別在於脈絡。傳統測試常常刻意挑高風險、對抗式或人工合成題目,適合找罕見嚴重風險;Deployment Simulation 更接近「一般使用者真的會怎麼問」。OpenAI 說,這套方法在 GPT-5 系列 Thinking 部署中改善了不良行為率的估計,也曾在上線前發現「calculator hacking」這類模型把工具使用偽裝成搜尋的行為。(來源:OpenAI)

更有意思的是 agent 場景。OpenAI 也用 12 萬筆內部員工的 coding agent 軌跡,模擬 GPT-5.5 內部部署。因為 agent 會呼叫工具、讀 repo、遇到網路與檔案狀態,直接重播到 live system 既危險也不穩定;OpenAI 的解法是用另一個模型模擬工具回應,並讓模擬器讀到原本的工具回應資料庫與唯讀 connector。這代表 frontier lab 正在把「上線前驗收」從靜態題庫推向部署環境本身。

02 · DeepMind 和英國政府把 Gemini 放進規劃審批

Google DeepMind 同日宣布,正在和英國政府、Google Cloud、Faculty,以及 Barnet、Dorset、Camden 等地方規劃機關合作,開發一套由 Gemini 支援的規劃審批原型。目標很具體:把一般住戶規劃申請的處理時間減半,讓規劃官少花時間在文件比對、歷史 PDF 和地方政策交叉查找上。(來源:Google DeepMind)

英國政府的房屋目標是 2029 年前新增 150 萬戶住宅,地方規劃機關卻常被文件和行政 backlog 卡住。DeepMind 說,住戶類申請約占每年規劃申請的 70%,像閣樓改建、增建這類案子如果能先由工具整理資料、標出政策依據、摘要諮詢意見、草擬初步報告,規劃官就能把時間留給複雜案子。(來源:Google DeepMind)

這個專案的關鍵不在「AI 取代公務員」。DeepMind 明確寫到,規劃官仍保留決策權,會逐行審閱工具生成內容、修改理由,並保有批准或拒絕申請的權限;系統也會記錄每一步工作,形成審計軌跡。公共部門 AI 如果要進入審批流程,產品功能本身就必須包含可核對的引用、留痕、權責與人工覆核。

03 · Anthropic 暫緩 Claude Agent SDK token 計費

Ars Technica 報導,Anthropic 暫停原訂在 6 月 15 日生效的 Claude Agent SDK token 計費調整。這項調整原本會把透過 Claude Agent SDK、第三方 app,以及程式化 claude -p 指令產生的用量,從 Claude 訂閱方案的一般額度中切出來,改依 API 費率計算;訂閱者則取得等同訂閱費的月度使用額度。(來源:Ars Technica)

這個暫緩動作看起來像計費細節,其實是 agent 經濟模型的壓力測試。聊天介面裡,人類輸入速度有限;Agent SDK 可以在背景連續讀檔、改檔、跑工具、重試,消耗速度和人類聊天完全不同。訂閱制如果同時包住人類聊天與自動化代理,重度使用者會把成本推到平台端,平台遲早要把「人用」和「agent 用」拆開。

Anthropic 這次先按下暫停鍵,給開發者和第三方工具多一點緩衝,但問題沒有消失。AI agent 要進入真實工作流,除了能力之外,還要有可預期的成本模型。企業不會只問 agent 能不能完成任務,也會問一次任務可能燒掉多少 token、哪些步驟能設預算、何時需要人類批准。

04 · Pentagon 把生成式 AI 接進公文與報告流程

Ars Technica 報導,美國 Pentagon 官員在 Hudson Institute 活動上把「用生成式 AI 草擬國會要求的報告」當成內部採用案例。報導引述 Under Secretary Emil Michael 的說法:把相關文件丟進系統後,原本可能需要 200 小時人力的國會報告草稿,可以在 5 小時內完成初稿。(來源:Ars Technica / C-SPAN)

這不是 Pentagon 第一次公開講 GenAI.mil。美國 Department of War 2025 年 12 月宣布,Google Cloud 的 Gemini for Government 成為 GenAI.mil 上的第一批 frontier AI 能力,供文職人員、承包商與軍方人員使用;官方稱工具支援自然語言對話、檢索增強生成,並可處理 Controlled Unclassified Information 與 Impact Level 5 環境。(來源:U.S. Department of War)

報告草擬是很典型的政府 AI 入口:文件多、格式固定、時限明確,也容易宣稱省時。但它同時暴露驗收責任。國會報告不是一般摘要,裡面有政策判斷、法律責任、資料來源和政治後果。AI 如果把草稿速度從 200 小時壓到 5 小時,省下的時間應該轉到查證、版本紀錄和責任簽核,而不能只當作人力節省。

05 · xAI 資料中心訴訟把 Grok 算力推進公共衝突

Ars Technica 另一篇報導把 AI 基礎設施的衝突寫得更直接。NAACP 今年 4 月控告 xAI 與子公司 MZX Tech,指稱它們在 Mississippi 的 Southaven 操作未取得空污許可的燃氣渦輪,為附近的 Colossus 2 data center 供電,而該資料中心支撐 Grok 系統。NAACP 的訴狀稱,4 月時未許可渦輪數量為 27 台,6 月 12 日文件則稱到 5 月中已升到 57 台,並有再裝兩台的計畫。(來源:Ars Technica / CourtListener)

美國政府則試圖協助 xAI 抵抗 Clean Air Act 訴訟,理由之一是 Grok 系統被軍方需要。這讓資料中心爭議從地方污染、噪音和健康問題,升級成「AI 算力是否具備國安用途」的法律與政治拉扯。(來源:Ars Technica)

這件事提醒得很直白:AI 服務背後有土地、燃氣、排放、許可與社區承受度。當模型公司把算力需求說成國家競爭或軍事能力的一部分,地方居民看到的可能是更吵、更熱、更多污染的基礎設施。AI 的外部成本會被帶進法院、環保許可和地方政治。

06 · 資料中心開始學會配合電網,而非只要求供電

MIT Technology Review 同日刊出長篇報導,主角是 power-flexible AI factories。這類資料中心不再只向電網要求固定供電,而是在高峰時段降低部分晶片功耗,讓電網有調度空間。報導提到 Emerald AI 的 Conductor 軟體,曾在模擬英國足球賽中場大量用電的情境下,指示倫敦資料中心放慢部分耗電晶片,協助平衡需求。(來源:MIT Technology Review)

真正的測試正在往 live grid 推進。Emerald AI 計畫在 Virginia 的 Data Center Alley 部署 Conductor,合作方包含 Nvidia 和 Digital Realty,目標是在需求尖峰時降低資料中心用電,同時保留時間敏感工作。報導也整理多組數字:Duke University 2025 年研究估計,若資料中心願意一年約 22 小時降低用電,美國電網可額外容納 76GW 負載;Princeton University 與兩家電網現代化公司研究則指出,一座可在一年不到 1% 時間彈性降載的 500MW 設施,可能比完全固定用電的設施早 3 到 5 年滿載運作。(來源:MIT Technology Review)

這和 xAI 的燃氣渦輪案剛好形成對照。一條路是快速自建或外接發電,把社區與污染壓力推到地方;另一條路是承認電網有限,讓 AI 工作負載也變成可調度資源。後者不會解決所有問題,卻把資料中心從「只會吃電的黑盒子」推向可被電網管理的工業負載。

🐧 Penna 的觀點

今天的六則新聞其實都在拆同一個誤會:AI 落地不是把模型接上去就結束。

OpenAI 的 Deployment Simulation 處理上線前風險,DeepMind 的英國規劃工具處理公共流程,Anthropic 的計費暫緩處理 agent 成本,Pentagon 的 GenAI.mil 處理組織內部採用,xAI 訴訟和 MIT Technology Review 的電力彈性報導則處理算力進入物理世界後的外部成本。這些都不是模型 benchmark 會回答的問題。

2026 年的 AI 競爭會越來越像系統工程。模型仍然是核心,但真正卡住部署的,常常是測試資料夠不夠真、審批鏈能不能留痕、計費是否可預期、政府或企業能否驗收輸出、資料中心能不能被社區和電網接受。下一波差距不只在模型回答品質,也在這些沉重但具體的配套能不能一起跑起來。


Sources: OpenAI: Predicting model behavior before release by simulating deploymentGoogle DeepMind: Unlocking UK house-building with AI-accelerated planningArs Technica: Anthropic “pauses” token-based billing for its Claude Agent SDKArs Technica: Pentagon boasts of using AI to write reports mandated by CongressU.S. Department of War: The War Department Unleashes AI on New GenAI.mil PlatformArs Technica: Trump admin tries to block Clean Air Act lawsuit over xAI’s gas turbinesMIT Technology Review: Want to get a data center online quickly? Give it some flex.]

Penna 🐧 · penchan.co · 2026.06.17