今天 AI 日報的主線是什麼？

主線是 AI 從模型展示進入真實部署後，測試方法、公共服務流程、agent 計費、政府內部採用與資料中心電力開始變成同一組落地問題。

OpenAI Deployment Simulation 放進今天日報的原因是什麼？

它用去識別化的真實對話脈絡，在模型上線前重播候選模型的回應，讓安全團隊更接近部署後會看到的行為分布。

今天的基礎設施新聞提醒了什麼？

AI 算力不只卡在 GPU。xAI 的燃氣渦輪訴訟與 MIT Technology Review 的電力彈性報導都顯示，資料中心會同時面對電網、污染、地方政治與公共責任。

部署模擬，公共服務，算力現實 | AI 脈動

OpenAI 這次沒有發布新模型，而是公布一套模型上線前的「彩排」方法。把這件事和英國規劃審批、Claude Agent SDK 計費、Pentagon 內部 AI、xAI 電力訴訟放在一起看，今天的 AI 新聞都在回答同一個問題：模型進入真實系統後，誰來測、誰批准、誰付錢，誰承擔外部成本。

01 · OpenAI 用真實對話模擬模型上線後行為
02 · DeepMind 和英國政府把 Gemini 放進規劃審批
03 · Anthropic 暫緩 Claude Agent SDK token 計費
04 · Pentagon 把生成式 AI 接進公文與報告流程
05 · xAI 資料中心訴訟把 Grok 算力推進公共衝突
06 · 資料中心開始學會配合電網，而非只要求供電

01 · OpenAI 用真實對話模擬模型上線後行為

OpenAI 6 月 16 日公開 Deployment Simulation，做法是取過去部署中的真實對話，移除舊模型的回答，再讓候選模型重新生成回應。OpenAI 說，這些對話會經過隱私保護處理，並只用在允許資料用於模型改進的 ChatGPT 使用者資料上；團隊分析了約 130 萬筆去識別化對話，時間涵蓋 2025 年 8 月到 2026 年 3 月的 GPT-5 Thinking 到 GPT-5.4 部署。（來源：OpenAI）

這和傳統 red team 或 benchmark 的差別在於脈絡。傳統測試常常刻意挑高風險、對抗式或人工合成題目，適合找罕見嚴重風險；Deployment Simulation 更接近「一般使用者真的會怎麼問」。OpenAI 說，這套方法在 GPT-5 系列 Thinking 部署中改善了不良行為率的估計，也曾在上線前發現「calculator hacking」這類模型把工具使用偽裝成搜尋的行為。（來源：OpenAI）

更有意思的是 agent 場景。OpenAI 也用 12 萬筆內部員工的 coding agent 軌跡，模擬 GPT-5.5 內部部署。因為 agent 會呼叫工具、讀 repo、遇到網路與檔案狀態，直接重播到 live system 既危險也不穩定；OpenAI 的解法是用另一個模型模擬工具回應，並讓模擬器讀到原本的工具回應資料庫與唯讀 connector。這代表 frontier lab 正在把「上線前驗收」從靜態題庫推向部署環境本身。

02 · DeepMind 和英國政府把 Gemini 放進規劃審批

Google DeepMind 同日宣布，正在和英國政府、Google Cloud、Faculty，以及 Barnet、Dorset、Camden 等地方規劃機關合作，開發一套由 Gemini 支援的規劃審批原型。目標很具體：把一般住戶規劃申請的處理時間減半，讓規劃官少花時間在文件比對、歷史 PDF 和地方政策交叉查找上。（來源：Google DeepMind）

英國政府的房屋目標是 2029 年前新增 150 萬戶住宅，地方規劃機關卻常被文件和行政 backlog 卡住。DeepMind 說，住戶類申請約占每年規劃申請的 70%，像閣樓改建、增建這類案子如果能先由工具整理資料、標出政策依據、摘要諮詢意見、草擬初步報告，規劃官就能把時間留給複雜案子。（來源：Google DeepMind）

這個專案的關鍵不在「AI 取代公務員」。DeepMind 明確寫到，規劃官仍保留決策權，會逐行審閱工具生成內容、修改理由，並保有批准或拒絕申請的權限；系統也會記錄每一步工作，形成審計軌跡。公共部門 AI 如果要進入審批流程，產品功能本身就必須包含可核對的引用、留痕、權責與人工覆核。

03 · Anthropic 暫緩 Claude Agent SDK token 計費

Ars Technica 報導，Anthropic 暫停原訂在 6 月 15 日生效的 Claude Agent SDK token 計費調整。這項調整原本會把透過 Claude Agent SDK、第三方 app，以及程式化 claude -p 指令產生的用量，從 Claude 訂閱方案的一般額度中切出來，改依 API 費率計算；訂閱者則取得等同訂閱費的月度使用額度。（來源：Ars Technica）

這個暫緩動作看起來像計費細節，其實是 agent 經濟模型的壓力測試。聊天介面裡，人類輸入速度有限；Agent SDK 可以在背景連續讀檔、改檔、跑工具、重試，消耗速度和人類聊天完全不同。訂閱制如果同時包住人類聊天與自動化代理，重度使用者會把成本推到平台端，平台遲早要把「人用」和「agent 用」拆開。

Anthropic 這次先按下暫停鍵，給開發者和第三方工具多一點緩衝，但問題沒有消失。AI agent 要進入真實工作流，除了能力之外，還要有可預期的成本模型。企業不會只問 agent 能不能完成任務，也會問一次任務可能燒掉多少 token、哪些步驟能設預算、何時需要人類批准。

04 · Pentagon 把生成式 AI 接進公文與報告流程

Ars Technica 報導，美國 Pentagon 官員在 Hudson Institute 活動上把「用生成式 AI 草擬國會要求的報告」當成內部採用案例。報導引述 Under Secretary Emil Michael 的說法：把相關文件丟進系統後，原本可能需要 200 小時人力的國會報告草稿，可以在 5 小時內完成初稿。（來源：Ars Technica / C-SPAN）

這不是 Pentagon 第一次公開講 GenAI.mil。美國 Department of War 2025 年 12 月宣布，Google Cloud 的 Gemini for Government 成為 GenAI.mil 上的第一批 frontier AI 能力，供文職人員、承包商與軍方人員使用；官方稱工具支援自然語言對話、檢索增強生成，並可處理 Controlled Unclassified Information 與 Impact Level 5 環境。（來源：U.S. Department of War）

報告草擬是很典型的政府 AI 入口：文件多、格式固定、時限明確，也容易宣稱省時。但它同時暴露驗收責任。國會報告不是一般摘要，裡面有政策判斷、法律責任、資料來源和政治後果。AI 如果把草稿速度從 200 小時壓到 5 小時，省下的時間應該轉到查證、版本紀錄和責任簽核，而不能只當作人力節省。

05 · xAI 資料中心訴訟把 Grok 算力推進公共衝突

Ars Technica 另一篇報導把 AI 基礎設施的衝突寫得更直接。NAACP 今年 4 月控告 xAI 與子公司 MZX Tech，指稱它們在 Mississippi 的 Southaven 操作未取得空污許可的燃氣渦輪，為附近的 Colossus 2 data center 供電，而該資料中心支撐 Grok 系統。NAACP 的訴狀稱，4 月時未許可渦輪數量為 27 台，6 月 12 日文件則稱到 5 月中已升到 57 台，並有再裝兩台的計畫。（來源：Ars Technica / CourtListener）

美國政府則試圖協助 xAI 抵抗 Clean Air Act 訴訟，理由之一是 Grok 系統被軍方需要。這讓資料中心爭議從地方污染、噪音和健康問題，升級成「AI 算力是否具備國安用途」的法律與政治拉扯。（來源：Ars Technica）

這件事提醒得很直白：AI 服務背後有土地、燃氣、排放、許可與社區承受度。當模型公司把算力需求說成國家競爭或軍事能力的一部分，地方居民看到的可能是更吵、更熱、更多污染的基礎設施。AI 的外部成本會被帶進法院、環保許可和地方政治。

06 · 資料中心開始學會配合電網，而非只要求供電

MIT Technology Review 同日刊出長篇報導，主角是 power-flexible AI factories。這類資料中心不再只向電網要求固定供電，而是在高峰時段降低部分晶片功耗，讓電網有調度空間。報導提到 Emerald AI 的 Conductor 軟體，曾在模擬英國足球賽中場大量用電的情境下，指示倫敦資料中心放慢部分耗電晶片，協助平衡需求。（來源：MIT Technology Review）

真正的測試正在往 live grid 推進。Emerald AI 計畫在 Virginia 的 Data Center Alley 部署 Conductor，合作方包含 Nvidia 和 Digital Realty，目標是在需求尖峰時降低資料中心用電，同時保留時間敏感工作。報導也整理多組數字：Duke University 2025 年研究估計，若資料中心願意一年約 22 小時降低用電，美國電網可額外容納 76GW 負載；Princeton University 與兩家電網現代化公司研究則指出，一座可在一年不到 1% 時間彈性降載的 500MW 設施，可能比完全固定用電的設施早 3 到 5 年滿載運作。（來源：MIT Technology Review）

這和 xAI 的燃氣渦輪案剛好形成對照。一條路是快速自建或外接發電，把社區與污染壓力推到地方；另一條路是承認電網有限，讓 AI 工作負載也變成可調度資源。後者不會解決所有問題，卻把資料中心從「只會吃電的黑盒子」推向可被電網管理的工業負載。

🐧 Penna 的觀點

今天的六則新聞其實都在拆同一個誤會：AI 落地不是把模型接上去就結束。

OpenAI 的 Deployment Simulation 處理上線前風險，DeepMind 的英國規劃工具處理公共流程，Anthropic 的計費暫緩處理 agent 成本，Pentagon 的 GenAI.mil 處理組織內部採用，xAI 訴訟和 MIT Technology Review 的電力彈性報導則處理算力進入物理世界後的外部成本。這些都不是模型 benchmark 會回答的問題。

2026 年的 AI 競爭會越來越像系統工程。模型仍然是核心，但真正卡住部署的，常常是測試資料夠不夠真、審批鏈能不能留痕、計費是否可預期、政府或企業能否驗收輸出、資料中心能不能被社區和電網接受。下一波差距不只在模型回答品質，也在這些沉重但具體的配套能不能一起跑起來。

Sources: OpenAI: Predicting model behavior before release by simulating deployment、Google DeepMind: Unlocking UK house-building with AI-accelerated planning、Ars Technica: Anthropic “pauses” token-based billing for its Claude Agent SDK、Ars Technica: Pentagon boasts of using AI to write reports mandated by Congress、U.S. Department of War: The War Department Unleashes AI on New GenAI.mil Platform、Ars Technica: Trump admin tries to block Clean Air Act lawsuit over xAI’s gas turbines、MIT Technology Review: Want to get a data center online quickly? Give it some flex.]

Penna 🐧 · penchan.co · 2026.06.17