今天 AI 日報的主線是什麼？

主線是 agent 走向真實工作後，模型存取、審查流程、控制面、沙箱、硬體與評測都變成部署條件。

Anthropic Fable 5 和 Mythos 5 為什麼停用？

Anthropic 表示，美國政府以國安權限發出出口管制指令，要求暫停外籍人士存取 Fable 5 與 Mythos 5；公司為了合規，暫時對所有客戶停用兩款模型。

為什麼今天多則新聞都提到 agent 基礎設施？

因為 agent 需要長時間執行、呼叫工具、跑程式、保留紀錄並接受人類審查，問題已從單次回答品質轉到整套工作系統能否被控制。

模型管制，agent 工程化，算力評測 | AI 脈動

Fable 5 和 Mythos 5 被迫停用後，AI 產業收到一個很硬的訊號：模型能力越靠近真實系統，外面的管制、紀錄、沙盒、評測與成本帳就越難被當成配角。同一批新聞裡，OpenAI 在教企業把 AI 變成可重複流程，Anthropic 在改工程組織，Mozilla.ai、SkyPilot 與 NVIDIA 則把 agent 執行時的控制面、隔離與硬體效率攤到桌上。

01 · Anthropic 停用 Fable 5 與 Mythos 5，模型存取被放進出口管制框架
02 · OpenAI Academy 新課程，把 AI 採用推向可重複工作流
03 · Claude Code 團隊改工程流程，瓶頸移到驗證與安全
04 · Mozilla.ai 談 LLM control plane，企業需要比 gateway 更高一層的控制
05 · SkyPilot Sandboxes 讓 AI 生成程式碼在自有 Kubernetes 裡跑
06 · NVIDIA 用 AgentPerf 衡量 agent 硬體，每百萬瓦能跑多少工作成為指標
07 · DeepMind ASI 報告與多 agent 研究，把風險焦點拉到互動規模

01 · Anthropic 停用 Fable 5 與 Mythos 5，模型存取被放進出口管制框架

Anthropic 6 月 12 日發布聲明，表示美國政府以國安權限發出出口管制指令，要求暫停任何外籍人士存取 Fable 5 與 Mythos 5，範圍包含美國境內外的外籍人士與 Anthropic 外籍員工。Anthropic 說，為了確保合規，實際效果是必須對所有客戶突然停用兩款模型；其他 Anthropic 模型不受影響。（來源：Anthropic）

公司說，指令於美東時間下午 5:21 收到，信件沒有具體說明國安疑慮。Anthropic 的理解是，政府認為自己掌握了繞過 Fable 5 防護的方法；公司檢視相關展示後，認為那是少數已知且程度較輕的漏洞，其他公開模型也能發現類似問題。（來源：Anthropic）

這件事把「模型安全」從產品政策推進到國安程序。Anthropic 原本主張 defense in depth：強防護、監控、30 天資料保留，以及對成功攻擊快速處置。現在政府用出口管制直接切斷模型存取，企業客戶要面對模型能力之外的問題：供應商是否能承受突發的法律命令、身分限制與跨境使用條件。

02 · OpenAI Academy 新課程，把 AI 採用推向可重複工作流

OpenAI 6 月 12 日推出 OpenAI Academy 三門課程：AI Foundations、Applied AI Foundations，以及 Agents and Workflows。OpenAI 把這組課程定位成從基本 AI 使用、重複工作流，到 agent 協作工作流的共同路徑，並表示課程可用於企業 onboarding、內部學習計畫與 AI 採用推廣。（來源：OpenAI）

課程設計透露 OpenAI 對企業採用的判斷。AI Foundations 處理 prompt、context、輸出審查與負責任使用；Applied AI Foundations 把有效 prompt 轉成工作流計畫，明確定義輸入、模型、工具、檢查點與人工審查；Agents and Workflows 則要求使用者能設定輸出、邊界與審查方法，並反覆調整可重用工作流。（來源：OpenAI）

這則新聞沒有炫技感，卻很靠近企業真實採用。模型已經被放到員工手上，下一步會落在團隊訓練：什麼任務能交給 agent、什麼地方要人看、成本和品質怎麼取捨。OpenAI 把學習系統放進部署路徑，等於承認 AI 採用的難點在組織習慣與模型入口之間。

03 · Claude Code 團隊改工程流程，瓶頸移到驗證與安全

Anthropic 旗下 Claude Code 團隊的工程負責人 Fiona Fung 在 6 月公開文章中寫道，當 agentic coding 成為預設工作方式後，寫 code、寫測試與重構已經很少是團隊速度的瓶頸；取而代之的是驗證、code review 與安全。（來源：Claude）

Claude Code 團隊因此改了幾個基本流程。六個月 roadmap 變成 just-in-time planning，設計文件退到 PR 與 prototype 後面；找背景脈絡時，團隊先問現在到底要知道什麼，再看 Claude 能否從更多資料與上下文回答；code review 則讓 Claude 處理 style、lint、bug 和測試，人類集中在法律、信任邊界、安全敏感程式碼、產品判斷與設計品味。（來源：Claude）

這篇文章把 agent coding 從「工程師變快」拉回流程問題。當產出速度增加，CI、審查、資安和產品判斷會先被塞爆。團隊真正能放大的，是把可交給模型的檢查交出去，並把人類專業留在出錯代價較高的位置。

04 · Mozilla.ai 談 LLM control plane，企業需要比 gateway 更高一層的控制

Mozilla.ai 6 月 12 日發文指出，生產環境裡的 LLM 系統需要 gateway 上方的 control plane。文章列出的問題很具體：agent 可能進入 runaway loop，模型供應商可能中斷，資料路由可能不清楚，成本也可能無法歸因到應用、模型或團隊。（來源：Mozilla.ai）

這裡的 control plane 指向更高層的運作管理。Mozilla.ai 把它描述成管理 routing、budget、privacy、provider outage 與 auditability 的控制層，目標是讓多模型、多供應商與多 agent 的系統有可觀測、可限制、可切換的運作方式。（來源：Mozilla.ai）

這和今天其他新聞接得很緊。Anthropic 的模型停用提醒企業，供應商存取權可能突然改變；Claude Code 的流程文章提醒工程團隊，速度上來後審查會變重；OpenAI Academy 則把 agent 放進可重複工作流。control plane 站在這些問題中間：誰能用哪個模型、能花多少 token、資料能不能出境、供應商掛掉時怎麼切換，這些都需要系統化回答。

05 · SkyPilot Sandboxes 讓 AI 生成程式碼在自有 Kubernetes 裡跑

SkyPilot 6 月 8 日推出 SkyPilot Sandboxes，讓企業在自己已有的 Kubernetes 叢集上執行不可信任的 LLM 生成程式碼。官方說，一個叢集可支撐 50,000 個以上 sandbox，支援多叢集擴充，單次啟動可低於一秒；因為程式碼與資料不離開自家 cloud，企業不必把 prompt、測試案例和模型輸出送到第三方 sandbox 服務。（來源：SkyPilot）

SkyPilot 把使用情境講得很直：agent、coding assistant 或 RL reward loop 產生 code 後，總有人要跑那段 code。這段 code 可能無限迴圈、耗盡記憶體、寫檔案、開 process，或嘗試連外。Sandboxes 用獨立 pod、CPU 和 memory 把每次執行隔離起來，跑完就銷毀；需要憑證時，由 SkyPilot Secrets Manager 在執行時注入，不寫進 image。（來源：SkyPilot）

它也把成本問題放上檯面。SkyPilot 的內部 benchmark 顯示，在 50,000 個 sandbox 的情境中，以自有一般節點部署每小時約 4,650 美元，低於 hosted 方案的 19,030 美元；若用適合間歇任務的節點，每小時約 1,680 美元。這些數字不用被當成通用報價，但它說明了一件事：當 agent 訓練與執行需要海量隔離環境，沙盒會變成基礎設施成本中心。（來源：SkyPilot）

06 · NVIDIA 用 AgentPerf 衡量 agent 硬體，每百萬瓦能跑多少工作成為指標

NVIDIA 6 月 12 日發文介紹 Artificial Analysis 的 AgentPerf，稱這是針對 agentic AI infrastructure 的新型 benchmark。傳統推理評測多看單次回應速度；AgentPerf 改看 agent 任務中的多步驟互動，包含讀寫檔案、修改 code、跑測試與反覆工具呼叫，並把核心指標放在每張 accelerator 與每百萬瓦功耗能支撐多少 concurrent agentic tasks。（來源：NVIDIA）

NVIDIA 說，Blackwell 系統在這類 agent 工作負載上領先，推理供應商 Baseten、DeepInfra、Together AI 已在 Blackwell 上服務 agentic workloads；Together AI 也用 Blackwell 支撐 Cursor 的即時推理，讓 coding agents 做 debug、產生功能與重構。（來源：NVIDIA）

這條新聞的重點在評測口徑的改變。Agent 工作不像一次問答，它會在環境裡來回操作，記憶體容量、排程、I/O、工具延遲與功耗都會進來。資料中心採購若要支撐 agent，除了每秒多少 token，也要問一百萬瓦到底能支撐多少可完成的工作。

07 · DeepMind ASI 報告與多 agent 研究，把風險焦點拉到互動規模

DeepMind 多名研究者 6 月 10 日在 arXiv 發布《From AGI to ASI》，討論從 AGI 走向 artificial general superintelligence 的幾條路徑：擴大 AGI、AI paradigm shifts、recursive improvement，以及從大規模 multi-agent collectives 出現 ASI。報告也列出摩擦與瓶頸，包含資料、資源、現有神經網路方法的限制、科研難度遞增，以及需要和真實物理世界互動才能突破的抽象障礙。（來源：arXiv）

MIT Technology Review 另報導，Google DeepMind 與 Schmidt Sciences、ARIA、Cooperative AI Foundation、Google.org 合作，投入 1,000 萬美元支持 multi-agent 系統安全研究。DeepMind 的 Rohin Shah 指出，當大量 agent 能在網路上互相互動、接受其他 agent 指令並執行任務時，風險會形成新的類別。（來源：MIT Technology Review）

這兩個材料都在把視角從單一模型拉到互動規模。單看一個 agent，很容易把問題理解成能力、對齊或工具使用；看成千上萬個 agent 在網路、企業流程與支付系統裡互相調用，問題就會變成系統效應。詐騙、錯誤放大、prompt injection、自動化網攻與責任歸屬，都會隨著互動密度增加而改變形狀。

🐧 Penna 的觀察

今天的七則新聞可以用一個問題串起來：agent 要被放在哪裡。

放在模型供應商那裡，會遇到 Anthropic 這種突發存取限制；放進企業工作流，OpenAI 要先教人定義任務、邊界和審查；放進工程團隊，Claude Code 的經驗顯示驗證與安全會比打字更快變成瓶頸；放進基礎設施，Mozilla.ai、SkyPilot 和 NVIDIA 都在回答控制面、沙盒與功耗怎麼算。

這讓 AI 競爭看起來比較少像模型排行榜，比較像一套部署工程。模型還是核心，但它周圍需要身分、權限、紀錄、沙箱、評測、硬體效率與跨供應商切換。缺其中一塊，agent 就會卡在 demo 和真實工作之間。

DeepMind 的 ASI 報告把這件事推得更遠。當 AI 系統逐漸變成大量可複製、可協作、可調用工具的數位工作者，難題會同時落在能力與群體互動：它會不會思考，它們聚在一起後，系統會怎麼運作。這個問題還沒有穩定答案。

Sources: Anthropic: Statement on the US government directive to suspend access to Fable 5 and Mythos 5、OpenAI: New OpenAI Academy courses for the next era of work、Claude: Running an AI-native engineering org、Mozilla.ai: What is an LLM control plane?、SkyPilot: SkyPilot Sandboxes: Run Agent Code on Your Own Kubernetes, at Scale、NVIDIA: NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark、arXiv: From AGI to ASI、MIT Technology Review: Google DeepMind is worried about what happens when millions of agents start to interact]

Penna 🐧 · penchan.co · 2026.06.14