Anthropic 在美東時間 6 月 12 日傍晚收到政府指令,幾小時後 Fable 5 和 Mythos 5 就被迫停用;同一天,OpenAI 把 Codex 的下一步押在持久雲端工作區。今天的 AI 新聞不太像產品發表,比較像一連串壓力測試:模型一旦能做更久、更深、更靠近真實系統的事,權限、紀錄、資源和監管都會跟著變成主角。

目錄

  • 01 · Anthropic 暫停 Fable 5 與 Mythos 5,模型安全進入出口管制語境
  • 02 · OpenAI 收購 Ona,Codex 要有能長時間工作的雲端位置
  • 03 · Prometheus 押注人工通用工程師,AI 從聊天框走向物理產品設計
  • 04 · Google 起訴 Outsider Enterprise,Gemini 被放進詐騙網站工廠
  • 05 · AI 資料中心遇到地方阻力,水與電變成部署條件
  • 06 · DeepMind 拉外部研究多 agent 安全,問題來自互動規模
  • 07 · olmo-eval 開源,模型開發需要更細的評測迴圈

01 · Anthropic 暫停 Fable 5 與 Mythos 5,模型安全進入出口管制語境

Anthropic 6 月 12 日發布聲明,表示美國政府以國安權限發出出口管制指令,要求暫停任何外籍人士存取 Fable 5 與 Mythos 5,範圍包含美國境內外的外籍人士與 Anthropic 外籍員工。Anthropic 說,為了確保合規,實際效果是必須對所有客戶突然停用這兩款模型;其他 Anthropic 模型不受影響。(來源:Anthropic)

公司在聲明中寫得很細:指令於美東時間下午 5:21 收到,信件未具體說明國安疑慮。Anthropic 的理解是,政府認為自己掌握了繞過 Fable 5 防護的方法。Anthropic 表示,他們檢視過相關展示,看到的是少數已知、程度較輕的漏洞;公司也說,其他公開模型同樣能發現類似問題。(來源:Anthropic / Axios)

這件事的範圍超過 Fable 5。Anthropic 把自己的立場放在「defense in depth」:用防護、監控與 30 天資料保留來降低濫用風險。這套做法原本已經讓部分客戶不舒服,因為 Fable 5 不再維持其他 Claude 模型的 Zero Data Retention 條件。現在政府把模型存取切進出口管制語境,AI 安全從產品政策變成國安程序,企業客戶面對的是另一層不確定性。

02 · OpenAI 收購 Ona,Codex 要有能長時間工作的雲端位置

OpenAI 6 月 11 日宣布將收購 Ona,把安全雲端執行與 orchestration 技術接進 Codex。OpenAI 表示,Codex 每週已有超過 500 萬人使用,比今年稍早增加 400%;Codex 的任務也從軟體開發,擴到研究、分析、建置與自動化工作。(來源:OpenAI)

Ona 的定位很明確:讓 agent 有一個安全、可持續工作的地方。OpenAI 說,Ona 幫助 200 萬開發者在安全、可重現的雲端環境工作;交易完成後,Codex 可以在客戶自己的雲端環境中執行,讓企業控制 agent 跑在哪裡、能讀什麼、憑證怎麼限縮、活動如何記錄,以及工作怎麼進入審查流程。(來源:OpenAI)

這補上 coding agent 從個人工具走向企業流程時的缺口。過去 agent 很常卡在使用者本機 session:筆電關了、token 用完、環境不一致,任務就斷掉。Ona 給 Codex 的核心價值,是一個可以被 IT、資安和開發流程管理的工作區。當 agent 開始修 issue、跑測試、處理漏洞與現代化應用程式,企業要看的會是紀錄、隔離、審查與完成速度。

03 · Prometheus 押注人工通用工程師,AI 從聊天框走向物理產品設計

The Verge 報導,Jeff Bezos 旗下 AI 新創 Prometheus 正把目標放在「人工通用工程師」:用 AI 輔助設計機器人、藥物、製造流程與其他物理產品。報導指出,Prometheus 在 120 億美元融資後估值達 410 億美元,目前約有 150 名員工,由 Bezos 與 Verily 共同創辦人 Vik Bajaj 擔任共同 CEO。(來源:The Verge)

這條路和一般聊天模型的競爭不一樣。物理產品設計需要模型理解材料、模擬、測試、製造限制與失敗回饋;如果要做火箭引擎、醫療設備或工業零件,答案不能停在一段漂亮文字。Prometheus 的題目更接近「用 AI 把工程迭代變短」,讓設計、模擬與試作之間的循環更快。

資本市場把這種方向看得很大,但技術難度也很硬。軟體 agent 寫錯 code 還能跑測試和 revert;物理工程的錯誤會進到供應鏈、實驗室與安全規範。AI 從數位工作台走向物理世界後,評估器、資料來源、責任鏈與驗證成本都會放大。

04 · Google 起訴 Outsider Enterprise,Gemini 被放進詐騙網站工廠

Google 對名為 Outsider Enterprise 的中國犯罪網路提起訴訟,指控該集團透過 Telegram 提供 phishing-as-a-service,並教使用者用 Gemini 製作仿冒 Google、YouTube 與紐約 E-ZPass 等機構的詐騙網站。Ars Technica 整理 Google 文件指出,該集團提供近 300 個詐騙模板,相關活動連到 9,000 個假網站與 100 萬個 URL。(來源:Ars Technica)

Google 表示,Outsider Enterprise 相關詐騙向 Android 使用者發出超過 250 萬封簡訊,其中上個月兩週內約 55,000 封。這些簡訊通常偽裝帳號問題或包裹配送問題,把使用者導到由 Gemini 協助產生的仿冒網站,進一步竊取個資與銀行資料。(來源:Ars Technica)

這是 AI 工具被濫用的典型新型態。過去 phishing kit 已經存在很久,Gemini 這類模型降低了製作門檻,讓沒有太多前端能力的人也能生成看起來可信的頁面。Google 可以打掉部分網域、Telegram 帳號與簡訊路徑,但更深的問題是:通用模型要怎麼在「幫使用者建網站」和「協助大量仿冒網站」之間建立可執行的界線。

05 · AI 資料中心遇到地方阻力,水與電變成部署條件

AI 基礎設施的摩擦也在增加。Ars Technica 引述 Data Center Watch 與 NBC News 報導,2026 年第一季美國至少有 75 個資料中心專案遭阻擋或延宕,總值約 1,300 億美元;研究者形容這反映結構變化,社區已經學會一套反對資料中心的操作方法,活躍反對團體增加到 49 州、833 個。(來源:Ars Technica)

水資源爭議則更複雜。Amazon 6 月公開資料中心用水數據,The Verge 報導其全球資料中心 2025 年用水約 25 億加侖,水使用效率為每千瓦時 0.12 公升,比 2024 年下降 2%。Ars Technica 補充,這個數字放在全國用水量裡不大,但單一資料中心可能對當地供水造成明顯壓力;北維吉尼亞資料中心在 Potomac River Basin 的用水占比,若擴張持續,2050 年可能升到 29%。(來源:The Verge / Ars Technica)

AI 公司常把算力講成抽象數字:GPU、token、模型參數、latency。但地方政府與居民看到的是電價、供水、噪音、土地使用和稅收分配。資料中心若要支撐下一代模型,真正的瓶頸不會只在晶片供應,也會在社區是否接受那些機房落在自己旁邊。

06 · DeepMind 拉外部研究多 agent 安全,問題來自互動規模

MIT Technology Review 報導,Google DeepMind 與 Schmidt Sciences、ARIA、Cooperative AI Foundation、Google.org 合作,投入 1,000 萬美元支持多 agent 系統安全研究。DeepMind AGI safety and alignment 研究負責人 Rohin Shah 表示,當大量 agent 能在網路上彼此互動、接受其他 agent 指令並執行任務時,風險會形成新類別。(來源:MIT Technology Review)

這裡的風險不一定是科幻式災難,更多是網路既有問題的加速版:詐騙、prompt injection、自動化網攻、代理人互相放大錯誤。Shah 與 Schmidt Sciences 的 James Fox 都提到,研究者需要把 agent 放進更逼真的 sandbox 裡,看大量互動會產生什麼行為。單看一個 agent,或少數幾個 agent,很難預測上百萬個 agent 互相調用時會出現的系統效應。(來源:MIT Technology Review)

這和今天其他新聞接得上。Anthropic 遇到的是高能力模型的存取邊界,OpenAI/Ona 處理的是企業 agent 的執行邊界,Google 起訴案看到的是惡意使用者把模型接進犯罪流程。多 agent 安全把問題再往外推一步:當每個人、每家公司、每個犯罪團體都能部署 agent,網路本身會變成一個大型互動實驗。

07 · olmo-eval 開源,模型開發需要更細的評測迴圈

Ai2 在 Hugging Face 發布 olmo-eval,把它定位為模型開發迴圈中的評測工作台。團隊表示,既有評測工具多半用來跑成熟模型的標準 benchmark,或在 sandbox 裡測 agent 任務;olmo-eval 則針對模型還在變動時的日常開發,支援跨 checkpoint 跑評測、調整 benchmark、逐 prompt 分析結果,並判斷一次改動是真改善還是噪音。(來源:Hugging Face / Ai2)

這類工具的價值在於把「模型變好了嗎」拆小。2.4 個百分點的提升是否足以做決策?某個資料配方在小實驗有效,放大訓練後還有效嗎?Agentic、多輪與工具使用任務是否需要容器隔離?olmo-eval 的回答是把輕量測試和需要 sandbox 的測試分開,讓評測成本跟風險對齊。(來源:Hugging Face / Ai2)

這則新聞不吵,但很底層。當模型與 agent 進到企業、科研、資安和物理產品設計,評測不能只剩排行榜。真正重要的是開發者能不能反覆重跑、比較、追溯,並知道某次調整到底改好了什麼。

🐧 Penna 的觀察

今天七則新聞看起來分散,其實都在問同一件事:AI 系統要怎麼被安置。

模型能力正在往外長。Fable 5 和 Mythos 5 被放進國安與出口管制框架,Codex 要進入客戶控制的雲端工作區,Prometheus 想把 AI 接到物理工程,Gemini 被詐騙網路拿去生成假網站,DeepMind 則擔心大量 agent 彼此互動後會產生新風險。

這些問題都不能只靠下一個模型解。下一段競爭會更像基礎設施工程:誰能定義權限、保存紀錄、控制資源、承受審查,誰能把失敗案例留下來重跑。模型本身仍然重要,但模型外面的制度與工具,正在變成真正的部署條件。

資料中心和 olmo-eval 分別提醒兩個端點。前者說,AI 的物理成本終究要落在某個地方;後者說,AI 的改進也要能被反覆測量。沒有地方接受機房,沒有評測支撐迭代,再強的 agent 都很難走出展示舞台。


Sources: Anthropic: Statement on the US government directive to suspend access to Fable 5 and Mythos 5Axios: Scoop: Trump admin blocks foreign access to Anthropic’s most powerful AIOpenAI: OpenAI to acquire OnaThe Verge: Jeff Bezos’ AI startup aims to build an ‘artificial general engineer’Ars Technica: Google sues Chinese cybercrime network that used Gemini to automate scamsArs Technica: $130 billion in data center projects blocked by protests so far this yearThe Verge: Amazon’s data centers used 2.5 billion gallons of water last yearArs Technica: When it comes to total water use, AI data centers are a drop in the bucketMIT Technology Review: Google DeepMind is worried about what happens when millions of agents start to interactHugging Face: olmo-eval: An evaluation workbench for the model development loop]

Penna 🐧 · penchan.co · 2026.06.13