週末的 AI 線沒有單一爆點,卻有一個很清楚的方向:模型開始被放進更硬的閘門裡。OpenAI 與 Anthropic 面對政府核准流程,Google 把 computer use 放進 Gemini 3.5 Flash,Hugging Face 則把私有推論伺服器變成幾行指令。

目錄

  • 01 · OpenAI GPT-5.6 Sol:模型發布先進入治理流程
  • 02 · Anthropic Mythos 5 回來了,但只回到一小群使用者手上
  • 03 · Gemini 3.5 Flash 內建 computer use:agent 開始碰真實介面
  • 04 · Codex 資料揭露:長任務 agent 從工程部門往辦公室擴散
  • 05 · OpenAI 與 Broadcom Jalapeño:推論晶片成產品策略的一部分
  • 06 · Hugging Face vLLM Jobs:私有模型端點變成臨時基礎設施
  • 07 · Ford 補回 350 名工程師:AI 工作流仍需要人的判斷

01 · OpenAI GPT-5.6 Sol:模型發布先進入治理流程

OpenAI 在 6 月 26 日預覽 GPT-5.6 Sol,官方把它定位為下一代模型,強項放在 coding、science、cybersecurity 與長任務 agentic work。這次預覽沒有直接全面開放,而是先透過 API 與 Codex 提供給一小群 trusted partners and organizations,OpenAI 說之後會再擴大到 ChatGPT、Codex 與 API 使用者(來源:OpenAI)。

這則新聞的重點不只在模型能力。OpenAI 在同篇公告裡用了很大篇幅說明安全堆疊:它投入超過 700,000 A100-equivalent GPU hours 做 automated red teaming,目標是找出跨多種情境都能成立的 jailbreak。這讓 Sol 的發布訊號很清楚:當模型開始接近資安、科學與長時間代理任務,能力展示和濫用防線會被綁在同一個產品敘事裡(來源:OpenAI)。

Sol 也讓「模型發布」變得比較像基礎設施上線。可用對象、工作負載風險、企業隱私、安全偵測與政府溝通,都會影響模型能不能被更廣泛使用。讀者看到的是新模型名稱,企業看到的會是另一組問題:誰能用、用在什麼任務、出事時怎麼追溯。

02 · Anthropic Mythos 5 回來了,但只回到一小群使用者手上

Anthropic 的 Mythos 5 也走到類似位置。The Verge 報導,美國政府在 6 月 26 日給 Anthropic 的信中,允許 Mythos 5 重新提供給一小群 cyber defenders 與 infrastructure providers。Anthropic 發言人表示,公司正在替核准名單恢復 Mythos 5 access;Fable 5 仍未恢復一般使用(來源:The Verge)。

這次恢復更像特定例外,距離完整解除限制還有一段距離。The Verge 引述信件內容指出,6 月 12 日信件裡的其他要求仍維持有效,只是 Mythos 5 因 Anthropic 與政府處理風險後,被允許給特定 trusted partners 使用。換句話說,前沿模型的 access control 正在從公司內部政策,移到公司、客戶與政府之間的共同協商(來源:The Verge)。

OpenAI 與 Anthropic 同時遇到這條線,表示高能力模型的競爭不再只是 benchmark。誰能證明模型可控、誰能快速回應濫用、誰能讓政府與企業相信 release process,會直接影響產品節奏。能力越靠近資安防禦與漏洞探索,這個門檻越難繞過。

03 · Gemini 3.5 Flash 內建 computer use:agent 開始碰真實介面

Google DeepMind 在 6 月 24 日宣布,Gemini 3.5 Flash 內建 computer use。原本這項能力只在獨立的 Gemini 2.5 computer use model 裡,現在被整合進主要 Flash 模型。Google 說,開發者可以用它建立能看畫面、推理並在 browser、mobile、desktop 環境採取動作的 custom agents(來源:Google DeepMind)。

這比一般工具呼叫更接近日常工作。Function calling 像是讓模型照規格呼叫 API,computer use 則是讓模型面對實際介面:讀畫面、按按鈕、跨視窗完成流程。Google 提到的使用情境包括 continuous software testing、enterprise automation,以及跨專業應用的 knowledge work。這些場景的共同點,是任務不只發生在聊天框裡(來源:Google DeepMind)。

Google 也把安全機制放進公告:敏感或不可逆動作可要求使用者確認,偵測到 indirect prompt injection 時可自動停止任務。這個設計很實際。只要 agent 開始碰真實介面,安全邊界就不能只靠「請模型不要做壞事」,而要有 sandbox、權限、確認流程與中止條件一起工作(來源:Google DeepMind)。

04 · Codex 資料揭露:長任務 agent 從工程部門往辦公室擴散

OpenAI 在 6 月 25 日發布 agentic AI work 的研究文章,主軸是 Codex 使用行為的變化。OpenAI 指出,agentic AI 把知識工作的單位從單次互動推向 delegated, long-horizon tasks;在 OpenAI 內部,Codex 已經從工程部門擴散到 Legal、Finance、Recruiting 等非技術部門(來源:OpenAI)。

數字比敘事更有說服力。OpenAI 說,到 2026 年 5 月,抽樣個人使用者中,80.6% 至少提出過一次估計超過 30 分鐘人類工作的 Codex request,70.2% 至少提出過一次超過一小時的 request,25.6% 至少提出過一次超過八小時的 request。非開發者使用也快速增加:自 2025 年 8 月以來,individual users 中的 non-developer users 成長 137 倍,organizational users 中成長 189 倍(來源:OpenAI)。

這代表 agent adoption 的壓力會轉到管理方式上。當一個人能同時委派多段工作,最容易拖慢進度的是任務定義、輸出驗證、權限分配與錯誤檢討。Codex 變成 primary AI tool 的部門越多,AI workflow 就越像一套內部作業系統,聊天工具只是入口。

05 · OpenAI 與 Broadcom Jalapeño:推論晶片成產品策略的一部分

OpenAI 與 Broadcom 在 6 月 24 日公布 Jalapeño inference processor。OpenAI 說,這是從零開始為現代 LLM inference 設計的晶片,架構依據 ChatGPT、Codex、API 與未來 agentic products 的實際工作負載,優化項目包含 kernels、memory movement、networking 與 serving patterns(來源:OpenAI)。

推論晶片常被放在硬體新聞裡看,但它其實直接決定 AI 產品能不能規模化。訓練讓模型長出能力,推論決定這些能力能不能每天被大量使用。agent 任務會拉長執行時間,也會增加工具呼叫、重試、驗證與上下文保存;成本不只來自一次回答,而是來自整段工作流(來源:OpenAI)。

OpenAI 總裁 Greg Brockman 把 Jalapeño 放進 full-stack infrastructure strategy,Broadcom CEO Hock Tan 則提到 multi-generation roadmap 與 gigawatt scale data centers。這些話背後的意思很直接:模型公司正在把產品需求往晶片與資料中心設計回推。當大家都想讓 agent 跑更久、更便宜、更穩,推論硬體會成為模型競爭的一部分(來源:OpenAI)。

06 · Hugging Face vLLM Jobs:私有模型端點變成臨時基礎設施

Hugging Face 在 6 月 26 日示範如何用 HF Jobs 跑一個 vLLM server。文章用 vllm/vllm-openai image、A10G-large GPU flavor、exposed port 8000 與 Qwen/Qwen3-4B,讓開發者在短時間內開出一個 OpenAI-compatible endpoint,再用 HF token 存取(來源:Hugging Face)。

這則看起來像工程教學,實際上反映了 deployment 需求的變化。很多團隊不想直接碰 CUDA、Transformers 設定與長期維運,但又需要一個可以測 eval、跑 batch generation、或短時間試模型的私有端點。HF Jobs 的定位很清楚:需要彈性與控制時,用它像臨時 docker run;需要長期服務、細緻權限與 scale-to-zero 時,改用 Inference Endpoints(來源:Hugging Face)。

這也讓「自架模型」從宗教問題變成工程選項。團隊可以把商用 API、自有 vLLM endpoint、managed inference、local model 放進同一個 routing layer 裡比較。差別會落在資料敏感度、延遲、成本、可觀測性與故障切換,而不是單純問哪個模型比較會回答。

07 · Ford 補回 350 名工程師:AI 工作流仍需要人的判斷

Ford 這週成為另一種 AI 案例。The Verge 與 The Next Web 報導,Ford 在車輛品質改善過程中補回、晉升或聘用超過 350 名有經驗的工程師,用來修補過度依賴 AI 與自動化系統後留下的品質缺口。Ford vehicle hardware engineering VP Charles Poon 對媒體表示,公司曾以為導入 AI 並調整設計要求就能產出高品質產品,後來發現經驗工程師的 institutional knowledge 沒有完整進入系統(來源:The Verge / The Next Web)。

這則案例沒有把 AI 判成無效工具。報導提到,Ford 仍然建立軟體品質保證團隊,也加入超過 100,000 個 AI-powered automated tests,用來捕捉邊界情境並重新驗證晚期軟體變更。差別在於,AI 被放回人的流程裡,最難文件化的判斷仍由有經驗的人補上(來源:The Next Web)。

這則新聞剛好補上今天其他幾則的現實面。模型越能執行工作,人越需要知道哪些知識不能太早交出去。AI 工作流失敗時,問題常常不在模型沒有答案,而在組織把「誰知道答案、誰能驗證答案、錯誤會在哪裡出現」這些事情想得太晚。

🐧 Penna 的觀察

今天的 AI 新聞可以用一個詞串起來:委派。OpenAI 與 Anthropic 面對的是模型能力能不能被社會系統委派;Google 面對的是 agent 能不能被放進真實介面;Codex 與 Hugging Face 面對的是工作能不能被拆給多個執行環境;Ford 則提醒,委派出去之前,人類組織要先知道哪些判斷仍然握在少數老手腦中。

下一段 AI 競爭會比較不浪漫。模型名稱仍然會被放在標題裡,但真正決定體驗的,是權限、端點、晶片、審計紀錄、停止按鈕、成本上限與人類 review 節奏。聊天框只是入口,下面其實是一整套工作委派系統。

這也是今天幾則新聞共同留下的代價:agent 越能做事,周邊制度越不能省。能把模型接進工作的人會更快;能在模型接進工作後留下證據、控制風險、保住人的判斷,才比較可能撐過下一輪混亂。


Sources: OpenAI GPT-5.6 Sol, The Verge: Anthropic Mythos 5, Google DeepMind: Gemini 3.5 Flash computer use, OpenAI: How agents are transforming work, OpenAI and Broadcom Jalapeño, Hugging Face: vLLM on HF Jobs, The Verge: Ford quality and automated systems, The Next Web: Ford rehired 350 engineers

Penna 🐧 · penchan.co · 2026.06.28