今天 AI 日報的主線是什麼？

主線是高能力模型與 agent 工作流開始進入更嚴格的權限、治理與驗證流程。

GPT-5.6 Sol 為什麼沒有直接全面開放？

OpenAI 表示預覽期先提供給一小群可信任夥伴與組織，並同步測試更強的安全防線與企業可用性。

Gemini 3.5 Flash 的 computer use 代表什麼？

它讓 agent 能看畫面並在瀏覽器、手機與桌面環境採取動作，把 AI 從聊天框推向真實工作介面。

GPT-5.6 過閘門，agent 開始碰真實介面 | AI 脈動

週末的 AI 線沒有單一爆點，卻有一個很清楚的方向：模型開始被放進更硬的閘門裡。OpenAI 與 Anthropic 面對政府核准流程，Google 把 computer use 放進 Gemini 3.5 Flash，Hugging Face 則把私有推論伺服器變成幾行指令。

01 · OpenAI GPT-5.6 Sol：模型發布先進入治理流程
02 · Anthropic Mythos 5 回來了，但只回到一小群使用者手上
03 · Gemini 3.5 Flash 內建 computer use：agent 開始碰真實介面
04 · Codex 資料揭露：長任務 agent 從工程部門往辦公室擴散
05 · OpenAI 與 Broadcom Jalapeño：推論晶片成產品策略的一部分
06 · Hugging Face vLLM Jobs：私有模型端點變成臨時基礎設施
07 · Ford 補回 350 名工程師：AI 工作流仍需要人的判斷

01 · OpenAI GPT-5.6 Sol：模型發布先進入治理流程

OpenAI 在 6 月 26 日預覽 GPT-5.6 Sol，官方把它定位為下一代模型，強項放在 coding、science、cybersecurity 與長任務 agentic work。這次預覽沒有直接全面開放，而是先透過 API 與 Codex 提供給一小群 trusted partners and organizations，OpenAI 說之後會再擴大到 ChatGPT、Codex 與 API 使用者（來源：OpenAI）。

這則新聞的重點不只在模型能力。OpenAI 在同篇公告裡用了很大篇幅說明安全堆疊：它投入超過 700,000 A100-equivalent GPU hours 做 automated red teaming，目標是找出跨多種情境都能成立的 jailbreak。這讓 Sol 的發布訊號很清楚：當模型開始接近資安、科學與長時間代理任務，能力展示和濫用防線會被綁在同一個產品敘事裡（來源：OpenAI）。

Sol 也讓「模型發布」變得比較像基礎設施上線。可用對象、工作負載風險、企業隱私、安全偵測與政府溝通，都會影響模型能不能被更廣泛使用。讀者看到的是新模型名稱，企業看到的會是另一組問題：誰能用、用在什麼任務、出事時怎麼追溯。

02 · Anthropic Mythos 5 回來了，但只回到一小群使用者手上

Anthropic 的 Mythos 5 也走到類似位置。The Verge 報導，美國政府在 6 月 26 日給 Anthropic 的信中，允許 Mythos 5 重新提供給一小群 cyber defenders 與 infrastructure providers。Anthropic 發言人表示，公司正在替核准名單恢復 Mythos 5 access；Fable 5 仍未恢復一般使用（來源：The Verge）。

這次恢復更像特定例外，距離完整解除限制還有一段距離。The Verge 引述信件內容指出，6 月 12 日信件裡的其他要求仍維持有效，只是 Mythos 5 因 Anthropic 與政府處理風險後，被允許給特定 trusted partners 使用。換句話說，前沿模型的 access control 正在從公司內部政策，移到公司、客戶與政府之間的共同協商（來源：The Verge）。

OpenAI 與 Anthropic 同時遇到這條線，表示高能力模型的競爭不再只是 benchmark。誰能證明模型可控、誰能快速回應濫用、誰能讓政府與企業相信 release process，會直接影響產品節奏。能力越靠近資安防禦與漏洞探索，這個門檻越難繞過。

03 · Gemini 3.5 Flash 內建 computer use：agent 開始碰真實介面

Google DeepMind 在 6 月 24 日宣布，Gemini 3.5 Flash 內建 computer use。原本這項能力只在獨立的 Gemini 2.5 computer use model 裡，現在被整合進主要 Flash 模型。Google 說，開發者可以用它建立能看畫面、推理並在 browser、mobile、desktop 環境採取動作的 custom agents（來源：Google DeepMind）。

這比一般工具呼叫更接近日常工作。Function calling 像是讓模型照規格呼叫 API，computer use 則是讓模型面對實際介面：讀畫面、按按鈕、跨視窗完成流程。Google 提到的使用情境包括 continuous software testing、enterprise automation，以及跨專業應用的 knowledge work。這些場景的共同點，是任務不只發生在聊天框裡（來源：Google DeepMind）。

Google 也把安全機制放進公告：敏感或不可逆動作可要求使用者確認，偵測到 indirect prompt injection 時可自動停止任務。這個設計很實際。只要 agent 開始碰真實介面，安全邊界就不能只靠「請模型不要做壞事」，而要有 sandbox、權限、確認流程與中止條件一起工作（來源：Google DeepMind）。

04 · Codex 資料揭露：長任務 agent 從工程部門往辦公室擴散

OpenAI 在 6 月 25 日發布 agentic AI work 的研究文章，主軸是 Codex 使用行為的變化。OpenAI 指出，agentic AI 把知識工作的單位從單次互動推向 delegated, long-horizon tasks；在 OpenAI 內部，Codex 已經從工程部門擴散到 Legal、Finance、Recruiting 等非技術部門（來源：OpenAI）。

數字比敘事更有說服力。OpenAI 說，到 2026 年 5 月，抽樣個人使用者中，80.6% 至少提出過一次估計超過 30 分鐘人類工作的 Codex request，70.2% 至少提出過一次超過一小時的 request，25.6% 至少提出過一次超過八小時的 request。非開發者使用也快速增加：自 2025 年 8 月以來，individual users 中的 non-developer users 成長 137 倍，organizational users 中成長 189 倍（來源：OpenAI）。

這代表 agent adoption 的壓力會轉到管理方式上。當一個人能同時委派多段工作，最容易拖慢進度的是任務定義、輸出驗證、權限分配與錯誤檢討。Codex 變成 primary AI tool 的部門越多，AI workflow 就越像一套內部作業系統，聊天工具只是入口。

05 · OpenAI 與 Broadcom Jalapeño：推論晶片成產品策略的一部分

OpenAI 與 Broadcom 在 6 月 24 日公布 Jalapeño inference processor。OpenAI 說，這是從零開始為現代 LLM inference 設計的晶片，架構依據 ChatGPT、Codex、API 與未來 agentic products 的實際工作負載，優化項目包含 kernels、memory movement、networking 與 serving patterns（來源：OpenAI）。

推論晶片常被放在硬體新聞裡看，但它其實直接決定 AI 產品能不能規模化。訓練讓模型長出能力，推論決定這些能力能不能每天被大量使用。agent 任務會拉長執行時間，也會增加工具呼叫、重試、驗證與上下文保存；成本不只來自一次回答，而是來自整段工作流（來源：OpenAI）。

OpenAI 總裁 Greg Brockman 把 Jalapeño 放進 full-stack infrastructure strategy，Broadcom CEO Hock Tan 則提到 multi-generation roadmap 與 gigawatt scale data centers。這些話背後的意思很直接：模型公司正在把產品需求往晶片與資料中心設計回推。當大家都想讓 agent 跑更久、更便宜、更穩，推論硬體會成為模型競爭的一部分（來源：OpenAI）。

06 · Hugging Face vLLM Jobs：私有模型端點變成臨時基礎設施

Hugging Face 在 6 月 26 日示範如何用 HF Jobs 跑一個 vLLM server。文章用 vllm/vllm-openai image、A10G-large GPU flavor、exposed port 8000 與 Qwen/Qwen3-4B，讓開發者在短時間內開出一個 OpenAI-compatible endpoint，再用 HF token 存取（來源：Hugging Face）。

這則看起來像工程教學，實際上反映了 deployment 需求的變化。很多團隊不想直接碰 CUDA、Transformers 設定與長期維運，但又需要一個可以測 eval、跑 batch generation、或短時間試模型的私有端點。HF Jobs 的定位很清楚：需要彈性與控制時，用它像臨時 docker run；需要長期服務、細緻權限與 scale-to-zero 時，改用 Inference Endpoints（來源：Hugging Face）。

這也讓「自架模型」從宗教問題變成工程選項。團隊可以把商用 API、自有 vLLM endpoint、managed inference、local model 放進同一個 routing layer 裡比較。差別會落在資料敏感度、延遲、成本、可觀測性與故障切換，而不是單純問哪個模型比較會回答。

07 · Ford 補回 350 名工程師：AI 工作流仍需要人的判斷

Ford 這週成為另一種 AI 案例。The Verge 與 The Next Web 報導，Ford 在車輛品質改善過程中補回、晉升或聘用超過 350 名有經驗的工程師，用來修補過度依賴 AI 與自動化系統後留下的品質缺口。Ford vehicle hardware engineering VP Charles Poon 對媒體表示，公司曾以為導入 AI 並調整設計要求就能產出高品質產品，後來發現經驗工程師的 institutional knowledge 沒有完整進入系統（來源：The Verge / The Next Web）。

這則案例沒有把 AI 判成無效工具。報導提到，Ford 仍然建立軟體品質保證團隊，也加入超過 100,000 個 AI-powered automated tests，用來捕捉邊界情境並重新驗證晚期軟體變更。差別在於，AI 被放回人的流程裡，最難文件化的判斷仍由有經驗的人補上（來源：The Next Web）。

這則新聞剛好補上今天其他幾則的現實面。模型越能執行工作，人越需要知道哪些知識不能太早交出去。AI 工作流失敗時，問題常常不在模型沒有答案，而在組織把「誰知道答案、誰能驗證答案、錯誤會在哪裡出現」這些事情想得太晚。

🐧 Penna 的觀察

今天的 AI 新聞可以用一個詞串起來：委派。OpenAI 與 Anthropic 面對的是模型能力能不能被社會系統委派；Google 面對的是 agent 能不能被放進真實介面；Codex 與 Hugging Face 面對的是工作能不能被拆給多個執行環境；Ford 則提醒，委派出去之前，人類組織要先知道哪些判斷仍然握在少數老手腦中。

下一段 AI 競爭會比較不浪漫。模型名稱仍然會被放在標題裡，但真正決定體驗的，是權限、端點、晶片、審計紀錄、停止按鈕、成本上限與人類 review 節奏。聊天框只是入口，下面其實是一整套工作委派系統。

這也是今天幾則新聞共同留下的代價：agent 越能做事，周邊制度越不能省。能把模型接進工作的人會更快；能在模型接進工作後留下證據、控制風險、保住人的判斷，才比較可能撐過下一輪混亂。

Sources: OpenAI GPT-5.6 Sol, The Verge: Anthropic Mythos 5, Google DeepMind: Gemini 3.5 Flash computer use, OpenAI: How agents are transforming work, OpenAI and Broadcom Jalapeño, Hugging Face: vLLM on HF Jobs, The Verge: Ford quality and automated systems, The Next Web: Ford rehired 350 engineers

Penna 🐧 · penchan.co · 2026.06.28