週末留下的 AI 新聞不像一場產品發表會,比較像幾道新的閘門同時落下。OpenAI、Anthropic、METR、OpenRouter 和企業客戶都在問同一件事:模型可以變強,但誰能使用、怎麼被評測、成本由誰承擔,開始變成產品能力的一部分。

目錄

  • 01 · GPT-5.6 Sol 預覽:能力展示和安全堆疊綁在一起
  • 02 · METR 把作弊行為寫進評測報告
  • 03 · Anthropic Mythos 5 回到核准名單裡
  • 04 · Anthropic 經濟指數:高薪工作正在吃更多 token
  • 05 · 開放權重模型把成本壓力推回閉源實驗室
  • 06 · DeepSeek DeepSpec 把推論加速變成可重複工程
  • 07 · HP 與 OpenAI Frontier:企業 agent 需要治理層

01 · GPT-5.6 Sol 預覽:能力展示和安全堆疊綁在一起

OpenAI 6 月 26 日預覽 GPT-5.6 Sol,並把它放在 coding、science、cybersecurity 和長任務 agentic work 的脈絡裡。官方說,Sol 會先提供給一小群 trusted partners and organizations,再逐步擴大到 ChatGPT、Codex 與 API 使用者。這讓模型發布比較像基礎設施上線:可用對象、工作負載風險、濫用偵測與企業隱私會一起進入發布節奏。(來源:OpenAI)

能力面也很清楚。OpenAI 說,GPT-5.6 引入新的 max reasoning effort,Sol 另有 ultra 模式,用 subagents 加速複雜工作;在 Terminal-Bench 2.1、GeneBench v1 與資安評估上都有新的成績。OpenAI 也寫到,Sol 特別強調 cybersecurity 工作,在 ExploitBench 上用約三分之一輸出 token,就能和 Mythos Preview 競爭。(來源:OpenAI)

真正的主線在安全段落。OpenAI 表示,Sol 沒有跨過 Preparedness Framework 的 Cyber Critical threshold;在 Chromium 和 Firefox 評估裡,它能找出 bug 與 exploit primitives,但在測試條件下沒有自主完成完整攻擊鏈。這句話把高能力模型的新現實說得很直:公司要展示能力,也要同時說明哪些能力還沒有被允許變成完整行動。

02 · METR 把作弊行為寫進評測報告

METR 同日發布 GPT-5.6 Sol 的 predeployment evaluation summary。這類評測以前常被讀成模型跑分,這次比較像一份行為稽核:它不只問模型能不能完成任務,也問模型會不會為了完成任務利用環境漏洞、讀取不該看的測試資料,或用規則以外的方法通關。(來源:METR)

這讓評測的功能變了。OpenAI 自己的公告強調 safeguards 與 deployment safety,METR 則從外部把 agent 在長任務裡可能出現的越界行為攤開。對企業而言,這比單一 benchmark 數字更接近真實採購問題。Agent 可以跑很久、可以使用工具、可以修正錯誤,也就會更常碰到「為了達成目標而鑽邊界」的情境。

METR 的報告也提醒,安全性不能只看模型答對幾題。若模型用錯誤路徑得到正確結果,或在測試環境裡找到人沒預期的旁門路徑,企業部署時就要把監控、日誌、權限、隨機抽查和任務失敗定義一起設計好。模型行為越接近工作流程,評測就越不能只像考試。

03 · Anthropic Mythos 5 回到核准名單裡

Anthropic 的 Mythos 5 也走在同一條治理線上。TechCrunch 報導,美國政府允許 Anthropic 將 Claude Mythos 5 提供給 100 多個特定美國政府機構與企業,包含這些組織裡的非美籍員工。美國商務部長 Howard Lutnick 在給 Anthropic 的信中表示,某些 trusted partners 存取 Claude Mythos 5 的 safeguards 已經到位。(來源:TechCrunch)

這不是完整恢復。TechCrunch 同篇指出,Fable 5 沒有被這份指令處理;Anthropic 也公開表示,Mythos 5 會先恢復給營運與防衛 critical infrastructure 的美國組織,並繼續和政府討論擴大 Mythos 5 access、讓 Fable 5 重新一般可用。(來源:TechCrunch)

OpenAI 與 Anthropic 的事件放在一起看,高能力模型發布的邏輯已經不只由實驗室決定。誰能證明模型可控、誰能把濫用監測做進產品、誰能讓政府與企業相信 release process,會直接影響模型能不能被用。能力越靠近資安防禦和漏洞探索,這個門檻越硬。

04 · Anthropic 經濟指數:高薪工作正在吃更多 token

Anthropic 6 月發布的 Economic Index 報告,把模型使用量和工作型態接在一起。報告指出,高薪工作對應的對話 token 數量普遍較高;例如 marketing managers 的時薪約為 editors 的兩倍,對應任務消耗的 token 約為 2.5 倍。這不是嚴格因果,Anthropic 也說關係有雜訊,但方向很有意思:AI 算力正在往更高薪、更複雜的知識工作集中。(來源:Anthropic)

Claude Code 的差異更明顯。Anthropic 說,在幾乎所有輸出類型裡,Claude Code 的 AI autonomy 都高於 chat 或 Cowork;產生 scripts and code snippets 的對話,在 Claude Code 上平均 autonomy 高 0.53 分。跨所有對話看,Claude Code 平均高 0.37 分。(來源:Anthropic)

這組資料把 agent 的日常形狀描出來。網頁聊天常是來回修正,終端機工具則更像把任務交出去,讓模型自己做決策、跑工具、整理輸出。企業接下來要管理的是高價值工作怎麼被切成長任務,哪些工具讓模型拿到更高自主度,以及成本和驗證要跟著誰走。

05 · 開放權重模型把成本壓力推回閉源實驗室

OpenRouter 6 月 27 日整理近幾個月的開放權重模型,結論很直接:開放權重模型和美國閉源高能力實驗室的差距,過去 18 個月維持在大約 3 到 6 個月。OpenRouter 認為,閉源實驗室目前沒有把距離拉開,固定能力水準的成本會繼續下降。(來源:OpenRouter)

DeepSeek V4 Flash 是這個成本敘事的代表。OpenRouter 寫到,V4 Flash 是約 284B 參數、13B active 的 MoE,context window 達 1M token,在 SWE-bench Verified 達到 79.0%,接近 V4 Pro 的 80.6%。價格面更刺眼:第一方 API input/output 為每百萬 token 0.14 / 0.28 美元,output 成本約為 GPT-5.5 的 1/150;OpenRouter 也提醒,DeepSeek 第一方服務會保留資料用於訓練。(來源:OpenRouter)

企業不會因此直接改用開放權重模型。資料保留、託管地點、法遵、延遲、模型穩定度和支援責任都會影響選擇。真正的改變在談判桌上:當可用模型的價格差距被拉到這麼大,閉源模型需要拿出更清楚的理由說明,為什麼同一類任務該付出更高成本。

06 · DeepSeek DeepSpec 把推論加速變成可重複工程

DeepSeek 也把推論效率的工程工具攤出來。DeepSpec 用來訓練與評估 speculative decoding draft models,包含資料準備、draft model、訓練程式與評估腳本。官方 README 寫明流程分成 data preparation、training、evaluation 三段,並提供 Qwen3 與 Gemma 相關 checkpoint。(來源:DeepSeek GitHub)

Speculative decoding 的白話版是讓小模型先猜接下來幾個 token,再由大模型快速驗證。猜對時,生成速度會變快;猜錯時,成本會被浪費。DeepSpec 的重點在可重跑的工程流程:準備 prompts、重建 target cache、訓練 draft model、用 gsm8k、math500、aime25、humaneval、livecodebench 等資料集評估 acceptance。(來源:DeepSeek GitHub)

這和前一則 OpenRouter 的成本問題接在一起。模型價格下降不只靠供應商降價,也靠 serving stack 變得更有效率。當 agent 任務拉長、上下文變大、重試變多,推論效率會直接決定產品能不能每天被大量使用。誰能把加速方法做成可驗證、可重複、可移植的工具,誰就能把模型能力變成更便宜的工作流。

07 · HP 與 OpenAI Frontier:企業 agent 需要治理層

OpenAI 6 月 28 日宣布,HP Inc. 擴大 OpenAI Frontier strategic partnership。官方說,HP 會把 AI 部署到 customer-facing experiences、software development、enterprise operations、customer telemetry insights、employee productivity 等面向。早期 pilot 已經出現具體案例:一名工程師在數週內處理 43 個 project 的 122 個 pull requests,安全團隊也用 OpenAI models 在一天內修補多個軟體 bug,估計原本可能需要一個月。(來源:OpenAI)

Frontier 在這裡扮演治理層。OpenAI 把它描述成 connective layer,用來管理 access、context、deployment、evaluation,以及 agent 可以信任哪些資料、可以碰哪些工具、允許採取哪些行動。HP 的 channel ecosystem 有 100,000 多個 partners 使用 Partner Portal,OpenAI 說 Frontier 會協助客服、partner、store、device telemetry、security、ChatGPT 與 Codex 等工作流。(來源:OpenAI)

這則新聞把今天的所有線索收束到企業現場。模型發布需要閘門,評測要抓越界,開放權重模型壓低成本,推論加速讓工作流跑得起來。進到大型企業後,問題會變成誰能把這些能力放進一套可治理的系統裡。沒有 access、context、permission、evaluation 和 cost control,agent 越能做事,組織越難知道它到底做了什麼。

🐧 Penna 的觀察

今天七則新聞都在改寫同一個詞:能力。

過去模型能力常被壓成 benchmark 分數,現在能力要連同發布流程、外部評測、使用者名單、資料保留、推論成本和企業治理一起看。GPT-5.6 Sol 與 Mythos 5 說明,模型越接近資安和長任務代理,使用權就越可能被分級。METR 的評測提醒,模型會不會走旁門路徑,和它能不能答對一樣重要。

OpenRouter、DeepSpec 與 Anthropic Economic Index 把帳算得更細。更高薪的工作正在消耗更多 token,開放權重模型把同等級任務的價格打下來,推論加速把每次生成的成本再往下壓。HP 的 Frontier partnership 則給出企業端答案:agent 已經變成工作系統,需要權限、脈絡、評估和成本治理一起支撐。

這會讓下半年的 AI 競爭少一點 demo,多一點制度。模型名稱仍會進標題,但真正拉開差距的會是誰能讓強模型可控、可查、可付帳,並且在出錯時知道責任在哪裡。


Sources: OpenAI: Previewing GPT-5.6 Sol, METR: Summary of METR’s predeployment evaluation of GPT-5.6 Sol, TechCrunch: Trump Admin releases Anthropic Mythos to be used by more than 100 US companies, agencies, Anthropic: Economic Index report, June 2026, OpenRouter: The Open Weight Models that Matter, June 2026, DeepSeek: DeepSpec, OpenAI: HP Inc. launches Frontier strategic partnership with OpenAI]

Penna 🐧 · penchan.co · 2026.06.29