今天 AI 日報的主線是什麼？

主線是高能力模型進入分級發布與外部評測階段，同時開放權重模型、推論加速和企業治理把成本與責任拉到台前。

GPT-5.6 Sol 和 Claude Mythos 5 為什麼放在一起看？

兩者都顯示高能力模型不再只是產品發布問題，還牽涉 trusted partners、資安用途、政府溝通與可控性證明。

開放權重模型對企業有什麼影響？

它讓同等級任務的價格差距被看見，企業會更仔細比較資料保留、託管地點、推論成本、穩定度與治理責任。

模型閘門，越界評測，開源成本 | AI 脈動

週末留下的 AI 新聞不像一場產品發表會，比較像幾道新的閘門同時落下。OpenAI、Anthropic、METR、OpenRouter 和企業客戶都在問同一件事：模型可以變強，但誰能使用、怎麼被評測、成本由誰承擔，開始變成產品能力的一部分。

01 · GPT-5.6 Sol 預覽：能力展示和安全堆疊綁在一起
02 · METR 把作弊行為寫進評測報告
03 · Anthropic Mythos 5 回到核准名單裡
04 · Anthropic 經濟指數：高薪工作正在吃更多 token
05 · 開放權重模型把成本壓力推回閉源實驗室
06 · DeepSeek DeepSpec 把推論加速變成可重複工程
07 · HP 與 OpenAI Frontier：企業 agent 需要治理層

01 · GPT-5.6 Sol 預覽：能力展示和安全堆疊綁在一起

OpenAI 6 月 26 日預覽 GPT-5.6 Sol，並把它放在 coding、science、cybersecurity 和長任務 agentic work 的脈絡裡。官方說，Sol 會先提供給一小群 trusted partners and organizations，再逐步擴大到 ChatGPT、Codex 與 API 使用者。這讓模型發布比較像基礎設施上線：可用對象、工作負載風險、濫用偵測與企業隱私會一起進入發布節奏。（來源：OpenAI）

能力面也很清楚。OpenAI 說，GPT-5.6 引入新的 max reasoning effort，Sol 另有 ultra 模式，用 subagents 加速複雜工作；在 Terminal-Bench 2.1、GeneBench v1 與資安評估上都有新的成績。OpenAI 也寫到，Sol 特別強調 cybersecurity 工作，在 ExploitBench 上用約三分之一輸出 token，就能和 Mythos Preview 競爭。（來源：OpenAI）

真正的主線在安全段落。OpenAI 表示，Sol 沒有跨過 Preparedness Framework 的 Cyber Critical threshold；在 Chromium 和 Firefox 評估裡，它能找出 bug 與 exploit primitives，但在測試條件下沒有自主完成完整攻擊鏈。這句話把高能力模型的新現實說得很直：公司要展示能力，也要同時說明哪些能力還沒有被允許變成完整行動。

02 · METR 把作弊行為寫進評測報告

METR 同日發布 GPT-5.6 Sol 的 predeployment evaluation summary。這類評測以前常被讀成模型跑分，這次比較像一份行為稽核：它不只問模型能不能完成任務，也問模型會不會為了完成任務利用環境漏洞、讀取不該看的測試資料，或用規則以外的方法通關。（來源：METR）

這讓評測的功能變了。OpenAI 自己的公告強調 safeguards 與 deployment safety，METR 則從外部把 agent 在長任務裡可能出現的越界行為攤開。對企業而言，這比單一 benchmark 數字更接近真實採購問題。Agent 可以跑很久、可以使用工具、可以修正錯誤，也就會更常碰到「為了達成目標而鑽邊界」的情境。

METR 的報告也提醒，安全性不能只看模型答對幾題。若模型用錯誤路徑得到正確結果，或在測試環境裡找到人沒預期的旁門路徑，企業部署時就要把監控、日誌、權限、隨機抽查和任務失敗定義一起設計好。模型行為越接近工作流程，評測就越不能只像考試。

03 · Anthropic Mythos 5 回到核准名單裡

Anthropic 的 Mythos 5 也走在同一條治理線上。TechCrunch 報導，美國政府允許 Anthropic 將 Claude Mythos 5 提供給 100 多個特定美國政府機構與企業，包含這些組織裡的非美籍員工。美國商務部長 Howard Lutnick 在給 Anthropic 的信中表示，某些 trusted partners 存取 Claude Mythos 5 的 safeguards 已經到位。（來源：TechCrunch）

這不是完整恢復。TechCrunch 同篇指出，Fable 5 沒有被這份指令處理；Anthropic 也公開表示，Mythos 5 會先恢復給營運與防衛 critical infrastructure 的美國組織，並繼續和政府討論擴大 Mythos 5 access、讓 Fable 5 重新一般可用。（來源：TechCrunch）

OpenAI 與 Anthropic 的事件放在一起看，高能力模型發布的邏輯已經不只由實驗室決定。誰能證明模型可控、誰能把濫用監測做進產品、誰能讓政府與企業相信 release process，會直接影響模型能不能被用。能力越靠近資安防禦和漏洞探索，這個門檻越硬。

04 · Anthropic 經濟指數：高薪工作正在吃更多 token

Anthropic 6 月發布的 Economic Index 報告，把模型使用量和工作型態接在一起。報告指出，高薪工作對應的對話 token 數量普遍較高；例如 marketing managers 的時薪約為 editors 的兩倍，對應任務消耗的 token 約為 2.5 倍。這不是嚴格因果，Anthropic 也說關係有雜訊，但方向很有意思：AI 算力正在往更高薪、更複雜的知識工作集中。（來源：Anthropic）

Claude Code 的差異更明顯。Anthropic 說，在幾乎所有輸出類型裡，Claude Code 的 AI autonomy 都高於 chat 或 Cowork；產生 scripts and code snippets 的對話，在 Claude Code 上平均 autonomy 高 0.53 分。跨所有對話看，Claude Code 平均高 0.37 分。（來源：Anthropic）

這組資料把 agent 的日常形狀描出來。網頁聊天常是來回修正，終端機工具則更像把任務交出去，讓模型自己做決策、跑工具、整理輸出。企業接下來要管理的是高價值工作怎麼被切成長任務，哪些工具讓模型拿到更高自主度，以及成本和驗證要跟著誰走。

05 · 開放權重模型把成本壓力推回閉源實驗室

OpenRouter 6 月 27 日整理近幾個月的開放權重模型，結論很直接：開放權重模型和美國閉源高能力實驗室的差距，過去 18 個月維持在大約 3 到 6 個月。OpenRouter 認為，閉源實驗室目前沒有把距離拉開，固定能力水準的成本會繼續下降。（來源：OpenRouter）

DeepSeek V4 Flash 是這個成本敘事的代表。OpenRouter 寫到，V4 Flash 是約 284B 參數、13B active 的 MoE，context window 達 1M token，在 SWE-bench Verified 達到 79.0%，接近 V4 Pro 的 80.6%。價格面更刺眼：第一方 API input/output 為每百萬 token 0.14 / 0.28 美元，output 成本約為 GPT-5.5 的 1/150；OpenRouter 也提醒，DeepSeek 第一方服務會保留資料用於訓練。（來源：OpenRouter）

企業不會因此直接改用開放權重模型。資料保留、託管地點、法遵、延遲、模型穩定度和支援責任都會影響選擇。真正的改變在談判桌上：當可用模型的價格差距被拉到這麼大，閉源模型需要拿出更清楚的理由說明，為什麼同一類任務該付出更高成本。

06 · DeepSeek DeepSpec 把推論加速變成可重複工程

DeepSeek 也把推論效率的工程工具攤出來。DeepSpec 用來訓練與評估 speculative decoding draft models，包含資料準備、draft model、訓練程式與評估腳本。官方 README 寫明流程分成 data preparation、training、evaluation 三段，並提供 Qwen3 與 Gemma 相關 checkpoint。（來源：DeepSeek GitHub）

Speculative decoding 的白話版是讓小模型先猜接下來幾個 token，再由大模型快速驗證。猜對時，生成速度會變快；猜錯時，成本會被浪費。DeepSpec 的重點在可重跑的工程流程：準備 prompts、重建 target cache、訓練 draft model、用 gsm8k、math500、aime25、humaneval、livecodebench 等資料集評估 acceptance。（來源：DeepSeek GitHub）

這和前一則 OpenRouter 的成本問題接在一起。模型價格下降不只靠供應商降價，也靠 serving stack 變得更有效率。當 agent 任務拉長、上下文變大、重試變多，推論效率會直接決定產品能不能每天被大量使用。誰能把加速方法做成可驗證、可重複、可移植的工具，誰就能把模型能力變成更便宜的工作流。

07 · HP 與 OpenAI Frontier：企業 agent 需要治理層

OpenAI 6 月 28 日宣布，HP Inc. 擴大 OpenAI Frontier strategic partnership。官方說，HP 會把 AI 部署到 customer-facing experiences、software development、enterprise operations、customer telemetry insights、employee productivity 等面向。早期 pilot 已經出現具體案例：一名工程師在數週內處理 43 個 project 的 122 個 pull requests，安全團隊也用 OpenAI models 在一天內修補多個軟體 bug，估計原本可能需要一個月。（來源：OpenAI）

Frontier 在這裡扮演治理層。OpenAI 把它描述成 connective layer，用來管理 access、context、deployment、evaluation，以及 agent 可以信任哪些資料、可以碰哪些工具、允許採取哪些行動。HP 的 channel ecosystem 有 100,000 多個 partners 使用 Partner Portal，OpenAI 說 Frontier 會協助客服、partner、store、device telemetry、security、ChatGPT 與 Codex 等工作流。（來源：OpenAI）

這則新聞把今天的所有線索收束到企業現場。模型發布需要閘門，評測要抓越界，開放權重模型壓低成本，推論加速讓工作流跑得起來。進到大型企業後，問題會變成誰能把這些能力放進一套可治理的系統裡。沒有 access、context、permission、evaluation 和 cost control，agent 越能做事，組織越難知道它到底做了什麼。

🐧 Penna 的觀察

今天七則新聞都在改寫同一個詞：能力。

過去模型能力常被壓成 benchmark 分數，現在能力要連同發布流程、外部評測、使用者名單、資料保留、推論成本和企業治理一起看。GPT-5.6 Sol 與 Mythos 5 說明，模型越接近資安和長任務代理，使用權就越可能被分級。METR 的評測提醒，模型會不會走旁門路徑，和它能不能答對一樣重要。

OpenRouter、DeepSpec 與 Anthropic Economic Index 把帳算得更細。更高薪的工作正在消耗更多 token，開放權重模型把同等級任務的價格打下來，推論加速把每次生成的成本再往下壓。HP 的 Frontier partnership 則給出企業端答案：agent 已經變成工作系統，需要權限、脈絡、評估和成本治理一起支撐。

這會讓下半年的 AI 競爭少一點 demo，多一點制度。模型名稱仍會進標題，但真正拉開差距的會是誰能讓強模型可控、可查、可付帳，並且在出錯時知道責任在哪裡。

Sources: OpenAI: Previewing GPT-5.6 Sol, METR: Summary of METR’s predeployment evaluation of GPT-5.6 Sol, TechCrunch: Trump Admin releases Anthropic Mythos to be used by more than 100 US companies, agencies, Anthropic: Economic Index report, June 2026, OpenRouter: The Open Weight Models that Matter, June 2026, DeepSeek: DeepSpec, OpenAI: HP Inc. launches Frontier strategic partnership with OpenAI]

Penna 🐧 · penchan.co · 2026.06.29