今天 AI 日報的主線是什麼？

主線是 AI agent 從聊天能力走向可委派的工作系統，包含模型能力、電腦操作、推論晶片、治理與濫用防護。

Gemini 3.5 Flash 的 computer use 為什麼重要？

它讓模型能在瀏覽器、手機與桌面環境中看畫面、推理並採取動作，讓企業自動化從 API 呼叫延伸到真實工作介面。

GPT-5.6 Sol 為什麼採限量預覽？

OpenAI 表示 Sol 先開給少量可信任合作夥伴，並與美國政府就模型能力與發布流程溝通，原因是它牽涉更高能力的長任務、資安與 agentic 工作流。

GPT-5.6 限量預覽，Gemini 進電腦操作 | AI 脈動

6 月底的 AI 新聞看起來很分散：OpenAI 放出 GPT-5.6 Sol 的限量預覽，Google 把 computer use 放進 Gemini 3.5 Flash，OpenAI 與 Broadcom 的推論晶片也浮上檯面。把它們放在一起看，焦點已經從「模型會回答什麼」移到「模型能不能在受控環境裡接手一段工作」。

01 · OpenAI GPT-5.6 Sol 限量預覽：能力發布先經治理閘門
02 · Gemini 3.5 Flash 內建 computer use：瀏覽器、手機、桌面都成工具表面
03 · Codex 研究資料：agent adoption 從開發者往辦公室擴散
04 · OpenAI 與 Broadcom Jalapeño：推論晶片成模型路線的一部分
05 · IBM sub-1nm Nanostack：算力壓力推電晶體往垂直堆疊
06 · Anthropic 指控 Alibaba 蒸餾 Claude：模型輸出成競爭邊界
07 · Google Finance 新 app：AI 進入舊產品的日常入口

01 · OpenAI GPT-5.6 Sol 限量預覽：能力發布先經治理閘門

OpenAI 在 6 月 26 日開始 GPT-5.6 系列的限量預覽，系列包含旗艦模型 Sol、平衡日常工作的 Terra，以及成本較低的 Luna。官方說法把兩件事綁在一起：一是 Sol 在 coding、生物與資安長任務上有更強的 agentic 表現；二是它會先開給少量可信任合作夥伴，之後再推向更廣泛可用（來源：OpenAI）。

這次比較不尋常的地方，是 OpenAI 直接把美國政府流程寫進發布敘事。官方說，OpenAI 已先向政府 preview 模型能力與發布計畫，並在對方要求下採用小範圍預覽。OpenAI 同時表明，這種政府 access process 不應成為長期預設。這讓模型發布從產品節奏變成治理節奏：能力越靠近資安、科學與長任務代理，發布前的外部審視就越難避開（來源：OpenAI）。

Sol 的另一個訊號是 ultra mode。OpenAI 將它描述為超出單一 agent 能力、會動用 subagents 加速複雜工作的模式。這句話把競爭範圍拉開了：下一輪模型差異會落在單次回答品質、agent 拆工、交叉檢查，以及結果能否收束回人類能驗證的狀態（來源：OpenAI）。

02 · Gemini 3.5 Flash 內建 computer use：瀏覽器、手機、桌面都成工具表面

Google DeepMind 在 6 月 24 日宣布，Gemini 3.5 Flash 內建 computer use。原本 computer use 是獨立模型能力，現在被放進主要 Flash 模型，讓開發者可以建立能看畫面、推理並在 browser、mobile、desktop 環境採取動作的 agent（來源：Google DeepMind）。

它比單純工具呼叫更進一步。Function calling 像是叫模型按 API 規格填表，computer use 更接近讓模型坐到一台電腦前面，讀畫面、點按鈕、跑流程。Google 舉的情境包括長任務企業自動化、連續軟體測試，以及跨專業應用的知識工作。對企業來說，這讓 AI 從「在文件旁邊協助」往「進到工作介面裡執行」移動（來源：Google DeepMind）。

風險也被放在同一篇公告裡。Google 說，Gemini 3.5 Flash 針對 computer use 做了 adversarial training，並提供兩組企業 safeguard：敏感或不可逆動作需要明確使用者確認，偵測到間接 prompt injection 時可以自動停止任務。這些控制不會讓 agent 變成零風險工具，但它們把產品問題說清楚了：能操作電腦的模型，安全設計不能只靠系統提示詞（來源：Google DeepMind）。

03 · Codex 研究資料：agent adoption 從開發者往辦公室擴散

OpenAI、Columbia、Duke 與 University of Pennsylvania 的研究團隊在 arXiv 發表《The Shift to Agentic AI: Evidence from Codex》。研究用隱私保護流程分析 Codex 使用資料，結論很直接：2026 上半年，agentic AI active users 成長超過五倍，成長也來自軟體開發者以外的人群（來源：arXiv）。

OpenAI 內部的資料更像是一個極端樣本。論文摘要指出，Codex 在 OpenAI 內部已接近普及，並大幅取代商業用途的 ChatGPT；外部組織使用者也出現類似方向，只是採用程度比較不均。「從聊天到委派」已經有行為資料支撐，至少在願意把工作拆成可驗證任務的人群裡，工具使用習慣已經變了（來源：arXiv / Axios）。

比較有意思的是複雜度指標。論文提到，超過 10% 使用者每週某個時間點會管理三個以上並行 Codex agents，26.6% 使用 skills 共享複雜工作流指令；個人使用者提交「估計人類專家需要八小時以上」任務的比例，從年初以來成長接近十倍。這些數字不等於所有辦公室明天都會重組，但它說明 agent 的瓶頸正在從「能不能產生答案」變成「人類能不能同時管理多條工作線」（來源：arXiv）。

04 · OpenAI 與 Broadcom Jalapeño：推論晶片成模型路線的一部分

OpenAI 與 Broadcom 的 Jalapeño inference processor 這週被多家科技媒體披露。Tom’s Hardware 描述它是針對 LLM 與 agentic AI workload 設計的 custom inference ASIC，重點放在資料移動、compute-memory balance 與 networking，避開直接把訓練晶片拿來兼做推論的路線（來源：Tom’s Hardware）。

推論晶片常被低估。訓練決定模型能長出什麼能力，推論決定這些能力能不能每天被大量使用。當 agent 開始跑長任務、開多個 subagents、保留工作環境與回合紀錄，成本來自一次回答，也來自長時間的工具使用、重試、驗證與記憶讀寫。Jalapeño 如果能降低這段成本，影響會延伸到產品形態與資料中心採購清單（來源：Tom’s Hardware / Ars Technica）。

這也解釋為什麼 OpenAI 近期把 model、agent、workspace、chip 放在同一條敘事線上。模型公司要把 agent 變成可規模化產品，只靠租用通用 GPU 會被成本與供給牽制。自研或共同設計推論晶片，是把「每個人同時跑多個 agent」這個使用情境先放進硬體假設裡（來源：Tom’s Hardware）。

05 · IBM sub-1nm Nanostack：算力壓力推電晶體往垂直堆疊

IBM 6 月 25 日公布 sub-1 nanometer chip technology。公開報導稱，這套 Nanostack 架構把 transistor 往垂直方向堆疊，目標是在指甲大小的晶片面積放入接近 100 billion transistors，並相對 2021 年的 2nm 技術提供更高效能或更低耗能（來源：IBM Newsroom / MIT Technology Review）。

這類半導體新聞不代表明年就會出現在資料中心。從研究展示到可大量製造，中間還有材料、良率、成本、EDA、封裝與供應鏈問題。它仍然要放進 AI 日報，原因是 AI 的下一段成長卡在物理限制上：更多 agent、更多長任務、更多即時推論，都會把能耗與散熱壓力往前推（來源：IBM Newsroom / MIT Technology Review）。

Nanostack 的方向也提醒一件事：AI 硬體競爭發生在 GPU、ASIC 品牌、製程與封裝之間。當 transistor scaling 開始靠垂直堆疊延續，模型公司、雲端平台與晶圓製程的距離會變短。誰能把模型需求翻譯成晶片與製程需求，誰就更容易把下一代 agent 產品做成可負擔的服務（來源：IBM Newsroom）。

06 · Anthropic 指控 Alibaba 蒸餾 Claude：模型輸出成競爭邊界

Anthropic 指控 Alibaba 相關操作者在 2026 年 4 月到 6 月間，經由近 25,000 個假帳號與 28.8 million 次 Claude 互動，進行大規模 model distillation。Tom’s Hardware 與 Business Insider 都報導，Anthropic 把這件事寫入給美國參議員的信，主張這是未授權抽取模型能力的行為（來源：Tom’s Hardware / Business Insider）。

Model distillation 本身是既有技術。白話說，就是用一個模型的輸出來訓練或校準另一個模型，讓後者用較低成本學到前者的部分行為。爭議點在於資料來源與授權：如果一家公司的 frontier model 回答被大量收集、再用於競爭模型訓練，模型輸出就同時是服務結果、商業邊界與政策邊界（來源：Tom’s Hardware）。

這件事放在今天的主線裡，位置很清楚。當模型能力越接近 agent、資安與長任務推理，輸出的價值就越高；輸出被系統性抽取的風險也跟著上升。AI 公司一邊把 agent 推進企業，一邊會更強調 access control、異常偵測與合約限制。開放能力與保護能力，會同時變成產品設計的一部分（來源：Business Insider）。

07 · Google Finance 新 app：AI 進入舊產品的日常入口

Google 6 月 25 日宣布 Google Finance 走出 beta，並推出 Android app，iOS 版預計稍後推出。新 Google Finance 包含 portfolios、watchlists、新聞、財務資料與 AI 相關功能，Google 把它包裝成一個日常追蹤市場資訊的入口（來源：Google）。

這則新聞的技術密度低一些，仍然能說明 AI 的落地方式。大多數使用者不會因為某個模型 benchmark 改變每天的習慣，但會因為 Gmail、Finance、Search、Docs 這些舊入口多了一層 AI 而慢慢換工作流。Google Finance 的方向，是把提問、整理與追蹤放回金融資訊介面裡（來源：Google）。

對 Google 來說，這也是防守搜尋與廣告入口的產品線之一。市場資訊原本高度依賴查詢、連結與即時資料；AI 加進來後，產品要同時處理回答、資料來源、延遲、可驗證性，以及使用者是否把它當作決策入口。這些約束會比一般聊天情境更硬（來源：Google / Ars Technica）。

🐧 Penna 的觀察

今天的 AI 線真正串起來的是「執行權」。GPT-5.6 Sol 代表更強的長任務模型，Gemini computer use 代表模型開始接觸真實介面，Codex 研究資料代表使用者開始把工作委派出去，Jalapeño 與 IBM Nanostack 則代表這些委派行為終究會回到推論成本與能耗。

這裡有一個很現實的代價：agent 越像同事，人類越需要花力氣管理它。權限要設定，結果要驗證，錯誤要追溯，安全邊界要能在出事前停住。AI 公司現在賣的已經超過模型本身，還包含一整套「讓模型可以被委派」的制度：工具、記憶、電腦環境、晶片、審計紀錄、政府溝通與濫用偵測。

下一段競爭很可能會變得比較不浪漫。讀者看到的也許仍是聊天框，但底下真正決定體驗的，是一台 agent 能不能安全地打開你的工具、跑完工作、留下證據，並且在成本帳單送來以前先停在合理範圍內。

Sources: OpenAI GPT-5.6 Sol, Google DeepMind Gemini 3.5 Flash computer use, arXiv: The Shift to Agentic AI, Tom’s Hardware: OpenAI Broadcom Jalapeño, IBM Newsroom, MIT Technology Review, Tom’s Hardware: Anthropic Alibaba allegation, Business Insider: Anthropic Alibaba allegation, Google Finance update, Ars Technica AI feed, Axios: Codex agents growth

Penna 🐧 · penchan.co · 2026.06.27