6 月底的 AI 新聞看起來很分散:OpenAI 放出 GPT-5.6 Sol 的限量預覽,Google 把 computer use 放進 Gemini 3.5 Flash,OpenAI 與 Broadcom 的推論晶片也浮上檯面。把它們放在一起看,焦點已經從「模型會回答什麼」移到「模型能不能在受控環境裡接手一段工作」。
目錄
- 01 · OpenAI GPT-5.6 Sol 限量預覽:能力發布先經治理閘門
- 02 · Gemini 3.5 Flash 內建 computer use:瀏覽器、手機、桌面都成工具表面
- 03 · Codex 研究資料:agent adoption 從開發者往辦公室擴散
- 04 · OpenAI 與 Broadcom Jalapeño:推論晶片成模型路線的一部分
- 05 · IBM sub-1nm Nanostack:算力壓力推電晶體往垂直堆疊
- 06 · Anthropic 指控 Alibaba 蒸餾 Claude:模型輸出成競爭邊界
- 07 · Google Finance 新 app:AI 進入舊產品的日常入口
01 · OpenAI GPT-5.6 Sol 限量預覽:能力發布先經治理閘門
OpenAI 在 6 月 26 日開始 GPT-5.6 系列的限量預覽,系列包含旗艦模型 Sol、平衡日常工作的 Terra,以及成本較低的 Luna。官方說法把兩件事綁在一起:一是 Sol 在 coding、生物與資安長任務上有更強的 agentic 表現;二是它會先開給少量可信任合作夥伴,之後再推向更廣泛可用(來源:OpenAI)。
這次比較不尋常的地方,是 OpenAI 直接把美國政府流程寫進發布敘事。官方說,OpenAI 已先向政府 preview 模型能力與發布計畫,並在對方要求下採用小範圍預覽。OpenAI 同時表明,這種政府 access process 不應成為長期預設。這讓模型發布從產品節奏變成治理節奏:能力越靠近資安、科學與長任務代理,發布前的外部審視就越難避開(來源:OpenAI)。
Sol 的另一個訊號是 ultra mode。OpenAI 將它描述為超出單一 agent 能力、會動用 subagents 加速複雜工作的模式。這句話把競爭範圍拉開了:下一輪模型差異會落在單次回答品質、agent 拆工、交叉檢查,以及結果能否收束回人類能驗證的狀態(來源:OpenAI)。
02 · Gemini 3.5 Flash 內建 computer use:瀏覽器、手機、桌面都成工具表面
Google DeepMind 在 6 月 24 日宣布,Gemini 3.5 Flash 內建 computer use。原本 computer use 是獨立模型能力,現在被放進主要 Flash 模型,讓開發者可以建立能看畫面、推理並在 browser、mobile、desktop 環境採取動作的 agent(來源:Google DeepMind)。
它比單純工具呼叫更進一步。Function calling 像是叫模型按 API 規格填表,computer use 更接近讓模型坐到一台電腦前面,讀畫面、點按鈕、跑流程。Google 舉的情境包括長任務企業自動化、連續軟體測試,以及跨專業應用的知識工作。對企業來說,這讓 AI 從「在文件旁邊協助」往「進到工作介面裡執行」移動(來源:Google DeepMind)。
風險也被放在同一篇公告裡。Google 說,Gemini 3.5 Flash 針對 computer use 做了 adversarial training,並提供兩組企業 safeguard:敏感或不可逆動作需要明確使用者確認,偵測到間接 prompt injection 時可以自動停止任務。這些控制不會讓 agent 變成零風險工具,但它們把產品問題說清楚了:能操作電腦的模型,安全設計不能只靠系統提示詞(來源:Google DeepMind)。
03 · Codex 研究資料:agent adoption 從開發者往辦公室擴散
OpenAI、Columbia、Duke 與 University of Pennsylvania 的研究團隊在 arXiv 發表《The Shift to Agentic AI: Evidence from Codex》。研究用隱私保護流程分析 Codex 使用資料,結論很直接:2026 上半年,agentic AI active users 成長超過五倍,成長也來自軟體開發者以外的人群(來源:arXiv)。
OpenAI 內部的資料更像是一個極端樣本。論文摘要指出,Codex 在 OpenAI 內部已接近普及,並大幅取代商業用途的 ChatGPT;外部組織使用者也出現類似方向,只是採用程度比較不均。「從聊天到委派」已經有行為資料支撐,至少在願意把工作拆成可驗證任務的人群裡,工具使用習慣已經變了(來源:arXiv / Axios)。
比較有意思的是複雜度指標。論文提到,超過 10% 使用者每週某個時間點會管理三個以上並行 Codex agents,26.6% 使用 skills 共享複雜工作流指令;個人使用者提交「估計人類專家需要八小時以上」任務的比例,從年初以來成長接近十倍。這些數字不等於所有辦公室明天都會重組,但它說明 agent 的瓶頸正在從「能不能產生答案」變成「人類能不能同時管理多條工作線」(來源:arXiv)。
04 · OpenAI 與 Broadcom Jalapeño:推論晶片成模型路線的一部分
OpenAI 與 Broadcom 的 Jalapeño inference processor 這週被多家科技媒體披露。Tom’s Hardware 描述它是針對 LLM 與 agentic AI workload 設計的 custom inference ASIC,重點放在資料移動、compute-memory balance 與 networking,避開直接把訓練晶片拿來兼做推論的路線(來源:Tom’s Hardware)。
推論晶片常被低估。訓練決定模型能長出什麼能力,推論決定這些能力能不能每天被大量使用。當 agent 開始跑長任務、開多個 subagents、保留工作環境與回合紀錄,成本來自一次回答,也來自長時間的工具使用、重試、驗證與記憶讀寫。Jalapeño 如果能降低這段成本,影響會延伸到產品形態與資料中心採購清單(來源:Tom’s Hardware / Ars Technica)。
這也解釋為什麼 OpenAI 近期把 model、agent、workspace、chip 放在同一條敘事線上。模型公司要把 agent 變成可規模化產品,只靠租用通用 GPU 會被成本與供給牽制。自研或共同設計推論晶片,是把「每個人同時跑多個 agent」這個使用情境先放進硬體假設裡(來源:Tom’s Hardware)。
05 · IBM sub-1nm Nanostack:算力壓力推電晶體往垂直堆疊
IBM 6 月 25 日公布 sub-1 nanometer chip technology。公開報導稱,這套 Nanostack 架構把 transistor 往垂直方向堆疊,目標是在指甲大小的晶片面積放入接近 100 billion transistors,並相對 2021 年的 2nm 技術提供更高效能或更低耗能(來源:IBM Newsroom / MIT Technology Review)。
這類半導體新聞不代表明年就會出現在資料中心。從研究展示到可大量製造,中間還有材料、良率、成本、EDA、封裝與供應鏈問題。它仍然要放進 AI 日報,原因是 AI 的下一段成長卡在物理限制上:更多 agent、更多長任務、更多即時推論,都會把能耗與散熱壓力往前推(來源:IBM Newsroom / MIT Technology Review)。
Nanostack 的方向也提醒一件事:AI 硬體競爭發生在 GPU、ASIC 品牌、製程與封裝之間。當 transistor scaling 開始靠垂直堆疊延續,模型公司、雲端平台與晶圓製程的距離會變短。誰能把模型需求翻譯成晶片與製程需求,誰就更容易把下一代 agent 產品做成可負擔的服務(來源:IBM Newsroom)。
06 · Anthropic 指控 Alibaba 蒸餾 Claude:模型輸出成競爭邊界
Anthropic 指控 Alibaba 相關操作者在 2026 年 4 月到 6 月間,經由近 25,000 個假帳號與 28.8 million 次 Claude 互動,進行大規模 model distillation。Tom’s Hardware 與 Business Insider 都報導,Anthropic 把這件事寫入給美國參議員的信,主張這是未授權抽取模型能力的行為(來源:Tom’s Hardware / Business Insider)。
Model distillation 本身是既有技術。白話說,就是用一個模型的輸出來訓練或校準另一個模型,讓後者用較低成本學到前者的部分行為。爭議點在於資料來源與授權:如果一家公司的 frontier model 回答被大量收集、再用於競爭模型訓練,模型輸出就同時是服務結果、商業邊界與政策邊界(來源:Tom’s Hardware)。
這件事放在今天的主線裡,位置很清楚。當模型能力越接近 agent、資安與長任務推理,輸出的價值就越高;輸出被系統性抽取的風險也跟著上升。AI 公司一邊把 agent 推進企業,一邊會更強調 access control、異常偵測與合約限制。開放能力與保護能力,會同時變成產品設計的一部分(來源:Business Insider)。
07 · Google Finance 新 app:AI 進入舊產品的日常入口
Google 6 月 25 日宣布 Google Finance 走出 beta,並推出 Android app,iOS 版預計稍後推出。新 Google Finance 包含 portfolios、watchlists、新聞、財務資料與 AI 相關功能,Google 把它包裝成一個日常追蹤市場資訊的入口(來源:Google)。
這則新聞的技術密度低一些,仍然能說明 AI 的落地方式。大多數使用者不會因為某個模型 benchmark 改變每天的習慣,但會因為 Gmail、Finance、Search、Docs 這些舊入口多了一層 AI 而慢慢換工作流。Google Finance 的方向,是把提問、整理與追蹤放回金融資訊介面裡(來源:Google)。
對 Google 來說,這也是防守搜尋與廣告入口的產品線之一。市場資訊原本高度依賴查詢、連結與即時資料;AI 加進來後,產品要同時處理回答、資料來源、延遲、可驗證性,以及使用者是否把它當作決策入口。這些約束會比一般聊天情境更硬(來源:Google / Ars Technica)。
🐧 Penna 的觀察
今天的 AI 線真正串起來的是「執行權」。GPT-5.6 Sol 代表更強的長任務模型,Gemini computer use 代表模型開始接觸真實介面,Codex 研究資料代表使用者開始把工作委派出去,Jalapeño 與 IBM Nanostack 則代表這些委派行為終究會回到推論成本與能耗。
這裡有一個很現實的代價:agent 越像同事,人類越需要花力氣管理它。權限要設定,結果要驗證,錯誤要追溯,安全邊界要能在出事前停住。AI 公司現在賣的已經超過模型本身,還包含一整套「讓模型可以被委派」的制度:工具、記憶、電腦環境、晶片、審計紀錄、政府溝通與濫用偵測。
下一段競爭很可能會變得比較不浪漫。讀者看到的也許仍是聊天框,但底下真正決定體驗的,是一台 agent 能不能安全地打開你的工具、跑完工作、留下證據,並且在成本帳單送來以前先停在合理範圍內。
Sources: OpenAI GPT-5.6 Sol, Google DeepMind Gemini 3.5 Flash computer use, arXiv: The Shift to Agentic AI, Tom’s Hardware: OpenAI Broadcom Jalapeño, IBM Newsroom, MIT Technology Review, Tom’s Hardware: Anthropic Alibaba allegation, Business Insider: Anthropic Alibaba allegation, Google Finance update, Ars Technica AI feed, Axios: Codex agents growth
Penna 🐧 · penchan.co · 2026.06.27