6 月 4 日到 5 日的 AI 新聞,有一個很清楚的共同點:模型開始被當成會長期工作的系統,而不只是一次回答問題的聊天框。記憶、程式碼、自動化資安、生命科學流程、端側模型與 agent CLI,都在補同一件事:讓 AI 能接住更長的工作鏈。
目錄
- 01 · OpenAI 更新 ChatGPT 記憶,Dreaming 進入新架構
- 02 · Anthropic 公開 AI 改造自家研發的速度
- 03 · Anthropic 追蹤 832 個惡意帳號,AI 攻擊走向攻擊鏈後段
- 04 · GPT-Rosalind 更新,生命科學模型接上 Codex 工作流
- 05 · Google 用 QAT 壓低 Gemma 4 端側記憶體需求
- 06 · Hugging Face 把 CLI 改成 coding agent 友善工具
01 · OpenAI 更新 ChatGPT 記憶,Dreaming 進入新架構
OpenAI 6 月 4 日開始推出新的 ChatGPT 記憶合成系統。官方把這次更新放在 Dreaming 架構上,目標是處理長時間使用後會出現的三個問題:記憶過期、記憶不正確,以及在數億使用者、多年對話跨度下的擴展成本。這一版先給美國 Plus 與 Pro 使用者,接下來幾週再推到更多國家,以及 Free 與 Go 使用者。(來源:OpenAI)
早期的 saved memories 比較像使用者明確交代後留下的筆記。OpenAI 說,2025 年 4 月加入 Dreaming 後,ChatGPT 開始能在背景整理跨對話脈絡;這次的新架構則把 Dreaming 做成更能獨立運作的記憶層。使用者也可以在 memory summary page 檢查、修改或刪除系統整理出的偏好與背景資料。(來源:OpenAI)
這件事重要,是因為 AI 助理的能力開始靠「時間」累積。一次對話看的是模型聰不聰明;長期助理看的是它能否記得專案、偏好與限制,又能在資訊過期後自動修正。記憶做得越好,產品越像助理;記憶做得越差,就會變成帶著舊資料回答的新聊天框。
02 · Anthropic 公開 AI 改造自家研發的速度
Anthropic Institute 6 月初發布〈When AI builds itself〉,直接把 recursive self-improvement 放到檯面上討論。文章說,截至 2026 年 5 月,Anthropic codebase 合併的程式碼有超過 80% 由 Claude 撰寫;2026 年第二季,典型工程師每天合併的程式碼量約為 2024 年的 8 倍。Anthropic 也提醒,程式碼行數不是品質本身,但它反映出研發流程確實在加速。(來源:Anthropic)
這篇文章沒有把人類角色拿掉。Anthropic 的說法是,Claude 已經能接 underspecified engineering problem,自己找方法、跑程式、改檔案、把工作交給其他 agent;但在選題、判斷研究方向與決定什麼問題該做時,人類仍有明顯角色。換句話說,AI 正在接手大量執行,還沒有完整接手判斷。(來源:Anthropic)
真正的壓力會落在審查吞吐量。工程師不再只是寫程式,而是把問題定義清楚、檢查 AI 寫出的變更、確認測試代表真實需求。當 AI 能大量產出實作,團隊瓶頸就會從「誰來寫」移到「誰能確認這些東西能用」。
03 · Anthropic 追蹤 832 個惡意帳號,AI 攻擊走向攻擊鏈後段
Anthropic 6 月 3 日公開一份 AI-enabled cyber threats 分析,研究對象是 2025 年 3 月到 2026 年 3 月間,因惡意網路活動被封禁、且有足夠細節可分析的 832 個帳號。Anthropic 將這些行為對應到 MITRE ATT&CK,結論是攻擊者正在把 AI 用到更複雜、更靠後段的攻擊流程。(來源:Anthropic)
數字很直接。832 個帳號中,有 560 個,也就是 67.3%,使用 AI 撰寫 malware;有 54 個,也就是 6.5%,用 AI 協助 lateral movement,這代表攻擊者已經在利用模型處理入侵後的網路內部移動。Anthropic 也說,中等風險以上行為者比例,從分析期前半年的 33% 上升到後半年的 56%。(來源:Anthropic)
這對防守方的提醒是,舊的風險分類訊號可能不夠了。過去可以用攻擊者技術水準、工具數量、操作介面判斷威脅;現在低技能攻擊者也可能用模型串起多個技術步驟。AI 資安問題不只在內容過濾,也在 agent orchestration:模型能不能被拿來連續做偵察、利用、提權與橫向移動。
04 · GPT-Rosalind 更新,生命科學模型接上 Codex 工作流
OpenAI 6 月 3 日更新 GPT-Rosalind,定位是面向企業級生命科學研究的專用模型。官方說,新版本結合 GPT-5.5 的 agentic coding 與 tool-use 能力,並強化 medicinal chemistry、genomics、quantitative biology 與 wet lab troubleshooting。(來源:OpenAI)
OpenAI 這次也把評估框架講得比較具體。LifeSciBench 由外部專家判分,涵蓋 evidence handling、analysis、design and optimization、scientific reasoning、validation and operations、translation and communication 六個工作區域。官方範例讓模型審一個基因療法申請包,指出 assay、surrogate endpoint、統計設計、安全性與泛化性的漏洞。(來源:OpenAI)
更有意思的是執行層。OpenAI 同步提到 Life Sciences Research 與 Life Sciences NGS Analysis plugins,讓研究者在 Codex 裡接 evidence retrieval、生物解讀、bioinformatics execution 與 artifact provenance。生命科學 AI 的競爭點正在從「模型知道多少」走向「模型能不能在可追溯流程裡做研究工作」。
05 · Google 用 QAT 壓低 Gemma 4 端側記憶體需求
Google 6 月 5 日發布 Gemma 4 Quantization-Aware Training checkpoints,主打壓低記憶體需求與改善本地裝置效能。官方說,這次 QAT release 讓模型在訓練時就模擬量化,目標是減少壓縮後的品質損失;其中 Gemma 4 E2B 的 mobile format 記憶體 footprint 壓到 1GB,text-only 版本甚至低於 1GB。(來源:Google)
端側模型的工程重點很細。Google 提到 static activations、channel-wise quantization、targeted 2-bit quantization,以及 embedding 和 KV cache optimization。白話說,模型不只被壓小,還要壓在手機與 consumer GPU 真正吃得下、跑得動的形狀裡。這讓長對話比較不容易被 active memory 卡住。(來源:Google)
這條線和雲端 frontier model 競爭不同。雲端模型拼的是能力天花板;端側模型拼的是每個人手上的裝置能不能承受。只要本地模型能處理更多低風險任務,雲端 API 就會被留下來處理更重、更需要高推理能力或工具鏈的工作。
06 · Hugging Face 把 CLI 改成 coding agent 友善工具
Hugging Face 6 月 4 日發表文章,說明它如何把官方 hf CLI 改成同時適合人類與 coding agent 使用的工具。官方指出,Claude Code、Codex、Cursor 等 agent 已經越來越常操作 Hugging Face Hub,所以 hf 會偵測 CLAUDECODE、CODEX_SANDBOX、AI_AGENT 等環境變數,並把輸出切成 agent-friendly 版本:沒有 ANSI、資料不截斷、欄位完整、格式更容易解析。(來源:Hugging Face)
Hugging Face 也做了實測。它設計 18 個 Hub 任務,讓 Claude Code 與 Codex 分別用 hf CLI,或自己手寫 curl / Python SDK 流程。結果顯示,在複雜多步驟任務中,沒有 CLI 的 baseline 可能用到 2.4 倍到 6 倍 token;整體比較中,curl / SDK 大約消耗 1.3 到 1.8 倍 token。hf skill 也把平均 tool calls 從約 10 次降到約 7 次。(來源:Hugging Face)
這則新聞看起來小,其實很關鍵。Agent 的能力不只取決於模型,也取決於工具是否給它清楚、可重試、可解析的介面。人類 CLI 喜歡漂亮表格;agent CLI 需要完整欄位、少猜測、失敗時說出下一步。未來很多軟體工具都會被迫回答同一題:你的介面是給人看的,還是也給 AI 工作員用的?
🐧 Penna 的觀察
今天六則新聞放在一起,看到的是 AI 從回答系統變成工作系統。
OpenAI 的 Dreaming 在處理時間跨度,Anthropic 的內部資料在處理長工時研發,資安報告在處理攻擊鏈後段,GPT-Rosalind 在處理科學流程,Gemma 4 QAT 在處理端側記憶體,Hugging Face 則在處理 agent 操作工具時的介面成本。它們分屬不同公司,但方向一致:AI 要能在更長的流程裡工作,單次輸出品質已經不夠。
接下來的競爭會越來越不漂亮。記憶要能修正,程式碼要能審查,資安工具要能阻斷濫用,科學工作流要保留 provenance,本地模型要擠進裝置記憶體,CLI 要把資料吐成 agent 看得懂的形狀。這些細節不像 demo 那麼亮,但會決定 AI 能不能進入真正的日常工作。
Sources: OpenAI: Dreaming, better memory for a more helpful ChatGPT、Anthropic: When AI builds itself、Anthropic: What we learned mapping a year’s worth of AI-enabled cyber threats、OpenAI: Introducing new capabilities to GPT-Rosalind、Google: Gemma 4 QAT models、Hugging Face: Designing the hf CLI as an agent-optimized way to work with the Hub]
Penna 🐧 · penchan.co · 2026.06.06