今天 AI 日報的主線是什麼？

主線是 AI 從單次回答走向長期工作系統。記憶、程式碼、資安、科學流程、端側模型與 agent CLI 都在補長流程工作的基礎設施。

OpenAI 的 Dreaming 記憶更新為什麼重要？

它讓 ChatGPT 的記憶從明確保存的筆記，往背景整理跨對話脈絡的方向前進。長期助理需要能記得偏好，也要能在資料過期後修正。

Anthropic 的 80% Claude 程式碼數據代表什麼？

它顯示 coding agent 已經進入模型公司自己的研發流程。瓶頸會從誰來寫程式，移到誰能定義問題、審查變更並確認測試真的代表需求。

AI 記憶、Claude 研發、端側 Gemma | AI 脈動

6 月 4 日到 5 日的 AI 新聞，有一個很清楚的共同點：模型開始被當成會長期工作的系統，而不只是一次回答問題的聊天框。記憶、程式碼、自動化資安、生命科學流程、端側模型與 agent CLI，都在補同一件事：讓 AI 能接住更長的工作鏈。

01 · OpenAI 更新 ChatGPT 記憶，Dreaming 進入新架構
02 · Anthropic 公開 AI 改造自家研發的速度
03 · Anthropic 追蹤 832 個惡意帳號，AI 攻擊走向攻擊鏈後段
04 · GPT-Rosalind 更新，生命科學模型接上 Codex 工作流
05 · Google 用 QAT 壓低 Gemma 4 端側記憶體需求
06 · Hugging Face 把 CLI 改成 coding agent 友善工具

01 · OpenAI 更新 ChatGPT 記憶，Dreaming 進入新架構

OpenAI 6 月 4 日開始推出新的 ChatGPT 記憶合成系統。官方把這次更新放在 Dreaming 架構上，目標是處理長時間使用後會出現的三個問題：記憶過期、記憶不正確，以及在數億使用者、多年對話跨度下的擴展成本。這一版先給美國 Plus 與 Pro 使用者，接下來幾週再推到更多國家，以及 Free 與 Go 使用者。（來源：OpenAI）

早期的 saved memories 比較像使用者明確交代後留下的筆記。OpenAI 說，2025 年 4 月加入 Dreaming 後，ChatGPT 開始能在背景整理跨對話脈絡；這次的新架構則把 Dreaming 做成更能獨立運作的記憶層。使用者也可以在 memory summary page 檢查、修改或刪除系統整理出的偏好與背景資料。（來源：OpenAI）

這件事重要，是因為 AI 助理的能力開始靠「時間」累積。一次對話看的是模型聰不聰明；長期助理看的是它能否記得專案、偏好與限制，又能在資訊過期後自動修正。記憶做得越好，產品越像助理；記憶做得越差，就會變成帶著舊資料回答的新聊天框。

02 · Anthropic 公開 AI 改造自家研發的速度

Anthropic Institute 6 月初發布〈When AI builds itself〉，直接把 recursive self-improvement 放到檯面上討論。文章說，截至 2026 年 5 月，Anthropic codebase 合併的程式碼有超過 80% 由 Claude 撰寫；2026 年第二季，典型工程師每天合併的程式碼量約為 2024 年的 8 倍。Anthropic 也提醒，程式碼行數不是品質本身，但它反映出研發流程確實在加速。（來源：Anthropic）

這篇文章沒有把人類角色拿掉。Anthropic 的說法是，Claude 已經能接 underspecified engineering problem，自己找方法、跑程式、改檔案、把工作交給其他 agent；但在選題、判斷研究方向與決定什麼問題該做時，人類仍有明顯角色。換句話說，AI 正在接手大量執行，還沒有完整接手判斷。（來源：Anthropic）

真正的壓力會落在審查吞吐量。工程師不再只是寫程式，而是把問題定義清楚、檢查 AI 寫出的變更、確認測試代表真實需求。當 AI 能大量產出實作，團隊瓶頸就會從「誰來寫」移到「誰能確認這些東西能用」。

03 · Anthropic 追蹤 832 個惡意帳號，AI 攻擊走向攻擊鏈後段

Anthropic 6 月 3 日公開一份 AI-enabled cyber threats 分析，研究對象是 2025 年 3 月到 2026 年 3 月間，因惡意網路活動被封禁、且有足夠細節可分析的 832 個帳號。Anthropic 將這些行為對應到 MITRE ATT&CK，結論是攻擊者正在把 AI 用到更複雜、更靠後段的攻擊流程。（來源：Anthropic）

數字很直接。832 個帳號中，有 560 個，也就是 67.3%，使用 AI 撰寫 malware；有 54 個，也就是 6.5%，用 AI 協助 lateral movement，這代表攻擊者已經在利用模型處理入侵後的網路內部移動。Anthropic 也說，中等風險以上行為者比例，從分析期前半年的 33% 上升到後半年的 56%。（來源：Anthropic）

這對防守方的提醒是，舊的風險分類訊號可能不夠了。過去可以用攻擊者技術水準、工具數量、操作介面判斷威脅；現在低技能攻擊者也可能用模型串起多個技術步驟。AI 資安問題不只在內容過濾，也在 agent orchestration：模型能不能被拿來連續做偵察、利用、提權與橫向移動。

04 · GPT-Rosalind 更新，生命科學模型接上 Codex 工作流

OpenAI 6 月 3 日更新 GPT-Rosalind，定位是面向企業級生命科學研究的專用模型。官方說，新版本結合 GPT-5.5 的 agentic coding 與 tool-use 能力，並強化 medicinal chemistry、genomics、quantitative biology 與 wet lab troubleshooting。（來源：OpenAI）

OpenAI 這次也把評估框架講得比較具體。LifeSciBench 由外部專家判分，涵蓋 evidence handling、analysis、design and optimization、scientific reasoning、validation and operations、translation and communication 六個工作區域。官方範例讓模型審一個基因療法申請包，指出 assay、surrogate endpoint、統計設計、安全性與泛化性的漏洞。（來源：OpenAI）

更有意思的是執行層。OpenAI 同步提到 Life Sciences Research 與 Life Sciences NGS Analysis plugins，讓研究者在 Codex 裡接 evidence retrieval、生物解讀、bioinformatics execution 與 artifact provenance。生命科學 AI 的競爭點正在從「模型知道多少」走向「模型能不能在可追溯流程裡做研究工作」。

05 · Google 用 QAT 壓低 Gemma 4 端側記憶體需求

Google 6 月 5 日發布 Gemma 4 Quantization-Aware Training checkpoints，主打壓低記憶體需求與改善本地裝置效能。官方說，這次 QAT release 讓模型在訓練時就模擬量化，目標是減少壓縮後的品質損失；其中 Gemma 4 E2B 的 mobile format 記憶體 footprint 壓到 1GB，text-only 版本甚至低於 1GB。（來源：Google）

端側模型的工程重點很細。Google 提到 static activations、channel-wise quantization、targeted 2-bit quantization，以及 embedding 和 KV cache optimization。白話說，模型不只被壓小，還要壓在手機與 consumer GPU 真正吃得下、跑得動的形狀裡。這讓長對話比較不容易被 active memory 卡住。（來源：Google）

這條線和雲端 frontier model 競爭不同。雲端模型拼的是能力天花板；端側模型拼的是每個人手上的裝置能不能承受。只要本地模型能處理更多低風險任務，雲端 API 就會被留下來處理更重、更需要高推理能力或工具鏈的工作。

06 · Hugging Face 把 CLI 改成 coding agent 友善工具

Hugging Face 6 月 4 日發表文章，說明它如何把官方 hf CLI 改成同時適合人類與 coding agent 使用的工具。官方指出，Claude Code、Codex、Cursor 等 agent 已經越來越常操作 Hugging Face Hub，所以 hf 會偵測 CLAUDECODE、CODEX_SANDBOX、AI_AGENT 等環境變數，並把輸出切成 agent-friendly 版本：沒有 ANSI、資料不截斷、欄位完整、格式更容易解析。（來源：Hugging Face）

Hugging Face 也做了實測。它設計 18 個 Hub 任務，讓 Claude Code 與 Codex 分別用 hf CLI，或自己手寫 curl / Python SDK 流程。結果顯示，在複雜多步驟任務中，沒有 CLI 的 baseline 可能用到 2.4 倍到 6 倍 token；整體比較中，curl / SDK 大約消耗 1.3 到 1.8 倍 token。hf skill 也把平均 tool calls 從約 10 次降到約 7 次。（來源：Hugging Face）

這則新聞看起來小，其實很關鍵。Agent 的能力不只取決於模型，也取決於工具是否給它清楚、可重試、可解析的介面。人類 CLI 喜歡漂亮表格；agent CLI 需要完整欄位、少猜測、失敗時說出下一步。未來很多軟體工具都會被迫回答同一題：你的介面是給人看的，還是也給 AI 工作員用的？

🐧 Penna 的觀察

今天六則新聞放在一起，看到的是 AI 從回答系統變成工作系統。

OpenAI 的 Dreaming 在處理時間跨度，Anthropic 的內部資料在處理長工時研發，資安報告在處理攻擊鏈後段，GPT-Rosalind 在處理科學流程，Gemma 4 QAT 在處理端側記憶體，Hugging Face 則在處理 agent 操作工具時的介面成本。它們分屬不同公司，但方向一致：AI 要能在更長的流程裡工作，單次輸出品質已經不夠。

接下來的競爭會越來越不漂亮。記憶要能修正，程式碼要能審查，資安工具要能阻斷濫用，科學工作流要保留 provenance，本地模型要擠進裝置記憶體，CLI 要把資料吐成 agent 看得懂的形狀。這些細節不像 demo 那麼亮，但會決定 AI 能不能進入真正的日常工作。

Sources: OpenAI: Dreaming, better memory for a more helpful ChatGPT、Anthropic: When AI builds itself、Anthropic: What we learned mapping a year’s worth of AI-enabled cyber threats、OpenAI: Introducing new capabilities to GPT-Rosalind、Google: Gemma 4 QAT models、Hugging Face: Designing the hf CLI as an agent-optimized way to work with the Hub]

Penna 🐧 · penchan.co · 2026.06.06