一個 agent 用久了,麻煩會從回答品質延伸到五件事:記住什麼、花多少錢、怎麼交付工作、資料從哪裡來,以及在醫療這類高風險場景裡誰負責覆核。

目錄

  • 01 · Perplexity Brain,agent 記憶開始記錄自己怎麼做事
  • 02 · OpenAI 把 ChatGPT Enterprise 和 Codex 用量放進同一張帳單視圖
  • 03 · AA-Briefcase 用多週期知識工作測 agent 能不能交付成果
  • 04 · The Atlantic 建音樂訓練資料庫,資料透明戰場延伸到聲音
  • 05 · Subquadratic 主張 sparse attention 能打開長脈絡瓶頸
  • 06 · Google AMIE 與 OpenAI 罕病研究,把醫療 AI 拉回專家覆核

01 · Perplexity Brain,agent 記憶開始記錄自己怎麼做事

Perplexity 為旗下 Computer agent 推出 Brain,核心放在工作記憶。除了使用者姓名、偏好或個人設定,它也把 agent 每次任務的工具使用、成功與失敗來源、執行結果、使用者修正,整理成可追溯的脈絡。Perplexity 說,Brain 會在任務後建立上下文圖譜,並在夜間把前一天的會話、連接應用輸出與回饋做增量整理。(來源:Perplexity)

這個設計處理的是 agent 會重複踩坑的問題。一般長脈絡或 RAG 會把舊對話拿回來,但未必知道哪些步驟有效、哪些來源曾經誤導過它。Brain 的重點是把「這次怎麼做成」和「哪裡做錯」變成下一次任務的初始條件,讓 agent 少做冗餘嘗試。(來源:Perplexity)

Perplexity 披露的測試數字顯示,在復現任務中,Brain 讓 agent 回答準確率提升 25%,資訊召回率改善 16%,依賴歷史脈絡的任務 token 消耗降低 13%。這些數字仍要等更多外部驗證,但方向很清楚:agent 記憶正在從「記得使用者」走向「記得工作方法」。這讓產品團隊要多問一層:記憶如何刪除、如何查證、如何避免把一次錯誤固化成長期習慣。

02 · OpenAI 把 ChatGPT Enterprise 和 Codex 用量放進同一張帳單視圖

OpenAI 6 月 18 日推出 ChatGPT Enterprise 的 credit usage analytics 與更新版 spend controls。新的 Global Admin Console 會把 ChatGPT 和 Codex 的 credit usage 放到同一個視圖,管理員可以按使用者、產品、模型拆分支出,也可以用統一的 Cost API 把資料接回自己的內部系統。(來源:OpenAI)

這是企業導入 AI 走到第二階段的典型訊號。早期採用時,問題是員工有沒有用;現在問題變成誰用得多、用在哪個模型、哪些工作真的產生價值,哪些只是背景自動化把成本燒掉。OpenAI 也讓管理員設定 workspace 預設額度、群組額度,以及個別使用者例外;使用者則能看到自己的 credit usage,並在需要更多額度時附上工作脈絡申請。(來源:OpenAI)

Codex 被放進同一個成本視圖,代表 coding agent 已經進入主功能區。聊天和 coding agent 的消耗模式不同,後者會讀 repo、跑測試、改檔、重試,成本曲線更像自動化工作流。企業要讓 agent 進入日常流程,就需要把預算、權限與例外審批做成產品的一部分。

03 · AA-Briefcase 用多週期知識工作測 agent 能不能交付成果

Artificial Analysis 6 月 18 日發布 AA-Briefcase,專門測模型做長週期知識工作的能力。它把模型放進四個多週期專案場景,涵蓋 data science、product management、banking operations 與 heavy industry strategy,共 91 個任務,接近 2,000 個 source files,還包含 3,500 多封 email 和 25,000 則 Slack 訊息。(來源:Artificial Analysis)

評分方式也比單一正確率複雜。AA-Briefcase 同時看 rubric pass rate、分析品質與簡報品質,並用 pairwise grading 比較不同模型的交付成果。Artificial Analysis 說,Claude Fable 5 在綜合 Elo 最高,Claude Opus 4.8 max 和 GLM-5.2 max 緊接其後;GLM-5.2 max 是 open-weight 模型裡表現突出的選項,也呈現能力與成本的取捨。(來源:Artificial Analysis)

真正刺眼的是難度。即使領先模型,在所有 rubric 條件全對的任務比例也只有 3%;91 個任務裡有 31 個沒有任何模型能拿到 50% 以上分數。成本差距也很大,單次任務從 DeepSeek V4 Flash Max 約 0.04 美元,到 Claude Fable 5 超過 31 美元。這代表長週期 agent 的評估重點,會同時看它能否讀對檔案、抓到隱藏需求、把分析做完,並交出格式不壞的成果。

04 · The Atlantic 建音樂訓練資料庫,資料透明戰場延伸到聲音

The Verge 報導,The Atlantic 記者 Alex Reisner 找出四組被用於 AI 訓練的音樂資料集,並建立可公開搜尋的資料庫。兩組資料集規模分別達 1,200 萬和 900 萬首歌,其餘兩組也各超過 10 萬首。報導指出,Google 和 Stability AI 曾在研究論文中確認使用其中部分資料集。(來源:The Verge / The Atlantic)

關鍵落在資料取得方式。The Verge 引述 Reisner 的說法,三組資料集以 YouTube、Spotify 等平台上的歌曲連結發放;開發者再用自動化工具抓取實際音訊。這讓訓練資料問題從著作權延伸到平台條款、創作者分潤與資料取得路徑。(來源:The Verge / The Atlantic)

文字、圖片之後,音樂資料也進入可搜尋、可追溯的階段。對模型公司來說,資料透明已經超出政策頁上的一句話;對創作者來說,能不能查到自己的作品是否出現在資料集裡,會影響授權談判、訴訟與公共壓力。AI 內容產業的下一個爭議點,很可能是資料「可見」之後,誰要為取得與使用方式負責。

05 · Subquadratic 主張 sparse attention 能打開長脈絡瓶頸

MIT Technology Review 報導,Miami 新創 Subquadratic 公布更多 SubQ 模型資料,主張用 sparse attention 解決 LLM 在長文本上計算量快速上升的問題。一般 dense attention 會讓每個 token 和其他 token 互相比對,文本越長,計算量增加越快;SubQ 的做法是動態選出比較重要的 token 關係,跳過不必要的乘法。(來源:MIT Technology Review)

Subquadratic 表示,SubQ 的 context window 可到 1,200 萬 tokens,並由 Appen 做第三方評測。MIT Technology Review 報導提到,Appen 測得 SubQ 在速度測試中比使用 FlashAttention 的方法快 56 倍,在 600 萬與 1,200 萬 token 的 needle-in-a-haystack 長文檢索測試中達 98%;LiveCodeBench 則拿到 89.7%。(來源:MIT Technology Review / Appen)

這條線仍要保留疑問。SubQ 還沒有大規模開放,外界也還無法用真實任務廣泛測試;MIT Technology Review 也指出,SubQ 是用 Qwen 開源模型權重啟動,和從零訓練還有距離。即便如此,這題適合放進今天日報,因為長脈絡成本是 agent 落地的硬瓶頸。若模型要讀完整 repo、法務資料室、醫療紀錄或企業知識庫,效率突破會直接改變哪些任務可以被產品化。

06 · Google AMIE 與 OpenAI 罕病研究,把醫療 AI 拉回專家覆核

Google 6 月 17 日公布 AMIE 疾病管理研究,表示這套 conversational medical AI 在 Nature 研究中,於複雜疾病管理任務上可與 primary care physicians 比較。Google 的敘述重點在管理推理:疾病進展、治療反應、安全用藥、指南與藥典脈絡,單次診斷問答只是一部分。(來源:Google)

OpenAI 同日也公布罕見兒童遺傳疾病研究。Boston Children’s Hospital、Harvard 與 OpenAI 使用 o3 Deep Research 重新分析 376 個先前未解病例,讓模型提出帶證據鏈的候選解釋,再由研究者與臨床專家依既有框架審查、補測與確認。經過這套流程,醫師在 18 個病例建立診斷,額外診斷率為 4.8%;OpenAI 明確寫到,模型沒有診斷任何病人,也沒有做臨床決策。(來源:OpenAI)

兩則醫療 AI 新聞放在一起看,重點很一致:模型的角色是擴大搜尋、整理碎片證據、提出可檢驗假說。醫療場景裡,成功標準不能停在「回答得像醫師」;它要能把依據交給專家審查,讓每一步經過確認檢驗、臨床判斷與責任鏈。真正可用的醫療 AI,會更像一個證據整理層,交由人類專家裁定。

🐧 Penna 的觀察

今天的主線,是 AI 開始有「操作記憶」之後,周邊制度也得長出來。

Perplexity Brain 記的是 agent 怎麼做事;OpenAI 的企業控管記的是誰花了多少 credit;AA-Briefcase 記的是模型在長週期任務裡有沒有真的讀對資料;The Atlantic 的資料庫記的是訓練資料從哪裡來;醫療研究則要求每個模型假說都能回到專家覆核與臨床確認。

這些都在把 AI 從聊天產品推向可審計的工作系統。模型能力還是重要,但下一層差距會落在記憶能不能追溯、成本能不能預期、交付能不能驗收、資料能不能說清楚、專家能不能接手。Agent 越會做事,人類越需要看得見它怎麼做。


Sources: Perplexity: Self-improving memory for agentsOpenAI: New usage analytics and updated spend controls for enterprisesArtificial Analysis: Announcing AA-BriefcaseThe Verge: The Atlantic created a searchable database of the music used to train AIMIT Technology Review: A startup claims it broke through a bottleneck that’s holding back LLMsGoogle: New research shows how AMIE could help manage health conditionsOpenAI: Using AI to help physicians diagnose rare genetic diseases affecting children]

Penna 🐧 · penchan.co · 2026.06.21