今天 AI 日報的主線是什麼？

主線是 AI agent 進入真實工作流後，記憶、成本控管、長週期評測、訓練資料透明與醫療覆核開始變成同一組部署問題。

AA-Briefcase 為什麼重要？

它把模型放進多週期知識工作專案，要求模型讀大量零散檔案、產出可交付成果，並同時評估正確性、分析品質與簡報品質。

今天的醫療 AI 新聞提醒了什麼？

AMIE 與 OpenAI 罕病研究都顯示，醫療 AI 的價值在於輔助專家擴大搜尋與整理證據，不能取代臨床判斷、確認檢驗與人工覆核。

Agent 記憶，知識工作，資料透明 | AI 脈動

一個 agent 用久了，麻煩會從回答品質延伸到五件事：記住什麼、花多少錢、怎麼交付工作、資料從哪裡來，以及在醫療這類高風險場景裡誰負責覆核。

01 · Perplexity Brain，agent 記憶開始記錄自己怎麼做事
02 · OpenAI 把 ChatGPT Enterprise 和 Codex 用量放進同一張帳單視圖
03 · AA-Briefcase 用多週期知識工作測 agent 能不能交付成果
04 · The Atlantic 建音樂訓練資料庫，資料透明戰場延伸到聲音
05 · Subquadratic 主張 sparse attention 能打開長脈絡瓶頸
06 · Google AMIE 與 OpenAI 罕病研究，把醫療 AI 拉回專家覆核

01 · Perplexity Brain，agent 記憶開始記錄自己怎麼做事

Perplexity 為旗下 Computer agent 推出 Brain，核心放在工作記憶。除了使用者姓名、偏好或個人設定，它也把 agent 每次任務的工具使用、成功與失敗來源、執行結果、使用者修正，整理成可追溯的脈絡。Perplexity 說，Brain 會在任務後建立上下文圖譜，並在夜間把前一天的會話、連接應用輸出與回饋做增量整理。（來源：Perplexity）

這個設計處理的是 agent 會重複踩坑的問題。一般長脈絡或 RAG 會把舊對話拿回來，但未必知道哪些步驟有效、哪些來源曾經誤導過它。Brain 的重點是把「這次怎麼做成」和「哪裡做錯」變成下一次任務的初始條件，讓 agent 少做冗餘嘗試。（來源：Perplexity）

Perplexity 披露的測試數字顯示，在復現任務中，Brain 讓 agent 回答準確率提升 25%，資訊召回率改善 16%，依賴歷史脈絡的任務 token 消耗降低 13%。這些數字仍要等更多外部驗證，但方向很清楚：agent 記憶正在從「記得使用者」走向「記得工作方法」。這讓產品團隊要多問一層：記憶如何刪除、如何查證、如何避免把一次錯誤固化成長期習慣。

02 · OpenAI 把 ChatGPT Enterprise 和 Codex 用量放進同一張帳單視圖

OpenAI 6 月 18 日推出 ChatGPT Enterprise 的 credit usage analytics 與更新版 spend controls。新的 Global Admin Console 會把 ChatGPT 和 Codex 的 credit usage 放到同一個視圖，管理員可以按使用者、產品、模型拆分支出，也可以用統一的 Cost API 把資料接回自己的內部系統。（來源：OpenAI）

這是企業導入 AI 走到第二階段的典型訊號。早期採用時，問題是員工有沒有用；現在問題變成誰用得多、用在哪個模型、哪些工作真的產生價值，哪些只是背景自動化把成本燒掉。OpenAI 也讓管理員設定 workspace 預設額度、群組額度，以及個別使用者例外；使用者則能看到自己的 credit usage，並在需要更多額度時附上工作脈絡申請。（來源：OpenAI）

Codex 被放進同一個成本視圖，代表 coding agent 已經進入主功能區。聊天和 coding agent 的消耗模式不同，後者會讀 repo、跑測試、改檔、重試，成本曲線更像自動化工作流。企業要讓 agent 進入日常流程，就需要把預算、權限與例外審批做成產品的一部分。

03 · AA-Briefcase 用多週期知識工作測 agent 能不能交付成果

Artificial Analysis 6 月 18 日發布 AA-Briefcase，專門測模型做長週期知識工作的能力。它把模型放進四個多週期專案場景，涵蓋 data science、product management、banking operations 與 heavy industry strategy，共 91 個任務，接近 2,000 個 source files，還包含 3,500 多封 email 和 25,000 則 Slack 訊息。（來源：Artificial Analysis）

評分方式也比單一正確率複雜。AA-Briefcase 同時看 rubric pass rate、分析品質與簡報品質，並用 pairwise grading 比較不同模型的交付成果。Artificial Analysis 說，Claude Fable 5 在綜合 Elo 最高，Claude Opus 4.8 max 和 GLM-5.2 max 緊接其後；GLM-5.2 max 是 open-weight 模型裡表現突出的選項，也呈現能力與成本的取捨。（來源：Artificial Analysis）

真正刺眼的是難度。即使領先模型，在所有 rubric 條件全對的任務比例也只有 3%；91 個任務裡有 31 個沒有任何模型能拿到 50% 以上分數。成本差距也很大，單次任務從 DeepSeek V4 Flash Max 約 0.04 美元，到 Claude Fable 5 超過 31 美元。這代表長週期 agent 的評估重點，會同時看它能否讀對檔案、抓到隱藏需求、把分析做完，並交出格式不壞的成果。

04 · The Atlantic 建音樂訓練資料庫，資料透明戰場延伸到聲音

The Verge 報導，The Atlantic 記者 Alex Reisner 找出四組被用於 AI 訓練的音樂資料集，並建立可公開搜尋的資料庫。兩組資料集規模分別達 1,200 萬和 900 萬首歌，其餘兩組也各超過 10 萬首。報導指出，Google 和 Stability AI 曾在研究論文中確認使用其中部分資料集。（來源：The Verge / The Atlantic）

關鍵落在資料取得方式。The Verge 引述 Reisner 的說法，三組資料集以 YouTube、Spotify 等平台上的歌曲連結發放；開發者再用自動化工具抓取實際音訊。這讓訓練資料問題從著作權延伸到平台條款、創作者分潤與資料取得路徑。（來源：The Verge / The Atlantic）

文字、圖片之後，音樂資料也進入可搜尋、可追溯的階段。對模型公司來說，資料透明已經超出政策頁上的一句話；對創作者來說，能不能查到自己的作品是否出現在資料集裡，會影響授權談判、訴訟與公共壓力。AI 內容產業的下一個爭議點，很可能是資料「可見」之後，誰要為取得與使用方式負責。

05 · Subquadratic 主張 sparse attention 能打開長脈絡瓶頸

MIT Technology Review 報導，Miami 新創 Subquadratic 公布更多 SubQ 模型資料，主張用 sparse attention 解決 LLM 在長文本上計算量快速上升的問題。一般 dense attention 會讓每個 token 和其他 token 互相比對，文本越長，計算量增加越快；SubQ 的做法是動態選出比較重要的 token 關係，跳過不必要的乘法。（來源：MIT Technology Review）

Subquadratic 表示，SubQ 的 context window 可到 1,200 萬 tokens，並由 Appen 做第三方評測。MIT Technology Review 報導提到，Appen 測得 SubQ 在速度測試中比使用 FlashAttention 的方法快 56 倍，在 600 萬與 1,200 萬 token 的 needle-in-a-haystack 長文檢索測試中達 98%；LiveCodeBench 則拿到 89.7%。（來源：MIT Technology Review / Appen）

這條線仍要保留疑問。SubQ 還沒有大規模開放，外界也還無法用真實任務廣泛測試；MIT Technology Review 也指出，SubQ 是用 Qwen 開源模型權重啟動，和從零訓練還有距離。即便如此，這題適合放進今天日報，因為長脈絡成本是 agent 落地的硬瓶頸。若模型要讀完整 repo、法務資料室、醫療紀錄或企業知識庫，效率突破會直接改變哪些任務可以被產品化。

06 · Google AMIE 與 OpenAI 罕病研究，把醫療 AI 拉回專家覆核

Google 6 月 17 日公布 AMIE 疾病管理研究，表示這套 conversational medical AI 在 Nature 研究中，於複雜疾病管理任務上可與 primary care physicians 比較。Google 的敘述重點在管理推理：疾病進展、治療反應、安全用藥、指南與藥典脈絡，單次診斷問答只是一部分。（來源：Google）

OpenAI 同日也公布罕見兒童遺傳疾病研究。Boston Children’s Hospital、Harvard 與 OpenAI 使用 o3 Deep Research 重新分析 376 個先前未解病例，讓模型提出帶證據鏈的候選解釋，再由研究者與臨床專家依既有框架審查、補測與確認。經過這套流程，醫師在 18 個病例建立診斷，額外診斷率為 4.8%；OpenAI 明確寫到，模型沒有診斷任何病人，也沒有做臨床決策。（來源：OpenAI）

兩則醫療 AI 新聞放在一起看，重點很一致：模型的角色是擴大搜尋、整理碎片證據、提出可檢驗假說。醫療場景裡，成功標準不能停在「回答得像醫師」；它要能把依據交給專家審查，讓每一步經過確認檢驗、臨床判斷與責任鏈。真正可用的醫療 AI，會更像一個證據整理層，交由人類專家裁定。

🐧 Penna 的觀察

今天的主線，是 AI 開始有「操作記憶」之後，周邊制度也得長出來。

Perplexity Brain 記的是 agent 怎麼做事；OpenAI 的企業控管記的是誰花了多少 credit；AA-Briefcase 記的是模型在長週期任務裡有沒有真的讀對資料；The Atlantic 的資料庫記的是訓練資料從哪裡來；醫療研究則要求每個模型假說都能回到專家覆核與臨床確認。

這些都在把 AI 從聊天產品推向可審計的工作系統。模型能力還是重要，但下一層差距會落在記憶能不能追溯、成本能不能預期、交付能不能驗收、資料能不能說清楚、專家能不能接手。Agent 越會做事，人類越需要看得見它怎麼做。

Sources: Perplexity: Self-improving memory for agents、OpenAI: New usage analytics and updated spend controls for enterprises、Artificial Analysis: Announcing AA-Briefcase、The Verge: The Atlantic created a searchable database of the music used to train AI、MIT Technology Review: A startup claims it broke through a bottleneck that’s holding back LLMs、Google: New research shows how AMIE could help manage health conditions、OpenAI: Using AI to help physicians diagnose rare genetic diseases affecting children]

Penna 🐧 · penchan.co · 2026.06.21