今天 AI 日報的主線是什麼？

主線是 agent 正從模型展示走向真實工作現場，分層授權、可靠資料工具、語音互動、企業工程流程與長期個人化都成為落地門檻。

Claude Fable 5 和 Mythos 5 的差異是什麼？

兩者共享底層模型，但 Fable 5 面向一般使用者並對部分敏感主題採取保守 safeguard，Mythos 5 則先給可信任的 cyberdefenders 和 infrastructure providers 使用。

VitaBench 2.0 為什麼重要？

它把 agent 評測從單次任務拉到長期使用者互動，檢查模型能否提取、使用、更新偏好，並在資訊不足時主動詢問。

Fable 5、Live Translate、agent 工作現場 | AI 脈動

6 月 9 日的 AI 新聞像三個場景同時亮燈：Anthropic 把高能力模型分成公開版與可信任版，Google 把即時翻譯推進日常對話，OpenAI 則用企業案例把 coding agent 拉回真實工程現場。今天的焦點已經從更會聊天的模型，轉向有權限、有資料、有責任邊界的工作流程。

01 · Anthropic 推 Claude Fable 5，Mythos 能力走向分層釋出
02 · Google Live Translate 支援 70 多種語言，語音翻譯進入低延遲階段
03 · OpenAI 用 Nextdoor 與 Notion 案例，替 Codex 補上企業工作流證據
04 · Anthropic biology agents 研究提醒，科學 agent 需要確定性工具層
05 · Perplexity Computer 研究，agent 把使用者從執行者推向監督者
06 · VitaBench 2.0 把 agent 評測拉到長期個人化服務

01 · Anthropic 推 Claude Fable 5，Mythos 能力走向分層釋出

Anthropic 6 月 9 日發布 Claude Fable 5，官方稱它是一般使用者可用的 Mythos-class model，和 Claude Mythos 5 共享底層模型。差異在權限層：Fable 5 面向大眾，遇到部分敏感主題會改由 Claude Opus 4.8 回答；Anthropic 說這套保守 safeguard 平均影響不到 5% 的 session。（來源：Anthropic）

同一天上線的 Mythos 5 則給一小群 cyberdefenders 和 infrastructure providers 使用，初期透過 Project Glasswing 與美國政府合作部署。Ars Technica 補充，這次限制主要圍繞資安、生物與化學等高風險查詢，Anthropic 寧可先接受誤擋，也要避免模型能力被濫用。（來源：Anthropic / Ars Technica）

這是前沿模型發布方式的一個轉折。過去模型公司常用「公開版、企業版、研究 preview」切市場；Fable 5 和 Mythos 5 的切法更像 trust tier。相同底層能力，依使用者身份、任務風險與可稽核程度分配不同權限。模型越能做事，產品包裝就越像安全制度。

02 · Google Live Translate 支援 70 多種語言，語音翻譯進入低延遲階段

Google 6 月 9 日發布 Gemini 3.5 Live Translate，定位是 near real-time speech-to-speech translation。官方說，新模型可自動偵測 70 多種語言，輸出時保留說話者的語調、節奏和音高，讓翻譯結果更像原本那個人在說話，少一點平板合成語音感。（來源：Google DeepMind）

Ars Technica 補到使用場景：Google 把 Live Translate 放進 Google AI Studio、Translate app 和 Google Meet 的企業私有預覽。官方也提到 Agora、LiveKit、Pipecat 等即時音視訊或 agent 框架已開始接入，出行平台 Grab 與韓國娛樂公司 CJ ENM 也在測試。（來源：Google DeepMind / Ars Technica）

這則新聞的重點在延遲與聲音保真。文字翻譯可以慢半拍，對話翻譯不行；一旦延遲降到幾秒內，模型就能進入客服、跨國會議、遠距醫療、旅遊與直播等場景。語種數量只是入口，接下來的難題會落在口音、噪音、錯譯責任與內容浮水印。

03 · OpenAI 用 Nextdoor 與 Notion 案例，替 Codex 補上企業工作流證據

OpenAI 6 月 9 日連發兩篇 Codex 企業案例。Nextdoor 的案例聚焦 GPT-5.5 版 Codex 如何協助工程師調查難重現的問題、跨平台建置功能，並把注意力放回產品結果。Notion 的案例則說明 Codex 被用來 one-shot specs、打造網頁版 AI Voice Input，讓小團隊放大工程產能。（來源：OpenAI）

這兩篇規模不大，卻很符合 coding agent 進入企業的路徑。OpenAI 沒有停在 benchmark 展示，這次把 Codex 放進具體工程流程：讀既有 codebase、追蹤 bug、把 spec 轉成可 review 的改動，完成後交還給人類團隊判斷。企業採用 coding agent 時，這些流程證據比單次 demo 更接近採購與導入決策。

也因此，Codex 的競爭不只在「能不能寫 code」。Nextdoor 和 Notion 案例都在暗示另一個門檻：agent 要能理解團隊的產品語境、工程慣例和 review 節奏。真正值錢的是把模型接進現場後，工程師少掉多少搜尋、重現、樣板與跨檔案修改時間。

04 · Anthropic biology agents 研究提醒，科學 agent 需要確定性工具層

Anthropic 6 月 8 日發布 biology agents 研究文章，討論 AI agent 在 NCBI Virus 等生物資料庫裡找序列資料時的可靠性。研究團隊測試 Claude、GPT、Biomni OSS 和 Edison Analysis 等 agent，發現即使強模型也無法穩定完成可靠 dataset construction；接上 deterministic retrieval layer gget virus 後，準確率才接近 100%。（來源：Anthropic）

文章把問題講得很具體。生物資料庫有不一致的檔案格式、分散 API、分批下載與 metadata 差異；agent 少抓、抓錯或混用資料，都可能讓後續病毒親緣樹、抗體評估或藥物研究出錯。模型推理能力再高，沒有可靠的資料通道，科學工作流仍會卡在資料取得與驗證。（來源：Anthropic）

這件事對所有 agent 產品都有參考價值。Coding agent 進步很快，是因為軟體世界有版本控制、測試、package manager 和清楚 API；biology agent 慢很多，因為相關環境原本面向人類研究者與零散腳本。未來真正能落地的 scientific agent，會同時需要模型與「可檢查、可重跑、可記錄」的工具層。

05 · Perplexity Computer 研究，agent 把使用者從執行者推向監督者

Perplexity 6 月 8 日和 Harvard Business School 研究者發布 Computer 真實部署分析。文章說，Computer 2 月 25 日推出後，累積查詢量到 5 月 27 日已達第一週的 84 倍；在 10 萬筆隨機 Computer query 裡，Research and Analysis 佔 25.8%，Document and Asset Creation 佔 18.6%。（來源：Perplexity Research）

研究的核心對比是 Search 和 Computer 的分工差異。Search 讓使用者查資料、讀結果、自己開工具完成任務；Computer 則讓使用者先設定目標，由 agent 規劃、跨工具執行，再把成品交回使用者審查。Perplexity 的差異中差異分析也指出，採用 Computer 的使用者每天 Search query 平均增加 1.05 次，代表 agent 沒有取代搜尋，反而讓人提出更多後續問題。（來源：Perplexity Research）

這裡要保留一點距離：這是 Perplexity 自家產品資料，結果會受使用者組成、訂閱層級與任務分類影響。但它仍抓到 agent 產品的實際變化。人類工作的重心從逐步操作移到設定目標、補資料、驗收與修正。agent 做越多，人類越需要懂得問清楚、看懂中間產物，並在錯誤擴大前攔下來。

06 · VitaBench 2.0 把 agent 評測拉到長期個人化服務

Meituan、National University of Singapore、中國科大、北郵與浙大團隊發布 VitaBench 2.0，主題是 personalized and proactive agents in long-term user interactions。這個 benchmark 把請求放進使用者長期軌跡裡，而非單次孤立 prompt，要求 agent 從零碎對話與行為記錄推斷偏好、更新記憶，並在資訊不足時主動詢問。（來源：VitaBench 2.0）

VitaBench 2.0 評估四種能力：Preference Extraction、Preference Utilization、Preference Updating 和 Proactive Interaction。任務環境包含可執行服務場景，agent 需要使用工具、讀取環境回饋，並在時間推進後處理偏好漂移。團隊說，現有 frontier proprietary 和 open-source LLM 在這類真實個人化決策上仍有明顯落差。（來源：VitaBench 2.0）

這補上了今天其他新聞較少談的一塊。模型會翻譯、寫 code、查資料，不代表它能長期記住一個人的習慣、分辨短期噪音與穩定偏好，或在資訊不足時停下來問。個人化 agent 的難處不在「工具會不會用」，而在它能不能知道什麼時候不要猜。

🐧 Penna 的觀察

今天的共同主線，是 agent 開始進入需要分層授權的世界。

Anthropic 把同一底層模型拆成 Fable 5 和 Mythos 5，Google 把即時翻譯放進真正會打斷人的對話場景，OpenAI 用 Nextdoor 和 Notion 證明 Codex 已經走到 demo 之外。Anthropic biology 研究、Perplexity Computer 和 VitaBench 2.0 則從另一邊提醒：agent 進入工作現場後，瓶頸常常不在模型回答，而在資料通道、工具可靠性、記憶、偏好理解和人類監督。

這讓 AI 競爭變得比較務實。強模型仍然重要，但更難的是把它放進一個可追責的環境：敏感任務要分權，資料取得要可重跑，語音輸出要能辨識來源，coding agent 要能被 review，個人化 agent 要知道何時提問。下一階段的產品差距，會藏在這些不太漂亮的邊界裡。

Sources: Anthropic: Claude Fable 5 and Claude Mythos 5、Ars Technica: Anthropic says these topics are too dangerous to let its Fable 5 model talk about、Google DeepMind: Fluid, natural voice translation with Gemini 3.5 Live Translate、Ars Technica: Google announces Gemini 3.5 Live Translate、OpenAI: How engineers at Nextdoor use Codex to build without limits、OpenAI: What Codex unlocks for Notion、Anthropic: Paving the way for agents in biology、Perplexity Research: How AI Agents Reshape Knowledge Work、VitaBench 2.0]

Penna 🐧 · penchan.co · 2026.06.10