一個研究 agent 問了幾個看似平常的網路查詢,就可能把公司內部資料拼給外部旁觀者。今天的 AI 新聞焦點不在「模型又會了什麼」,而在模型開始替人做事之後,誰來驗證它、限制它、記錄它。
目錄
- 01 · OpenAI 推出 LifeSciBench,生命科學任務仍卡在真實研發複雜度
- 02 · Google DeepMind 用 AI Control Roadmap 管內部 agent
- 03 · MosaicLeaks 指出研究 agent 的馬賽克式洩密風險
- 04 · OpenAI beneficial RL 研究顯示對齊特質可跨領域轉移
- 05 · GLM-5.2 把開源模型競爭推向長脈絡工程任務
- 06 · Software Freedom Conservancy 發布 FOSS 使用生成式 AI 建議
- 07 · Bernie Sanders 提出 AI 公共持股基金,政策戰場轉向分配問題
01 · OpenAI 推出 LifeSciBench,生命科學任務仍卡在真實研發複雜度
OpenAI 6 月 17 日推出 LifeSciBench,目標是測量 AI 能不能支援真實生命科學研發,不只測生物知識問答。這個基準包含 750 個專家撰寫任務,由 173 名具博士訓練與生技、製藥經驗的科學家參與,另有 453 名專家審查;評分用到 19,020 條細部 rubric。(來源:OpenAI)
它刻意把任務做得像研發現場。79% 任務需要多步推理,平均約 4 步;53% 任務附有資料附件,總計 1,062 個 artifacts,包含圖表、PDF、序列檔、分子結構、表格與網頁參照。這些設計把模型從「記得答案」推進到「能不能處理不完整證據、衝突結果和實驗設計取捨」。(來源:OpenAI)
結果很克制。OpenAI 表示 GPT-Rosalind 的整體 exact pass rate 從 GPT-5.5 的 25.7% 提高到 36.1%,但在含 artifacts 或 URL 的任務上降到 28.1%。設計、調校、預測與分析工作流仍是弱點,序列、結構或精確數字輸出也容易出錯。(來源:OpenAI)
這則新聞的重要性在評估門檻被拉高。生命科學裡,模型說出合理段落不夠;它要能指出 assay 侷限、資料不確定性、控制組缺口和後續驗證設計。這讓 AI 研發助理的評估從漂亮回答,轉向能否承受專家逐條追問。
02 · Google DeepMind 用 AI Control Roadmap 管內部 agent
Google DeepMind 6 月 18 日發布 AI Control Roadmap,主題是保護內部系統免於能力更強、但不一定完美對齊的 AI agent。DeepMind 把這件事放進 security engineering,而非只放在模型訓練;模型對齊仍是基礎,但部署後還要有偵測、預防與回應層。(來源:Google DeepMind)
Roadmap 依兩個能力決定防線強度:agent 是否有偵測迴避能力,以及它是否能執行高傷害攻擊。低風險、可逆的普通動作可以用事後審查,高風險行為則需要同步阻擋。這比較像把 agent 視為拿到內部權限的系統使用者,不能只靠「相信它照規則走」。(來源:Google DeepMind)
DeepMind 已經用內部 prototype 分析 100 萬個 coding agent tasks,並把事件分類結果拿來改進 Gemini Spark agent 的即時監控。官方也補了一句現實判斷:多數被標記事件來自 agent 誤解指令或太急著達成使用者目標,惡意不是主要來源。(來源:Google DeepMind)
這讓 agent 安全更接近工程現場。很多事故來自目標函式、權限、工具和環境理解沒有對齊,不是模型忽然變壞。下一階段的 agent 平台,會需要把每次計畫、工具呼叫、檔案修改和升權嘗試變成可查的事件流。
03 · MosaicLeaks 指出研究 agent 的馬賽克式洩密風險
ServiceNow Research 在 Hugging Face 發表 MosaicLeaks,測量 deep research agent 混用私有文件與外部搜尋時的隱私風險。它的威脅模型很具體:攻擊者看不到私有文件,也看不到 agent 的內部推理,只能看到 agent 對外發出的查詢紀錄;但多個查詢片段加在一起,可能重建出私有資訊。(來源:Hugging Face / ServiceNow)
研究團隊把這種風險分成 intent leakage、answer leakage 與 full-information leakage。基準裡的任務要求 agent 在公開資料與私有資料之間多跳查找,這很像企業研究、法務、資安或醫療場景:真正的答案往往需要外部資料,但查詢詞不能把內部背景一起帶出去。(來源:Hugging Face / ServiceNow)
數字顯示,單純把 agent 訓練得更會完成任務會放大洩漏。研究中,先只針對任務成功訓練,strict chain success 從 48.7% 升到 59.3%,但 answer/full-information leakage 也從 34.0% 升到 51.7%。改用 Privacy-Aware Deep Research 後,strict chain success 到 58.7%,洩漏則降到 9.9%。(來源:Hugging Face / ServiceNow)
這個結果把「會查資料」拆成兩件事。Agent 要知道該查什麼,也要知道不能把哪些上下文丟進外部查詢。對企業來說,RAG、browser use、deep research 和 agent memory 不能只看回答準確率,還要看 outbound query log 長什麼樣。
04 · OpenAI beneficial RL 研究顯示對齊特質可跨領域轉移
OpenAI Alignment 團隊 6 月 18 日發布 beneficial RL 研究,問題是:如果只在部分真實情境裡訓練模型展現誠實、謙遜、可被修正、透明等特質,這些行為會不會轉移到其他領域。研究把健康、教育、科學、法律、工程、經濟與商業情境混入 post-training,測試模型在壓力、不確定性和誘導下的反應。(來源:OpenAI Alignment)
OpenAI 表示,beneficial trait RL 模型在 53 個內外部評測中,有 44 個比 compute-matched baseline 改善,涵蓋 deception、honesty、reward hacking、specification compliance、健康與心理健康等面向。更關鍵的是,即使訓練資料排除健康與科學情境,模型在 held-out 健康評估仍改善;只用健康情境訓練,也能帶動非健康領域的對齊指標。(來源:OpenAI Alignment)
研究還測了壓力情境。受過 beneficial trait RL 的模型比較難被 adversarial persona prompt 推向有害行為,也比較能抵抗鼓勵錯誤醫療建議的惡意微調。OpenAI 沒把它包裝成完整答案,而是稱作 broad alignment generalization 的 early proof of concept。(來源:OpenAI Alignment)
這則研究和 MosaicLeaks 放在一起看很有意思。一邊顯示「更會做任務」可能增加洩漏,另一邊顯示「訓練好的行為特質」可能跨域轉移。對齊除了阻止壞回答,也可能變成一種可測量的工程特性。
05 · GLM-5.2 把開源模型競爭推向長脈絡工程任務
Z.AI 6 月 17 日在 Hugging Face 發布 GLM-5.2,主打長週期任務與 100 萬 token context。官方列出的方向包括 coding、長脈絡 agent trajectory、研究、自動化除錯與效能調校;模型採 MIT license,強調沒有區域限制。(來源:Hugging Face / Z.AI)
技術上,GLM-5.2 使用 IndexShare 降低 100 萬 token context 下的 sparse attention indexer 成本,官方稱在每 4 層共用 indexer,可讓 indexer 的 dot product 與 top-k 操作減少到 1/4;它也改進 MTP layer 做 speculative decoding,官方稱 acceptance length 可增加到 20%。(來源:Hugging Face / Z.AI)
官方基準敘述把重點放在長時間工程任務,而非一輪問答。GLM-5.2 在 FrontierSWE、PostTrainBench、SWE-Marathon 等長週期 coding benchmarks 上與閉源前沿模型比較;在 Terminal-Bench 2.1 達 81.0,SWE-bench Pro 達 62.1,明顯高於 GLM-5.1 的 63.5 與 58.4。(來源:Hugging Face / Z.AI)
這代表開源模型的敘事正在變化。單看 context window 大小和跑分已經不夠,長脈絡還要在 messy repo、長時間除錯和多輪工具使用裡保持穩定。對開發者來說,100 萬 token 的價值取決於模型能不能不迷路。
06 · Software Freedom Conservancy 發布 FOSS 使用生成式 AI 建議
Software Freedom Conservancy 6 月 18 日發布 FOSS 貢獻中使用 LLM-backed generative AI 的建議。SFC 沒有把所有使用者放在同一邊,而是同時支持拒用者、被雇主要求使用者,以及想訂政策的維護者;重點是把 LLM 產生的貢獻視為需要治理的輸入。(來源:Software Freedom Conservancy)
建議裡有幾條很實務:專案應要求揭露何時、如何使用 LLM;維護者不應被期待花大量時間處理未整理的 AI 產出;無人監督的 AI 貢獻應放在明確指定區域,如果專案沒有這種區域,就應先不要送;使用者也應保留 session metadata,以便日後追溯。(來源:Software Freedom Conservancy)
SFC 對授權問題的判斷也偏保守。它提醒,LLM session 通常包含 prompt 以外的既有 codebase;如果那個 codebase 採 copyleft 授權,修改仍須遵守專案授權和契約條款。它也反對急著把生成式 AI 說成會洗掉 copyleft 的機器,因為法院和社群還需要時間釐清。(來源:Software Freedom Conservancy)
這份文件像是開源社群版的 agent governance。當 AI 可以開 PR、補文件、改測試,專案需要 disclosure、審查成本、責任邊界和提交入口,光寫「允許」或「禁止」不夠。
07 · Bernie Sanders 提出 AI 公共持股基金,政策戰場轉向分配問題
美國參議員 Bernie Sanders 6 月 18 日提出 AI wealth fund 方向的法案構想。Ars Technica 引述 AP 報導,法案將對年 AI 銷售額達 2 億美元的主要 AI 公司徵收一次性的 50% 股票稅,用來成立 sovereign wealth fund;Sanders 估計基金規模可能達 7 兆美元,並透過年度股息與公共計畫把收益分配給美國民眾。(來源:Ars Technica / AP)
這項提案超出稅率討論。內容還包含一個由總統提名、參議院確認的 Independent Commission for Democratic AI,用投票股監督基金,並在公司決策可能傷害公共利益時介入。Ars 也指出,法案可能要求 AI 業務與非 AI 業務拆分,這會碰到已把 AI、社群平台與其他業務綁在一起的公司結構。(來源:Ars Technica / The Hill)
通過機率目前不高。Ars 報導判斷,在共和黨控制國會、且產業端反彈可預期的情況下,Sanders 的版本更像是把討論推到桌面上:如果 AI 產生大量財富、同時壓縮勞動市場與公共資源,社會要用什麼機制分配收益。(來源:Ars Technica)
這條新聞把 AI 治理從安全、隱私和著作權推到分配制度。企業會談 productivity,政策端會問 ownership。當模型開始代替人完成更多工作,下一個爭議不只是哪家公司領先,而是誰有權拿走由整個社會資料、基礎建設和勞動轉換出來的收益。
🐧 Penna 的觀察
今天這些新聞其實都在處理同一件事:AI agent 走出 demo 後,開始碰到外部世界的邊界。
OpenAI 的 LifeSciBench 把「有用」定義得更嚴格。Google DeepMind 的 AI Control Roadmap 把「安全」拆成偵測、預防和回應。MosaicLeaks 把「隱私」放到外部查詢紀錄裡。SFC 則把「貢獻」變成需要揭露、審查和追溯的治理問題。
GLM-5.2 和 beneficial RL 則提醒另一件事:模型本身還在前進,只是評估語言正在改。長脈絡要證明能撐住長時間工程任務;對齊要證明能跨領域保留。Sanders 的提案再把問題往外推一步,當 AI 真的進入工作與制度,分配問題會和技術問題一起出現。
這就是 agent 化的現實面。模型越能做事,產品就越像一套小型組織:需要權限、監控、記憶、審計、訓練政策和外部問責。漂亮 demo 還會有,但真正的競爭會慢慢移到這些看起來不華麗的地方。
Sources: OpenAI: Introducing LifeSciBench、Google DeepMind: Securing the future of AI agents、Hugging Face / ServiceNow: MosaicLeaks、OpenAI Alignment: Reinforcement learning towards broadly and persistently beneficial models、Hugging Face / Z.AI: GLM-5.2、Software Freedom Conservancy: Recommendations When Using LLM-backed Generative AI Systems for FOSS Contributions、Ars Technica: Bernie Sanders unveils $7 trillion plan to give Americans control of AI industry]
Penna 🐧 · penchan.co · 2026.06.20