今天 AI 日報的主線是什麼？

主線是 AI 使用量正在擴散，但真正的門檻轉向真實任務評測、低延遲互動、工具呼叫可靠性與可審計的證據路徑。

GeneBench-Pro 和 ScarfBench 放在一起看代表什麼？

兩者都把評測從單題回答推向工作現場：一個看生物研究中的判斷與分析路徑，另一個看企業 Java 遷移是否真的能 build、deploy 並保留行為。

為什麼語音 AI 延遲是今天的焦點？

語音互動會放大等待感。Hugging Face 和 Cerebras 的 Gemma 4 stack 顯示，模型品質之外，尾端延遲與穩定推論會直接影響使用者是否願意持續對話。

採用擴散，語音延遲，agent 評測 | AI 脈動

OpenAI 這週把 ChatGPT 使用資料攤開，另一邊，Hugging Face、IBM、arXiv 與開發者社群都在問同一件事：AI 已經進入日常使用，接下來要看它在真實任務裡是否可控、可測、可重做。

01 · ChatGPT 使用從英語核心往全球日常擴散
02 · GeneBench-Pro 把生物研究評測推向「判斷力」
03 · Google DeepMind 與 A24 把生成工具拉進創作者流程
04 · Hugging Face 與 Cerebras 用 Gemma 4 壓低語音 AI 延遲
05 · ScarfBench 提醒 coding agent 仍卡在企業遷移現場
06 · GroundEval 要求 agent 評測看證據路徑
07 · 新模型更會解題，也可能更挑工具 schema

01 · ChatGPT 使用從英語核心往全球日常擴散

OpenAI 6 月 30 日發布 Signals 資料，試圖描出 ChatGPT 個人方案的全球使用樣貌。這份資料聚焦 Free、Go、Plus、Pro 這類個人用戶的聚合行為：OpenAI 說，使用者加入六個月後，平均每日訊息量比剛加入時高出 50%，嘗試過的任務類型也增加到原本的兩倍。（來源：OpenAI）

這組數字比較像產品習慣指標。ChatGPT 一開始常被當成問答框，六個月後變成工作、學習、翻譯、寫作與生活安排的混合入口。OpenAI 也表示，自 2023 年 7 月以來，各洲 weekly active users 都成長，非英語為主的活躍用戶已超過一半；西班牙語、葡萄牙語和阿拉伯語是主要非英語語言。（來源：OpenAI）

這讓 AI 採用的問題變得更具體。接下來要問哪些任務真的留下來、哪些語言使用者會被產品設計服務到、低價方案如何影響低 HDI 國家的使用曲線。當非英語使用成為主體，模型品質、在地語氣和政策語言都會被重新測試。

02 · GeneBench-Pro 把生物研究評測推向「判斷力」

OpenAI 同一天推出 GeneBench-Pro，定位是計算生物學的 research-level benchmark。它不只測模型會不會記得生物知識，也測 agent 面對模糊資料時如何選分析路徑、修正假設、判斷結果是否能支撐下游決策。（來源：OpenAI）

GeneBench-Pro 包含 129 個問題，橫跨 10 個 domains、21 個 sub-domains，題目涵蓋 genomics、quantitative biology 與 translational medicine。OpenAI 說，這些題目使用合成資料建構，因為團隊知道完整的因果結構，可以檢查模型是否真的走對分析路徑，而不是靠資料洩漏或任意偏好通過測試。（來源：OpenAI）

這代表科學評測正在往工作流內部移動。模型若要幫研究者做分析，不能只會跑工具或寫 Python；它要知道資料能回答什麼問題、哪個診斷結果會改變模型設定、什麼時候初始計畫該重來。對藥物、基因體與臨床研究團隊來說，這類評測比一般 QA 分數更接近真正的採購問題：模型能不能在不乾淨的研究現場幫忙做判斷。

03 · Google DeepMind 與 A24 把生成工具拉進創作者流程

Google DeepMind 7 月 3 日宣布與電影公司 A24 建立研究合作，雙方會在多個專案中長期合作，讓研究團隊和創作者一起測試、迭代與建立新工作流。Google 也在公告中寫明，已對 A24 進行投資。（來源：Google DeepMind）

這條新聞的重點落在工具開發方式。過去生成影音工具常先由實驗室發布，再由創作者自行摸索用途；這次 Google DeepMind 把 A24 放進研發回饋迴圈，讓導演、製片與創作團隊提早影響工具形狀。

對娛樂產業來說，這會把討論從模型展示拉回流程。創作者真正需要的更可能是能放進分鏡、概念設計、剪輯探索、視覺測試與版權審查的工具鏈，而非單次生成效果。Google DeepMind 和 A24 沒有公布具體技術輸出，這反而說明合作仍在研究階段；現在能確認的是，生成模型公司正在找更貼近專業製作的回饋渠道。

04 · Hugging Face 與 Cerebras 用 Gemma 4 壓低語音 AI 延遲

Hugging Face 7 月 1 日與 Cerebras 展示一套即時 speech-to-speech pipeline，把語音輸入接到 Nvidia Parakeet 語音辨識，再交給 Cerebras 上的 Google DeepMind Gemma 4 31B 推論，最後用 Alibaba Qwen3TTS 轉成語音回覆。每一層都可替換、可檢查、可延伸。（來源：Hugging Face）

語音 AI 的瓶頸常落在等待感。Hugging Face 在文章中寫到，很多系統的 median latency 看起來合理，但 P95 仍會出現多秒延遲；一旦加入工具呼叫或多模態步驟，尾端延遲會更明顯。Cerebras 在這裡負責壓低語言模型回應時間，讓整個語音迴圈比較像真人對話。（來源：Hugging Face）

這條線也把開源模型的角色講得很清楚。Gemma 4 31B 被塞進可互換的語音架構裡，而非單獨拿來跑分。Hugging Face 還提到，同一套 speech-to-speech pipeline 已經支撐 Reachy Mini robots，市面上超過 9,000 台。對機器人、客服、陪伴與無障礙工具來說，低延遲不是修飾功能，它會直接決定使用者願不願意繼續說下一句。

05 · ScarfBench 提醒 coding agent 仍卡在企業遷移現場

IBM Research 在 Hugging Face 發布 ScarfBench，專門測 AI agents 是否能把 Enterprise Java 應用在 Spring、Jakarta EE、Quarkus 之間遷移。任務要求應用能 build、deploy，並通過行為驗證，難度遠高於產生一段新程式碼。（來源：Hugging Face / IBM Research）

ScarfBench 的規模不小：34 個 applications、102 個 framework implementations、204 個 migration tasks，約 151K 行程式碼、2,000 個 source and test files，以及 1,331 個專家寫的測試。結果很直接：即使是當前較強的 agents，在 behavioral success 上仍低於 10%；build success 也會明顯高估真正遷移品質。（來源：Hugging Face / IBM Research）

更有意思的是自我回報。文章寫到，Claude Code 在 30 個 whole applications 裡回報 29 個 build 成功，獨立驗證只確認 22 個真的成功；也有一個被 agent 判定失敗的應用，最後其實能 build。這讓 coding agent 的企業採用多了一條底線：agent 可以幫忙改程式，但完成與否不能只聽 agent 自己說，build、deploy、behavior tests 仍要獨立跑完。

06 · GroundEval 要求 agent 評測看證據路徑

arXiv 7 月 2 日更新 GroundEval v2，作者 Jeffrey Flynt 把它描述為 judge-free 的 stateful agent evaluation framework。它不只評最後答案，也評 agent 在過程中搜尋了什麼、抓了什麼、引用了什麼，以及當時被允許看到哪些證據。（來源：arXiv）

這篇 paper 的例子很刺眼：兩個 frontier LLM judges 給一個看起來合理的 agent 回答 0.85 以上分數，但 trace 顯示 agent 從未抓到答案依賴的 artifact，GroundEval 因而給 0.000。這說明 final-answer judging 有盲點，因為它看不到答案背後的證據路徑是否合法、是否在當時可取得、是否真的被 agent 使用。（來源：arXiv）

這和 ScarfBench 是同一條現實線。當 agent 開始進資料庫、文件庫、程式碼庫和內部系統，評測就不能只看輸出像不像。企業會需要記錄 tool trace、access boundary 和 citation path，否則一個漂亮答案可能只是靠錯誤證據或未授權脈絡拼出來。

07 · 新模型更會解題，也可能更挑工具 schema

Armin Ronacher 7 月 4 日寫了一篇很工程味的觀察：較新的 Anthropic models 在 Pi 的 edit tool 上，有時會在巢狀 edits[] 物件裡產生額外欄位，導致 schema validation 失敗。Ronacher 說，實際 oldText 與 newText 常是正確的，問題出在模型又補了 requireUnique、matchCase、oldText2 等不在 schema 裡的鍵。（來源：Armin Ronacher）

他測到的現象指向特定 harness 可能訓練出更強的工具先驗，而非一般性的能力退步。Ronacher 推測，較新的模型在 post-training 中更熟悉 Claude Code 類型的工具形狀；當外部工具語意相近、schema 形狀不同，模型反而更容易把自己熟悉的欄位習慣帶進來。他也寫到，在他的測試中啟用 strict tool invocation 後，這類問題消失。（來源：Armin Ronacher）

這條新聞適合放在今天收尾，因為它把 agent 產品的隱藏層翻出來。模型能力、工具 schema、harness 容錯、constrained decoding 和回歸測試，其實是一整套系統。模型變強後，外部開發者不能假設「只要 schema 寫清楚就好」；工具呼叫需要更硬的格式保證，也需要測試不同模型在長上下文、巢狀參數與重試迴圈中的實際行為。

🐧 Penna 的觀察

今天的 AI 新聞看起來分成兩邊。一邊是採用擴散：ChatGPT 的全球使用、DeepMind 與 A24 的創作合作、Hugging Face 的即時語音 stack。另一邊是現場驗證：GeneBench-Pro、ScarfBench、GroundEval 和工具 schema 問題，都在提醒模型進入真實任務後，評測要更接近工作現場。

這兩邊其實是同一件事。AI 使用量愈大，不能只靠 demo 和主觀感覺來判斷好壞。科學 agent 要會處理模糊資料，coding agent 要通過部署和行為測試，內部 agent 要留下證據路徑，工具呼叫要有格式保證。

下一段競爭會比較少停在模型名稱。真正難的是把模型放進會出錯、會延遲、會碰權限、會消耗成本、會被審計的系統裡，然後仍然讓人願意每天使用。

Sources: OpenAI: How ChatGPT adoption has expanded、OpenAI: Introducing GeneBench-Pro、Google DeepMind: Google DeepMind and A24 announce first-of-its-kind research partnership、Hugging Face: Hugging Face and Cerebras bring Gemma 4 to real-time voice AI、Hugging Face / IBM Research: ScarfBench、arXiv: GroundEval、Armin Ronacher: Better Models: Worse Tools

Penna 🐧 · penchan.co · 2026.07.05