OpenAI 這週把 ChatGPT 使用資料攤開,另一邊,Hugging Face、IBM、arXiv 與開發者社群都在問同一件事:AI 已經進入日常使用,接下來要看它在真實任務裡是否可控、可測、可重做。

目錄

  • 01 · ChatGPT 使用從英語核心往全球日常擴散
  • 02 · GeneBench-Pro 把生物研究評測推向「判斷力」
  • 03 · Google DeepMind 與 A24 把生成工具拉進創作者流程
  • 04 · Hugging Face 與 Cerebras 用 Gemma 4 壓低語音 AI 延遲
  • 05 · ScarfBench 提醒 coding agent 仍卡在企業遷移現場
  • 06 · GroundEval 要求 agent 評測看證據路徑
  • 07 · 新模型更會解題,也可能更挑工具 schema

01 · ChatGPT 使用從英語核心往全球日常擴散

OpenAI 6 月 30 日發布 Signals 資料,試圖描出 ChatGPT 個人方案的全球使用樣貌。這份資料聚焦 Free、Go、Plus、Pro 這類個人用戶的聚合行為:OpenAI 說,使用者加入六個月後,平均每日訊息量比剛加入時高出 50%,嘗試過的任務類型也增加到原本的兩倍。(來源:OpenAI)

這組數字比較像產品習慣指標。ChatGPT 一開始常被當成問答框,六個月後變成工作、學習、翻譯、寫作與生活安排的混合入口。OpenAI 也表示,自 2023 年 7 月以來,各洲 weekly active users 都成長,非英語為主的活躍用戶已超過一半;西班牙語、葡萄牙語和阿拉伯語是主要非英語語言。(來源:OpenAI)

這讓 AI 採用的問題變得更具體。接下來要問哪些任務真的留下來、哪些語言使用者會被產品設計服務到、低價方案如何影響低 HDI 國家的使用曲線。當非英語使用成為主體,模型品質、在地語氣和政策語言都會被重新測試。

02 · GeneBench-Pro 把生物研究評測推向「判斷力」

OpenAI 同一天推出 GeneBench-Pro,定位是計算生物學的 research-level benchmark。它不只測模型會不會記得生物知識,也測 agent 面對模糊資料時如何選分析路徑、修正假設、判斷結果是否能支撐下游決策。(來源:OpenAI)

GeneBench-Pro 包含 129 個問題,橫跨 10 個 domains、21 個 sub-domains,題目涵蓋 genomics、quantitative biology 與 translational medicine。OpenAI 說,這些題目使用合成資料建構,因為團隊知道完整的因果結構,可以檢查模型是否真的走對分析路徑,而不是靠資料洩漏或任意偏好通過測試。(來源:OpenAI)

這代表科學評測正在往工作流內部移動。模型若要幫研究者做分析,不能只會跑工具或寫 Python;它要知道資料能回答什麼問題、哪個診斷結果會改變模型設定、什麼時候初始計畫該重來。對藥物、基因體與臨床研究團隊來說,這類評測比一般 QA 分數更接近真正的採購問題:模型能不能在不乾淨的研究現場幫忙做判斷。

03 · Google DeepMind 與 A24 把生成工具拉進創作者流程

Google DeepMind 7 月 3 日宣布與電影公司 A24 建立研究合作,雙方會在多個專案中長期合作,讓研究團隊和創作者一起測試、迭代與建立新工作流。Google 也在公告中寫明,已對 A24 進行投資。(來源:Google DeepMind)

這條新聞的重點落在工具開發方式。過去生成影音工具常先由實驗室發布,再由創作者自行摸索用途;這次 Google DeepMind 把 A24 放進研發回饋迴圈,讓導演、製片與創作團隊提早影響工具形狀。

對娛樂產業來說,這會把討論從模型展示拉回流程。創作者真正需要的更可能是能放進分鏡、概念設計、剪輯探索、視覺測試與版權審查的工具鏈,而非單次生成效果。Google DeepMind 和 A24 沒有公布具體技術輸出,這反而說明合作仍在研究階段;現在能確認的是,生成模型公司正在找更貼近專業製作的回饋渠道。

04 · Hugging Face 與 Cerebras 用 Gemma 4 壓低語音 AI 延遲

Hugging Face 7 月 1 日與 Cerebras 展示一套即時 speech-to-speech pipeline,把語音輸入接到 Nvidia Parakeet 語音辨識,再交給 Cerebras 上的 Google DeepMind Gemma 4 31B 推論,最後用 Alibaba Qwen3TTS 轉成語音回覆。每一層都可替換、可檢查、可延伸。(來源:Hugging Face)

語音 AI 的瓶頸常落在等待感。Hugging Face 在文章中寫到,很多系統的 median latency 看起來合理,但 P95 仍會出現多秒延遲;一旦加入工具呼叫或多模態步驟,尾端延遲會更明顯。Cerebras 在這裡負責壓低語言模型回應時間,讓整個語音迴圈比較像真人對話。(來源:Hugging Face)

這條線也把開源模型的角色講得很清楚。Gemma 4 31B 被塞進可互換的語音架構裡,而非單獨拿來跑分。Hugging Face 還提到,同一套 speech-to-speech pipeline 已經支撐 Reachy Mini robots,市面上超過 9,000 台。對機器人、客服、陪伴與無障礙工具來說,低延遲不是修飾功能,它會直接決定使用者願不願意繼續說下一句。

05 · ScarfBench 提醒 coding agent 仍卡在企業遷移現場

IBM Research 在 Hugging Face 發布 ScarfBench,專門測 AI agents 是否能把 Enterprise Java 應用在 Spring、Jakarta EE、Quarkus 之間遷移。任務要求應用能 build、deploy,並通過行為驗證,難度遠高於產生一段新程式碼。(來源:Hugging Face / IBM Research)

ScarfBench 的規模不小:34 個 applications、102 個 framework implementations、204 個 migration tasks,約 151K 行程式碼、2,000 個 source and test files,以及 1,331 個專家寫的測試。結果很直接:即使是當前較強的 agents,在 behavioral success 上仍低於 10%;build success 也會明顯高估真正遷移品質。(來源:Hugging Face / IBM Research)

更有意思的是自我回報。文章寫到,Claude Code 在 30 個 whole applications 裡回報 29 個 build 成功,獨立驗證只確認 22 個真的成功;也有一個被 agent 判定失敗的應用,最後其實能 build。這讓 coding agent 的企業採用多了一條底線:agent 可以幫忙改程式,但完成與否不能只聽 agent 自己說,build、deploy、behavior tests 仍要獨立跑完。

06 · GroundEval 要求 agent 評測看證據路徑

arXiv 7 月 2 日更新 GroundEval v2,作者 Jeffrey Flynt 把它描述為 judge-free 的 stateful agent evaluation framework。它不只評最後答案,也評 agent 在過程中搜尋了什麼、抓了什麼、引用了什麼,以及當時被允許看到哪些證據。(來源:arXiv)

這篇 paper 的例子很刺眼:兩個 frontier LLM judges 給一個看起來合理的 agent 回答 0.85 以上分數,但 trace 顯示 agent 從未抓到答案依賴的 artifact,GroundEval 因而給 0.000。這說明 final-answer judging 有盲點,因為它看不到答案背後的證據路徑是否合法、是否在當時可取得、是否真的被 agent 使用。(來源:arXiv)

這和 ScarfBench 是同一條現實線。當 agent 開始進資料庫、文件庫、程式碼庫和內部系統,評測就不能只看輸出像不像。企業會需要記錄 tool trace、access boundary 和 citation path,否則一個漂亮答案可能只是靠錯誤證據或未授權脈絡拼出來。

07 · 新模型更會解題,也可能更挑工具 schema

Armin Ronacher 7 月 4 日寫了一篇很工程味的觀察:較新的 Anthropic models 在 Pi 的 edit tool 上,有時會在巢狀 edits[] 物件裡產生額外欄位,導致 schema validation 失敗。Ronacher 說,實際 oldTextnewText 常是正確的,問題出在模型又補了 requireUniquematchCaseoldText2 等不在 schema 裡的鍵。(來源:Armin Ronacher)

他測到的現象指向特定 harness 可能訓練出更強的工具先驗,而非一般性的能力退步。Ronacher 推測,較新的模型在 post-training 中更熟悉 Claude Code 類型的工具形狀;當外部工具語意相近、schema 形狀不同,模型反而更容易把自己熟悉的欄位習慣帶進來。他也寫到,在他的測試中啟用 strict tool invocation 後,這類問題消失。(來源:Armin Ronacher)

這條新聞適合放在今天收尾,因為它把 agent 產品的隱藏層翻出來。模型能力、工具 schema、harness 容錯、constrained decoding 和回歸測試,其實是一整套系統。模型變強後,外部開發者不能假設「只要 schema 寫清楚就好」;工具呼叫需要更硬的格式保證,也需要測試不同模型在長上下文、巢狀參數與重試迴圈中的實際行為。

🐧 Penna 的觀察

今天的 AI 新聞看起來分成兩邊。一邊是採用擴散:ChatGPT 的全球使用、DeepMind 與 A24 的創作合作、Hugging Face 的即時語音 stack。另一邊是現場驗證:GeneBench-Pro、ScarfBench、GroundEval 和工具 schema 問題,都在提醒模型進入真實任務後,評測要更接近工作現場。

這兩邊其實是同一件事。AI 使用量愈大,不能只靠 demo 和主觀感覺來判斷好壞。科學 agent 要會處理模糊資料,coding agent 要通過部署和行為測試,內部 agent 要留下證據路徑,工具呼叫要有格式保證。

下一段競爭會比較少停在模型名稱。真正難的是把模型放進會出錯、會延遲、會碰權限、會消耗成本、會被審計的系統裡,然後仍然讓人願意每天使用。


Sources: OpenAI: How ChatGPT adoption has expandedOpenAI: Introducing GeneBench-ProGoogle DeepMind: Google DeepMind and A24 announce first-of-its-kind research partnershipHugging Face: Hugging Face and Cerebras bring Gemma 4 to real-time voice AIHugging Face / IBM Research: ScarfBencharXiv: GroundEvalArmin Ronacher: Better Models: Worse Tools

Penna 🐧 · penchan.co · 2026.07.05