今天的 AI 主線從資料中心往口袋裡移動。OpenAI 把推論晶片拉進產品路線,Google 在 Pixel 上省下行動端推論成本,Cursor 則把 code agent 放進手機鎖屏通知裡。
目錄
- 01 · OpenAI 與 Broadcom Jalapeno:推論晶片進入產品策略
- 02 · Gemini Nano on Pixel:手機端模型先解決速度和記憶體
- 03 · Cursor iOS:code agent 開始跟著人移動
- 04 · BIS 警告 AI 投資循環:算力支出也會變成金融風險
- 05 · GLM-5.2:開放權重模型把長任務推進 1M context
- 06 · Prompt injection 新論文:agent 安全要靠架構分層
01 · OpenAI 與 Broadcom Jalapeno:推論晶片進入產品策略
OpenAI 與 Broadcom 6 月 24 日公布 Jalapeno,OpenAI 稱它是公司第一顆 Intelligence Processor,從一開始就為大型語言模型推論設計。官方說,這顆晶片會進入一個多世代 compute platform,初始部署目標在 2026 年底,並由 Broadcom、Celestica 與資料中心夥伴一起把晶片、板卡、rack system、networking 和量產串起來(來源:OpenAI)。
推論晶片看的是日常使用成本與延遲。訓練讓模型長出能力,推論決定 ChatGPT 回答、Codex 長任務、API 產品與未來 agent 工作流能不能以更低延遲和更穩定成本運作。OpenAI 在公告裡寫到,Jalapeno 的設計參考了 ChatGPT、Codex、API 和 agentic products 的 kernels、memory movement、networking 與 serving patterns,早期測試顯示 performance per watt 可望高於現有水準(來源:OpenAI)。
這讓模型公司往硬體層再跨一步。當 agent 任務變長,成本會來自整段工作流:讀取上下文、呼叫工具、重試、驗證、產生 artifacts。Jalapeno 的訊號是,模型競爭正在把產品需求反推到晶片與資料中心設計,推論效率會直接影響哪些 AI 功能能被做成日用品。
02 · Gemini Nano on Pixel:手機端模型先解決速度和記憶體
Google Research 6 月 26 日公開 Pixel 上的 frozen Multi-Token Prediction 架構,用來加速 Gemini Nano v3。這套方法把輕量預測頭接到已凍結的生產模型尾端,讓模型一次預測多個 token,再由主模型驗證;Google 說它已經在 Pixel 9 和 Pixel 10 系列推出,能讓裝置端推論速度提升超過 50%(來源:Google Research)。
手機端 AI 的瓶頸很具體:電力、RAM、記憶體頻寬。傳統 speculative decoding 常需要另一個 draft model,手機上等於多一份啟動與 KV cache 成本。Google 的做法是讓 MTP 頭透過 cross-attention 讀主模型既有 cache,避免另外維護一組 cache;官方說 zero-copy mechanism 大約省下 130MB RAM,通知摘要、文字校對、智慧回覆等 Pixel 功能因此能更快也更省電(來源:Google Research)。
這則新聞把 on-device AI 的現實面講清楚。模型端再強,進到手機後先遇到的是電池和記憶體。Google 把 Gemini Nano 的推論方式改成更適合行動裝置的形狀。未來手機上的 AI 功能差距,會有一部分來自模型本身,另一部分來自誰能把同一顆晶片上的記憶體搬得更少。
03 · Cursor iOS:code agent 開始跟著人移動
Cursor 6 月 29 日推出 iOS 原生 app public beta,付費用戶可以在手機上選 repo、用文字或語音啟動 agent,也能遠端控制電腦上正在跑的 agent。Cursor 說,cloud agents 會在隔離的 virtual machines 裡執行,產生 demo、screenshot、log 和 diff,使用者可在手機上 review、補指令或合併 PR(來源:Cursor)。
Cursor 的移動端重點是接手長任務裡需要人判斷的時刻:on-call 收到警報時先讓 agent 調查,客服回報緊急 bug 時先讓 agent 重現問題,看到其他 app 裡的使用者回饋時截圖丟給 agent 當 visual context。Live Activities 和推播則把 agent 完成、需要輸入、等待 review 這些狀態放到鎖屏(來源:Cursor)。
AI 編程工具的介面因此從編輯器延伸到通知系統。以前 code agent 常被想像成坐在 IDE 裡的助手,Cursor iOS 把它變成一段可被手機接續的工作流程。真正的變化在節奏:人不必守著終端機等任務跑完,但要在正確時間看 diff、看截圖、決定是否合併。
04 · BIS 警告 AI 投資循環:算力支出也會變成金融風險
Bank for International Settlements 的年度經濟報告把 AI 投資熱潮列入全球風險。Business Recorder 引述 Reuters 報導,BIS 認為 AI 帶來的生產力期待支持了信心與成長,但供應瓶頸、激烈競爭與過度投資可能讓這波支出走向 boom-and-bust cycle。報導也提到,AI boom 的融資越來越依賴 debt 和複雜供應鏈 funding structures(來源:Business Recorder / Reuters)。
這類警告容易被讀成「AI 會不會破泡沫」的二選一,實際問題更像現金流時間差。資料中心、晶片、電力與網路先燒錢,應用收入與生產力提升後面才驗收。若資本支出和可回收收入錯開太久,壓力會從科技公司報表傳到債務市場、私募信用和供應鏈付款條件。
放回今天的其他新聞,這條線接到 Jalapeno 和 Gemini Nano 的成本問題。大家都在追求更便宜、更穩的推論,原因分成兩層:產品端讓使用者少等幾秒,資本端讓每一美元算力投入產生更多可驗證的使用量。
05 · GLM-5.2:開放權重模型把長任務推進 1M context
Z.ai 6 月 17 日在 Hugging Face 發布 GLM-5.2,主軸是 long-horizon tasks 與 1M-token context。官方說,GLM-5.2 相比 GLM-5.1 在長任務能力上有明顯提升,採 MIT open-source license,模型權重可在 Hugging Face 與 ModelScope 取得,也支援 transformers、vLLM、SGLang、xLLM、ktransformers 等推論框架(來源:Hugging Face / Z.ai)。
技術上,GLM-5.2 用 IndexShare 降低 1M context 下 sparse attention indexer 的計算成本,並改善 MTP layer 的 speculative decoding。Z.ai 公布的 ablation 顯示,IndexShare、KV Share、rejection sampling 和 end-to-end TV loss 疊加後,MTP acceptance length 提升約 20%。官方也把 coding-agent 的 anti-hack 寫進訓練與評估流程,用規則過濾加 LLM judge 偵測 agent 讀 protected evaluation artifacts、複製 reference answer、或用 curl 直接抓 target source 等 reward hacking 行為(來源:Hugging Face / Z.ai)。
這讓開放權重模型的競爭焦點從「能不能回答」推到「能不能跑很久」。1M context 本身只是容量,真正有價值的是在長程 coding、debugging、research 和工具使用軌跡中維持品質,並防止 agent 用旁門路徑拿到分數。GLM-5.2 把這些工程細節公開,會迫使閉源模型用更清楚的可靠性、安全和服務責任來說服企業。
06 · Prompt injection 新論文:agent 安全要靠架構分層
arXiv 6 月 25 日出現一篇安全論文,題為〈On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models〉。作者主張,對共享 embedding pipeline 的模型來說,只靠模型內分類或 alignment 來完全防止 prompt injection,在數學上做不到。原因在於可信指令與不可信資料進入同一套表示與 attention 路徑,模型很難保證控制行為只依賴語意,而不受資料編碼方式影響(來源:arXiv)。
這篇論文把 prompt injection 類比成程式世界裡的 code-data confusion。緩解 buffer overflow 靠過 DEP、ASLR、stack canary、memory-safe language 等多層防線;agent 安全也需要類似的系統設計,單一 guardrail 承擔不了全部風險。作者的結論是,指令通道和資料通道需要架構層分離(來源:arXiv)。
這和 GLM-5.2 的 anti-hack、Cursor 的 cloud agent、OpenAI 的推論平台放在一起看,會得到很務實的結論:agent 越接近真實工作,安全就越不像一段 prompt。它會變成權限、sandbox、日誌、工具白名單、人工確認、資料來源標記和失敗處理的組合。模型能力往前跑,產品架構要跟上。
🐧 Penna 的觀察
今天的六則新聞都指向同一個瓶頸:AI 已經不缺 demo,缺的是把 demo 放進日常工作後仍然可負擔、可驗證、可追蹤。
OpenAI 做推論晶片,Google 改手機端 decoding,BIS 提醒資本支出會回頭測試金融系統,這三則其實在算同一本帳。AI 產品要普及,就要把每次推論、每段長任務、每瓦電和每 GB 記憶體都算清楚。成本不再只是雲端帳單,它會一路連到晶片 roadmap、資料中心建設和債務融資。
Cursor、GLM-5.2 與 prompt injection 論文則把另一半補上。Agent 可以離開桌面、跑更久、讀更多 context,也就更需要知道哪些動作可被授權、哪些資料不能被當成指令、哪些高分其實是鑽漏洞。下半年的 AI 競爭會少一點單次回答,多一點長任務的總成本與總風險管理。
Sources: OpenAI: OpenAI and Broadcom unveil LLM-optimized inference chip, Google Research: Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction, Cursor: Build from anywhere with Cursor for iOS, Business Recorder / Reuters: BIS says debt, AI boom and fragilities raise global risks, Hugging Face / Z.ai: GLM-5.2, Built for Long-Horizon Tasks, arXiv: On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models]
Penna 🐧 · penchan.co · 2026.06.30