今天 AI 日報的主線是什麼？

主線是 AI 從模型展示轉向可負擔的推論、手機端工作流與 agent 安全架構。

OpenAI 與 Broadcom 的 Jalapeno 為什麼重要？

它把 ChatGPT、Codex、API 和未來 agent 產品的推論需求拉進晶片設計，代表模型公司正往硬體與資料中心層延伸。

Cursor iOS 對 code agent 代表什麼變化？

它讓開發者能在手機上啟動、追蹤、審閱和合併 agent 工作，把 code agent 從 IDE 延伸成可移動的工作流程。

推論晶片登場，手機端 agent 開始接班 | AI 脈動

今天的 AI 主線從資料中心往口袋裡移動。OpenAI 把推論晶片拉進產品路線，Google 在 Pixel 上省下行動端推論成本，Cursor 則把 code agent 放進手機鎖屏通知裡。

01 · OpenAI 與 Broadcom Jalapeno：推論晶片進入產品策略
02 · Gemini Nano on Pixel：手機端模型先解決速度和記憶體
03 · Cursor iOS：code agent 開始跟著人移動
04 · BIS 警告 AI 投資循環：算力支出也會變成金融風險
05 · GLM-5.2：開放權重模型把長任務推進 1M context
06 · Prompt injection 新論文：agent 安全要靠架構分層

01 · OpenAI 與 Broadcom Jalapeno：推論晶片進入產品策略

OpenAI 與 Broadcom 6 月 24 日公布 Jalapeno，OpenAI 稱它是公司第一顆 Intelligence Processor，從一開始就為大型語言模型推論設計。官方說，這顆晶片會進入一個多世代 compute platform，初始部署目標在 2026 年底，並由 Broadcom、Celestica 與資料中心夥伴一起把晶片、板卡、rack system、networking 和量產串起來（來源：OpenAI）。

推論晶片看的是日常使用成本與延遲。訓練讓模型長出能力，推論決定 ChatGPT 回答、Codex 長任務、API 產品與未來 agent 工作流能不能以更低延遲和更穩定成本運作。OpenAI 在公告裡寫到，Jalapeno 的設計參考了 ChatGPT、Codex、API 和 agentic products 的 kernels、memory movement、networking 與 serving patterns，早期測試顯示 performance per watt 可望高於現有水準（來源：OpenAI）。

這讓模型公司往硬體層再跨一步。當 agent 任務變長，成本會來自整段工作流：讀取上下文、呼叫工具、重試、驗證、產生 artifacts。Jalapeno 的訊號是，模型競爭正在把產品需求反推到晶片與資料中心設計，推論效率會直接影響哪些 AI 功能能被做成日用品。

02 · Gemini Nano on Pixel：手機端模型先解決速度和記憶體

Google Research 6 月 26 日公開 Pixel 上的 frozen Multi-Token Prediction 架構，用來加速 Gemini Nano v3。這套方法把輕量預測頭接到已凍結的生產模型尾端，讓模型一次預測多個 token，再由主模型驗證；Google 說它已經在 Pixel 9 和 Pixel 10 系列推出，能讓裝置端推論速度提升超過 50%（來源：Google Research）。

手機端 AI 的瓶頸很具體：電力、RAM、記憶體頻寬。傳統 speculative decoding 常需要另一個 draft model，手機上等於多一份啟動與 KV cache 成本。Google 的做法是讓 MTP 頭透過 cross-attention 讀主模型既有 cache，避免另外維護一組 cache；官方說 zero-copy mechanism 大約省下 130MB RAM，通知摘要、文字校對、智慧回覆等 Pixel 功能因此能更快也更省電（來源：Google Research）。

這則新聞把 on-device AI 的現實面講清楚。模型端再強，進到手機後先遇到的是電池和記憶體。Google 把 Gemini Nano 的推論方式改成更適合行動裝置的形狀。未來手機上的 AI 功能差距，會有一部分來自模型本身，另一部分來自誰能把同一顆晶片上的記憶體搬得更少。

03 · Cursor iOS：code agent 開始跟著人移動

Cursor 6 月 29 日推出 iOS 原生 app public beta，付費用戶可以在手機上選 repo、用文字或語音啟動 agent，也能遠端控制電腦上正在跑的 agent。Cursor 說，cloud agents 會在隔離的 virtual machines 裡執行，產生 demo、screenshot、log 和 diff，使用者可在手機上 review、補指令或合併 PR（來源：Cursor）。

Cursor 的移動端重點是接手長任務裡需要人判斷的時刻：on-call 收到警報時先讓 agent 調查，客服回報緊急 bug 時先讓 agent 重現問題，看到其他 app 裡的使用者回饋時截圖丟給 agent 當 visual context。Live Activities 和推播則把 agent 完成、需要輸入、等待 review 這些狀態放到鎖屏（來源：Cursor）。

AI 編程工具的介面因此從編輯器延伸到通知系統。以前 code agent 常被想像成坐在 IDE 裡的助手，Cursor iOS 把它變成一段可被手機接續的工作流程。真正的變化在節奏：人不必守著終端機等任務跑完，但要在正確時間看 diff、看截圖、決定是否合併。

04 · BIS 警告 AI 投資循環：算力支出也會變成金融風險

Bank for International Settlements 的年度經濟報告把 AI 投資熱潮列入全球風險。Business Recorder 引述 Reuters 報導，BIS 認為 AI 帶來的生產力期待支持了信心與成長，但供應瓶頸、激烈競爭與過度投資可能讓這波支出走向 boom-and-bust cycle。報導也提到，AI boom 的融資越來越依賴 debt 和複雜供應鏈 funding structures（來源：Business Recorder / Reuters）。

這類警告容易被讀成「AI 會不會破泡沫」的二選一，實際問題更像現金流時間差。資料中心、晶片、電力與網路先燒錢，應用收入與生產力提升後面才驗收。若資本支出和可回收收入錯開太久，壓力會從科技公司報表傳到債務市場、私募信用和供應鏈付款條件。

放回今天的其他新聞，這條線接到 Jalapeno 和 Gemini Nano 的成本問題。大家都在追求更便宜、更穩的推論，原因分成兩層：產品端讓使用者少等幾秒，資本端讓每一美元算力投入產生更多可驗證的使用量。

05 · GLM-5.2：開放權重模型把長任務推進 1M context

Z.ai 6 月 17 日在 Hugging Face 發布 GLM-5.2，主軸是 long-horizon tasks 與 1M-token context。官方說，GLM-5.2 相比 GLM-5.1 在長任務能力上有明顯提升，採 MIT open-source license，模型權重可在 Hugging Face 與 ModelScope 取得，也支援 transformers、vLLM、SGLang、xLLM、ktransformers 等推論框架（來源：Hugging Face / Z.ai）。

技術上，GLM-5.2 用 IndexShare 降低 1M context 下 sparse attention indexer 的計算成本，並改善 MTP layer 的 speculative decoding。Z.ai 公布的 ablation 顯示，IndexShare、KV Share、rejection sampling 和 end-to-end TV loss 疊加後，MTP acceptance length 提升約 20%。官方也把 coding-agent 的 anti-hack 寫進訓練與評估流程，用規則過濾加 LLM judge 偵測 agent 讀 protected evaluation artifacts、複製 reference answer、或用 curl 直接抓 target source 等 reward hacking 行為（來源：Hugging Face / Z.ai）。

這讓開放權重模型的競爭焦點從「能不能回答」推到「能不能跑很久」。1M context 本身只是容量，真正有價值的是在長程 coding、debugging、research 和工具使用軌跡中維持品質，並防止 agent 用旁門路徑拿到分數。GLM-5.2 把這些工程細節公開，會迫使閉源模型用更清楚的可靠性、安全和服務責任來說服企業。

06 · Prompt injection 新論文：agent 安全要靠架構分層

arXiv 6 月 25 日出現一篇安全論文，題為〈On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models〉。作者主張，對共享 embedding pipeline 的模型來說，只靠模型內分類或 alignment 來完全防止 prompt injection，在數學上做不到。原因在於可信指令與不可信資料進入同一套表示與 attention 路徑，模型很難保證控制行為只依賴語意，而不受資料編碼方式影響（來源：arXiv）。

這篇論文把 prompt injection 類比成程式世界裡的 code-data confusion。緩解 buffer overflow 靠過 DEP、ASLR、stack canary、memory-safe language 等多層防線；agent 安全也需要類似的系統設計，單一 guardrail 承擔不了全部風險。作者的結論是，指令通道和資料通道需要架構層分離（來源：arXiv）。

這和 GLM-5.2 的 anti-hack、Cursor 的 cloud agent、OpenAI 的推論平台放在一起看，會得到很務實的結論：agent 越接近真實工作，安全就越不像一段 prompt。它會變成權限、sandbox、日誌、工具白名單、人工確認、資料來源標記和失敗處理的組合。模型能力往前跑，產品架構要跟上。

🐧 Penna 的觀察

今天的六則新聞都指向同一個瓶頸：AI 已經不缺 demo，缺的是把 demo 放進日常工作後仍然可負擔、可驗證、可追蹤。

OpenAI 做推論晶片，Google 改手機端 decoding，BIS 提醒資本支出會回頭測試金融系統，這三則其實在算同一本帳。AI 產品要普及，就要把每次推論、每段長任務、每瓦電和每 GB 記憶體都算清楚。成本不再只是雲端帳單，它會一路連到晶片 roadmap、資料中心建設和債務融資。

Cursor、GLM-5.2 與 prompt injection 論文則把另一半補上。Agent 可以離開桌面、跑更久、讀更多 context，也就更需要知道哪些動作可被授權、哪些資料不能被當成指令、哪些高分其實是鑽漏洞。下半年的 AI 競爭會少一點單次回答，多一點長任務的總成本與總風險管理。

Sources: OpenAI: OpenAI and Broadcom unveil LLM-optimized inference chip, Google Research: Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction, Cursor: Build from anywhere with Cursor for iOS, Business Recorder / Reuters: BIS says debt, AI boom and fragilities raise global risks, Hugging Face / Z.ai: GLM-5.2, Built for Long-Horizon Tasks, arXiv: On the Inseparability of Instructions and Data in Shared-Embedding Sequence Models]

Penna 🐧 · penchan.co · 2026.06.30