Grok 一開始以對話見長,但 xAI 在 2024 年底把圖片生成也塞進來了。現在的 Grok Imagine 不只能生圖,連短影片都能跑,而且整個功能就在你聊 Grok 的同一個介面裡。

問題是,免費版能不能用?能做到什麼程度?這篇把 Grok Imagine 的底細講清楚。

認識 Grok Imagine

Grok Imagine 是 xAI 內建在 Grok 裡的 AI 圖片暨短影片生成功能,底層模型叫做 Aurora,於 2024 年 12 月推出。

Aurora 的技術路線和 Stable Diffusion 或 DALL-E 不一樣,它不跑擴散架構,而是用自回歸 MoE(Mixture of Experts)。這個差異帶來一個實際效果:圖片裡的文字渲染。擴散模型生的圖,裡面的英文字母常常拼錯、中文字常常亂掉;Aurora 因為架構不同,在這個問題上表現明顯好一截。如果你需要生成帶有標語、說明文字、品牌名稱的圖,這個差異很有感。

功能集中在 Grok 介面的「Imagine」分頁,入口有三個:

  • grok.com 的 Imagine 分頁(瀏覽器版,最完整)
  • X app / x.com 裡的 Grok 介面
  • Grok iOS / Android 獨立 app

用哪個入口都需要 X 帳號或 xAI 帳號登入。

怎麼用 Grok Imagine

步驟直接:

  1. grok.com 或打開 Grok app,登入帳號
  2. 確認你有付費方案,免費版看得到 Imagine 分頁,點下去是付費牆(2026/3/19 起)
  3. 進入「Imagine」分頁
  4. 打 prompt(主體+動作+場景+風格+技術細節;繁體中文 prompt 可以直接用)
  5. 選長寬比(橫、直、正方形等)
  6. 點 Generate,生圖約 3–5 秒,影片約 17–30 秒
  7. 不滿意就點 Regenerate,或在同一個對話裡追加指令微調(「光線再暗一點」、「移除背景裡的人」)
  8. 下載,或直接分享到 X

Prompt 技巧上,越具體越好:主體的外形、動作、背景、光線、鏡頭、風格,能寫的都寫進去。Grok 在同一個對話裡記得前面的圖和指令,所以不用每次從頭重寫 prompt,追加一句微調比重來過有效率。

繁體中文 prompt 直接輸入沒問題。偶爾 Grok 的回覆訊息會混入簡體用語,加上「請用台灣繁體中文」可以改善。

Grok Imagine 介面:Featured Templates 與「Type to imagine」輸入框

免費版無法生圖

這件事值得單獨說清楚:免費帳號目前無法使用 Grok Imagine

2026 年 3 月 19 日之後,免費版的 Imagine 分頁入口還在,但點進去會跳出訂閱提示。這個變動跟 2026 年初的 deepfake 風波有直接關係(後面一節會講)。若有看到網路上說「Grok 可以免費生圖」的文章,注意看發布日期,那些資訊在 3 月底之後就過時了。

價格

免費版不能生圖,要用 Grok Imagine 得訂閱付費方案。xAI 的專屬方案有兩個(常有限時折扣,恢復後的原價如下):

  • SuperGrok:約 US$30/月,一般使用者的主力選擇,含影片生成。
  • SuperGrok Heavy:約 US$300/月,給高頻、專業用途。

此外,訂閱 X Premium / X Premium+ 也含 Grok 的進階存取(順帶取得,不是專為生圖設計的方案)。各方案的實際生圖額度 xAI 沒有公開、各方說法不一,以 grok.com 當下顯示為準。

SuperGrok 與 SuperGrok Heavy 訂閱方案(畫面為限時折扣)

API 方面,標準模型每張圖約 US$0.02、Pro 模型約 US$0.07(以官方最新定價為準)。

Grok Imagine 能做什麼

文字生圖片

輸入文字 prompt,選長寬比(支援多種橫直比),約 3–5 秒出圖,生圖速度在主流 AI 生圖工具裡算快的(實際解析度選項以官方介面為準)。

圖內文字渲染是 Aurora 的顯著強項。你要生一張帶廣告語的海報、一張有品牌 Logo 文字的產品圖,Aurora 的文字準確率比擴散架構的工具好一截。圖內繁體中文文字目前沒有系統性公開實測,建議自行測試確認。

圖片編輯與風格轉換

可上傳參考圖(數量以官方介面為準),做風格轉換或指定元素替換。比方說上傳一張產品照,讓 Grok 把它轉成水墨畫風格,或把背景換成指定場景。編輯深度比 Photoshop AI 工具淺,但在對話流程裡操作很直覺。

短影片生成

在 Imagine 裡輸入 prompt 也能生成影片:

  • 長度約 6–15 秒
  • 解析度 720p,幀率 24fps
  • 生成時間約 17–30 秒

跟專門的影片生成工具(例如 Kling)比,影片長度短、解析度較低、動態連貫性也差一截,這個落差目前還蠻明顯的。Grok 影片功能的優勢主要是和對話介面的整合:你在聊 Grok 的同一個視窗裡打幾個字就能出影片,入門門檻低。

現階段沒有音訊生成功能。

deepfake 風波與內容政策

2025 年底到 2026 年初,Grok Imagine 因為被大量用於生成未經同意的 deepfake 影像(受害者多為女性與公眾人物)而引發廣泛批評。事件延燒後,xAI 先在 1 月 9 日把生圖限定付費用戶、大幅收緊內容過濾,接著在 3 月 19 日全面取消免費版的生圖功能。

這件事定義了 Grok Imagine 在 2026 年的現狀:更嚴格的 NSFW 過濾、明顯縮窄的「允許範圍」,以及更高的使用門檻(需付費)。

Grok 早期以相對寬鬆的生成尺度聞名,網路上有不少第三方文章教如何突破限制。目前多數此類做法違反 xAI ToS,帳號有被停用的風險,這裡不說明操作方式。

xAI 的內容政策仍在持續調整,細節以 docs.x.aix.ai/news 的官方公告為準。

跟其他工具比

Grok Imagine(Aurora)MidjourneyKling
圖內文字較弱n/a
藝術風格普通n/a
寫實攝影n/a
圖片編輯深度n/a
影片長度6–15 秒n/a更長
影片品質普通n/a
X 整合原生
入門成本需付費方案需付費需付費

幾個判斷基準:

選 Grok Imagine 的情況:你原本就用 Grok、需要圖內文字準確、或想要生圖和 X 發文整合在一個流程裡。

影片選專門工具(如 Kling)的情況:需要超過 15 秒、或對動態連貫性要求高。Grok 的影片功能目前還在早期階段。

圖片藝術風格選 Midjourney 的情況:需要細膩的藝術方向控制、風格一致性、或進階圖片編輯。

結論

Aurora 的圖內文字渲染是真實的差異化優勢,不是行銷說法。這個架構選擇讓它在特定場景(品牌圖、資訊圖、帶標語的社群圖)比同類工具好用,不需要事後去 Canva 加字。

影片功能目前的定位比較像「能用但不驚豔」。Kling 這類專門影片工具在這個賽道領先蠻多的,Grok 的短影片更適合拿來快速驗證視覺概念,不適合作為正式影片內容的輸出工具。

取消免費生圖這件事讓 Grok Imagine 的使用門檻明顯提高了,而且付費理由目前主要來自圖內文字和 X 整合這兩點,如果這兩個不是你的剛需,Midjourney 或其他免費生圖工具可能更合算。付費入場的話,SuperGrok(約 US$30/月)的 CP 值比 X Premium+ 好,方案數字以官方為準。

延伸閱讀


整理:Penna|小企鵝 Penchan