Grokはもともと会話AIとして始まりましたが、xAIは2024年末に画像生成機能も追加しました。今のGrok Imagineは画像だけでなく短動画も生成でき、Grokと同じチャット画面の中で完結します。
無料で使えるのか、どこまでできるのか。この記事でGrok Imagineの全体像を整理します。
Grok Imagineとは
Grok ImagineはxAIがGrokに内蔵したAI画像・短動画生成機能で、底層モデルはAuroraと呼ばれ、2024年12月に登場しました。
Auroraの技術的な立ち位置はStable DiffusionやDALL-Eとは違います。拡散モデルではなく、**自回帰MoE(Mixture of Experts)**を使っています。この違いが実際の体験に影響するのが、画像内テキストの描画精度です。拡散モデルで生成した画像には英語のスペルミスや文字化けがよく起きますが、Auroraはアーキテクチャが違うため、この問題への対処が明らかに優れています。キャッチコピー入りのバナーや、ブランド名が入った製品画像を作りたい場面では、この差がはっきりわかります。
機能はGrokの「Imagine」タブに集約されており、入口は3つ:
- grok.com のImagineタブ(ブラウザ版、最も機能が揃っている)
- X app / x.com 内のGrokインターフェース
- Grok iOS / Android アプリ
どの入口でも、XアカウントまたはxAIアカウントでのログインが必要です。
Grok Imagineの使い方
手順はシンプルです:
- grok.com またはGrokアプリを開いてログイン
- 有料プランを確認。無料版でもImagineタブは見えますが、クリックすると課金ウォールが出ます(2026/3/19以降)
- 「Imagine」タブを開く
- プロンプトを入力(被写体+動作+シーン+スタイル+技術的な詳細)
- アスペクト比を選ぶ(横長・縦長・正方形など)
- Generateを押す。画像は約3〜5秒、動画は約17〜30秒で生成される
- 気に入らなければRegenerateを押すか、同じ会話内で追加指示を入れて微調整(「光をもっと暗くして」「背景の人を消して」など)
- ダウンロード、またはXに直接シェア
プロンプトは具体的であるほど良い結果が出ます。被写体の外形・動き・背景・光・カメラアングル・スタイルを書けるだけ書き込む。Grokは同じ会話内で前の画像と指示を記憶しているので、毎回プロンプトを一から書き直す必要はなく、追加の一言で調整するほうが効率的です。

無料版では画像生成できない
ここは明確にしておきたいポイントです。無料アカウントでは現在Grok Imagineを使えません。
2026年3月19日以降、無料版でもImagineタブの入口はありますが、クリックするとサブスクリプションの案内が表示されます。この変更は2026年初頭のdeepfake問題と直結しています(後述)。「Grokは無料で画像生成できる」という記事を見かけた場合は、公開日を確認してください。3月末以降はその情報は古くなっています。
料金
無料版では生成できないため、Grok Imagineを使うには有料プランへの加入が必要です。xAI専用のプランは2つ(期間限定割引が入ることがあり、以下は通常価格):
- SuperGrok:約US$30/月。一般ユーザーの主力選択肢で、動画生成も含む。
- SuperGrok Heavy:約US$300/月。高頻度・プロ用途向け。
このほか、X Premium / X Premium+ に加入するとGrokへのアクセスも含まれます(画像生成専用のプランではなく、ついてくる形)。実際の生成枠はxAIが非公開のためまちまちな情報が出回っており、grok.comの表示を基準にするのが確実です。

API利用の場合、標準モデルは1枚あたり約US$0.02、Proモデルは約US$0.07(公式の最新価格で確認してください)。
できること
テキストから画像生成
テキストプロンプトを入力してアスペクト比を選ぶと、約3〜5秒で画像が出てきます。主流のAI画像生成ツールと比べても生成速度は速いほうです(実際の解像度オプションは公式インターフェースで確認してください)。
画像内テキストの描画がAuroraの際立った強みです。広告コピー入りのポスターや、ブランド名が入った製品画像を作るとき、Auroraの文字精度は拡散モデルのツールより一段上です。日本語テキストの描画精度については公開された系統的な検証がないため、実際に試して確認することをおすすめします。
画像編集・スタイル変換
参考画像をアップロードして(枚数は公式インターフェースで確認)、スタイル変換や特定要素の置き換えができます。たとえば製品写真をアップして、それを水墨画スタイルに変換したり、背景だけ別のシーンに差し替えたりする使い方です。Photoshop系のAIツールと比べると編集の深さは浅めですが、チャット画面の中で完結するのは直感的です。
短動画生成
Imagineタブにプロンプトを入力すると動画も生成できます:
- 長さ:約6〜15秒
- 解像度:720p、フレームレート:24fps
- 生成時間:約17〜30秒
Klingのような専門の動画生成ツールと比べると、動画の長さ・解像度・モーションの滑らかさで差があります。この差は今のところ明らかです。Grokの動画機能の強みは、チャット画面との統合にあります。Grokと話している同じ画面でプロンプトを打つだけで動画が出てくる気軽さは、入門ハードルが低い。
音声生成機能は現時点でありません。
deepfake問題とコンテンツポリシー
2025年末から2026年初頭にかけて、Grok Imagineが無断deepfake画像の大量生成(被害者は主に女性や著名人)に使われたとして広く批判を受けました。問題が広がる中でxAIは1月9日に画像生成を有料ユーザー限定に変更してコンテンツフィルターを大幅に強化し、さらに3月19日には無料版の画像生成を完全に廃止しました。
この経緯が、2026年のGrok Imagineの現在地を定義しています。より厳しいNSFWフィルター、許容範囲の縮小、そして高くなった利用ハードル(有料のみ)。
Grokはかつて比較的ゆるい生成ポリシーで知られており、制限を回避する方法を説明するサードパーティ記事が多数存在します。現在はほとんどのそういった手法がxAIのToSに違反しており、アカウント停止のリスクがあるため、ここでは取り上げません。
xAIのコンテンツポリシーは継続的に更新されています。詳細は docs.x.ai と x.ai/news の公式発表を確認してください。
他ツールとの比較
| Grok Imagine(Aurora) | Midjourney | Kling | |
|---|---|---|---|
| 画像内テキスト | 強い | 弱め | n/a |
| アートスタイル | 普通 | 強い | n/a |
| 写実的な写真風 | 強い | 強い | n/a |
| 画像編集の深さ | 浅め | 中程度 | n/a |
| 動画の長さ | 6〜15秒 | n/a | より長い |
| 動画品質 | 普通 | n/a | 強い |
| X連携 | ネイティブ | なし | なし |
| 利用コスト | 有料プラン必須 | 有料 | 有料 |
判断の基準をまとめると:
Grok Imagineを選ぶとき:もともとGrokを使っていて、画像内テキストが正確に出てほしい、またはXへの投稿と画像生成を一つのフローにまとめたい場合。
動画は専門ツール(Klingなど)を選ぶとき:15秒を超える動画が必要、またはモーションの滑らかさを重視する場合。Grokの動画機能はまだ初期段階です。
アート系画像はMidjourneyを選ぶとき:アートディレクションの細かいコントロール、スタイルの一貫性、高度な画像編集が必要な場合。
まとめ
Auroraの画像内テキスト描画は、マーケティング的な誇張ではなく本物の差別化ポイントです。このアーキテクチャの選択により、キャッチコピー入りのバナー、情報グラフィック、テキスト入りのSNS画像といった用途で、同類のツールより明らかに使いやすい。Canvaで後からテキストを重ねなくていい。
動画機能の現在地は「使えるけど感動はない」というレベルです。Klingのような専門ツールはこの領域でかなり先に出ており、Grokの短動画はビジュアルアイデアを素早く検証するのには使えますが、最終的な動画コンテンツのアウトプットには向いていません。
無料での画像生成が廃止されたことで、Grok Imagineの利用ハードルは確実に上がりました。有料の理由は今のところ画像内テキストとX連携の2点が中心なので、その2つが自分の必須要件でなければ、MidjourneyやほかのAI画像生成ツールのほうが合理的な選択になるかもしれません。それでも有料で使うなら、SuperGrok(約US$30/月)のコスパはX Premium+より優れています。プランの数字は公式で確認してください。
あわせて読む
— Penna|小企鵝 Penchan