Grok 最初以对话见长,但 xAI 在 2024 年底把图片生成也加了进来。现在的 Grok Imagine 不只能生图,连短视频也能生成,整个功能就集成在你和 Grok 对话的同一个界面里。

问题是,免费版能不能用?能做到什么程度?这篇把 Grok Imagine 的细节讲清楚。

认识 Grok Imagine

Grok Imagine 是 xAI 内置在 Grok 里的 AI 图片和短视频生成功能,底层模型叫做 Aurora,于 2024 年 12 月推出。

Aurora 的技术路线和 Stable Diffusion 或 DALL-E 不同,它不走扩散架构,而是采用自回归 MoE(Mixture of Experts)。这个差异带来一个实际效果:图片内的文字渲染。扩散模型生成的图,里面的英文字母常常拼错、中文字也常常乱掉;Aurora 因为架构不同,在这个问题上的表现明显更好。如果你需要生成带有标语、说明文字、品牌名称的图,这个差异感受很明显。

功能集中在 Grok 界面的「Imagine」标签页,入口有三个:

  • grok.com 的 Imagine 标签页(浏览器版,最完整)
  • X app / x.com 内的 Grok 界面
  • Grok iOS / Android 独立 app

无论哪个入口,都需要 X 账号或 xAI 账号登录。

怎么用 Grok Imagine

步骤很直接:

  1. 打开 grok.com 或 Grok app,登录账号
  2. 确认你有付费方案,免费版看得到 Imagine 标签页,但点进去是付费墙(2026/3/19 起)
  3. 进入「Imagine」标签页
  4. 输入 prompt(主体 + 动作 + 场景 + 风格 + 技术细节;中文 prompt 可以直接用)
  5. 选择宽高比(横版、竖版、正方形等)
  6. 点 Generate,生图约 3–5 秒,视频约 17–30 秒
  7. 不满意就点 Regenerate,或在同一个对话里追加指令微调(比如「光线再暗一点」、「去掉背景里的人」)
  8. 下载,或直接分享到 X

Prompt 技巧上,越具体越好:主体的外形、动作、背景、光线、镜头、风格,能写的都写进去。Grok 在同一个对话里记得前面的图和指令,所以不用每次从头重写 prompt,追加一句微调比重新开始更高效。

中文 prompt 直接输入没问题。偶尔 Grok 的回复消息语气会不太一致,加上「请用简体中文回复」可以改善。

Grok Imagine 界面:Featured Templates 与「Type to imagine」输入框

免费版无法生图

这件事需要单独说清楚:免费账号目前无法使用 Grok Imagine

2026 年 3 月 19 日之后,免费版的 Imagine 标签页入口还在,但点进去会出现订阅提示。这个变动和 2026 年初的 deepfake 风波直接相关(后面一节会详细说)。如果你在网上看到「Grok 可以免费生图」的文章,注意发布日期,3 月底之后那些信息就已经过时了。

价格

免费版不能生图,要用 Grok Imagine 必须订阅付费方案。xAI 的专属方案有两个(时常有限时折扣,以下为原价参考):

  • SuperGrok:约 US$30/月,普通用户的主力选择,含视频生成。
  • SuperGrok Heavy:约 US$300/月,面向高频、专业用途。

此外,订阅 X Premium / X Premium+ 也包含 Grok 的高级访问权限(顺带获得,不是专为生图设计的方案)。各方案的实际生图额度 xAI 没有公开、各方说法不一,以 grok.com 当前显示为准。

SuperGrok 与 SuperGrok Heavy 订阅方案(画面为限时折扣期间)

API 方面,标准模型每张图约 US$0.02、Pro 模型约 US$0.07(以官方最新定价为准)。

Grok Imagine 能做什么

文字生图

输入文字 prompt,选择宽高比(支持多种横竖比例),约 3–5 秒出图,生图速度在主流 AI 生图工具里算快的(实际分辨率选项以官方界面为准)。

图内文字渲染是 Aurora 的显著强项。要生成带广告语的海报、带品牌 Logo 文字的产品图,Aurora 的文字准确率比扩散架构的工具好一截。图内中文文字目前没有系统性公开测试,建议自行测试确认。

图片编辑与风格转换

可以上传参考图(数量以官方界面为准),进行风格转换或指定元素替换。比如上传一张产品照,让 Grok 把它转成水墨画风格,或把背景换成指定场景。编辑深度比 Photoshop AI 工具浅,但在对话流程里操作很直观。

短视频生成

在 Imagine 里输入 prompt 也能生成视频:

  • 时长约 6–15 秒
  • 分辨率 720p,帧率 24fps
  • 生成时间约 17–30 秒

和专业视频生成工具(比如 Kling)相比,视频时长短、分辨率较低、动态连贯性也差一些,这个差距目前还比较明显。Grok 视频功能的优势主要在于和对话界面的整合:在聊 Grok 的同一个窗口里输几个字就能出视频,上手门槛低。

目前没有音频生成功能。

deepfake 风波与内容政策

2025 年底到 2026 年初,Grok Imagine 因为被大量用于生成未经同意的 deepfake 图像(受害者多为女性和公众人物)而引发广泛批评。事件持续发酵后,xAI 先在 1 月 9 日将生图限定付费用户、大幅收紧内容过滤,随后在 3 月 19 日全面取消免费版的生图功能。

这件事定义了 Grok Imagine 在 2026 年的现状:更严格的 NSFW 过滤、明显收窄的「允许范围」,以及更高的使用门槛(需付费)。

Grok 早期以相对宽松的生成尺度著称,网上有不少第三方文章教如何绕过限制。目前多数此类做法违反 xAI 服务条款,账号有被封禁的风险,这里不说明具体操作。

xAI 的内容政策仍在持续调整,细节以 docs.x.aix.ai/news 的官方公告为准。

和其他工具对比

Grok Imagine(Aurora)MidjourneyKling
图内文字较弱n/a
艺术风格普通n/a
写实摄影n/a
图片编辑深度n/a
视频时长6–15 秒n/a更长
视频质量普通n/a
X 整合原生
入门成本需付费方案需付费需付费

几个判断基准:

选 Grok Imagine 的情况:你本来就在用 Grok、需要图内文字准确、或者想把生图和 X 发帖整合在同一个流程里。

视频选专业工具(如 Kling)的情况:需要超过 15 秒的视频,或对动态连贯性要求高。Grok 的视频功能目前还处于早期阶段。

图片艺术风格选 Midjourney 的情况:需要精细的艺术方向控制、风格一致性,或高级图片编辑能力。

结论

Aurora 的图内文字渲染是真实的差异化优势,不是营销说辞。这个架构选择让它在特定场景下(品牌图、信息图、带标语的社交媒体图)比同类工具好用,不需要事后去 Canva 手动加字。

视频功能目前的定位更像是「能用,但不惊艳」。Kling 这类专业视频工具在这条赛道上领先不少,Grok 的短视频更适合快速验证视觉概念,不适合作为正式视频内容的输出工具。

取消免费生图让 Grok Imagine 的使用门槛明显提高了,付费理由目前主要来自图内文字渲染和 X 整合这两点。如果这两个不是你的核心需求,Midjourney 或其他免费生图工具可能更合算。选择付费方案的话,SuperGrok(约 US$30/月)的性价比比 X Premium+ 高,具体数字以官方为准。

延伸阅读


整理:Penna|小企鵝 Penchan