AI画像生成ツールは多いですが、クリエイター界隈でMidjourneyの名前が出てこない会話はほとんどありません。理由はシンプルで、画質とアーティスティックな質感が同カテゴリのツールの中でトップクラスだからです。特に「誰かが真剣に描いたように見える絵」が必要なとき、その差は一目でわかります。

欠点もはっきりしています。無料トライアルがない、最低$10/月から、インターフェースは英語、そして画像内に日本語テキストを入れるのが本当に苦手です。自分に合っているかどうかは、何を一番重視するかによります。

Midjourneyとは

MidjourneyはMidjourney Inc.(創業者:David Holz)が開発した画像生成AIで、2022年7月に公開ベータを開始しました。最初からアーティスティックな画質で話題になったツールです。動画生成への進出も進めていますが、核心は変わらず、テキストプロンプトから静止画を生成することです。

DALL-EやStable Diffusionとは設計の方向性が違います。Midjourneyは「プロンプトを入力したら、アート作品のような一枚が返ってくる」という体験を重視しています。その選択がスタイルの美しさという面での強みを生んでいますが、一方でプロンプトへの忠実度がやや緩くなることがあります。「良い感じのもの」を出す傾向があって、必ずしも「指定したそのもの」が出るとは限りません。

2026年のデフォルトバージョンはV8.1(2026年6月10日リリース)。ネイティブ2K解像度、前世代比3〜5倍の速度、コスト約25%削減、人体描写の改善が加わっています。アニメ調のスタイルにはNiji V7という専用モデルに切り替えることもできます。

始め方

メインはweb app

2026年はDiscordを経由しなくて大丈夫です。ブラウザで midjourney.com を開けばすぐ始められます。

手順はこうです。

  1. midjourney.com にアクセスし、右上の「Sign In」をクリック
  2. GoogleアカウントまたはDiscordアカウントでログイン(メールアドレスのみでの登録はありません)
  3. プランを選んでサブスクリプションを開始する。画像生成にはサブスク必須で、無料トライアルはありません
  4. ログイン後、「Create」タブへ移動
  5. 下部の入力欄にプロンプトを入力してEnter
  6. Midjourneyが4枚のプレビュー画像を生成するのを待つ
  7. U1〜U4でアップスケール(拡大)、V1〜V4でバリエーション生成、気に入ったらダウンロード

フローはすべてブラウザ内で完結します。インストール不要で、国際クレジットカードで支払えます。

Midjourney公式サイト midjourney.com:GoogleまたはDiscordアカウントでログイン可能

Discordも引き続き使える

Discordに慣れている人、またはコミュニティで他のユーザーの生成画像を眺めたい人は、Discord経由でも問題ありません。MidjourneyのDiscordサーバーに参加して、チャンネル内で /imagine コマンドとプロンプトを入力すれば生成できます。web appとDiscordはアカウントとクォータを共有しているので、どちらで使っても残高や設定は同じです。

料金プラン

大前提:Midjourneyが販売しているのは枚数ではなく、GPU時間(Fast hours)です。 1枚あたりの消費時間は解像度やパラメータによって変わります。未使用のFast hoursは翌月に繰り越せません。

プラン月払い年払い(20%オフ)Fast hours/月RelaxモードStealthモード同時生成数
BasicUS$10US$83.3hなしなし3
StandardUS$30US$2415hありなし3
ProUS$60US$4830hありあり12
MegaUS$120US$9660hありあり12

選ぶときのポイントを整理します。

Relaxモード(Standard以上):Fast hoursを消費しない無制限の低速生成モードです。急がないけど量を出したい場面に向いていて、Standardプランの主な魅力はここにあります。

Stealthモード(Pro以上):デフォルトでは、Midjourneyで生成した画像は他のユーザーがExploreページで閲覧できます。Stealthをオンにすると、生成結果が自分だけに見える状態になります。商業用途や外に出したくない内容を扱うときに必要になる機能です。

商用ライセンス:有料プランにはすべて商用ライセンスが含まれます。年間売上が100万ドルを超える企業はライセンス条件上、ProまたはMegaが必要です。

著作権の注意点:商用ライセンスは含まれていますが、純粋にAIが生成した画像は米国の著作権法上、著作権保護の対象にならないケースが多いです。生成画像を他者も利用できる可能性があるという意味で、これはMidjourney固有の問題ではなくAI画像生成全般に共通する話です。

主な機能とパラメータ

モデルの切り替え

--v パラメータでバージョンを、--niji でアニメモデルに切り替えられます。何も指定しなければデフォルトはV8.1です。

a serene lake in autumn, photorealistic --v 8.1
anime style character portrait --niji 7

Niji V7はアニメ特化モデルです。V8.1よりもキャラクターや背景の日本的なアニメスタイルに向いていて、イラスト調の表現を重視するなら迷わずこちらを選んでください。

よく使うパラメータ

パラメータ機能使用例
--arアスペクト比(横:縦)--ar 16:9--ar 4:5(Instagram縦型)
--vバージョン指定--v 8.1
--nijiアニメモデルバージョン--niji 7
--srefスタイル参照画像URL--sref https://...
キャラクター参照キャラクターの外見を一貫させる(V7は --oref Omni Reference。バージョンによってパラメータが異なる)公式ドキュメントを参照
--rawMidjourneyの「美化」傾向を抑えるリアルな表現を求めるときに有効
--hd高解像度(2K)出力全プランで使用可能
--chaos4枚の画像の多様性(0〜100)--chaos 50(バリエーションを増やしたい時)
--stylize芸術的な表現の強さ(0〜1000)デフォルト100;高いほど「アート寄り」に

スタイルの一貫性:—srefとキャラクター参照

シリーズ作品を作るとき、この2つは特に実用的です。

--sref(スタイル参照):参照したい画像のURLを貼ると、その画像のスタイル・色調・雰囲気をMidjourneyが学んで新しいプロンプトに適用します。ブランドのビジュアルシリーズを作るときは、まず「基準画像」を1枚決めて、以降すべてに --sref を付けると視覚的な統一感を保てます。

キャラクター参照:キャラクターを異なるシーンで一貫した外見に保つ機能で、漫画のコマ割りやシリーズイラストに役立ちます。パラメータはMidjourneyのバージョンによって異なります(V7では --oref Omni Reference)。使う前に docs.midjourney.com で使用しているモデルバージョンの対応パラメータを確認してください。

後処理ツール

4枚が生成された後にも使えるオプションがあります。

  • Vary:元の画像をベースに、細かい変化や大きな変化を加えたバリエーションを生成
  • Zoom Out / Pan:画面を外側に拡張して、元の画像の外に何があるかを補完
  • Inpainting:選択した範囲だけ描き直す局所修正
  • 動画変換:静止画から短いアニメーションを生成(SD/HD出力、HDはStandard以上が必要)

パーソナルスタイル機能(Personal Style)は自分の好みのスタイルを記憶させられ、ムードボード(Moodboards)は参考画像をまとめてシリーズ管理するのに使えます。

日本語・中国語プロンプトについて

日本語でも入力できる、でも英語のほうが精度は高い

Midjourneyは日本語プロンプトを受け付けて、おおよその意味は理解します。ただ実際に使うといくつかのギャップがあります。

概念のマッピングが完全ではない:日本語の表現、特に文化的な背景を持つ言葉(「水墨」「仙境」「断崖の上の集落」など)は、Midjourneyが英語の対応概念をうまく拾えないことがあります。英語で書いたほうが意図に近い結果になりやすいです。

技術パラメータはすべて英語--ar--v--sref などのパラメータは、プロンプトが何語であっても英語で書きます。

実際に多い使い方は、主題や雰囲気を日本語か英日混在で書き、パラメータはすべて英語というパターンです。

静かな秋の湖面、霧がかかる、朝の光 --ar 16:9 --raw

こういう書き方でも普通に動きます。もし結果がイメージと違うなら、主要な描写を英語に切り替えると改善することが多いです。

画像内テキスト:Midjourneyの弱点

これは事前に知っておく価値のある大きなポイントです。

AI画像生成ツール全般にとって、「画像の中に文字を入れる」のは今でも難しい領域で、Midjourneyも例外ではありません。英語のテキストはここ数バージョンで改善されており、読める状態の英文を出せるようになってきています。ただしCJK文字(日本語・中国語・韓国語)はまだ弱く、漢字や仮名に似ているけど読めない形が出てくることがほとんどです。

対処法:文字が入った画像はMidjourneyに任せないことです。テキストなしで画像を生成して、あとからCanvaやPhotoshopで文字を重ねてください。この方法のほうがむしろ制御しやすくて、フォント・サイズ・レイアウトをすべて自分で決められます。Midjourneyに賭けるより確実です。

他のツールとの比較

MidjourneyNano BananaDALL-E / GPT ImageStable Diffusion
画質・アート性トップクラス良好良好モデルによりばらつきあり
無料トライアルなしあり無料枠あり完全無料(ローカル)
画像内CJKテキスト弱い比較的良好比較的良好モデルによる
プロンプト遵守度やや緩い中程度比較的厳密設定次第
スタイルの一貫性(シリーズ)--sref / キャラクター参照が強力中程度中程度追加ツールが必要
技術的ハードル低い低い低い高め(ローカル構築)
インターフェース言語英語日中対応日中対応英語が多い

シーンごとに整理するとこうなります。

アート性の高い画像が欲しいとき:Midjourney一択です。特にシリーズイラスト、雰囲気のある風景、ブランドビジュアルには向いています。--sref によるスタイル統一は今のところ他のツールより優れています。

画像内に日本語・中国語テキストを入れたいとき:生成はどのツールでもよくて、テキストはCanvaで重ねる、というフローが今のところ一番確実です。Midjourneyで直接テキスト入り画像を生成しようとするのは避けたほうがいいです。

予算を抑えたい、または試してから決めたいとき:DALL-E(ChatGPT Plusに無料枠あり)やNano Bananaには無料オプションがあります。Midjourneyにはありません。

完全にコントロールしたい、技術的なハードルを気にしないとき:Stable Diffusionをローカルで動かすのが無料かつ最も高い自由度ですが、学習コストがかかります。

対話しながら修正したいとき:Nano Bananaのチャット形式のインターフェースがこの用途により直感的です。Midjourneyの修正はパラメータとVaryが中心で、会話形式ではありません。

まとめ

Midjourneyの立ち位置はかなりはっきりしています。求めるスタイルが明確で、パラメータを調整する時間を惜しまず、アーティスティックな画質にこだわる人には今も最強の選択肢です。V8.1以降、その評価はさらに固まっています。

一方で「なぜ選ばないのか」も同じくらい正直に言うべきところがあります。

無料トライアルがないのはひとつの壁で、試す前に$10を払う判断を迫られます。プロンプトをうまく使えるか不安な人や、たまに数枚生成できれば十分という人には、この$10が踏み出しにくい金額になります。同じ$10あたりで考えると、ChatGPT Plus($20/月でDALL-E枠込み)のほうがプロンプト遵守度が高く、英語テキストの精度も安定しています。

プロンプト遵守度が「緩い」というのは、実際に使っていると確かに出てくる場面があります。「書棚のある部屋でオレンジ色の猫が机の上に座っている」と指定しても、「書棚があってオレンジの猫がいる、たぶん座っているか歩いている」みたいな結果が返ってくることがあります。画質はきれいでも、構図が望んだものではないというケースです。--raw で多少改善できますが、根本的な解決ではありません。

予算に余裕があり、アーティスティックな品質を重視し、シリーズ作品の一貫性が必要なら、Standard($30/月、Relaxモード無制限付き)を長期で使うのが一番コスパがいいと思います。たまに使う程度、またはプロンプトをどれだけ忠実に再現してくれるかを優先するなら、他のツールの方が向いている場面も多いです。

バージョンアップのペースは速く(最新情報は docs.midjourney.com を参照)、V9についての話もコミュニティで出ており、動画機能の拡充も続いています。基本的な判断軸は変わらないと思いますが、具体的な仕様は公式で確認してください。

あわせて読む


— Penchan