こんにちは、春日井コワーキングスペースRoom8オーナーの鶴田です!
先日、とあるホームページを見ていて、なんか妙に違和感のある画像に出くわしました。パッと見は普通の写真っぽいんですが、「なんかおかしいな…」って感じる。
僕がサイト制作とかやってるからこういう細かい所が気になるのかもしれないけど、AIって何でこんなに「AI感」が出るんだろうな?って所から考えたんです。
まずはこの画像を見てください:

一見普通に見えるけど、どことなく違和感感じませんか?実際には誰も誰とも目を合わせてない。左の男性は真ん中の女性を見てるけど、女性は別の方向、右の女性も違う場所を見てて、まるで3人がそれぞれ違う会話してるみたい。これ、DALL-Eの典型的な「なんか変」パターンなんです。
「ちょっと待て、これ調整できないのか?」と思って、自分でDALL-Eをいじってみたんです。プロンプト変えたり、指示を細かくしたり…でも結果は同じ。どうやっても視線の不自然さが解消されない。
「なら他のツールだとどうなんだ?」って試しにMidjourneyとImage-FXで同じようなシーンを作ってみたら…これが驚くほど違った。
今回は、この実験で見えてきた「AI画像生成ツールの個性」について話したいと思います。結論から言うと、みんな「とりあえずDALL-E」で思考停止してるけど、実はかなりもったいないことしてるかもしれません。
DALL-E調整実験編:限界を知る
「この視線の不自然さ、プロンプト工夫すれば改善できるんじゃないか?」
そう思って、実際にDALL-Eで同じようなピクニックシーンを作ってみることにしました。
最初は単純に「3人でピクニックしている画像」で試してみたんですが、案の定、視線がバラバラ。そこで「お互いを見て会話している」「アイコンタクトをとっている」「自然な会話をしている3人」みたいに、視線に関する指示を具体的に追加してみました。
結果は…やっぱりダメ。
何回やっても、どんなにプロンプトを工夫しても、あの「なんか変」感が消えない。質感も妙にツルツルしてるし、光の当たり方も不自然。「いかにもAI」って感じが拭えませんでした。
これで気づいたのは、DALL-Eって「自然な人間関係の表現」が苦手なんだなということ。個別の人物は上手に描けるけど、複数人の相互作用となると途端に不自然になる。
「なら他のツールだとどうなんだ?」
そんな疑問から、次の実験が始まりました。
他ツール検証:Midjourney vs Image-FX
DALL-Eの限界を感じた僕は、「他のAI画像生成ツールだとどうなるんだ?」って試してみることにしました。候補はMidjourneyとImage-FX。どちらも最近話題になってるし、DALL-Eとは違ったアプローチで画像を生成してくれるはず。
Midjourneyで試してみた結果
まずはMidjourneyから。同じような「3人でピクニック」のシーンを作ってもらいました。

これ見て「おおっ」視線がちゃんと合ってるって思った!左の男性が真ん中の女性を見て、右の女性も会話に参加してて、まさに「自然な三角関係の会話」になってる。
ただ、よく見ると「演出効果」がすごい。光の当たり方とか、ボケ効果とか、まるでプロのカメラマンが撮影してインスタグラムに投稿するような仕上がり。悪く言えば「作りすぎ」感もある。でも、不自然さは全くない。
Image-FXも試してみた
次にGoogleのImage-FX。こちらも同じプロンプトで挑戦。

これまた全然違う仕上がり。Midjourneyほど演出効果は強くないけど、めちゃくちゃ自然。デジタル一眼レフで撮影して、そのまま出力したような感じ。視線もちゃんと合ってるし、表情も自然で、「普通の写真」として違和感が全くない。
3つを比べて見えてきた「個性」
この実験で、各ツールの「個性」がはっきり見えてきました:
- DALL-E:違和感残る、いかにもAI感。質感もツルツルで不自然
- Midjourney:演出効果バリバリ、プロカメラマン仕上げ。見栄えするけど作りすぎ
- Image-FX:自然体、デジイチそのまま感。普通の写真として完璧
同じ「AI画像生成」でも、ここまで結果が違うとは思いませんでした。特に人物の相互作用の表現については、DALL-Eが明らかに劣ってる。これ、多くの人が気づいてないんじゃないでしょうか?
イラスト・図解・テキスト入り:DALL-Eが実用的
ここで面白いのが、DALL-Eの真価は「写真風画像」じゃないところにあるということ。
実際に試してみたんですが、テキスト入りのイラストや図解、インフォグラフィック系はDALL-Eが圧倒的に使いやすい。MidjourneyやImage-FXでテキストを入れようとすると、文字が読めなくなったり、レイアウトが崩れたりします。
ただし、これはアルファベットと日本語で大きく差があります。アルファベットなら、どのツールもある程度は表示できるんです。でも日本語テキストになると、その差は歴然。
実際に「春日井」という文字を入れたコワーキングスペースのイラストを、3つのツールで作ってみました:
DALL-E生成画像:
Midjourney生成画像:
Image-FX生成画像:
見事にDALL-Eだけが正確な日本語を表示できてます。MidjourneyとImage-FXは…まあ、これじゃ実用性ゼロですよね。
日本のビジネス現場で日本語テキスト入りの画像が必要なら、現時点ではDALL-E一択です。
ビジネス現場での「選択肢の話」
この実験を通して気づいたのは、多くの人がDALL-Eの存在しか知らないということ。
Room8にも、AI活用の相談でいらっしゃるお客さんが増えてるんですが、画像生成の話になると、だいたいこんな感じです:
「ChatGPTで画像も作れるって聞いたんですけど…」
「DALL-Eを使ってるんですが、なんかイマイチで…」
「AI画像って、やっぱりこんなもんですよね?」

DALL-Eでジブリ風画像を作って楽しんでる人も多いし、それはそれで全然いいと思うんです。ChatGPTで満足してるなら、そのまま使い続けてもらえばいい。
ただ、「なんかイマイチだな…」って感じてる人には、「実は他にも選択肢がありますよ」って伝えたかったんです。用途によっては、他のツールの方がずっと良い結果が出ることもあるので。
特に「AI画像生成ってこんなもんか」って諦めてる人、ちょっともったいないかもしれません。ツールを変えるだけで、「おお、これなら使える!」ってなることもありますから。
要は「色々あるよ」って話です。
まとめ
今回の実験で分かったのは、AI画像生成ツールにはそれぞれ明確な「個性」があるということ。
Midjourneyは演出効果バリバリで見栄えするけど、実用性では微妙。Image-FXは自然で無難だけど、特別感はない。DALL-Eは写真風では劣るけど、テキスト入りイラストでは圧倒的。
結局、万能なAIなんて存在しないんです。どれも一長一短があって、「何に使うか」で最適解が変わる。
最初に感じた「なんか変」な違和感も、実は各ツールの特性を理解すれば納得できる話でした。視線の不自然さも、質感の違和感も、それぞれのAIが得意としてる領域と苦手な領域があるからこそ起きてる現象だったんです。
僕がサイト制作やってるから細かいところが気になるのかもしれないけど、ビジネスで使うなら「適材適所」を意識するだけで、結果は格段に変わります。
DALL-Eで満足してる人はそのままでいいし、「なんかイマイチ」って思ってる人は他のツールも試してみる。それだけで、AI画像生成の可能性がもっと広がると思うんです。
みなさんも、用途に合わせてツールを使い分けてみてください。きっと「これなら使える!」って思える組み合わせが見つかるはずです。