「4o Image Generation」の衝撃

AI画像生成の進化と、私たちに突きつけられた課題

· Social Issues,Insights,Art

先週、ChatGPT(GPT-4o)に、高性能な画像生成機能「4o Image Generation」が実装されました。

従来のDALL·E 3と比較して、特に以下の点で飛躍的に精度が向上しています。

1. 写実性の向上

ライティング(光と影)の表現がより正確になり、実写写真と見紛うような画像生成が可能になりました。皮膚、ガラス、布などの質感表現も格段に向上しています。

2. 応答精度(プロンプトへの忠実度)の向上

指定した服装や背景、小道具などを適切に反映できるようになりました。「未来的な~」「メランコリックな~」といった抽象的な指示にも、意味に即したビジュアル化が可能です。
※スペルや文字の再現精度も向上しているようですが、看板やロゴなどのテキストにはまだ課題があります。例の「指6本問題」は、ほぼ解消したようです。

3. アート表現への対応

写真のようなリアルな描写だけでなく、水彩画風、油絵風、マンガ風など、多様なスタイルも再現可能になっています。「ゴッホ風」「ジブリ風」など、特定の画風を取り入れた表現にも対応。

そこで、以下のプロンプトを使って1枚生成してみました。

このプロンプトのポイントは、AIを「迷わせない」構成であること、そして自然かつリアルな描写を選択させやすいよう意識した点です。

  • 撮影現場でカメラマンが出す指示をイメージし、構図・被写体・光・背景のバランスを明確に指定。
  • 描写は細かすぎず、かつ曖昧すぎない「ちょうど良い粒度」にする。

【プロンプト】
This close-up portrait captures a Japanese woman in her 30s with shoulder-length wavy chestnut hair as she walks through Kabukicho, Shinjuku, in the middle of the night. Her determined, yet somewhat fearful, gaze is directed just above and to the left of the camera. Her natural features are accentuated by the dazzling, glamorous neon lights of Kabukicho, Shinjuku.

和訳(参考)
この接写写真は、肩までの長さのウェーブのかかった栗色の髪をした30代の日本人女性が真夜中の新宿歌舞伎町を歩いている姿を捉えたものです。彼女の決意に満ちた、しかしどこか恐れをなした視線は、カメラのすぐ上と左に向けられています。彼女の自然な特徴は、新宿歌舞伎町のまばゆいばかりの華やかなネオンライトによって強調されています。

結果はコレ ↓ です。

broken image

…驚異的なクオリティです。実は、イメージは女優の瀧内公美さん(東京での上映は終了してしまいましたが、凄い映画でした→映画『綺麗な、悪』)だったのですが、なんとなく似ている気がします。

また、このブログに掲載している私のプロフィール写真を「ゴッホ風」に変換してもらったところ…

broken image

こちらもアートとして非常に完成度の高い仕上がりとなりました。

ここで気になった点を2つ、以下に共有しておきます(機能面とは別の部分)

1. 電力消費について(データセンター問題)

画像生成は、1枚あたり数十〜数百の推論ステップを並列で実行し、数十億〜百億規模のパラメータを持つモデルが稼働しています。

世界中から毎秒膨大な数のプロンプトが送られる中、背後では巨大なGPU群(Graphics Processing Unit)がフル稼働しているのです。

そのため、OpenAI側も無制限にリクエストを許可するわけにはいかず、現時点ではレート制限(数分間のクールダウン)を設けています。

こうした背景から、昨日OpenAI社はAI向けデータセンター整備のために約6兆円の資金を新たに調達すると発表しました。(読売新聞記事

なみに、世界のデータセンターの約4割は北米に集中しています。日本は第5位ですが、生成AIの台頭により、国内でも急速に建設が進んでいます。24〜26年の新規供給(受電容量ベース)は、21〜23年比で約1.7倍に拡大する見通しです。(Yahoo!ファイナンス記事

そして、それに伴う地元住民との軋轢も発生しています。(日経XTECH記事

例えば北米では、データセンターの電力消費(総消費電力比)が従来の4%から9%にまで急増すると見込まれており、日本においてもこれは深刻な問題です。特に、主要国の中でも最低レベルのエネルギー自給率である日本にとっては、他国以上に重要な課題となっていきます。

トランプ大統領の「Drill, Baby, Drill」という言葉が象徴するように、AIによる社会変革とエネルギー問題の解決は表裏一体です。AIの進化を活用するには、持続可能なエネルギー供給体制の確立が不可欠です。

再生可能エネルギーの価格は依然として高く、現実的な代替案としては、原子力や小型核融合発電の活用が避けて通れないと考えます。実際、世界では核融合への投資が加速し、技術的な進歩も目覚ましい状況です。5年以内に「実用化可能」なレベルへと持ち込むことが急務です。

特に小型化が進めば、エネルギー供給のあり方そのものが変わり、電線の問題なども解決へ向かう可能性があります。

我々日本人は、かつての悲劇的な経験を糧とし、この分野で世界をリードしていくべきだと強く信じています。

2. 適切なプロンプト設計について(言語能力の問題)

以前、以下の記事でも述べましたが、生成AIを有効活用するための鍵となるのが、プロンプト(入力指示)の精度です。

参考記事:

今回の「4o Image Generation」においても、1回で理想的な画像を生成できるか、それとも5回やり直すかで、消費される電力に5倍の差が生まれます。そしてそもそも、日本語能力が低い(イメージを言語化できない)人は、何度試しても適切な結果を得られない可能性すらあります。

現代人の言語能力の低下は深刻です。SNSやチャットツールの普及によって短文やスタンプでのやり取りが主流となり、読解力や表現力の低下が懸念されています。読書量の減少や、学校教育の中での読解力強化の不足も要因でしょう。

「何を言っているのか分からない」人間がAIを使いこなせるはずがありません。

これは人間同士のやり取りでも同様で、「分かりにくい指示」は常に誤解や不効率の原因となります。

今後のAI時代において、AIや人をマネジメントする立場にある人間には、言語力や指示力がこれまで以上に求められます。その基礎的な能力の可視化には、RST(Reading Skill Test)のようなツールの活用が有効だと考えます。
RST公式サイト

経路依存性からの脱却

AGI(汎用人工知能)の出現は、つい先日までは2029年と予想されていましたが(参考リンク)、現在では2027年までに前倒しされる可能性が指摘されています。

AGIがAI研究を行うようになれば、わずか数ヶ月で数十億倍の効率化が進み、2040年にはGWP(世界総生産)が現在の1,000万倍になるという試算もあります。

もはや、過去の延長線上に未来は存在しません。

上で述べた、いずれの課題も、経路依存性に嵌っている限り、解決は不可能です。我々は今すぐにでも、悪しき経路依存性から脱却しなければならない時期に来ています。

常に「このままで良いのか?」と自問し、現実を直視し、自己変容を重ねる。

私はこのスタンスを徹底していきたいと考えています。

BBDF 藤本