ChatGPTのOpenAIは、2024年2月15日に動画生成AI「Sora」のデモ動画を発表、文字入力により1分程度の動画を生成できるとして大きな話題となった。
これにより、AI動画がマーケティング動画、CM、映画などに応用が広がる可能性が示され、「映像制作の壁を低くする」動きとして注目された。
その後、2024年12月9日に、ChatGPTの有料版利用者は20秒まで「Sora」で動画生成が可能となり、幅広い人たちが利用を始めたが、顔のクローズアップ、動きの複雑なシーン、物理挙動(重力・流体)などではまだ弱点があるという指摘も出ていた。
また、Googleも2024年5月の「Google I/O 2024」で、動画を文章、画像、音声から生成可能な「Veo」を発表、その後、音声も自動的につける進化版の「Veo 3」を発表し、「無声映画時代からの飛躍」と評された。
しかし、この時点では動画生成AIは、「複雑な物理挙動」「人物の自然な動き」「長尺動画」「意図通りの音声付き演出」などにはまだまだ課題があると言われた。
そこに9月30日にOpenAIが「Sora」の進化版「Sora2」を発表、iPhone向けのアプリ「Sora」は招待された人しか使えないにも関わらず、無料アプリのランキング1位となった。
■Sora2
「Sora2」の登場はChatGPTの登場に匹敵するとも言われ、誰でも簡単にAI動画が作れる時代の幕開けとされた。
今回登場した「Sora」アプリは、進化した動画生成AIと、それを発表するTikTok風のAI動画専用SNSという2つの側面を持つもので、当初は10秒、現在は25秒のビデオを生成でき、SNSに投稿できる。
使ってみると、登場人物などの一貫性が保たれ、複雑なプロンプト(指示文)に厳密に従った、物理法則に基づいたリアルな動画が簡単に作れるようになった。また、カメオ(Cameo)という自分の顔を登録してビデオに登場させる機能があり、これを使って自分が大谷選手のようなホームランを打つ動画なども作れるし、公開されている友人など他人の顔を使った動画も作れるため、顔を公開しているOpenAIのサム・アルトマンCEOが登場するビデオはSoraアプリに溢れている。
この機能は友人との利用を想定して設計されているとしているが、有名人の偽動画(ディープフェイク=Deepfake)などが大量に生み出されるのではないかという懸念も生まれている。
■世界シミュレーション
OpenAIは今回「Sora」を無料で提供しているが、1本の動画生成の計算コストは1ドルともされている。
大きな経費がかかるにも関わらず、アプリを無料公開しているのは、「実用的な世界シミュレーターを構築する」ためで、将来的には特別に訓練されていない状態でも視覚的、空間的な課題を解決する能力を持つシミュレーターを作ることを目指しているからだ。
生産性向上につながったChatGPTが切り開いた生成AIは、学習した統計モデルで文章などを作るのに対して、「Sora」や「Veo3」などの動画生成AIは、物理世界のシミュレーション的理解をもとに動画を作っているので、鳥の羽とボーリングのボールを落とした場合の落ち方を、地球上と月面で試してみる動画なども作れる。
今後、世の中を大きく変えるのは、ChatAIよりも動画生成AIなのかも知れない。
======== DATA =========
●Sora 2 が公開
https://openai.com/ja-JP/index/sora-2/
●鳥の羽とボーリングのボールの落下AI動画(地球上)
https://video-zero-shot.github.io/mp4/gravity_air_resistance_earth.mp4
●鳥の羽とボーリングのボールの落下AI動画(月面)
https://video-zero-shot.github.io/mp4/gravity_air_resistance_moon.mp4
























