2024年2月15日にChatGPTの開発元OpenAIが、動画生成AI「Sora(ソラ)」を新しく発表しました。従来の動画生成AIでは数秒の動画生成でしたが、Soraは最大1分の超高画質画像が生成できると話題になっています。
2024年3月現在はまだ一般公開されておらず、アーティストやデザイナー・映画制作者など一部の方のみアクセス可能です。OpenAIはフィードバックを受けながら問題点を研究しており、安全に使用できるよう措置を行っているようです。
今回は、OpenAIに搭載されている技術や仕組み・できることなどを解説します。
Open AI Soraとは?
OpenAI Soraは、2024年2月15日にOpenAIによって公開されたテキストから動画を生成するText-To-Videoモデルです。 テキスト(プロンプト)から画像を生成する従来のAIとは異なり、Soraは最大1分の動画を生成することができます。
また、静止画から動画への作成や動画のスタイルの変更なども可能です。
Soraは日本語の「空」から名付けられたそうで、現実と見分けがつかないほどの超高画質動画を生成できます。
SoraにはChatGPTと同様に深層学習を行う構造を搭載しているため、長文のテキストを入力しても高い処理速度と精度の高い画像生成が可能です。
Open AI Soraの画像生成の技術
OpenAI Soraにはどのような技術が使われているのでしょうか。
動画生成を支える技術とその仕組みを以下で具体的に解説します。
動画からパッチへの変換
動画を低次元圧縮(Video Compression Network)して、動画を時間軸と空間軸に沿った小さな単位(パッチ)に分割します。低次元圧縮とは元データの要素を残しながら、少ない情報量でデータを表現するために低次元に空間を圧縮することを指します。
画像を低次元圧縮することで、動画の特徴を捉えながらデータ量を削減して処理しやすくするのです。Soraでは分割した単位のことをパッチと呼んでおり、パッチは静止画の状態を指し、各パッチを独立した画像として処理します。
パッチに変換することで視覚情報と位置情報を保ったまま表現することが可能です。
Diffusion Transformerで動画生成
エンコーダーと呼ばれる情報を電気信号として出力する作業でそれぞれのパッチの情報を取り込みます。その後のデコーダーと言う作業で、徐々にノイズを消去しながらエンコーダーで得た情報を元に動画を復元する課程を学習します。
Diffusion Transformerのエンコーダーとデコーダーで処理したパッチの関係性を学習し、画像全体の構造の理解が可能です。離れたパッチの依存関係も理解できるため、複雑な画像も生成することができます。
DALL-3で動画の内容を理解
DALL-3では、Diffusion Transformerで作成した動画のキャプションを生成し動画の内容を明確にします。DALL-3はSoraやChatGPTと同じOpenAIが開発したAIで、テキストから画像が生成可能です。
Open AI Soraが画像生成を行う流れ
OpenAI Soraの画像生成を行う技術について解説しました。
Soraが技術を用いて画像生成する流れは以下になります。
- 動画を扱いやすくするため、エンコーダーで次元圧縮して学習
- 次元圧縮した動画を小さなパッチに変換してノイズを加える
- ノイズから元の画像に復元する課程を学習
- デコーダーでテキストの情報を元に動画を生成
Soraは以上の流れにより、高画質でリアルな動画が作成可能です。
Open AI Soraでできること
Soraには以下のようなことが出来ると発表されています。
- テキストから動画を生成(Text-To-Video)
- 静止画から動画を生成(Image-To-Video)
- 動画の編集(Video-To-Video)
- 画像の生成
- 一貫性を持った動画生成
- ループ動画の生成
以下でそれぞれの項目を詳しくご紹介します。
①テキストから動画を生成(Text-To-Video)
Text-to-Videoは、ユーザーが入力したテキスト情報から動画を生成するAI技術です。
テキストで文章を入力すると入力した内容に沿った動画を自動で作成します。
従来はText-to-Videoモデルにより様々でしたが、数秒〜十数秒ほどの動画生成が限界でした。
しかし、Soraは最大1分の長さの動画を生成できる上に、シーンの詳細・複数のキャラクターや複雑なカメラワークを実現できるようになりました。
②静止画から動画を生成(Image-To-Video)
Image-To-Videoは、画像(静止画)から動画を生成するAI技術です。
1枚の画像をアップロードすると、その画像に動きを加えた動画が自動的に作成されます。
従来のImage-to-Videoモデルは、繊細な質感や表現が難しい傾向にありました。
しかし、Soraに搭載されているImage-to-Videoは従来のモデルと比べ、解像度や画質・滑らかな動きなどが大幅に向上しています。
また、従来のImage-to-Videoモデルでは画像に写っている要素のみの表現やスタイルにも限りがありました。しかし、Soraでは画像に写っていない要素を含めた複雑なシーンや背景・環境の変化・様々なスタイルの表現が可能です。
③動画の編集(Video-To-Video)
Soraは動画の編集もできるため、動画のスタイルや環境を自由に変えることができます。
例えば、元のオリジナル動画の環境を街中からジャングルに変換する・古い車を最新のスポーツカーに変換することが可能です。
また、Connecting Videosという機能では、2つの動画の間にトランジションを追加して被写体やシーンの全く異なる動画同士の接続などもできます。
映画で見るようなスムーズなシーンの切り替えがSoraだけで生成できるようになるのです。
Soraは動画作成だけに留まらず、他の動画編集ツールを使用しなくてもSoraだけで動画編集が可能になるため、大変利便性が高いと言えるでしょう。
④画像の生成
Soraは動画だけでなく、最大2048×2048pxの解像度までの様々な画像も生成可能です。
動画生成AIとしてはもちろん、画像生成AIとしても活用できる高い汎用性があります。
Soraは従来のモデルでは表現できなかった詳細な部分や質感・独創的なアイデアを形にすることが可能になりました。また、ユーザーがテキストで構図や色・質感・感情・雰囲気など詳細な指示を入力することでより具体的な画像を生成できます。
人間の創造性をさらに高めるため、新たな表現の可能性が切り開けるでしょう。
⑤一貫性を持った動画生成
Soraでは従来の動画生成にはなかった一貫性のある動画が作成可能です。
従来の機能ではテキストと画像を組み合わせることが困難でしたが、Soraではテキストと画像の内容を一致させることが可能になりました。
例えば、カメラが移動するシーンでは、被写体以外の人物の動きや風景などが動画の最後まで空間の要素を保ったまま動画を生成できます。
そのため、一時的性のある動画を作ることができるのです。
また、人工的な動画生成も可能なため、ゲームのような動画を生成することも可能です。
Open AI Soraの課題
OpenAI Soraは、ユーザーの入力したテキストに基づき、高品質な動画を生成できるAIモデルですが、同時にいくつかの課題も存在します。
課題を解決し、一般公開するために、現在レッドチームと呼ばれる専門家が安全なツールなどを開発するようです。
以下ではOpenAI Soraが抱える課題を詳しく解説します。
複雑なシーンにおける物理現象の精度
Soraは物理現象を理解して再現する能力を持っています。
しかし、ガラスが割れるような表現や複数のキャラクター間での関係性など複雑なシーンを正確に表現するのは困難な傾向です。
動画によっては複雑なシーンを再現する際、不自然な動きなどが見られることがあるようでした。
多くの要素を盛り込みすぎると一貫性が困難
Soraは一貫性のある動画生成を行うことが可能ですが、常に一貫性のある動画が生成できるわけではありません。特に、多くの要素を盛り込みすぎると膨大な量の情報を処理する必要が生じるでしょう。
Soraの処理能力が追いつかなくなると、矛盾やストーリーの展開が不自然になる可能性もあります。
フェイク動画により混乱を招くリスク
Soraは、AIが作成したものだとは思えないほどの高度な動画生成技術を持っています。
そのため、悪意のあるユーザーがSoraの動画生成技術を活用してフェイク動画を生成し、社会に混乱を招く恐れも考えられるのです。
Open AIではフェイク動画を検出するツールの開発を行っていますが、現在はまだ完全な対策が出来ていないようです。
革新的なOpen AI Soraで動画生成の新たな可能性を
今回は、OpenAI Soraに搭載されている技術や仕組み・できることなどを解説しました。
SoraはAIが作成したものだとは思えないほどクオリティの高い動画を生成できる事が分かりました。
2024年3月現在はまだ一般公開されていませんが、アーティストやデザイナー・映画制作者など一部の方からのフィードバックを得て、安全に活用しやすくなることが期待されます。
また、いくつかの課題もあるため今後どのように解決していくのか期待したいところです。
Soraの登場と動画生成AIの進化により、今後は映画やTV・CMなどでも利用が拡大するでしょう。革新的なSoraの一般公開で、新たな表現の可能性の幅が広がることが楽しみです。