OpenAIの動画生成AI「Sora」が常識を覆す！実写以上のクオリティ

2024年2月16日に発表されたSora。約10ヶ月の時を経て、2024年12月10日についにリリースされました。

この記事では、OpenAIが提供する動画生成AI「Sora」について共有していきます。

►「動画生成AISora」の概要
►Soraを活用し始める
►Soraを活用できるプラン
►Soraの研究の概要
►Soraの驚異的な特徴
►Soraの弱点
►Soraの安全性について
►この記事の引用元
►まとめ

►「動画生成AISora」の概要

✓動画生成AISoraの概要は下記のとおりです

動画生成AISoraは、テキストの指示から現実的で想像力豊かな動画を作成できるAIです。

この記事では「Sora」が生成した動画を共有します。共有している動画は、一切修正を加えていないようです。Soraによって直接生成された動画です。

►Soraを活用し始める

Soraは以下のリンクから活用することができます。

https://openai.com/index/sora-is-here

リンクをクリックすると、以下の画面に切り替わります。Learn moreをクリックしましょう。

クリックすると、以下の画面が表示されます。Start nowをクリックして次の画面に進みます。

クリックすると、以下の画面が表示されます。

クリックすると、ログイン画面が表示されます。自分がログインしやすい方法でログインしましょう。

ログインすると、最初に以下の画面が表示されます。誕生日を入力していきます。

入力後、Nextをクリックします。

誕生日を入力後、プランの確認やユーザーネームの設定をして、Soraの編集画面が表示されます。

►Soraを活用できるプラン

SoraはPlusプラン(月20$)とProプラン(月200$)で活用することができます。

以下がプラン別の「できること」です。

✓Plusプラン

・最大50本の動画(1,000クレジット)

・最大720p解像度

・5秒の動画長

✓Proプラン

・最大500本の動画(10,000クレジット)

・リラックスモード動画(無制限)

・最大1,080p解像度

・20秒の動画長

・5つの同時再生

・透かし(ウォーターマーク)なしで動画をダウンロード可能

►Soraの研究の概要

✓世界シミュレータとしてのビデオ生成モデル

私たちは、ビデオデータに関する生成モデルの大規模トレーニングを検討します。

具体的には、さまざまな長さ、解像度、アスペクト比のビデオと画像を対象に、共同でトレーニングします。

ビデオおよび画像の潜在コードの時空間パッチで動作するトランスフォーマーアーキテクチャを活用します。当社の最大のモデルであるSoraは、1分の高忠実度ビデオを生成できます。

私たちの結果は、ビデオ生成モデルのスケーリングが、物理世界の汎用シミュレーターを構築するための有望な道であることを示唆しています。

►Soraの驚異的な特徴

次に、今までの動画生成AIにはなかった驚異的な特徴を共有します。

◼︎特徴その１：プリンプトから物理世界に「どうのように存在するのか」を理解できる

動画生成AISoraは複数のキャラクター、特定の種類のモーションなど、複雑なシーンを生成できます。

モデルはユーザーがプロンプトで何を要求したかだけでなく、それらが物理世界にどのように存在するのかも理解します。

◼︎特徴その２：ビジュアルデータをパッチ化してよりリアリティのある動画に

動画生成AISoraにはビジュアルパッチがあります。

ビジュアルデータをパッチ化することで、再現性の高い動画を生成してくれます。

✓補足「ビジュアルデータをパッチ化する」とは？

ビジュアルデータをパッチ化するというのは、写真や絵などの画像を小さな四角形（パッチ）に分けることを言います。これは、ジグソーパズルを作るときに、大きな写真をたくさんの小さなピースに切り分けるのと似ています。パッチ化された各ピースを個別に見ることで、コンピューターは画像全体をより詳細に理解しやすくなります。

たとえば、大きな公園の写真を想像してください。その写真を小さなパッチに分けてみると、一つのパッチには木が、別のパッチには遊具が写っているかもしれません。コンピューターはこれらのパッチを一つひとつ見ます。そして、公園全体の様子をよりよく理解することができます。

◼︎特徴その３：「ビデオ圧縮ネットワーク」という技術を採用している

✓「ビデオ圧縮ネットワーク」とは？

ビデオデータのサイズを小さくするための技術のことを言います。

例えば、ビデオの中で変化が少ない部分や、人間の目には重要でない細かいディテールを見つけると仮定します。

動画生成AISoraでは、その情報を減らしてファイルのサイズを小さくします。

圧縮です。

このときには、まだ動画は作られていません。

圧縮された動画によって、Soraが新しい動画を考えてくれます。

動画の設計図のようなものを考えているんです。

動画生成AISoraは、学習のために受け取った動画をとても賢く「圧縮」します。

そして、ビデオの中の大切な情報だけを「小さなかたまり」にします。

「大きな荷物を小さくまとめて、楽に運べるようにする」ような感じです。

そして「デコーダー」という技術によって、Soraが考えた動画を僕たちが見れる状態にしてくれます。

✓「デコーダー」とは？

「圧縮されたデータを元の形に戻すこと」です。

このように動画が作成されることで、実際に撮影したかのような動画を生成してくれます。

◼︎特徴その４：「時空潜在パッチ」を採用している

動画生成AISoraは圧縮されたビデオから、「時空潜在パッチ」と呼ばれる「小さな情報のかたまり」を取り出します。

✓時空潜在パッチとは？

動画の中の「時空」と「空間」の両方の特徴を捉えるピースのことです。

この「時空潜在パッチ」を使うことでさまざまなサイズや形の動画を理解し、学習します。

また、さまざまな解像度や長さ、アスペクト比にも対応します。

プロンプトによって、柔軟に動画を作成することができます。

◼︎特徴その５：「動画生成用のスケーリングトランスフォーマー」を採用している

動画生成AISoraはディフュージョンモデルです。

✓「ディフュージョンモデル」とは？

ごちゃごちゃした状態を、綺麗でわかりやすい状態に変えてくれるモデルのことです。

パッチの中には「ノイズ」が含まれているものもあります。

しかしSoraはディフュージョンモデルです。

なので、ノイズの多いパッチを元の「きれいな」パッチに予測して修正してくれます。

そして上記の「予測」のときに、「トランスフォーマー」という技術を使っています。

✓「トランスフォーマー」とは？

コンピューターが文章や画像などの情報を理解するために使われる技術のことです。人間で言うところの「これ重要だから、よく見ておこう」という感じです。

もともとは、文章や画像を理解するためにトランスフォーマーが使われていました。

しかしそれを「動画でも使えるんじゃね？」と考えて取り入れたのがSoraです。

そして、トランスフォーマーの技術を動画生成に特化させました。

それが、生成用のスケーリングトランスフォーマーです。

この技術を採用することで、学習するたびに動画の品質が向上していきます。

◼︎特徴その６：どんな動画サイズにも柔軟に対応する

動画生成AISoraでは、ワイドスクリーン（1920×1080p）や縦長（1080x1920p）、そのほか全てのサイズを生成してくれます。

つまりアスペクト比を入力すれば、入力されたアスペクト比の動画が生成できるということです。

メディアごとに推奨される動画のサイズは変わります。

しかしSoraは、全てのメディアに対応できます。

多くの動画生成AIではトレーニングのプロセスを簡素化します。

そのために「特定のアスペクト比」に統一しています。

しかし、Soraでは正方形、縦長動画用、Youtube用の動画などのアスペクト比を学習させています。

これによって、動画の形が変わっても被写体が画面からはみ出ることがなくなります。

そして、バランスの取れた質の高い動画を生成します。

◼︎特徴その７：DALL・E3の技術を採用することで「イメージ通り」の動画を生成してくれる

AIに動画生成を学習させるためには、大量の動画とテキストが必要です。

そうすることで、プロンプトの内容と生成された動画の内容が一致します。

動画生成AISoraではDALL・E3で導入された技術が採用されています。

DALL・E3では、非常に詳細なキャプションが学習されています。

✓キャプションとは？

画像や動画の内容を説明するテキストのことです。

OpemAIはあることに気づきました。

それは、詳細な動画キャプションをトレーニングさせると、「動画の質とプロンプトの内容を忠実に再現してくれる」ということです。

上記のように学習させることにより、短いプロンプトでも詳細なキャプションに変換できるようになりました。

そして、イメージ通りの高品質な動画を生成してくれます。

◼︎特徴その８：画像から動画を作れる

既存の画像から動画を生成することもできます。

例えば、下の画像を動画にすることもできます。

◼︎特徴その９：動画の長さを前後に伸ばすことができる

動画生成AISoraでは、ビデオの長さを前後に延ばすことができます。

動画の開始部分や終了部分を長くすることが可能です。

これは、他の動画生成AIではできないことです。

また、動画を前方と後方の両方に拡張します。

そうすることで無限に流れるかのような動画を作成できます。

つまり無限ループです。

◼︎特徴その１０：テキストプロンプトから動画内の映像を簡単に変更できる

テキストプロンプトから動画内の映像を変更することが可能です。

それを可能にするためにSDEditという技術が採用されています。

✓SDEditとは？

Stochastic Differential Editingの略で、テキストプロンプトに基づく編集方法のひとつのことです。この技術によって、既存の動画のスタイルや環境を、ゼロショットで変換することができます。

✓ゼロショット学習とは？

以前に見たことのない新しいタスクやデータに対しても、サンプルなしで対応できる能力のことです。

ユーザーは具体的な画像編集のスキルは必要ありません。

誰でも「創造的な動画」を手軽に作成することができます。

下の動画のように、自在に背景を変更できます。

動画のベース🔽

ジャングルの中に設定変更🔽

ピクセルアートスタイルに設定変更🔽

◼︎特徴その１１：2つ動画を違和感なくつなげることができる

例えば、全く違う動画Aと動画Bがあったときに、違和感なくそれぞれの動画をつなげてくれます。

全く新しい動画を生成してくれます。

下の２つの動画をご覧ください。

ドローンから蝶へ🔽

カメレオンから孔雀へ🔽

この技術はすごいですね。

どのタイミングで動画が変化しているのか、全くわかりません。

◼︎特徴その１２：3Dの一貫性を保つ

ダイナミックなカメラモーションを含む動画を生成することができます。

カメラが、3次元空間内を一貫して移動する映像を生成できます。

◼︎特徴その１３：動画の映像とキャラクターの一貫性を保つ

動画を生成するときは、「長い動画でも一貫性を維持できるかどうか」が問題点になります。

この問題も、動画生成AISoraは解決してくれます。

たとえ動物が一時的に遮られたりフレームから外れても、存在を認識し続けます。

さらに、ビデオ内で一貫性を保ってくれます。

また、それぞれの場面でキャラクターを一貫して表示し、動画全体で外観を維持してくれます。

違和感を全く感じないですよね。

上記のような動画が簡単に作れます。

◼︎特徴その１４：物体のアクションを違和感なく生成してくれる

動画の中で人物がある動作をしても、違和感なく生成してくれます。

ハンバーガーの噛み跡もリアルに再現してくれます。

ここまで忠実に再現できる動画生成AIでは今までなかったです。

加えて重要なポイントは、時間が経過しても起こしたアクションが持続するという点です。

◼︎特徴その１５：デジタル世界の動画を生成してくれる

動画生成AISoraは現実世界だけでなく、ゲーム内の動きも違和感なく生成します。

ゲームの世界も生成してくれます。

ここでは「Minecraft」を例に取り、共有しています。

もはや、下の動画が実際のゲームの映像なのか、生成された動画なのか見分けがつきません。

上記のような動画は「ゼロショット」で生成されています。

►Soraの弱点

ここまで動画生成AISoraの「凄さ」について共有しましたが、同時に「弱点」もあります。

✓Soraの弱点

・物理的にありえない動きをする動画を生成することがある

・人や動物、物体が多いときに、現実とは違う動きをすることがある

・物体が物理法則と反した動きをすることがある

・物体の形が自然に変化しないことがある

・形状に違和感のある物体を生成することがある

・登場人物の会話や動きを忠実に再現できないときがある

SoraのAI動画生成技術も、まだまだ発展段階です。

動画生成AISoraの驚異的な特徴では、いまだかつてなかった「凄さ」の数々を共有しました。

再現性をさらに高めていくためには、継続した改善と研究が必要です。

これからの進化に期待ですね。

►Soraの安全性について

✓動画生成AISoraの安全性については下記のとおりです

OpenAIでSoraを利用できるようにする前に、いくつかの重要な安全措置を取る予定です。

私たちはレッドチーム (憎悪に満ちたコンテンツ、偏見などの分野の専門家) と協力しています。

また、Sora によってビデオがいつ生成されたかを知るために役立つツールも構築しています。

導入の準備をするための新しい技術の開発に加えて、 DALL・E3を使用する製品用に構築した既存の安全方法を活用しています。これはSoraにも適用できます。

たとえばOpenAIでは、極端な暴力、性的コンテンツ、嫌がらせ的な画像、有名人の肖像、または他人のIP（知的財産）を要求するものなど、当社の使用ポリシーに違反するプロンプトをチェックして拒否します。

また、生成されたすべてのビデオをチェックして、ユーザーに表示する前にビデオが使用ポリシーに準拠していることを確認するために使用される技術を開発しました。

私たちは世界中の政策立案者、教育者、アーティストと協力して、彼らの懸念を理解し、この新しいテクノロジーの前向きな使用例を特定していきます。人々がテクノロジーを悪用するすべての方法を予測することはできません。だからこそ私たちは、現実世界での使用から学び、時間の経過とともにより安全性が高まるAIシステムを作成してリリースしていきます。