2024年5月15日に、Google I/OでVeoが発表されました。
✓この記事では以下の内容を共有しています
・Veoで作成できる動画
・動画が構築されるまでの流れ
・高精度な動画が作成できる理由
・Veoの使用開始日
・安全性について
興味のある方はぜひ最後までお読みください。
また、同日に発表されたGemini1.5FlashやProject Astraについてまとめた記事もあります。
Googleが今どのようなビジョンを持って研究開発を進めているのか、その一部分でも理解したい方は合わせて読むことをおすすめします。わかりやすくまとめています!
- ►Veoの概要
- ►Veoで作成されたサンプル動画の紹介!
- ►Veoで作成した「その他のサンプル動画」
- ►Veoで動画が構築されるまでの流れ
- ◼︎動画が作成されるまでの流れその1:ユーザーがテキストプロンプトを入力する
- ◼︎動画が作成されるまでの流れその2:UL2エンコーダでテキストプロンプトをエンコードする
- ◼︎動画が作成されるまでの流れその3:画像プロンプトを入力する
- ◼︎動画が作成されるまでの流れその4:エンコーダで画像プロンプトをエンコードする
- ◼︎UL2エンコーダとエンコーダの違いって何?(補足)
- ◼︎動画が作成されるまでの流れその5:エンコードされた両者のプロンプトを結合する
- ◼︎動画が作成されるまでの流れその6:結合されたプロンプトにノイズを追加する
- ◼︎動画が作成されるまでの流れその7:潜在拡散モデルで「ノイズが追加された動画」を処理する
- ◼︎動画が作成されるまでの流れその8:圧縮動画を生成する
- ◼︎動画が作成されるまでの流れその9:デコーダで圧縮動画をデコードする
- ◼︎動画が作成されるまでの流れその10:1080p動画の完成!
- ►なぜVeoではこんなに高精度な動画を作成できるの?
- ►長年の研究結果に基づいて構築されたVeo
- ►動画生成AI「Veo」はいつから使えるようになるの?
- ►Veoは安全に使えるの?
- ►Veoに関する記事の引用元
- ►まとめ
►Veoの概要
Veoは高品質な動画を簡単に作成できる、Google史上最も高性能な動画生成AIです。1080pの解像度で、なおかつ1分以上の動画を作成できます。
Veoは、従来の動画生成AIになかった高度な機能を備えています。例えば「プロンプトの微妙な違いを正確に理解する」という機能です。なので「タイムラプス」や「風景の空撮」など、映画撮影さながらの効果を表現できます。
Googleは、どんな人でも動画作成を楽しめることを目標としています。経験豊富な映画制作者から、これからクリエイターを目指す人、教育者まで、多くの分野で新しい可能性を切り開くのがVeoです。
►Veoで作成されたサンプル動画の紹介!
次に、Veoで作成されたサンプル動画を紹介します。この記事の中で紹介している動画は、全て簡単なプロンプトで作成されたものです。
◼︎Veoのサンプル動画その1:サバンナを歩く針編みの象
まず最初に、サバンナを歩く針編み象のサンプル動画を紹介します。もちろん、現実世界で編んだ象が実際に歩くことはありません。しかしVeoを使えば、現実世界ではあり得ないような映像でも、まるで現実に存在するかのように作成することができます。
✓このサンプル動画は以下のプロンプトで作成されています
Crochet elephant in intricate patterns walking on the savanna
◼︎Veoのサンプル動画その2:泳ぐ斑点クラゲ
次に紹介するのは、斑点クラゲが泳ぐサンプル動画です。「これは、実際に水中で撮影した動画なんだ!」と言われても、「そうなんだ」と納得してしまいそうですよね。クラゲの泳ぎ方も、現実のクラゲの動きを忠実に再現しています。また海に当たっている光の加減も、作成されているとは思えません。
✓このサンプル動画は以下のプロンプトで作成されています
Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean
◼︎Veoのサンプル動画その3:美しい山の風景
上記で紹介したサンプル動画と同様、この動画のクオリティも非常に高いです。この動画では「ゆっくりと映す」や「空を映す透き通った湖」というプロンプトが入力されています。映像に一貫性もありますよね。しかし山の傾斜面を細かく見ると、AIで作成されたようにも見えてしまいます。それでも初見は、リアルとほとんど変わらない出来栄えです。
「まだまだ成長段階」ということも理解できる動画です。
✓このサンプル動画は以下のプロンプトで作成されています
A panning shot of a serene mountain landscape, the camera slowly revealing snow-capped peaks, granite rocks and a crystal-clear lake reflecting the sky
◼︎Veoのサンプル動画その4:東京のネオンサイン
次に紹介するのは、東京のネオンサインが映されたサンプル動画です。東京の夜の繁華街を映し出しています。不自然な点は見当たらないですね。東京の繁華街っぽさも出ていますし、雨上がりに光るネオンが美しいです。
✓このサンプル動画は以下のプロンプトで作成されています
extreme close-up with a shallow depth of field of a puddle in a street. reflecting a busy futuristic Tokyo city with bright neon signs, night, lens flare
◼︎Veoのサンプル動画その5:ヨーロッパの路地(モノトーン)
このサンプル動画はモノトーンで作成されています。「モノクローム」のような、色の変化を促すプロンプトを入力しているだけです。それだけで、自由自在に動画の色も変更できます。加えて色が変わるだけでなく、映画で使われるような雰囲気のある映像を作り出してくれます。個人でも、クオリティが高い動画を簡単に作れるようになります。
✓このサンプル動画は以下のプロンプトで作成されています
moody shot of a central European alley film noir cinematic black and white high contrast high detail
►Veoで作成した「その他のサンプル動画」
その他にも、プロンプトだけで作成されたとは思えない高品質なサンプル動画がたくさんあります。「本当は撮影したんじゃないか?」と疑ってしまいますよね。しかしこの章の冒頭でも共有したとおり、全て簡単なプロンプトから作成されています。
高価なカメラも、ドローンも、一切使っていません。
◼︎Veoのサンプル動画その6:カウボーイが馬に乗って平原を横切る
◼︎Veoのサンプル動画その7:美しい郊外を映し出す
◼︎Veoのサンプル動画その8:空から灯台を撮影
◼︎Veoのサンプル動画その9:ひまわり開花をタイムラプスで撮影
◼︎Veoのサンプル動画その10:オーロラをタイムラプスで撮影
►Veoで動画が構築されるまでの流れ
Veoを使用することで、前回の章で紹介したような動画が簡単に作成できることを共有しました。
しかし、どうやって高精度な動画が作成されているのでしょうか?
そんな疑問を解決するために、この章では動画が構築されるまでの流れを共有していきます。以下の画像がVeoで動画が構築されるまでの流れです。

これではちょっと理解しにくいですよね。
そこで、以下に上の図についての説明を共有していきます。
◼︎動画が作成されるまでの流れその1:ユーザーがテキストプロンプトを入力する
まず「普通のヒマワリが開くタイムラプス、暗い背景」というような、テキストのプロンプトを入力します。

◼︎動画が作成されるまでの流れその2:UL2エンコーダでテキストプロンプトをエンコードする
入力されたテキストプロンプトは、UL2エンコーダによって処理されます。ここで処理されたテキストプロンプトは、数値データに変わります。
例えば「普通のヒマワリが開くタイムラプス、暗い背景」というテキストプロンプトが、0.5, -0.2, 0.8, 0.1というような数値に変換されます。

✓UL2エンコーダとは?
入力されたテキストデータを数値データに変える自然言語処理モデル。自然言語処理のことをNLP(Natural Language Processing)とも言います。
✓数値データとは?
自然言語ではなく、数値で表現されたデータのこと。テキストプロンプトを数値データにすることで、コンピュータが情報を理解しやすくなります。
◼︎動画が作成されるまでの流れその3:画像プロンプトを入力する
テキストプロンプトと並行して画像プロンプトを入力できます。生成したい動画の参考になる画像を出力します。今回の動画作成の流れでは、画像プロンプトが挿入されていますが、この項目は必須項目ではありません。

◼︎動画が作成されるまでの流れその4:エンコーダで画像プロンプトをエンコードする
画像プロンプトがエンコーダによってエンコードされます。これにより、画像が数値データに変換されます。例えば上記の画像が、0.2, 0.7, -0.1のような数値に変換されます。

✓エンコーダとは?
画像プロンプトを別の形式に変換するための装置やアルゴリズムのこと。特に、コンピュータが効率的に処理できる数値データに変換する役割を持ちます。
✓エンコードとは?
情報やデータを別の形式に変換するプロセス自体を指します。
◼︎UL2エンコーダとエンコーダの違いって何?(補足)
ULDエンコーダについての共有もしましたが、「通常のエンコーダとの違いって何?」と思う方がいるかもしれません。
両者の大きな違いは「自然言語に特化しているかどうか」です。
ULDエンコーダが自然言語処理に特化したエンコーダです。一方で通常のエンコーダは多くのデータ形式を扱うことができます。
違いについての詳細は以下の表にまとめました。

◼︎動画が作成されるまでの流れその5:エンコードされた両者のプロンプトを結合する
このタイミングで、エンコードされたテキストプロンプトと画像プロンプトの数値データが結合されます。
以下のような感じです。
・UL2エンコーダで処理されたテキストプロンプト:0.5, -0.2, 0.8, 0.1
・通常のエンコーダ処理された画像プロンプト:0.2, 0.7, -0.1
→「0.5, -0.2 0.8, 0.2, 0.7, -0.1」に結合!
この結合を経て、Embedded promptが完成します。Embedded promptは「埋め込みプロンプト」です。このように結合することで、Veoは作成すべき動画について理解を深めます。

◼︎動画が作成されるまでの流れその6:結合されたプロンプトにノイズを追加する
またプロンプトが結合されたタイミングで、ノイズが追加されます。ノイズが追加されたビデオは、圧縮ビデオとして処理されます。

✓なぜノイズが追加されるの?
3つの理由があります。
その1:生成されるビデオに多様性を持たせるため。
その2:モデルが訓練時に過度に適合しないようにするため。
その3:生成されるビデオがより現実的に見えるようにするため。実際全てのビデオには、ある程度のノイズが含まれています。
✓ノイズは確実に追加されるの?
使用されるモデルやアルゴリズムの設計によって変わります。しかし多くのモデルには、ノイズを追加するプロセスがあります。理由は上記で共有した内容になります。
◼︎動画が作成されるまでの流れその7:潜在拡散モデルで「ノイズが追加された動画」を処理する
ノイズが追加された圧縮ビデオが、Latent Diffusion Modelに入力されます。これは日本語にすると「潜在拡散モデル」です。このモデルで、ノイズを追加したり除去したりするプロセスが行われます。このプロセスを経て、新しいデータが生成されます。

◼︎動画が作成されるまでの流れその8:圧縮動画を生成する
潜在拡散モデルが出力したデータによって、Compressed Videoが生成されます。これは日本語にすると「圧縮動画」です。が生成されます。動画を圧縮することで、動画のデータを効率的に保存、送信、処理できるサイズに変えることができます。圧縮の際に重要な情報を守って、必要のないデータを減らしていきます。

◼︎動画が作成されるまでの流れその9:デコーダで圧縮動画をデコードする
圧縮された動画はデコーダによってデコードされます。デコードされることで、高解像度の動画データに変換されます。

✓デコーダとは?
エンコードされたデータを元の形式に戻すための装置やアルゴリズムのこと。エンコーダとは逆方向の変換を行います。例えば「圧縮データや暗号化データを元の形式に戻す」などです。
✓デコードとは?
エンコードされたデータを元の形式に戻すプロセス自体を指します。デコードされることで、復元されたデータ(ここでは動画)が出力されて、視聴できる状態になります。
◼︎動画が作成されるまでの流れその10:1080p動画の完成!
デコードされた後、最終的に1080pの高解像度の動画が出力されます。

Veoではこのような流れを経て、動画が構築されます。
►なぜVeoではこんなに高精度な動画を作成できるの?
前回の章ではVeoで動画が構築されるまでの流れを共有しました。
それにしても、なぜVeoを使うと「精度の高い動画」が作れるのでしょうか?
そこでこの章では、Veoの特出する機能を共有していきます。
◼︎柔軟な編集機能を兼ね備える
Veoではテキストプロンプトによる動画の部分編集ができます。それを可能にしているのは、「マスク編集機能」です。
ユーザーがテキストプロンプトで編集内容を指示すると、Veoはその部分だけを反映してくれます。最初に生成された動画が大きく変化することはありません。
例えば、以下の動画があるとします。
この動画にKayaks in the waterというプロンプトを追加するだけで、動画の中にカヤックが追加されます。その際、最初の動画は変化していません。
マスク機能があることで、動画を作り直す手間が省けます。
さらに画像とテキストプロンプトを組み合わせることで、画像を動画に変えることも可能です。
例えば、「ラマがサングラスをかけている画像」を動画に変換することができます。
画像🔽

動画🔽
✓マスク編集機能とは?
動画や画像の一部を選択、編集する機能のこと。
◼︎動画の中の一貫性を保つことができる
動画生成モデルにとって、映像の一貫性を維持することが課題になります。
しかしVeoの潜在拡散トランスフォーマーが、映像の不一致を目立たなくします。キャラクター、オブジェクト、スタイルを現実と同じように維持しつつ、動画を作成していきます。
✓潜在拡散トランスフォーマーとは?
潜在拡散モデルの概念の中に、トランスフォーマーモデルの構造を組み合わせたモデルのこと。トランスフォーマーの能力を利用して、生成された動画の一貫性や品質をさらに向上させます。
✓トランスフォーマーとは?
自然言語処理(NLP)や、その他の機械学習タスクで広く使用されるディープラーニングモデルのひとつ。大規模なデータセットを効率的に学習することができます。
◼︎自然言語と視覚情報の理解度が高い
加えて動画の一貫性を維持するためには、テキストプロンプトを正確に理解することが必要です。またその時に、視覚的情報(画像)の理解も必要になります。
しかしVeoは、テキストと視覚的情報を理解する能力が高いです。そのため、プロンプトの微妙なニュアンスやトーンを正確に理解することができます。
映画制作、または高度なプロンプトを用いて動画を作成する際に、うってつけのモデルです。
►長年の研究結果に基づいて構築されたVeo
Veoは、Googleのこれまでの動画生成AI研究の集大成とも言える技術です。
✓以下のモデルに基づいて構築されました
・Generative Query Network: 画像から、まだ見たことのない視点の画像を生成するモデル。
・DVD-GAN:ビデオの静的な背景と動的な背景を別々に学習し、ビデオを生成する生成ネットワーク。
・Imagen-Video:テキストから高解像度で一貫性のある動画を生成するモデル。
・Phenaki:長いテキストから一貫性のあるストーリー性を持った動画を生成するモデル。
・WALT:テキストと画像のペアから学習し、テキストの説明に従って画像を編集・変換するモデル。
・VideoPoet:テキストの説明から、多様なスタイルと複雑なシーンを含む短いビデオクリップを生成するモデル。
・Lumiere: テキストと画像の指示から高解像度な動画を生成し、3Dにも対応する動画生成モデル。
・Googleのトランンスフォーマーアーキテクチャ:自然言語処理において革新的な、単語間の関係性を捉えることに優れたアーキテクチャ。
・Gemini:テキスト、コード、画像、音声など、異なる情報を統合的に理解し、生成するマルチモーダルAIモデル。
上記の全てのモデルが結集していること考えると、Veoの構築に膨大な時間をかけたことが理解できますね。
►動画生成AI「Veo」はいつから使えるようになるの?
Veoは2024年5月の時点では、まだ使用することができません。
しかし今後数週間でVideoFXを通じて、一部のクリエイターに提供される予定です。またウェイトリストに登録しておくことで、優先的にVeoを使用できるようになります。
◼︎ウエイトリストの画面にログインするまでの方法
まずは、ウェイトリストの画面にログインしていきます。
最初に、VideoFXにアクセスします。アクセスすると以下の画面に切り替わります。

アクセスした後、Sign in with Googleをクリックします。

クリックすると、AI Test Kitchenにようこそというテキストが表示されます。
その下にあるSign inをクリックします。

クリックすると以下の画面に切り替わります。

AI Test Kitchenの説明などが書かれていますね。
なおメールの受信に関する項目は、任意でチェックマークを入れましょう。

上記の画像で次へをクリックすると、Gooogleのプライバシーポリシーの確認画面に切り替わります。
内容を確認したら次へをクリックします。

利用規約も確認しましょう。確認したら同意して続行をクリックします。

同意して続行をクリックすると、以下の画面に切り替わります。

この画面の上部にあるJoin our waitlistをクリックします。

クリックすることで、Labs.google Trusted Tester Waitlistにログインすることができます。

これで、ウェイトリストへのログインは完了です。
◼︎ウェイトリストに登録して「Veo」をいち早く使用する方法
次に、ウェイトリストに必要事項を入力していきます。
Lab.googleのウェイトリストには以下の項目があります。全ての項目が必須項目です。漏れなく入力していきましょう。


入力が完了したら、送信をクリックします。

送信をクリックすると、以下の画面に切り替わります。

Your response has been recorded(送信内容が記録されました)というテキストが入力されています。これでウェイトリストへの登録が完了です。画面を削除して大丈夫です。
送信した内容は、全てGoogleに審査されます。審査が通れば、使用開始が発表されたタイミングでVeoを使うことができるようになります。
なお審査結果は、登録したEメールに後日送信されます。
►Veoは安全に使えるの?
Veoで作成された動画は、最新技術のSynthIDを用いて「電子透かし」が埋め込まれます。SynthIDを用いいることで、コンテンツの出所が追跡され、不正利用や偽造を防ぐことができます。また、改ざん防止にもなります。SynthIDは人間には判断できません。しかし特定のツールを使うことで検出することができます。
加えてプライバシーや著作権侵害、偏見などのリスクを減らすため、安全フィルターや盗用チェックなどのプロセスも行われます。
✓SynthIDとは?
生成された画像や動画に埋め込まれた、目に見えないデジタルウォーターマーク技術の一種。生成されたコンテンツがオリジナルかどうかを確認して、信頼性を確保するために使われます。
✓デジタルウォーターマークとは?
デジタルコンテンツ(画像、音声、動画、テキストなど)に埋め込まれる識別情報のこと。ここでは、SynthIDを指します。
SynthIDについては、以下の動画を見ることで理解が深まります。Googleの最新技術に興味のある方は、ぜひご覧ください。
►Veoに関する記事の引用元
Veoについての記事を書くにあたって、こちらのリンクを参考にしました。
https://deepmind.google/technologies/veo
►まとめ
以上になります。この記事が、Veoの理解につながれば幸いです。
動画生成AI「Veo」の発表によって、動画作成の常識がまた覆りました。
OpenAIが動画生成AI「Sora」を発表した時のインパクトは大きかったです。しかし今回のGoogleの発表も、同じように衝撃的な内容でした。
Veoは、「プロンプトで動画編集ができる」だけではありません。プロンプトにほんの少しテキストを追加するだけで、もとの動画を変えることなく対象物を追加することができます。そして作成される動画は1080pの高画質動画です。
これからは動画編集のハードルがもっと下がっていくはずです。そうなれば、さらに多くの人が挑戦できるようになります。
すごくワクワクすることですよね。
そんな未来に期待を持ちつつ、今後もできることに挑戦していきましょう!
なお記事に関しての感想やご要望等ございましたら、XのDMにてメッセージを受け付けています。このページを下までスクロールしていただくと「黒い鳥」がいます。そこから僕のXのページにアクセスすることができます。
最後までお読み頂きありがとうございます。


コメント