「Project Astra」が始動！未来のAIが日常生活を大きく変えます

2024年5月15日に、GoogleI/OでProject Astraが発表されました。

We’re sharing Project Astra: our new project focused on building a future AI assistant that can be truly helpful in everyday life. 🤝

Watch it in action, with two parts – each was captured in a single take, in real time. ↓ #GoogleIO pic.twitter.com/x40OOVODdv
— Google DeepMind (@GoogleDeepMind) May 14, 2024

同じ日に発表されたGemini1.5 Flashに関しては以下の記事で共有しています。興味のある方はお読みください。

►Project Astraの概要
►Project Astraで作り出す未来のAI(試作品です）
►Project Astraの6つのテストモデル
►より人間らしいAIを作り出すために：AIアシスタント開発で注力している３つのこと
►GoogleがProject Astraで目指している５つのこと
►Project Astraに関する記事の引用元
►まとめ

►Project Astraの概要

Project Astraは、より自然で、より人間らしいAIアシスタントを開発することを目指すプロジェクトです。

このプロジェクトでは、音声認識、自然言語処理、画像認識などのAI技術を統合し、ユーザーとの自然な対話を実現しようとしています。

なお、ベースとなっているモデルはGeminiモデルです。

Project Astraは単なるチャットボット開発のプロジェクトではありません。音声や画像も理解して、状況に応じた対話ができる高度なAIアシスタントを開発するための壮大なプロジェクトです。

►Project Astraで作り出す未来のAI(試作品です）

この映像はProject Astraの試作品を活用したデモ動画になっています。

映像は2部構成です。

第1部では、カメラ越しにGeminiが現実世界を認識する映像が流れます。第2部では、ARグラス越しにGeminiが現実世界を認識する映像が流れます。

デモ動画🔽

デモ動画

動画は全て一発撮りです。一発撮りにも関わらず、ユーザーとGeminiのやり取りがほぼ完璧に成り立っていることが理解できます。だからこそ、今後のAIの進化に対して強い希望を感じることができます。

以下に、動画の全文を共有します。もちろん日本語訳付きです。興味のある方はぜひお読みください。

◼︎デモ動画の概要

This is a two-part demo of Project Astra, Google DeepMind’s vision for the future of AI assistants. Each part was captured in a single take, in real time.

これは、AIアシスタントの未来に対するGoogle DeepMindのビジョンであるProject Astraの2部構成のデモです。それぞれの部分はリアルタイムで一発撮りされました。

◼︎第１部：カメラ越しに現実世界を理解する

第一部の映像では、Geminiがスマホ越しに現実の世界を認識して説明してくれます。試作品であるにも関わらず、明らかに精度が高いです。日常生活の中で使えるようになった未来を想像すると、とてもワクワクします。そう思えるような内容でした。

☐スピーカーを認識して説明する(11秒〜30秒)

ユーザー：Tell me when you see something that makes sound.(音を出すものを見たら教えてください)

Gemini：I see a speaker, which makes sound.(音を出すスピーカーが見えます)

ユーザー：What is that part of the speaker called?(スピーカーのその部分は何と呼ばれますか？)

Gemini：That is the tweeter. It produces high-frequency sounds.(それはツイーターです。高周波音を生成します)

☐クレヨンを認識してクリエイティブなフレーズを作成する(32秒〜43秒)

ユーザー：Give me a creative alliteration about these.(これらについてクリエイティブな頭韻を使ったフレーズを作ってください)

Gemini：Creative crayons color cheerfully. They certainly craft colorful creations.(創造的なクレヨンは楽しげに色を塗る。彼らは色とりどりの作品を作り出します)

☐デスクトップ上のコードを認識してできることを説明する(46秒〜65秒)

ユーザー：What does that part of the code do?(その部分のコードは何をするのですか？)

Gemini：This code defines encryption and decryption function. It seems to use AES-CBC encryption to encode and decode data based on a key and an initialization vector(IV).(このコードは暗号化と復号化の関数を定義しています。キーと初期化ベクトルに基づいてデータをエンコードおよびデコードするためにAES-CBC暗号化を使用しているようです)

☐外を映して場所を特定する69秒〜80秒)

ユーザー：What neighborhood do you think I’m in?(私はどの地域にいると思いますか？)

Gemini：This appears to be the King’s Cross area of London. It is known for its railway station and transportation connections.(これはロンドンのキングス・クロス地区のようです。その地域は鉄道駅と交通の合流地点として有名です)

☐記憶していた眼鏡の置き場所を教えてくれる(81秒〜92秒)

ユーザー：Do you remember where you saw my glasses?(私の眼鏡を見た場所を覚えていますか？)

Gemini：Yes, I do. Your glasses were on the desk near a red apple.(はい、覚えています。あなたの眼鏡は赤いリンゴの近くの机の上にありました)

◼︎第２部：ARグラス越しに現実世界を理解する

この章の冒頭でもお伝えしたとおり、第二部ではARグラス越しにGeminiが現実世界を理解する映像が流れます。スマホを持って操作することもなく、会話だけでGeminiと対話をしています。

☐システム改善のためにできることを教えてくれる(102秒〜112秒)

ユーザー：What can I add here to make this system faster?(このシステムをより高速にするためにここに何を追加すればいいですか？)

Gemini：Adding a cache between the server and database could improve speed.(サーバーとデータベースの間にキャッシュを追加することで速度が向上する可能性があります)

☐イラストからある思考実験を思い起こす(113秒〜120秒)

ユーザー：What does this remind you of?(これは何を思い出させますか？)

Gemini：Schrödinger’s cat.(シュレディンガーの猫です)

☐ペアのバンド名を教えてくれる(121秒〜133秒)

ユーザー：All right, give me a band name for this duo.(よし、このペアのバンド名を教えてください)

Gemini：Golden Stripes.(ゴールデンストライプです)

►Project Astraの6つのテストモデル

前回の章ではデモ動画を共有しました。

この章では、さらに具体的なProject Astraのテストモデルを共有します。共有している動画の映像はテストモデルであるにも関わらず、すでに画期的で素晴らしい機能だということがわかります。

◼︎Project Astraのテストモデルその１：物体や文献を認識して自身の考えを出力する

この映像の中でGeminiは、簡単なイラストを通して文学作品や思考実験を連想します。さらに詩を作成したり、文献に掲載されている図についても解説してくれます。

これらは全て一時停止もすることなく、普通の会話のように進行していきます。

物体や文献を認識して自身の考えを出力する

☐イラストからハムレットを連想する

ユーザー：What famous piece of literature does this remind you of?(これはどんな有名な文学作品を思い出させますか？)

Gemini：That image of a skull reminds me of Hamlet. Do you enjoy Shakespeare’s work?(その頭蓋骨の絵はハムレットを思い出させます。シェイクスピアの戯曲は好きですか？)

ユーザー：Yes, I do. (はい、好きです)

☐イラストからテセウスの船を連想する

ユーザー：Can you tell me what this famous thought experiment might be and explain it to me in one sentence?(この有名な思考実験が何なのか、一言で説明してもらえますか？)

Gemini：That looks like the “ship of Theseus”thought experiment. It questions whether an object that has had all of its components replaced remains fundamentally the same object. (それは「テセウスの船」という思考実験のように見えます。それは、すべての部品を交換された物体は、根本的に同じ物体であり続けるのかどうかを問うものです)

☐オブジェクトから詩を作成する

ユーザー：Can you tell me a creative poem about these objects?(これらの物体についての創造的な詩を教えてもらえますか？)

Gemini:A vibrant orb. A mind laid bare. Time’s silent passage fills the air. The fruit of thought. The sands that fall. What memories will it recall?(鮮やかな球体。むき出しの心。時の静かな歩みが空気を満たす。思考の果実。落ちる砂。どんな記憶を呼び起こすのだろうか？)

ユーザー：Cool. (いいね)

☐文献中の図について説明する

ユーザー：Can you explain this diagram to me in a couple sentences?(この図を2、3文で説明してもらえますか？)

Gemini：This appears to be a diagram depicting spectral lines from different elements. It is likely illustrating the characteristic frequencies of light emitted by those elements in a spectroscopic analysis.(これは、さまざまな元素のスペクトル線を表した図のようです。分光分析における、これらの元素によって放出される光の特性周波数を示している可能性があります)

ユーザー：Cool. Thanks,Gemini.(いいね。ありがとう、ジェミニ)

◼︎Project Astraのテストモデルその２：レーシングカーの部品を説明する

この映像では、イラストからレーシングカーの車名を言い当てます。また部品についての説明をしたり、Geminiが自ら説明する部品を選択し、機能についても説明してくれます。

従来のAIでは、ここまで簡単なイラストで、なおかつリアルタイムで会話が進んでいくことはなかったと思います。

今後のAIの進化に大きな期待が持てる機能です！

レーシングカーの部品を説明する

☐イラストから車名を言い当てる

ユーザー：Hey, what is this?(ねえ、これは何？)

Gemini:It looks like a drawing of a Formula One race car. Is that what you were going for?(フォーミュラワンレースカーの図のように見えます。それがお探しのものですか？)

ユーザー：Yeah. (そうです)

☐イラストから車の部品の説明をする

ユーザー：Do you know what this part of the car does?(車のこの部分は何をするものなのか知っていますか？)

Gemini：That’ the front wing.It helps the car stay stuck to the track at high speeds by generating downforce.(それはフロントウイングです。ダウンフォースを発生させることで、車が高速でコースから外れないようにします)

☐他の部品についての説明をする

ユーザー：What about this part?(この部分は？)

Gemini：That is the rear wing. Just like the front wing. It helps keep the car grounded by using aerodynamics.(それはリアウイングです。フロントウイングと同じように。空力を使って車の接地状態を保ちます。)

ユーザー：Sweet. (いいね)

☐部品をランダムに選んで新しい使い方を教えてくれる

ユーザー：Can you pick a random part of the car and teach me something new about it?(車の部品をランダムに選んで、それについて何か新しいことを教えてもらえますか？)

Gemini：How about the halo? It’s designed to protect the driver’s head from impact.(ハローはどうですか？ドライバーの頭部を衝撃から保護するように設計されています。)

ユーザー：Oh, thanks.(おお、ありがとう。)

◼︎Project Astraのテストモデルその３：身の回りの物を記憶する

この映像では、ユーザーが身の回りの「物」を映しながら会話を進めていきます。身の回りのものを映している時も会話が止まることはありません。

全ての物を映し終わった後に記憶した物を教えてくれるGeminiは圧巻です。

身の回りの物を記憶する

ユーザー：Hey, I’m going to show you some objects. Just do your best to remember them.(ねえ、これからいくつかの物を見せるね。できるだけ覚えてね)

Gemini：Sounds fun, I’m ready! I’m pretty good at remembering things, so go ahead!(楽しそう、準備万端だよ！僕は記憶力がいい方だから、どうぞ！)

ユーザー：Okay. Then, Name every object I just showed you.(オッケー。じゃあ、今見せた物を全部言って)

Gemini：Okay, let’s see. There was a seashell, a spiky gold ball, a yellow glass sphere, a goldfish, and finally, a little potted plant.(よし、見てみよう。貝殻、トゲトゲの金のボール、黄色いガラスの球体、金魚、最後に小さな鉢植えがあったね。)

ユーザー：Good job.(よくできました)

◼︎Project Astraのテストモデルその４：旅行日記のイラストを全て記憶して返答する

この映像ではGeminiと会話をしながら、ユーザーが旅行日誌をめくっていきます。旅行日誌には有名な観光名所のイラストが描かれていて、Geminiには「後で質問するね」と伝えておきます。

ページをめくるスピードは人間に見せる時と同じですが、はっきりと観光名所の名称を教えてくれます。

旅行日記のイラストを全て記憶して返答する

ユーザー：Okay, I’m going to show you my travel journal and then ask you a question after.(オッケー、これから旅行日誌を見せるから、その後で質問するね)

Gemini：That’s sounds fun, I’d love to see your journal.(楽しそう！ぜひあなたの旅行日誌を見てみたいです)

ユーザー：Okay. Name everything I drew.(オッケー。私が描いたものを全部言って)

Gemini:Wow. Those are some great sketches. You drew the Eiffel Tower, Pyramids, the Taj Mahal, the Statue of Liberty, and the Great Wall of China.(素晴らしいスケッチですね。エッフェル塔、ピラミッド、タージ・マハル、自由の女神、万里の長城を描きましたね)

ユーザー：Wow. Great job Gemini.(よくできました、ジェミニ)

◼︎Project Astraのテストモデルその５：簡単なイラストから学術的な内容を説明する

この映像では簡単なイラストから学術的な内容の説明をしてくれます。「え、これでなんでアインシュタインってわかるの！？」と思うくらい簡易的なイラストにも関わらず、Geminiはアインシュタインだと認識します。

またりんごが地面に落ちるイラストを見せるだけで、ニュートンを連想します。

この映像を見ることで、Project AstraでのGeminiの想像力の高さを実感することができます。

簡単なイラストから学術的な内容を説明する

☐アインシュタインを連想し業績の説明をする

ユーザー：Try to guess this famous figure.(この有名人を当ててみて)

Gemini:That’s a fun drawing. Is it Albert Einstein?(面白い絵ですね。アルバート・アインシュタインですか？)

ユーザー：Yeah. What did he do around this time?(そうです。彼はこの頃、何をしましたか？)

Gemini：In 1905, Albert Einstein published his groundbreaking theory of special relativity. Do you want another hint for your drawing?(1905年、アルバート・アインシュタインは革新的な特殊相対性理論を発表しました。絵のヒントをもうひとつほしいですか？)

ユーザー：Does this remind you of any of his work?(これは彼の仕事で何かを思い出させますか？)

Gemini：Yes. That drawing reminds me of his photoelectric effect paper, which also won him the Nobel Prize in 1921.(はい。その絵は、1921年にノーベル賞を受賞した光電効果の論文を思い出させます)

ユーザー：Okay, okay. (なるほど)

☐りんごが落ちている木のイラストでニュートンを連想する

ユーザー：Do you know who this is?(これは誰だか分かりますか？)

Gemini:Is this a new famous figure? This makes me think of gravity and Isaac Newton.(これは新しい有名人ですか？これは重力とアイザック・ニュートンを連想させます)

☐アインシュタインとニュートンの共通点を説明する

ユーザー：Did he share anything with that first guy I showed you?(最初に私が見せた人物と何か共通点はありますか？)

Gemini：Both Isaac Newton and Albert Einstein were physicists who revolutionized our understanding of the universe.(アイザック・ニュートンもアルバート・アインシュタインも、宇宙に対する私たちの理解に革命をもたらした物理学者です)

ユーザー：Thanks, Gemini.(ありがとう、ジェミニ)

◼︎Project Astraのテストモデルその６：因数分解のグラフの間違いを指摘する

最後は、ARグラスを用いた映像になります。

ユーザーがボードに式を書いて因数分解をした後、間違ったグラフを書きます。しかしそれでもGeminiは間違いを正しく指摘して、正しいグラフを書き直した後、「それは正しい！」と認識します。

この映像の中でも会話が止まることは一度もありません。まるでGeminiが見ている「現実世界」を理解しているかのようです。

因数分解のグラフの間違いを指摘する

☐ボードに書かれた式を因数分解する

ユーザー：Can you factorize this for me? (これを因数分解してくれませんか？)

Gemini：That’s a great question. The factorization is(x+1)(x+5). (いい質問ですね。因数分解すると(x+1)(x+5)になります。)

☐ボードに書かれたグラフの小さなミスを指摘する

ユーザー：Is this graph correct? (このグラフは正しいですか？)

Gemini：Almost, but there is a small error. The parabola should intersect the X-axis at negative one and negative five based on the factorization. (ほぼ合っていますが、少し誤りがあります。因数分解に基づくと、放物線はx軸と-1と-5で交わるはずです。)

☐修正したグラフを正解だと認識する

ユーザー：Is this correct? (これは正しいですか？)

Gemini：Yes, that looks great.It accurately represents the factored expression. (はい、素晴らしいですね。因数分解された式を正確に表しています)

ユーザー：Awesome. Thank you. (すごい。ありがとう)

►より人間らしいAIを作り出すために：AIアシスタント開発で注力している３つのこと

AIアシスタントは、私たちの日常生活でますます重要なものになります。

デモ動画やテストモデルの映像を見て「使いたい！」と思った人は多いのではないでしょうか。僕も使ってみたいです！

しかし現在のAIアシスタントは、人間と同じように複雑な世界を理解し、自然な会話をすることはできません。

そのためProject Astraでは知覚、推論、会話の方法を改善するために「３つのこと」に注力してきました。その結果、音声モデルが進化しました。

音声モデルが進化することで、AIアシスタントの音声がより自然になりました。加えて、幅広いイントネーションを表現できるようになりました。そして、応答時間も短縮します。

では、AIアシスタント開発で注力していることを見ていきましょう！

◼︎その１：自然な会話体験の向上

✓以下が、AIアシスタントと自然な会話ができるようにするために取り組んでいることです

・音声認識・合成技術の進化

・自然言語処理技術の向上

・応答時間の短縮

・ユーザーインタフェースの改善

上記の進化を追求することで、正確な音声認識、文脈理解、感情分析、高速な処理ができるようになります。より人間らしい、自然な会話に近づきます。

◼︎その２：マルチモーダルな情報の理解

ビデオフレームの連続エンコードとビデオと音声の統合という2つの技術を用いて、マルチモーダルな情報の理解を深めます。

ビデオフレームを連続的に分析することで、AIアシスタントは提供された内容を深く理解します。また、状況に応じた適切な返答ができるようになります。さらにビデオと音声情報を組み合わせることで、出来事をリアルタイムで認識できるようになります。

✓マルチモーダルとは？

テキスト、画像、音声、動画など、異なる種類のデータを組み合わせて表現したり、情報を伝達したりすること。

✓エンコードとは？

ある形式のデータや情報を、別の形式に変換すること。

◼︎その３：効率的な情報処理

効率的な情報処理を実現するために、頻繁にアクセスされる情報をキャッシュする技術を採用しています。

これによりAIアシスタントは、必要な情報を迅速に得ることができるようになりました。さらに、情報検索や処理の負荷を軽減することにも成功しています。これにより、スムーズな会話体験を提供することができます。

✓キャッシュとは？

頻繁にアクセスされる情報を、アクセス速度の速い場所に一時的に保存しておく技術のこと。例えると、よく使う本を机の上に置いておくような感じです。本棚から毎回取り出すよりも、机の上にあればすぐに手に取って読むことができますよね。

►GoogleがProject Astraで目指している５つのこと

最後の章では、GoogleがProject Astraを通じて目指していることについて共有します。この章を読むことで、今後AIがどのように生活に影響を及ぼしていくのかが少しだけ見えてきます。

◼︎その１：より自然で人間らしいAIアシスタントを構築する

前回の章でも共有しましたが、Project Astraを通じてより自然で人間らしいAIアシスタントの実現を目標としています。

ユーザーとの自然な会話の中で、リアルタイムで周囲の状況を理解し、加えて状況に応じた対応ができる高度なAIアシスタントの研究と開発を日々進めています。

◼︎その２：複数の情報をカメラやARグラスを用いて処理できるようにする

テキストだけを理解するわけではありません。音声、画像、動画など複数の情報を統合的に理解して、ユーザーとの会話で活用することを目標としています。

カメラやARグラスを通して周囲を認識し、自然言語で会話ができる技術の実現のために日々進化を続けています。

◼︎その３：日常生活に寄り添うAIアシスタントを構築する

スマートフォンやARグラスなどのデバイスに機能を搭載し、日常生活で役立つAIアシスタントになることを目指しています。

忘れ物の場所を覚えていたり、周囲の状況に応じたアドバイスができるように開発が進められています。日常生活に寄り添ったAIアシスタントが構築されれば、僕たちの生活スタイルは大きく変化しそうです。

◼︎その４：AIとの新しいやり取りの手段を構築する

音声やカメラを活用した新しいユーザーインターフェースにより、通常の会話に近いAIとの会話の実現を目指しています。会話を重視したAIアシスタントの発展を追求します。

✓ユーザーインターフェースとは？

人間と機械、特にコンピュータやソフトウェアとの間で情報をやり取りする手段のこと。

◼︎その５：安心して活用できるAIを構築する

高度な能力を持つAI開発の一方で、プライバシーの保護や悪用防止なども重視しています。人間の社会に役立つ一方で、より多くの人が安心して使えるようになるための課題にも取り組んでいます。

►Project Astraに関する記事の引用元

Project Astraに関する記事を書くにあたって、こちらのリンクを参考にしました。

https://deepmind.google/technologies/gemini/project-astra

►まとめ

以上になります。

Project Astraを通じてGoogleが生み出そうとしているAIについて、そして目指していることについて共有しました。現時点では、テストモデルとして紹介されている機能は開発段階です。

しかし今年の後半には、GeminiやGoogle検索と同様、機能が搭載されるそうです。今後さらに人間に近いAIアシスタントが開発されることは間違いなさそうです。

そのようなAIアシスタントを上手に活用するためには、一人ひとりがAIについての理解を深める必要があると思っています。

これから来るであろう未来に備えて、今からできることをやっていきましょう！

引き続き、生成AIに関する記事を「わかりやすく」更新していきます。学んでおきたいと思う方は、僕の記事から学んでください！

この記事がProject Astraの理解につながれば幸いです。

なお記事に関しての感想やご要望等ございましたら、XのDMにてメッセージを受け付けています。このページを下までスクロールしていただくと「黒い鳥」がいます。そこから僕のXのページにアクセスすることができます。

最後までお読み頂きありがとうございます。