「Gemini1.5の凄さ」を解説！Gemini1.0と比較してみました

2月16日にGoogleがGemini1.5を発表しました。

Introducing Gemini 1.5: our next-generation model with dramatically enhanced performance. It also achieves a breakthrough in long-context understanding.

The first release is 1.5 Pro, capable of processing up to 1 million tokens of information. 🧵 https://t.co/qT0aXdFL0n pic.twitter.com/xA0ib11f00
— Google DeepMind (@GoogleDeepMind) February 15, 2024

✓この記事では以下のことが学べます

►はじめに
►Geminiを理解するためのおすすめ記事
►Gemini1.5についての概要
1. ◼︎難しい問題でもサクサク解決してくれる
2. ◼︎補足
►「Gemini1.5の凄さ」を学ぶ｜Gemini1.5と1.0の違いを比較しました
►Gemini1.5の安全性について
►Gemini1.5はいつから導入されるの？
►この記事の引用元
►まとめ

►はじめに

2月8日にGemini1.0 Ultraが発表されましたk。

そこからわずか8日で、上位モデルのGemini1.5が発表されました。

Googleはたくさんの人が利用しています。

なので、Geminiを使うチャンスも多いです。

実際、これから使う人も増えてくるはずです。

また、「Gemini1.5って何？」を解決することで、活用方法も広がるかもしれません。

使用する前に読んでいただきたい内容になっています。

ぜひ、最後までお読みください。

►Geminiを理解するためのおすすめ記事

Gemini1.5について学ぶ前に、Gemini Advancedについての記事もお読みください。

Geminiでは「ChatGPTにはない便利な機能」が含まれています。

この記事でまとめた内容を実践することで、生活がもっと充実します。

さらに、同じく2月16日にOpenAIからSoraが発表されました。

そして話題をかっさらいました。笑

Soraは、OpenAIが発表した画期的な動画生成AIです。

世界を席巻する２つのAI技術を理解することで、知識を更新し続けることができます。

では、ここから本題に入っていきます。

►Gemini1.5についての概要

Googleが開発したGemini 1.5は、最新のAI技術を使ったプログラムです。

◼︎難しい問題でもサクサク解決してくれる

このプログラムは、大量の文章や情報を理解する能力が非常に高いです。

Gemini1.5はさまざまな種類の情報をとても速く、正確に理解します。

「めちゃくちゃ賢い助手」です。

この技術では、たくさんの「小さな専門家」が手助けをしてくれます。

それぞれの「小さな専門家」には得意な分野があり、それぞれが知識を活かして効率的に作業を進めてくれます。

このおかげでGemini1.5は、必要な情報をすぐに見つけることができます。

そして難しい問題でも、サクサク解決していきます。

◼︎補足

✓「小さな専門家」とは？

Gemini1.5が採用しているMixture-of-Experts (MoE) アーキテクチャの内部にある、「人間の脳を模倣したコンピュータープログラム」のことを指します。

MoEアーキテクチャを採用することで、複数の専門家、つまり「複数のプログラム」が存在するようになります。それらには役割があって、それぞれが特定の問題を解決していきます。入力されたデータに基づいて、AIは最も適切な「小さな専門家」を選択します。そして、専門知識を用いて効率的に問題を解決します。

✓MoEアーキテクチャとは？

「正しい専門家に正しい仕事をさせることで、AIモデル全体の性能を向上させる設計」のことを指します。ちなみに「MoE」はMixture-of-Experts（専門家の混合）の頭文字を取ったものです。

►「Gemini1.5の凄さ」を学ぶ｜Gemini1.5と1.0の違いを比較しました

最初にリリースされたGemini 1.5モデルは、Gemini 1.5 Proです。

これは、多くの問題に対応できるように設計された中規模のマルチモーダルモデルです。

✓マルチモーダルモデルとは？

異なる種類のデータを処理できるAIモデルのことを指します。

大幅に強化されたにも関わらず、1.5Proは1.0Ultraと同等のパフォーマンスで機能します。

次にGemini1.0と比較しつつ、「Gemini1.5の凄さ」を見ていきます。

◼︎「Gemini1.5の凄さ」その１：情報処理の範囲（コンテキストウィンドウの大きさ）

✓Gemini1.5

最大100万トークンの処理が可能です。いまだかつてなかった量のデータを一度に理解します。

✓トークンとは

テキストやデータを処理しやすくするために分割された最小単位のことです。「最大100万トークンを処理できる」とは、一度に最大100万個の単語やデータを分析できるということです。

✓100万トークンの処理が可能になったことで、下記が処理できるようになりました

・1時間の動画

・11時間の音声

・30,000行以上のコード

・ 700,000字以上のテキスト

など

研究では、最大1,000万個のトークンのテストにも成功しているそうです。

✓Gemini1.0

最大32,000トークンの処理能力で、多くの情報を処理します。しかし、Gemini1.5に比べて処理能力は低いです。

◼︎「Gemini1.5の凄さ」その２：性能と効率

✓Gemini1.5

新しいMoEアーキテクチャにより、性能と効率が大幅に向上しました。

✓Gemini1.0

高性能ですが、1.5の技術進化には及ばず、効率性に限界があります。

◼︎「Gemini1.5の凄さ」その３：文脈理解の深さ

✓Gemini1.5

長い文章やデータの理解に特化し、より深い文脈の理解ができます。

✓Gemini1.0

長文理解に優れるものの、Gemini1.5のような大きなコンテキストウィンドウは持ちません。

✓コンテキストウィンドウとは？

ある情報の文脈を理解するために参照される、周囲のテキストのことです。コンテキストウィンドウが大きいほど、ユーザーの情報から推測する範囲が広がります。

✓コンテキストとは？

「情報や発言が生まれた大枠の背景」のことを指した言葉です。

また、「コンテキストウィンドウ」と「コンテキスト」の違いは、下の画像を見るとわかりやすいです。

あくまで「イメージ」なので、参考程度にご覧ください。

Gemini1.5では「100万トークンが収容可能なコンテキストウィンドウ」を使用しています。

そして、トークンは「トークン自身」では動かず、MoEアーキテクチャの内部にある「人間の脳を模倣したプログラム」によって、分析と処理が行われます。

分析と処理によって「ユーザーの必要としている情報」を推測して、出力します。

なお、「コンテキストウィンドウよりも広い知識」が「コンテキスト」になります。

◼︎「Gemini1.5の凄さ」その４：データの多様性

✓Gemini1.5

テキスト、画像、音声、動画など、さまざまなデータ形式に対応しています。

✓Gemini1.0

複数の形式に対応しているものの、Gemini1.5ほど幅広く対応していません。

◼︎「Gemini1.5の凄さ」その５：推論能力

✓Gemini1.5

複雑なデータや情報から推論する能力が格段に向上しました。

✓Gemini1.0

複雑なデータ分析は可能ですが、Gemini1.5の高度な推論能力には及びません。

◼︎「Gemini1.5の凄さ」その６：学習能力

✓Gemini1.5

「インコンテキスト学習」の能力があります。

✓インコンテキスト学習とは？

インコンテキスト学習（In-context Learning、ICL）とは、AIが新しい情報を学習するときに、追加の訓練やプログラミングなしで、与えられたコンテキストや例から直接学習する能力のことです。

✓Gemini1.0

有益なスキルを学習していますが、Gemini1.5のインコンテキスト学習の能力は持ち合わせていません。

Gemini1.5は、Gemini1.0の基礎の上に開発されました。

情報処理の能力、文脈理解、データの多様性、推論能力、学習能力などの進化は目覚ましいです。

►Gemini1.5の安全性について

✓Googleが提示する安全性について「わかりやすく」まとめました

Googleは、AIの進歩を追求しつつも、安全性と倫理性に深く配慮しています。

特に最新のAIモデル「Gemini1.5」の開発において、Googleは厳格な倫理基準と安全ポリシーに基づき、広範なテストを実施しています。

これには、コンテンツの安全性や表現上の危害を検証するための評価が含まれています。AIシステムの信頼性を確保するための継続的な改善も行われています。

また、Googleは安全性リスクに対する新たな研究を進め、潜在的な問題を特定するための専門チームも設けています。

Gemini1.5 Proの新機能であるロングコンテキスト機能に対しても、これらの安全性基準を適用します。

ユーザーにとって、安全かつ倫理的なAI技術の提供を目指しています。

►Gemini1.5はいつから導入されるの？

今のところ、一般ユーザーがいつ使えるようになるのかは未定です。

しかしAI Studio と Vertex AI より、一部のデベロッパーと企業に試験運用機能が提供されています。

また、新モデルリリースの準備が整い次第、標準で128,000トークンのコンテキストウィンドウを備えた1.5 Proも導入されるそうです。

そして今後は、128,000トークンのコンテキストウィンドウから100 万トークンまでの、スケールアップに対応した価格帯を導入するようです。

コンテキストウィンドウによって、費用が変化しそうですね。

なお、1.5Proのテストに興味のあるデベロッパーや個人は、Google AI Studioよりサインアップしてください。

Google AI StudioでGemini1.5 Proにアクセスできるようになったタイミングで、メールが届くようになります。

まずは、下記からGemini Advancedの登録画面をのぞいてみてください。

https://gemini.google.com/advanced

►この記事の引用元

Gemini1.5に関する記事を書くにあたって、下記の記事を参考にしました🔽

https://japan.googleblog.com/2024/02/gemini-15.html

►まとめ

Googleの進化したAIモデル「Gemini 1.5」は、AI技術の新たな世界を開拓します。

Soraと同じ日に発表されたこともあり、話題性が薄れてしまいました。

しかしこの記事を読んで「Gemini1.5の凄さ」が理解できたと思います。

Gemini 1.5の登場は、AIの利用をさらに身近なものにしました。

そして、僕たちの生活や仕事をより豊かなものにしてくれるのは間違いありません。

興味を持って、活用していきましょう。

最後までお読みいただき、ありがとうございます。

►はじめに

►Geminiを理解するためのおすすめ記事

►Gemini1.5についての概要

◼︎難しい問題でもサクサク解決してくれる

◼︎補足

►「Gemini1.5の凄さ」を学ぶ｜Gemini1.5と1.0の違いを比較しました

◼︎「Gemini1.5の凄さ」その１：情報処理の範囲（コンテキストウィンドウの大きさ）

◼︎「Gemini1.5の凄さ」その２：性能と効率

◼︎「Gemini1.5の凄さ」その３：文脈理解の深さ

◼︎「Gemini1.5の凄さ」その４：データの多様性

◼︎「Gemini1.5の凄さ」その５：推論能力

◼︎「Gemini1.5の凄さ」その６：学習能力

►Gemini1.5の安全性について

►Gemini1.5はいつから導入されるの？

►この記事の引用元

►まとめ

コメント

学べるブログをもっと見る

学べるブログをもっと見る