GPT-4oに匹敵する「Gemini1.5Flash」の特徴や使い方を徹底解説！

2024年5月15日に、GoogleI/OでGemini1.5Flashを発表しました。

この記事ではGeimini1.5Flashの特徴、他のGeminiモデルや競合であるGPT-4oとの比較、使い方まで共有しています。興味のある方はぜひ最後までお読みください。

►Gemini1.5Flashの概要
►Gemini1.5Flashの3つの特徴
►「Gemini1.5Flash」の性能を既存のGeminiシリーズと比較
1. ◼︎圧倒的な出力スピードでProに劣らないパワフルな性能を実現
2. ◼︎それぞれの評価セットについての説明
►Gemini1.5ProとGemini1.5Flashを使用して「3つの出力の違い」を検証
►Gemini1.5FlashとGPT-4oを使用して「3つの出力の違い」を検証
►Gemini1.5Flashの使用方法とプロンプトの入力方法
1. ◼︎Google AI Studioにログインする
2. ◼︎プロンプトの入力方法
►この記事の引用元
►まとめ

►Gemini1.5Flashの概要

軽量で高速、かつコスト効率が良く、マルチモーダル推論機能を備えています。加えて、デフォルトで最大100万トークンの長いコンテキストウィンドウを持つという特徴があります。

✓マルチモーダルとは？

複数の異なる形式のデータを統合して処理する能力のこと。テキスト、画像、音声、動画などの異なる種類の情報が含まれます。例えば画像認識とテキスト解析を組み合わせることで、画像に写っている物体を識別し、その物体に関する詳細な説明を提供してくれます。これにより、より人間に近い理解と応答ができるようになります。

✓コンテキストウィンドウとは？

AIモデルが一度に処理できる情報の範囲のこと。あるAIモデルが「長いコンテキストウィンドウ」を持っているなら、そのモデルは非常に多くの情報を一度に保持し、処理することができます。Gemini1.5Flashは最大100万トークンのコンテキストウィンドウを持っています。これまで以上に長いテキストや複雑な情報を一度に扱うことができます。そして、高度な理解と出力を提供します。

►Gemini1.5Flashの3つの特徴

Gemini1.5Flashには、従来のGeminiシリーズにはない3つの特徴があります。

◼︎出力スピードが速い

Gemini1.5Flashは、平均して1秒未満で最初の出力をすることができます。なので、ストレスなく生成AIを使用したいと思っている方には非常におすすめです。この性能は、多くの開発者や企業が求める性能でもあります。

◼︎低コストなのに高品質

Gemini1.5flashは、大型モデルに匹敵する品質をわずかなコストで実現します。性能の高さについては、次の章でも共有しています。非常にコスパの高いAIモデルです。

◼︎長いテキストを理解する

何時間ものビデオやオーディオ、70万語以上の単語やコードを処理する能力を持っています。そのため、長いテキストを深く理解し、適切に処理することができます。

►「Gemini1.5Flash」の性能を既存のGeminiシリーズと比較

この章では、Gemini1.5Flashの性能を既存のGeminiシリーズの性能と比較をしています。比較をすることで、 Gemini1.5Flashの性能の高さを実感できます。

◼︎圧倒的な出力スピードでProに劣らないパワフルな性能を実現

Gemini1.5Flashは、出力スピードが圧倒的に速いのが特徴です。それにも関わらず、Gemini1.5Proに引けを取らない精度の高さを誇っています。

さらに以下の評価テストの結果を見ると、4つの評価テストで従来のGeminiシリーズのスコアを更新していることがわかります。

これはすごいことですよね。

従来の生成AIでは、出力スピードが速いと精度が落ちてしまっていました。

なのでいまいちパッとしなかったです。

しかしこの評価結果を見るだけでも、今後は速いだけではなくなりそうな予感がします。速い上に、精度もますます高くなっていきそうです。

世界は変化しています。

◼︎それぞれの評価セットについての説明

それぞれの評価セットについての説明を以下に共有します。わかりやすくまとめているので、興味のある方はお読みください。

☐MMLU(Massive Multitask Language Understanding)

57の異なる科目（STEM、社会科学、人文学など）における質問の理解力を評価します。

✓STEMとは？

Science（科学）、Technology（技術）、Engineering（工学）、Mathematics（数学）の頭文字を取った略語のこと。

☐Natural2Code

Pythonのコード生成能力を評価します。この評価セットは、人間によって作成された例をベースにしています。使用されているデータはWeb上に公開されていません。

☐MATH

数学の難問（代数、幾何、微積分など）を解く能力を評価します。

☐GPQA (General Purpose Question Answering,main)

AIの推論能力を評価する評価セットです。生物学、物理学、医学、物理科学などに関する高度な質問をします。その質問をもとに、回答能力を測定します。

☐Big-Bench Hard

数学的推論、論理的推論、言語理解、常識推論などに対する能力を評価します。このような評価セットを用いることで、複雑な問題に対してどれだけ効果的に対処できるかが明確になります。

☐WMT23（Workshop on Machine Translation）

機械翻訳(MT)の性能を評価するための評価セットです。また、WMT（Workshop on Machine Translation）は、毎年開催される機械翻訳に関するワークショップ名でもあります。「23」は「2023年版」という意味になります。

☐MMMU（Multi-Modal Machine Understanding）

AIモデルのマルチモーダル理解能力を評価するための評価テストです。具体的には、異なる形式の情報（例えばテキストと画像）を組み合わせて処理し、それに基づいて推論や出力する能力を測定します。

☐MathVista

視覚的に、数学的推論能力を評価するための評価セットです。画像やグラフ、図形などの情報を使用して、数学的な問題を解決する能力を測定します。

☐FLEURS (Few-shot Learning Evaluation of Understanding and Recognition of Speech,55 languages)

英語、スペイン語、フランス語、中国語、日本語、アラビア語など、55言語の自動音声認識（ASR：音声を自動的にテキストへ変換する技術）の能力を評価するための評価セットです。音声認識モデルが少量のデータからどれだけ効果的に学習し、正確に音声をテキストに変換できるかを測定します。

☐EgoSchema

ビデオに対する質問応答能力を評価するための評価セットです。まず、AIモデルがビデオの内容を理解します。そしてその理解に基づいて、ある質問に対して正確で一貫した応答をする能力を測定します。

►Gemini1.5ProとGemini1.5Flashを使用して「3つの出力の違い」を検証

次にGeminiシリーズの最上位モデルであるGemini1.5 Proとの３つの出力の違いを検証してみました。

◼︎Gemini1.5ProとGemini1.5Flashの違いを検証その１：スピードの違い

出力スピードの違いを確かめるために、以下のプロンプトを入力しました。

日本の伝統について海外の人に伝えるべき内容を教えてください

まず最初に、Gemini1.5Proを使用して質問の回答を出力しました。

Gemini1.5Pro🔽

Gemini 1.5 Proで出力

出力のスピードに関しては、決して速いとは言えません。全ての出力が終るまでに25秒ほどかかりました。

次に、Gemini1.5Flashを使用して質問の回答を出力しました。

Gemini1.5Flash🔽

Gemini1.5Flashの特徴でも共有したとおり、出力スピードが圧倒的に速いです。こちらも実際に計測してみましたが、出力を終えるまでに10秒かかりませんでした。

Gemini1.5Flashを使用すれば、仕事や作業の時間を大幅に短縮できます。それは間違いなさそうです。

◼︎Gemini1.5ProとGemini1.5Flashの違いを検証その２：出力内容の違い

次に、出力内容の違いを検証してみました。

その際以下のプロンプトを入力しました。

ソクラテスの思考は、西洋と東洋にどのような影響をもたらしましたか？

出力内容の違いをわかりやすくするために、少し難しい質問をして回答してもらいます。

まず最初に、Gemini1.5Proを使用した出力内容です。

Gemini1.5Pro🔽

ソクラテスの思想は、プラトンやクセノポンの著作を通して西洋文明に大きな影響を与えたことが明確に出力されました。内容は具体的で、なおかつ要点がしっかりとまとまっていると思います。

まるで、ある参考書を読んでいるような気持ちになります。やはり、出力の精度が高いです。

では、Gemini1.5Flashではどのように出力されたのでしょうか？

以下がGemini1.5Flashが出力した内容です。

Gemini1.5Flash🔽

Gemini1.5Proの方が若干具体的ではありますが、出力の内容はほとんど変わりません。しかし出力スピードは、Gemini1.5Flashの方が圧倒的に速かったです。

少しでも詳しい情報を求めている時は、Gemini1.5Proを使用する方が良さそうです。その一方で、快適さやスピードを求めている時は、Geimini1.5Flash一択だなと感じました。

◼︎Gemini1.5ProとGemini1.5Flashの違いを検証その３：文字数の違い

次に、出力された文字数の違いについて検証してみました。

その際、以下のプロンプトを入力しました。

あなたが日本について思うことを教えてください。その際、なるべく1万字に近い文字数で具体的に教えてください。

あえて文字数を指定して、「具体的に」という言葉も追加しました。どちらがより多くの文字を出力するのでしょうか？

まず最初に、Gemini1.5Proを使用した出力内容です。

Gemini1.5Pro🔽

出力された文字数は2,831字と、1万字には程遠かったです。それでも比較的短時間で具体的にテキストを出力してくれました。

次にGemini1.5Flashを使って出力してみました。

Gemini1.5Flash🔽

Gemini1.5Proで出力した時は、文字数が2,800字程度でした。しかしGemini1.5Flashで出力した結果、3,830字出力されました。1万字には程遠いですが、Proよりも多くのテキストが出力されました。

しかし生成AIは、同じプロンプトでも出力のたびに形式が変化します。なので、この結果だけを見て「Gemini1.5Flashの方が多くのテキストを出力する」とは言えません。

どちらにしても、Gemini1.5FlashはProと同等の文字数を出力します。

►Gemini1.5FlashとGPT-4oを使用して「3つの出力の違い」を検証

次に、GPTシリーズの最上位モデルであるGPT-4oとの3つの出力の違いを検証してみました。

◼︎Gemini1.5FlashとGPT-4oの違いを検証その１：スピードの違い

まず、出力スピードの違いについてです。GPT-4oも出力スピードはかなり速いですが、一体どちらのモデルの出力スピードが速いのでしょうか？

以下のプロンプトを用いて、出力スピードを検証しました。

あなたが得意なことと苦手なことを教えてください

まず最初に、GPT-4oを使用して質問の回答を出力しました。

GPT-4o🔽

出力にかかった時間は13秒ほどでした。やはりGPT-4oの出力は非常に速いですね。テキストも見てすぐにわかるような構成になっています。では、Gemini1.5Flashのスピードはどれほどのものなのでしょうか？

出力スピードをご覧ください。

Gemini1.5Flash🔽

めちゃくちゃ速いですよね・・・。笑

なんと、出力を終えるまでに4秒かかりませんでした。

GPT-4oと比べて文字数は約150字ほど少なかったものの、圧倒的に出力スピードが速いです。

出力スピードに関しては、Gemini1.5Flashが競合を圧倒していますね。GPT-4oですら遅く感じてしまいます。

◼︎Gemini1.5FlashとGPT-4oの違いを検証その２：出力内容の違い

次に、出力内容の違いについて見ていきます。

以下のプロンプトを入力しました。

無理なく健康を維持するために、あなたはどのようなことをやるべきだと思っていますか？

速いだけではなく、出力の内容も重要になってきます。どちらのモデルがより詳細で、なおかつ優れた内容を出力してくれるのでしょうか？

まず、GPT-4oの出力内容を共有します。

GPT-4o🔽

GPT-4oが出力した内容は、それぞれの項目が簡潔でやるべきことがすぐにわかります。内容が簡潔になっていると、読む手間が減るので、エネルギーを余計に消耗することもありません。

一方で、Gemini1.5Flashはどのような内容を出力したのでしょうか？

Gemini1.5Flash🔽

Gemini1.5Flashが出力した内容は、やるべきことがよりわかりやすく出力されています。「具体的な目標設定」や「楽しくできる方法」など、無理なく健康を維持する方法がすぐに理解できます。加えて、実践するのも簡単そうです。

人によって好みが分かれますが、より一般的な出力内容を得たい時は、GPT-4oを使った方が良さそうです。その一方で、より踏み込んだ内容を得たい時は、Gemini1.5Flashを使うと良いかもしれません。

◼︎Gemini1.5FlashとGPT-4oの違いを検証その３：文字数の違い

最後に、出力される文字数の違いについて見ていきます。

以下のプロンプトを入力しました。

毎日7時間の睡眠時間を確保するためにできることを教えてください。その際、なるべく1万字に近い文字数で具体的に教えてください。

GPT-4o🔽

GPT-4oは1万字に遠く及ばず1,764字でした。加えて今回の出力に関しては、具体的というよりかはまとまりすぎているような感じがします。ここでも個人の好みが影響してきますが、十分な文字数で具体的な情報を得たいと思っている方には物足りないかもしれません。

その一方で、Gemini1.5Flashはどの程度の文字数を出力するのでしょうか？

以下が、Gemini1.5Flashの出力内容になります。

Gemini1.5Flash🔽

Gemini1.5Proとの比較で共有した時と同様、1万字には及びませんでした。

しかしそれでも、GPT-4oを超える3,350字を出力してくれました。

さらに内容も具体的です。Gemini1.5Flashはまず、睡眠の重要性や睡眠不足がもたらす悪影響などを解説しています。その後に、睡眠時間を確保するためにできることが解説されています。まるで、危険性について先に述べておいた方が行動に移しやすいことを、Gemini1.5Flashがわかっているかのようです。

文字数の違いを見てみても、Gemini1.5Flashの方が優れているような印象があります。