「GPT-4o」を発表、圧倒的な出力スピードと精度の高さです！

2024年5月14日にGPT-4oが発表されました。今までの出力スピードを遥かに凌ぐ、圧倒的なスピードです。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

►ChatGPTにアクセスする
►GPT-4oの概要
►GPT-4oの名前の由来
►GPT-4oの「従来のモデルにない」高い能力
►GPT-4oの「5つの性能」を評価！競合を寄せ付けません
►GPT-4oユーザーが得られる「トークン数の削減」による５つのメリット
►GPT-4oはどうやって使うの？
►この記事の引用元
►まとめ(GPT-4oで生活を変化させる)

►ChatGPTにアクセスする

ChatGPTにまだアクセスできていない方は、こちらからアクセスすることができます。

ChatGPTはスマホアプリでもあります。以下のリンクからダウンロードして、生活の中でChatGPTを活用しましょう。

Androidの方はこちら🔽

https://play.google.com/store/search?q=ChatGPT&c=apps&hl=ja-JP

iOSの方こちら🔽

https://apps.apple.com/jp/app/chatgpt/id6448311069

►GPT-4oの概要

GPT-4oは人間とコンピュータのコミュニケーションをより自然にするための新しいAIモデルです。

このモデルは、テキスト、音声、画像など様々な形式の情報を入力として受け取り、出力してくれます。

特に音声に対して返答が速くなりました。わずか0.232秒から平均0.32秒で返答します。これは人間の会話における反応速度に匹敵します。またGPT-4oは、英語のテキストやプログラミングコードの処理においてGPT-4Turboと同等の性能を発揮します。

さらに、英語以外の言語のテキスト処理も大幅に改善しました。APIの処理速度が向上し、コストも50％削減されました。

►GPT-4oの名前の由来

GPT-4oの”o”は“omni”というラテン語からきています。「すべて」や「すべての」という意味があります。名前から推測しても、これまでのモデルに比べてより包括的で、より多機能で、より広範囲のタスクに対応できるAIモデルだということがわかります。

さまざまなニーズに応えるために設計されたモデルです。

►GPT-4oの「従来のモデルにない」高い能力

実際に僕が活用してみて感じた、これまでのモデルにない高い能力を２つ共有します。また、OpenAIが提供している「音声会話」についての内容もまとめました。

◼︎その１：出力スピードが劇的に速くなった

初見で使ってみて一番最初に感じた印象は「出力スピードめっちゃはやっ！」でした。その速さを読者の皆さんにも共有したいと思い、GPT-4とGPT-4oに以下の内容を質問してみました。

以下の動画を見ることで、GPT-4とGPT-4oの出力スピードの違いが一目でわかります！

GPT-4の出力スピード🔽

GPT-4oの出力スピード🔽

出力スピードの違いが一目瞭然です。実際に計測してみましたが、GPT-4は出力を終えるまでに28秒ほどかかりました。

しかしその一方で、GPT-4oは10秒程度で出力してくれました。出力時間が約3分の1になっています。

さらに、画像の出力スピードも圧倒的に速くなりました🔽

作業や仕事を、より効率よく進めることができます。

◼︎その２：出力の内容がより洗練された

GPT-4oにバージョンアップしたことで、出力の内容がより洗練されました。

試しに以下のプロンプトを入力して、GPT-4とGPT-4oの出力内容の違いを検証してみます。

あなたは海外の人に情報を発信する日本のインフルエンサーです。「日本のこれは伝えておきたい」と思っていることを５つ教えてください。海外の友人に教えようと思っています。

まず最初に、GPT-4が出力した内容を共有します。

次に、GPT-4oにも出力してもらいました。

日本のことを伝えたいと思った時に、GPT-4の内容とGPT-4oの内容をどちらも伝えたいなと感じました。しかしGPT-4oの方がより具体的に、なおかつわかりやすい内容になっていることがわかります。

「おもてなしの心」や「美味しい食べ物」など、出力されたテキストをそのまま使えそうですよね。

さらに前回の節でも共有したとおり、出力スピードもケタ違いに速いです。出力内容が洗練されたにも関わらず、スピードが速い。

もう言うことはありません。

◼︎その３：全てを扱えるひとつのモデルによって音声会話の能力がUPした

GPT-4o以前でも音声会話をすることができましたが、モデルのアップグレードと共にその能力が高まりました。

従来は応答までの待ち時間が長かったです。平均でGPT-3.5は2.8秒、GPT-4は5.4秒でした。この音声モードは、3つの独立したモデルを使ったパイプラインによって動作していました。まず、1つ目のモデルが音声をテキストに変換し、2つ目のモデルでGPT-3.5やGPT-4がそのテキストを処理して応答を生成し、最後に3つ目のモデルが応答を音声に戻すという流れです。

このプロセスでは、GPT-4が多くの情報を失っていました。例えばトーン、複数の話し手、背景ノイズを直接観察することができず、笑い声、歌、感情を表現することが難しかったのです。

その一方でGPT-4oは、テキスト、画像、音声をすべて扱える新しいひとつのモデルをトレーニングしました。GPT-4oは、これらのすべての機能を組み合わせた初めてのモデルです。

音声会話の能力が高くなった反面、GPT-4oの可能性や限界についてわかっていないことも多いです。

►GPT-4oの「5つの性能」を評価！競合を寄せ付けません

次に「GPT-4oの5つの性能の高さ」について、評価結果をもとに共有します。

◼︎その１：テキストの性能を評価

GPT-4oは推理力の向上において、一般知識問題を含むMMLUのテストで88.7%という新しいハイスコアを記録しました。これはGPT-4TurboやClaude3Opusを凌ぐ結果です。さらに従来の5ショットNo-CoTのMMLUテストで、GPT-4oは87.2%という記録を達成しました。

✓No-CoTとは？

No Chain of Thoughtの略。モデルが出力する際、出力に至るまでの具体的な過程を示さない方法です。例えば算数の問題を解く時に、途中の計算ステップを見せず、いきなり答えだけを示すようなイメージです。

☐それぞれの評価セットの説明

テキストの性能を評価した際の「評価セット」は以下のとおりです。わかりやすく共有しているので、興味のある方はお読みください。

☑︎MMLU

Multi-task Language Understandingの略。さまざまなタスクでの言語理解能力を評価する評価セットです。

☑︎GQA

General Question Answeringの略。一般的な質問応答能力を評価します。この評価セットは、モデルが正確に質問に答える能力を測定します。

☑︎MATH

数学の問題解決能力を評価する評価セット。モデルが数学的な問題に対して正確に答える能力を測定します。。

☑︎HumanEval

人間の評価に基づく評価セット。モデルが生成するテキストの質を評価します。

☑︎MGSM

Multi-step Graphical Storytelling Modelの略。グラフィカルストーリーテリングの多段階プロセスを評価します。モデルの物語生成能力を測定します。

☑︎DROP

Discrete Reasoning Over Paragraphsの略。段落内の推論能力を評価する評価セットです。情報抽出と推論の正確さを測定します。

◼︎その２：オーディオASRの性能を評価

GPT-4oは、すべての言語でWhisper-v3を抑える結果をもたらしました。その中でも、特に話者が少なく、一部の地域でのみ使われている低リソースの言語で、音声認識の性能を劇的に向上させています。

✓オーディオASR（Automatic Speech Recognition）とは？

音声をテキストに変換する技術のこと。具体的には、人が話した言葉をマイクで録音し、その音声データを解析して文字に起こすシステムです。このシステムがあることで、音声入力をテキストとして扱うことができます。

◼︎その３：音声翻訳の性能を評価

GPT-4oは、競合のAIモデルを抑えて最も優れた性能を実現しました。Whisper-v3を圧倒する性能の高さで、GoogleのGeminiをも凌いでいます。

✓CoVoST-2 とは？

Common Voice Speech Translationの略。多言語音声翻訳のための評価セットです。様々な言語間での音声翻訳性能を評価するために使用されます。

✓BLEUとは？

Bilingual Evaluation Understudyの略。機械翻訳の性能を評価するための指標。翻訳結果がどれだけ正確かを測定します。BLEUスコアは、モデルが出力した翻訳結果と、正しい翻訳を比較して計算されます。「正しい単語の連なりかどうか」を基にしてスコアを出します。

◼︎その４：M3Examでモデルを総合的に評価

✓M3Examとは？

Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Modelsの略。多言語および視覚的な評価を含む多タスクを評価する評価テストです。他国の標準テストから出題された多肢選択問題を使用してします。この評価セットを使用することで、モデルの汎用性や適応能力を総合的に測定することができます。なお、M3のMは Multilingual(多言語)、 Multimodal(マルチモデル)、Multilevel(マルチレベル)のMになります。

GPT-4oはすべての言語においてGPT-4より優れています。英語だけではなく多数の言語において、より高い精度で出力してくれるようになりました。

◼︎その５：視覚理解エバリュエーションでの評価

✓視覚理解エバリュエーションとは？

正式名称はVisual Understanding Evaluation。人工知能モデル、特にLLMやマルチモーダルモデルの視覚的な情報を理解し、処理する能力を評価するためのテストです。

GPT-4oは、視覚認識ベンチマークでも競合を圧倒する評価結果でした。Gemini1.5ProやClaude Opusをも凌駕しています。すべての視覚評価は0ショットで、MMMU、MathVista、ChartQAは0ショットCoTです。

✓0ショットとは？

正式名称はZero-Shot Learning。モデルが訓練の際、直接見たことのないタスクやデータに対して、そのままの知識で対応することを指します。

例えばモデルが犬の画像を見たことがなくても、説明から「犬とは何か」を理解して、犬の画像を見分けます。

✓0ショットCoTとは？

正式名称はZero-Shot Chain of Thought。0ショットの応答において、AIモデルが複雑なタスクを解決するために、論理的なステップや推論の過程を提供する方法です。モデルがどのようにして答えにたどり着いたのかを明確にすることができます。

例えば「12+15はいくつですか？」という問題に対して、モデルは「まず、12に15を足します。12 + 15 = 27。答えは27です。」というように段階的に説明します。

☐それぞれの評価セットの説明

視覚理解の性能を評価した際の「評価セット」は以下のとおりです。わかりやすく共有しているので、興味のある方はお読みください。

なおMMLUに関しては、テキストの性能を評価するための評価セットでも共有したので割愛します。

☑︎MathVista

数学的問題解決能力を評価する評価セット。AIモデルが数学の問題にどれだけ正確に答えられるかを測定します。

☑︎AI2D

AI2Dは、視覚的な理解能力を評価する評価セット。図表やグラフの理解力をテストします。

☑︎ChartQA

グラフやチャートに基づく質問応答能力を評価する評価セット。モデルが視覚データをどれだけ正確に解釈できるかを測定します。

☑︎DocVQA

テキストに基づく質問応答能力を評価する評価セット。テキストが含まれる文書の内容理解力をテストします。

☑︎ActivityNet

動画データに基づく活動認識能力を評価します。モデルが動画内の動きを正確に識別できるかを測定します。

☑︎ EgoSchema

主観的視点からのシーン理解能力を評価します。モデルが自分視点のデータをどれだけ正確に理解できるかを測定します。

►GPT-4oユーザーが得られる「トークン数の削減」による５つのメリット

GPT-4oでは、トークン数の削減に成功しました。OpenAIはトークン数削減の代表例として、20言語を紹介しています。

トークン数を削減することで、ユーザーにも多くのメリットがあります。この章ではユーザーが得られる5つのメリットを共有します。

◼︎メリットその１：コストが削減される

多くのAIサービスは、処理するトークン数に基づいて料金を設定しています。トークン数が減ることで、コスト削減につながります。今後さらにトークン数を減らすことができれば、生成AIに支払う毎月の料金も安くなるかもしれません。

◼︎メリットその２：出力スピードが速くなる

トークン数が減少すると、モデルがテキストを処理する際の計算量が減ります。質問した後の出力時間が減り、出力時間が減るので待ち時間も減ります。よりスムーズに、快適に生成AIを使用することができます。実際GPT-4oは、非常に快適に使用することができます。

前回の章で、GPT-4oの出力の違いを共有しています。ぜひご覧ください。

◼︎メリットその３：出力内容の精度が高くなる

トークン数が削減することによって、生成AIモデルは効率的に情報を処理してくれます。以前は出力しなくてもいいような内容が多く出力されていました。しかし無駄なトークンが減ったことで、重要な情報だけに集中してくれます。ユーザーは、より高品質な情報を得ることができるようになりました。

◼︎メリットその４：バッテリーが節約される

生成AIを使用すると「充電の減りがはやい」と感じる時があります。僕も充電ができない環境では、使用を控えることがありました。しかしトークン数が削減されることによって、バッテリーの節約につながります。トークン数が減ることで、計算資源の使用量が減るためです。

◼︎メリットその５：通信コストを抑えられる

トークン数が削減されたことで、データの転送量が減ります。データ転送量が少なくなることで、通信費が節約されます。また、電波が悪かったりWi-Fiにつながっていなくても、効率的にデータを送受信できるようになります。

►GPT-4oはどうやって使うの？

GPT-4oはPlusプランで使用することができます。すでに公開されているモデルです。全ての一般ユーザーが、Plusプランに登録した時点で使うことができます。

また、今までは無料プランで使うことができたモデルはGPT-3.5だけでしたが、今後はGPT-4が無料で使用できるようになります。

さらに今後数週間で、ChatGPT Plusのアルファ版で、GPT-4oを使ったボイスモードの新バージョンが発表される予定です。

►この記事の引用元

GPT-4oの記事を書くにあたって、こちらのリンクを参考にしました。

https://openai.com/index/hello-gpt-4o

►まとめ(GPT-4oで生活を変化させる)

以上になります。

GPT-4oの発表によって、生成AIモデルのレベルがまた一段高くなりました。ユーザーが求めているのは、安く快適に、精度の高い情報を得ることだと思います。

今のところ「安く」は提供されていないのが実情ですが、それでも快適に、なおかつ精度の高い情報を得ることができるようになっています。

これから一体どのように進化していくのか、どのように生活に影響を及ぼしていくのか、非常に楽しみですね。GPT-4oを使用するだけでも、生活の仕方や情報のまとめ方、思考の仕方に大きな変化が生まれるように感じました。

興味のある方は、一度使用してみることをおすすめします。

この記事がGPT-4oの理解につながれば、非常に嬉しいなと思います。

なお記事に関しての感想やご要望等ございましたら、XのDMにてメッセージを受け付けています。このページを下までスクロールしていただくと「黒い鳥」がいます。そこから僕のXのページにアクセスすることができます。

最後までお読み頂きありがとうございます。

►ChatGPTにアクセスする

►GPT-4oの概要

►GPT-4oの名前の由来

►GPT-4oの「従来のモデルにない」高い能力

◼︎その１：出力スピードが劇的に速くなった

◼︎その２：出力の内容がより洗練された

◼︎その３：全てを扱えるひとつのモデルによって音声会話の能力がUPした

►GPT-4oの「5つの性能」を評価！競合を寄せ付けません

◼︎その１：テキストの性能を評価

☐それぞれの評価セットの説明

☑︎MMLU

☑︎GQA

☑︎MATH

☑︎HumanEval

☑︎MGSM

☑︎DROP

◼︎その２：オーディオASRの性能を評価

◼︎その３：音声翻訳の性能を評価

◼︎その４：M3Examでモデルを総合的に評価

◼︎その５：視覚理解エバリュエーションでの評価

☐それぞれの評価セットの説明

☑︎MathVista

☑︎AI2D

☑︎ChartQA

☑︎DocVQA

☑︎ActivityNet

☑︎ EgoSchema

►GPT-4oユーザーが得られる「トークン数の削減」による５つのメリット

◼︎メリットその１：コストが削減される

◼︎メリットその２：出力スピードが速くなる

◼︎メリットその３：出力内容の精度が高くなる

◼︎メリットその４：バッテリーが節約される

◼︎メリットその５：通信コストを抑えられる

►GPT-4oはどうやって使うの？

►この記事の引用元

►まとめ(GPT-4oで生活を変化させる)

コメント

学べるブログをもっと見る

学べるブログをもっと見る