xAIが提供する「Grok1.5」と「Grok1.5V」の違いとは?

生成AIの読み物

この記事を読むことで「Grok1.5」「Grok1.5V」の特徴が学べるだけでなく、両者の違いについても理解することができます。少しでも興味がある方はぜひ最後までお読みください。

なお、xAIが最初に発表したGrok1.0についてまとめた記事もあります。「Grokの使用方法」や「競合の生成AIとの違い」について理解することができます。

►Grok1.5の特徴を学ぶ

まず最初に、Grok1.5の特徴について共有していきます。

◼︎Grok1.5の概要

Grok1.5は、イーロン・マスク率いるxAIによって開発された大規模言語モデルです。このモデルは特にコーディングと数学関連のタスクにおいて、高いパフォーマンスを発揮します。なお2024年4月時点で、GrokユーザーはGrok1.5のモデルを使用することができます。

◼︎4つの評価方法でGrok1.5の性能を競合と比較

概要でもお伝えしましたが、Grok1.5はコーディングと数学関連タスクの性能が大幅に向上しています。

☐Claude3 Sonnetに負けない性能の高さ

MATHベンチマークでは50.6%、GSM8Kベンチマークでは90%のスコアを達成しました。この2つのベンチマークは、小学生から高校生までの幅広い問題をカバーしています。

また、コード生成と問題解決能力を評価するHumanEvalベンチマークでは、74.1%のスコアを獲得しました。

Grok1.0と比較して大幅に性能が向上していることがわかります。またAnthropicが提供するClaude3 Sonnetと比較しても同等か、それ以上の性能であることがわかります。

Grok1.5のベンチマーク

☐補足(それぞれの評価方法についての簡単な説明)

「ベンチマークってなに?」という方に補足です。

✓ベンチマークとは?

コンピューターやソフトウェア、AIモデルなどの性能を測定するために作られたテストのこと。

✓以下がそれぞれの評価方法の説明になります

MMLU (Massive Multitask Language Understanding)

多様な主題をカバーする大規模な言語理解テスト。様々なトピックにわたる質問に答える能力を評価します。

MATH

数学的問題解決能力を測定するベンチマーク。基本的な算数から高度な数学までの問題を含みます。モデルが数学問題をどれだけ正確に解けるかを評価します。

GSM8K (Grade School Math 8K)

主に学校レベルの数学問題に焦点を当てたベンチマーク。小学校から高校までの数学問題を解く能力を評価します。

HumanEval

コーディング問題を解決する能力を評価するベンチマーク。プログラムのコードを生成し、特定の問題を解決する能力をテストします。

◼︎長い文脈を理解してより信頼できる内容を出力する

Grok1.5は最大128,000トークンの長いコンテキストを処理することができます。

✓トークンとは?

テキストを分割した単位のこと。単語や句読点、スペースなどを指します。例えば、「こんにちは、お元気ですか?」は5つのトークン(「こんにちは」、「、」、「お」、「元気」、「ですか」?)に分けることができます。

これにより、GrokはGrok1.0と比較して最大16倍のメモリ容量の確保が実現できました。非常に長い文章でも情報を理解し、ユーザーに対して適切な情報を出力します。

Grok1.5の評価画像

さらにGrok1.5は、長く複雑なプロンプトにも対応してくれます。コンテキストウィンドウが拡大しても指示に従い、その能力を維持してくれます。

Needle In A Haystack (NIAH)評価では、長いテキストから必要な情報を確実に見つけ出すことができました。膨大な情報を処理し、その中でも特に関連性の高い情報を見つけ出す能力に優れています。完璧な検索結果を達成したそうです。

►Grok1.5Vの特徴を学ぶ

次に、Grok1.5Vの特徴について共有していきます。

◼︎Grok1.5Vの概要

Grok1.5Vは、マルチモーダルモデルです。強力なテキスト機能に加えて、図、表、スクリーンショット、写真などを理解し処理する能力を持っています。なおGrok1.5Vは、2024年4月時点で、一般ユーザーがいつ使用できるかは未定です。

✓マルチモーダルとは?

画像、音声、テキストなどの異なる形式の情報を統合して処理できるモデルのこと。

◼︎7つの評価方法でGrok1.5Vの性能を競合と比較

次に、Grok1.5Vの性能について共有していきます。競合と比較することでGrokの成長をより理解することができます。

☐RealWorldQAで競合を圧倒

Grok1.5Vは、学術的な推論をはじめ、テキスト、科学図、チャート、スクリーンショット、画像の認識をする精度が大幅に向上しました。GPT-4VやClaude3、Gemini Pro 1.5のマルチモーダルモデルに引けを取りません。

特にGrokでは、現実世界の空間理解を測定する新しい評価方法であるRealWorldQAにおいて、競合を圧倒しています。

この評価は、AIがまた一歩「現実世界をより理解するようになった」ことを表しています。

なお表に記載されているその他のベンチマークは、思考の連鎖を促さない「ゼロショット設定」で評価しています。

Grok1.5Vのベンチマーク

☐補足(それぞれの評価方法についての簡単な説明)

✓以下が7つの評価方法の簡単な説明になります

MMMU (Multi-discipline)

多様な学問分野にまたがる問題を解く能力を評価するベンチマーク。

Mathvista (Math)

数学の問題を解く能力を評価するベンチマーク。

AI2D (Diagrams)

図表を読み取り、理解する能力を評価するベンチマーク。

TextVQA (Text reading)

画像内のテキストを認識し、質問に基づいてそのテキストに対する正しい回答を生成する能力を評価するベンチマーク。

ChartQA (Charts)

チャートやグラフから情報を読み取り、質問に答える能力を評価するベンチマーク。

DocVQA (Documents)

テキスト内の情報を理解し、関連する質問に答える能力を評価するベンチマーク。

RealWorldQA (Real-world understanding)

実世界の状況を理解し、それに関連する質問に答える能力を評価するベンチマーク。700枚以上の画像で構成されています。各画像は、簡単に答えを確かめられるような質問とセットになっています。さまざまな現実世界の写真が含まれています。

◼︎Grok1.5Vの3つの出力例

次に、Grok1.5Vの出力例について共有します。

☐コーディングの問題を解決する

Grok1.5Vを使えば、コードの問題点を素早く見つけ出してくれます。そして、適切なコードを出力します。

✓Grok1.5Vに下記のようなプロンプトを入力しました

Can you write Python code that solves this?(これを解決するPythonコードを書くことはできますか?)

Grok1.5Vに対するプロンプト内容

このプロンプトによって以下の内容が出力されました。

Grok1.5Vの出力例

このように、問題があるコードでも瞬時に判別して適切な出力をしてくれます。

◼︎栄養成分表から食品の一部のカロリーを計算する

Grlok1.5Vを使えば、食品のカロリー計算も簡単です。

✓カロリー計算をしてもらうために以下のようなプロンプトを入力しました

How many calories are there in 5 slices of this?(これの5スライスには何カロリー含まれていますか?)

Grok1.5Vに対するプロンプト内容

✓出力された内容は以下のとおりです

もしひとつのサービングサイズが3スライスで60カロリー含まれている場合、5スライスではおよそ100カロリーになります。これはまずスライスあたりのカロリーを決定することから計算されます:60カロリー÷3スライス = スライスあたり20カロリー。次に、スライスあたりのカロリーにスライスの数を掛けます:スライスあたり20カロリー×5スライス = 100カロリー

AIにカロリー計算をしてもらうのは難しそうなイメージがあります。しかしGrok1.5Vは、現実世界の状況を理解する能力が高いです。実際にそこにいないと理解しにくい問題でも、難なく処理してくれます。

◼︎画像の説明をする

さらにGrok1.5Vは画像の認識能力も非常に高いです。

✓例として、こちらのプロンプト入力しました

I don’t get it, please explain.(これを理解できないので、説明してください)

プロンプト内容

✓出力された内容は下記のとおりです

画像はスタートアップと大企業をユーモラスに比較したものです。左側に「スタートアップ」と表示された側では、一緒に穴を掘っている人々のグループがいます。全員が積極的に参加しており、すでに穴はかなり深くなっています。

右側には「大企業」とラベル付けされた側があり、穴の周りに立っている人々のグループがいます。しかし、スタートアップ側とは異なり、実際に穴を掘っているのは一人だけで、他の人々は見ているか他の活動に従事しています。

この画像のユーモアは、スタートアップと大企業の違いを誇張している点にあります。スタートアップではしばしば緊急性が感じられ、全員が手元の仕事に直接貢献することが期待されています。対照的に、大企業はより多くの官僚制があり、プロジェクトごとに全チームメンバーが直接関与することが少ないとよく描かれます。

AIがユーモアを理解するのは非常に難しいことだと思います。しかし、Grok1.5Vではそれが実現できています。AIが完全にユーモアやジョーク、比喩表現を理解するのも、それほど遠い未来ではないのかもしれません。

簡単なプロンプトでも、詳細に出力をしてくれます。

◼︎現実世界で役立つAIを開発するために

AIを現実世界で役立てるためには、AIが現実世界をもっと理解する必要があります。この目標に向けて、xAIではRealWorldQAという新しい評価方法を導入しました。

このような評価は人間にとっては簡単なものですが、AIにとっては解決が難しいものが多いです。

だからこそ、AIがRealWorldQAで高評価を取ることは重要なポイントになってきます。

►「Grok1.5」と「Grok1.5V」の違い徹底比較!両者の違いがわかります

前回の章では、Grok1.5とGrok1.5Vの特徴についてそれぞれ共有しました。

✓内容をもう一度振り返りたい方は、こちらからご覧いただけます

最後の章では、両者の違いについて徹底比較をしました。わかりやすくまとめています。

なお、補足が必要な箇所については説明を加えています。

◼︎「Grok1.5」と「Grok1.5V」の比較その1:開発者

両者とも開発責任者はイーロン・マスクです。

◼︎「Grok1.5」と「Grok1.5V」の比較その2:発表日

✓発表日の違いは以下のとおりです

Grok1.5:2024年3月29日です

Grok1.5V:近日中に発表予定です

◼︎「Grok1.5」と「Grok1.5V」の比較その3:主な用途

✓主な用途の違いは以下のとおりです

Grok1.5:コーディング、数学問題解決

Grok1.5V:画像認識、マルチモーダルタスク

◼︎「Grok1.5」と「Grok1.5V」の比較その4:性能

✓性能の違いは以下のとおりです

Grok1.5:MATHベンチマーク: 50.6%, GSM8K: 90%, HumanEval: 74.1%

Grok1.5V:RealWorldQAベンチマークで高評価

◼︎「Grok1.5」と「Grok1.5V」の比較その5:モデルの特徴

✓モデルの特徴の違いは以下のとおりです

Grok1.5:長いテキストの理解、高度な推論能力

Grok1.5V:視覚データの処理、テキストと画像の解析

◼︎「Grok1.5」と「Grok1.5V」の比較その6:利用できるプラットフォーム

両者ともXで使用可能です。なおX Premium+に加入する必要があります。

◼︎「Grok1.5」と「Grok1.5V」の比較その7:Grok1.0からのアップデートポイント

✓アップデートポイントの違いは以下のとおりです

Grok1.5コンテキストの長さを128,000トークンに強化

Grok1.5V:画像認識機能の追加

◼︎「Grok1.5」と「Grok1.5V」の比較その8:トレーニングデータ

✓トレーニングデータの違いは以下のとおりです

Grok1.5:大規模テキストコーパス

Grok1.5V:テキストと画像の大規模データセット

まずGrok1.5の大規模テキストコーパスでは、コーディングと数学に関連するタスクに焦点を当てています。そのような理由があるために、ベンチマークの評価でも数学やコーディングに関わる評価が高くなっています。

またGrok1.5Vでは、テキストのデータに加えて画像データを含むマルチモーダルなデータセットでトレーニングされています。テキストと視覚の両方のデータを理解する能力があるため、より複雑なタスクを処理できるようになりました。

◼︎「Grok1.5」と「Grok1.5V」の比較その9:トレーニング手法

✓トレーニング手法の違いは以下のとおりです

Grok1.5:RLHF、Webから収集されたデータを用いて強化学習

Grok1.5V:具体的なトレーニング手法は言及されていません

RLHFを採用することで、AIモデルが人間の意図や好みに合わせて出力を調整できるよになります。採用する目的として「AIがより人間らしい応答をできるようにすること」としています。

また、Grok1.5V具体的なトレーニング手法は言及されていません。しかし一般的には下記のようなモデルが採用されています。

教師あり学習

ラベル付けされたデータセットを使用する手法。

自己教師あり学習

ラベルのないデータから学習をする手法。

転移学習

あるタスクで学習した知識を別のタスクに応用する手法。

メタラーニング

複数のタスクで最適化を行い、新しいタスクへの適応能力を高める手法。

このような手法を採用してトレーニングをさせることによって、AIは日々進化していきます。

✓RLHF(Reinforcement Learning from Human Feedback)とは?

人間の評価者がAIの応答を評価し、そのフィードバックを用いてAIのパフォーマンスを向上させるトレーニングのこと。

◼︎「Grok1.5」と「Grok1.5V」の比較その10:応用分野

✓応用できる分野の違いは以下のとおりです

Grok1.5:ソフトウェア開発、教育、研究

Grok1.5V:ヘルスケア、教育、エンターテイメント、研究

上記のとおり、Grok1.5は主にソフトウェア開発、教育、研究の分野での応用が期待されています。プログラミングコードの生成やデバッグ、数学問題の解決など、高度な推論や問題解決能力を必要とするタスクに適しています。

またGrok1.5Vでは、Grok1.5が得意とすることに加えて、ヘルスケアやエンターテインメントでの応用も期待されます。医療画像の解析や教育資料の分析、さらにエンターテインメントコンテンツも生成可能になります。

►結論、「Grok1.5」と「Grok1.5V」はどちらが優れているの?

どちらのモデルが優れているかは、シチュエーションによって異なります。

Grok1.5Vはマルチモーダルモデルなので、応用できる範囲は広いです。とは言っても、どちらのモデルもそれぞれの分野で優れたの応力を発揮します。

ソフトウェア開発や数学的な問題解決が主な目的なら、Grok1.5が適しているかもしれません。その一方で、画像認識やマルチモーダルなデータを扱うことが多い時には、Grok1.5Vが適切です。

個人的には、ChatGPTやその他の競合モデルのように、モデルの使い分けができればいいなと思っています。

►この記事の引用元

Grok1.5とGrok1.5Vの違いに関する記事を書くにあたって、以下のリンクを参考にしました。これらのリンクを見ることで、理解がさらに深まります。

Grok1.5🔽

https://x.ai/blog/grok-1.5

Grok1.5V🔽

https://x.ai/blog/grok-1.5v

►まとめ

以上になります。Grok1.5とGrok1.5Vの特徴をまとめつつ、比較をしてみました。

初めて両者のモデルをテキストで見た時に「何が違うの?」と、僕自身が疑問に思いました。名前がとても似ているし、本当に違うモデルなのかもわからなかったです。しかしこの記事の作成を通して、両者の違いをしっかりと理解できました。

Grok1.5Vは空間認識において、競合を圧倒しました。それはRealWorldQAの結果からも理解できます。

AIはどんどん進化をしていきます。これからも目まぐるしいスピードで進化するはずです。現実世界を完全に理解するようになるのも、そう遠くはないのかもしれません。

そのような状況の中で僕たちにできることは、「AIの存在を理解すること」だと思っています。この記事が、AIの理解につながれば幸いです。

なお記事に関しての感想やご要望等ございましたら、XのDMにてメッセージを受け付けています。このページを下までスクロールしていただくと「黒い鳥」がいます。そこから僕のXのページにアクセスすることができます。

最後までお読み頂きありがとうございます。

ブログをメールで購読

学べるブログの更新・重要アップデート(Grok/Gemini など)を、メールで受け取れます。無料。いつでも解除できます。更新時(週1〜2回目安)

生成AIの読み物

コメント

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む