MetaがGemini Pro1.5の性能を超える「Llama3」を発表!

生成AIの読み物

2024年4月18日に、Metaが「Llama3」を発表しました。Gemini Pro1.5を超える高性能だと言われています。

►Llama3の概要

Llama3はMetaが開発したオープンソースの大規模言語モデル(LLM)です。

Llama3 紹介画面

✓現在は2つのバージョンが提供されています

・ユーザーを幅広くサポートしてくれる80億のパラメータを持つプレトレーニングバージョン

700億のパラメータを持つ、事前学習済みのインストラクションファインチューニングされたバージョン

✓インストラクションファインチューニングとは?

モデルが特定の指示やタスクに基づいて行動するように訓練するプロセスのこと。モデルに対して具体的な「指示」を与えて、その指示に従った出力ができるように訓練します。

►Gemini Pro1.5を凌駕する高性能を実現したLlama3

Llama3モデルは、非常に高度な技術とリソースを用いて開発されています。

このモデルでは、特注の24,000個のGPUクラスターを使用しています。さらに15兆トークン以上という非常に大きなデータセットでトレーニングがされています。以前のモデルであるLlama 2で使用されたデータ量の7倍にあたります。また、使用されたコードの量も4倍に増加しています。

このような大規模なトレーニングにより、Llama3は8,000トークンのコンテキストをサポートし、その性能はLlama2の2倍に達するとされています。

Llama3は、これまでで最も高性能なLlamaモデルになります。

以下の画像はLlama3 8BLlama3 70Bのベンチマークです。競合の生成AIを凌駕していることが一目でわかります。

Llama3 8B🔽

評価結果

特にLlama3 70Bでは、Gemini Pro1.5を凌駕する性能を実現しました。その中でもHumanEval(プログラミング言語モデルのコード生成能力を評価するベンチマーク)とGSM-8K(数学的問題解決能力を測定するベンチマーク)で、圧倒していることがわかります。

Llama3 70B🔽

Llama3 評価結果

►Llama3モデルの特徴

次にLlama3モデルの特徴を共有します。この章を読むことで競合モデルとの違いを理解しつつ、なぜLlama3が優れたモデルなのかがわかります。

◼︎モデルのバージョン

概要でも共有したとおり、8B(80億パラメータ)と70B(700億パラメータ)の2つのバージョンが提供されています。

◼︎インストラクションファインチューニングを用いてトレーニング

Llama3は、特にチャットのような対話形式で強さを発揮します。一般的なベンチマークを見ることで、その強さが理解できます。

そのような強さを生み出すために、インストラクションファインチューニングという手法を用いています。

インストラクションファインチューニングは、教師ありファインチューニングと人間のフィードバックを用いた強化学習(RLHF)によって行われます。

✓教師ありファインチューニング(Supervised Fine-Tuning, SFT)とは?

すでに基本的な知識を持つ機械学習モデルを、特定のタスクや問題に特化させるために用いるトレーニング方法のこと。

◼︎トランスフォーマーアーキテクチャを採用

Llama3は自己回帰型言語モデルです。さらに、最適化されたトランスフォーマーアーキテクチャを採用しています。トランスフォーマーアーキテクチャを採用することにより、テキスト生成で高い性能を発揮します。

✓自己回帰型言語モデルとは?

前の単語をもとにして、次の単語を予測するモデルのこと。このタイプのモデルはテキスト生成に特に適してます。ひとつの単語から次の単語を順番に生成することで、文章を作り出します。

✓トランスフォーマーアーキテクチャとは?

自然言語処理(Natural language processing)の分野で使用される機械学習モデルの構造のこと。この構造は、2017年にGoogleの研究者が開発をし、導入されました。トランスフォーマーの主な特徴は、「アテンション機構」を用いるところです。

✓アテンション機構とは?

ある単語が文中の他の単語とどう関連しているかを計算し、文全体の意味をよりよく理解するための仕組みのこと。重要な情報に目を向けさせるための手法。アテンション機構を用いることで、例えば「彼は彼女にリンゴを渡した」という文中の「彼」と「彼女」の関係や、「リンゴ」という対象がどのように関連しているかをモデルが把握するようになります。

◼︎15兆トークン以上のデータセットを使用

一般に入手可能なオンラインデータから、新しい組み合わせで事前学習されています。事前学習では、15兆トークン以上のデータセットを使用しています。

「15兆トークン」をわかりやすく説明すると、約10万トークンの本を150万冊学習させるようなイメージです。

また、教師ありファインチューニングでは、一般に公開されているインストラクションデータセットと、1,000万以上の人が注釈を付けた例が含まれています。

なお全ての事前学習に用いたデータの中には、Metaユーザーのデータは含まれていません。

◼︎モデルの現在のステータスと今後のモデルの構築方法

Llama3はインターネット上のリアルタイムのデータでトレーニングされていません。あらかじめ収集されたデータセットを使用してトレーニングされています。つまり「静的モデル」です。

訓練後に、モデルの構造や学習内容が変更されることはありません。

しかし今後のモデルは、使用中に収集されるユーザーや開発者からのフィードバックをもとに構築されていくそうです。このようなトレーニンング方法により、モデルの品質が継続的に向上します。

►歴代のLlamaと比較!性能の違いが一目瞭然

Llamaの過去のモデルと比較をすると、Llama3の性能の違いが一目瞭然です。

◼︎Llama3をBase pretrained modelsとInstruction tuned modelsに分けて評価

ベンチマークで評価する際、LlamaをBase pretrained modelsInstruction tuned modelsに分けました。そして、それぞれのモデルで異なる評価をしました。

Base pretrained modelsを日本語に直訳するとベース事前訓練モデル、Instruction tuned modelsは指示チューニングモデルになります。

Base pretrained modelsの評価🔽

モデルの成長

Instruction tuned modelsの評価🔽

Llama3の成長

LlamaのBase pretrained modelsは、広い範囲の一般的なデータで事前に訓練されています。特定のタスク指示のチューニングはされていません。なので評価でも、一般的な言語処理能力を測るために評価をしています。

その一方でInstruction tuned modelsは、特定の指示に基づいてタスクをこなせるように追加でチューニングされたモデルになっています。なので評価でも、特定の指示に対する応答を評価しています。

上記の評価を見てもわかるように、Llamaは常に進化をしています。

◼︎補足

表の用語についての補足です。

✓shot(ショット)

AIモデルが新しいタスクを学ぶ際に与えられる例の数。例えば5-shotは、AIモデルがタスクを学ぶ前に、そのタスクに関連する5つの例を使用したことになります。0-shotは例なし、1-shotは1つの例を使用しています。

✓CoT(Chain of Thought)

「思考の連鎖」と訳します。これは、AIが問題を解決するプロセスをステップバイステップで説明する時に使われる手法です。この手法によって、AIが答えを出すまでの中間ステップや論理的推論が明確に出力されます。

✓F1(F1スコア)

F1スコアは精度と再現率の平均で、どちらの値も考慮してモデルの正確さを測ります。F1スコアは0から1の間の値をとり、1に近いほど性能が高いことになります。

►Llama3版のMeta AIは日本で使えるの?

2024年4月時点で、Llama3版のMeta AIは日本で一般公開されていません。Try Meta AIをクリックしても、以下の画面が表示されてしまいます。

日本では使えない

いつ使えるようになるか、詳しい情報も発表されていません。しかし、今後は世界中で使えるようになるとのことです。

期待しつつ、発表日を待ちましょう。

►Llama3で作れられたMeta AIがすごい!

前回の章で共有したように、Llama3は現在日本では使用できません。しかし、使用できるようになる日は近いかもしれません。使えるようになる前に、事前に特徴などを理解しておきましょう。

Meta AIはLlama3の発表によって大きな進化を遂げました。この章では、そんなLlama3によって進化したMeta AIについて共有していきます。

MetaAI

◼︎Meta AIの概要

Llama3で構築されたMeta AIは、世界有数のAIアシスタントです。無料でスマホから簡単に使用することができます。

現在Facebook、Instagram、WhatsApp、Messengerを通じてMeta AIを使用可能です。

タスクをこなしたり、新しいことを学んだり、創造的な活動をしたり、大切な人とつながることができます。

◼︎Llama3の料金

概要でも共有したとおり、Llama3は無料で使用することできます。Gemini Pro1.5を凌ぐほどの性能であるにも関わらず、無料です。

◼︎Llama3版のMeta AIが使用できる国

現在使用できる国は、アメリカ、オーストラリア、カナダ、ガーナ、ジャマイカ、マラウイ、ニュージーランド、ナイジェリア、パキスタン、シンガポール、南アフリカ、ウガンダ、ザンビア、ジンバブエです。これらの国々では、英語版の提供が開始されています。

なお前回の章でも共有したとおり、日本での利用開始時期は未定です。

◼︎Llama3版のMeta AIでできること

Llama3版のMeta AIは、よりユーザーの生活に寄り添ったサポートを提供してくれます。この節では「できること」について共有していきます。

☐日常生活をサポートしてくれる

Meta AIは、ユーザーの日常生活をサポートしてくれます。

✓例えば以下のようなサポートをしてくれます

レストランの予約

夜のお出かけでビーガン対応のレストランを探してくれます。また、夕日が見えるロケーションのレストランを探すこともできます。

イベント情報の提供

土曜の夜のコンサート情報を検索して、予約手続きをサポートしてくれます。

学習サポート

テスト勉強中に遺伝学の原理や内容をわかりやすく説明してくれます。難しい課題でもしっかりとサポートしてくれます。

インテリアデザインのアシスタント

新しい家に合わせたインテリアのスタイルを提案してくれます。家具選びのためのインスピレーションになる画像も生成してくれます。

数学の問題解決サポート

数学の課題や問題のヒントや解説を提供してくれます。

メール作成のサポート

仕事のメールを書く時に、より専門的で適切な表現を使用するためのアドバイスをしてくれます。コミュニケーションの質を高めてくれます。

会話の保存

Meta AIにログインをすることで、Meta AIとの会話を保存することができます。以前の会話の内容を振り返ることが可能です。

☐シームレスな検索機能

概要でも共有したとおり、Meta AIはFacebookInstagramWhatsAppMessengerで使用することができます。

アプリ間を行き来せず、ウェブ全体からリアルタイムの情報にアクセスできます。

例えばMessengerのグループチャットでスキー旅行を計画するとします。その時にMessengerの検索機能を使えば、Meta AIにニューヨークからコロラドまでのフライトを検索してもらうことができます。混雑していない日にちも探してくれます。

☐Facebookでユーザーの投稿から詳細な情報をキャッチできる

Facebookのフィードをスクロールしている時にも、Meta AIを使用することができます。

気になる投稿を見つけたら、その投稿についての詳細な内容をMeta AIに質問することができます。例えばアイスランドのオーロラの投稿写真を見つけた時に、オーロラを見るのに最適な時期をMeta AIは教えてくれます。

その場ですぐに、知りたいことを知ることができます。

☐「Imagine機能」が画像生成の分野で競合を圧倒する

Meta AIのImagine機能を使えば、リアルタイムでテキストから画像生成ができます。画像生成が高速化します。

☑︎数文字を入力するたびに画像が変化する

Imagine機能は、Llama3版のMetaAIが使える国で使用することができます。WhatsAppMeta AIのウェブ上で、ベータ版として使用可能です。

Imagine機能の最大の特徴は、数文字を入力するごとに画像が変わるところです。Meta AIがユーザーのイメージに命を吹き込んでいる過程を見ることができます。これは競合の生成AIにはない機能です。

☑︎画像を変更する時の提案もしてくれる

生成される画像はよりシャープで高品質です。

「画像にテキストを含める機能」の性能も向上しました。アルバムのアートワーク、結婚式の看板、誕生日の装飾、衣装の提案まで、イメージを広げてくれる画像を迅速かつ高品質に生成してくれます。

さらに「画像を変更するためのアイデア」も表示します。どんな画像を生成すればいいのか悩んでいる時にも、安心して活用することができます。

☑︎お気に入りの画像をアニメーション化できる

Imagine機能のすごさは、これだけではありません。

気に入った画像を見つけた時に、Meta AIにアニメーション化を依頼することができます。画像をGIFにして、友達に共有することもできます。

☐アメリカではRay-Ban Metaスマートグラスにも対応

アメリカでは、Meta AIをRay-Ban Metaスマートグラスを介して使用することができます。

レイバンのMetaスマートグラス
☑︎見ている建物について音声で解説してくれる

ユーザーが見ているランドマークや建物などをカメラ画像から認識して、情報を得ます。そして得た情報を音声で解説してくれます。例えば、ゴールデンゲートブリッジを見ながら「この橋について教えて」と聞くと、AIが橋の情報を提供してくれます。

Ray-Ban Metaスマートグラスにはスピーカーが搭載されており、そこから音声が出る仕組みです。

☑︎外国語の翻訳をしてくれる

外国語で書かれた看板やメニューなどを見ながら内容を尋ねると、翻訳をしてくれます。

☑︎写真のテキスト生成をしてくれる

Instagramに投稿する写真を見せながらテキストのアイデアを聞くことで、適切なテキストを提案してくれます。

☑︎ハンズフリーで検索ができる

見ているものについて質問すると、その場で検索して解説をしてくれます。スマホを取り出す必要はありません。

☑︎ビデオ通話で映像が共有できる

WhatsAppやMessengerでビデオ通話をしながら、スマートグラス越しに見ているものをリアルタイムで相手に共有できます。また、買い物中に商品棚を見せながら相手に意見を聞くという使い方もできます。

今後はMeta QuestにもMeta AIの機能が搭載される予定です。日本で使えるようになる日が、ますます待ち遠しくなります。

►この記事の引用元

Llama3に関する記事を書くにあたって、以下のリンクを参考にしました。以下のリンクに目を通すことで、理解がさらに深まると思います。

https://llama.meta.com/llama3

https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3

►まとめ|ザッカーバーグ氏が言及するLlama3の今後の見通し

以上になります。

Llama3モデルの特徴でも共有したとおり、現在は8B(80億パラメータ)と70B(700億パラメータ)の2つのバージョンが提供されています。そして今後は、最大400B(4000億パラメータ)のバージョンも発表されます。このモデルは現在トレーニング中のようですが、すでにGPT-4Claude 3 Opusに迫る性能を示しています。

またマーク・ザッカーバーグ氏は、Llama3の目的を「GPT-4を上回ることではなく、FacebookやInstagramなどのプラットフォームに最先端のAI機能を導入することだ」としています。その一方で「AGIを構築しオープンソース化し、誰もが恩恵を受けられるようにすること」が長期的な目的だと言及しています。

今後の生成AIの分野はどのように発展していくのか。僕たちにできることは、最新の情報を追いつつ、新しい生成AIを使ってみることだと思っています。

この記事がLlama3Meta AIの理解につながれば幸いです。

なお記事に関しての感想やご要望等ございましたら、XのDMにてメッセージを受け付けています。このページを下までスクロールしていただくと「黒い鳥」がいます。そこから僕のXのページにアクセスすることができます。

最後までお読み頂きありがとうございます。

ブログをメールで購読

学べるブログの更新・重要アップデート(Grok/Gemini など)を、メールで受け取れます。無料。いつでも解除できます。更新時(週1〜2回目安)

生成AIの読み物

コメント

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む