Claude3を徹底解説!GPT-4やGemini1.0を超える性能って本当?

生成AIの読み物

Claude3が2024年3月4日に発表されました。

「GPT-4やGeminiの性能を超えた」と言われています。

►「Claude」の概要

Claude (クロード)はAnthropicが開発した「会話ができる生成AI」です。

今回、Claude2.1からClaude3にアップデートされました。

イメージ画像

◼︎「Claude3」でできること

✓Claude3を使って下記ができます

高度な推論

単純なテキスト生成を超える、複雑な認知タスクを実行できます。人間の思考プロセスに近くなりました。

分析

手書きのメモやグラフ、写真まで、ほぼ全ての画像を分析可能です。

コード生成

HTMLとCSSでサイトの作成ができます。また画像をJSONデータに変換したり、複雑なコードのエラーを特定し、修正してくれます。

多言語処理

さまざまな言語をリアルタイムで翻訳できます。また、文法を練習したり、多言語のコンテンツが作成できます。

「Claude3」でできること

開発者や企業は、APIにアクセスしてAIインフラストラクチャー上に直接構築できるようになりました。

Claudeが提供するAI機能を、自分たちの製品やサービスに組み込むことができます。

◼︎わかりにくい用語をチェック!

✓HTMLとは?

HyperText Markup Languageの略。ウェブページを作成するための言語のこと。

✓CSSとは?

Cascading Style Sheetsの略。ウェブページのデザインやレイアウトを指定するための言語のこと。

✓JSONとは?

JavaScript Object Notationの略。データを交換するための軽量なフォーマットのこと。人間が読み書きしやすく機械が判断しやすいテキストベースの形式を採用。

✓APIとは?

Application Programming Interfaceの略。別々のプログラムをつなぐソフトウェアのこと。APIを使用することで、異なるソフトウェアやサービスが同じルールに従って機能を共有することができる。

✓AIインフラストラクチャーとは?

AIサービスをサポートするための、AI環境の運用と管理をしている場所全体のこと。

►「Claude3」の3つのモデル

Claude3には3つのモデルがあります。

◼︎それぞれのモデルの紹介

✓下記がClaudの3つのモデルです

Haiku(ハイク)

生成AI業界内トップクラスのスピードを実現。簡単な分析、簡単な言語翻訳、短い記事を要約することなどに適しています。2024年3月14日に発表されました。有料版で使用できるモデルになります。

Sonnet(ソネット)

性能と速度のバランスが最も取れているモデルです。Haikuに比べ、大量のデータやタスクを短時間で処理する能力が高いです。無料版で使用できるモデルになります。

Opus(オーパス)

Claude3の中で最も知能が高いモデルです。複雑な分析やタスク、高度な数学的分析やコードディングのタスクなど、難しいタスクでも処理することができます。有料版で使用できるモデルになります。

性能の違い
「Claude3」の性能の違い

◼︎GPT-4とGemini1.0を超える実力を発揮

特にClaudeのOpusモデルは、全ての項目においてGPT-4Gemini1.0よりも優れた結果を出しました。

下の画像は、学部レベルの専門知識 (MMLU)、大学院レベルの専門推論 (GPQA)、基礎数学 (GSM8K) など、AIの一般的な評価方法の結果です。

評価結果

また、下の表はジャンル別ごとの評価です。

それぞれの評価で「Claudeは優れている」ということがわかります。

しかし、ジャンルによっては他者の生成AIが優れているということもわかります。

「Claude3」の評価結果

►「Claude3」の特徴

次に、Claude3の特徴について共有します。

◼︎「Claude3」のトークン数

Claude3のすべてのモデルで、最初から200,000トークンの大きなコンテキストウィンドウを持っています。

さらに、100万トークンを超える入力でも対応可能です。

◼︎ほぼ完璧に情報を取り出し文脈を理解する

複雑なデータや長文の理解と処理ができます。

☐NIAH評価で99%以上の正解率を達成

「Needle In A Haystack」(NIAH) 評価では、膨大な情報から正確な情報を取り出すことに成功しています。

特に、Claude3 Opusは99%以上の確率で、正確に情報を取り出すことができました。

評価の限界さえ特定するほどの精度の高さです。。

☐わかりにくい用語をチェック!

✓NIAH評価とは?

Needle In A Haystack(わら束の中の針)の略で、スタンフォード大学が開発したAIの評価方法のひとつです。下記が評価の基準になっています。

・希少なデータ(針)を大量のデータ(わら束)の中から正確に見つけ出せるか

・問題設定が現実世界の課題に即しているか

・学習したタスクとは異なる新規タスクにも適用可能か

AGIの実現に向けた重要な指標として注目されている評価方法です。

✓AGIとは?

Artificial General Intelligenceの略。日本では汎用人工知能と言われています。人間と同等かそれ以上の一般的な知能を持つ人工知能のことを指します。現在は、このAGIの実現に向けた基礎研究が行われている状況です。

◼︎格段にグレードアップしたClaude3

また、Claude3は過去のモデルであるClaude2.1よりも格段に性能が高くなっています。

☐グレードアップした3つのポイント

次に、グレードアップした3つのポイントについて共有します。

✓グレードアップした点は下記のとおりです

・応答するときに正解、不正解(ハルシネーション)、不正確に分類したことで、答えがわからない場合は「わからない」と出力します。

・Claude2.1と比べて、Opusモデルはわかりにくい質問の正解率が2倍に向上し、不正解率も低下しました。

・Claude3では引用機能が追加され、回答の根拠を引用元から示せるようになる予定です。

弱点を中心とした複雑で事実に基づく質問の大規模セットを使い、モデルの精度を評価し直しました。

そのようにすることで、モデルの規模が大きくなっても今まで以上の性能を発揮してくれます。

また、下の表からもわかるように、難しい質問に対して正解確率が増え不正解の確率が減っています。

難しい質問でも大丈夫

☐わかりにくい用語をチェック!

✓ハルシネーションとは?

存在しない事実や矛盾した内容、または論理的につじつまが合わない回答をすること。日本語に直訳すると「幻覚」です。

✓大規模セットとは?

あらゆる分野の難しい事実関係を問う質問で構成されたデータセットのこと。

◼︎高いレベルの安全性

さらに、Claude3はセキュリティの面で優れています。

✓下記がClaude3のセキュリティ面の特徴です

企業が求めるレベルのセキュリティとデータ処理を実現

Claudeは企業が求める高いセキュリティ基準をクリアしており、ビジネスでの使用に適しています。

SOC II Type2認定、HIPAA準拠オプション

これらの認定は、セキュリティやプライバシーに関する厳しい基準を満たしていることを意味します。特に個人の健康情報などのデータの安全な取り扱いを保証します。

AWS&GCPを通じたアクセス

Amazonウェブサービス(AWS)とGoogleクラウドプラットフォーム(GCP)を通じて、安全にClaudeを使用することができます。

脱獄や悪用に対する10倍の耐性

Claudeは悪意のある攻撃や不正利用に対しての耐性が強いです。セキュリティが強化されています。

有料商用サービスの著作権の保護

商業的に使用するときに、著作権に関するリスクからユーザーを保護してくれます。

上記のようなセキュリティが備わっているため、個人も企業も安全にClaudeを使用することができます。

►「Claude3」の料金

次に、Claude3の料金について共有します。

モデルによって料金が異なります。

◼︎モデル別料金の紹介

✓下記がClaude3のモデル別の料金になります

Sonnet

無料です。

Opus

Proにアップグレードすることで利用できます。3000円/月です。

Haiku

2024年3月14日に発表されました。Proにアップグレードすることで利用できます。

料金はChatGPTやGeminiとほぼ同じです。

Opusモデルを使用したい人は、サブスクリプションの登録をする必要があります。

◼︎Proにアップグレードする方法

次に、Opusモデルにアップグレードする方法を共有します。

とても簡単です。

まずCaudeのホーム画面を開きます。

次に、upgrade to Claude Proをクリックします。

「Claude3」のホーム画面

次に、Subscribe Nowをクリックします。

サブスク

最後に、個人情報を入力して完了です。

「Claude3」の個人情報入力画面

◼︎Proの特徴

✓Claude Proの特徴は下記のとおりです

・Opusモデルが使用可能

・ユーザーが多いときでも、Claudeへ優先的にアクセスできる

・自由にモデルを切り替えることができる

・新しい機能にいち早くアクセスできる

・無料サービスと比較して約5倍の使用量を提供してくれる

最初は無料で活用してみることがおすすめです。

「もっと使いこなしてみたい」と思ったときに、Claude Proにアップグレードしてもいいかもしれません。

アップグレードしたい人はProにアップグレードする方法をもう一度ご覧ください。

►Anthropicが伝授!「Claude3」の使用例

Claude3を開発したAnthropicが使い方の例を教えてくれています。

◼︎3つの使用例

✓下記が使用例になります

使用例その1:業務を効率化する

Claudeはビジネスの電子メールや文章から重要な情報を抽出できます。また、アンケートの回答を分類・要約し、大量のテキストデータを迅速かつ正確に解析可能です。これにより、日々の情報処理スピードが大幅にアップし、効率よく作業ができます。

使用例その2:法的申請をする

契約書の作成や交渉など、長く機密性の高い法的文書の取り扱いにも適しています。200,000トークンのコンテキストウィンドウを持つことで、複雑な法的文書を迅速にチェックできます。従来まで手作業で行っていた作業を効率化することが可能です。

使用例その3:コード生成をする

Claudeはコーディング、数学、推論の分野においても常に進歩しています。また、Pythonのコーディングテストである「Codex HumanEval」で、前回の56.0%から71.2%へと大幅にスコアを改善しました。これはプログラミングや数学的な問題においても、Claudeが高いパフォーマンスを発揮できることを示しています。

自分で実際に使ってみて、オリジナルの活用方法を見つけるのも面白いかもしれません。

◼︎わかりにくい用語をチェック!

✓Pythonとは?

プログラミング言語。Pythonのコードは簡潔で読みやすく、他の言語に比べてコード量が少なくて済みます。

►スマホのアプリからClaudeが使える!(iOS版)

2024年5月2日に、Claudeのアプリが登場しました。iPhoneユーザーは、App Storeからアプリをダウンロードすることができます。

今まではClaudeを使用する際、Webにアクセスする必要がありました。少し手間がかかっていましたよね。

しかしアプリの登場によって、いつでもどこからでもClaudeを手軽に使用できるようになりました。通勤時間帯や外出時にアイデアの壁打ちをしたり、「早く答えを知りたい」というタイミングでも問題ありません。

以下のリンクからClaudeアプリをダウンロードできます。非常に便利なのでダウンロードしておきましょう。もちろん無料です。

https://apps.apple.com/jp/app/claude/id6473753684

►Claude Sonnet、GPT-4、Gemini1.0を比較してみた結果・・・

最後に無料版のClaude SonnetとGPT-4、Gemini1.0に同じ質問をして、どのような返答の違いがあるのかを比較してみました。

◼︎哲学的な文章を用いて比較

✓質問内容は下記になります

プラトンの著書である『国家』の中でソクラテスは「美、その他について多くの人がもつ雑多な考えというものは、純粋にあるものと純粋にあらぬものとの中間のあたりをさまよっているものだということを、われわれは発見したようだ」と言っています。この文章から、ソクラテスは「美」に対してどのように考えているのかを推測して、わかりやすく教えてください。

まずは、Gemini1.0が出力した内容です。

Gemini1.0🔽

Gemini1.0の返答内容

次に、GPT-4が出力した内容になります。

GPT-4🔽

GPT-4の返答内容

最後に、Claude Sonnetの出力内容です。

Claude Sonnet🔽

「Claude3」の返答内容

難しい哲学的な回答でも、わかりやすく出力してくれています。

とは言っても、この比較だけでは「どの生成AIが優れているか」を決めるのは難しいですね。

3つの生成AIで的確な答えが出力されました。

◼︎「人間らしい文章」を出力してもらった結果・・・

次に、「人間らしい文章」を出力してもらうように質問しました。

✓内容は下記のとおりです

もっとユーザーに語りかけるような返答をしてください。

この質問で、出力に差が生まれるのでしょうか?

それぞれの出力内容は、下の画像のとおりです。

Gemini1.0🔽

Gemini1.0の返答内容

GPT-4🔽

GPT-4の返答内容

Claude Sonnet🔽

「Claude3」の返答内容

Gemini1.0、GPT-4、Claude Sonnetの生成AIで的確な返答をしてくれたと思いませんか?

普通に使っている中で「どれがよくてどれが悪い」と判断することは難しいです。

どの生成AIでも、優れた返答をしています。

Claude3にMMLUなどの評価をした結果、GPT-4やGemini1.0よりも優れた結果を出したことがわかっています。

しかし実際に使ってみると、人によって「使いやすさ」が変わってくるように感じました。

自分に一番合った生成AIを使用することで、効率よく作業ができそうです。

知識の幅も広がっていきます。

または、そのときのタスクによって使い分けるのもいいかもしれません。

►この記事の引用元

Claude3の概要と特徴をまとめるにあたって、下記から引用しました。

https://www.anthropic.com/news/claude-3-family

►まとめ

以上になります。

ChatGPTが一般の人に多く使われるようになってから、たくさんの生成AIが生まれています。

その中で、Claudeも大きな成長を遂げています。

今回はClaudeについて知っておくべきことを、網羅的にまとめました。

今後AIを活用するにあたって、参考になれば幸いです。

僕の記事ではAIの情報について、誰よりもわかりやすく共有しています。

専門用語についてもわかりやすく解説しています。

AIの学習や活用のスタート地点として、僕のブログを活用してください。

今後も学びつつ、コツコツ記事にまとめていきます。

なお、無料版のClaude3(Sonnet)はこちらのリンクからご利用いただけます🔽

https://claude.ai/chats

最後までお読みいただき、ありがとうございます。

ブログをメールで購読

学べるブログの更新・重要アップデート(Grok/Gemini など)を、メールで受け取れます。無料。いつでも解除できます。更新時(週1〜2回目安)

生成AIの読み物

コメント

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む