【2026年最新】Google AI Studioのメディア生成(Generate Media)完全ガイド|画像・音声・動画・音楽の使い方、無料範囲、料金まで解説

実務ガイド

Google AI Studioで画像・音声・動画・音楽を作ってみたいと思っても、どこから始めればいいのか、無料でどこまで試せるのか、料金はどう見ればいいのかで迷いやすいはずです。特に、AI Studio本体の中でメディア生成機能をどう捉えればいいのかが分からないと、全体像はつかみにくくなります。

本記事では、Google AI Studioのメディア生成機能(Generate Media)を「4つの制作レーン」として整理し、画像・音声・動画・音楽の使い分け、AI Studio本体との違い、無料範囲、料金の見方、商用利用前に確認したいポイントまで、初心者にもわかりやすい順番でまとめています。

Google AI Studioのメディア生成機能の要点をまとめたダークテーマの図解。画像・音声・動画・音楽の4レーン、AI Studio本体との違い、始め方、料金の見方、目的に近い1レーンから始めればよいという結論を示している。
Google AI Studioのメディア生成機能の全体像を、1枚で把握できるように整理した要点図です。画像・音声・動画・音楽の4レーンで何ができるか、AI Studio本体との関係、迷わない始め方、料金を見る時の注意点、最後に押さえたい結論までを順番にまとめています。最初は今の目的に近い1レーンだけを選んで短く試し、必要な時だけ広げる考え方が、この図の核心です。
  1. Google AI Studioのメディア生成機能(Generate Media)とは?できることと全体像
    1. 画像・音声・動画・音楽の4レーンを最初に整理
    2. 画像・音声・動画・音楽の違い|何を作る時にどれを選ぶ?
    3. AI Studio本体とメディア生成機能(Generate Media)の違い
  2. Google AI Studioのメディア生成の料金|無料範囲・有料で変わること・注意点
    1. 無料でどこまで使える?
    2. 有料で変わること
    3. 料金を見るときの注意点
  3. Google AI Studioのメディア生成の始め方|アクセス方法・場所・最初の確認ポイント
    1. Google AI Studioにアクセスする
    2. メディア生成機能はどこから使える?
    3. 最初に確認したい条件|課金・地域・アカウント
  4. Google AI Studioで画像生成する方法|Nano Banana・Imagenの違いと使い分け
    1. Nano Bananaが向いている使い方
    2. Imagenが向いている使い方
    3. テキストから画像を生成する方法
    4. 画像をもとに編集・生成する方法
    5. 画像生成で失敗しやすいポイント
  5. Google AI Studioで音声・動画・音楽を生成する方法|Gemini TTS・Veo・Lyriaの使い方
    1. Gemini TTSで音声を生成する方法
    2. Veoで動画を生成する方法
    3. Lyriaで音楽を生成する方法
    4. Gemini TTS・Veo・Lyriaの使い分け|何を作る時にどれを選ぶ?
  6. Google AI Studioのメディア生成で失敗しやすいポイントと対処法
    1. 生成できない・遅い時の対処法
    2. 意図した出力にならない時の見直し方
    3. Generate Mediaを日本語で使うコツ|プロンプトでズレを減らす書き方
  7. Google AI Studioのメディア生成の使い分け|目的別におすすめ機能を整理
    1. SNS用の画像を作りたい人
    2. ナレーションや音声コンテンツを作りたい人
    3. 短い動画を作りたい人
    4. BGMや音楽素材を作りたい人
  8. Google AI Studioのメディア生成に関するよくある質問
  9. まとめ|Google AI Studioのメディア生成は目的に近い1レーンから始めればいい
  10. 引用元
  11. 関連記事

Google AI Studioのメディア生成機能(Generate Media)とは?できることと全体像

2026年4月時点のGoogle AI StudioのBuild画面。中央に「Build your ideas with Gemini」と入力欄があり、下部に「Convert text to speech」「Generate music」「Create & edit images」などのメディア生成ショートカットが並んでいる。
2026年4月時点のGoogle AI Studioでは、メディア生成機能は Build 導線の中から触れられる見え方になっています。画面上では「Generate Media」という名称が前面に出ていなくても、画像生成・音声生成・音楽生成などの入口は引き続き用意されています。

画像・音声・動画・音楽の4レーンを最初に整理

Generate Mediaは、1つの生成機能を深く触る場所というより、何を作りたいかに応じて入口を選ぶ場所です。最初に4つの制作レーンをまとめて見ておくと、機能の違いを細かく覚える前でも、自分に必要な方向を先に判断しやすくなります。

Google AI Studio / Generate Media / Overview
Generate Mediaでは、画像・音声・動画・音楽を1つの場所から試せます
まず押さえたいのは、Generate Mediaが1つの生成機能ではないという点です。ここには、静止画を作るレーン、声を作るレーン、動画を作るレーン、曲やBGMを作るレーンが並んでいます。最初に全体像をつかんでおくと、自分に必要な機能だけを迷わず見つけやすくなります。
💡
first understanding:最初に整理したいのは、Generate Media = 画像だけの機能ではないということです。静止画・音声・動画・音楽までを横断して触れる制作エリアとして見ると、全体が把握しやすくなります。
選択中
画像レーン
画像を生成・編集する
静止画の新規生成や、手元の画像をもとにした編集・変換に向いているレーンです。
できること
テキストから画像を作る、画像を入れて編集する、構図や見た目を整える
使いやすい場面
ブログ図版、サムネイル、商品ビジュアル、広告素材、SNS投稿用画像
選択中
音声レーン
音声を生成する
文字を読み上げ音声にしたり、話し方や雰囲気を調整したりできるレーンです。
できること
テキストから音声を作る、声色やテンポを調整する、会話形式の音声を試す
使いやすい場面
動画ナレーション、説明音声、読み上げ、教材音声、音声コンテンツの試作
選択中
動画レーン
動画を生成する
テキストや画像をもとに、短尺の映像や動きのある表現を作るレーンです。
できること
テキストや画像から動画を作る、シーンや動きの方向性を試す、短い映像表現を作る
使いやすい場面
SNS短尺動画、プロモ素材、サービス紹介、コンセプト映像の試作
選択中
音楽レーン
音楽やBGMを生成する
曲やBGMのたたき台を作ったり、雰囲気に合う音を試したりできるレーンです。
できること
テキストや画像から楽曲を作る、短いクリップを出す、雰囲気に合う音の方向性を探る
使いやすい場面
動画用BGM、世界観づくり、曲案出し、雰囲気確認、音の試作
quick answer
Generate Mediaの要点は、1つの生成機能ではなく、4種類のメディア生成をまとめて触れる場所だということです。ここで全体像を整理しておくと、このあと見る料金や各機能の使い方も理解しやすくなります。
how to read — カードをクリックして絞り込めます
全体像をつかむ
必要なレーンを見つける
料金と使い方を確認する

ここで理解できれば十分なのは、Generate Mediaが「何でも同じように作る場所」ではなく、作りたい出力に応じて入口が分かれているということです。まずは自分が触りたいレーンを見つけ、そのあとで違いや選び方、料金や無料で試せる範囲を確認していく順番にすると、迷わず読み進められます。

画像・音声・動画・音楽の違い|何を作る時にどれを選ぶ?

4つのレーンは同じ生成機能ではなく、向いている仕事がはっきり分かれています。先に違いを見ておくと、「自分はどこから触るべきか」がすぐ判断しやすくなります。

Google AI Studio / Generate Media / Choose by Output
選ぶ基準は、何を作りたいかと、どこを詰めたいかです
4つとも生成系ですが、向いている仕事はかなり違います。下のシナリオボタンを押すと、そのケースに向いているレーンがハイライトされます。
今作りたいのはどれですか? — ボタンを押すと対応レーンが光ります
おすすめ✓
画像
静止画を作りたい時に選ぶ
見た目そのものを作ったり、既存画像を編集したりしたい時に向いています。
向いている作業
アイキャッチ、商品画像、バナー、ビジュアル素材、画像編集
詰めるポイント
構図、質感、色、スタイル、一貫性、修正の細かさ
こんな時に選ぶ
まず見た目を作りたい、止まった1枚で伝えたい、素材を量産したい
おすすめ✓
音声
文字を声にしたい時に選ぶ
文章を読み上げたり、ナレーションや会話音声を作ったりしたい時に向いています。
向いている作業
ナレーション、説明音声、教材音声、会話サンプル、台本の音声化
詰めるポイント
声色、テンポ、抑揚、アクセント、トーン、話者の分担
こんな時に選ぶ
文章を読ませたい、声の雰囲気を決めたい、映像にナレーションをつけたい
おすすめ✓
動画
動きのある表現を作りたい時に選ぶ
静止画では足りず、シーンやカメラ感、動きまで含めて見せたい時に向いています。
向いている作業
短尺プロモ、雰囲気動画、サービス紹介、コンセプト映像、動きのある素材
詰めるポイント
シーン、カメラ感、動き、テンポ、映像の雰囲気、音との一体感
こんな時に選ぶ
動きを見せたい、短い映像で訴求したい、世界観を動画で伝えたい
おすすめ✓
音楽
曲やBGMを用意したい時に選ぶ
映像に合わせる音や、雰囲気を支えるBGMそのものを作りたい時に向いています。
向いている作業
BGM、ループ、曲案出し、雰囲気トラック、音の試作
詰めるポイント
ムード、展開、編成、歌の有無、ループ感、変化のつけ方
こんな時に選ぶ
動画にBGMをつけたい、音の世界観を作りたい、曲のたたき台がほしい
quick reading
いちばん大きい違いは、画像は見た目音声は話し方動画は動き音楽は曲や雰囲気を作る時に選ぶ点です。
how to choose
1枚絵や素材を作る → 画像
ナレーションや読み上げ → 音声
短い映像や動きの演出 → 動画
BGMや曲のたたき台 → 音楽

この図表で押さえたいのは、Generate Mediaが「全部できる場所」だとしても、同じ指示の出し方で全部を扱う場所ではないという点です。まず見た目を作りたいのか、声にしたいのか、動きを見せたいのか、音を作りたいのかを切り分けるだけで、選ぶべきレーンはかなり明確になります。このあと各機能の使い方を見る時も、まず用途を先に決めておく方が理解しやすくなります。

AI Studio本体とメディア生成機能(Generate Media)の違い

Generate Mediaは、Google AI Studioとは別のサービスというより、AI Studio全体の中でメディア生成に寄せた入口として見ると理解しやすいです。最初にこの位置づけを整理しておくと、機能や料金の話もかなり追いやすくなります。

Google AI Studio / Generate Media / Relationship
Generate Mediaは、Google AI Studio全体の中にあるメディア生成向けの専用エリアです
ここで整理したいのは、どちらが上か下かではなく役割の違いです。Google AI Studio本体は広い作業環境で、Generate Mediaはその中で画像・音声・動画・音楽の生成を見ながら試しやすくした制作寄りの入口です。
Google AI Studio
AI Studio全体の中に、目的ごとの入口が並んでいる
Google AI Studioは、単に生成するだけの場所ではありません。モデルを試す、設定を整える、コードにつなぐ、アプリ化するまでを含んだ広い作業環境の中に、Generate Mediaが1つの専用エリアとして置かれている構成です。
Zone 01
Chat / Prompt testing
モデルを試しながら、複数ターンで反応や出力を確認する入口。
Zone 02
Build mode
自然言語からコードとプレビューを作り、アプリ化まで進める入口。
Zone 03
API / Get code
試した内容をAPIキーやコードに接続し、実装へ寄せる入口。
Zone 04
Run settings / tools
パラメータ、安全設定、各種ツールを調整する領域。
Zone 05 ← Here
Generate Media
画像・音声・動画・音楽の生成を、出力を見ながら進めやすくした専用エリア。
focus area: Generate Media
本体と分けて見ると理解しやすい4つの点
制作目的で入りやすい
何を作りたいかを起点に、そのままメディア生成へ進みやすい構成です。
入口が絞られている
AI Studio全体を見る前に、画像・音声・動画・音楽へ直接入りやすくなっています。
出力確認が早い
細かな設定全体より先に、出力を見ながら方向を決めやすいのが特徴です。
役割が明確
AI Studio全体の中でも、メディア生成という目的に集中して見やすい領域です。
Google AI Studio 本体で見ること
どのモデルや設定で試すか
チャット、リアルタイム、各種ツール、設定まで含めて全体を広く確認する。
どこまで実装やアプリ化につなぐか
Get code、APIキー、Build modeまで含めて全体設計を考える。
Generate Media で見ること
どのメディア生成から入るか
画像・音声・動画・音楽のうち、目的に近い制作入口を選びやすい。
出力を見ながら方向を決める
まず生成してみて、必要に応じて修正しながら進める使い方に向いている。
reading tip
迷ったら、「AI Studio本体は全体環境」「Generate Mediaはその中の制作向け入口」と覚えると整理しやすいです。別サービスの比較ではなく、同じ土台の中で役割が分かれていると考えるのがいちばん分かりやすいです。

この図表で押さえたいのは、Generate Mediaの方が上とか下とかではなく、役割が違うということです。AI Studio本体は試す・調整する・つなぐための全体環境で、Generate Mediaはその中で画像・音声・動画・音楽を作る時に入りやすい入口です。

Google AI Studioのメディア生成の料金|無料範囲・有料で変わること・注意点

無料でどこまで使える?

enerate Mediaは無料で触り始めやすい一方で、そこで見える機能がそのまま全部無料で使えるわけではありません。特に混同しやすいのが、Google AI Studioに入れることと、画像・音声・動画・音楽の各モデルにFree Tierがあることを同じように考えてしまうことです。ここでは、無料の入口と実際の無料利用範囲を分けて見ながら、どこまで無料で試しやすく、どこからPaid Tier前提で考えるべきかを整理します。

Google AI Studio / Generate Media / Free Scope
無料で始められても、各生成レーンに無料枠があるわけではありません
ここでいちばん大事なのは、Google AI Studioに入れることと、Generate Mediaの各モデルにFree Tierがあることを分けて考えることです。現行の主要モデルでは、音声生成の一部TTSモデルにはFree Tierがありますが、画像・動画・音楽の主要生成モデルはFree Tierなしです。
⚠️
AI Studioに無料で入れることと、画像・動画・音楽を無料で生成できることは同じではありません。無料枠ありはTTSの一部のみ。画像・動画・音楽は基本的にPaid Tier前提で見るのが正確です。
free access
AI Studio自体は無料で入りやすい
ただし、無料アクセスと各生成モデルのFree Tierは別です。
free tier reality
無料枠ありは実質TTS系が中心
Gemini 3.1 Flash TTS Preview と 2.5 Flash Preview TTS はFree Tierがあります。
paid setup
Paid Tier移行は請求設定+最低10ドルの事前入金が入口
本格運用に進む場合は、先にBilling設定の条件まで確認した方が安全です。
▼ 各レーンをタップ・クリックで詳細を展開できます
🏗
Google AI Studio本体
画面に入って導線や機能配置を確かめる土台
無料で開始
AI Studioに入れることと、各生成モデルにFree Tierがあることは別です。さらに、Google AI Studioとunpaid quotaは公式Terms上でUnpaid Servicesとして扱われるため、無料利用の段階では機密情報を入れない前提で見る方が安全です。
🔊
音声生成(一部TTSモデル)
読み上げ・ナレーション・会話音声を試すレーン
一部あり
Gemini 3.1 Flash TTS PreviewGemini 2.5 Flash Preview TTS にはFree Tierがあります。一方で、Gemini 2.5 Pro Preview TTS にはFree Tierがありません。音声は「全部無料」ではなく、一部モデルだけ無料で始めやすいと見るのが正確です。
🖼
画像生成(現行主要モデル)
静止画生成・画像編集・高品質ビジュアル制作
Free Tier なし
現行Pricingでは、Gemini 2.5 Flash ImageGemini 3.1 Flash Image PreviewGemini 3 Pro Image PreviewImagen 4 のいずれもFree Tierがありません。画像生成は、無料で深く試すレーンではなくPaid Tier前提のレーンとして見ておく方が誤解しにくいです。
🎬
動画生成(Veo 3.1)
短尺映像・音付き動画・プロモ素材のレーン
Free Tier なし
Veo 3.1 は公式Pricingでも Not available / Paid Tier の扱いです。標準・Fast・Liteの各バリアントはいずれもPaid Tierでの秒課金なので、動画は最初から課金条件を確認して使うレーンとして見るのが正確です。
🎵
音楽生成(Lyria 3)
BGM・楽曲・クリップ生成のレーン
Free Tier なし
Lyria 3 Clip PreviewLyria 3 Pro Preview は、どちらも公式PricingでFree Tierなしです。音楽も画像や動画と同じく、無料枠より先にPaid Tier前提で考えるレーンとして整理しておく方が分かりやすいです。
how to read this
無料で始めるなら、まずは AI Studio本体で全体像をつかむFree TierのあるTTSを試す → 画像・動画・音楽は必要性が固まってからPaid Tierを見る、という順番が最も誤解が少ないです。
important caution
Paid Tierへ上げる時は、Billing accountの紐付け最低10ドルの事前入金が入口になります。無料利用と有料利用では、使えるモデルだけでなく、運用前提そのものが変わると考えるのが正確です。

この図表で押さえたいのは、Generate Mediaが「無料で始められる場所」だとしても、各生成レーンが同じ条件で無料というわけではないことです。まずはAI Studio本体で全体像をつかみ、無料枠のある領域から触り、画像・動画・音楽は必要性が固まった段階でPaid Tier前提で見る。この順番にしておくと、料金まわりの誤解をかなり減らしやすくなります。

有料で変わること

Generate Mediaで有料化を考える時に見ておきたいのは、単に「無料の先に進むかどうか」ではありません。実際には、使えるモデルの幅、継続利用しやすさ、コストの調整方法、データ取り扱いの前提まで含めて、運用条件そのものが変わります。ここでは、Paidを機能追加としてではなく、実務で回せる状態へ切り替わる段階として整理して見ていきます。

Google AI Studio / Generate Media / Paid Unlocks
Paidで変わるのは、使える範囲だけでなく運用条件そのものです
有料化は、単に無料枠の先へ進むことではありません。Googleのより高度なモデルにアクセスしやすくなり、高いレート制限、Context caching、Batch API、そしてデータ取り扱い条件まで含めて、実務で回しやすい前提へ切り替わります。
🔓
quick answer:Paidは課金の開始というより、本番運用できる条件へ移る段階と考えると分かりやすいです。
01
より高度なモデルにアクセスしやすくなる
公式Pricingでも、Paidは Google’s most advanced models へのアクセスとして整理されています。Generate Mediaで使う画像・動画・音楽の主要レーンも、実際にはPaid Tier前提で見る場面が多くなります。
02
高いレート制限で継続運用しやすくなる
Paidは higher rate limits for production deployments が前提です。試しに少し触る段階ではなく、継続して生成を回したい段階になると、この差がそのまま使いやすさの差になります。
03
コスト最適化の手段が増える
Paidでは Context caching が使えます。さらに Batch API は通常の対話型APIコストの50%で処理 されるため、継続利用時は単に課金するだけでなく、無駄を減らす設計ができるようになります。
04
データ取り扱いの前提が変わる
Free側は content used to improve our products、Paid側は content not used to improve our products と公式Pricingで整理されています。業務利用では、ここは料金以上に重要な差になります。
05
Billingと利用管理まで含めて考える段階になる
Paidへ移る入口は、まず AI StudioでBillingを設定 することです。新規ユーザーはPrepayが既定で、最低購入額は10ドルです。利用規模が大きくなると、条件を満たした後にPostpayへ切り替える運用も見えてきます。
paid transition
有料化は、生成を継続利用する条件を整える流れ
1
無料で全体像を確認する
まずはAI Studioに入り、Generate Mediaの各レーンや導線を確認する段階です。
2
Billingを設定してPaid Tierへ入る
Free tierからPaid tierへ進むには、AI StudioでBilling設定が必要です。新規ユーザーはPrepayが既定で、最初の入金は最低10ドルです。
3
本番向けの条件で運用する
高度なモデル、高いレート制限、Context caching、Batch API、そしてPaid側のデータ条件がそろって効いてくる段階です。
models
Paidは高度なモデルと主要な生成レーンへ進みやすい
efficiency
Context caching と Batch APIで継続利用時の設計が変わる
data
Paidは製品改善へのデータ利用前提がFreeと異なる
reading tip
有料化を判断する時は、無料で足りるかではなく、必要なレーンがPaid前提か高いレート制限やコスト最適化が必要かPaid側のデータ条件が必要かで見ると判断しやすいです。

必要なレーンがPaid前提か、高いレート制限やコスト最適化が必要か、そしてデータ条件まで含めて見ておくと、自分がいま無料のままで十分なのか、そろそろ有料化を考える段階なのかを判断しやすくなります。

料金を見るときの注意点

Generate Mediaまわりの料金で迷いやすいのは、単価が高いか安いかより、そもそも何に対して課金されるのかがモデルごとに違うことです。しかも、AI Studioに無料で入れること、モデルにFree Tierがあること、Groundingの追加コスト、Preview表記、spend capの扱いまでが同じ料金表の中に並ぶため、数字だけを追うとかえって判断しにくくなります。ここでは、料金を比較する前に、まずどう読むべきかを整理していきます。

Google AI Studio / Pricing / Caution Points
料金表は、金額より先に「何に対して課金されるか」を見ると判断しやすいです
Generate Mediaまわりの料金表は、単価だけ見ても判断しにくいです。モデルごとに課金単位が違い、AI Studioに無料で入れることとモデルのFree Tierも別です。さらにGroundingやPreview表記、spend capの位置づけまで分けて読むと、かなり誤解が減ります。
🔍
first check:まず確認したいのは安いかどうかではなく、何に対して、どの条件で課金されるかです。
01
モデルごとに課金単位が違う
画像・音声・動画・音楽は同じ単位で横並び比較できません。モデルによって、トークン、画像出力相当、秒、検索クエリなど見方が変わるので、まず課金単位を先に確認する方が安全です。
02
AI Studioに入れることと、モデル無料は別
Google AI Studioを無料で開けることと、Generate Media内の使いたいモデルにFree Tierがあることは同じではありません。入口が無料でも、本命モデルはPaid Tier前提ということがあります。
03
Groundingは「1リクエスト=1課金」ではない
Grounding with Google Search は、無料枠の後は $14 / 1,000 search queries です。公式では、1回のGeminiリクエストが1つ以上の search queryに分かれることがあると明記されているため、表面上の入力回数だけでは読み切れません。
04
Previewは固定前提で見すぎない
公式Pricingでも、Preview models はstableになる前に変わる可能性があり、rate limits もより厳しいと案内されています。今の価格や条件を長期固定で見るのは危険です。
05
spend cap は月額管理機能として見る
公式では、Gemini APIは billing account / project の両方で月額 spend cap を設定できます。これは想定外の超過を防ぐための管理機能ですが、Invoiced / Offline accounts では使えない点も確認しておくべきです。
見る順番
1
まず課金単位を見る
2
AI Studioの無料開始とモデルのFree Tierを分けて考える
3
Groundingや追加機能の別課金を確認する
4
Previewか、安定運用向きかを確認する
5
spend cap の有無と設定先を確認する
見落としやすい点
AI Studioに入れたので、本命モデルも無料だと思い込む
「Free Tierあり」だけ見て、自分が使いたいモデルも対象だと思う
単価だけを見て、検索クエリや追加課金の仕組みを見落とす
Previewの条件を、そのまま長期運用前提で見てしまう
spend cap が使える口座条件まで確認しない

課金単位、Free Tierの有無、追加費用、Preview表記、利用管理の条件まで先に見ておくと、あとから「思っていた課金と違った」というズレをかなり減らしやすくなります。

Google AI Studioのメディア生成の始め方|アクセス方法・場所・最初の確認ポイント

Google AI Studioにアクセスする

Google AI Studioを初めて開く時に、最初からAPIキーや課金設定まで進める必要はありません。むしろ最初に大事なのは、正しい入口からAI Studio本体に入れて、画面全体と基本導線を確認できる状態を作ることです。

ここでは、Generate Mediaを触る前段階として、まずどこから入り、どこまで確認できれば十分なのかを先に整理していきます。

Google AI Studio / Access / First Step
最初は、公式AI Studioに入り、画面全体を確認するだけで十分です
APIキーや課金設定まで最初から進まなくても大丈夫です。まずは正しい入口から入り、Google AI Studio本体にアクセスできる状態を作ってから、必要に応じて Generate Media を見ていく流れで問題ありません。
🎯
first goal:ここでの目的は使いこなすことではなく、迷わず入れる状態にすることです。ステップをクリックすると現在地を確認できます。
1
公式のGoogle AI Studioを開く
まずは公式の AI Studio 入口から開くのが安全です。ここを基準にすると迷いにくくなります。
2
Googleアカウントでサインインする
未ログインの場合は、Googleアカウントでのサインイン画面が表示されます。通常は個人アカウントでも Workspace アカウントでもここから入れます。
3
まずはAI Studio本体に入る
Quickstart では Chat から始める流れですが、この段階ではまず画面全体と基本導線が見えれば十分です。
4
必要ならGenerate Mediaへ進む
AI Studio本体に入れたあとで、画像・音声・動画・音楽を扱う入口として Generate Media を見ていきます。
what you need
最初に必要なのは、基本的に Google アカウントだけです。
Googleアカウント
公式AI Studioページ
まずはアクセス確認
if you cannot access
Workspace アカウントで入れない場合は、管理者設定で無効化されているか、Education の年齢制限などが影響している可能性があります。機能の問題ではなくアカウント側の条件を先に確認する方が早いです。
reading tip
最初の段階では、APIキー取得や課金設定より先に、AI Studio本体に問題なく入れるか を確認する方が進めやすいです。

先に入口とアクセス条件を整理しておくと、そのあとGenerate Mediaを見る流れにも入りやすくなります。もしここでつまずく場合は、機能の問題というより、アカウント条件や管理設定を先に確認する方が早いです。

メディア生成機能はどこから使える?

Generate Mediaを初めて探す時に迷いやすいのは、これを別サービスのように考えて外で探してしまうことです。実際には、Generate MediaはGoogle AI Studio本体の中で、メディア制作へ進むための入口として見る方が分かりやすいです。

ここではまずAI Studio本体に入り、その中で「どこを見ればGenerate Mediaへ進みやすいのか」を先に整理します。

Google AI Studio / Generate Media / Location
Generate Mediaは、AI Studio本体の中でメディア制作へ進む導線として探します
Chatや他の機能と同じく、AI Studio内の用途別入口のひとつとして見ると分かりやすいです。まず本体に入り、ナビゲーションやホーム画面の導線から、メディア生成へ進む場所を見つけます。
🗺
quick answer:別サイトを探すのではなくAI Studioの中でメディア生成へ進む場所を探すのが分かりやすいです。ナビメニューをクリックして各エリアを確認できます。
aistudio.google.com
Chat / Prompt
Generate Mediaここ
Build mode
API / Code
Settings
Generate Media — 4 レーン
🖼
画像
静止画生成・編集
🔊
音声
読み上げ・会話音声
🎬
動画
短尺映像・動き
🎵
音楽
BGM・楽曲生成
look here first
まずAI Studio本体に入る
ナビゲーションやホーム画面を見る
メディア生成へ進む導線を探す
do not start here
APIキー画面から探し始める
課金設定を先に開く
別サービスだと思って外部サイトを探す
reading tip
まずはAI Studio本体の中で、用途別の入口を探すという見方だけ覚えておけば十分です。

Generate Mediaは「別の場所にある機能」ではなく、AI Studio本体の中で用途別に分かれた導線のひとつです。最初にこの見方だけ持っておくと、入口探しで迷いにくくなり、次に画像・音声・動画・音楽のどこから触るかも考えやすくなります。まずは場所を把握し、そのあとで使い方や料金を見る順番で進めるのが分かりやすいです。

最初に確認したい条件|課金・地域・アカウント

Generate Mediaを触り始める時に、最初からすべての設定項目や周辺機能を理解する必要はありません。むしろ先に大事なのは、どの生成レーンを見ているのか、そのレーンでどこを確認すれば止まりにくいのかを絞ることです。

Google AI Studio / Generate Media / Basic Checks
最初は、4つの確認項目だけ見れば十分です
生成を始める前に、すべての項目を触る必要はありません。まずは「今どのモデルを使っているか」「どこで設定を変えるか」「どこで止まりやすいか」「無料かPaid Tier前提か」が分かれば、最初の迷いはかなり減ります。
first rule:今のレーンに関係する確認項目だけを見て、それ以外は後回しで問題ありません。カードをクリックして確認状況を記録できます。
確認状況
0 / 4
01
今どのモデル / レーンを使っているか
画像・音声・動画・音楽で前提が変わるので、まずここを確認します。モデル更新も速いため、最初に見ておくと混乱しにくくなります。
02
Run settings でどこを触るか
モデルパラメータやツール類は Run settings panel から調整します。最初は細かく詰めるより、「どこにあるか」を把握できれば十分です。
03
Safety settings の場所
出力が想定より厳しい、途中で止まりやすい、通らないと感じた時に見直す場所として覚えておくと役立ちます。
04
無料で触れる範囲か、Paid Tier前提か
AI Studioの入口と、個別モデルの料金条件は別です。ここを最初に切り分けておくと、あとで混乱しにくくなります。
↑ カードをタップ・クリックして確認済にできます
later is fine — 後回しでOK
structured output
function calling
code execution
grounding
細かな最適化
good enough start
どの生成レーンを触るか決める
モデル名を確認する
Run settings と Safety settings の場所を知る
無料か Paid Tier 前提かを確認する
reading tip
最初は「全部設定する」よりも、どこを見れば直せるか を把握するだけで十分です。4つ全部チェックできれば、Generate Mediaをスムーズに触り始める準備は完了です。

生成レーン、モデル名、Run settings、Safety settings、そして無料かPaid Tier前提か。

この4つだけ先に分かっていれば、最初の試行段階では十分進めやすくなります。

Google AI Studioで画像生成する方法|Nano Banana・Imagenの違いと使い分け

Nano Bananaが向いている使い方

画像生成モデルを選ぶ時に迷いやすいのは、完成度の高さだけで比較してしまうことです。実際には、どれだけきれいに作れるか以上に、どういう流れで画像を詰めたいかによって向き不向きが分かれます。

Nano Bananaは、一発で完成品を決め切るというより、対話しながら修正を重ねたり、参考画像をもとに方向を寄せたり、ラフ案を素早く回したりする流れと相性がいいモデルです。

Image Generation / Nano Banana / Use Cases
Nano Bananaは、対話しながら画像を育てる用途で強いです
一発で完成品を決め切るというより、作って・直して・寄せていく流れに向いています。参照画像を使う編集や、ラフを高速で回す用途とも相性がいいです。
Nano Banana 系(Gemini画像生成)
quick answer:会話的な編集参照画像あり高速試作なら Nano Banana を先に見る価値があります。
💬
01
会話しながら細部を直したい時
「背景だけ変える」「人物は残す」「色味だけ寄せる」のような往復型の修正と相性が良い使い方です。
🖼
02
参考画像を渡して作りたい時
テキストだけでなく画像も一緒に渡せるので、雰囲気合わせや部分編集の起点にしやすいです。
03
ラフ案を高速で何枚も試したい時
高速・高効率寄りの立ち位置なので、初期案出しや量を回す作業で使いやすいです。
🔄
04
1つの流れで画像と文脈を扱いたい時
テキストと画像を同じ対話の中で扱えるので、「作る」と「修正する」を分断しにくいのが強みです。
fit examples
ブログやSNS用の案を短時間で複数ほしい
参考画像の雰囲気に寄せたい
完成画像を見ながら追加修正を重ねたい
画像生成と編集を分けずに進めたい
less ideal first choice
ブランド用途で文字の正確さを最優先したい
複雑な照明や高精細な完成品を一発で取りたい
厳密なデザイン再現を先に求める
reading tip
Nano Bananaは「最終納品を一発で決めるモデル」というより、会話しながら画像を詰めるための起点として使うとハマりやすいです。

Nano Bananaは「何でも万能にこなす画像モデル」として見るより、会話的に画像を育てていく用途で強い選択肢として見ると分かりやすいです。参考画像を使った編集、ラフ案の高速試作、生成と修正を同じ流れで進めたい時にはかなり使いやすくなります。

逆に、文字の正確さや厳密な再現性を最優先したい場合は、別の選び方も視野に入れると判断しやすくなります。

Imagenが向いている使い方

画像生成モデルを選ぶ時は、速さや話題性だけで決めるより、まず自分がどのレベルの完成度を求めているかを整理する方が分かりやすいです。Imagenは、作りながら方向を探るというより、ブランド感のある静止画、複雑な構図、文字入りビジュアル、光や質感まで含めた完成度の高い1枚を狙いたい時に相性が出やすいモデルです。

Image Generation / Imagen / Use Cases
Imagenは、完成度の高い静止画を精密に取りにいきたい時に向いています
作りながら寄せていくというより、ブランド感、構図、文字、光、質感まで含めて、最終イメージに近い静止画を高い精度で狙いたい時に相性が出やすいです。
Imagen 系(Imagen 4 など)
quick answer:ブランド用途複雑なシーン文字入り光と質感の作り込みを重視するなら Imagen を優先候補にしやすいです。
🏆
01
ブランド感のある静止画を作りたい時
広告、ヒーロービジュアル、商品訴求画像のように、仕上がりそのものの完成度が重要な用途で選びやすいです。
🎨
02
複雑なシーン構成を高精度で狙いたい時
要素が多い構図や、整理された世界観カットを高い完成度で出したい場面と相性が出やすいです。
📝
03
文字入り画像の精度を重視したい時
ポスター、訴求画像、見出し入りビジュアルなど、文字表現の正確さが重要な場面で向いています。
04
光・質感・写実感まで詰めたい時
複雑なライティングや高精細な画作りを含む、最終寄りの静止画を狙いたい時に強みが出やすいです。
fit examples
広告バナーやブランド訴求の静止画を作りたい
複雑なシーンや世界観カットを高い完成度で出したい
文字入りポスターや訴求画像の精度を上げたい
写実寄りの高品質ビジュアルを狙いたい
less ideal first choice
参考画像を使って会話的に何度も寄せたい
高速にラフを量産して方向性を探りたい
まずは軽く案出しを回したい
NB vs Imagen の使い分け:対話で育てる画像なら Nano Banana、完成度を高く取りにいく静止画なら Imagen と考えると判断しやすいです。
reading tip
Imagenは、対話で育てる画像よりも完成度を高く取りにいく静止画で強みが出やすいと考えると判断しやすいです。

広告やブランド訴求、文字入りポスター、世界観を作り込んだビジュアルのように、仕上がりそのものが重要な場面では特に相性が出やすくなります。

逆に、参考画像を使って会話的に何度も寄せたい時や、まずは軽くラフ案を大量に回したい時は、別の選び方も考えると判断しやすいです。

テキストから画像を生成する方法

画像生成で最初につまずきやすいのは、最初の入力だけで完成形まで当てようとしてしまうことです。実際には、最初の1回で完璧に決め切るより、まず場面の骨格を作り、そのあと差分だけを足して寄せていく方が安定しやすくなります。

ここでは、画像モデルを選んだあとに、どんな順番で指示を書き、生成後にどう直していくと進めやすいかを、最短の流れで整理します。

Image Generation / Text to Image / Method
最初の1枚は、主役・場面・雰囲気を書いて、生成後に差分で詰めると安定しやすいです
画像生成では、単語を並べるだけよりも「何が、どこで、どんな雰囲気で写っているか」を1つの場面として書く方がまとまりやすくなります。最初は短めでも構いませんが、足りない要素は生成後に追加していく方が進めやすいです。
quick answer:モデルを選ぶ場面を説明する1回出す差分だけ直す
1
画像モデルを選ぶ
まず Nano Banana 系か Imagen 系かを決め、今どの画像レーンで作るかを明確にします。
2
単語だけでなく場面を書く
主役、場所、雰囲気、画風、光、必要なら構図や文字要素まで、1つの情景として説明します。
3
まず1回生成して方向を見る
最初から完璧を狙うより、1枚出してズレを確認した方が次の修正がしやすくなります。
4
差分だけ追加指示で直す
「背景だけ変更」「もっと明るく」など、変えたい点だけを短く足して改善します。
prompt formula — 場面を組み立てる要素
主役 が、 どこで・何をしていて 雰囲気・画風・色・光 で、必要なら 構図・比率・文字要素 を含めて書く
単語の羅列より、1つの情景として書く方が方向がまとまりやすいです。足りない要素は生成後に差分で足すのが基本の進め方です。
fix after first output — 差分修正の例
背景だけ夜景に変える
人物はそのままで服の色だけ白にする
もっと柔らかい自然光にする
ポスター内の文字を短く読みやすくする
reading tip
画像生成は、最初の1回で当て切る作業というより、説明文で方向を作って、差分指示で詰める作業だと考えると進めやすいです。

画像生成は「長いプロンプトを最初から完璧に書く作業」ではなく、場面を説明して方向を作り、生成後に差分で詰めていく作業です。

画像をもとに編集・生成する方法

画像編集で意外と多いのが、「元画像を渡したのに、変えたくない部分まで大きく変わってしまった」というズレです。これは、編集したい意図が弱いというより、維持したい部分と変更したい部分の境界が曖昧なまま指示していることが原因になりやすいです。

たとえば、人物はそのまま残したいのに背景だけ変えたいのか、構図は維持して色味だけ調整したいのかで、書くべき指示はかなり変わります。先にこの切り分けだけできるようになると、画像編集は一気に扱いやすくなります。

Image Generation / Image Editing / Method
画像編集は、残したい要素と変える要素を分けて指示すると安定しやすいです
元画像をそのまま渡すだけよりも、「どこは維持したいか」「どこだけ変えたいか」を先に分けて書く方が、狙った方向へ寄せやすくなります。最初から全部を言い直すより、差分で直す方がまとまりやすいです。
KEEP — 残す要素
CHANGE — 変える要素
この2つを分けて書くことが、編集品質の鍵です
1
元画像を用意する
まず編集の土台になる画像を入れます。自分で使ってよい画像を前提に進めます。
2
🔒 KEEP
残したい要素を先に書く
人物、背景、構図、表情、光など、変えたくない部分を先に明示すると安定しやすくなります。
3
✏ CHANGE
変えたい部分だけを具体的に指示する
追加、削除、差し替え、色変更、画風変更などを、差分として短く伝えるとズレにくくなります。
4
↩ REFINE
出力後に差分だけ再指示する
「帽子だけ小さく」「背景だけ少し暗く」など、変えたい点だけを足して詰めていきます。
01
要素の追加・削除
帽子を足す、小物を消す、背景の看板を除くなど、シーンに何かを足す / 引く編集に向いています。
🔄
02
一部分だけの差し替え
ソファの色だけ変える、服だけ白にするなど、一部だけを変えたい時に使いやすい流れです。
🎨
03
スタイル変換
構図や主役をなるべく保ちながら、写真を油絵風・アニメ風など別の表現へ寄せる時に向いています。
🖼
04
複数画像を使った参照ベースの生成
複数の画像とテキストを組み合わせて、要素や雰囲気を反映した新しい画像へ発展させる流れです。
reading tip
画像編集では、全部を作り直すより変える場所だけを差分で指定する方が狙いどおりになりやすいです。

編集系の生成では、「全部を説明し直す」よりも、元画像を土台にして差分だけを伝える方がうまくいきやすいです。

人物・背景・構図・雰囲気のうち、どれを固定し、どれを動かすのかが自分の中で整理できていれば、追加・削除・差し替え・スタイル変更のどれをしたい時も迷いにくくなります。1回で完成を狙うより、最初の出力を見てから「ここだけ直す」と小さく重ねていく方が、結果として狙いに近づきやすいです。

画像生成で失敗しやすいポイント

画像生成が崩れた時ほど、人は一度にたくさん直したくなります。けれど実際には、プロンプトもモデルも設定も運用条件も同時に触ってしまうと、何が効いたのかが分からなくなりやすいです。必要なのは、細かいテクニックを増やすことより、まず失敗の種類を見分けることです。

どの型の失敗かが分かれば、次に触るべき場所はかなり絞りやすくなります。

Image Generation / Failure Diagnosis / 4 Patterns
失敗は、4つの型に分けてから直すと早く戻せます
画像生成がうまくいかない時は、最初から全部を直そうとしない方が効率的です。プロンプト、モデル選択、安全・ポリシー、運用条件の4つに分けると、どこを触るべきかが見えやすくなります。
🔎
first diagnostic:まず見るべきなのは何がズレたかではなく、どの型の失敗かです。
01
プロンプトの情報が足りない
症状
思った雰囲気と違う、構図が散る、主役が弱い、全体がぼやける
原因
単語だけで、主役・場所・雰囲気・光・構図の情報が十分に伝わっていない
直し方
1つの場面として文章で書き直し、再修正では変えたい差分だけを短く足す
02
モデルの向きが合っていない
症状
編集はしやすいが完成度が足りない、または高品質だが直しにくい
原因
会話的な反復編集向きの系統と、完成度重視の系統を混同している
直し方
対話しながら直すなら Nano Banana 系、完成度や文字精度を重視するなら Imagen 系を優先する
03
安全設定やポリシーで止まる
症状
生成できない、途中で止まる、想定より厳しく弾かれる
原因
Safety settings、禁止寄りの表現、または変更できないポリシー側の制約に触れている
直し方
危うい表現を避け、Safety settings を見直し、それでも止まるならポリシー側の可能性も疑う
04
制限や運用条件を見落としている
症状
昨日より不安定、遅い、急に使えない、出力条件が変わったように見える
原因
Preview モデルの更新、rate limits、対応地域や AI Studio 側の利用条件、料金前提の見落とし
直し方
モデルの現行仕様・Preview 表記・rate limits・対応地域・料金条件を順に確認する
fast fixes
場面を文章で書き直す
モデルを切り替える
Safety を確認する
Preview / 制限を見る
best mindset
画像生成が失敗した時は、全部を一気に直すより、1つの原因だけを切り分けて修正する方が、早く当たりに近づきやすいです。

大事なのは、「うまくいかなかった」という結果をそのまま受け取らず、どこでズレたのかを4つの型に分けて考えることです。

場面の情報不足なのか、モデル選びが合っていないのか、安全設定やポリシーなのか、それともPreviewや制限など運用条件なのか。

先にここを切り分けてから1か所だけ直す方が、感覚で全部を触るよりずっと早く戻しやすくなります。

Google AI Studioで音声・動画・音楽を生成する方法|Gemini TTS・Veo・Lyriaの使い方

Gemini TTSで音声を生成する方法

Gemini TTSを触り始める時に迷いやすいのは、いきなりvoice選びや細かな演出から入ってしまうことです。けれど実際には、その前に整理したい順番があります。まず1人で読ませるのか、複数話者で会話させるのかを決め、そのうえで読ませる原稿、話者、話し方を順に整えた方が出力の方向がぶれにくくなります。

ここでは、最初にどこから決めれば進めやすいのかを、音声制作の流れに沿って整理します。

Audio Generation / Gemini TTS / Method
Gemini TTSは、原稿・話者・話し方を分けて決めると進めやすいです
最初に「1人で読むか、2人以上で話すか」を決めてから、読ませる原稿、voice、話し方を順に詰めると迷いにくくなります。自然言語の指示や expressive audio tags を使うと、雰囲気の調整もしやすくなります。
📄 原稿
×
🎙 話者
×
🎭 話し方
この3要素を分けて設計すると、自然な音声が作りやすくなります
1
🔊 モデル選択
TTSモデルを選ぶ
まず Gemini TTS 対応モデルを選びます。低遅延で回したいか、高品質な長尺寄りかで候補が変わります。
2
📄 原稿
読ませる原稿を整える
TTS は exact text recitation 向きなので、最初に「読ませたい文章そのもの」を整えておく方が安定します。
3
🎙 話者
話者と voice を決める
single-speaker なら prebuilt voice を1つ、multi-speaker なら各 speaker ごとに voice を割り当てます。
4
🎭 話し方
話し方を自然言語で指示する
「明るく」「落ち着いて」「ゆっくり」などの指示や expressive audio tags を足して、最後に生成します。
single-speaker 向き
ナレーション・説明音声
読み上げ・オーディオブック風
教材音声・解説コンテンツ
multi-speaker スクリプト例
Speaker1: 今日は新機能を紹介します。 Speaker2: まず何から見ればいい? Speaker1: 最初は料金と使い分けです。
style hints — 話し方の指示例
明るく、親しみやすいトーンで読む
ゆっくり、落ち着いた声で説明する
[whispers] や [laughs] で細かく演出する
reading tip
Gemini TTSは、voice を選んで終わりではなく、原稿・話者・話し方を分けて作ると自然さを出しやすいです。

Gemini TTSは、単に声を選んで文章を流し込む機能として見るより、原稿・話者・話し方を分けて組み立てる音声制作の入口として捉えると使いやすくなります。

1人読みならナレーションや説明音声に、複数話者なら掛け合いのある会話音声に向いています。

最初に形式を決めてからvoiceや自然言語の指示で雰囲気を足していく流れにすると、あとから修正する時もかなり扱いやすいです。

Veoで動画を生成する方法

Veoで最初につまずきやすいのは、動画なのに静止画の延長で考えてしまうことです。画像生成なら「何が写っているか」を中心に書けばある程度まとまりますが、動画ではそれだけでは足りません。被写体がどう動くのか、カメラがどう追うのか、全体の空気感をどうしたいのかまで分けて考えた方が、狙った映像に近づきやすくなります。

また、ゼロから動きを作るのか、最初の見た目を画像で固定してから動かすのかでも進め方が変わるので、最初に Text-to-VideoImage-to-Video のどちらで始めるかを決めておくと迷いにくくなります。

Video Generation / Veo 3.1 / Method
Veoは、シーン・動き・カメラを分けて書くと動画としてまとまりやすいです
静止画プロンプトの延長で書くより、何が起きるか、被写体がどう動くか、カメラがどう撮るか、どんな空気感かを分けて書く方が狙いに近づきやすくなります。
🎬
画像との違い:動画プロンプトでは「見た目」に加えて、被写体の動きカメラの動きを明示することが品質を左右します。
1
起点の選択
Text-to-Video か Image-to-Video を決める
ゼロからシーンを作るならテキスト、最初の見た目をある程度固定したいなら画像起点で考えます。
2
プロンプト設計
主役・動き・カメラ・雰囲気を書く
誰が、どこで、何をしていて、カメラがどう動き、どんな光や空気感かを1つのシーンとして指示します。
3
スペック指定
長さ・比率・解像度を決める
まずは 4秒か6秒で試し、必要なら8秒へ広げます。比率は 16:9 / 9:16、1080pと4Kは8秒前提で見ると整理しやすいです。
4
差分修正
結果を見て1要素ずつ修正する
「カメラをゆっくりに」「被写体の動きを小さく」「もっと暖色に」のように、1要素ずつ差分で直すと狙いが定まりやすいです。
video prompt formula
主役 / 被写体
どこで・何をしていて
どう動き・カメラがどう撮り動画専用
どんな光・色・雰囲気か
good defaults
長さまず 4秒か6秒で試す
比率縦なら 9:16、通常は 16:9
解像度1080p / 4K は 8秒前提
参照reference images も 8秒前提で見る
reading tip
Veoでは、被写体の見た目だけでなく、どう動き、どう撮るかまで書くと動画としてまとまりやすくなります。

Veoは、長い指示を一度に詰め込むことより、映像を構成する要素を分けて考えることの方が重要です。最初は短めの秒数で1本出し、そこでズレたのがシーンなのか、被写体の動きなのか、カメラなのか、色や空気感なのかを見てから1つずつ直す方が安定します。

Lyriaで音楽を生成する方法

Lyriaで音楽生成を始める時に意外と大きいのは、曲調そのものよりも、最初から長い曲を狙うのか、短い試作で方向だけ確かめるのかという判断です。音楽は画像よりも試行のコスト感が見えにくいぶん、いきなり完成形を求めると、どこがズレたのかを掴みにくくなりがちです。

そのために、まずはClipで短く方向を確認し、ジャンル、楽器、BPM、ムード、ボーカルの有無が合っているかを見ます。そのうえで必要ならProへ広げて構成や長さを詰める、という順番にした方が扱いやすいです。

Music Generation / Lyria 3 / Method
Lyriaは、短い試作で方向を決めてから、必要なら構成を伸ばすと進めやすいです
いきなり長い曲を狙うより、まずはClipで方向を確認し、そのあと必要ならProで長さや構成を具体化する方が失敗しにくくなります。
Lyria 3 Clip
30秒固定 / 試作 / ループ / 方向確認
Lyria 3 Pro
数分規模 / Verse•Chorus•Bridge / 完成曲
まず Clip で方向が合えば、Pro に広げる判断をしやすくなります
1
モデル選択
Clip か Pro を決める
30秒の試作やループなら Clip、数分規模で Verse / Chorus / Bridge まで含めたいなら Pro を選ぶと整理しやすいです。
2
プロンプト設計
ジャンル・楽器・BPM・ムードを書く
曖昧にせず、音楽の方向を言葉で具体化します。Instrumental only か vocals ありかも、この段階で入れておくと伝わりやすくなります。
3
構成・長さ指定
必要なら構成や長さを指定する
[Verse] [Chorus] [Bridge] のタグや timestamps を使うと、展開のある曲を作りやすくなります。Pro では長さも prompt で寄せやすいです。
4
段階的拡張
まず短く試してから広げる
最初から長尺を詰めるより、短い試作で方向を確認してから Pro に広げる方が、無駄な試行を減らしやすくなります。
prompt formula
ジャンル + 楽器 + BPM / ムード / vocals の有無 + 必要なら 構成・長さ・歌詞
曲名だけを思いつく感覚より、音楽の設計図を言葉で渡す感覚で使うと安定しやすいです。
also works from images
画像の色や空気感をもとに曲を作れる
テキストと画像を組み合わせて方向を寄せられる
雰囲気重視のBGMづくりと相性がいい
reading tip
Lyriaは、曲名だけを思いつく感覚よりも、音楽の設計図を言葉で渡す感覚で使うと安定しやすいです。

Lyriaは、何度も細部を微調整して育てるというより、最初に音楽の設計図をどれだけ言葉で渡せるかで安定しやすさが変わります。短い試作で方向が合っていれば、その後に構成を足す判断もしやすくなりますし、逆にそこでズレていれば長尺化する前に修正できます。

特にBGMや雰囲気重視の用途では、完成曲を一度で当てるより、「まず方向を当てる → 必要なら伸ばす」という流れで考えると、無駄な試行をかなり減らしやすいです。

Gemini TTS・Veo・Lyriaの使い分け|何を作る時にどれを選ぶ?

Generate Mediaまわりで迷いやすいのは、Gemini TTS・Veo・Lyriaを「全部似たような生成機能」として見てしまうことです。けれど実際には、原稿を読ませたいのか、動く映像を作りたいのか、音楽そのものを作りたいのかで、入るべきレーンはかなりはっきり分かれています。

ここでは性能の細かな比較より先に、何を完成物として出したいのかを基準にして、最短でどこへ進むべきかを整理します。

Audio / Video / Music / Routing Guide
選び方は、何を完成物として作りたいかで分けるのが最短です
Gemini TTS・Veo・Lyria は、どれも生成系ですが役割はかなりはっきり分かれています。下のシナリオボタンを押すと、そのケースに向いているツールがハイライトされます。
今作りたいのはどれ? — ボタンを押すと対応ツールが光ります
おすすめ ✓
Gemini TTS
文字を声にする
原稿を single-speaker または multi-speaker 音声として読ませたい時のレーンです。
向いている用途
ナレーション、説明音声、読み上げ、会話台本、音声コンテンツの試作
判断軸
読ませたい原稿がすでにあるか
最初の考え方
1人読みか、複数話者かを先に決める
おすすめ ✓
Veo
短い動画シーンを作る
被写体の動き、カメラ、空気感まで含めて一場面を作りたい時のレーンです。
向いている用途
短尺動画、訴求カット、SNS向け映像、音声付きシーン、image-to-video
判断軸
静止画ではなく、動きのある一場面がほしいか
最初の考え方
テキスト起点か、画像起点かを先に分ける
おすすめ ✓
Lyria
BGMや曲を作る
映像や読み上げではなく、音楽そのものを作りたい時のレーンです。
向いている用途
BGM、ループ、歌もの、曲のたたき台、full-length song や短い clip
判断軸
原稿や映像ではなく、曲自体を出したいか
最初の考え方
30秒の Clip で方向を見るか、Pro で長い曲を作るかを分ける
fast routing
原稿がある → Gemini TTS
動くシーンがほしい → Veo
曲そのものがほしい → Lyria
important note — Lyria RealTime
Lyria RealTime はこの3つとは少し性格が異なり、完成曲を出す主レーンというよりリアルタイムに演奏や変化を続ける experimental な別系統として見る方が分かりやすいです。

「どれが上位か」を決めることではなく、目的に対して入口を間違えないことが大切です。

原稿がすでにあるならGemini TTS、静止画では足りず一場面を動かしたいならVeo、読み上げや映像ではなく曲自体を作りたいならLyria、という切り分けができるだけで、次に見るべき設定や使い方もかなり絞りやすくなります。

Lyria RealTimeのように少し性格が違うものもありますが、まずはこの3本柱で整理しておくのがおすすめです。

Google AI Studioのメディア生成で失敗しやすいポイントと対処法

生成できない・遅い時の対処法

生成が遅い、途中で止まる、急に不安定になる。

こうした症状が出ると、つい同じ操作を何度も繰り返してしまいがちですが、それで戻るケースばかりではありません。実際には、レート制限なのか、一時的なサーバー側の問題なのか、Previewモデル由来の不安定さなのか、あるいは課金や上限管理の条件なのかで、見るべき場所が変わります。

先に原因の型を分けてしまった方が、無駄な再試行をかなり減らしやすくなります。

Troubleshooting / Generation Stuck or Slow / Diagnosis
止まる・遅い時は、まず4方向で切り分けるのが近道です
同じ「生成できない」に見えても、レート制限、サーバー側の一時的エラー、Preview由来の不安定さ、課金・上限管理まわりで対処が変わります。先に型を分けると、無駄な再試行を減らしやすくなります。
🔎
first check:まず見るのは出力内容ではなく、エラーコードの型いまの利用条件です。
429
レート制限を疑う
症状
すぐ弾かれる / resource exhausted / rate limit error
原因候補
現在の tier や対象モデルの rate limits を超えている
最初の対処
active rate limits を確認し、連打を止めて少し時間を置く
500 / 503
一時的な側面を疑う
症状
急に遅い / internal error / service unavailable / 待っても不安定
原因候補
Google 側の一時的エラー、混雑、または処理負荷が高い状態
最初の対処
連打せず少し待って再試行。続くなら別モデルへの切り替えも候補
Preview
モデルを不安定要因として見る
症状
昨日より遅い / 同じ条件でも挙動が変わる / 上限が思ったより厳しい
原因候補
Preview 特有の更新・変更、または stable より厳しい limits
最初の対処
モデル名と Preview 表記を確認し、現行仕様と前提条件で見直す
Billing
課金・上限管理まわりを確認する
症状
Paid のはずなのに止まる / spend cap が想定と違う / project 側で止まる
原因候補
billing 反映遅延、project spend cap、billing account tier cap
最初の対処
Billing 条件と cap 設定を確認し、即時停止を前提にしすぎない
fast checks
429 か確認
500 / 503 か確認
Preview 表記を見る
rate limits を見る
billing / cap を見る
best mindset
止まる時は、同じ操作を繰り返すより、エラーの型を切り分ける方が早く復旧しやすいです。

この図表で持っておきたい感覚は、止まった時にすぐ「プロンプトが悪い」と決めつけないことです。

出力内容の問題ではなく、いま使っているモデルの性質、現在のrate limits、Billingやcap設定など、外側の条件で止まっていることも少なくありません。429なのか、500/503系なのか、Preview表記があるのか、Paid前提条件にズレがないかを順に切り分けるだけで、復旧までの時間はかなり短くしやすくなります。

意図した出力にならない時の見直し方

出力が狙いと違った時に厄介なのは、「少しズレた」の中に複数の原因が混ざりやすいことです。目的そのものが曖昧なのか、必要な情報が足りないのか、媒体に合った書き方になっていないのか、それとも一度に直しすぎているのか。ここを分けずに再生成だけ重ねても、かえって何が効いたのか分からなくなりやすくなります。

この図表では、意図ズレを4つの層に分けて、どこから見直すと戻しやすいかを整理します。

Troubleshooting / Output Mismatch / Review Layers
意図ズレは、4つの層に分けて見直すと直しやすいです
同じ「ズレ」に見えても、目的が曖昧なのか、必要な情報が足りないのか、その機能向けの書き方になっていないのか、修正量が多すぎるのかで、見直す場所は変わります。各行をクリックしてメディアごとの見直しポイントを確認できます。
🔍
first rule:再生成を増やす前に、どの層がズレているかを1つだけ特定する方が早いです。
01
目的が1文で言えるか
まず「何を作りたいのか」が1文で言えるかを確認します。ここが曖昧だと、その後の微調整も全部ぶれやすくなります。
画像
雰囲気確認用か、訴求用の完成画像か
TTS
読み上げか、会話音声か
Veo
短い一場面か、説明素材か
Lyria
BGMか、歌ものか、ループか
02
必要な情報が足りているか
出力がぼんやりする時は、多くの場合「指定の粒度」が足りていません。足すべき情報を媒体ごとに見直します。
画像
主役、背景、光、色、画風、文字要素
TTS
原稿、話者、声色、速さ、トーン
Veo
被写体、動き、カメラ、空気感、長さ
Lyria
ジャンル、楽器、BPM、ムード、構成
03
その機能向けの書き方になっているか
媒体ごとに効きやすい書き方は違います。全部を同じノリで書くと、意図ズレが残りやすくなります。
画像
単語列より、情景が見える文章
TTS
原稿 + 話し方の指示 + 必要なら audio tags
Veo
被写体 + 動き + カメラ + 雰囲気
Lyria
ジャンル + 楽器 + BPM + 構成
04
一度に直しすぎていないか
改善では、全部を入れ替えるより差分を1つずつ直す方が、何が効いたのか分かりやすく、意図にも戻しやすくなります。
画像
背景だけ、色だけ、文字だけを直す
TTS
速さだけ、トーンだけ、voice だけを変える
Veo
動きだけ、カメラだけ、長さだけを変える
Lyria
BPMだけ、楽器だけ、構成だけを変える
fast fixes
目的を1文で書き直す
足りない要素を1つ足す
媒体向けの形式に直す
差分だけ修正する
best mindset
意図ズレを直す時は、「もっと良くして」と広く直すより、何を足すか / 何を変えるかを1つに絞る方が早く当たりに近づきやすいです。

見直しで大事なのは、出力全体をまとめて評価することではなく、今ズレているのがどの層なのかを1つだけ特定することです。目的、情報量、書き方、修正量のどこでズレているかが分かれば、足すべき指示も、変えるべき要素もかなり小さくできます。

「もっと良くして」と広く直すより、目的を1文で書き直す、足りない情報を1つ足す、媒体向けの形式に直す、差分だけ修正する。この順で見ていく方が、結果として当たりに戻しやすくなります。

Generate Mediaを日本語で使うコツ|プロンプトでズレを減らす書き方

Google AI Studioを日本語で使う時に、「英語で書いた方が正確なんじゃないの」と不安になる人は少なくありません。ただ、実際にズレの原因になりやすいのは、日本語そのものより、画像・音声・動画・音楽で必要な情報を十分に分けて書けていないことです。

たとえば画像なら情景の情報、TTSなら原稿と話し方、Veoなら動きとカメラ、Lyriaなら音楽設計の情報が必要になります。

ここでは、日本語で使う時にどこが曖昧になりやすいのかを、媒体ごとに切り分けて見ていきます。

Troubleshooting / Japanese Usage / Output Control
日本語では、短い抽象語より、媒体ごとの要素を分けて書く方が安定しやすいです
日本語で使う時のコツは、英語に寄せることよりも、その媒体に必要な情報を日本語で不足なく書くことです。画像・TTS・Veo・Lyriaでは、ズレやすい場所が少しずつ違います。
🇯🇵
first rule:日本語でも、何を作るかどう作るかを分けて書くとかなり安定しやすくなります。
画像
抽象語だけだと、見た目の方向がぶれやすい
⚠ 気をつけたい点
「かわいい」「おしゃれ」「高級感」だけだと、見た目の解釈幅が広くなりやすいです。
✓ 見直し方
主役、背景、光、画風、色、必要なら文字要素まで、1つの情景として日本語で書きます。
TTS
原稿の整い方が、そのまま音声に乗りやすい
⚠ 気をつけたい点
句読点や改行が少ないと、間や抑揚を作りにくくなります。複数話者では、話者名の揺れもずれの原因になりやすいです。
✓ 見直し方
原稿を先に整え、1人読みか複数話者かを決めたうえで、話し方は別に日本語で指示します。
Veo
抽象的に書くと、動きとカメラが弱くなりやすい
⚠ 気をつけたい点
「映画っぽく」「いい感じに」だけでは、被写体・動き・カメラの情報が不足しやすいです。
✓ 見直し方
誰が、どこで、何をして、どう動き、カメラがどう撮り、どんな空気感かを分けて書きます。
Lyria
歌詞の言語と音楽設計を曖昧にしない
⚠ 気をつけたい点
歌ものにしたいのに vocals の有無や歌詞の方向が曖昧だと、狙いがぶれやすくなります。
✓ 見直し方
歌詞の方向、ジャンル、楽器、BPM、ムード、必要なら構成まで、日本語で具体化して渡します。
fast fixes
抽象語を減らす
媒体ごとの要素を足す
話者名を統一する
vocals の有無を明示する
best mindset
日本語でのズレは、日本語だから起きるというより、媒体ごとに必要な粒度まで日本語で書けていない時に起きやすいです。

この図表で持っておきたいのは、日本語でうまくいかない時にすぐ「英語で書き直すべきか」と考えなくてよいということです。むしろ先に見直したいのは、抽象語が多すぎないか、媒体ごとに必要な要素が抜けていないか、話者名やvocalの有無のような前提が曖昧になっていないかです。

日本語でも、作りたいものと作り方を分けて具体化できていれば、出力はかなり安定しやすくなります。逆に「かわいい」「映画っぽい」「いい感じ」といった広い言葉だけで進めるほど、ズレは戻しにくくなります。

Google AI Studioのメディア生成の使い分け|目的別におすすめ機能を整理

SNS用の画像を作りたい人

SNS用の画像は、単に「きれいな画像を作れればいい」という話ではありません。実際には、毎日投稿のように短い時間で複数案を回したいのか、参考画像に寄せながら細かく直したいのか、それとも広告寄りの完成画像を1枚しっかり作りたいのかで、向いているモデルが変わります。ここを分けずに選ぶと、「直しやすいけれど少し物足りない」「完成度は高いけれど日常運用には重い」といったズレが起きやすくなります。

この図表では、SNS運用で特に迷いやすい使い分けを、目的ごとに整理して見られるようにしています。

Use Cases / SNS Images / Model Selection
SNS画像は、速く回すか、完成度と文字精度まで取りにいくかで分けると選びやすいです
日常投稿・量産・修正前提なら Nano Banana、ブランド感・完成度・広告寄りの1枚なら Imagen が噛み合いやすいです。行をクリックすると選択状態になります。
Nano Banana — 速く回す・反復修正
Imagen — 完成度・ブランド感
併用 — 用途次第で両方
投稿頻度と修正速度を優先するなら NB、完成度とブランド感を優先するなら Imagen、迷うなら NB で方向出し → Imagen で仕上げる流れが分かりやすいです
目的
おすすめ
理由
日々の投稿素材を早く作りたい
複数案・軽い修正・テンポ重視
Nano Banana
会話的な生成・編集と高効率運用に向いており、量を回すSNS運用と相性が良い
参考画像をもとに寄せたい
既存の世界観に近づけたい時
Nano Banana
参照画像を使いながら作って直す流れが強く、既存ビジュアルへの寄せや部分修正と相性が良い
広告っぽい完成画像を作りたい
見た目の完成度と訴求感を優先
Imagen
professional branding、複雑な構図、光や質感まで含めて完成度を高く取りにいきやすい
文字入り投稿画像を作りたい
見出しや短い訴求文・デザイン性も重視
併用
Imagenは precise text rendering に強く、Nano Banana Pro も graphic design に向くため、用途次第で両方が候補になる
まず方向性を決め、その後に仕上げたい
ラフ出し → 本命仕上げ の二段階運用
併用
NB で案出しや参照編集を行い、最終候補だけ Imagen や NB Pro で詰める流れが作りやすい
Nano Banana 向き
毎日投稿のサムネ案を複数ほしい
参考画像の雰囲気に寄せたい
投稿前に細かく差し替えたい
Imagen 向き
広告感のある1枚を作りたい
高精細でブランド感を出したい
文字精度まで詰めたい本命画像がある
reading tip
SNS画像では、速さと反復修正なら Nano Banana完成度とブランド寄りの1枚なら Imagen、迷うならNB で方向を出してから本命を仕上げると考えると分かりやすいです。

見方のポイントは、どちらが上かで比較することではなく、今ほしいのが「速く回せる素材」なのか、「本命として仕上げる1枚」なのかを先に決めることです。日々の投稿素材、ラフ案出し、参考画像ベースの調整なら Nano Banana 系が噛み合いやすく、広告寄りの訴求画像やブランド感の強いビジュアルなら Imagen が選びやすくなります。

また、SNS運用では最初から1つに決め打ちしなくても問題ありません。方向性を出す段階では Nano Banana、最後に完成度や文字精度を詰める段階で Imagen や Nano Banana Pro を使うように、二段階で考えた方がむしろ実務では扱いやすいです。

ナレーションや音声コンテンツを作りたい人

音声コンテンツを作る時に最初に迷いやすいのは、voiceの種類を先に選ぼうとしてしまうことです。けれど実際には、その前に決めたい分岐があります。1人で読む説明音声なのか、2人以上の掛け合いなのか、低遅延で試したいのか、それとも自然さやコントロールまで重視したいのか。これらが変わるだけで、作成の工程も変化してきます。

Use Cases / Narration & Audio / TTS Routing
音声コンテンツは、1人読み・掛け合い・品質重視で分けると迷いにくくなります
ナレーションや音声コンテンツを作る時は Gemini TTS を軸に考えれば十分です。まず1人読みか複数話者かを決め、次に低遅延重視か自然さ重視かを選ぶと候補が絞りやすくなります。
今作りたいのはどれ? — ボタンを押すと対応カードが光ります
おすすめ ✓
single-speaker
1人ナレーションを作りたい
説明動画、読み上げ、解説音声のように、原稿を正確に読ませたい時の基本形です。
向いている用途
動画ナレーション、読み上げ、解説音声、短い説明コンテンツ
おすすめの考え方
まず原稿を整え、voice を1つ選び、話し方だけ追加で指示する
最初の候補
低遅延で短く試すなら Flash TTS 系から入る
おすすめ ✓
multi-speaker
2人以上の掛け合い音声を作りたい
対談風、会話形式、Q&A 形式など、複数話者の役割がある音声に向く形です。
向いている用途
対談コンテンツ、インタビュー風音声、掛け合い説明、対話型台本
おすすめの考え方
話者名を固定し、誰が何を話すかが分かる台本にしてから生成する
最初の候補
multi-speaker でも Gemini TTS を起点に、speaker 名の揺れをなくす
おすすめ ✓
quality-first
自然さやコントロールを優先したい
長めの原稿や完成度重視のナレーションで、より自然な出力や微細な操縦しやすさを重視したい時の見方です。
向いている用途
品質重視のナレーション、ポッドキャスト風、完成度を詰めたい読み上げ
おすすめの考え方
まず短く方向を確認し、その後自然さや steerability 重視モデルへ寄せる
最初の候補
自然さなら 2.5 Pro TTS 系、低遅延なら 3.1 Flash TTS 系
fast routing
説明音声 → single
掛け合い → multi
低遅延試作 → Flash TTS
自然さ重視 → Pro TTS
important note
音声コンテンツでは、voice の印象より先に原稿の整い方と話者設計が仕上がりを左右しやすいです。

原稿が整っているか話者が整理されているか、用途に合った系統を選べているかが噛み合っていれば、説明音声でも掛け合いでもかなり作りやすくなります。先に形式を決め、そのあとに低遅延重視か自然さ重視かを分けて考えると、モデル選びも迷いにくくなります。

短い動画を作りたい人

短い動画を作る時は、秒数や画質から考え始めるより先に、まず起点を決めた方が流れが安定しやすくなります。テキストから世界観ごと作るのか、すでにある画像を動かすのか。さらに、まず方向確認をしたいのか、本命として見栄えまで詰めたいのかで、選ぶべきレーンはかなり変わります。

ここでは、短尺動画で迷いやすい分岐を先に整理して、どこから触ると進めやすいかをまとめました。

Use Cases / Short Video / Veo Model Selection
短い動画は、テキスト起点か画像起点か、試作か本命かで選び方が変わります
Veo 系の中でどれを選ぶかは、まず「ゼロから作るのか、既存の画像を動かすのか」で大きく分かれます。次に「試作スピード重視か、最終品質重視か」で絞れます。行をクリックして選択できます。
🎬
最初の分岐:テキストからゼロで作るか、既存の画像を動かすかで T2V / I2V に分かれます。その上でモデルを選ぶと迷いにくくなります。
目的
おすすめ
理由
短い訴求動画を何本も試したい
高速試作・方向確認・コスト最適
Veo 3.1 Lite
速さと効率に寄った構成で、大量試作やアイデア出しのコストを抑えやすい
本命の短尺動画を高品質で出したい
完成度・クオリティを最優先
Veo 3.1
高品質なシネマティック映像や複雑なシーン構成に向いており、完成品の品質を取りにいける
ゼロから世界観ごと作りたい
テキスト起点で場面から生成
T2V
参照画像なしでシーン・動き・カメラを丸ごとテキストから組み立てたい時に選ぶ
既存の画像やサムネをそのまま動かしたい
画像起点・見た目を固定して動かす
I2V
最初のフレームの見た目を固定しながら、そこから動きやカメラを加えて動画にする時に選ぶ
good defaults
長さまず 4秒か 6秒
比率縦 9:16 / 横 16:9
解像度1080p / 4K は 8秒前提
reference参照画像も 8秒前提
when in doubt
まず Lite で方向を確認してから本番へ
ゼロ作りは T2V、画像ありは I2V を先に考える
動きとカメラは別々に短く書いて確認する
reading tip
Veo では、まず Lite で試して方向を決め、本命だけ Veo 3.1 で高品質に詰めるという流れにすると、試行コストを抑えながら完成度を上げやすくなります。

この図表で大事なのは、短い動画では「何秒にするか」より先に、何を起点にして、どの完成度を目指すかを決める方が判断しやすいということです。

ラフを何本も回したいなら軽い側から入り、本命だけ高品質側で詰める。見た目を固定したいなら画像起点、ゼロから発想したいならテキスト起点。この順で考えるだけで、短尺動画の試行はかなり整理しやすくなります。

BGMや音楽素材を作りたい人

BGMや音楽素材を作りたい時は、「音楽生成」とひとまとめに考えるより、まずその音が制作物の中でどんな役割を持つのかを決めた方が選びやすくなります。短い動画の雰囲気確認に使うのか、数分のまとまった素材として使うのか、それとも再生中の変化そのものを活かしたいのかで、見るべきレーンは変わります。

ここでは、完成曲を作る発想ではなく、BGMや音素材としてどう使いたいかを基準に整理していきます。

Use Cases / BGM & Music / Lyria Model Selection
BGMや音楽素材は、長さ・構成・リアルタイム性で選び方が変わります
まずは「短い素材か、まとまった曲か」で Clip と Pro に分かれます。画像の雰囲気から作りたい場合も Lyria 系で対応できます。再生中に音を変化させたい場合は RealTime が別系統として存在します。行をクリックして選択できます。
🎵
最初の分岐:30秒の試作・ループ素材なら Clip、数分のまとまった音源なら Pro を先に見ると判断が早いです。
目的
おすすめ
理由
短いBGM素材をまず試したい
30秒・ループ・方向確認・試作優先
Lyria 3 Clip
30秒固定でコンパクトに試せるため、方向確認や素材量産に向いており試行コストを下げやすい
数分のまとまった音源を作りたい
Verse / Chorus / Bridge・完成曲志向
Lyria 3 Pro
数分規模の長さに対応しており、展開や構成を含めた曲として仕上げたい時に向いている
画像の空気感に合うBGMを作りたい
画像起点・雰囲気ベース生成
Lyria 3 系
テキストと画像を組み合わせて音楽の方向を寄せられるため、雰囲気重視のBGMづくりと相性が良い
再生中に音楽をリアルタイムで変化させたい
演奏的・継続変化・インタラクティブ
Lyria RealTime
完成曲を出す用途とは異なり、リアルタイムに演奏・変化が続く experimental な別系統として見る
best starting path
1
まず Clip で 30秒試作し、ジャンルと雰囲気の方向を確認する
2
方向が合えば Pro で長さと構成を広げて仕上げる
3
画像ベースで雰囲気を合わせたい場合は Lyria 系の image 入力を活用する
what to specify
ジャンル
使用楽器
BPM
ムード
vocals の有無
構成・長さ
[Verse] / [Chorus] タグ
fast routing
試作・ループ → Clip
完成曲 → Pro
雰囲気合わせ → 画像入力
リアルタイム変化 → RealTime
reading tip
Lyria では、まず Clip で方向を確認し、決まったら Pro で広げるが最短です。最初から長尺で詰めるより、短い試作でジャンルと雰囲気を固める方が安定します。

BGM用途では最初から長い音源を作り込むより、まず短く試して方向を当てる方が失敗しにくいです。

空気感や曲調の確認なら Clip、長さや構成まで含めた素材化なら Pro、リアルタイム変化を使いたいなら RealTime と分けて考えるだけで、選び方はかなり整理しやすくなります。特に動画やビジュアルに添える用途では、完成曲を一発で決めるより、素材として必要な長さと役割から逆算する方が実務では使いやすいです。

Google AI Studioのメディア生成に関するよくある質問

ここまで読むと、Generate Mediaで何ができるか、どのレーンを使い分けるか、料金をどう見るかまではかなり整理できてきます。一方で、最後に残りやすいのは「自分はいま何から試すべきか」「無料でどこまで見ればいいのか」「Paidにするならどの段階か」「止まった時は何を見るべきか」といった疑問です。

このFAQでは、本文の繰り返しではなく、読み終わったあとにまだ迷いやすいポイントだけをまとめて回収できるようにしています。

Google AI Studio / Generate Media / FAQ
Google AI Studio Generate Mediaで迷いやすいポイントをまとめて確認できるFAQ
無料でどこまで使えるのか、何から試すべきか、画像・音声・動画・音楽をどう選ぶか、Paidにする目安や生成できない時の見方まで、使い始める前後で迷いやすい点をまとめています。
first check
最初に確認したいのは、料金だけではなく何を作りたいかどの機能を使うかです。
this faq covers
無料範囲 / 選び分け / Paidの目安 / トラブル時の確認
recommended start
まずは作りたい出力を1つに絞って短く試す
key point
画像・音声・動画・音楽は別々に考える
paid timing
使いたいモデルや利用量が無料範囲を超える時
quick summary
まず出力物で選ぶ
最初は1レーンだけ試す
無料範囲と運用量を分けて考える
日本語は粒度が重要
止まったらエラー型を見る
what you can check here
このFAQでは、どれから始めるかどの機能を使うかPaidが必要か生成できない時に何を見るかをまとめて確認できます。Google AI Studio Generate Mediaを使う前後で迷った時の見直し用としても使いやすい内容です。

まとめ|Google AI Studioのメディア生成は目的に近い1レーンから始めればいい

Generate Mediaは、画像・音声・動画・音楽をまとめて触れる場所ですが、最初の一歩で全部を理解する必要はありません。大事なのは、今の目的に近い出力を1つ決め、そのレーンだけを短く試すことです。

必要になった時だけ隣のレーンへ広げる。この順番で進めると、Generate Mediaはかなり分かりやすく、使いやすくなります。

Google AI Studio / Generate Media / Final Summary
Generate Mediaは、目的に合う1レーンから始めれば十分です
Generate Mediaは1つの機能ではなく、画像・音声・動画・音楽の入口をまとめたエリアです。最初から全部を覚える必要はなく、今作りたい出力に近い1レーンから試すのがいちばん分かりやすいです。
final answer
まずは本命の1レーンだけを試し、必要が出た時だけ次のレーンへ広げる進め方で十分です。
01
Generate Mediaは制作入口です
AI Studioの中で、画像・音声・動画・音楽を試しやすくしたメディア生成エリアとして捉えると整理しやすくなります。
02
選ぶ基準は完成物です
モデル名から入るより、静止画・音声・動画・音楽のどれを作りたいかで選ぶ方が迷いません。
03
無料条件は横並びではありません
同じGenerate Media内でも、free / paid や Preview の前提はレーンごとに異なるため、個別に確認する必要があります。
04
最初は小さく試せば十分です
1レーンで短く試し、合わなければ隣へ移る進め方の方が、遠回りになりにくくなります。
best starting path
1
作りたい出力を決める
2
1レーンを選ぶ
3
短く試す
4
必要な時だけ広げる
🖼
画像
静止画の生成・編集を試す入口
🔊
Gemini TTS
読み上げや音声化を試す入口
🎬
Veo
短い映像表現を試す入口
🎵
Lyria
BGMや曲づくりを試す入口
final takeaway
Generate Mediaの近道は、全部を広く触ることではなく、今の目的に近い1レーンで試し、必要な時だけ広げることです。

引用元

Google AI Studio本体、料金、画像・音声・動画・音楽、トラブル、規約、対応地域まで、Generate Mediaを読み返す時に実際に役立つ一次情報だけをまとめました。

Google AI Studio / Generate Media / Official References
迷った時は、この13本の公式ページを見れば主要論点を確認できます
Google AI Studio本体、始め方、料金・課金、画像・音声・動画・音楽、モデル一覧、トラブル、規約、対応地域まで、Generate Mediaを理解するうえで確認しやすい公式ページだけをまとめています。
how to use
全部を読む必要はありません。気になった論点だけ、必要なページにすぐ飛べるようにするための引用元一覧です。
01
全体像と始め方
Google AI Studioとは何か、どこから入り、最初に何を見ればいいかを確認しやすい基本ページです。
core
01
Google AI Studio
Google AI Studio本体の公式入口です。Generate Mediaを含む全体像をつかむ起点になります。
公式ページを開く
quickstart
02
Google AI Studio quickstart
最初の見方や基本的な流れを確認したい時に役立つ公式ガイドです。
Quickstartを見る
02
料金と課金
無料で触れる範囲、有料で変わる条件、課金まわりの見方を確認する時に役立つページです。
pricing
03
Gemini Developer API pricing
各モデルの free / paid の違いや課金単位を確認する時の基準になるページです。
料金表を見る
billing
04
Billing
Paid tier、Spend caps、Welcome creditなど、課金設定まわりを確認したい時に役立つ公式ガイドです。
Billingを見る
03
画像・音声・動画・音楽
Generate Mediaの各機能を個別に確認したい時に見ておきたい一次情報です。
image
05
Nano Banana image generation
画像生成・画像編集・反復改善の考え方を確認したい時に役立つ公式ガイドです。
画像生成ガイドを見る
imagen
06
Generate images using Imagen
Imagen系の位置づけや、高忠実度な画像生成を確認したい時の公式ページです。
Imagenを見る
speech
07
Text-to-speech generation (TTS)
Gemini TTSのsingle / multi-speaker、voice、style指定を確認したい時の公式ガイドです。
TTSガイドを見る
video
08
Generate videos with Veo 3.1
Veo 3.1 / Lite、秒数、比率、音声付き動画の仕様を確認したい時に役立つ公式ガイドです。
Veoガイドを見る
music
09
Generate music with Lyria 3
Clip / Pro の違い、image-to-music、構成指定まで確認したい時の公式ガイドです。
Lyriaガイドを見る
models
10
Models
現行モデルをまとめて確認したい時に便利な最新のモデル一覧です。
モデル一覧を見る
04
トラブル・規約・対応地域
生成できない時の切り分けや、商用利用前の確認、アクセス可否の判断に役立つページです。
troubleshoot
11
Troubleshooting guide
429 / 500 / 503 など、生成できない・遅い時の切り分けに役立つ公式ガイドです。
トラブルシュートを見る
terms
12
Gemini API Additional Terms of Service
商用利用やPaid Serviceの扱いを確認したい時に見ておきたい規約ページです。
規約を見る
regions
13
Available regions for Google AI Studio and Gemini API
対応国・地域を確認したい時に役立つ公式ページです。アクセス可否の判断にも使えます。
対応地域を見る
reading tip
この13本があれば、この記事の主要論点はほぼ公式一次情報で確認できます。必要なページだけを見に行ける形にしておくと、あとから仕様や料金を確認したい時にも使いやすくなります

関連記事

ここから先は、Generate Mediaの次にどこを深掘りするかを選ぶパートです。全体像を広く見直したいのか、画像生成を深めたいのか、復旧や商用利用まで進みたいのかで、次に読む記事を分けて見ていくと迷いにくくなります。

Google AI Studio / Generate Media / Related Articles
次に読むなら、知りたいテーマに近い6本から選ぶのが分かりやすいです
Google AI Studio全体の理解、画像生成の深掘り、モデル理解、プロンプト改善、復旧、商用利用まで、Generate Mediaの次に読みやすい記事をまとめています。
how to read next
似た記事を順番に読むより、今の悩みに近いテーマから次の1本を選ぶ方が、必要な情報に早くたどり着きやすくなります。
AI Studio 全体
【2026年最新】Google AI Studio完全ガイド|使い方・料金・日本語化・Generate Media・Build・Vertex AIとの違い
Generate Mediaだけでなく、Google AI Studio全体の入口や基本操作、日本語化までまとめて把握したい人に向いています。
記事を見る
画像生成 深掘り
【2026最新版】Nano Banana 2 (Gemini画像生成) の使い方と実務プロンプト|文字入れ・無料・商用利用
Generate Mediaの画像生成をもっと深く使いたい人向けです。文字入れ、無料範囲、商用利用までつながります。
記事を見る
モデル理解
【2026年最新】Gemini 3.1 Pro完全ガイド|コピペで使えるプロンプト・料金・API・Flashとの違いを網羅
Generate Mediaの背景にあるGemini系モデルや料金感まで含めて、全体理解を深めたい人に向いています。
記事を見る
指示精度
Nano Banana Pro(Gemini 3)で「指示が通らない」を解決するプロンプト設計|S.C.O.R.E.-F完全攻略
生成はできるのに意図どおりにならない時に、画像生成の指示設計を深く見直したい人向けです。
記事を見る
復旧ガイド
Nano Banana Proが重い・遅い時の対処法決定版【原因4分類と最短復旧ガイド】
Generate Mediaで画像生成が重い、遅い、止まるといった悩みがある人を、そのまま復旧記事へつなげやすい1本です。
記事を見る
商用利用
【2026年版】Nano Banana Pro商用利用の落とし穴。「アイコン無しでもバレる」透かし(SynthID/C2PA)の検証と対策ガイド
商用利用やクライアントワークを考えている人向けです。透かし、来歴、開示まで踏み込んで確認できます。
記事を見る
next step
まずはGoogle AI Studio全体画像生成の深掘りから読み、必要に応じてモデル理解 / 指示精度 / 復旧 / 商用利用へ進むと、迷わず次の一歩を決めやすくなります。

最後までご覧いただきありがとうございました。

Operator Profile
RYUHEI
生成AI図解テンプレ設計者
図表とテンプレで、生成AIの使い方・比較・トラブル解決を「再現できる手順」に落とし込んで解説。
Grok/Gemini(Google AI Studio)中心。
海外の一次情報も確認し、手順に落として解説します。
Achievement 中国語(HSK6級)/ RED(小紅書)フォロワー10万人超 Search Console (12M) 10.9万 Click / 247万 Imp (CTR 4.4%) Search Console (3M) 3.66万 Click / 90.8万 Imp (CTR 4.0%) VISITOR 4.0万 (直近90日) ENGAGEMENT 2分56秒 (平均滞在) SOURCE Organic Search 92%
ブログをメールで購読

学べるブログの更新・重要アップデート(Grok/Gemini など)を、メールで受け取れます。無料。いつでも解除できます。更新時(週1〜2回目安)

実務ガイド

コメント

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む

学べるブログをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む