Google AI Studioの「Generate Media」について徹底解説しました。
この記事を読むことで、Generate Mediaで活用できるツールや操作方法について、わかりやすく理解することができます。100枚程度のスクショ+活用事例も満載で、初心者でも簡単に使いこなせるようになります。
Google AI Studioの機能について興味がある人、Generate Mediaを使いこなしてみたい人は、ぜひ最後までお読みください。
- ▶︎はじめに:Google AI Studioの使い方を学ぶ
- ▶︎まずは「便利な神機能5選」を活用する
- ▶︎Build apps with Geminiの使い方を学ぶ
- ▶︎Google AI Studioにアクセスする
- ▶︎Generate Mediaにアクセスする
- ▶︎Google AI Studioを日本語表記にして活用する
- ▶︎Generate Mediaで活用できる機能その1:Gemini image generationで指示通りの画像を生成
- ▶︎Generate Mediaで活用できる機能その2:Gemini speech generationで高品質な音声を生成(声質や感情を細かくカスタマイズできます)
- ▶︎Generate Mediaで活用できる機能その3:Imagenで超高解像度の画像を生成(精度の高さに驚きです)
- ▶︎Generate Mediaで活用できる機能その4:Veoで高品質な動画を短時間で生成(一部有料です)
- ▶︎Generate Mediaで活用できる機能その5:Lyria RealTimeで瞬時に音楽のアイデアを抽出
- ▶︎まとめ
▶︎はじめに:Google AI Studioの使い方を学ぶ
Google AI Studioを活用したことがない人は、以下の記事を読むことをおすすめします。この記事だけで、Google AI Studioはどんなツールなのか、どんなことができるのか、どう活用するのかを理解できます。
こちらの記事もわかりやすくまとめています。Generate Mediaで活用できるツールや機能を学ぶ前に、読んでみてください。
▶︎まずは「便利な神機能5選」を活用する
Google AI Studioには、本記事で共有するGenerate Mediaの他にも便利な機能が満載です。その中でも「特に便利だと感じた機能5選」を、以下の記事にまとめました。
「まだ使いこなせている段階ではないから、簡単に活用できる機能を知りたい」と考えている人に、上記の記事がおすすめです。
▶︎Build apps with Geminiの使い方を学ぶ
Generate Mediaとは別に、Google AI Studioで活用できる「素晴らしい機能」を共有します。その機能は「Build apps with Gemini」です。この機能を活用することで、「テキスト入力だけ」で自分が想像するアプリを作成することができます。操作方法については非常に簡単で、以下の記事を読むことですぐに使いこなせるようになります。
基本的な操作方法、テキストとテンプレートを使った具体的なアプリ作成手順、困った時の対処法、そして僕が作成した5つのアプリ(プロンプト付き)を共有しています。わかりやすくまとめました。
▶︎Google AI Studioにアクセスする
以下のリンクから、Google AI Studioにアクセスできます。
https://aistudio.google.com/app/prompts/new_chat
もちろん、アクセスするのも活用するのも無料です。高性能なツールが満載です。
▶︎Generate Mediaにアクセスする
リンクをクリックすると、以下のホーム画面が表示されます。

この画面の左サイドバーに表示されているGenerate Mediaをクリックします。

クリックすると、以下の画面が表示されます。Generate Mediaで活用できるツールの選択画面です。

以下の5つのツールを活用することができます。
✓活用できる5つのツール
・Gemini image generation
・Gemini speech generation
・Imagen
・Veo
・Lyria RealTime
次章以降で、これら5つのツールの機能や活用方法について共有していきます。
▶︎Google AI Studioを日本語表記にして活用する
上記の画像を見ていただくとわかりますが、 基本的にGoogle AI Studioは英語表記です。このままではわからなかったり、やりにくいです。
「英語だとスムーズに使えない・・・」「日本語で活用したい・・・」という人は、「▶︎Google AI Studioを日本語で活用する方法」から日本語表記にする方法を学べます。
▶︎Generate Mediaで活用できる機能その1:Gemini image generationで指示通りの画像を生成
では早速、Generate Mediaで活用できるツールについて共有していきます。
まず最初のツールはGemini image generationです。この機能を活用することで、精度の高い高品質な画像を「テキスト入力だけ」で生成することができます。自由自在に「想像」を画像に変換することが可能です。
活用する際、Gemini image generationをクリックします。

クリックすると、以下の画面が表示されます。

この画面から画像を作成していきます。
◼︎Gemini image generationの特徴
Gemini image generationの特徴について、簡単に共有します。
◻︎マルチモーダル対話で画像生成と編集ができる
画像生成専用のモデルだけで「テキスト+画像」の両方を理解してくれます。やり取りをしながら画像を修正することもできます。文脈を保持し、一貫性を落とさずに改良することも可能です。
◻︎テキストと画像を交互に出力する
画像生成とテキスト生成を同時に行い、「テキスト→画像→テキスト…」と1回の出力で作成できます。従来は複数のモデルを組み合わせる必要がありましたが、作業工程が短縮されました。
◻︎豊富な知識と高度な推論によるリアルな描写を実現
Geminiが持つ豊富な知識と推論能力を活用し、レシピや専門的コンテンツなど「何を描くべきか」を的確に理解して、リアルかつ文脈に即した画像を生成してくれます。
◻︎高い精度で長文テキストを生成
多くの画像モデルが苦手とする長いテキスト(広告のキャッチコピーや招待状の文字など)を、誤字や文字切れなく生成することができます。(画像の質は出力のたびに変化します)
◻︎画像のアップロードも可能
テキストだけでなく画像をアップロードしても問題ありません。手持ちの写真を加工したり、イメージをもとに別アングルの画像を生成することも可能です。
◻︎自動でSynthIDウォーターマークが表示
生成されるすべての画像には独自の SynthIDウォーターマークが自動で表示されます。

「どこで作成した画像なのか」が明確になるため、プライバシーを守りながら責任を持って活用することができます。
◼︎Gemini image generationで活用できるトークン数
2025年6月上旬の時点で、活用できるトークン数は32,768トークンになります。そこまで多くのやり取りができるわけではないですが、普段活用するには十分なトークン数です。
なおトークン数は、以下のToken countから確認することができます。

モデルを活用していない場合、トークン数は「0」となっています。活用すると、その度にトークンが加算されていきます。上限を超えなければ、画像を生成し続けることが可能です。
◼︎温度(Temperature)を変更する
温度を変更する際、Temperatureのバーを操作します。

とは言っても、「温度って何?」と思う人がいるかもしれません。次の節で、温度についてわかりやすくまとめました。
◻︎温度って何?
温度(Temperature)とは、生成時の「ばらつき」を制御するためのパラメータを指します。
Gemini image generationで画像を生成する際、この温度を変更することができます。
温度が0に近いほど、出力される画像がほぼ同じものになります。その反面、多様性がなくなりなす。「ごく一般的なもの」が出力されます。
また温度が高いほど、バリエーション豊かな画像が生成できます。好奇心をくすぐるような、オリジナリティのある画像を生成したい場合は、温度を高く設定します。しかし温度が高すぎると、画像の構造が崩れてしまう恐れがあります。出力画像の「ノイズ」が目立ってしまう可能性が高いです。
◻︎おすすめの温度
では一体、温度はどのように設定していけばいいのでしょうか。ここでは、シチュエーションごとのおすすめの温度について簡単に共有します。
✓おすすめの温度
・同じ画像が欲しい時(ロゴ、UI、イラストなど)
→ 温度0.0
・ほんの少しだけバリエーションを追加したい時
→温度0.1〜0.2
・イラストやキャラクターなどの構図を少し変えたい時
→温度0.3〜0.7
・抽象画や幻想的な風景の生成、意外性が欲しい時
→温度0.8〜1.0
・研究的に活用したい場合、アート素材にしたい場合
→温度1.1〜1.5
・予測不可能な画像を生成したい時
→温度1.6〜2.0
複数の温度を設定して、実験的に活用することで、使いこなすことができそうです。生成したい画像を短時間で生成できるようになります。
◼︎テキストを入力して画像を生成する
設定が完了したら画像を生成していきます。プロンプトは、テキスト欄に入力していきます。

プロンプトを入力したら、Runをクリックします。

入力することで、プロンプトの内容に即した画像を生成することができます。使い方は非常に簡単です。
この節では「どんな画像が生成できるのか」、「どれくらいの精度なのか」を理解してもらうために、いくつかの画像を生成していこうと思います。
◻︎通常の画像を生成する
まず最初に、プロンプトだけで画像を生成していきます。
その際、以下のプロンプトを入力しました。
✓プロンプト(指示文)
フリードリヒ・ニーチェの「意志の力」を象徴する渦巻きと絡み合う形状、「永劫回帰」を示す無限ループ、光と影の対比で「超人」への苦闘を表現し、「神の死」を暗示する断片化したフォルムを取り入れ、燃えるような赤と深いインディゴのグラデーションで存在の激烈さを表し、人間のシルエットが抽象幾何学に溶け込む構成で、「永続的生成」の感覚を感じさせる抽象画を生成してください。

Runをクリック後、以下の画像が出力されました。


ニーチェの思想を抽象画としたこともあり、力強さと共に、悲観的な要素も感じ取れる抽象画となりました。このような画像を見つけ出すことはできないですし、なかなか思いつくものでもありません。
なお画像に関しては、出力のたびに変化します。同じプロンプトでも毎回違った画像が出力されます。その対策として「おすすめの温度設定」でも共有したように、温度を低くすることで、同じような画像が生成されやすくなります。
◻︎画像とテキストを繰り返して出力する
画像とテキストを繰り返して生成することもできます。これに関しては、競合の生成AIモデルではできません。Gemini image generationのみでできる出力になります。
☑︎このように出力されます
その際、プロンプト入力の仕方を少しだけ工夫します。単純に「〜の画像を生成してください」だと、画像とテキストを繰り返して出力してくれる確率が低いです。高い確率で出力してもらうために「具体的な数字」を入力します。
例えば以下のようなプロンプトを入力することで、画像とテキストを繰り返して出力することが可能です。
✓プロンプト(指示文)
主人公が成長し竜を倒すまでの物語を「5つの画像と共に」出力してください。その際、映画のようなリアリティのある画像となるようにしてください。

Runをクリック後、以下のように画像が出力されていきます。
☑︎出力されたテキストと画像
出力された画像とテキストはこちらになります。










少し物語が飛躍してしまっているのと「映画のようなリアリティのある画像」にもなっていません。しかしこのような問題に関してはプロンプト入力の仕方で調整できます。
ここで見て頂きたいのが、「出力のされ方」です。「5つの画像と共に」というテキストを入力したことで、テキストと画像を交互に出力してくれました。
このように1回の出力で複数の画像が出力されると、何回も出力する手間が省けます。効率よく画像生成ができます。また、会話の流れの中に画像を自然に挿入することができるので、「テキストだけでは達成できない」深い理解を促進することにもつながります。
☑︎注意点(1回の出力で多くの画像を出力するとうまく出力できません)
活用してみて感じた注意点を共有します。結論からお伝えすると、1回の出力でたくさんの画像を出力すると、テキストがうまく出力できなくなります。上記のプロンプトの「数字の部分」を変えて、以下のプロンプトで検証してみようと思います。「5つ」を「10」に変更しました。
途中で出力がブロックされる
こちらのプロンプトになります。
✓プロンプト(指示文)
主人公が成長し竜を倒すまでの物語を「10の画像と共に」出力してください。その際、映画のようなリアリティのある画像となるようにしてください。

Runをクリックして出力が開始すると以下のようなテキストが表示され、途中で止まってしまうことがあります。

僕の場合、かなり高確率でこのような表示がされ、出力が止まってしまいました。これは、出力する画像が少ない時には起きなかったことです。
テキストに複数の言語が混在する
他のプロンプトでも「出力画像を多めに設定して」試してみました。以下のプロンプトになります。
✓プロンプト(指示文)
勇者が成長し竜を倒すレトロゲームの物語をテキストと10の画像と共に生成してください。

Runをクリック後、以下のテキストと画像が出力されました。




















出力画像内のテキストが正確に出力されていなかったり、精度そのものも決して高くありません。しかし、それよりも注目すべきは「出力テキスト」です。
画像出力が後半になるつれて、出力テキストに複数の言語が混ざってしまっています。

このように複数の言語が混ざって出力されると何が書かれているのか理解できませんし、実用的でもありません「トークン数の上限以内なら」複数の画像を同時に出力できますが、上記のような出力ミスをなくすなら、一度に5枚程度が無難だと思います。
一度に10枚の画像を出力しても・・・
もちろん、失敗ばかりではありません。
一度に10枚の画像を出力しても、ミスなく出力されることがあります。
以下がその例になります。活用したプロンプトは、出力が途中でブロックされた時と同じものです。
✓プロンプト(指示文)
主人公が成長し竜を倒すまでの物語を「10の画像と共に」出力してください。その際、映画のようなリアリティのある画像となるようにしてください。

Runをクリック後、以下のテキストと画像が出力されました。




















最後は竜の画像が続いているものの、出力テキスト自体に目立ったミスは見当たりません。同じプロンプトを活用しても、このように出力される画像や精度そのものが変化します。
◻︎「文字」を生成する
全ての画像生成AIに共通して言えることですが、文字の出力が苦手です。しかしGemini image generationでは、複数行や装飾フォントでも、判読できるレベルまで精度が上がりました。
ロゴやポスターなどの「テキスト入りデザイン」を作成することが可能です。自分でゼロから作成する必要がなくなるかもしれません。
試しに以下のプロンプトを入力して検証してみようと思います。
✓プロンプト(指示文)
白ベース。左上にブランドロゴ。中央に「SPRING SALE」、下部に「4/1–4/30」。サンセリフ、余白広め。

おすすめの温度設定でも共有したように、温度は低めに設定します。

Runをクリック後、以下の画像が出力されました。

もちろん修正箇所はありますが、テキストの形状に大きな違和感を感じる箇所はありません。英語の「SPLING SALE」に関しては完全に正しく出力されています。ブランドロゴも考えて出力してくれました。
このように、プロンプトの内容をロゴやポスターとして可視化することができます。
◼︎画像とプロンプトで生成する
テキストと画像を用いて、新しい画像を生成することもできます。
◻︎画像の一部を変更する
Gemini image generationなら、アップロードした画像の一部を変更することができます。
ここでは、以下の画像の一部を変更してみようと思います。

まず最初に、プラスマークをクリックします。

次に、Upload Fileをクリックします。

次に、アップロードしたい画像を選択します。

次に、変更したい箇所についてのプロンプトを入力します。以下のように入力しました。
✓プロンプト(指示文)
この画像のロボットの目の形を星形にしてください。

Runをクリック後、以下の画像が出力されました。

元の画像がほとんど変わらないまま、目だけが星になりました。この精度の高さは「すごい」に尽きます。一部だけをこの制度で変化させられる画像生成AIはなかなかありません。
もちろん、他の部分を変更することも可能です。例えば以下のようなプロンプトを用いて、一部だけを変更していきます。
✓プロンプト(指示文)
Google Home Miniを空飛ぶドローン風に描いて、ロボの肩にホバリングさせてください。

Runをクリック後、以下の画像が出力されました。

このように、他のものを追加しても元の画像はほぼ変化しません。違和感なくドローンが追加されました。変更したい部分や追加したいものに関するテキストを入力することで、簡単に生成することができます。
◻︎「スクショされた文字の画像」を活用して生成するとどうなるか
次に、ある文章を「スクショ」して、そこに含まれる文字がどのように出力されるかを見ていきます。その際、以下のスクショした画像をアップロードしていきます。


次に、テキスト欄に以下のプロンプトを入力します。
✓プロンプト(指示文)
このスクショに表示されているテキストをそのまま生成してください。文字の生成ミスがないようにお願いします。

Runをクリック後、以下の画像が生成されました。



ここでは3回出力してみましたが、スクショ内の文字を正確に生成することはできませんでした。なんとなく雰囲気として「スクショのテキストが生成されている」感じはありますが、読むことはできません。しかも、なぜか同じテキストを繰り返して生成しています。
先ほど生成した「ポスター」のようなものでは、ほとんど正確に出力してくれました。今のところ、テキスト量が少なくはっきりしているものしか正確に出力できないようです。
▶︎Generate Mediaで活用できる機能その2:Gemini speech generationで高品質な音声を生成(声質や感情を細かくカスタマイズできます)
2つ目のツールはGemini speech generationです。
Gemini speech generationを活用することで、高品質な音声を簡単に作成することができます。声質や感情まで、細かくカスタマイズすることが可能です。
活用する際、Gemini speech generationをクリックします。

クリックすると、以下の画面が表示されます。

この画面から音声を作成していきます。
◼︎Gemini speech generationの特徴
Gemini speech generationの特徴について簡単に共有します。
◻︎自然で滑らかな発音
人間に近い抑揚やイントネーションで、 AIが作った音声とは思えないクオリティで生成できます。
◻︎プロンプトで音声スタイルを簡単に変更できる
プロンプトに「明るく」、「ゆっくり」、「英語アクセントで」などと指示をするだけで、トーン、話すスピード、アクセントなどを細かく調整できます。
◻︎マルチスピーカー対応
最大2名までの会話形式の音声が生成可能です。それぞれに異なる音声の割り当てもでき、対話コンテンツやドラマ仕立ての朗読も簡単に作成できます。
◻︎プレビュー段階の最新モデル
2025年6月上旬の時点で、Gemini speech generationの音声生成モデルは試験版となっています。正式リリース後は、さらに対応言語が拡充され、精度も高まる予定です。
◼︎活用するモデルを選択する
モデルはRun setingsから選択できます。

クリックすると活用できるモデルが表示されます。2025年6月の時点で、Gemini speech generationでは以下のモデルを活用できます。
✓活用できるモデル
・Gemini 2.5 Flash Preview TTS←NEW
・Gemini 2.5 Pro Preview TTS←NEW

高品質な音声を作成するならGemini 2.5 Pro Preview TTS、効率よくスピーディーに作成するならGemini 2.5 Flash Preview TTSがおすすめです。
なおこの章では、Gemini 2.5 Pro Preview TTSで作成したものを共有しています。
◼︎入力トークンの上限は?
Gemini 2.5 Pro Preview TTSとGemini 2.5 Flash Preview TTSの「入力できるトークンの上限」は、それぞれ8,000トークンです。スクリプト(台本)を入力する際、日本語なら約8,000字まで入力することが可能です。
◼︎話者の人数を設定する
話者の人数を設定することができます。その際、Mode欄から設定していきます。

話者は「1人」か「2人」のうち、どちらかを選択することができます。
1人の話者に会話をしてもらいたい場合は、Single-speaker audioをクリックします。

2人の話者に会話をしてもらいたい場合は、Multi-speaker audioをクリックします。

話者の人数によって、音声の作成方法が変化します。しかしどちらの場合でも、作成するのは難しくありません。
◼︎温度を設定する
☐設定方法
Gemini speech generationで温度設定をする際、まず最初にModel settingsをクリックします。

クリックすると、温度(Temperature)を変更できるバーが表示されます。ここで、温度の調整をしていきます。

☐おすすめの温度(音声の例も共有しています)
温度設定をする際、以下を目安にして設定し、音声を作成するようにしましょう。「温度の変化で同じ会話がどう変化するのか」がわかるように、音声の例も共有しています。
✓温度の目安
・ニュース読み上げ、社内ナレーション
→温度0〜0.3(抑揚が単調になりがち)
・チュートリアル動画、企業プレゼン、自然会話ボイス
→温度0.4〜0.7(おすすめ、長尺でも破綻しにくいが、感情表現は控えめ)
・物語朗読、ポッドキャストのキャラクターボイス
→0.8〜1.2(シーンによってはテンション過多になる)
・詩の朗読、ゲーム NPC、子ども向けコンテンツ
→1.3〜1.7(文脈飛びや発音揺れが増える)
・実験的プロジェクト、プロンプト探索
→1.8〜2.0(意味脱落、速度乱れ、ハミング等のノイズが出やすい)
次の節からは「1人の話者」と「2人の話者」で音声を作成する方法を共有していきます。
◼︎1人の話者で音声を作成する
1人の話者で音声を作成する方法を共有していきます。先述したように、Single-speaker audioをクリックします。

1人の話者で音声を作成する場合、非常にシンプルな設定で作成が完了します。使い慣れていない人にとってはこちらの方が作成しやすいです。
◻︎話者の声を選択する
温度設定の目安を参考にして温度を設定した後、話者の設定をします。その際、Voice欄の項目をクリックします。

クリックすると、話者の声を選択できるようになります。話者の声のバリエーションが豊富で、30の中から選択することができます。それぞれの声に特徴があり、どれを活用しても高品質な音声が作成できます。

◻︎スクリプト(台本)を入力する
次に、スクリプトを入力していきます。「ここで入力したスクリプトを選択した話者が読み上げる」形で、音声が作成されます。
なおGemini speech generationは50以上の言語、方言に対応しています。日本語でスクリプトを入力すれば、自動的に日本語の音声が作成されます。英語で入力すれば英語の音声となり、中国語で入力すれば中国語の音声となります。
スクリプトは以下の入力欄に入力していきます。

「入力トークンの上限は?」でも共有したように、入力できる字数の上限は約8,000字となっています。
ここでは、以下のスクリプトを入力しました。




◻︎生成された音声を確認する(1人の話者が会話をします)
Runをクリック後、以下の音声が作成されました。
6分34秒の音声が作成されました。作成されるまでにかかった時間は、約5分です。作成している際、他のページに飛んで閲覧しても問題ありません。時間が経てば勝手に作成が完了します。
イヤホンで音声を視聴すると、より音質の良さを理解することができます。話者の息遣いも感じ取ることができ、ワンクリックで生成した音声だとは到底思えません。もちろん若干の言い間違いはありますが、問題なく視聴することができます。使いやすさではNotebookLMに劣るものの、NotebookLMの音声よりも高品質な音声が作成できるように感じました。作成できる話者のバリエーションも豊富です。
◼︎2人の話者で音声を作成する
2人の話者で音声を作成する方法を共有していきます。先述したように、Multi-speaker audioをクリックします。

実際に2人で会話をしているかのような、高品質な音声を作成できます。想像以上に高品質だったので、最初は驚きました。
◻︎話者の名前を入力する
温度設定の目安を参考にして温度を設定した後、それぞれの話者の名前を入力します。その際、Voice settingsのSpeaker 1 settingsとSpeaker 2 settingsに表示されているName欄をクリックします。

クリックすることで、テキスト入力できるようになります。名前は作成される音声の質には影響を与えないため、自由に入力して問題ありません。活用したい名前を入力します。
◻︎話者の声を選択する
次に話者の声を選択します。その際、Speak 1とSpeaker 2のVoice欄をクリックします。

1人の話者で音声を作成するのと同じように、話者の声は30の中から選択することができます。
◻︎スクリプトを作成する方法①:Script builderで会話を組み立てる
2人の話者で音声を作成する際、スクリプトを入力する方法が2つあります。ひとつはScript builderから入力を進めていく方法、そしてもうひとつはRaw structureから入力する方法です。
まず最初にこの節では、Script builderからスクリプトを作成する方法を共有します。その際、以下の項目の入力を進めていきます。今この時点では、左側の項目は見なくて問題ありません。

Script builderから作成を進めていくと、作成するのに若干時間がかかるものの、より正確な2人の会話の音声を作成できます。
☑︎Style instructionsに会話全体のスタイルを入力する
スタイルインストラクションを入力していきます。まず最初に、Style instructionsに元々入力されているテキストを全て削除します。

次に、用意したスタイルインストラクションのテキストを入力していきます。ここでは以下のテキストを入力しました。


スタイルインストラクションでは、会話のトーン、速さ、ニュアンス、シチュエーションなどを具体的に入力していきます。具体的に入力するほど、聞き応えのある音声が作成されやすくなります。
なおScript builder側に入力することで、Raw structure側にも反映されます。僕が入力したわけではありません。

☑︎Add dialogをクリックしてスクリプト(台本)を入力する
次にスクリプトを入力していきます。ここでは、以下のスクリプトを活用していきます。



入力する際、まず最初にAdd dilogをクリックします。

クリックすると、Speaker 1のスクリプト入力欄が表示されます。

ここにSpeaker 1(ここではグレゴリー)の最初のスクリプトを入力します。

入力後、Add dialogをクリックします。

クリックすると、次はSpeaker 2のスクリプト入力欄が表示されます。

ここに、Speaker 2(ここではゴンザレス)の最初のスクリプトを入力しましょう。

入力後、Add dialogをクリックします。

クリックすると、Speaker 1のスクリプト入力欄が表示されます。

このように交互にスクリプト入力を進めていき、ひとつのスクリプトが完成させていきます。
◻︎スクリプトを作成する方法②:Raw structureでまとめて作成する
Script builderから作成するのが面倒な場合は、Raw structureから作成するのが便利です。この項目から作成すると、スクリプトをまとめて入力することができます。
Raw structureの欄でスクリプトを作成する際、以下の項目に入力していきます。

まず最初にスタイルインストラクションを入力していきます。Script builderで入力した時と同じものを入力していきます。テキスト入力欄に、入力しましょう。

Raw structure側に入力しても、自動的にStyle Instructionsに反映されます。僕自身は入力していません。
次に、入力したスタイルインストラクションの下に「グレゴリーとゴンザレスのスクリプト」をまとめて入力します。スクリプトに関しても、Script builderで入力した時と同じものを入力しました。

これだけで入力完了です。
◻︎生成された音声を確認する(2人の話者で会話をします)
スタイルインストラクションとスクリプトを入力後、Runをクリックして音声を作成していきます。

クリック後、以下の音声が生成されました。
7分52秒の音声が作成されました。作成されるまでにかかった時間は5分半程度です。スタイルインストラクションで入力した内容がしっかり反映されているように感じます。音声も、2人で対話をしているような音声に仕上がりました。
また出力の直前まで以下の注意事項が表示されていましたが、僕の場合は問題なく生成することができました。

1人の話者で作成された音声と同様、小さなミスはあるものの、非常に高品質な素晴らしい抑揚のある音声が作成できたと思います。無料で活用できてしまうのに驚きです。
◼︎音声の速度を変更する
音声の速度を変更する際、以下の︙をクリックします。

次に、再生速度をクリックします。

クリックすると、音声速度を選択する項目が表示されます。試してみたい音声速度をクリックしましょう。0.25倍から2倍まで選択することが可能です。

◼︎作成した音声をダウンロードする
作成した音声をダウンロードする際、以下の︙をクリックします。音声速度を変更する時と同じです。

次に、ダウンロードをクリックします。

クリック直後にダウンロードが完了します。ダウンロードをするのに、一切時間はかかりません。
◼︎補足:NotebookLMに関する記事を紹介
同じくGoogleが提供する音声作成ツールとして、NotebookLMがあります。このツールはウェブやYouTube、テキストの情報をソース(情報源)としてまとめ、チャットをしたり音声を作成することができます。以下はウェブ版とスマホアプリ版の使い方をマスターできる記事です。
関連ツールとして、興味のある人はお読みください。使い勝手に関しては、こちらの方が優れています。
▶︎Generate Mediaで活用できる機能その3:Imagenで超高解像度の画像を生成(精度の高さに驚きです)
3つ目のツールはImagenです。
Imagenを活用することで、超高解像度の美しい画像を簡単に生成することができます。競合と比較しても、生成される画像の「精度の高さ」は群を抜いています。芸術的かつ写真のような画像を生成することが得意で、画像の大きさや出力枚数を事前に設定可能です。
活用する際、Imagenをクリックします。

クリックすると、以下の画面が表示されます。

この画面から画像を生成していきます。
◼︎Imagenの特徴
Imagenの特徴について簡単に共有します。
◻︎高解像度かつ高品質な画像生成
きめ細かいディテールと自然なライティングで、プロ顔負けのクオリティの画像を生成できます。
◻︎マルチアスペクト比対応
画像を生成する際、同じプロンプトを使って、「正方形」、「横長」、「縦長」などの大きさに変更することができます。
◻︎多彩なスタイルの画像が生成可能
リアルな写真風の画像から、アート、イラスト風まで、幅広いテイストの表現をテキストだけで直感的に切り変えることができます。
◻︎プロンプトの理解力が高い
細かい単語やニュアンス(色、質感、構図など)を忠実に反映し、思い描いたイメージを高い精度で形にできます。
◼︎活用できるモデルは1種類
2025年6月上旬の時点で、Imagenの中で活用できるモデルは以下の1種類のみです。
✓活用できるモデル
・Imagen 3.0 002 model
モデル欄をクリックして確認できます。

◼︎アスペクト比(画像の大きさ)を設定する
Imagenでは画像の大きさを設定することができます。その際、Aspect ratioから設定していきます。

変更できるアスペクト比を以下にまとめました。
✓Google AI StudioのImagenで変更できる画像のアスペクト比
・1:1
・9:16
・16:9
・4:3
・3:4
作成したい画像の大きさに合うアスペクト比をクリックして選択するだけです。それだけで、生成時に指定したアスペクト比の画像が出力されます。
競合の生成AIモデルではアスペクト比を「プロンプト」の中に組み込んで「指示をして」画像の大きさを変更することが多いです。しかしGoogle AI StudioのImagenでは、画像の生成をする前から「画像の大きさ」を設定できるので、非常に便利な機能だと感じました。
普通にある機能のようで、実際はあまりない便利な機能です。
◼︎生成する画像の枚数を設定する
生成する画像の枚数を事前に設定することもできます。その際、Number of resultsのバーを操作して設定していきます。

1〜4枚の中で設定することが可能です。設定した数に合わせて画像が出力されます。この機能も競合にはあまり備わっていません。基本的に2枚出力されるか、1枚だけか、もしくはランダムに出力されるケースが多いです。
すごく便利だなと感じました。
◼︎プロンプトを入力して画像を生成する
実際に、画像を生成していきます。
◻︎「アスペクト比」と「生成される画像の枚数」を設定する
ここでは、アスペクト比を「4:3」、生成される画像の枚数を「3」に設定しました。

◻︎プロンプトを入力する
画像の大きさと画像の枚数の設定が完了したら、次はプロンプトを入力です。ここでは以下のプロンプトを入力して画像を生成します。
✓プロンプト(指示文)
High-detail product photo of a vintage wristwatch on a marble surface, studio lighting(大理石の上に置いたヴィンテージ腕時計の高精細商品写真、スタジオライティング)
英語のプロンプトを入力していきます。

◻︎画像を生成する
Runをクリックして画像を生成します。

クリック後、以下のように出力されました。




生成するのにかかった時間は10秒程度でした。非常に短時間で生成されたにも関わらず、高品質な画像が出力されました。この画像が生成AIであっという間に出力されたとは思えません。カメラで撮ったかのようなクオリティです。細かく見れば文字の歪みはあるものの、そもそもの品質が高いため、あまり気になりません。
個人的には、ChatGPTで出力する画像よりも高い品質の画像が出力されたように思います。Grokとは同等か、それ以上の品質だと思いました。
なお生成された画像は履歴に保存されないので、保存しておきたい画像はダウンロードしておきましょう。この章の後半で、ダウンロードする方法について共有しています。
◼︎Imagenで画像を生成する際の注意点
僕が英語のプロンプトを活用したのには理由があります。日本語のプロンプトで画像を生成しようとすると、誤認知をして全く関係のない画像が生成されるからです。今後アップデートされていくとは思いますが、2025年6月の時点では日本語では正しく出力されませんでした。
実際に、日本語との英語の同じ意味のプロンプトを入力していきます。意味は全く同じで、英語か日本語かの違いだけです。
✓プロンプト(指示文)
・日本語:透明な海中ピアノを弾く少年、光の粒子が舞う
・英語:Boy playing a transparent piano under the sea, surrounded by dancing light particles
◻︎日本語のプロンプトで画像を出力
まず最初は日本語です。
テキスト入力欄に日本語のプロンプトを入力します。

Runをクリック後、以下の画像が生成されました。



画像自体は非常に綺麗ですが、求めている画像ではありません。
◻︎英語のプロンプトで画像を出力
次に英語にしてプロンプトを入力していきます。

Runをクリックした後、以下の画像が出力されました。



同じ意味のプロンプトですが、日本語では正確に出力されませんでした。複数回実施しても、結果は同じです。正確に生成するためにも、英語のプロンプトを用いるようにしましょう。英語にする際は、Google AI StudioのGeminiを活用すると簡単に変更できます。
☐補足:無料で生成できる画像の枚数は「1日30枚程度」(具体的な枚数については明示されていません)
Imagenで画像を生成する際、生成できる画像の枚数に制限があります。具体的な枚数は明示されていないものの、僕が活用した際は1日30枚程度でした。それ以降は活用できなくなりました。しかし次の日には上限がリセットされ、再び生成できるようになります。
普通に活用する分には、1日30枚でも全く問題ありません。実質、完全に無料で活用することができます。
◼︎生成した画像をダウンロードする
生成した画像をダウンロードする際、「ダウンロードしたい画像」にカーソルを合わせた後、表示された以下のマークをクリックします。

クリック直後、フォルダにダウンロードされます。ダウンロード方法も非常に簡単で、さまざまな媒体で使用することができます。
◼︎僕が生成した画像を共有(プロンプトも掲載しました)
この章の最後に、Imagenで生成した画像をいくつか共有します。生成した際に活用したプロンプトも合わせて共有しています。Google AI StudioのImagenを活用する際の参考にしてください。
なお同じプロンプトを活用しても、生成のたびに出力画像は変化します。
◻︎ガラスの森の夜明け
✓活用したプロンプト
Ultra-realistic photograph of a misty forest where every tree is made of translucent glass, dawn light refracting through the branches.(夜明けの霧が漂う森で、木々がすべて半透明のガラスでできている写実的写真。枝を通して差し込む光が屈折している。)


◻︎ネオン潮の引き際
✓活用したプロンプト
Cinematic coastal shot of bioluminescent waves receding at twilight, casting neon-blue reflections on smooth black sand.(黄昏時、引き潮となった海岸で波が青く発光し、滑らかな黒い砂浜にネオンブルーの反射を落とす映画的ショット。)


◻︎天空鏡の氷洞
✓活用したプロンプト
Wide-angle interior photo of an ice cave whose ceiling perfectly mirrors a clear daytime sky, with hikers exploring below.(氷の洞窟内部を広角で撮影。天井が澄んだ昼空を完全に映し出し、その下を探検するハイカーを捉えた写真。)


◻︎屋上田んぼシティ
✓活用したプロンプト
Aerial photo of a skyscraper rooftop transformed into lush rice terraces, city skyline in soft morning haze.(朝靄に包まれた都市のスカイラインを背景に、高層ビルの屋上が緑豊かな棚田へと変わった空撮写真。)


◻︎灯籠川バレエ
✓活用したプロンプト
Long-exposure river scene featuring hundreds of floating paper lanterns and a solitary ballet dancer performing on a glass platform.(川面を流れる数百の灯籠と、ガラスの舞台で踊るバレエダンサーを長時間露光で収めた写実的シーン。)


◻︎地下鉄ホログラム鯉
✓活用したプロンプト
Documentary-style shot inside a modern subway car where holographic koi fish swim gracefully around standing passengers.(最新の地下鉄車両内をドキュメンタリー風に撮影し、立つ乗客の周囲をホログラムの鯉が優雅に泳ぎ回る。)


◻︎ソーラーバルーン行進
✓活用したプロンプト
High-detail telephoto capture of solar-powered translucent hot-air balloons drifting across a desert at golden hour.(黄金色の夕陽の中、砂漠を横切る半透明ソーラーバルーンを望遠で高精細に捉えた写真。)


◻︎雨映えの石造書庫
✓活用したプロンプト
Moody street-level photo of an ancient stone library façade illuminated only by reflections from rain-soaked cobblestones.(雨で濡れた石畳の反射光だけで照らされる古代石造図書館の外壁を情緒的に撮影したストリートショット。)


◻︎茶畑の宇宙飛行士
✓活用したプロンプト
Sharp midday portrait of an astronaut standing amid rolling green tea fields, visor reflecting scattered clouds.(一面の緑茶畑に立つ宇宙飛行士を真昼の光で鮮明に撮影し、ヘルメットのバイザーに雲が映り込む。)


◻︎量子ドット遊び場
✓活用したプロンプト
Ultra-realistic nighttime shot of children playing hopscotch on a city plaza where each square glows with quantum-dot lights.(量子ドット照明で光るマス目の上で子どもたちがケンケンパ遊びをする都会の広場を夜間に写実的に撮影。)


◼︎Imagen 4が使えるようになりました
朗報です。2025年6月24日に、Generate MediaのImagenでもImagen 4モデルが活用できるようになりました。Imagen 3でも十分精度は高いですが、さらに高画質で美しい画像を生成できるようになりました。
☐活用方法
活用する際、Run settingsのモデル欄をクリックします。

クリック後、活用できるモデルが表示されます。Imagen 4モデルを選択することで、活用できます。

活用できるImagen 4モデルは以下の通りです。
✓活用できるImagen 4モデル
・Imagen 4 (Preview)←NEW
・Imagen 4 Ultra (Preview)←NEW
2025年7月上旬の時点で、「プレビュー版」として活用できます。これからさらに進化していく可能性の高いモデルです。
☐注意点
ひとつだけ注意点です。従来のImagen 3.0 002モデルでは、「4枚まで」同時に画像を生成できましたが、Imagen 4モデルでは1枚の画像しか生成することができません。

複数の画像を生成したい場合は、繰り返し生成する必要があります。
Imagen 3.0 002モデルのように、手軽に複数の画像を生成したり、生成された画像を比較することはできません。とは言っても精度の高さは申し分ないので、活用することをおすすめします。
▶︎Generate Mediaで活用できる機能その4:Veoで高品質な動画を短時間で生成(一部有料です)
4つ目のツールはVeoです。
Veoを活用することで、「テキストから」高品質な動画を短時間で生成することができます。プロンプトに含めることで「細かい表現」も正確に反映してくれます。また、静止画を動画に変換することもでき「この画像の中のキャラクターが動くとどうなるんだろう」という疑問も解決できます。
活用する際、Veoをクリックします。

クリック後、以下の画面が表示されます。

この画面から、動画を作成していきます。
◼︎Veoの特徴
Veoの特徴について簡単に共有します。
◻︎テキスト、画像プロンプトに対応
自然言語のテキストはもちろん、画像プロンプトを入力として受け取り、高品質かつリアルな動画を生成できます
◻︎カメラワークや演出を細かく調整可能
「フェード」、「ズームイン」などのカメラワークや演出をテキストで指示し、高品質な動画を短時間で生成できます。
◻︎マルチアスペクト比に対応
横長、縦長などの活用する媒体に応じて動画の大きさを調整することができます。
◻︎ループ&短尺動画を瞬時に生成
5~8秒のループ動画を自動で作成し、SNSやウェブ広告用の素材を短時間で生成できます。
◻︎「映したくないもの」を指定できる
ネガティブプロンプト欄にテキストを入力することで、「映像に映したくないもの」を表示しないようにすることができます。
◼︎活用できるモデルは1種類
2025年6月上旬の時点で、 Veoの中で活用できるモデルは以下の1種類のみです。
✓活用できるモデル
・Veo 2
モデル欄をクリックして確認できます。

◼︎アスペクト比(動画の大きさ)を設定する
Imagenと同様、Veoでもアスペクト比を設定することができます。その際、Aspect ratioから設定していきます。

変更できるアスペクト比を以下にまとめました。
✓Google AI StudioのVeoで変更できる動画のアスペクト比
・16:9
・9:16
Imagenと比べて選択できるアスペクト比は少ないものの、動画の大きさ事前に設定できるのは嬉しいポイントです。このように事前に設定できることで、出力時に「確実に」選択したアスペクト比の動画が生成されます。
◼︎生成する動画の本数を設定する
生成する動画の数を設定する際、Number of resultsのバーを操作して設定していきます。

選択できる数は「1」と「2」になります。この機能も競合にはあまり備わっていない印象です。あらかじめ生成される動画の数を決められると、非常に作業がしやすいように感じます。Google AI Studioでは、優れた機能を手軽に活用できるのが魅力です。
◼︎動画の時間を変更する
Veoでは動画の時間を変更することができます。動画の時間を変更する際、Video durationの欄をクリックします。

クリックすると、時間を選択できる項目が表示されます。5秒〜8秒の中から選択しましょう。

長尺動画は作成できず、短尺動画のみ作成可能となっています。動画編集ツールにVeoで生成した動画を「素材として」アップロードして活用することで、クオリティの高いメイン動画を作成できそうです。
◼︎生成したくないものがある場合は・・・
動画内に「生成したくない物体」などがある場合、生成されないように設定することもできます。その際、Negative prompt欄にテキストを入力していきます。

例えば動画の中にできるだけ不要な物体が表示されないようにしたい場合、「people, animals, buildings, text, logos(人、動物、建物、テキスト、ロゴ)」のようなテキストを入力します。

このように入力することで、ネガティブプロンプト欄に入力した「人、動物、建物、テキスト、ロゴ」が映像の中に表示されなくなります。
細かく設定をしていきたい、または通常のテキスト入力ではうまく生成できない場合に活用すると、動画を「イメージ通りに」生成できるかもしれません。
◼︎プロンプトを入力して動画を生成する
次に、テキスト入力欄にプロンプトを入力して、動画を生成していきます。
☐「アスペクト比」、「生成される動画の本数」、「時間」を設定する
ここではアスペクト比を「16:9」、生成される動画の数を「2」、動画の時間を「5秒」に設定しました。

☐プロンプトを入力する
動画の大きさ、生成される動画の数、時間(必要ならネガティブプロンプトの入力まで)の設定が完了したら、次はプロンプト入力です。ここでは以下のプロンプトを入力して、動画を生成していきます。
Imagenでは英語のプロンプトを入力しましたが、Veoでは日本語のプロンプトを入力していきます。
✓プロンプト(指示文)
生地から惑星を作る風変わりなベーカリー、ストップモーション風(Whimsical bakery crafting planets from dough, stop-motion style)

◻︎動画を生成する
Runをクリックして動画を生成します。

クリック後、以下の動画が出力されました。
出力されるのにかかった時間は約40秒です。40秒で2つの5秒動画を生成できました。
出力された動画は非常にクオリティが高いです。プロンプトの内容をしっかりと理解して、自分が想像している内容を映像として可視化してくれます。まだ短い動画しか出力できないため「素材として活用する」ことにはなると思いますが、動画制作者にとっては素晴らしいツールだと感じました。
「自分だけの動画」を作る際、強力なパートナーになります。
◼︎イラストなどの静止画を動画にすることも
またVeoでは、イラストなどの静止画を動画にすることもできます。その際、テキスト入力欄の以下のマークをクリックします。

次に、表示された項目のUpload Imageをクリックします。

クリック後、フォルダが表示されます。ここでは以下のイラスト(画像)を活用します。


次にプロンプトを入力します。ここでは、以下のプロンプトを入力しました。
✓プロンプト(指示文)
真っ白なキャンバスに、黒いインクの線が踊るように走り、画像の男性のポートレートが素早く描かれていくタイムラプス映像。イラストが完成した瞬間、彼はリアルに瞬きをし、こちらを見て穏やかに微笑む。彼の肩から、インクでできた一羽の鳥が飛び立ち、画面の外へ消えていく。ダイナミックで、アーティスティックなスタイル、高コントラスト。

Runをクリック後、以下の動画が出力されました。
入力したプロンプト通りには生成されていないものの、アップロードしたイラスト(静止画)は変化しないまま、アニメーションがつきました。2つの動画が生成されるまでにかかった時間は、約40秒です。
口が動いたり、目を瞑ったりしています。このクオリティでイラストを動画にできるAIツールは、おそらくありません。2025年6月の時点でVeo 3がリリースされているものの、Veo 2でもこのクオリティです。
「コンテンツ制作の幅が格段に広がるな」と感じました。すごい機能です。
◼︎Veoで動画を生成する際の注意点
Google AI StudioのVeoで動画を生成する際、大きく2つの注意点があるように感じたので共有します。
◻︎無料で生成できる動画の本数は「1日6本程度」(具体的な本数については明示されていません)
Google AI Studio自体は無料で活用できるツールです。Veoも無料で活用できますが、「無料だと生成できる動画の本数が少ないな」という印象を受けました。
僕の場合は、一度の生成で出力される動画の数を「2」、動画の時間を「8秒」にして、3回の生成しかできませんでした。つまり、6本の動画しか生成できなかったということになります。
無料で生成される動画の本数は使用環境によって変化し、最も多いのは1日2本のようです。Google AI Developers フォーラムの中で共有されていました。
「動画が生成し放題だ」と思って無闇に生成を続けると、あっという間に上限に達して生成できなくなります。上限に達すると、以下のようなテキストが表示されます。

しかし翌日になると、上限はリセットされ再び生成できるようになります。無料で動画生成をしたい場合は、「翌日まで待つ」必要があります。
動画をたくさん生成したい場合は、Google AI Proプランに切り替えるか、Gemini API プロジェクトを「課金有効化」する必要があります。より手軽にできる方法は「Google AI Proプランに切り替える」です。
◻︎日本語のプロンプトの方がGood
日本語のプロンプトで生成した方が、イメージに近い動画が生成できるように感じました。
Imagenでは「英語のプロンプトの方が良かった」ので英語のプロンプトを活用して生成しましたが、Veoでは「なんかちょっと違うな」という感じでした。そこで日本語に切り替えて生成したところ、「イメージに近い動画」を生成できました。
しかし人によって「どう感じるか」は異なると思います。自分で実際に試して、どの言語で入力すると「イメージに近い動画が生成できるのか」検証してみてください。
◼︎生成した動画をダウンロードする
生成した動画をアップロードする際、動画に表示されている以下のマークをクリックします。

クリック直後、動画がフォルダにダウンロードされます。ダウンロードするのに時間はかかりません。
▶︎Generate Mediaで活用できる機能その5:Lyria RealTimeで瞬時に音楽のアイデアを抽出
最後のツールはLyria RealTimeです。
Lyria RealTimeを活用することで、文字通りリアルタイムで音楽を生成することができます。複数のジャンル、曲調、雰囲気を織り混ぜて、新しい曲調を生み出すこともできます。「深みのあるサウンドアイデアを高速で掘り起こす発想エンジン」とも言える、素晴らしいツールになります。
活用する際、Lyria RealTimeをクリックします。

クリック後、以下の画面が表示されます。

この画面から音楽を作成していきます。
◼︎Lyria RealTimeの特徴
Lyria RealTimeの特徴を簡単に共有します。
◻︎リアルタイムで音楽の微調整が可能
ノブやコード変更が即座にモデルに反映され、1~2秒で曲調がスムーズに変化します。特に、即興アイデア出しに最適です。
◻︎ジャンル、要素の重み付けが可能(WeightedPrompt)
「Bossa Nova」、「Chillwave」、「Drum and Bass」などの複数のスタイルを同時に調整可能。異なるジャンルをミックスしたハイブリッドな音楽を作成できます。
◻︎「48kHz」のステレオ出力
生成音はDAWや配信用ソフトにそのまま貼り付け可能な「プロ仕様の音質」です。創作活動の強力なパートナーになります。
◻︎MIDIデバイスにも対応
USB接続に対応したMIDIデバイス(KORG nanoKONTROL 2 など)との連携にも対応。物理的なデバイスで直感的に操作ができ、コントロールがスムーズになります。
◻︎自然言語でコード生成をサポート
「コードアシスタント機能」によって、テキスト入力から数百行のコードを短時間で生成可能。ワンクリックで実行できるため、コーディング経験がなくても簡単に使いこなすことができます。
◼︎ノブを調整して曲調を変化させる
◻︎ノブの操作方法
Lyria RealTimeを表示して真っ先に目に入ったのは、16個のノブだと思います。このノブはトラックパッド上で操作することができます。

ノブを操作する方法は非常に簡単で、「操作したいノブ」をクリックして動かすだけです。ノブを調整するたびにAPIが再送信され、「調整したノブの割合」に合わせて滑らかに音楽が変化していきます。またノブを動かした後、そのノブに合わせて色が変化します。
実際に活用してみると、面白いです。新鮮な気持ちになりました。
「その場で」音が生成し直されて、曲調、テンポ、楽器の質感が変わっていきます。これがLyria「RealTime 」と呼ばれる所以です。
◻︎ノブについてもう少し詳しく
それぞれのノブが表しているのは、「ジャンル、フレーズ、奏法」です。「どのスタイルをどれくらい混ぜるか」を調整できます。

それぞれのノブは「ウェイトプロンプト」と呼ばれ、重みを調整するために操作をします。重み付けが高いスタイルほど、リズム、ハーモニー、音色がより強調される仕組みです。
以下に、「表示されているノブの日本語表記と特徴」をまとめました。活用してみたい人は参考にしてください。
ノブの種類と特徴
Bossa Nova
ボサノバ
軽快なパーカッションと7thコードのギターで中速スウィング
Chillwave
チルウェーブ
ドリーミーなシンセパッドとローファイ質感、ゆったりBPM
Drum and Bass
ドラムンベース
160-180 BPMのブレイクビーツと重低音サブベース
Post Punk
ポストパンク
ドライブするベースラインとエッジの効いたギター
Shoegaze
シューゲイザー
分厚いギターと深いリバーブでノイズの壁を形成
Funk
ファンク
タイトなベースグルーヴとシンコペーション、ブラスが特徴
Chiptune
チップチューン
8-bit波形でレトロゲーム風のピコピコサウンド
Lush Strings
豊かなストリングス
シネマティックな厚みのあるストリングパッド
Sparkling Arpeggios
きらめくアルペジオ
高域で刻むシンセアルペジオが曲を彩る
Staccato Rhythms
スタッカートリズム
短音符中心のリズムで歯切れ良いビート
Punchy Kick
パンチのあるキック
アタック強めのキックで低域を強調
Dubstep
ダブステップ
140 BPM前後、ワブルベースとハーフタイム感
K Pop
Kポップ
キャッチーなメロとダンス向けのポリッシュされた音像
Neo Soul
ネオソウル
ジャジーなコード進行とスムーズなグルーヴ
Trip Hop
トリップホップ
ダウンテンポのビートにアトモスフェリックなサンプル
Thrash
スラッシュ
高速ディストーションギターとアグレッシブなドラム
◼︎注意点(トラックパッドだとノブの調整がしにくいです)
ひとつだけ「難点」があります。それは「操作のしにくさ」です。トラックパッドでノブを操作すると、しっかりと回すことができず、途中で止まってしまうことが多かったです。

◼︎MIDIデバイスを接続する
しかし、上記のような問題は簡単に解決できます。Google AI StudioのLyria RealTimeではMIDIデバイスを接続することができます。
☐MIDIって何?
MIDIとは「Musical Instrument Digital Interface」の略称で、「電子楽器やコンピューターなどの間で、演奏情報をやり取りするための世界共通ルール」を指した言葉になります。
個人的に「MIDIデバイス」の解釈が難しかったのですが、まとめると「MIDIという共通言語で情報をやり取りできる機器」ということになります。
☐どんなMIDIデバイスを活用すればいいの?
以下のようなデバイスを接続することで、Lyria RealTimeをより本格的に、かつスムーズに活用することができます。僕なりに調査をして見つけた、おすすめのデバイスを「3つだけ」共有します。
✓おすすめのMIDIデバイス
「新しい興味」につながれば幸いです。
☐接続方法
MIDIデバイスを接続するのは非常に簡単です。まず最初に、画面上部の以下のマークをクリックします。

次に、「MIDIデバイスの操作と再プログラムを常に許可する」と表示された項目をクリックします。

最後に、完了をクリックします。

後はUSBケーブルでPCに接続するだけです。これで、MIDIデバイスからノブを操作できるようになります。
◼︎音楽を再生する(ノブの重みに合わせて音楽が流れます)
音楽を再生する時は、画面下部に表示されている再生ボタンをクリックします。

クリック後、音楽が再生されます。ここで再生されるメインの音楽は自分で選択できず、ランダムに再生されます。ノブを調整して、再生された音楽の曲調を変えていく仕組みとなっています。
◼︎テキスト入力から指定した曲調の音楽を作成する
ここまでの内容は、自分でノブを調整して曲調をアレンジしていく方法でした。この節では自分でノブを調整せず、「プロンプト」から曲調をアレンジする方法になります。こちらの方が、想像に合った曲調を生み出しやすかったです。
特に「音楽関係の仕事をしている人」や、「個人的に音楽を作成したいと思っている人」には便利な機能だと思います。
◻︎テキスト入力画面を表示する
テキスト入力画面を表示する際、左上に表示されているマークをクリックします。

クリックすると、コードアシスタントの項目が表示されます。

画面下部に表示されている入力欄にプロンプトを入力していきます。
☐プロンプトを入力する
次に、プロンプトを入力していきます。入力する際、「どのような曲調に変更したいか」、「どのような特徴を追加したいか」、「ノブをどう変更したいか」などを考えて入力していきます。
ここでは、以下のプロンプトを入力していきます。なお、日本語のプロンプトでも問題なく作成してくれました。
✓プロンプト(指示文)
低音を強調したいので、Dubstep 70%、Drum and Bass 30%、Punchy Kickも追加。brightnessを0.25、BPMを140にしてください。

☐指定した曲調の音楽を出力する(操作上、完成した音楽は共有していません)
入力後、矢印のマークをクリックします。

クリック後、以下のように出力が開始します。作成完了までの工程は、この動画の中で確認できます。
以下のように調整してくれました。

右下の再生ボタンをクリックすることで、生成された曲調の音楽を視聴できます。

指示した曲調の音楽を約3分半で作成してくれました。上記のように、「テキスト入力→推論→コード生成→Lyria RealTimeで視聴可能」という流れで作成されていきます。また、推論はGemini 2.5 Proが行っています。
生成されるコードが音楽の基盤となっていますが、生成したコードにミスがあれば「Gemini自身で」修正をし、ユーザーの要望に見合った曲調の音楽を作成してくれます。
「自分が想像している音楽があってもどこをどう操作して近づければいいかわからない」という場合でも、テキスト入力ならイメージ通りの曲調を作成するのが簡単だと感じました。
◼︎Lyria RealTimeどんな人におすすめ?
作成した音楽は、保存することができません。なので「本番として活用するのは不向きだな」という印象でした。しかし「深みのあるサウンドアイデアを高速で作成できる」ところに、魅力を感じました。従来の音楽生成AIと比較しても、圧倒的に速い試行回数を達成できます。
✓Lyria RealTimeはこんな人におすすめ
・Twitch、YouTube で即興 BGM/映像演出をするクリエイター
・短尺動画を量産しながら仮のBGMを探している人
・ゲーム開発者
・作曲家のアイデア出し専門ツールを探している人
・教育現場のメディアアート、ワークショップ講師
「イメージとして思い浮かべているサウンドをとりあえず音楽にしてみる」という場合に活用すると、性能を有効活用できます。
◼︎補足:おすすめのプロンプトと仕上がる曲調のイメージ
最後に、「プロンプト例と仕上がる曲調のイメージ」をまとめました。以下の表に「5つ」共有しています。
おすすめのプロンプト仕上がる曲調のイメージ
「Lush Strings 70%、Sparkling Arpeggios 30%、brightness 0.25、BPM 95、マイナーキー」
仕上がる曲調イメージ
映画のワンシーンのように壮大で叙情的なアンビエント・オーケストラ
「Neo Soul 50%、Chillwave 30%、Trip Hop 20%、brightness 0.35、BPM 90」
仕上がる曲調イメージ
深みのあるエレピと重低音ベースが絡む夜ドライブ系 Lo-fi グルーヴ
「Shoegaze 40%、Chillwave 30%、Dubstep 20%、Punchy Kick 10%、brightness 0.30、BPM 105」
仕上がる曲調イメージ
分厚いギター壁とワブルベースが溶け合うドリーミーなミッドテンポ
「Trip Hop 60%、Lush Strings 40%、Sparkling Arpeggios 15%、brightness 0.28、BPM 80」
仕上がる曲調イメージ
ブレイクビーツに重なるストリングス、広がりのあるシネマティック Chill
「K Pop 40%、Lush Strings 40%、Chillwave 20%、brightness 0.40、BPM 115」
仕上がる曲調イメージ
透明感あるパッドと韓国バラード風コードが生む幻想的ポップ
「Drum and Bass 45%、Lush Strings 35%、Neo Soul 20%、brightness 0.22、BPM 140」
仕上がる曲調イメージ
重低音ブレイクの上に重層ストリングスが乗るダークでスリリングな DnB
プロンプトを入力する場面で活用してください。
▶︎まとめ
以上になります。
この記事で、Google AI Studioの「Generate Media」から活用できるツールについて、理解を深めることができたと思います。
Google AI Stiudioでしか体験できないような素晴らしいツールが盛りだくさんだと、記事を書きながら改めて感じました。これらの機能全てを無料で活用できてしまうことを考えると、「ものすごい時代になったな」と感じざるを得ません。
共有したGemini image generation、Gemini speech generation、Imagen 、Veo、Lyria RealTimeの全てのツールは、競合の中でもトップクラスの性能を誇っています。
そして活用する人に、ワクワク感や、楽しみ、可能性を与えてくれるツールだと感じました。
もっと多くの人がGoogle AI Studioの存在に気づき、活用することで、自己成長や個人の目標を達成するきっかけにつながると思います。僕は引き続き記事を通して、「有益情報」を共有していこうと思います。
この記事が、Generate Mediaの理解につながれば幸いです。
なお、こちらのページを最後までスクロールするとコメント欄があります。そちらのコメント欄に気づきや感想等がございましたらご記入ください。さらに質の高い情報を発信するための学びとさせていただきます。
最後までお読みいただきありがとうございました。





コメント