Google の最新AIモデル「Gemini」を使うには / Google AI Studio を使う上での注意点 / 2023年12月18日時点
この note は、2023年12月18日付の情報をもとに作成しています。利用の際は、必ず公式の情報を確認してご利用ください。
Google の最新AIモデル「Gemini」を使うには
Google Gemini は、2023年12月6日に発表された、Google AI によって開発された次世代の生成 AI モデルです!
テキストと画像、テキストと音声、画像と音声などの組み合わせをより自然に、より正確に生成してくれます!
Gemini って?
Google Bard には、Google AI が開発した「Gemini Pro」が搭載されました(2023.12.6時点では英語版のみ)。
Gemini Pro は、Gemini の3つのサイズのうち、中規模のモデルです。
Gemini Ultra:最大のモデルであり、最も高いパフォーマンスと精度を備えています。
Gemini Pro:中規模のモデルであり、バランスの取れたパフォーマンスと精度を備えています。
Gemini Lite:最小のモデルであり、最も軽量なパフォーマンスと精度を備えています。
コードインタプリタ
コードインタプリタが実装されたことで、コードを実行して結果を確認することができるように!
次にプロンプトを実行してみました “Output a graph of the sine function.”
使い方
2023.12.18現在では、英語版のみで利用可能となっています。
そのため、Google アカウント の言語設定を English にすれば利用することができます!次の手順で、言語を変更することができます!
クリエイティブに使う!
新しいことを学ぶ!
タスクを簡単にする!
といった様々ができるようになります! ぜひお試しください!
Google I/O 2023 基調講演
Gemini の紹介
Google AI Studio を使う上での注意点
Google AI Studio で Gemini Pro をAPIとして試すことができるようになりました😋
次のリンクから利用することができます!
さて!
この note を見てくださっている皆さんは、もう大丈夫だと思いますが。
AI サービスを利用するときに大事なことは
です!
個人情報の取り扱いや入力の制限などをしっかりと確認しましょう!
次のような同意を求められます!中身を見ていきましょう!
この利用規約のポイントは、
という部分ですね。
ChatGPT や Google Bard は、多くの方が使いやすい状態にしてくれたアプリケーションとなっており、これは入力したものを学習に利用されることが前提になっています。
また、その機能のオンオフの切り替えはできるようになっています。
一方で、 Google AI Studio の利用規約の文章は、Generative AI APIs Additional Terms of Service に従ったものです。
こちらのリンクにありますが、
機密データ関係で言うと、
と言う記載があるように、
Google AI Studio を利用した入出力内部の人間が見る可能性があるよ!
と言う注意が書いてあります。
これは、実は Google Bard の学習をオフにした状態にも似ています。
まぁ、サービスを提供している会社の内部が見ることができるよ!と言うのは、そりゃそうですよね!
機密情報、秘密情報、または個人情報を入力すると言うのはしないように!
学習についての明記はこの後で記述します⇩
使い方
先ほどの利用規約に同意すると、使うことができるようになります。
New Prompt をクリックすると始めることができます!
また、Get API Key から API Key を作成することもできます!
ここに書いてある記載は、
作成した API Key はGoogle Cloud Platform Terms of Service open_in_new の対象になるよ!と言うことなんですが、
Google Cloud Platform がまた難しいですよね😅
略して GCP と言われるんですけど、Google Workspace がいろんな人が使いやすいように、ユーザーがすぐに使えるようなアプリケーションを提供しています。
それに対して、GCP は BigQuery だったり、API の管理だったり、API を連携してデータ管理をしたり、大きいデータを扱うときに重宝します!
また、GCP を利用すれば Google Workspace の機能をさらに充実させることができ、Google Workspace の各種アプリケーションのデータと教育データや生成AIを連携させることができるようになります。
GCP で管理するAPIの利用(今回は、Generative Language API Key )は、その利用にお金がかかります。
クレジットカード決済になるのですが、
今回は、無料で使えるようになってます!
ただし、
となっていますので、
無料でAPIのお試しができるけど、学習に利用される
ことに注意が必要ですね!
Comming soon となっていますが、有料版は学習に利用されないことが明記されていますね!
話を戻します!
Freeform prompt
まずは、通常のプロンプトを試してみましょう!
次のプロンプトでテストしてみます!
プロンプトを入力したら、左下の Run をクリックします!
すると、しっかりとブレスト結果を出力してくれましたね!
右上の Save をクリックすると、Google ドライブ に、今回のプロンプトと結果を保存しておくことができます!
アカウントを選択すると名前と説明を入力できるようになります。
Save をクリックすると保存され、左側の My library に表示されました!
Google ドライブ に、Google AI Studio と言うフォルダが生成されて、その中に保存されています!
テキスト生成はプロンプトを入力することでできましたね!
Gemini Pro Vision
では、モデルを変えて、画像を入れてみたいと思います!
Model は2種類選べます🚀
Gemini Pro
テキスト入力のみ可能
テキスト出力が可能
自然言語処理、マルチターン会話、コード生成など、テキストベースのタスクに最適
Gemini Pro Vision
テキストと画像を入力可能
テキスト出力が可能
画像の内容に基づいてテキストを生成したり、画像を理解して情報を抽出したりする
グラフを与えて、解析させてみようと思います!
次のように出力されました!
画像認識もとても良いですね👍
他の設定では、
Temperature
モデルのレスポンスで許容されるランダム性の度合いを制御します。
この値を大きくすると、モデルはより意外性のあるクリエイティブなレスポンスを生成できます。
Advanced settings (Output length:最大出力)
各リクエストに対してモデルが返すレスポンスの数を増やす。このオプションは、1 つのプロンプトに対して複数のレスポンスを生成するため、プロンプトをすばやくテストするのに役立ちます。
Safety settings(安全性設定)
有害な可能性のある応答を目にする可能性を調整します。
コンテンツは有害である確率に基づいてブロックされます。
次の項目を設定できます。デフォルトは中央に設定されています!
Harassment(ハラスメント)
Hate Speech(ヘイトスピーチ)
Sexually Explicit(性的な表現)
Dangerous Content(危険なコンテンツ)
詳細はこちらに
Output length
これは、生成するテキストの長さを設定するパラメータです。
短い出力が適しているタスクもあれば、長い出力が必要なタスクもあるため、目的に合わせて設定します!
Top Kを小さくした場合
Top Kの値が小さいと、AIは非常に高い確率で現れる単語の中からのみ選択します。
例えば、Top-Kを3に設定すると、AIは最も一般的な3つの単語の中から選ぶことになります。
予測可能性:この結果、生成されるテキストはより予測可能になります。一般的でよく使われる単語やフレーズが選ばれやすくなるため、創造性や独創性は低下する可能性があります。
一貫性: テキストはより一貫性があり、理解しやすくなることが一般的です。これは特定のアプリケーションや用途では望ましいことがあります。
独創性を高めるには
多様性や独創性を高めたい場合は、Top Kを高く設定することが効果的です。
Top-Pを小さくした場合
高い閾値(例: P = 0.9): 高い閾値では、多くの単語が選択肢に含まれ、結果としてテキストは多様で独創的になります。予測不可能な単語や表現が含まれる可能性が高まります。
低い閾値(例: P = 0.5): 閾値を低く設定すると、選択肢に含まれる単語の数が減り、生成されるテキストはより予測可能で一般的なものになります。しかし、Top K と異なり、まだある程度の多様性と独創性は保たれます。
独創性と多様性
独創性の向上: Top P サンプリングは、特に閾値が高い場合、生成されるテキストの独創性と多様性を向上させます。AIはより予測不可能な、一般的でない単語やフレーズを選択する傾向があります。
多様性のコントロール: Top P の閾値を調整することで、生成されるテキストの多様性と独創性のレベルを細かくコントロールできます。高い閾値は多様性を、低い閾値は予測可能性を高めます。
これは、次の単語として選択する候補の確率分布を一定のしきい値で切り捨てる手法です。
しきい値が低いほど、より多くの候補が考慮され、独創的な出力が得られやすくなります。逆に、しきい値が高いほど、より可能性の高い単語が選択され、安全で予測可能な出力が得られます。
出力内容と信頼性のバランス
出力内容の正確性を優先する場合は、Top K を高くし、Top P を低めに設定
独創性や多様性を重視する場合は、Top K を低くし、Top P を高めに設定
最適な設定はタスクによって異なるため、試行錯誤しながら調整することが重要です。
Top K / Top P Assistance using ChatGPT
が、色々とテストして試すのが良いと思います!!!
こちらが詳しかったです!
今回は、シンプルな生成のみを試してみましたが、この Google AI Studio は、ただ出力させるだけではなく、その後のアプリケーション開発やAIのファインチューニングを想定しています。
実は、右上に、Get code というボタンがあり、
ここをクリックすると、
各プログラミング言語に対応したコードが生成されます!
この Google AI Studio でプロンプトを調整して、それをAPI利用するためのコードを自動で作ってくれて、これを使って専用の ChatBot なんかを作ることができます!🔨
これはまた改めて!
今日紹介した機能は、無料期間は2024年初頭までで、それ以降は課金が必要になるそうなので、今の内に色々と試してみましょう!😎