Google Cloud Platformの強力なAPI、特にGemini Pro Visionを使用するには、適切な認証情報の設定が欠かせません。
この記事では、それらの認証情報を設定し、Pythonアプリケーションと統合するプロセスを簡単に説明します。
初心者には、API設定が難しかったのでその導入方法をまとめました。
google ai studioで取得したAPIをgemini pro visionで使うとエラーが出る。
google pro visionで動画を読み込もうとした時にエラーが発生した
エラーが発生したが、うまくいかなかったが、vertex を使ったらうまくいきそうだと調べてわかった。
google cloudからgeminiのAPIを使えるようにしよう
Google Cloud Consoleへの入門
はじめに、Google Cloud Consoleにログインし、プロジェクトをセットアップします。
APIの有効化
リンクにアクセスすると以下のページが出ます。次へを押して有効にするボタンを押しましょう。
認証情報の生成
認証情報を生成したら、apiを含むjsonファイルを取得できます。
OAuth 2.0 クライアント IDというところで 右端にダウンロードボタンがあるので、それをクリックするとポップアップが出て、jsonをダウンロードと出ます。それをダウンロードしてください。
認証情報の確認
ダウンロードしたJSONキーファイルには、APIを安全に使用するための詳細が含まれています。ファイルを開いて内容を確認しましょう。
Pythonスクリプトへの統合
最終的に、Pythonスクリプトにこれらの認証情報を組み込み、Gemini APIとの連携を確立します。これにより、APIを通じてデータを操作することができます。スクリプトは以下のようにしました。jsonファイルを安全なところに入れてそれおを読み込めるように、以下のスクリプトをシェルで実行してください。
export GOOGLE_APPLICATION_CREDENTIALS="Jsonファイルの位置の絶対パス"
その後以下のスクリプトにyasai.pyと名前をつけて、スクリプトと同じ階層にyasai.mp4を配置してみてください
例えばデスクトップにパイソンファイルと動画を置いてみてください。
import base64
from vertexai.preview.generative_models import GenerativeModel, Part
with open('yasai.mp4', 'rb') as f:
data = f.read()
movie_base64=base64.b64encode(data)
movie_part = Part.from_data(data=base64.b64decode(movie_base64), mime_type="video/mp4")
config = {
"max_output_tokens": 2048,
"temperature": 0.4,
"top_p": 1,
"top_k": 32
}
model = GenerativeModel(model_name="gemini-pro-vision", generation_config=config)
response = model.generate_content(
[movie_part, "このスーパーの野菜、果物を認識してそれぞれの値段も教えてください"]
)
print(response.candidates[0].content.parts[0].text)
パイソンを実行します。
cd ~/Desktop
python3 yasai.py
すると、ファイルの名前を求められるので
yasai.mp4
と入力すると先ほどの画像の左上のようなテキストファイルが生成されます。
結論
このプロセスを通じて、Google CloudのAPIとPythonスクリプトの連携が成功したことを確認できます。これで、Gemini Pro Visionなどの複雑なAPIも利用可能になり、開発の幅が大きく広がります。開発の世界へようこそ!