Gemini

説明

Geminiコンポーネントは、VQA機能を含むGeminiを使用することができます。 次のようなことができます。

ユーザーメッセージに応じて回答を得る

・モデルを指定してシステム指示とユーザーメッセージを入力して回答を得ます。

写真や動画ファイルを解析した回答を得る

・写真や動画ファイルとモデルを指定してシステム指示とユーザーメッセージから写真や動画を解析した回答を得ます。

出力ペイロード説明
cv.PayloadGeminiからのレスポンスを出力します。

コンポーネントプロパティ

プロパティー名説明
モデル使用するモデルをgemini-2.0-flash、gemini-2.0-flash-liteから選択します
システム指示Geminiに対するシステム指示を指定します
ユーザーメッセージGeminiに対するプロンプトまたは質問を入力します
ファイル名Geminiに解析させるファイルを指定します。複数のファイルはコンマで区切ることで指定できます
ファイルのMIMEタイプアップロードするファイルのMIMEタイプ ※3 複数のファイルのMIMEタイプはコンマで区切ることで指定できます
アップロードファイルを削除Geminiにファイルをアップロード後にファイルを削除する場合に指定する
会話履歴以前の会話のターンを表す JSON 配列を提供します ※2
レスポンスのMIMEタイプGeminiからのレスポンスのMIMEタイプ text/plainかapplication/jsonのいずれかを指定します
最大トークン数生成された応答で許可されるトークンの最大数を設定します
温度ジェミニの反応のランダム性と創造性を0.0から2.0の範囲で指定します。値が低いと、より決定論的で焦点を絞った出力が得られます。より高い価値は、より多様で創造的な応答につながります。
TopP核サンプリングを0.0から1.0の範囲で指定します。生成されたテキストの多様性に影響を与えます。値が低いほど、モデルはより少ない単語の可能性のあるセットから選択できるため、より予測可能なテキストになります。より高い値により、モデルはより広い範囲の単語を考慮することができ、多様性は増加しますが、一貫性は低下する可能性があります。
ストップシーケンスGeminiがテキストの生成を停止する文字列(単語またはフレーズ)のリストをJSON型式で定義します。例:["a","b","c"]
セーフティ設定コンテンツフィルタリングのレベルを設定します。潜在的に有害または機密性の高いコンテンツの生成を防ぐのに役立ちます。安全設定の詳細については、Gemini APIのマニュアルを参照してください。
タイムアウトHTTPリクエストのレスポンスタイムアウト値
APIキーGeminiを使用するためのAPIキーを指定します ※1

※1 GeminiでのAPIキーの取得は こちら を参照してください

※2 以前の会話のターンを表す JSON 配列を提供し、複数のインタラクションにわたってコンテキストを維持します。これにより、複数回の対話が可能になります

Format:

[
  {
    "file_uris": [
      "https://generativelanguage.googleapis.com/v1beta/files/if4sk0a8zb74"
    ],
    "message": "Describe this file",
    "mime_types": ["image/jpeg"],
    "role": "user",
    "timestamp": "2025-03-07T18:20:58.52802+09:00"
  },
  {
    "message": "Here's a description of the image: ....",
    "role": "assistant",
    "timestamp": "2025-03-07T18:21:01.644585+09:00"
  }
]

以前にアップロードしたファイルを再アップロードせずに再分析する必要がある場合は、会話履歴内のファイル URI のみを指定できます。ファイルのURIは一定期間のみ有効であることを注意してください。

Reusing File URIs:

[
  {
    "file_uris": [
      "https://generativelanguage.googleapis.com/v1beta/files/h80o3tnx8yax",
      "https://generativelanguage.googleapis.com/v1beta/files/jmcp6fk40w8q"
    ]
  }
]

※3 Geminiでは以下のMIMEタイプをサポートしています

・画像関係

  • PNG - image/png
  • JPEG - image/jpeg
  • WEBP - image/webp
  • HEIC - image/heic
  • HEIF - image/heif
  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

・動画関係

  • video/mp4
  • video/mpeg
  • video/mov
  • video/avi
  • video/x-flv
  • video/mpg
  • video/webm
  • video/wmv
  • video/3gpp

・テキスト関係

  • PDF - application/pdf
  • JavaScript - application/x-javascript, text/javascript
  • Python - application/x-python, text/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

コンポーネント変数

コンポーネント変数説明
cv.ConversationHistory会話履歴のJSON。会話のコンテキストを維持するために、後続の通話でGeminiコンポーネントへの入力として使用できます
cv.FinishReasonsモデルがトークンの生成を停止した理由を示します。モデルの動作をデバッグまたは理解するのに役立ちます
cv.UploadedFileURI正常にアップロードされたファイルのURIのリスト
cv.UploadedMIMETypeアップロードされたファイルに対応するMIMEタイプのリスト