Vertex AI モデル評価: Pointwise Evaluation 実践ガイド

2026.06.10

Vertex AI におけるモデル評価シリーズへようこそ。
これまでの記事では、モデル評価の基礎や、評価に必要なデータセット・メトリクス・各種設定の準備方法について学んできました。

今回は、実際に Pointwise Evaluation を使ったエンドツーエンドの評価を体験していきます。
評価環境のセットアップから実行、結果の確認まで、一連の流れを実践形式で解説します。

Pointwise Evaluation とは？

まずは簡単に振り返っておきましょう。
Pointwise Evaluation は、「この回答はどの程度良いのか？」を評価するための手法です。
単一のモデル出力に対して、あらかじめ定義した評価基準（Safety、Faithfulness、Quality など）を用いてスコアリングを行い、モデルの性能を定量的に評価します。
複数モデルを比較する Pairwise Evaluation とは異なり、1つの応答そのものを評価対象とするのが特徴です。

すべてをつなげる: エンドツーエンド実践例

ここからは、Pointwise Evaluation を実際に実行する具体例を見ていきます。
今回は、実運用でも特によく使われる2つの代表的なパターンを取り上げます。

例1: Full Pointwise Evaluation（Live Model）

最も一般的な評価パターンです。
Vertex AI のデプロイ済みのモデルに対して、新しい評価用プロンプトを使い、モデルの性能を評価します。

この例で行うこと

gemini-2.5-flash を評価
prompt のみを含むデータセットを使用
モデルがレスポンスをリアルタイム生成
safety と question_answering_quality を用いて評価

処理の流れ

EvalTask にモデルと評価データセットを渡す
各プロンプトに対してレスポンスを生成
評価メトリクスでスコアリング
結果を Vertex AI Experiments に保存

今回のデータセットには prompt カラムのみが含まれています。
response カラムは不要で、評価時に GenerativeModel がレスポンスを生成します。

それでは、実際のコードを見ていきましょう。

評価実行後の出力

評価スクリプトの実行が完了すると、以下のような結果を確認できます。

出力結果の見方

評価完了後は、result オブジェクトを使って結果を確認できます。
このオブジェクトには、主に以下の2つの重要な属性があります。

result.summary_metrics
- 各メトリクスの平均スコアをまとめた概要情報です。データセット全体に対するモデルの総合的な性能を、素早く把握するのに役立ちます。
result.metrics_table
- pandas.DataFrame 形式で出力される詳細結果テーブルです。各サンプルごとの評価結果が含まれており、以下の情報を確認できます。
  - 元の prompt
  - モデルが生成した response
  - 各メトリクスのスコア

個別のレスポンス品質を詳しく分析したい場合に便利です。

例2: Full Pointwise Evaluation（Bring-Your-Own-Response）

事前に用意したレスポンスを使って評価を行うパターンです。
Vertex AI 上で生成したレスポンスだけでなく、外部モデルや過去に生成済みの出力に対しても評価を実施できます。

この例で行うこと

prompt と response を含むデータセットを使用
レスポンス生成ステップをスキップ
既存レスポンスに対して評価のみを実施
safety と question_answering_quality を用いて評価

処理の流れ

EvalTask に prompt と response を含むデータセットを渡す
提供済みレスポンスに対してスコアリングを実行
評価結果を Vertex AI Experiments に保存

この方法は、過去に生成したデータの分析や、事前生成済みテキストの一括評価に非常に便利です。

それでは、実際のコードを見ていきましょう。

評価実行後の出力

評価スクリプトの実行が完了すると、以下のような結果を確認できます。

出力結果の見方

評価完了後は、result オブジェクトを使って結果を確認できます。
主に以下の2つの属性が利用できます。

result.summary_metrics
- 各メトリクスの平均スコアをまとめた概要情報です。
- データセット全体に対するモデルの総合的な性能を素早く把握できます。

result.metrics_table
- pandas.DataFrame 形式で出力される詳細結果テーブルです。各サンプルごとの評価結果が含まれており、以下の情報を確認できます。
  - 元の prompt
  - 提供した response
  - 各メトリクスごとのスコア

個別レスポンスの品質を詳しく分析したい場合に便利です。

次回予告

お疲れさまでした。
これで、Pointwise Evaluation を使ったモデル評価の基本的な流れを実践できるようになりました。

Pointwise Evaluation を活用することで、モデル品質を定量的に把握し、改善の方向性をデータに基づいて判断できるようになります。

一方で、実際の開発では次のような課題も出てきます。

新旧モデルを比較したい
プロンプト変更の効果を確認したい
複数モデルのうち、どちらを採用すべきか判断したい

こうしたケースでは、単一モデル評価ではなく、モデル同士を比較する評価手法が必要になります。

次回の Part 4 では、Pairwise Evaluation 実践ガイド として、「A vs. B」形式でモデルを比較評価する方法を解説します。

実際の評価フローを通して、どちらのモデルがより優れているのかを確認していきます。

Vertex AI のモデル評価について他の記事も書いているので、よろしければこちらもご覧ください！
> 『Vertex AI モデル評価』シリーズ一覧

teke

Terraform に Helm チャートを組み込む

OCI 〜アカウント作成から CLI, Terraform でリソースが作成できるまで〜

＼合わせて読みたい／Related article

Vertex AI 評価の準備編: データセット・メトリクス・設定を押さえる

Vertex AI のモデル評価シリーズへようこそ。Part 1 では評価の基礎を整理しました。Part 2 では、実践に入る前の「準備」を固めていきます。今回は、評価を成功させるための 3 つの柱を扱います。 Eva […]

teke

2026.04.08

ターミナルがダサいとモテない。Starship 紹介編

Starship をお使いですか？恵比寿で IT 企業をやっているとモテると聞いて創業しましたが早いことありがたいことに10年目に突入した長谷川です。まだモテる成果は出ていません、、、これからです！（3回目）最近、 […]

yusukeh

2024.06.12

~第一回~ NomadクラスタをGCEに構築する

こんにちは。grasys清水です。最近Kubernetes(:以下k8s)が何かと話題ですよね。その熱の煽りを受けてか、業務でGKEを触る機会がだんだんと増えています。ただ、今回はk8sに関する記事ではありません。今回 […]

shimichan

2019.05.12

LangChain | AI 同士を会話させて文章を執筆させてみる

AI 技術の進歩により、会話型 AI がますます普及し、さまざまな場面で利用されています。これまでのほとんどのアプリケーションでは、人間が AI と対話することが中心でした。しかし、AI 同士が対話することで新しい洞察や […]

T.Shinaji

2024.07.03

#LangChain

Vertex AI モデル評価の基礎

Vertex AIでのモデル評価をマスターするためのシリーズへようこそ！ジェネレーティブAIを構築している方なら、モデルの作成が戦いの半分に過ぎないことをご存知でしょう。真に高品質なエクスペリエンスを提供するためには、そ […]

teke

2026.04.01

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Vertex AI モデル評価: Pointwise Evaluation 実践ガイド

Pointwise Evaluation とは？

すべてをつなげる: エンドツーエンド実践例

例1: Full Pointwise Evaluation（Live Model）

この例で行うこと

処理の流れ

評価実行後の出力

出力結果の見方

例2: Full Pointwise Evaluation（Bring-Your-Own-Response）

この例で行うこと

処理の流れ

評価実行後の出力

出力結果の見方

次回予告

teke

＼ 合わせて読みたい ／Related article

Vertex AI 評価の準備編: データセット・メトリクス・設定を押さえる

ターミナルがダサいとモテない。Starship 紹介編

~第一回~ NomadクラスタをGCEに構築する

LangChain | AI 同士を会話させて文章を執筆させてみる

Vertex AI モデル評価の基礎

＼合わせて読みたい／Related article