BigQuery クエリコストについて

2022.03.18

こんにちは、ATです。

最近、BigQueryのクエリを書いていて気になったことがあったのでメモしときます。(2022/03/18時点の内容)

BigQueryをオンデマンドで使ってるとクエリ実行時の課金額が気になりますよね。オンデマンドでは、読んだデータ量に応じて課金されるので、どのくらいのデータ量なのか気にしつつクエリ叩いてたりして。なのでなるべくデータ量を少なくするためにカラムを必要なものだけ指定したり、テーブルをパーティションテーブルにする、といった対策をしてると思います。その延長線でサブクエリの使い回しとかでもデータ量節約できないか？みたいな感じでWITH句使ってたりしてました。

ところが、
https://cloud.google.com/bigquery/docs/cached-results

ここを見るとどうもそうではないようです。

同じクエリを重複して実行すると、BigQuery はキャッシュに保存された結果を再利用しようとします。キャッシュからデータを取得するには、重複するクエリテキストを元のクエリと同じにする必要があります。

キャッシュに保存された結果を使用したクエリは、課金の対象となりませんが、BigQuery の割り当てポリシーの対象にはなります。

とあり、キャッシュを使えれば課金されないことがわかります。おそらくなんとなくこれを覚えていて、サブクエリをWITH句にしとけばキャッシュが効くと勝手に脳内補完されていました。その為とりあえずサブクエリをWITH句で書く癖がついていました。しかしながら下記リンク先を見ると、

https://cloud.google.com/bigquery/docs/best-practices-performance-compute

クエリ内の複数の場所で使用される共通テーブル式がクエリに含まれている場合、それらは参照されるたびに評価されます。これにより、内部クエリの複雑さとリソースの消費量が増加する可能性があります。

となっており、そうは甘くないようです。BigQueryはヤワではない。と言う訳でこのアプローチの道は閉ざされました。では、どうすれば少しでも読み込み量を節約できるか？それについても上記引用に答えが書いてありました。 1時テーブルを使用する方法です。
1時テーブルを使えばテーブルに対する読み込みには課金はありますが、ストレージには課金されません。可能な限りサマった集計結果を保存して使いまわすことでコスト節約が期待できます。

株式会社grasys(グラシス)は、技術が好きで一緒に夢中になれる仲間を募集しています。

grasysは、大規模・高負荷・高集積・高密度なシステムを多く扱っているITインフラの会社です。Google Cloud (GCP)、Amazon Web Services (AWS)、Microsoft Azureの最先端技術を活用してクラウドインフラやデータ分析基盤など、ITシステムの重要な基盤を設計・構築し、改善を続けながら運用しています。

お客様の課題解決をしながら技術を広げたい方、攻めのインフラ技術を習得したい方、とことん技術を追求したい方にとって素晴らしい環境が、grasysにはあります。
お気軽にご連絡ください。

AT

「Spot pod for GKE Autopilot」の終了時の振る舞いについて調べてみた

【デスクツアー】とある社員Sのデスク

＼合わせて読みたい／Related article

AWSのデータをBigQuery Omniでさわる

BigQuery Omniを使う機会がありせっかくなので手順や所感をまとめてみました。2022年2月8日時点の情報です。つい最近のとある記事で「70年前の青森の写真」について取り上げられていましたが、誰の目にも触れられ […]

nishino

2022.02.15

Materialized View を go で作る

BigQuery に Materialized View がβリリースされました。 https://cloud.google.com/bigquery/docs/materialized-views-intro go の […]

higuchi

2020.04.30

#bigquery

GKEでFluentクラスタを作っちゃおう！もちろんBigQueryにデータを叩き込むよVer

(n‘∀‘)η ﾔｧｰｯﾎｫｰ<２ヶ月ぶりの投稿だよ！grasysではプリチィ担当のどくまです♪ 今回はGKEでFluentクラスタを作った時の作業をまとめるよ！これができればあなたもGKEマスター？ぐらいな濃い […]

dokuma

2016.10.18

BigQueryのパフォーマンスを上げる方法

今春の新入社員に「えっ、なんでクラスター化してないですか？」と言われたくない人の為にクラスター化テーブルについて書きます。 2018/08にβ版がリリースされている機能です。クラスター化テーブルの概要文章が難解なので […]

higuchi

2019.03.14

#bigquery

Data Fusionでデータプラットフォームを作成する

こんにちは。エンジニアの山田です。昨今ではAI（人工知能）の技術も進歩し、徐々に活用され始めていますが、例えば画像認識を使用したAIでは大量に蓄積された画像データから人の特徴や動作を学習（ディープラーニング）し、高い精 […]

yamada.k

2023.01.23

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.