BigQueryでお金を溶かさないコツ

2018.10.20

#bigquery

BigQueryは従量課金なので、下手なクエリを打って無駄にお金を溶かしたくはないものです。

操作ミスで高いクエリを実行してしまう大きな理由として、パーティション指定のし忘れがあると思います。

パーティション指定をし忘れを防ぐ為に、トラウマになるぐらいのパーティションを指定する反復練習をするのも一つの手ですが、パーティションを指定しないとクエリが実行されない設定をするという手もあります。

下記のように「–require_partition_filter」を指定してテーブルを作成した上で、

bq mk --require_partition_filter --time_partitioning_type DAY {DATASET}.{TABLE} {SCHEMA}.json

クエリを実行すると、

bq query --nouse_legacy_sql "SELECT * FROM \`{DATASET}.{TABLE}\`

このように怒られます。

Cannot query over table '{DATASET}.{TABLE}' without a filter over column(s) '_PARTITION_LOAD_TIME',
'_PARTITIONDATE', '_PARTITIONTIME' that can be used for partition elimination

これで安心してクエリが叩けますね。

にしても、パーティション指定って面倒臭いですよね。

パーティション指定をした上で、WHERE句に時系列のカラムを指定するとか、パーティションを指定してバルクインサートするとか。

そんな方には「–time_partitioning_field {カラム名}」を指定してテーブルを作成するのがオススメです。

bq mk --require_partition_filter --time_partitioning_type DAY --time_partitioning_field timestamp {DATASET}.${TABLE} {SCHEMA}.json

仮に指定したカラムを下記のテーブルのtimestampにしたとしましょう。

[
  { "name" : "timestamp", "type" : "TIMESTAMP", "mode" : "NULLABLE" },
  { "name" : "user_id", "type" : "INT64", "mode" : "NULLABLE" }
]

まず作成したテーブルに下記のCSVをバルクインサートしてみます。

2018-10-20 12:00:00, 123
2018-10-21 12:00:00, 456
2018-10-22 12:00:00, 789

bq load {DATASET}.${TABLE} xxx.csv

すると、timestampを軸にパーティショニングがされて、下記のようにloadされます。

{DATASET}.${TABLE}$20181020 に「2018-10-20 12:00:00, 123」 {DATASET}.${TABLE}$20181021 に「2018-10-21 12:00:00, 456」 {DATASET}.${TABLE}$20181022 に「2018-10-22 12:00:00, 789」

さらにそのデータに対して下記のようにクエリを実行すると、

bq query --nouse_legacy_sql "SELECT * FROM \`{DATASET}.{TABLE}\` WHERE timestamp >= TIMESTAMP('2018-10-20') AND timestamp < TIMESTAMP('2018-10-21')

パーティション指定が不要で、しかもパーティションの20181020のみを参照してくれます。

テーブル作成の指定により、実装の工数やクエリの文字数など削減できると思うので、考慮して指定してみるといいと思います。

株式会社grasys(グラシス)は、技術が好きで一緒に夢中になれる仲間を募集しています。

grasysは、大規模・高負荷・高集積・高密度なシステムを多く扱っているITインフラの会社です。Google Cloud (GCP)、Amazon Web Services (AWS)、Microsoft Azureの最先端技術を活用してクラウドインフラやデータ分析基盤など、ITシステムの重要な基盤を設計・構築し、改善を続けながら運用しています。

お客様の課題解決をしながら技術を広げたい方、攻めのインフラ技術を習得したい方、とことん技術を追求したい方にとって素晴らしい環境が、grasysにはあります。
お気軽にご連絡ください。

株式会社grasys | 採用情報

higuchi

GCEにConsulをさっとデプロイしてみる

fail2banとCloud Armorでbanする

＼合わせて読みたい／Related article

BigQueryのパフォーマンスを上げる方法

今春の新入社員に「えっ、なんでクラスター化してないですか？」と言われたくない人の為にクラスター化テーブルについて書きます。 2018/08にβ版がリリースされている機能です。クラスター化テーブルの概要文章が難解なので […]

higuchi

2019.03.14

#bigquery

clickhouseでログからどの地域からのアクセスが多いか分かるヒートマップを作ってみた

こんにちは、エンジニアのHKです。今回はclickhouseを使って、grafanaでどの地域からのアクセスが多いかが視覚的にわかりやすく表示されるヒートマップを作成してみました。 clickhouseとは詳しい説明は […]

2025.08.13

ターミナルがダサいとモテない。neovim + AstroNvim 紹介編

neovim + AstroNvim を使っていますか？ Unsplash にまったく neovim っぽいのが無くてもう全然違うリッチな IDE の画像を貼ってしまいました・・・恵比寿で IT 企業をやっているとモテ […]

yusukeh

2024.08.14

GCE VMのCentOS7とCentOS6のMeltdown, Spectre対応状況まとめ

grasys加藤です。 2018年が始まってすぐに数多のエンジニアを恐怖させたCPUの実装に関連する3つのCVE=通称MeltDown, Spectreバグ。 CVE-2017-5753, CVE-2017-5 […]

kyouhei

2018.01.31

DuckDBでSQLクエリを叩くときにCSV形式よりもApache Parquet形式のほうが早い理由

先に理由を書きますが、ParquetのRow Group単位で並列処理できるしフルスキャンを避けれるからです。システムでも分析タスクでもSQLクエリを叩く（問い合わせ）したらなる早でレスポンス欲しいですよね。この記事で […]

nishino

2025.12.10

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

BigQueryでお金を溶かさないコツ

higuchi

＼ 合わせて読みたい ／Related article

BigQueryのパフォーマンスを上げる方法

clickhouseでログからどの地域からのアクセスが多いか分かるヒートマップを作ってみた

ターミナルがダサいとモテない。neovim + AstroNvim 紹介編

GCE VMのCentOS7とCentOS6のMeltdown, Spectre対応状況まとめ

DuckDBでSQLクエリを叩くときにCSV形式よりもApache Parquet形式のほうが早い理由

＼合わせて読みたい／Related article