Dataplex 最初の0.5歩

2022.10.07

はじめに

こんにちは、ATです。
Dataplexとは、Googleのデータファブリックなサービスです。データファブリックとはインテリジェントな自動システムを使用して、データを一元的に検出、管理するアーキテクチャや環境のことらしく、データファブリックであるDataplexはGoogleの各種サービスを組み合わせデータを一元管理する、といったサービスです。データレイクにとりあえず突っ込んだ雑多なデータを管理するのに使用する感じです。

データを一括管理
セキュリティとガバナンスを一元化
データインテリジェンス(データの検出、管理を自動化)
etc..

といった特徴があります。

おなじようなサービスでGoogleにはData Catalog があり、似たようなサービスが共存する状況がありました。GoogleはBIツールでもLookerとData Portalがあり、選択肢をいくつか提供している状態でした。LookerとData Portalは明確な機能差がありユースケースもそれぞれ異なっているので選択に悩むことや使い所に迷うことは無いですが、DataplexとData Catalog にはデータ管理するといったところでは明確な差が分かりにくく(というかわからなかった)この先どのように差別化していくのか興味本位で観察してました。そんな中今年の7/21以降Data Catalog をDataplex に統合して Dataplex の一部になるとの発表がありました。晴れて2つのサービスがひとつになることに。あら、そうなるのねという感じでこれで余計なこと気にしないで良くなって、よかった、よかったw

そんなDataplex ですがイメージは湧くが実際はどんなものか？というわけでやってみることに。
(2022.09/07作成)

設定

事前準備

Dataplex API の有効化
必要な権限の付与(roles/dataplex.admin or roles/dataplex.editor)
管理するデータ。今回はGCS上のファイルを管理する
- バケット：dataplex-test01
  - フォルダ：customers
    - CSVファイル：customer.csv
  - フォルダ：images
    - 画像ファイル：black.png

有効にする

手順

下記の手順でデータをDataplexで管理する。

lakeの作成
zoneの作成
assetの作成

lakeの作成

「レイクを作成」を押下

名前を適当に入力、リージョンを選択する。今回はメタストアは使用しないので「なし」。入力できたら「作成」を押下。

zoneの作成

lakeの表示名(この場合、TEST-LAKE01)を押下するとzone一覧に遷移する

「ゾーンを追加」を押下

表示名を入力する。タイプは「未加工ゾーン」を選択。生データとかは未加工ゾーンにしておくと良いみたい。その他特に設定することもなく「作成」を押下。

assetの作成

「TEST-ZONE01」を押下すると、アセット一覧に遷移する。

「アセットを追加」を押下

「ADD AN ASSET」を押下

種類は「ストレージバケット」を選択する。種類は「ストレージバケット」か「BigQueryデータセット」が選べる。名前を入力し、最後に事前に作成したバケットを指定する。「続行」を押下。

Advanced settings は何も設定せず、最後に「送信」押下でアセットが作成される。

しばらく待つとアセットが完成した。ついでにデータ検出も行われているらしい。
これにて設定が完了。

管理されたデータの確認

検索画面から、Dataplexに登録されたデータを確認できる。

作成したレイクにチェック入れるとゾーンと登録したアセット配下のデータが表示される。CSVも認識されている。

データの検出は？

半構造化データはうまく認識して、メタデータを自動で取得してくれている。個人的に非構造データはどう処理されるのが結構気になっており、今回Dataplexを触った動機の一つだったりします。
非構造データとして今回は画像ファイルを置いてみたが「画像」と表示されるのみだった。フォーマットやサイズくらいは取得しないかなぁと思っていたが、そんなことはなかった。(試しに音声ファイルの拡張子をjpgとしてバケットに置いといたら画像ファイルと判定された。ファイル中身までは見ていないぽい)

Googleなら画像認識で「人」とか「車」なんてタグが付くとか期待してたんだけどw

さいごに

今回気になったことが一つあった。検出後になにか問題があると、問題あるよと表示される機能がある。無効なファイルを検出した時やフォーマットが不正な場合にその旨表示してくれる。内容的にも問題がある対象を表示してくれてなかなか便利。で、それはいいのだが修正して、それを確認しようとすると次の検出処理を待たなくてはならない。これはちょっと参った。ドキュメントには下記の通り次の検出処理で解決するよなんてかいてあり(ココ)待つしかない。

再実行ボタンとかあればよかったのにと思う。
とりあえず使ってみました。使ってみた感想はとしてはそれほど設定は複雑でなくまぁまぁと言った所でした。今回はチュートリアルレベルだったので次回があればもう少し踏み込んで色々な機能を触ってみたい。セキュリティや権限周りの設定も何もしていないのでそちらも機会があればゼヒ。

AT

roapiでcsvにsqlでselectしてみる

【デスクツアー】とある社員Kのデスク

＼合わせて読みたい／Related article

ターミナルがダサいとモテない。gemini-cliでLinuxのKernel Parameter Tuningをしてみる。

巷で話題のgemini-cliのネタです。こんにちは！長谷川です。今日はgemini-cliを書いて見ようかなと GitHub – google-gemini/gemini-cli: An open-so […]

yusukeh

2025.07.10

#Series Terminal update

Devin 2.0 がツールを実装できるのか試してみた

Thank you, Devin. 「Devin って実際、どこまでできるの？」そんな疑問を持っている方は多いと思います。僕自身もその一人でした。試してみた結果かなり期待できると感じたので、今回はその内容をシェアします […]

nishino

2025.04.23

#AI
#Devin

Cloud IAMについてまとめてみた

今年4月に入社した新井です。Cloud IAMについて調べてみました。 IAMの役割 IAMは「誰が」「どのような操作を」「何に対して」行えるのかを設定して、他のリソースへのアクセスを防ぐ役割があります。IAMを使用する […]

arai

2022.12.09

ターミナルがダサいとモテない。gh copilot suggestをスマートに使う。

gh copilot suggest使ってわからないコマンドはcopilotに聞こう！巷ではVibe Codingってキーワードが流行ってますね。CursorやwindsurfやClineなどなど弊社でもDevinや […]

yusukeh

2025.05.28

#Series Terminal update

Cloud Storage の Bucket IP filtering 徹底検証〜IP 制限 × VPC Peering でアクセス管理を最適化する構成パターン〜

こんにちは。 Cloud Storage の Bucket IP filtering を知っていますか？まだ preview の機能ですが、いろいろ「調査し甲斐のある」ものです。 Bucket IP filtering […]

Mori

2025.05.07

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.