grasys blog

Google Cloud Next Tokyo’24 登壇のその後

こんにちは、エンジニアの角田です。

先日、Google Cloud Next Tokyo ’24 にてバルス株式会社様と登壇させていただきました。

テーマはこちら、
事例から学ぶ GPU 活用術。インフラ効率化と安定化に向けた実践的アプローチ

実践的アプローチということで、
進行形のプロジェクトの試行錯誤をしているライブ感をお伝えしました。

プロジェクトもひと段落したので、登壇後の進捗状況をお伝えさせていただきます。

登壇内容

「事例から学ぶ GPU 活用術。インフラ効率化と安定化に向けた実践的アプローチ」

バルス様は、データ生成環境として Google Cloud をご利用されています。
コスト面も考慮されていますし、簡潔な構成で大きな問題はない。
ただ話を聞いていくと、課題はある。といった状況でした。

課題は以下です。

・Spot VM の中断
・非エンジニアでも管理できるフローの構築
・共有ストレージの実装
・処理能力・速度の改善

その課題に対して弊社は既存の処理を自動化し、効率化するアプローチを取りました。
結果、一風変わったアプローチにはなったものの、Cloud Workflows をメインに使うことで作業の自動化が実現し、非エンジニアでも管理できるフローになり、極力無駄を省くことでコストの削減も視野に入りました。

結局どうなった

試行錯誤の末、提案した構成が以下となります。

ベースとなる GCE インスタンスのイメージから、データ生成処理をする GCE インスタンスを Cloud Workflows を使用して作成できるようにしました。
GPU の枯渇というリスクや、処理能力の課題点も考慮し、zone や spec などを選択できるようにしてあります。
NFS サーバを使用して共有ストレージを実装することで、データをより扱いやすくもしました。

そして・・・

弊社が提案した構成を少し改修し、
なんと実際に使っていただけることとなりました!

バルス様の感想
・スケールしやすくなった
・コストを抑えた上で効率化できている
・Spot を使うか、オンデマンド VM を使うか選べるようになっていて、Spot が落ちる日はオンデマンドにできて良い
・これぐらいやらないと1日の作業が終わらないぜっていうノルマにも近づいてきている

費用面については旧環境と同じプロジェクトに乗せていたり、使い方に慣れてきて色々作業をし始めているところなので具体的な数値は出ていないですが、効率化もできているし問題なさそう!

検証と登壇を通しての感想

今回のように、
コスト面も考慮されているし、簡潔な構成で大きな問題はない みたいな構成を取っているインフラは、世の中に結構ありそうだと思っています。

例えばバッチサーバも、

バッチ処理をする以外は動いてないけどバッチ処理に必要だから VM 建ててますというのはあります。問題ないし、必要なんだから良いです。

ただ、今回のように Cloud Workflows などを使用してオーケストレーションにしつつ、必要な時以外のコストはかけないようにできたり、マネージドサービスを使うことで耐障害性が上がることだってあります。
何より今まで基本的な構成とされてきた環境に、色々な視点でフォーカスしてアプローチをかけてみることで、
新しい課題の解決方法が生まれるよねというのを、今回の検証を通して改めて学ぶことができました。

技術がどんどん進歩していく流れに乗って、
インフラを使ってくれる、遊んでくれるユーザーがより快適になるような提案を
これからも、楽しんでやっていこうと思える検証となりました。
このような機会を提供していただいたバルス様には感謝しております、ありがとうございます。

参考:Cloud Workflows ドキュメント


採用情報
お問い合わせ