![見出し画像](https://assets.st-note.com/production/uploads/images/115482174/rectangle_large_type_2_f2f93474f62870dabcd63c55d51b31bc.jpeg?width=1200)
クラウドのデータ分析基盤の用途と利用技術について
はじめに
こんにちは!マルチクラウドデータプラットフォームユニット 第二部の新見です。
ジールではデータを収集~保管し利用するプラットフォーム
データ分析基盤をクラウド上に構築し、保守する業務を行っています。
本日はジールで良く扱う技術に関しての用語解説、ご紹介をしたいと思います。
すでにデータ分野についてご存じの方や、初めて聞く用語がある方もいらっしゃるかと思いますが、ジールの技術について少しでもイメージを付けていただけると嬉しいです。
まずはデータ分析基盤からです。
業務用途は、例えば以下のようなものがあります。
データのレポーティング【頻度:多】
経営指標、販売実績などの定型レポートをBIで可視化し、データを元にした意思決定を行えます。アドホック分析【頻度:中】
ユーザー側でDWH内にあるデータをSQLやBIなどを用いて集計~分析し、ビジネス仮説の検証や意思決定を行えます。データアプリケーション【頻度:低】
不良品の検知、消費者へのリコメンドなどを行うアプリケーションを開発~本番運用し、コスト削減や売上向上などに繋げます。
ジールではAWS/Microsoft Azure/GCPなどベンダーによる制約はなく、お客様の状況に応じクラウドを活用します。
業務を通じて、クラウドのソリューションアーキテクトおよび、データエンジニアとしてのスキルを磨くことが出来ます。
それでは次に、クラウド上でよく利用する技術および用途について、ご紹介していきます。
ネットワーク
仮想ネットワークを構築し、オンプレ環境や既存クラウド環境との専用線接続の設定などの経路設計。
ファイアウォール、通信の暗号化などのセキュリティ対策。
![](https://assets.st-note.com/img/1673431535544-FMPhkkDLxu.jpg?width=1200)
コンピューティング
BI、ETL、データウェアハウス/データマートなどのため、予算・用途などに応じた仮想サーバを選定し、構築します。
IaaSとPaaS/SaaSの使い分けは状況に応じて変わります。
IaaSを使うケースは例えば以下です。
既存のオンプレで構築したシステムのリフト&シフト。
コストの都合上、一つのインスタンス上でBIとETLなど複数の用途で利用。
PaaS/SaaSを使うケースは、上記の制約なくクラウド上のマネージドなサービスを使いたい場合などです。
![](https://assets.st-note.com/img/1673431535305-irs3YWznPo.jpg?width=1200)
管理とガバナンス
ログ収集、モニタリング、アラームの設定、コスト管理に利用します。
![](https://assets.st-note.com/img/1673431535402-Ce3Yb6vRGD.jpg?width=1200)
アカウントと操作権限
アカウント作成、操作権限の付与に利用します。
ユーザー企業のActiveDirectoryとのシングルサインオンに利用します。
![](https://assets.st-note.com/img/1673431535513-mBhV2bIDFi.jpg?width=1200)
ストレージ
主に以下などの用途のため、クラウドストレージを利用します。
データレイクのデータ保存。
データウェアハウスへデータ格納する前の作業環境。
データウェアハウス上にある外部テーブルの実ファイルの保存。
ログデータの保存。
データウェアハウスや仮想サーバのバックアップファイルの保存。
![](https://assets.st-note.com/img/1673431535443-IdTX7HObAT.jpg?width=1200)
ETL
ETLでは、以下の技術を用います。
収集するタイミングはバッチ(定期)とストリーミング(即時)の内、主にバッチ(定期)です。
IaaS、PaaS/SaaSとの使い分けは、コンピューティングの項目で記載した通りとなります。
また、プログラム言語は以下をよく利用します。
- SQL
- BAT
- Power Shell
- Python
![](https://assets.st-note.com/img/1673431535113-bjvKf5DIIM.jpg?width=1200)
データレイク
ストレージ上にETLで収集した生データを保存します。
データウェアハウス
構造化データの保存。
データウェアハウスへのデータ保存方法には以下の2種類があります。
- データをデータウェアハウス上にロードし保存。
- データレイク上に保存したデータをデータカタログ上でタグ付けし、外部参照。利用用途や予算に応じてサイジング、冗長構成します。
RedShift(AWS)、BigQuery(Google)、Azure Synapse Analytics(Azure)などのPaaSをよく利用します。既存システムのリフト&シフトなど状況に応じ、IaaS上にDWHやOracleなどのデータベースをインストールし利用する場合もあります。
保存データに対するSQLを使っての加工~集計などのデータ操作。
![](https://assets.st-note.com/img/1673431535502-DxeULbxBkJ.jpg?width=1200)
BI
経営指標、販売実績などを定型フォーマットで可視化する際や、ユーザーのマーケティング部門のアドホック分析および共有にBIを利用します
Tableau、PowerBI、MotionBoardなど、さまざまなBIツールを使用します。クラウドのSaaSは、Looker(Google)やQuickSight(AWS)などがあります。
![](https://assets.st-note.com/img/1673431535553-rR4IH0LKZ6.jpg?width=1200)
Microsoft 365
Microsoft 365を利用し、データウェアハウスへの入力や、Microsoft Teamsでのプッシュ型の情報提供などを行います。例えば以下です。
PowerApps
PowerAppsはローコード・ノーコードでのブラウザアプリを開発できるツールです。Accessの後継ツールの位置づけです。PowerAppsで予算データの入力画面を開発しデータウェアハウスに入力できるようにします。
Teams
ETLと連携し、売上日報をTeamsのチャット上に投稿するなどプッシュ型の情報提供を行います。
![](https://assets.st-note.com/img/1673431535117-QiJrLDJE9c.jpg?width=1200)
スキル習得方法について
これまでご紹介した通り、ジールでは幅広い分野の技術を扱っていますので、新しい技術をキャッチアップしていくことが必要です。もちろん会社としてもスキル習得を支援する制度も整えております。
研修および自習
案件への配属前に研修プログラムおよび自習期間を設けています。
自己啓発および資格受験費用の費用負担
書籍購入などの自己啓発に関する一定の費用補助や、国家資格やベンダー資格の受験費用を会社が負担しています。
チャレンジ促進施策
高レベルの資格に対する勉強や、コンクール、コンペに向けての工数を申請ベースで確保できます。
検証環境
一部組織ではクラウドの検証環境を用意し、一定額までは自由に検証環境を利用できます。
最後に
今回ジールで扱う技術用語についてご紹介しました。
上述したスキル領域の他、AIやデータサイエンスなど、最先端のデータエンジニアリングについても案件および専門の部署があり、ジールは手を挙げるとチャレンジできる環境です。