データエンジニアリングの勉強に使った教材たち
ここのところ、データエンジニアリング領域のキャッチアップに苦戦してきました。
ビジネス職からデータサイエンティストになったため、エンジニア領域の基礎が全くない状態からのスタートだったので、結構しんどかったです。
様々な技術が勃興してきている領域のため、全体像がどうなっているのか分からん、何から勉強していいのか分からん、、、、と何もわからん状態でした。
まだまだ勉強途上ですが、とりあえず、現時点で役に立った教材たちを紹介してみます。
概論
IBM Data Engineering Professional Certificate
全体がまとまっており、かつ、Hands-onで手を動かしながら学べる教材で、もっとも入門に適していると思いました。
Hands-onが提供されており、RDB/NoSQL/Kafka/Airflow/Sparkなど、自分で環境セッティングする手間が省けて、効率良く学べます。
IBMを冠していますが、IBMのテクノロジーに特化した講座ではないので、ご安心を。
最初からこれをやっておけば、こんなに迷子になることはなかったかもしれません。
Hands-on環境を使うにはCousera Plusに課金(月¥7,106)する必要がありますが、初心者には課金の価値があると思いました。1週間は無料で使えますし、試しにのぞいてみてもよいかもです。
コースの内容は以下の通りです:
Introduction to Data Engineering
Python for Data Science, AI & Development
Python Project for Data Engineering
Introduction to Relational Databases (RDBMS)
Databases and SQL for Data Science with Python
Hands-on Introduction to Linux Commands and Shell Scripting
Relational Database Administration (DBA)
ETL and Data Pipelines with Shell, Airflow and Kafka
Data Warehouse Fundamentals
BI Dashboards with IBM Cognos Analytics and Google Looker
Introduction to NoSQL Databases
Introduction to Big Data with Spark and Hadoop
Machine Learning with Apache Spark
Data Engineering Capstone Project
Generative AI: Elevate your Data Engineering Career
Data Engineering Career Guide and Interview Preparation
実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
データ基盤構築・運用のポイントが分かりやすくまとまっており、実務でも重宝しています。データエンジニアに関わらず、データ基盤の設計や運用に関わる人におすすめできる本です。
データエンジニアリングの基礎 ―データプロジェクトで失敗しないために
データエンジニアリングにまつわる広範なテクノロジーや論点をコンパクトにまとめた本です。実践的データ基盤への処方箋よりも細かいことまでカバーしています。
読めば読むほど味が出る良い本なのですが、個々の論点に関する細かい説明は省略されているため、初心者が最初に読む本ではない気がしました。
データエンジニア道の俺のバイブル
CARTA MARKETING FIRMのVP of Dataがおすすめするデータエンジニアリングの関連の記事、書籍です。無料で読めるものも多いです。
データアーキテクチャ
Data Mesh Vs. Data Fabric: Understanding the Differences
異なるデータ環境を管理するためのアーキテクチャ(データメッシュ、データファブリック)について解説した記事です。
抽象的なお話しなので、初見で理解するのは厳しいものがありました。
が、データアーキテクチャの設計に関わる際には理解しておいた方が良い内容だと思いました。
大規模データ管理 第2版 ―データ管理と活用のためのモダンなデータアーキテクチャパターン
分散型のデータアーキテクチャの概論、読み出し専用・API・ストリーミングによるデータプロビジョニングに関するアーキテクチャの詳細、データガバナンスが述べられています。
正直、初見だと取っつきにくく全く分かりませんでした・・・。
まだ学習途上ですが、”異なる環境間でどのようにデータを連携するか”、はデータエンジニアリングにおいてかなり重要なトピックであるため、「ちゃんと理解しないとなあ」と思っています。
私が持っているのは第一版ですが、第二版ではデータメッシュなどの最新のアーキテクチャに関するトピックについても触れられているようです。
データ分析基盤まとめ(随時更新)
各企業のデータ基盤の構成をまとめたサイトです。
データモデリング
達人に学ぶDB設計徹底指南書 第2版
RDBに関するデータモデリングについて解説された本。分析に携わる場合、Too Matchな内容かもしれませんが、全体像を理解するのに役立ちます。
データウェアハウスのデータモデリングを整理してみた
RDBでは正規化されたデータモデルが使われますが、データウェアハウスでは非正規化され、読み取りに効率化されたデータモデルが使われます。
DevOps
GitHub CI/CD実践ガイド――持続可能なソフトウェア開発を支えるGitHub Actionsの設計と運用 エンジニア選書
GitHub Actionsを使ってCICDパイプラインを構築するために購入しました。購入当初は「CICDって何それ?」状態でしたが、手を動かしながら進められるので、手触り感を持って理解を深めることができました。後半はまだ読めていないです。
テスト駆動Python 第2版
pytestを使ったテストコード開発のために購入しました。初心者にも分かりやすく書かれているので、前半は躓くことなく読み進められました。後半はまだ読んでいません。
NoSQL
各NoSQL(KVS、ドキュメントDB、グラフDB)とRDBとの違いを理解することができます。
勉強会・コミュニティ
Data Engineering Study
データ分析基盤に関わる人々が登壇して、各トピックについて語る勉強会。
過去の動画がアーカイブされています。
2020/07/15(水)|第1回「モダンなDWH/BIツールの選び方と、実際の運用事例」
2020/08/19(水)|第2回「データ収集基盤とデータ整備のこれまでとこれから」
2020/09/16(水)|第3回「分析基盤をうまく組織に浸透させる方法」
2020/11/04(水)|第4回「データ分析基盤の障害対応事例LT祭り」
2020/12/02(水)|第5回「噂のSnowflake Deep Dive / 国内事例・他DWHとの比較」
2021/02/03(水)|第6回「改めて学ぶ、BigQuery徹底入門」
2021/04/06(火)|第7回「Redshift最新アップデートと活用事例」
2021/06/02(水)|第8回「BIツール特集-OSS・商用の上手い使い分け」
2021/08/03(火)|第9回「企業規模別データエンジニア組織の作り方」
2021/10/06(水)|第10回「王道BIツール特集 Tableau / PowerBI / Googleデータポータル」
2021/12/13(月)|第11回「6社のデータエンジニアが振り返る2021」
2022/02/09(水)|第12回「エンジニアのための「データ可視化」入門」
2022/04/06(水)|第13回「ELT・データモデリングツール特集回」
2022/06/08(水)|第14回「Modern Data Stack特集」
2022/08/03(水)|第15回「Reverse ETL 特集回」
2022/10/19(水)|第16回「データカタログ入門」
2022/12/14(水)|第17回「6社のデータエンジニアが振り返る2022」
2023/02/15(水)|第18回「データ指向アプリケーションデザイン」
2023/04/20(木)|第19回「データエンジニアのキャリアを考える」
2023/06/30(金)|第20回「10年戦えるデータ分析入門」
2023/08/30(金)|第21回「Azureのデータ分析サービスの現在と未来」
2023/12/12(金)|第22回「5社のデータエンジニアが振り返る2023」
2024/03/05(火)|第23回「Data orchestration 特集」
2024/06/27(木)|第24回「データドリブン組織を支える技術」
2024/08/28(水)|第25回「データカタログの現在地」
DataOps Night
運用も含めてデータを用いて価値を出すために奮闘するエンジニアを集めて知見を共有する勉強会。