見出し画像

データエンジニアリングの勉強に使った教材たち

ここのところ、データエンジニアリング領域のキャッチアップに苦戦してきました。

ビジネス職からデータサイエンティストになったため、エンジニア領域の基礎が全くない状態からのスタートだったので、結構しんどかったです。

様々な技術が勃興してきている領域のため、全体像がどうなっているのか分からん、何から勉強していいのか分からん、、、、と何もわからん状態でした。

まだまだ勉強途上ですが、とりあえず、現時点で役に立った教材たちを紹介してみます。

概論

IBM Data Engineering Professional Certificate

全体がまとまっており、かつ、Hands-onで手を動かしながら学べる教材で、もっとも入門に適していると思いました。

Hands-onが提供されており、RDB/NoSQL/Kafka/Airflow/Sparkなど、自分で環境セッティングする手間が省けて、効率良く学べます。

IBMを冠していますが、IBMのテクノロジーに特化した講座ではないので、ご安心を。

最初からこれをやっておけば、こんなに迷子になることはなかったかもしれません。

Hands-on環境を使うにはCousera Plusに課金(月¥7,106)する必要がありますが、初心者には課金の価値があると思いました。1週間は無料で使えますし、試しにのぞいてみてもよいかもです。

コースの内容は以下の通りです:

  1. Introduction to Data Engineering

  2. Python for Data Science, AI & Development

  3. Python Project for Data Engineering

  4. Introduction to Relational Databases (RDBMS)

  5. Databases and SQL for Data Science with Python

  6. Hands-on Introduction to Linux Commands and Shell Scripting

  7. Relational Database Administration (DBA)

  8. ETL and Data Pipelines with Shell, Airflow and Kafka

  9. Data Warehouse Fundamentals

  10. BI Dashboards with IBM Cognos Analytics and Google Looker

  11. Introduction to NoSQL Databases

  12. Introduction to Big Data with Spark and Hadoop

  13. Machine Learning with Apache Spark

  14. Data Engineering Capstone Project

  15. Generative AI: Elevate your Data Engineering Career

  16. Data Engineering Career Guide and Interview Preparation

実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ

データ基盤構築・運用のポイントが分かりやすくまとまっており、実務でも重宝しています。データエンジニアに関わらず、データ基盤の設計や運用に関わる人におすすめできる本です。

データエンジニアリングの基礎 ―データプロジェクトで失敗しないために

データエンジニアリングにまつわる広範なテクノロジーや論点をコンパクトにまとめた本です。実践的データ基盤への処方箋よりも細かいことまでカバーしています。

読めば読むほど味が出る良い本なのですが、個々の論点に関する細かい説明は省略されているため、初心者が最初に読む本ではない気がしました。

データエンジニア道の俺のバイブル

CARTA MARKETING FIRMのVP of Dataがおすすめするデータエンジニアリングの関連の記事、書籍です。無料で読めるものも多いです。

データアーキテクチャ

Data Mesh Vs. Data Fabric: Understanding the Differences

異なるデータ環境を管理するためのアーキテクチャ(データメッシュ、データファブリック)について解説した記事です。

抽象的なお話しなので、初見で理解するのは厳しいものがありました。
が、データアーキテクチャの設計に関わる際には理解しておいた方が良い内容だと思いました。

大規模データ管理 第2版 ―データ管理と活用のためのモダンなデータアーキテクチャパターン

分散型のデータアーキテクチャの概論、読み出し専用・API・ストリーミングによるデータプロビジョニングに関するアーキテクチャの詳細、データガバナンスが述べられています。

正直、初見だと取っつきにくく全く分かりませんでした・・・。
まだ学習途上ですが、”異なる環境間でどのようにデータを連携するか”、はデータエンジニアリングにおいてかなり重要なトピックであるため、「ちゃんと理解しないとなあ」と思っています。

私が持っているのは第一版ですが、第二版ではデータメッシュなどの最新のアーキテクチャに関するトピックについても触れられているようです。

データ分析基盤まとめ(随時更新)

各企業のデータ基盤の構成をまとめたサイトです。

データモデリング

達人に学ぶDB設計徹底指南書 第2版

RDBに関するデータモデリングについて解説された本。分析に携わる場合、Too Matchな内容かもしれませんが、全体像を理解するのに役立ちます。

データウェアハウスのデータモデリングを整理してみた

RDBでは正規化されたデータモデルが使われますが、データウェアハウスでは非正規化され、読み取りに効率化されたデータモデルが使われます。

DevOps

GitHub CI/CD実践ガイド――持続可能なソフトウェア開発を支えるGitHub Actionsの設計と運用 エンジニア選書

GitHub Actionsを使ってCICDパイプラインを構築するために購入しました。購入当初は「CICDって何それ?」状態でしたが、手を動かしながら進められるので、手触り感を持って理解を深めることができました。後半はまだ読めていないです。

テスト駆動Python 第2版

pytestを使ったテストコード開発のために購入しました。初心者にも分かりやすく書かれているので、前半は躓くことなく読み進められました。後半はまだ読んでいません。

NoSQL

各NoSQL(KVS、ドキュメントDB、グラフDB)とRDBとの違いを理解することができます。

勉強会・コミュニティ

Data Engineering Study

データ分析基盤に関わる人々が登壇して、各トピックについて語る勉強会。

過去の動画がアーカイブされています。

DataOps Night

運用も含めてデータを用いて価値を出すために奮闘するエンジニアを集めて知見を共有する勉強会。

積読

実践ドメイン駆動設計

Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems

データマネジメント知識体系ガイド 第二版 改定新版


いいなと思ったら応援しよう!

まーさん/Data Scientist@多国籍チーム
気に入っていただけたらサポートお願いします!