お手軽にビッグデータの世界へPySparkをローカル環境で楽しむための環境構築手順を作成しました

2021年11月29日 21:32

こんにはYUKIです。

今回は様々な人がビッグデータの世界を簡単に触れられるように分散処理フレームワークであるSparkとPythonを組み合わせたPySparkの環境構築をまとめました。

上から順番に手順をこなしていくことによって、環境構築ができるようになっています。
少し玄人向けですが、環境構築から楽しめます。

今回はホストのマシンに直接インストールするタイプになっていますが、Mysqlをメタデータストアとして設定したり、分析用のログ出力をしたりするための手順が盛り込まれています。

Docker.ipynb

お手軽に始めたい方は環境設定されたDockerを使って構築することも可能です

きっと普段使っているPythonの世界にプラスの効果があるはずです。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」

「【PythonとSparkで始めるデータマネジメント入門】ビッグデータレイクのための統合メタデータ管理入門」