お手軽にビッグデータの世界へPySparkをローカル環境で楽しむための環境構築手順を作成しました
こんにはYUKIです。
今回は様々な人がビッグデータの世界を簡単に触れられるように分散処理フレームワークであるSparkとPythonを組み合わせたPySparkの環境構築をまとめました。
setting.ipynb
上から順番に手順をこなしていくことによって、環境構築ができるようになっています。
少し玄人向けですが、環境構築から楽しめます。
今回はホストのマシンに直接インストールするタイプになっていますが、Mysqlをメタデータストアとして設定したり、分析用のログ出力をしたりするための手順が盛り込まれています。
Docker.ipynb
お手軽に始めたい方は環境設定されたDockerを使って構築することも可能です
きっと普段使っているPythonの世界にプラスの効果があるはずです。
PySparkの基本を学びたい方
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」
PySparkを使ってデータ管理(データマネジメント)を真面目にやりたい方
「【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門」