
Apache Sparkがビッグデータ処理エンジンとしてコスパ良すぎる
ApacheSparkとは?
Sparkはバッチ処理からストリーミング処理まで1つで完結することができる単一コンピューティングエンジンです。Python、Java、R言語、Scalaで記述をすることができ、データ系の開発におけるスタンダードなツールとなっています。
ビッグデータにおいて幅広く行われているアクティビティである
・ETL
・データ品質測定/データプロファイリング
・ストリーミング
・機械学習やAI
といった作業を一つでこなしてくれます。
機械学習やAIや他のデータ系のアクティビティにはもはや必須と言っても良いでしょう。
多くの海外の企業はSparkを利用してデータの活動を行っています。
Sparkと組み合わせることができる言語
Sparkはエンジンなので、他のプログラミング言語と掛け合わせることで効力を発揮することが可能です。
組み合わせ可能な言語は「Python」「Java」「Scala」の3種類です。
特にPythonとの組み合わせをPySparkと呼ばれています。
速度的にはやはり「Scala」や「Java」のほうがメモリ効率が良いため早いのですが、大抵のシステムではPySparkで事足りることが多いです。
事実私自身も数TB/Dayのバッチ処理や、10000rpsくらいのストリーミング処理はPySpark で記述しています。
Pythonであれば、現在学習している人も多いでしょうし、労力を最低限にしてビッグデータの分野へ参入することができます。
学ぶためには?
1. Udemyなどのオンラインコースで学ぶ。
恐縮ですが私の作成したコースがあります。PySparkに少しでも興味を持っている人は是非コースを受講してみてください。
2. 書籍で学ぶ
体系的にまとまっている本です。
ビッグデータ分野をリードしてきた食らうデラ社によるテクニカルレビューを通している本格的な本です。
3. サポートを受ける
メンタ経由でのアドバイスやサポートも行っています。
よろしかったらこちらもご利用ください。