見出し画像

AWS:EMR 触ってみたよ

みなさん、こんにちは。ちゃみみです。

今日は、データアナリティクスを勉強していることもあってAWS EMRをちょっと触ってみました。
暗号化周りとか構成とかどうなってるん?って部分は結局触ってみないとわからないことも多くて記録として残したい意図もありやってみました。

そもそもEMRってオープンソースのフレームワークを利用してビッグデータを解析・分析したいするサービスなんですよね。かなりざっくりですが。

基本的な構成として、EC2でを寄せ集めた形で上記の作業をするそうですが、大まかにカテゴリとして分けられており、以下の3つに分類されます。
・マスターノード
→クラスターを管理し、通常は分散アプリケーションのマスターコンポーネントを実行したり、ジョブのステータスを追跡したりする。

・コアノード
→このノードは、マスターノードで管理されデータノードデーモンを実行して、Hadoop Distributed File System (HDFS)の一部としてデータストレージを調整したり、さらにタスクトラッカーデーモンを実行し、インストールされているアプリケーションが要求するデータ上で、その他の並列計算タスクを実行する。

・タスクノード
→Hadoop MapReduce タスクや Spark エグゼキューターなど、データに対して並列計算タスクを実行するためのパワーを追加できる。≒コアノードのサポートみたいな奴らしいw

このノードシリーズは、よく試験でも問われるケースが多くて使うのがEC2インスタンスということもあって、コストパフォーマンスを意識したときにどれがスポットインスタンスを使うのがベターか?というようなニュアンスで聞かれるケースもあるようです。
ポイントとしてはタスクノードがそれに該当しておりコアノードでもやってやれないことは、無いですがやるとどこかのタイミングでスポットインスタンスが死ぬとタスクを実行できるやつがいなくなるのでコアやマスターは、リザーブドを使うケースで間違いないと思います。

ではさっそく、EMRを作ってみましょう。
EMRダッシュボードでクラスター作成をクリックします。

今回は、クイック作成ではなくて詳細をもろもろいじれる実戦形式での作成をしてみました。
設定値は、一旦仮で適当に入れています。ここでは、こういった設定項目があってこれを検討しなくてはいけないんだな!という理解を深めてもらおうと思います。



これで全部の設定は、完了です。
後半にセキュリティ設定という者があったかと思いますがこれは、どうやら別枠で設定しておくシロモノ(テンプレートちっくに)のようで、先に構築しておく必要があります。
内容としては、こんな感じです。

この暗号化でちょいちょい出てくるのがEMRFSとかローカルディスクが云々というのが多いのですが、私の解釈でEMRFSは、S3(を使用する場合、データを直接書き込む?らしい)でローカルディスク(EC2で構成されているのでEBS)という位置づけでいつも文章を読むようにしています。

でこの暗号化ってのが、意外と種類が多いのでさらっとまとめてみました。
◆EMRFS(S3使用)
・S3サーバー側の暗号化
・S3クライアント側の暗号化
◆ローカルディスク
・インスタンスストアの暗号化(ローカルディスクの暗号化が有効になるとLUKSで暗号化される)
・EBSボリュームの暗号化(EBS暗号化orLUKS暗号化)
◆転送時の暗号化
・アプリケーション固有のものでリリースによっていろいろ異なるのでナレッジ見てね!(∀`*ゞ)テヘッ
URL:https://docs.aws.amazon.com/ja_jp/emr/latest/ManagementGuide/emr-data-encryption-options.html
という感じらしいのでこのあたりを整理しておいてもよいと思います。

2021年10月31日

以下、宣伝です。
仲間も募集中なので、気になる方は↓の記事を覗いてみてくださいませ。
いい会社だと思いますよ。


いいなと思ったら応援しよう!