Amazon EMRとは、オープンソースを使用して、データ処理、相互分析、機械学習を行うためのプラットフォームのこと。 ⚪︎クラスタ内のノードを監視し、障害が発生した場合にインスタンスを自動で終了して置き換える。 ⚪︎プライマリノード:クラスタを監視し、ノード間でのデータとタスク分散を調整する。 ⚪︎コアノード:タスクを実行し、データを保存する ⚪︎タスクノード:タスクを実行する。保存機能なし。 ⚪︎対応:Apache Spark、HBase、Presto、Flin
ETLツール =データソースから、データ分析基盤に対して、データを統合するときに発生するプロセスのこと。 Ex)CSVファイルをApacheParquet形式に変換など ⚪︎データカタログ:データソースのメタデータを一元管理するためのデータストア。 Glueを管理するためのテーブル定義、ジョブ定義などが含まれる。 ⚪︎分類子:データ形式を評価してスキーマを推測する。 ⚪︎オートスケーリング機能:あり