見出し画像

【第22話】Databricks_NULL値の数え方

Databricks Certified Data Engineer Associate試験に挑戦している皆さん、こんにちは。今回は、架空のキャラクターたちが会話形式でNULL値の数え方について学びます。それでは、始めましょう。

スキーマオ:「悪いなのびデータ、このNULL値の数え方は3人までしか理解できないんだよ」


のびデータ:「またスキーマオに意地悪された~!」

ジョブアン:「おれのデータはおれのもの、お前のデータもおれのもの・・・!NULL値の数え方ってどうやるんだ?」

スキーマオ:「DataFrameの特定の列でNULLの値を持つ行の数を数えるためにcount関数を使えばいいだけだよ。」

ジョブアン:「なるほど、それは便利だぜ。でも、どうやって使うんだ?」

スキーマオ:「DataFrameの列名を引数として渡すだけだよ。例えば、df.countWhere(“age is null”)とすると、"age"列でNULLの値を持つ行の数が返されるよ。」

ジョブアン:「でも、スキーマオ。NULL値があるとデータ分析に影響があるんだぜ?」

スキーマオ:「その通りだよ、ジョブアン。NULL値はデータが存在しないことを示すから、それがあるとデータ分析の結果が正確でなくなる可能性があるんだ。」

ジョブアン:「なるほど、だからNULL値の数を数えることが重要なんだな。でも、NULL値を見つけたらどうすればいいんだ?」

スキーマオ:「それは状況によるよ。NULL値をそのままにするか、他の値で置き換えるか、またはその行を削除するかを決める必要があるんだ。」

ジョブアン:「他の値で置き換えるって、具体的にはどういうことだぜ?」

スキーマオ:「例えば、年齢のデータでNULL値がある場合、そのNULL値を平均年齢や中央値で置き換えることができるよ。これを平均値代入や中央値代入と呼ぶんだ。」

ジョブアン:「なるほど、それならデータの全体像が大きく変わらないな。でも、その行を削除するとはどういうことだ?」

スキーマオ:「それは、NULL値を含む行をデータセットから完全に削除することを意味するよ。ただし、これを行うとデータが少なくなる可能性があるから注意が必要だよ。」

ジョブアン:「おれのデータはおれのもの、お前のデータもおれのもの・・・!でも、今回はスキーマオに感謝するぜ。」

のびデータ:「世の中で、ぼくほど不幸な人があるだろうか……。でも、今回は二人の説明で完全に理解したよ!繰り返すね。
NULL値はデータが存在しないことを示すから、それがあるとデータ分析の結果が正確でなくなる可能性があるんだよね。そして、NULL値を見つけたら、そのままにするか、他の値で置き換えるか、またはその行を削除するかを決める必要があるんだ。他の値で置き換える場合は、平均年齢や中央値で置き換えることができる。これを平均値代入や中央値代入と呼ぶんだよね。その行を削除するとは、NULL値を含む行をデータセットから完全に削除することを意味するんだ。ただし、これを行うとデータが少なくなる可能性があるから注意が必要だよね。」

皆さん、会話を楽しんでいただけましたか?イメージをつきやすくするために、一部正確ではない表現が含まれていることをご理解ください。試験に役立つことを願っています。

<補足> Databricks_NULL値の数え方は、Apache SparkのDataFrame APIの一部であり、大量のデータを効率的に処理するための強力なツールです。詳細な情報は、公式ドキュメントをご覧ください。

この記事が気に入ったらサポートをしてみませんか?