データフレームのイメージ
今日は、『入門者のPython』12章で学んだことをアウトプットします。
12章では、CSVファイルのデータの分析を行います。
まずは「データフレーム」を作成する
Pythonでデータ分析を行うには、最初に、分析対象となるデータから、”分析用のデータの集まり”を作成するように決められています。このデータの集まりのことは、専門用語で「データフレーム」と呼びます。表形式のデータであり、それに分析用の各種関数が付与されたイメージです。
なお、厳密に言えば、データフレームはオブジェクトです。分析用の各種関数はメソッドになります。
データフレームの作成方法は、分析対象となるデータの形式ごとに何とおりかあります。今回のようにCSVファイルから作成するには、「pandas」モジュールの「read_csv」関数を用います。
データフレームオブジェクトを戻り値として変数に受け取る
作成されるデータフレームは、pandas.read_csv関数の戻り値として得られます。通常は戻り値を変数に代入し、その変数をデータフレームとして、以降の処理に用います。
なるほど。データフレームはオブジェクト。そして、オブジェクトが戻り値として得られる。その戻り値を変数に代入し、以降の処理に用いると。この辺りは先日学んだことですね。
データフレームを受け取るので、変数名はdfとすると、以下のような書式になりますね。
df = pandas.read_csv(CSVファイル名)
データフレーム(df)に関しても、過去に『Python2年生』で学んだことがありましたが、データフレームがオブジェクトであることは初めて知りました。
また、分析にあたっては、データフレーム(”分析用のデータの集まり”)を作成する必要があり、表形式のデータに分析用のメソッドが付与されたものをイメージすると理解しやすいと感じました。
いいなと思ったら応援しよう!
サポート、本当にありがとうございます。サポートしていただいた金額は、知的サイドハッスルとして取り組んでいる、個人研究の費用に充てさせていただきますね♪