python csvファイル読み込みのあれこれ
こんばんは。
本日は現役でデータアナリストとして活動している私が日常的に使用しているpythonの技術の紹介をしていこうと思っています。
主にpythonのpandasでの技術をシリーズ化して配信していこうと思っておりますのでぜひこれからpythonでデータ分析をしてみたいという方に参考になれば嬉しいです。
それでは本日のお題は〜!?
「pandasでCSVファイルの読み込みをしてみよう」です!
データ分析をしていく上で一番大事なこと。
csvファイルをdfに入れ込み加工可能な形に落とし込む作業です。
それでは実際のコードを紹介していきコメントしていきますね!
①とりあえずpandasをインポート!
import pandas as pd
pandasをインポートしないことにはdfにcsvデータを読み込ませることができないのでこれは必須実行です!
②CSVファイルを読み込もう!
df = pd.read_csv('sample.csv')
df
ではここで一つずつ解説です!
まずこれは何をしているのかというと、
dfという名前のデータフレームにsampleという名前のcsvファイルのデータを取り込んでくださいという命令を出しているコードになります!
特に難しいことではないかなと思いますが、必要に応じて書き換えが必要な場所を書いておきますね!
①「df」の部分!
ここは任意のデータフレーム名でいいです!
ただあまりにも適当に書きすぎると後々、あれ?これなんのデータフレームだっけとなってしまうのでデータの特徴を捉えた名前にしておくと便利ですよ!
Ex)ユーザーのIDリストなどの場合:user_id = pd.read~~~にするなど!
②('sample.csv')の部分!
ここには読み込みたいcsvファイルのパスコードを入れます!
絶対パスでも相対パスでもどちらでもいいですが慣れないうちは絶対パスを入れてどこから読み込んでいるのかわかるようにしておくと便利かもしれません!
念の為ファイルのパスコードをコピーする方法を記載しておきます。
Shift + 右クリックでパスのコピーとでてきますのでそちらでクリックしてください。
Macをお使いの方でマウスを使用していない方はファイルを選択した状態で「option + command + C」でコピーできます!
基本作業としてはこれだけです!
csvファイルを読み込むこと自体は難しいことではありません。
なのでここで一つファイルを読み込むときに知っておくと便利なコードを何個か紹介しておきます!
①headerのないファイルにヘッダーを付与してファイルを読み込む方法
df = read_csv('sample.csv', header=None, names=['user_id', 'user_name'])
header=None
これは今から読み込むファイルにはヘッダーがないよという命令
name=['user_id', 'user_name']
これは各データ列に名前を付与しています。
dfの左から順にuser_id,user_nameとカラム名が付与されることになります。
その他にも便利なコードあるのでコードだけ紹介
#ヘッダーの有無に関係なくヘッダーがないcsvとして読み込む場合のコード
df = pd.read_csv('sample.csv', header=None)
#csvファイルの1行目を読み込みカラム名にしないかつdf内にデータとしていれない場合のコード
df = pd.read_csv('sample', header=None, skiprows=1)
②csvファイル内の特定のカラムだけ読み込む場合
df = pd.read_csv('sample.csv', usecols=['user_id', 'user_name'])
このコードが意味していることとしては
sampleというCSVファイル内のuser_id列とuser_name列のデータだけdfという名前のデータフレームにデータを読み込んでください。というコードになります!
なので、任意で書き変える場所としてはusecols=['']の['']の部分ですね!
読み込みたいカラム名を1つ以上書きましょう!
さてあまり長くなりすぎても混乱を招くだけかと思いますので今日はここまで!
質問やわからないことはお気軽に聞いてください!
ではみなさんのデータ分析ライフが輝かしいものになりますように!!