pandas_1(ベクトルと行列)
初投稿です。
今後は僕の興味のあることを投稿していこうと思います。
当分はpythonや機械学習のことを記事にしたいと思います。
はじめに
pythonでデータ分析を行う際、csvやExcelファイルをpythonに
読み込む必要があります。
そこで、絶対に必要なのが・・・
pandasです。
pandasとはライブラリになります。
ライブラリとは必要な機能を使いやすくしたものです。
pythonでデータ分析を行ううえで最重要と言っても過言ではないでしょう。
ライブラリ??
pythonといっても用途は様々です。
データ分析、機械学習、スクレイピング、業務の効率化や自動化・・・
数え出したらキリがありません。
そこで用途にあった機能を持ったライブラリを使用することで
効率よくpythonを使用することができます。
そしてpandasはデータ分析を行う際、非常に重宝するライブラリです。
データを取り込んだり、保存したり、加工したり、集計したりすること
が可能になります。
データ分析というよりも分析の前処理に使用されることが
多いかもしれません。
データ分析には、データ分析用のライブラリを使用します。
それについては今後、記事にしたいと思っています!!
ここまでの説明だとpandasはExcelと何が違うの?
と思われる方がいると思います。
四則演算や簡単なグラフ作成レベルならExcelで十分です。
しかし、データ分析用に前処理するにはpandasがおすすめです。
今回のモチベーション
今回はpandasにおいて基本中の基本である、
・Series型(ベクトル)
・DataFrame型(行列)
この2つについてコードを書いてみます。
それでは本題です。
まずvectorsという変数にベクトルを定義します。
次にmatrixという変数に行列を定義します。
この2つができるようになるのが本日のモチベーションです!
専門家ではないので行列とはどういうものである!みたいな説明は
しません。というか、できません・・・。
コードを紹介するだけです。
pandasをimport
pythonでpandasを使用するには、まずインポートする必要があります。
いきなりimportと聞くと意味がわからないかもしれませんが、あまり深く
考えすぎずに
ライブラリをpythonで使用するためのおまじないと思ってください。
コードは以下になります。
import pandas as pd
これだけです。簡単です。
これでpandasが使用できます。このコードを日本語で言うなら
pandasをimportするよ。いちいちpandasって書くのはめんどくさいから今後はpdって書くよ
です。
Series型(ベクトル)
それではSeries型の書き方です。
vectorsという変数に[1,2,3]というベクトルを定義したいと思います。
コードは以下のとおりです。
vectors = pd.Series([1,2,3])
()の中に[]を入れるのを忘れない様ににしてください。
こんな感じになります。
是非、自分で書いてみるなりコピペするなりしてみてください。
DataFraame型(行列)
次にデータフレーム型です。
実はSeries型はほとんど使用しません。DataFrame型を多用します。
それではmatrixという変数に以下のような行列を定義します。
書き方は2通りあります。
1つ目の方法をmatrix1、2つ目の方法をmatrix2とします。
まずはmatrix1。
matrix1 = pd.DataFrame([[1,4],[2,5],[3,6]],columns = ['A','B'])
これは
[[1,4],[2,5],[3,6]] ←この部分で
行ベクトルを3つ並べています。
そして、columns = ['A','B'] ←この部分で
各列の名前を決めています。
こうなります。
次はmatrix2です。
matrix2 = pd.DataFrame({
'A':[1,2,3],
'B':[4,5,6]
})
先ほどとは少し書き方が異なります。
matrix1との大きな違いは()の中が{}です。
そしてmatrix1では行ベクトルを3つ並べていましたがmatrix2では
列ベクトルを2つ並べています。
そして列名の付け方も違います。
{}の中はカンマで区切られています。
これはそれぞれのベクトルを区切るためです。
そして各ベクトルを表記する部分はコロン(:)で区切られていて
前がkey(列名)、後ろがvalue(列ベクトル)になっています。
このようになります。
僕のイメージとしてはmatix1では行ベクトル、matrix2では列ベクトルを
並べた感覚です。
さいごに
今回は基本中の基本であるSeries型とDataFrame型について
記事を書いてみました。
最初なので読みづらいところや分かりづらいところがあるかもしれませんが
徐々に改善していきます。
次回はExcelデータのインポートをやってみようかなと思います。
この記事が気に入ったらサポートをしてみませんか?