データ構造の基本
1.記事の内容
読者の方も一度は"AI"や「ビッグデータ」という単語を聞いたことがあるのではないでしょうか。Pythonはデータ分析に優れた言語で、AIやビッグデータ関連の分野で最も人気のあるプログラミング言語です。
データ構造への理解は、AIやビッグデータプログラミングの第一歩となります。何より、プログラミングをする上で欠かすことのできない重要な概念となります。
これから何回かにわたり、Pythonで利用する「データ構造」をシリーズで説明していきます。
2.データ構造と構造化データ
データ構造とは、複数のデータの集まりから、特定のデータを読み込んだり、追加/変更/削除したりするためのデータの整理方法のことです。
大量のデータを扱う場合は、決められた形式でデータを整理しておかないと効率的にデータを扱うことができません。
Pythonには、組み込みのデータ構造として、リスト、辞書、タプル、集合の4つのデータ構造が用意されています。
中でもリストと辞書は重要です。
繰り返し処理(ループ)の制御、アプリケーションのプロパティ管理、APIを介した他システムとの連携、クラウド上に構築するシステム構成の定義、検索エンジンなどのビッグデータの処理、など、あらゆる場面で利用されます。
また、これらのデータ構造の規則で整理されたデータの集まりを、構造化されたデータ(構造化データ)といいます。
以降の記事では、これら4つのデータ構造と、基本的な使い方について説明していきます。
---以下、補足---
「組み込み」というのは、最初からPythonに組み込まれている機能のことです。
組み込みに対して、ユーザがプログラミングで作った機能は「ユーザ定義」の機能といいます。Pythonはプログラムの再利用が簡単にできるよう設計された言語で、日々、世界中の人がいろいろなユーザ定義の機能を作りこんでいます。そしてこれらの機能は、自分のプログラムに取り込んで簡単に再利用することができる仕組が用意されています。
AIやデータ分析では、pandasやnumpyなどのデータ構造の仕組を使いますが、どちらもユーザ定義の機能となります。
------------