データ分析の知識体系を1記事だけ読んで把握できる!(1)
データ分析とは? どんなスキルを身につければいいのか? データ分析はどのように行うのか? 本稿では、データ分析の定義から始まり、思考モデルや古典的な分析モデル・指標体系を詳細に紹介することで、データ分析の知識体系を包括的に解説しています。
一 データ分析とは
データ分析とは、ある目的を持って表現された文字や符号、数値なを収集し、統計やマイニング技術を使用してその集めたデータを分類、整理、成型、取捨選択し、解釈することです。 データ分析は、価値のある情報を抽出し、結論を導き出すために、データを詳細に研究し、要約するプロセスです。
1 データの定義
データは論拠・基礎資料、実験や観察などによって得られた事実や科学的数値とされている。科学技術の発展に伴い、データの概念的な意味がますます広くなっていて、数値、テキスト、音声、画像、ビデオなども含まれています。
データは定性的データと定量的データに分けられます。
定量データはさらに、順序尺度、間隔尺度、比例尺度に分けることができます
順序尺度(Ordinal data ):順序尺度とは並び順に意味がある尺度で、大小関係はありますが、間隔には意味はない尺度です。例えば、売り上げランキングの順位や成績の5段階評価など、順序関係を持ちますが、値同士の差に意味はありません。
間隔尺度(Interval data):データの間隔に意味があるもので、ゼロもひとつの状態にすぎないデータ。足し算と引き算はできるが、掛け算と割り算はできません。例えば、テストの点数、時刻、年齢など。
比例尺度(Ratio data):データの比率に意味があるもので、ゼロが何もないことを意味するデータ。例えば、身長、体重、速度、経過時間など。
2 データ分析年表
コンピュータ時代の到来
コンピュータと計算機技術の発達により、データ分析のプロセスは大幅に改善されました。コンピュータが使用される以前の1880年、米国国勢調査局は収集した情報を処理して最終報告書を完成させるのに7年かかりました。コンピュータを使い、1890年の国勢調査は1年半で完了しました。
リレーショナルデータベースの誕生
リレーショナルデータベースは、1970年代にEdgar F. Coddによって発明され、1980年代に大流行しました。 リレーショナルデータベース(RDBM)は、ユーザーがSequel(SQL)を書き、そのデータベースからデータを取り出すことができることです。 リレーショナルデータベースやSQLは、オンデマンドでデータ分析ができるという利点があり、現在でも広く使われています。 使い勝手がよく、正確な記録のメインテナンスに非常に有効です。
データウェアハウスの誕生
1980年代後半になると、ハードディスクドライブの低価格化により、収集されるデータ量は大幅に増え続けました。 この間、オペレーティングシステム(OS)から意思決定支援システムへのデータ変換を支援するデータウェアハウスのアーキテクチャが開発されました。 データウェアハウスは、多くの場合、クラウドの一部であったり、組織のメインフレームサーバーの一部であったりします。リレーショナルデータベースとは異なり、データウェアハウスはクエリに素早く反応するように最適化されていることが多いです。
ビジネスインテリジェンス(BI)の台頭
1980年代から1990年代にかけては、数十社のBIベンダーが市場に参入していました。 データウェアハウス技術の発達により、ビジネスインテリジェンスが大きく向上し、従来さまざまな場所に保管されていたビジネスデータが一つにまとめられるようになったのです。 また、ETL(データ抽出、変換、ロード)、OLAP(オンライン分析処理)などの技術も登場しました。
データマイニングの発展
データマイニングは1990年代に始まり、当時のいくつかの分野の発展の上に成り立っています。 データベース技術の発展につれ、データの蓄積は膨れ上がり、単純なクエリーや統計では企業のビジネスニーズに応えられなくなり、データの裏にある情報を掘り起こす画期的な技術が急務となったのです。
ビッグデータの登場
2000年から2010年までは、ビッグデータが登場して注目された時期でした。 GoogleはGoogle File System、MapReduce、BigTableがあって、AmazonはDynamoシステムの論文を発表していました。 これらの論文は、ビッグデータ時代の礎を築いました。 ビッグデータの出現により、膨大のデータと、企業がデータをインサイトに変えるための新しい技術開発が行われました。
データサイエンティスト
2012年9月、Tom DavenportとDJ Patilは、『Harvard Business Review』に「 Data Scientist: The Sexiest Job of the 21st Century」を発言しました。
拡張分析
2017年、Rita Sallman、Cindi Howson、Carlie IdoniesはGartnerの研究報告書で拡張分析の概念を紹介し、機械学習と自然言語生成(NLG)を使って洞察を自動化するデータ分析の新しい方法と説明した。 拡張分析は、データ解析の効率を大幅に向上させ、データ解析の敷居を下げ、誰もがデータサイエンティストのように自動的にデータを多次元でドリルダウンし、様々なモデルを自動的にロードしてより深く分析することを可能にします。
3 データ分析 VS データサインスVS BI
BI(Business intelligence )
生データを取得、処理、変換し、ビジネス行動を導くための価値ある情報に変換することで、ビジネス分析に使用される技術やツールを広く指します。 ウィキペディアでは、「事業上の意思決定のために情報を分析して得られる知見およびそれを得る機構」と定義しています。
データサイエンス(data science)
データサイエンスは、大量の生データや構造化データから実用的な知見を見出すことに重点を置く複合的な分野である。 この分野では、私たちがまだ気づいていないことの答えを明らかにすることに主眼を置いています。 応用数学、統計学、パターン認識、機械学習、データ可視化、データウェアハウス、高性能計算など、多くの分野の理論や技術を組み合わせています。 データサイエンスは、専門家ではない人が、関連するさまざまなデータを使って問題を理解することを支援します。
データ分析、BI、データサイエンスの関係
データ分析は、データサイエンスを包含するかなり広い分野である。 データサイエンスは比較的新しい用語ですが、従来のデータ分析に比べると、どちらもデータから知識や洞察を得るもので、使用するスキルやアプローチに多少の違いがあるだけです。
すべてのデータ分析が商業的であるわけではないので、両者の間には明確な交点があります。
ビジネス分析ではないが、データ分析であるデータサイエンスプロセスがある。 例えば、石油業界の「掘削作業の最適化」では、データサイエンスのツールや技術が必要であり、データサイエンティストの日常業務の一部となっています。 しかし、これはビジネス分析ではありません。
4 データアナリストVSデータサイエンティスト
データアナリストとデータサイエンティストはどちらもデータを扱うが、主な違いはデータの処理である。 データアナリストは、巨大なデータ群を調査して傾向を把握し、チャートを作成し、視覚的に表現することで、企業がよりよい意思決定を行えるよう支援します。 一方、データサイエンティストは、プロトタイプ、アルゴリズム、予測モデル、カスタム分析を用いて、新しいデータモデリングと生産プロセスを設計・構築します。
データサイエンティスト、データエンジニア、ソフトウェアエンジニアのスキルマップ
これまでは第一部分です。残りの部分(データ分析の意義と流れ、分析モデル)は明日更新します。
今回は、
データ分析の定義
データ分析の歴史
データサインス、BI(ビジネスインテリジェンス)の定義
データ分析、データサインスとBIの関係
データアナリストとデータサイエンティストの違い
を紹介しました~
上記がお役に立てるのであれば、『IT視界』をフォローしてください~「IT視界」のメッセージに「資料1」を送信すると、データサイエンス/python/DX/などの10冊の電子書籍も無料で獲得できます!