見出し画像

ビジネスデータ分析 3つの基本表と基本加工(1)1対1基本表

はじめに

基幹系システム(以下、基幹系)に格納されている業務データ(以下、ビジネスデータ)をさまざまな視点で分析する要求は、昔からありました。その要求への応え方は、IT技術の発達度によって変わりました。ざっくりいえば、次の1~3のように変遷しました。
 ※以下、次のように略します。
   Microsoft → MS、Microsoft Excel → Excel
   Business Intelligence → BI、Data Warehouse → DWH

  1. ~1990年代前半(MS WindowsやExcel が使われる前)
     当時は、ホスト・コンピュータやオフィス・コンピュータなどが使われていました。業務ユーザーは、紙に印刷された分析レポートをつかっていました。そのレポートを印刷するプログラムを、IT技術者が設計・実装していました。

  2. 1990年代後半~(Excel が使えるようになった後)
     業務ユーザーは、DBサーバーからPCに出力したCSVファイルなどをExcel に取り込んでデータ分析していました。そのファイルを出力するプログラムを、IT技術者が設計・実装していました。

  3. 2000年代~(BIツールとDWHが使えるようになった後)
     業務ユーザは、BIツールを使ってDWHのデータを直接分析していました。IT技術者は、主にDWHや(定型的な)BIレポートを設計・実装していました。

なお、上記3のようなBIツールとDWHを組み合わせたシステムを「情報系システム」(以下、情報系)と私は呼んでいます。

この情報系は、基幹系とは別の専用サーバーで動くのが一般的です。なぜなら、少し前までのIT技術では、情報系と基幹系が共存できるほどの処理性能が得らなかったため。上記どおり、2000年代は情報系と基幹系が別々に設計・実装されるのが「当たり前」になったためか、情報系と基幹系の両方に対応できるIT技術者がかなり少ない、と感じています。

しかし、今はIT技術の発達により、情報系と基幹系の両方を1つのサーバーで実装しても、業績ユーザーの要求を満たしやすくなりました(※)。情報系と基幹系の両方に、(広く薄くてよいので)対応できるスキルがIT技術者に求められます。

 ※コスト面の制約やその他の理由により、基幹系とは別に専用の情報系を設計・実装することは、まだ多いです。

基幹系にあるのはビジネスデータです。そのデータを使って情報系で分析し、業務ユーザーは業務に、経営者や管理職は経営に役立てます。そのビジネスデータ分析では、簡単な四則演算を使うことがほとんどです。データサイエンティストが用いるような難しい統計処理技術などは使いません(使ったとしても、関数などの便利機能として用意されています)。

ビジネスデータ分析で使う加工のうち、9割以上の場面で使う加工の種類を私は「基本加工」と名づけました。基本加工を使いこなせれば、情報系でも通用します。

これらの基本加工と応用について、本記事を含め何回かに分けて紹介します。これらの記事が皆さんが情報系への対応力を身につけるきっかけになれば幸いです。

参考書籍

本記事および以降の記事では、次の2つの書籍を参考にしました。

  1. 『エクセルデータ分析のコツと手法』
    (住中光夫/著、KADOKAWA/出版)

  2. 『計数能力を身に付ける入門編』
    (伊藤史顕/著、ぜんにち/出版)


定義

ビジネスデータ分析

(参考書籍1より抜粋・加工)
ビジネスデータ分析とは、多量に蓄積されたビジネスのデータをいろいろな角度から分析することで問題や課題を発見し、その対策を実務現場で実施する一連のビジネス活動のことです。

ビジネスデータ分析は下記の5つの要素を持った分析手法で、専門知識がなくても誰もが簡単に実施できるデータ分析手法です。

  1. 多量な実務データを利用する

  2. 誰もが使えるExcelを分析ツールとする

  3. いろいろな観点から自在に分析する

  4. 経験を基に一人ひとりが読み解く

  5. 実務現場での対策に活かせる


ビジネスデータ分析と統計学データ分析の違いは、次です。

図A:ビジネスデータ分析と統計学データ分析の違い

数値項目、分析項目

四則演算を使って加工する値(※)をもつ項目を「数値項目」、その他の項目を「分析項目」とします。
 ※後述する合計や平均などができる数値が対象。たとえば、単価や速度などは対象外。

これらの呼び名は著者やツールなどによって異なります。2つの例の場合、数値項目、分析項目をそれぞれ、次のように定義しています。

  • 参考書籍2 :「数値データ」、「項目」

  • SAP BW : 「キー数値」、「特性」

私の記事については、必要に応じて読み替えてください。

1対1基本表

1つの分析項目と1つの数値項目から成る一覧形式の表(以下、一覧表)を、「1対1基本表」と呼びます。

なお、参考書籍2では単に「基本表」としています。私は説明しやすように呼び名を変えました。

データ分析の基本的な進め方

ビジネスデータ分析の基本的な進め方は、参考書籍1に書かれていることを私なりにまとめると次の3ステップです。

  1. DBやPCにある多量のビジネスデータ(一覧表)を取得する

  2. いろいろな角度からデータを加工する(L型マトリックス表など)

  3. 誰もがわかる形(グラフ化など)にする

なお、参考書籍2では、上記2~3で必要な力について次のように定義しています。

  • 上記2 : データ加工力

  • 上記3 : データ読解力 + データ作文力

1対1基本表に対する基本加工

以下、上記2のデータ加工のうち、1対1基本表に対する8つの基本加工についてまとめました。

説明に使う1対1基本表は次です。

図B:説明に使う1対1基本表

基本加工 1 : 合計

1つ目の基本加工は「合計」です。合計値により全体感を掴みます。

図1-1:合計を追加した例

基本加工 2 : 平均

2つ目の基本加工は、合計値を数値項目の値の個数で割って求める「平均」です。平均値により、個々の数値の大きさ感を掴みます。

図2-1:平均を追加した例

なお、ここでいう「平均」は算術平均(または相加平均)のことです。
その他の平均(幾何平均、調和平均、加重平均)については、基本加工に含めません。

基本加工 3 : 並び替え

3つ目の基本加工は「並び替え」です。数値項目の値を小さい順(昇順)または大きい順(降順)に並び替えます。図3-1のように平均と組み合わせれば、上下グループに分けることができます。

図3-1:並び替え(降順)した例

上下グループに分かれることをグラフで「見える化」したのが図3-2です。平均を横棒で表現することで、上下グループが分かりやすくなります。

図3-2:図3-1をグラフ化し、平均を追加した例

なお、図3-2の平均を表現するため、図3-1の1対1基本表に追加加工しています。どのような加工をしているか、皆さん自身で考えてみてください。

基本加工 4 : 指標

4つ目の基本加工は「指標」です。数値項目の値と基準値との差を求めます。

図4-1では、基準値として平均値を使いました。平均との差により図3-2のようなグラフを使わなくてもグループ分けがしやすくなります。基本表の行数が多くてグラフ化が難しい場合に便利です。

図4-1:指標を追加した例

図4-1の表をグラフ化すると、図4-2のようになります。

図4-2:図4-1の表をグラフ化した例

基本加工 5 : 構成比

5つ目の基本加工は「構成比」です。合計値に対する数値項目の値の割合を追加します。これにより、個々の値が全体の何割を占めているか見える化します。

図5-1:構成比を追加した例

基本加工 6 : 累積構成比

6つ目の基本加工は「累積構成比」です。図6-1のように構成比を上から加算した値を追加します。(ABCについては後述します)

図6-1:累積構成比を追加した例

累積構成比を使えば、図6-2のようなグラフに表せます。折れ線グラフにより、棒グラフだけでは読み取れない傾向も分かりやすくなります。

図6-2:図6-1をグラフ化した例

累積構成比は、(在庫管理などの)ABC分析で使えます。基本表の行数が多い場合は重視する対象を絞るのに役立ちます。

図6-1の場合、累積構成比が60%までをAグループ、90%までをBグループ、残りをCグループにしました。グループ分けすることで、営業部員への支援策をグループ別に変えて組織全体の効果を高めやすくなります。

基本加工 7 : 最大、最小、範囲

7つ目の基本加工は「最大、最小、範囲」です。正確にいえば、「最大」、「最小」および「範囲」の3つに分かれます。しかし、私は3つを1つで使うことが多いのでまとめました。なお、「範囲」は最大値と最小値の差です。

基本表の行数が少ない場合は、並び替えすれば加工しなくても最大値と最小値が分かります。しかし、行数が多い場合はひと目で分かるよう、図7-1のように各値を追加します。

図7-1:最大、最小、範囲を追加した例

基本加工 8 : 標準偏差

8つ目の基本加工は「標準偏差」です。標準偏差は、簡単にいえば「バラツキ」の大きさを表します。1つの値だけでは意味がなく、複数の基本表の標準偏差を比較して使います。

図8-1:標準偏差を追加した例

標準偏差は、図Aの分類でいえば、統計学データ分析で使う値です。しかし、私は重要性を踏まえて(注:後述の使う場面を参照)基本加工の一つとしました。

標準偏差を求める式は複雑ですが、便利な関数(Excelなら「=STDEV.S()」など)を使えば簡単に求められます。

「バラツキ」を使う場面の例をいくつか紹介します。

  • リスク・マネジメント
     「ハイリスク・ハイリターン」や「ローリスク・ローリターン」と使う場面が多いと思います。この「ハイ」(High)と「ロー」(Low)がバラツキの大きさを表しています。ハイリスクは、良いリスク(=ハイリターン)と悪いリスクの差が大きく、大きく成功する可能性と大きく失敗する可能性の両方を抱えている状態です。ローリスクは、ハイリスクの逆です。
     このように、リスクを考えるときはバラツキを考慮することが必要です。

  • 品質マネジメント
     「当たり前品質が良い」といえる必須条件の一つに、成果物の出来具合のバラツキが小さい状態、があります。この考え方を使った代表例が、生産管理で使われる管理図です。
     品質マネジメントにおいて、バランスを考慮することが欠かせません。

余談ですが、今のプロジェクトマネジメントでは、リスクと品質が特に特に重視されています。上記どおり、いずれもバラツキが関わります。したがって、同マネジメントにおいて、バラツキを何らかの方法で数値化、つまり標準偏差で表すことが必要です。プロジェクト・マネジャーには標準偏差の理解と活用が求められます。

付録

基本加工とデータモデリング

私の記事『論理的思考 5つの基本- IT基礎編』にある『基礎4:基本設計 その1 - 機能設計』で、図C(図4-1cを再掲)の①〜③の順に考えるのが基本だと書きました。

図C:論理的思考の基本1~3に従って考える順序(EAとの組み合わせ付き)

基本加工は、②または③にあたります。ユーザーの要求やグラフなどが①に該当します。

IT技術面で特に留意したいのが、大量データをBIツールを使って見える化(グラフ化など)する場合。大量データだと「データをダウンロードしてExcelで加工」のような方法が使えません。必然的に、データモデル(注:DBビューを含む)での対応が求められます。

したがって、IT技術者が基本加工に取り組む場合は、データモデリングのスキルも必要になります。試しに、図3-2のグラフを出力するために必要なデータモデルをどうやって実現するか、考えてみてください。制約条件は最新データを使ってグラフを出力すること」です。つまり、「リアルタイム対応」です。

Excel機能の『基本統計量』

Excelには、データ分析機能があります(図D)。

図D:Excelのデータ分析機能

このデータ分析機能で用意されている『基本統計量』を使えば、いくつかの基本加工結果が表示されます。該当する基本加工の結果を素早く得たい場合に便利です。

図E:『基本統計量』の出力結果

Excelピボットテーブルによる基本加工

Excelピボットテーブル(以下、ピボット)を使うと、(関数を使うより)楽に基本加工ができます。たとえば、図6-1と同様な表を、ピボットを使ってつくることができます。

図F:図6-1と同様な表を、ピボットを使ってつくった例

ビジネスデータ分析と情報技術者試験との関連

ビジネスデータ分析で使う基本加工やグラフは、情報技術者試験の範囲に含まれます。基本情報技術者試験の例を以下に挙げます。

 『基本情報技術者試験(レベル2)シラバス


図E:以上、シラバスの次より抜粋

「テクノロジ系 → 大分類1:基礎理論 → 中分類1:基礎理論 → 2. 応用数学 → (1)確率と統計」
図F:以上、シラバスの次より抜粋

「ストラテジ系 → 大分類9:企業と法務 → 中分類22:企業活動 → 2. 業務分析・データ利活用」


いいなと思ったら応援しよう!