🧠データマイニングの業界標準プロセス

CRISP-DMは1996年に構想され、1997年にESPRITの資金援助による欧州連合のプロジェクトとなった。プロジェクトは5社が主導した: Integral Solutions Ltd (ISL)、Teradata、Daimler AG、NCR Corporation、保険会社のOHRAである。

この中心的コンソーシアムは、プロジェクトにさまざまな経験をもたらした。ISLは後に買収され、SPSSに統合された。コンピュータ大手のNCR Corporationは、Teradataデータウェアハウスと独自のデータマイニングソフトウェアを製造した。ダイムラー・ベンツには重要なデータマイニングチームがあった。OHRAはデータマイニングの潜在的な利用法を模索し始めていた。

方法論の最初のバージョンは、1999年3月にブリュッセルで開催された第4回CRISP-DM SIGワークショップで発表され[5]、同年末にステップバイステップのデータマイニングガイドとして出版された[6]。

2006年から2008年にかけて、CRISP-DM 2.0 SIGが結成され、CRISP-DMプロセスモデルの更新について議論された[7]。しかし、レビューで引用されているオリジナルのcrisp-dm.orgのウェブサイト[8][9]とCRISP-DM 2.0 SIGのウェブサイトは、両方とももはやアクティブではない。

IBM以外の多くのデータマイニング専門家がCRISP-DMを使用しているが[10][11][12]、IBMは現在CRISP-DMプロセスモデルを使用している主要企業である。IBMは、古いCRISP-DM文書の一部をダウンロード可能にしており、自社のSPSS Modeler製品に組み込んでいる[6]。

現在の研究によると、CRISP-DM は、データマイニング業界における既存の問題を解決する様々な利点があるため、データマイニングモデルの最も広く使用されている形式である。このモデルの欠点は、プロジェクト管理活動を行わないことである。CRISP-DMの成功は、それが業界、ツール、およびアプリケーションに中立であるという事実に大きく起因している[13]。

CRISP-DMでは、データマイニングのプロセスを大きく6つのフェーズに分類している[14]。

ビジネス理解
データ理解
データ準備
モデリング
評価
展開
フェーズの順序は厳密ではなく、異なるフェーズの間を行ったり来たりすることが通常必要である。プロセスダイアグラムの矢印は、フェーズ間の最も重要で頻繁な依存関係を示している。図の外側の円は、データマイニング自体の循環的な性質を象徴しています。データマイニングプロセスは、ソリューションが展開された後も継続する。プロセス中に学んだ教訓は、新たな、多くの場合より焦点を絞ったビジネス上の疑問の引き金となり、後続のデータマイニングプロセスは以前の経験からの恩恵を受けることになる。


いいなと思ったら応援しよう!

あたり帳簿
お願い致します