「データファブリック」で組織をデータ主導型に変革しよう
データに基づいて客観的に方針の決定をするデータドリブン経営が注目を集めています。ところが、組織内に存在するデータを集めて、より正確な判断のために使おうとすることは、実はそう簡単ではありません。グループごとにバラバラでデータを集めてきてしまったがために、それらを縦断して活用することが難しい状態になりがちだからです。そうした課題を解決しデータを誰でも幅広く活用するために登場した最新型のアーキテクチャが「データファブリック」です。
データ主導に立ちはだかる想定外の壁
ご存じのように、新型コロナが登場したことで社会の常識は大幅に変わってきています。変化の激しい時代を勝ち抜こうと、2022年はいよいよデジタルトランスフォーメーション(DX)のような業務改善の実践にかかわる立場におられる人は多いでしょう。
そのために最も重要となる存在が、実は「データ」なのです。人間のアナログな感覚でついつい間違った判断をしがちな従来型のマネージメントを脱すること、そしてデータに基づき客観的に正しい判断を下すことこそが組織のパフォーマンスを上げるために重要です。
幸いなことに、Web 2.0技術の普及でソーシャルメディア(SNS)やウェブログ、センサー、IoTデバイスなどを駆使し、以前とは比べものにならないほど大量のデータが集められるようになっています。これらのデータを有効活用すれば、価格戦略、需要予測、顧客関係管理、在庫管理などの様々な業務で適切な判断が可能となります。今や、あらゆる組織にとってデータに基づいた意思決定は欠かせません。
ところが、せっかく大量のデータを集めても、実際に活用するためには様々な壁が立ちはだかっています。集めたデータは物理的にも論理的にもバラバラになっていることがほとんどだからです。
例えばオンプレミスにあるデータセンターや部署のサーバー、あるいは様々なパブリッククラウドまたはプライベートクラウドにデータを保存しているという組織は多いでしょう。さらに保存しているデータの中身も構造化データと非構造化データが整理されないまま混在し、ファイルシステムやリレーショナルデータベースなど様々な形式で保存されています。
組織内の各グループがバラバラにデータ活用へ取り組んだ結果、このような「サイロ化」と呼ばれる状態になりがちです。グループでのデータ利用が進み用途が増えるにつれ、データのサイロ化は進み、それらをまたいだデータの利用はますます難しくなります。こうしてサイロ化が進むと、せっかく集めたデータなのに他のグループからはなかなか活用できず、結果として膨大なダークデータとなって組織内に塩漬けされることになりかねません。
データ活用の最新形態「データファブリック」
こうしたデータ活用に関する様々な問題を解決するために登場したのが「データファブリック」です。
まずはデータファブリックに至るまでのデータ活用の歴史を簡単に振り返りましょう。IT技術の進歩に伴い、組織で扱うデータ量は加速度的に増えてきました。それに伴いデータ活用の技術も進歩し、1990年代には「データウエアハウス」、2010年ごろには「データレイク」という手法が登場しています(図)。
データウエアハウスでは、独立したデータ活用専用のデータベースを作り、そこに基幹システムなどからデータを取り込みます。取り込み時に、あらかじめ目的に沿った形で分類・整理する加工を施します。こうして目的に合った形に構造化されたデータを、特定のツールを使って定型的な分析をしていました。
一方、データレイクでは収集した生のデータをそのまま格納しデータ資産として活用します。データの用途をあらかじめ決めず、活用する際に改めてデータ構造を定義した上でデータを参照して分析します。このため、テキスト、画像、動画、音声といった規則性を持たない非構造化データを使って、ビッグデータ分析や機械学習をするといった目的に適しています。柔軟性がある半面、生のデータを保存するための大量のストレージ容量が必要となります。
そしてネットアップが2014年から提唱し、2020年前後には関連市場が急拡大した最新のアーキテクチャがデータファブリックです。データウエアハウスやデータレイクのように1箇所にデータを集めるのではなく、データファブリックでは、適材適所でパブリッククラウド、プライベートクラウド、オンプレミスのサーバー、エッジのデバイスといった異なるストレージ上に分散配置したデータに対して、標準化した手順でデータを活用できる分散データ基盤を提供します。様々な場所にある多種多様な形のデータを必要に応じて自由に組み合わせるイメージから「ファブリック(織物)」という単語で表現されています。
物理的存在を隠し論理的に1つに見せる
データファブリックを実現するための中核となる技術が「データ仮想化」です。パブリッククラウド、プライベートクラウド、オンプレミスのサーバー、エッジのデバイスなどにバラバラに存在するデータを仮想化し、統合的なプラットフォームによってあたかも1つのストレージにあるかのように見せてくれます。
データ仮想化の基盤はソフトウェアや専用のハードウェアで実現します。仮想化基盤と実際にデータが格納されている各ストレージの間には、やりとりするアダプター的なソフトを用意してデータを変換します。
データファブリックを実現すると、アプリケーションでデータを活用する以外にも様々なメリットがあります。本来は互換性や相互運用性がそれほど高くないAmazon Web Services(AWS)やGoogle Cloud、Microsoft Azureといった異なるクラウド間、あるいはクラウドとオンプレミスのサーバーとの間で、より簡単にデータの転送や処理、管理、保存ができるようになります。
さらに物理的な位置を意識する必要がないため、適材適所で最適な場所にデータを配置したり自由に移動したりできます。データを格納するストレージはアクセス速度の速いものほどコストが高いのが一般的です。このため、頻繁にアクセスするデータはオンサイトに設置した半導体ドライブなどに置き、滅多に利用しないデータはアクセス速度の遅い大容量保存用のクラウドなどに退避するように管理すればコストを最適化できます。データファブリックを使えば、アクセス頻度に応じて最適なストレージにデータをバックグラウンドで移動する「階層型ストレージ」を簡単に実現できます。
ネットアップのストレージOSソフトウェア「ONTAP」を使えば、ここで紹介した以外にも数多くのメリットがあるデータファブリックを実現できます。ぜひデータファブリックの構築にチャレンジし、組織内に溜まっているデータを有効に活用してください。