2 これまでの情報とビッグデータは何が違うか
『データ資本主義』が2019年9月18日に日本経済新聞出版社から刊行されます。これは、その第1章の2です。
2 これまでの情報とビッグデータは何が違うか
◇ データサイズが「天文学的に」拡大した
ビッグデータは、これまでのデータと比べて、どこがどのように違うか?
まず、その名が示すようにデータのサイズが大きい。では、どの程度大きいのだろうか? これを把握するために、つぎのように考えてみよう。
最初に、さまざまな対象の「サイズ」を知っておこう。
情報の「サイズ」(容量)を量るには、「バイト」という単位が使われる。図表1―1に示すように、バイト(B)から始まって、その約1000倍がキロバイト(KB)、さらにその約1000倍がメガバイト(MB)となる。以下同様に、ギガバイト(GB)、テラバイト(TB)、ペタバイト(PB)、エクサバイト(EB)、ゼタバイト(ZB)と続く。
では、実際のデータのサイズはどのくらいか?
われわれがPC(パソコン)で扱っているテキストファイル(文書ファイル)は、数KBのオーダーだ。1980年代頃まで、われわれが扱う情報のサイズはこの程度のものだった。これが、インターネットが登場する前の世界だった。
マイクロソフトの元会長のビル・ゲイツは、1981年に「パソコンのメモリは640KB以上を必要としない」と言った。つまり、MBの世界にはならないだろうと言ったのである。
ところで、現在、われわれは、スマートフォンで日常的に写真を撮っている。その容量は1枚あたり2MBくらいだ。静止画だけでなく、スマートフォンで動画も簡単に撮れるようになった。その容量は、1分間あたり100MB程度だ。これを10本撮れば、1GBということになる。
他方で、PCのHD(ハードディスク)や外付けHDの容量も増えた。しばらく前まではGBのオーダーだったが、現在では、TB(テラバイト)が普通だ。1万円で5TB程度のハードディスクが入手できる。
だから、現在われわれが扱っているデータのサイズは、数GBから数TBのオーダーだということになる。80年代から40年程度の間に、このような変化が起こったのだ。
ところで、バイト(B)からGBへの変化は10億倍であり、KBからTBの変化も10億倍だ。つまり、われわれの情報環境は、40年間に10億倍に増加したことになる。
ところで、「10億倍」という数字は大きすぎて、直観的に把握しにくい。これを捉えるには、つぎのように考えるとよいだろう。
1メートルを10億倍すれば100万キロメートルになるが、これは地球から月までの距離の約2・6倍だ。だから、10億倍になるということは、人間の身体のサイズで仕事をしていたのを宇宙的サイズに拡大したようなものだ。
しばしば「天文学的」という表現が用いられるが、「10億倍」というのは、第1段階の「天文学的」増加だ。われわれが扱うデータのサイズは、40年間に「天文学的に」増えたのである。
◇ ビッグデータは日常と10億倍違う
以上で見たのは、個人が扱っているデータだ。では、ビッグデータとはどの程度の大きさなのだろうか?
それを把握するために、企業のデータセンターがどの程度の容量になっているかを見よう。
大都市の1ブロック程度の広さ4階建てのデータセンターのデータ保存容量は、1EB程度だそうである。これは、しばらく前まで個人が使っていたHDの容量の10億倍だ。
では、全世界のデータセンターのデータ保存容量はどのくらいだろうか? ドイツの統計ポータルサービス企業 Statista は、2018年において1・45 ZB(ゼタバイト)だとしている。
あるいは、つぎのような推計もできる。2013年に建設されたNSA(米国家安全保障局)のデータセンターの容量が5ZB程度であり、それは全米にあるグーグルのデータセンターのディスク容量とほぼ同じだと報道されたことがある。グーグルは、全世界に在米の2倍のデータセンターを持っているので、ビッグデータのデータ量は、10ZB程度と考えることができる。
これは、現在の個人が扱っているデータの10億倍のものだ。
つまり、われわれが人間の身体のサイズで仕事をしているとすれば、ビッグデータを扱っているグーグルは、宇宙的サイズで仕事をしているということになる。
われわれが生活している世界のサイズとビッグデータのサイズとの差は、このように隔絶的なものなのである。「大きい」といっても、連続的な大きさでなく、質が違う大きさだ。いいかえれば、ビッグデータの世界は、われわれのこれまでの常識や日常的感覚では理解できない異質のものなのである(ただし、どれだけ以上の規模のものをビッグデータというのかという範囲は明確ではない)。
◇日本企業とGAFAの隔たりも大きい
右に述べたように、グーグルのデータセンターの容量は、1ZBから10ZB程度のオーダーと推測される。では、日本企業が扱っている情報のサイズはどの程度なのだろうか?
これについても正確な統計はないのだが、仮に日本の標準的なデータセンターがEB(エクサバイト)のオーダーのものなのだとすると、グーグルのデータ保存容量は、その1000倍ないしは1万倍ということになる。
これは「隔絶的」というほどの開きではないが、かなりの開きであることは間違いない。だから、容易には追いつけないものだと考えざるをえない。後で見るように、日本におけるビッグデータの利用は、なされてはいるが、さほど華々しいものではない。それが、このようなデータ保存容量の差に表れているのだろう。
◇ 非構造化データもある
ビッグデータは、量が膨大なだけでなく、性質も従来のデータとは違う。
これまでデータ分析で使われてきたのは、「構造化データ」と呼ばれるものだ。これは、「列」と「行」の概念があるデータである。たとえば、名簿は、氏名、年齢、生年月日、住所などの欄に、それぞれのデータが記載されている。こうしたデータは、CSVファイルや Excel ファイルに記録することができる。
構造化データは簡単に分析できる。なぜなら、「どこに何があるか」が列で決められているからだ。それに加え、データが数字で表されているなら、演算、比較なども容易にできる。
ところが、ビッグデータの中には、これとは性質の違うものが含まれている。これらは、「非構造化データ」と呼ばれる。
まず、データが数字で表わされていないものがある。たとえば、新聞・雑誌などの活字データや図、写真データ、ラジオやテレビ放送などの音声データや映像データなどだ。
これらは以前から存在していたが、データ分析にはあまり用いられていなかった。これらに加え、最近では、メールやSNSなどの文字データ、検索履歴、GPS(Global Positioning System)から送信されるデータなどが利用可能になってきた。これらも数字では表されていない。
統計的な処理においては、データを数値で表す必要がある。したがって、新しいタイプのデータは、そのままでは統計学で扱うことができない。
また、非構造化データには、統一的な列と行で整理できていないものがある。
こうして、構造化データだけでなく、新しいタイプのものも含めた非構造化データの分析と利用が重要な課題になってきた。
こうしたデータの利用は、すでに始まっている。投資信託では、これまでは株価や財務データのような構造化データしか利用していなかったが、最近では、非構造化データをAI(人工知能)を利用して分析するようになってきた。たとえば、あるファンドは、小売店の駐車場の駐車状況などの非構造化データをAIを用いて分析しているといわれる。