再考するビッグデータ

ビッグデータにまつわる素朴な疑問。

ビッグデータ(Big Data)という言葉は2013年に流行して以来、広く使われています。日々大量のデータが生産されており、5GとIoTの普及でさらに加速することが予想されます。また時を同じくして、人工知能(Artificial Intelligence:AI)深層学習(Deep Learning)の技術が世間を賑わすようになりました。深層学習は大量の教師データを必要とする学習技術であり、ビッグデータの存在が実現に向かわせたと言っても過言ではありません。

ところで、ビッグデータとは何でしょうか。文字通り大きなデータのことでしょうか。だとして、大きなデータとはどういうものでしょうか。また、大きなことの意味は何でしょうか。逆に、スモールデータとは何でしょうか。それらの意味は時代とともに変化するのでしょうか。いろいろな素朴な疑問が湧いてきます。ブームから5年以上が経過し、5GとIoTによる変化の兆しが見え隠れする今、再考してみようと思います。

まずビッグデータの意味ですが、大量データであることはもちろんのこと、実はそれだけではありません。IT用語辞典には以下のようにあります。

ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。

IT用語辞典|ビッグデータ

どうやら量以外にも、種類や形式がごった煮状態で整理整頓されていないという意味も含まれているようです。逆にいえば、世の中のデータの多くは種類や形式がバラバラで整理整頓されておらず、量を求めると必然的にごった煮状態になるということです。

分散処理技術の進化による後押し。

整理されていなければ、データ分析は困難になります。ではデータ生成に関するルールを作ればよいのでは、ということになり、実際に標準化の動きもありますが、容易ではありません。そこで重要になるのが、データを分析可能な状態に整える作業や、それを自動化する技術です。それをデータ準備(Data Preparation)といいますが、いま現在でも発展途上にある領域です。

深層学習は非常に注目され、かつ進化している学習技術ですが、大量の教師データを必要とするため、データ量がボトルネックになりがちです。そもそもどうやってデータを獲得するのかという問題があり、データ流通(Data Trading)1)データ流通って?などのソリューションが検討されていますが、よしんば集めたところで分析不可能なデータが大量にあってもどうしようもありません。データ準備は非常にやっかいな問題で、深層学習を代表とするビッグデータを活用したデータ分析や機械学習の発展を阻害する大きな要因のひとつになっています。

一方で、整理されていたとしても、大量のデータを高速に処理できなければ実用には向きません。ただ、これについてはコンピューターの性能向上と、Hadoopを代表とする分散処理技術の進化が実現を後押ししています。Hadoopは、大量のデータを複数のマシンで分散処理できるオープンソースのプラットフォームで、ペタバイト級の非構造化データ(テキストや画像など)の超高速処理を可能にしました。逆にいえば、Hadoopの登場がビッグデータ活用の推進に拍車をかけたといえます。

大きいことはいいことか?

ビッグデータの意味や、その活用が進んだ背景はわかりましたが、そもそもデータが大量であることの意味はどこにあるのでしょうか。大きいことはいいことなのでしょうか。

ビッグデータがもたらした最大の価値は、深層学習を代表とする機械学習の進化でしょう。また、マーケティング領域では、1to1マーケティングとよばれる、数百万人の顧客をいくつかのセグメント(似た者同士)に細分化し、それぞれのセグメントに対して個別にマーケティング施策を行うことで、ビジネス成果を最大化するアプローチがありますが、それには大量データのノンサンプリングでの分析が必要となり、ビッグデータの分析技術や、ビッグデータそのものがもたらす意味は大きいと言えます。

一方で、ビッグデータは購入・転送・計算などのあらゆる面で膨大なコストがかかります。また、大量であるがゆえに本当に重要なデータが埋もれてしまうリスクもあります。ビッグデータを活用した機械学習は、導出された予測モデルのメカニズムがブラックボックス化して説明しづらくなるという欠点があることは、「UXモデリングって?」でも触れたとおりです。

そこで、最近注目されているのが、スモールデータ(Small Data)です。「スパースモデリング って?」でも取り上げたとおり、物事の本質的な特徴を決定づける要素はわずかであるという性質があります。それをスパース性といいますが、その要素をうまく取り出すことができれば、必ずしも大量である必要はないわけです。そして、データが少量であれば、重要なデータが埋もれることもありません。また、コストも最小限に抑えることができます。

ただし、もとのデータに著しい偏りがあると、本質をとらえるのに重要な要素を獲得することはできません。つまり、大量であることよりも、多様であるという意味でのビッグデータは極めて重要であり、5GとIoTの普及により、今後はその期待がさらに高まるのではないかと考えられます。

脚注   [ + ]