大澤先生のデータ戯れ学 #02

わからないデータはつまらない。

中路:チャンス発見学のビジネス活用について問題にぶつかったとのことですが、詳しくお聞かせください。

大澤データに抵抗のある人をどう巻き込んで新しい価値を創造するかということです。当時、文部科学省の助成金による多数のAI研究者による協働研究で、肝臓患者の血液情報を扱うようになりました。患者の血液検査データを元にC型肝炎治療の説明を試みたのですが、データが専門的すぎて理解が追いつかず、研究が進まないという問題に直面しました。血液検査項目にはGOTやGPTといった値がありますが、何が何だかよくわからない。人はわからないデータを見ても面白くないという、当たり前だけれども極めて重要なことに、その時気づきました。

中路:確かに、そもそもの変数や値の意味がわからないデータは、いくら可視化されても理解できないですし、見ていて全く楽しくないですよね。

大澤:データといくら睨めっこしても、わからないものはわからない。そこでキーグラフ(KeyGraph)を活用して患者のデータを可視化しました。とはいえ、この段階ではまだ何もわかりません。この結果を肝臓の専門医に見てもらってはコミュニケーションをとり、またデータセットを変えて可視化することを繰り返しました。可視化して議論するというプロセスを何度も回すことで、初めはデータからは見えてこなかったC型肝炎治療のプロセスを説明することに成功しました。

この研究でわかったことは二つあります。一つ目は、データクレンジングにおいて、データの意味を理解することが極めて重要だということです。医学のデータは同一成分が別の言葉や単位系で書かれているなどデータが整理されてないケースが多く、データの意味を理解しないとデータクレンジングはできません。専門医とのコミュニケーションを重ねてデータの意味を理解することで分析可能なデータに整理することができました。

二つ目は、データの意味がわかってくると面白いということです。データクレンジング処理が完了すると、可視化やより深い分析ができるようになります。医学の先生たちの中で何となく不明瞭だったC型肝炎治療のプロセスが、分析を通して判明して行く研究はとても楽しいものでした。

データ分析には五段階あり、その中でもどきどき期からわくわく期というデータ分析の仮説検証を回してる時が最も楽しい段階です。そしてそれを創出するにはデータの意味や背景を知る人と一緒にデータを可視化して議論し、繰り返すことが重要であると、わたしは考えています。

段階 状態 感情
いやいや期 データの概要も変数の意味も不明瞭。 意味がわからないから、つまらない。
おずおず期 概要や変数の意味について少し理解。 変化に気づき、少し興味がわいた。
どきどき期 仮説を導き出せるが、正しくない場合もある。 変化の背景がわかり、もっと分析したい気持ちがわいた。
わくわく期 仮説が概ね正しく、新しい発見を導出できる。 新しい発見があって非常に楽しい、他のデータと組み合わせて深い洞察をしたい。
あきあき期 データの意味を完全に理解し、新しい発見がない。 発見がないから、つまらない。

データと戯れる。

中路:データ分析の専門家だけではなく、そのデータの意味や背景を知る人とともに、データと戯れることが大切ということですね。そのプロセスを通じてデータの意味がわかってくると、さらに面白くなる。いわばデータ戯れ学ですね。あるいはデータディライト(Data Delight)とでも。データに抵抗のある人をどう巻き込んで新しい価値を創造するかの問いに一つの解が見えそうです。

その後、ビジネス側の研究に戻られたのでしょうか?

大澤:はい。データを可視化して、議論するステップを取り入れることがビジネス活用でも大いに役立てられると思い、ビジネスでのイノベーションを創発するフレームワークであるイノベーションゲームの研究を、東京大学大学院システム創成学科にて始めました。

イノベーションゲームは、ビジネスにつかえる製品や知識をカードに記入し、そのカード同士の関係をキーグラフで可視化して、参加者で議論をするという、ワークショップ形式で行います。さらに、単に奇抜なアイデアにならないように、マーケット原理、つまりお金の概念を導入し、良いアイデアにはお金が集まるような仕組みを導入しました。その仕組みをイノベーション市場(Innovators’ Marketplace)と言います。

出典:事業構想

中路:これまでの研究の集大成といえるものですね。この仕組みでビジネスの現場におけるイノベーション創発はされたのでしょうか?

大澤:残念ながらこの方法ではあまり多くのイノベーションが生み出されませんでした。イノベーション市場には二つの問題があります。一つ目は、継続しないこと。ワークショップが終了すると、その取り組み自体も終了してしまうわけです。

二つ目は、良いアイデアが出づらいことです。この問題の解決について、過去の研究にヒントがありました。それは仮説推論の研究の中で発見したもので、シンプルな事象についての知識を掛け合わせることで、未知の事象を説明できる、というものです。イノベーション市場の問題は、カードに記入するアイデアが複雑すぎたことにありました。

シンプルであること。

中路:なるほど。「良いアイデアは、既存のシンプルなアイデアの組み合わせで生まれる」とジェームス・ウェブ・ヤング著の『アイデアのつくり方』でも述べられています。大澤先生も、製品・知識データをシンプルなものに変えたということでしょうか?

大澤:はい。製品・知識データを概要情報に絞ったものを、データジャケット(Data Jacket)1)データジャケットって?と名付けました。データジャケットは、データ概要が書かれているシンプルなものなので、ワークショップ内で組み合わせて良いアイデアを創発しやすい形状になっています。また、データジャケットのもう一つの利点は、データそのものでなくて良いということです。

データそのものは入手困難なものです。肝臓患者の血液情報データもプロジェクトメンバーの研究者であったため触れることができましたが、一般のユーザーは到底アクセスできないでしょう。一方で、このようにデータそのものの提供が難しい状況であっても、データの概要のみが書かれたデータジャケットであれば、お互いに公開し合えて議論が活性化できると考えました。

中路:確かに。多くの企業がビジネスに活かそうとデータを収集してますが、その多くが他社への提供が難しく、違いに活用することなく埋もれてしまっています。

大澤:自社データを提供することで競合に活用されてしまうリスクがあるという気持ちはよくわかります。そこで、データの概要情報に絞って開示を促すことが効果的となります。データそのものを渡すことは難しくても、データジャケットなら問題ないというケースがあることに気づきました。

2013年3月のNHK特集で、震災をテーマに各企業がデータを出し合い、参加者がデータ分析をするというコンペが報道されました。開催後にデータ提供企業に対してデータを欲しい旨を伝えると、もう結構使えそうだと知ったので無料では渡せないとのこと。これではイノベーションは継続的に生まれていかない。一方で、データの概要情報、すなわちデータジャケットなら問題ないという企業がいくつかありました。

データジャケットであればたくさん収集し、イノベーション創発に役立てることができるということに気づいたわけです。このデータジャケットを活用したイノベーション市場のワークショップを、IMDJInovation Marketplace on Data Jackets)と呼び、現在も継続的に実施しています。これには複数の企業が参画し、データを活用したビジネスのイノベーションに取り組んでいる状況です。

中路:最後に、大澤先生の今までの研究から導き出された最も新しいエッセンスを一言で教えてください。

大澤:ひとことで言うと「変化の予測ではなく、変化の説明」です。

過去の変化の事象からの予測はできても、その変化の原因を説明できなければ、対策として行動シナリオを描けないことが、今までの研究を通して明らかになりました。仮説推論という私の最初の研究テーマを、数十年間にわたって研究から外していた最大の理由は、与えられた仮説や情報からだけでは、変化を説明できず、未来を予測できないと思ったからです。言い換えると、与えられた仮説以外の事象を新たに生み出すことができれば、未来を創発することができるかもしれない。そう気づいたのはデータジャケットを生み出した時でした。

データジャケットは、イノベーションゲームの参加者が自由に追加することができます。つまり、説明できない新たな知識を補い合うことが、ワークショップの仕組みの中でできるのです。AIは限られた仮説の中で最適な答えを出すことには優れてますが、与えられてない仮説を生み出すことはできません。その限界を理解して、イノベーションゲームといった人が間を補い合うことができる仕組みを持つことで、変化の説明を行えるようになりました。これは、新たな仮説推論手法とも言えます。事象のなぜ(Why)に対して、自分の知識や与えられたデータだけではわからないことを、可視化や分析、そして多様な人の議論によって解き明かすことができる。それが新たな価値を生み出す上で最も大切なステップだと考えてます。


脚注   [ + ]