特徴量エンジニアリングのしやすさ。
1月25日に開催された、株式会社GRI主催の「顧客行動を理解するための機械学習 “Forecast Flow”ハンズオン・セミナー」に参加してきたのでレポートします。

Forecast FlowはGRIが開発した機械学習エンジンで、ノンプログラミングで予測モデルの導出ができる点と、導出した予測モデルの解釈に役立つ情報を可視化することで、変数選択や予測モデルの説明をサポートしている点が特長です。

「UXモデリングって?」でも触れたように、ビッグデータによる機械学習には、変数選択と導出された予測モデルの説明の難しさに課題があります。それをTableauによる可視化でモデル解釈と変数選択を支援し、いわゆる特徴量エンジニアリングをやりやすくすることで、少ない変数による高精度な予測モデルを見つけ出すことに主眼を置いているようです。
とはいえ変数選択については、たとえば「直近3ヶ月の購買金額」のような、新しい変数の生成が必要な場合は、つどPythonなりSQLなりでデータ処理しなければならず、すべてのプロセスをノンプログラミングでできるわけではありません。
機械学習のアルゴリズムについては「Kaggleランカーにおなじみのアルゴリズムをベースに最適化」とだけ資料に記載されているので、詳細は不明。またその予測精度についても、後述するハンズオンでもシナリオどおりに追体験しただけなので、実際に使い込んでみないとわかりません。機会があれば使ってみて、結果をレポートしようと思います。
Google Colabでハンズオン。
セミナーの後半はForecast Flowのハンズオンだったのですが、面白かったのはGoogle Colab1)ColabではじめるPythonをベースに実施されたことです。Google Colabは、Jupyter Notebookベースのフルマネージドなクラウド型のPython実行環境で、Googleが機械学習の教育や研究のために無償提供しているものです。
Googleが提供するクラウド型のPython実行環境といえば、Cloud Datalabがあります。こちらもJupyter Notebookベースですが、実行するにはCompute Engineのインスタンスが必要で費用がかかります。一方、Google Colabは無償で利用できます。ただしパブリック領域でプログラム実行やデータ保存がなされるため、秘匿性の高いデータを扱うことはできません。あくまで教育や研究のためのものと考えたほうがよさそうです。
同じく無償かつパブリック領域にデータ保存されるTableau Public2)TableauではじめるBIと組み合わせれば、Google Colabで分析してTableau Publicで可視化するという流れを無償で構築できることになります。セミナーやトレーニングで使えそうですね。
Google ColabとTableau Publicの組み合わせについても、機会があれば試してみて、結果をレポートしたいと思います。
最後に、セミナー資料が公開されているのでこちらにシェアしておきます。
関連する記事

須川 敦史
UX&データスペシャリスト
クロスハック 代表 / uxmeetsdata.com 編集長
脚注
1. | ↑ | ColabではじめるPython |
2. | ↑ | TableauではじめるBI |