スーパーマーケットとの対比でデータウェアハウスを考える

ここ最近、データの大事さを認識する企業が増えてきているように感じます。データはDXを支える基本であるということも共通認識として定着してきているようです。また、データの民主化という言葉も、ちょっとした流行語(バズワードとも言う)になっているようです。しかし、その実践となるとかなり心もとない企業が多いのではないでしょうか。

ここでデータの話から、スーパーで売っている食料品と、それを使って作る料理の話に飛びます。私、料理はけっこう好きで、また、自分では料理得意と思っているのですが、料理と素材、データ分析とデータの対比で考えると共通点が多いように思います。

料理は、レシピ、素材が良いこと、コストもまた大事で、そのバランスが大事かと思います。でも、素材そのものが悪いとどうにもならないですし、また、調理しにくいものは結局は使わなくなってしまいます。

しかし、スーパーで以下のような状態で品物を売っていたら、どう思いますか?時間・手間暇がかかるものも含めて、あまり買いたくないケースを列挙してみました。

  • 肉や魚の賞味期限、消費期限が不明(これは実際にはないと思いますが、ここでは仮に不明な場合を想定してください)
  • お肉が何グラム入っているのかわからない(まあ、実際はお肉はグラム表示はありますが魚はないことがほとんどですね)
  • 産地が不明(これは多いと思いますし、産地偽造とかもあります)
  • 珍しそうな品物だが、初めて聞く名前で、どんな風に食べるのが美味しいのか不明(気の利いたお店では、調理方法の提案があったりしますが)
  • 同じ野菜が、別々のコーナーで売っている。値段も少し違うようだが、違いがわからない
  • 大きすぎる、多すぎる(まあ、ボリュームディスカウントがすごいコストコとかは値段に免じて許します)
  • 泥がついたまま(これはこれで鮮度が保たれて良い場合もありますが、私はちょっと面倒に感じることが多いです)
  • 魚など、下ごしらえに手間がかかるもの(お魚を3枚におろすとかですね、私、鰺ぐらいなら自分でやりますが、時間に余裕がないとやりたくないかな)

また、手抜きかもしれませんが、以下のような食材は便利ではあります。

  • カット済の野菜(冷凍食品のカット野菜も含む)
  • そのまま食卓にだせそうなお刺身(本当は柵のままのほうが鮮度良いけど、切れる包丁と技が必要)

楽さを追求すると(ほぼ料理不要なレベル)

  • 味付け済のお肉
  • 冷凍食品

データ分析で、お惣菜や冷凍食品にあたるのは定型レポート、カット済の野菜や素材の冷凍食品にあたるのは特定目的別のデータマートに例えられるかなと思います。ただ、最も基本となる素材の格納庫にあたるデータウェアハウスは、なかなか理想的な状態になっていないことが多いのでは。以下のようになっていませんか?

  • 各業務システムからデータを、そのまま集めただけ。データタイプや桁数、単位が不統一なため、データの集計や比較を行うためには、まず、データを整えることから始めなくてはならない。これではタイムリーな分析もできないし、分析の都度、データを整えるというのは作業が繰り返し必要になる。
  • コード体系が意味ありコードで、各桁の値によって分類が異なる。また、ある桁の値によって、他の桁の使い方が異なっているので、単純に分類できない。
  • マスターデータが重複しているため、集計自体が困難である。顧客別売上とか、基本中の基本ですが、それが簡単にできなくなってしまいますね。
  • 集計データしか格納されていないため、より、細かい単位でデータを分析しようとしても不可能である。明細からサマリーは作れますが、その逆は無理ですね。
  • データを格納するタイミングがばらばらで、しかも、時点情報を持っていないために、期間や時点を基準とした集計を正確に行えない。
  • データの項目名に、異音同義語や同音異義語があるため、どの項目を分析対象とすればよいのかわからない。特に事業部制の会社、合併会社では、これはあるあるでは。
  • データの項目名だけでは、意味・内容がわかないため、社内で知っていそうな人に聞いて回わらないといけない。これが存在意義になっているベテラン社員とかもいたりします。

ちょっと乱暴ですが、データの素材を品質保証もぜず、ただ、データベースに格納するだけでは、それを使う人のことを考えていないと言われても仕方ないでしょう。また、特定目的のレポート用にデータを集約したものだけを格納するのは、それ以外の用途に使えません。データウェアハウスを提供するということは、データをきちんと商品として販売するのだという意識が不可欠です。

もう一つ大事なのは、データの使い方をある程度、予測するることです。スーパーで珍しい野菜や魚を売るときは、調理方法も提案することに似ています。さらにデータを商品化するということはコストも時間もかかります。手あたり次第に商品化しようとしては、売れない商品を生み出すことになります。経営者、データサイエンティストと同じ目線で商品化の範囲を考えましょう。つまり、何を分析し、その結果をどう活かすかということです。販売分析であれば、

  • 顧客の分類(これは年齢、性別、居住地、所得、職業・・・・多様な分類ができるので複数軸があります)
  • 商品の分類(これも多様な分類ができるので複数軸があります)、商品間の相関関係
  • 時点(いつ売れたのかなど)
  • チャネル(どの販売経路で売れたのか)
  • どこで売れたのか
  • いくらで売れたのか

といったこと。その組み合わせとなります。分析軸と対象を5W1Hで考えるのも一考です。

また、データの民主化は、商品に産地、鮮度、意味定義といった情報(データに関するデータなので、メタデータといも言います)をきちんと提供することなしには実現できません。民主化のもう1つのポイントは、このメタデータを提供するのは一般市民でもよいということです。社内でWIKIを立ち上げている会社もありますが、これは民主化を加速する素晴らしい取り組みだと思います。