データモデルと「統制語彙」

中岡さんが「統制語彙」とデータモデルに関する話題、を書いてくださいました。待ってました!該当の第10分科会は仕事で参加できませんでした。残念!そこで二番バッターとしてこの場で話題を引き継ぎ、皆さんの意見をいただいて実装に向けて議論を深めることができればと思います。

この辺のお話は、セマンティックレイヤー、論理が物理を隠ぺいする、「データレイク(湖)」じゃなくて「データスワンプ(沼)」だ!、とかに関連しています。

データとデータを組み合わせるとビジネス上の良いことを得ることができるらしい! ー> いろいろなデータが取得できるようになりました。 + 大量のデータを蓄積できるようになりました。= 誰も何のデータが蓄積されているのか分からないようになりました。 ー> 活用されないデータが大量に蓄積され誰も手が付けられないようになりました、とさ。
いくらクラウドのストレージが安くなったからと言ってこれでは困りますね。

何故データとデータを組み合わせるとビジネス上の良いことが得られるのでしょう。クロスセル/アップセル的アプローチ?SCMがどこまでも繋がりまくるインダストリー4.0?そこにS&OPが絡んで尚且つROIC!?いやいや他人が苦労してクレンジングして分類付けしてくれたデータを活用して手間を省きたい?(その逆の説も!)動機は様々ですね。

ビジネスの世界で「もの」+「こと」=「実体」を扱っている。それらはビジネスプロセスの中で言葉で伝達されてビジネスの成果を得ている。だから言葉ですね。この言葉をリレーショナルモデルで表してみる。基本に立ち戻ってみます。

おなじみコッドのタプルです。各行が実態の一つ一つを表しています。それらはドメインという値の集合から寄せ集められて成り立っています。だからこの値が一つでも違えば別の実体と見なされます。ほとんど同じドメインから値を持ってきているのに一部だけ、他と異なるドメインの値が追加されているとか、一部だけあるドメインの値が持ってこられない=Nullである場合は異なるタプルとして全体の箱自体を分ける、つまりサブタイプですね。そいうことだと理解しています。

この命名規則は古典中の古典ですね。

こうやって見ると、タプルを構成するドメイン達、すなわちこれが実体を表すメタデータになりますね。どのドメインで実体を表すかを統制するのが標準メタデータです。例えばある実験の結果には必ず「温度」と「湿度」と「色」が必要という具合です。この標準メタデータ設定の目的は実験の再現性でしょうか。仮に温度が欠けると再現実験ができない。ではこの温度とは何でしょうか。摂氏?華氏?色とは?どの色見本帳と比較して色を決めるのか?これが決められていないとやはり再現できなさそうですね。これらは標準リファレンスデータと呼ぶ?

実体に対しこれらの標準メタデータと用いられる値の指定を業務で使用されているすべての言葉に当てはめていくのは気の遠くなる作業ですね。誰もそんなこと気にして使ってませんものね。まぁ一部、標準リファレンスデータは決まっているかもしれません。企業内の組織コードとかで表される実体やUoM:計測単位だったり。本来KPIとかはソースデータと計算ロジックにこの考えがないといけないと思いますが、足せないものを足したり、精度の低い値を掛けて有効桁数を無視したり?とかありがちですね。

せめてこのKPIだったり、機能/業務/組織をまたいで接続したいデータについて、この標準メタデータとリファレンスデータを「統制語彙」として整備して、その言葉でコミュニケーションできるようにする、というのが今取り組んでいることで日々頭を悩ませています・・・