データマネジメント成熟度評価を考える(8/25 10分科会話題より)

8月25日(水)に月次の第10分科会(ZOOM方式)が開催され、筆者が以下の題目で説明を行いました(参加者19名)。この記事ではその話題概要と、出された質問の回答に補足する内容を記します。

題目:「データマネジメント成熟度評価/データモデル評価の考え方」

この分科会で議論したように、データマネジメント(DM)成熟度評価の実施/適用を考えるに当たっては、以下の3点を意識した計画が必要です。(当日の資料については筆者の運営するWebページからダウンロードできます。興味ある方は参照下さい(※1))。 

  1. 目的設定および結果の使用方法の明確化 
  2. 評価スコープの設定(対象部門、システム領域、時間的スパン)
  3. 参加者(成熟度評価実施者、実務側の関係者)を含めた中での意図・内容理解のためのコミュニケーション実施

企業としてのDM活動は、言うまでも無く個人の努力のみで成立させるものでなく、組織的活動により成果(例えば高品質なデータを提供する)を生み、長期的に維持する環境を築く事と捉えられます。企業のマネージャレベルの方との話として筆者がDM成熟度の話題を出すと、案外簡単に「自社のレベルはゼロかな。」或いは「うちは1だね。」のような答えが返ってきます。恐らくそのマネージャ感覚は正しいと推察されますが、そのままで済ませていると何時まで経ってもDM環境は改善せず時間が過ぎ去ることになります。現場でデータを扱う方々やシステム関係者は何となく日々の問合せに追われ続け、時によっては何らかのトラブル対応に大部分の時間を費やさざるを得ない状況も生まれます。

それでは、成熟度アセスメントの使い道は一体何なのでしょうか?その考え方の第一の要点「項目1」を図1に纏めました。

現在状況で十分に要望を満たせている場合を除き、自社のDM環境を何とか将来を見据えて改善したいという思いを形にするには、それを企業内公式化する必要があります。このための手段として利用するという考えがあります。DMBoK2 第3章「データガバナンス」のコンテキスト図(同図14)で、入力として成熟度アセスメントが記載されているのはそれを意図するといえます。現状を知り、将来に渡る改善/改革目標への道筋を立て、そのためのプログラム/プロジェクト予算化・リソース確保を確実にするという流れです。従って、この段階のアセスメント(査定)は、余り細かな問題点や対策を突き回すというよりは、中期的な視点での課題とその改善の方向性を見出し、そのための予算化の必要性を経営者/オーナーに理解してもらうために利用すると考えることです。実際の予算額見積りやプロジェクト化は次の段階として検討されることもあるでしょう。

この公式化を納得性のあるものとするためには、目指すDM環境に関して何らかの根拠が要求されます。このためにDM成熟度フレームワーク(DMMF)を参照する事が一つの有力な考え方です。DMMFは有識者により、有効な企業内DM環境のための必要要素を整理したもので、ゼロからDM構想を練り上げることなく時間の大きな節約につながります。この意味である程度の客観性を供えたものとして使用できます。そして冒頭で取上げた三要素の中の「項目2」を検討する材料とできます。但し、DMMFは理想的環境構築(レベル5或いは6)を前提とした幅広い視野で構成されている点に注意が必要で、ピンからキリまでを取上げたものといえます。つまりDMMFを与えられたものとしてそのまま利用するのではなく、自社の当面の目標として、どういう要素をどの程度までに実現するかという身の丈を踏まえた見方を通じ、批判的に参照することが大切です(様々なリソース(人・費用・時間)に余裕のある大企業視点で見るのか、成果第一の形から取組むか等を見極める点も含める)。こういった利用視点を「テーラリング」と呼んでパッケージの「カスタマイズ」と区別することがあります。

参照するDMMFの種類によって成熟度レベルの段階(図2)、判断基準、ドメイン/コンポーネントの内容は大きく異なります。従って、全ての要素を統合して考えるよりは、一つを軸に、不足する内容について他を参照して補うという考え方が適していると考えられます。CMMI/DMMは全体項目数が多く判定に厳格性があり、運用操作性主体で腰を据えた取組みが必要です。EDMC/DCAMはDMMよりも項目は少なく機能性重視視点を持ちます。DMBoK2はDMMFというよりは技術的構成要素を主体にした解説と対応策アクティビティ検討の材料という意味合いが強く、DMMFとして使うには評価項目の具体化等ブレークダウンが必要です。例えばDMBoK2で取上げている第10章「リファレンスおよびマスタデータ」項目はCMMI/DMMでは具体的プロセス領域として明示されていません。

要点「項目3」については、DM成熟度評価の計画・実行・結果の評価/共有という各段階で必要な内容です。計画段階では、実施目的・意義の周知、実施者教育およびインタビュー対象となる部署の理解獲得、経営者関与の明確化が主体です。実行段階ではインタビュー円滑化、スムースな査定文書類取得と分析・状況の共有が含まれます。結果共有の段階では、業務関係者の課題認識確認、今後の時間軸イメージの共有、経営者/スポンサーの納得性の獲得といったことが対象です。特に成熟度評価結果から、今後の改善/改革に向けたロードマップ作りと目標・期待効果設定が、関係者の理解を得た上で相当程度具体化することで、予算化/プロジェクト化という次段階への道筋作りに繋がります。この進展への第1段階は、パイロット的な小規模範囲のプロジェクト的試みから始めることになるかも知れません。

また、成熟度評価手続きをどのようなメンバで行うかといった考慮点もあります。評価を方法論に慣れた専門家に委ねる考え方もありますが、結果の理解を深めた上で次のステップに進めるという意味では社内担当者が主体で実施する方が望ましいといえます。また、評価報告書に対する信頼性を経営者がどのような価値観で見るかも必要な考慮事項です。外部の戦略コンサル会社の意見を重視する形なら、やはり外部専門家活用を重視、一方、社内有識者の進言を大切にする経営者向けでは、社内関係者を積極的に活用するという考え方になるでしょう(但し、成熟度評価の意味合い・方法を理解した上で実施)。第三者視点で実施するといっても、会計監査のように法規制で決められている評価姿勢と異なり、DM成熟度評価は厳密性・正確性・規則準拠性等よりも、ある程度の曖昧さが残っていても関係者の納得性を得ることを重視して進めるべきものと筆者は考えます。

最後に、先に書いたようにDMMFは、具体的な対策の考え方の参考書として見ることもできます。特にDMBoK2の知識領域のプロセス説明は、そのような視点で書かれていると理解すると分かり易いでしょう(但し、書かれていること全てが、自社にとっての絶対的な正解とは限らない点に注意)。いずれにしてもDMに関わる各領域/ドメインを参考にして個別的に理解するだけでなく、領域同士の関係を意識して読み取ることが大切です。この例として、分科会説明で取上げた、Abu Dhabi政府データマネジメント標準(V1.0)を元にした見方を紹介します)。

図3は上記DM標準に記述されるDM領域要素の関係を、資料内容を参照して筆者が図解したものです。この標準はDMBoK1をベースにして作成したものですが、内容から見てDMBoK2を基準にして構成要素は大きく変わっていません。DMBoK2にない要素として、「データカタログ」、「オープンデータ」の2要素がありますが、前者は「メタデータ」および「データガバナンス」と関連付け、後者は「文書とコンテンツ管理」と連携することで分かり易くなりそうです。このようにDM構成要素の関連を図解することで、構築しようとするDM環境がどのように位置付いているかを理解する助けとなります。例えば、ここで特徴的なのは、「メタデータ/データカタログ」が要素フローの先頭にある点、「データ統合と相互運用性」がフローの最後尾にある点です。これによりメタデータの構築を軸とし、他システム/データ要素との連携は次の段階として捉えられていると推測できます(この要素関係は、筆者が整理したDM歩き方マップから見てDMBoK2の記述内容と大きく違っている点です)。目標とするDM環境をこういった要素関係の整理視点で描くことは、DM成熟度評価を計画/評価する上で役に立つものと筆者は捉えています。

尚、説明題目にある「データモデル評価」についてはDMBoK2 第5章 5.2で説明されているHobermanの説明を補足したものであり、誌面の都合上ここでは割愛します。

(以上)

※1 筆者のWebページ(インフオラボ游悠で検索)。Topページにある「游悠レポートページ」ボタンをクリックして移動。「游悠レポート2021-006」を参照。尚、当該資料でDMBoK2の内容を取上げた部分では、日本語版発行前に筆者作成したページについて「データマネジメント知識体系ガイド(第二版)」と用語表現が異なっている点に注意。

※2 図は何れも、8/25(水)第10分科会説明で用いた資料から抜粋。※1の資料を確認。

※3 この資料はDMBoK1を参考に作成し2016年に公開されたもので、Abu Dhabi政府に関連する50以上の団体/企業エンティティのDM環境構築の標準統制事項を規定している。この標準に従ったプロジェクトがこれまで進行・実現されていると同政府関連Webページでは紹介している。

[投稿者]中岡 実(インフオラボ游悠 代表/データマネジメントコンサルタント、ITコーディネータ、認定心理士)

データプロファイリング

 これまで、主に 主にデータモデリングについて取り上げてきましたが、今回は関係深いものの一つとして、データプロファイリングについて紹介したいと思います。以前にも、少し触れていますが、もう少し詳しく見てみましょう。

DMBOK2での記述

 DMBOK2の中でも、 何箇所かで取り上げられているので見てみましょう。最も大きく取り上げているのは「第13章 データ品質」の中です。1.3節の本質的な概念の9番目に「1.3.9 データプロファイリング」として登場します。
 定義としては「データを検査し、品質を評価するために行われるデータ分析の一形式である」とされています。統計的手法を活用して、収集したデータの真の構造、コンテンツ、品質を洗い出すとあり、データのコンテンツと構造のパターンを識別するために利用できる統計処理結果を生成します。

NULL数 NULLが存在することを検出し、許容可能かどうかを検査できるようにする。
最大値・最小値 マイナス値などの異常値を検出する。
最大長・最小長特定の桁数要件を持つフィールドの外れ値や異常値を検出する。
個々のコラムに存在する値の分布度数値の妥当性を評価できるようにする。(トランザクション内の国コード分布、値の発生頻度検査、初期値が設定されているレコードの割合など)。
データタイプとフォーマットフォーマット要件への不適合レベル、想定外のフォーマット(小数点以下の桁数、スペースの混入、サンプル値など)を検出する。

 この表に見られるのは、主に一つのテーブルの各項目ごとの分析となっていますが、この他にもテーブル内での書く項目間の関連や、テーブル間での関連を分析することがあり、DMBOK2ではクロスカラム分析と記載されています。

 「第5章 データモデリングとデザイン」では、ツールの節で「3.3 データプロファイリングツール」として紹介され、ツールによってデータの中身を調べ、既存のメタデータと照らし合わせて検証したり、既存のデータ関連生成物の不備を特定したりするのに役立つことがかかれていました。例として、従業員に複数の職位がある場合をあげていました。
 DMBOK2では、データプロファイリングが何らかの形で、第5、8、10、11、12、13、14、15、17の各章に登場しています。

ツールの利用に関して

データの中身の検証は、データプロファイリングという名前で紹介される以前から実施されてきました。私の場合、初期としてはシステムの再構築におけるデータ移行を目的として始めた記憶があります。特に最初に行ったのは、いわゆる「区分値」の調査でした。再構築に伴い「区分」も見直され、統合や新設、再編を行うことがありますが、その対応をマッピングするために、現在実際に使われてきた値を調べることを目的としていました。
 このために、多くはレプリケーションのデータベースでSQLでGROUP BY句を使って、区分値の種類と、実際に使われている数を出していました。

SELECT 区分値, COUNT(*) FROM 表 GROUP BY 区分値;

こんな感じで、必要な数のSQL文を実行していけばそれなりに機能しますが、テーブル数、項目数が多いと大変です。現在では、データ品質やデータカタログ関連のツールで、プロファイリングの機能が搭載され、簡単に正確に、度々検証することができるようになっています。
 区分値だけでなく、コード系などでもXXX-XX-XXXとか、XX-99-9999などのようなものが混じって居たり、過去の経緯で色々と乱れているものも発見できたりします。
 システム再構築の際のデータ移行だけに使うのではペイしないかも知れませんが、その後のデータ品質とガバナンスに繰り返し使うことを合わせて導入するのが良いかと思います。

データモデリングと関連して

 データモデリングを行ったら、できればデータプロファイリングも実施して、区分値によるサブセットの検証を実施して欲しいです。ナンバーコードに埋め込まれた有意味のコードも確認できます。
 データモデリングによってサブセット分析を行い、区分による業務の差異をサブセットとして切り出せますが、定義書にかかれている区分値と実際のデータベースに入っている区分値では実際には少し異なることがあります。  定義書によれば、1、2、3の値が定義されていても、実際には3は使用されておらず、一方で4とか5とか、場合によっては99みたいな値が勝手に作られていることが少なくないようです。
 この場合、3に相当するサビセットは実際には不要で、4と5に関するものを詳細に調査する必要があります。また、99のような値が設定されている場合は、その値をプログラム中でどのように扱っているかまで、確認する必要がありそうです。

 こういった議論も第10分科会で展開していこうかと思います。

DXとBPR

かつてのBPRが何故上手くいかなかったのか。「BPR失敗」で検索するといろいろでてきますね。ところで改めてBPRとは?

業務工程のリエンジニアリングですよね。BPはスタートがあってエンドがある一連の業務活動の繋がりかな。リエンジニアリングは検索トップのWeblioによれば、”re-engineering リエンジニアリング: ソフトウェアの保守において, 既存の資産をより抽象度の高い形式に変換した後に再構成する技法.”
ですと。

データマネジメントもそうですが、ある一つの事業を営むためのBPが一つの会社に収まり部門間のやりとりも日本語で事足りていれば、そりゃ多少部門間の軋轢が生じるかも知れませんが目標達成のための調整が働くし、組織を跨った改革も進められるかも知れません。

これが製造は複数の海外拠点で販売も複数の海外拠点、拠点の法人は複数の事業部門をカバーしており、法人としての業績も問われるとなるとどのゴールに向かって頑張れば良いのか分かりにくいですね。グローバルの共通語は英語でしょうけどどうしても言葉(考え方)の違いによるすれ違いも生じがちです。部門間の壁も法人、部署をまたがりレポートラインが錯綜していてなかなか崩せませんね。

DXにより導入するソリューション(DXS)はその答えになる可能性があると思います。DXSはデータをデジタル化し、リアルタイムにつなげ、データアナリストがPythonコードを書き未来を予測する取り組みとしてみて、マーケティングとならぶ製造業の本丸、SCMで考えてみます。

どこまでも得意先の果てまで、どこまでも仕入先の果てまでのデータを繋げることによって我々は「神の目」を手に入れることができる。神の目でみてみるとそこは部分最適のオンパレードで最終目的である例えば生活者の便益はまだまだ改善の余地がある、とする。

デジタル化もまだまだ道半ば、例えば物流の運賃表(タリフ)はデジタル化されているか?データを繋げることもいろいろ大変。マスターやリファレンス類はもとよりトランザクションだって処理のプロセスが違ったり、ERPへのインプリが違っていたり。区分値を合わせるのも一苦労。未来を予測するモデルも最初はよちよち歩きでSME(業務領域の専門家)に馬鹿にされる始末。

でもこの状態が逆にチャンスを生む。SMEは油断してモデルを鍛えてくれる。(全くオメェは馬鹿だなぁ、この観点が抜けてんだよ!)デジタル化もオーナーを定めて地道に進めて行く。繋ぐことは昨今の技術の進歩で少しやりやすくなった。

そうするとおぼろげながら「神の目」には徐々にゴールの姿が見えてくる。それは例えば生活者の便益で個別最適の連鎖の結果、毀損されている。

我々の最終目的が生活者の便益ならば、個別最適から全体最適に移行しなければならない。「神の手」を動かすためには個別最適を犠牲にして全体最適に貢献する部門に報奨が必要だ。神の目にはある個別最適を犠牲にしたときの全体最適への貢献度合いが分かるから報奨の額も設定できる。

やがて部分最適を主張する部署は無くなり、One Team!で生活者に向かい合えるようになる。

なんてことをこの寝苦しい夜に夢見ています。一緒に夢をかたちにしませんか?

DMBoK2の歩き方とデータガバナンスの位置付けを考える

筆者もDama-Jで設けられている各種分科会に参加している中で、最近新しく分科会参加してくる方々(主にベンダーやコンサルタント系)から出てくる参加理由として「仕事で出会うユーザ企業の人々が「データマネジメント知識体系ガイド(第2版)」(DMBoK2)を見ていて、自分たちもしっかり勉強しておく必要性を感じたため」という意見を聞くことが多くなっています。データをビジネス資産として扱おうという企業活動からすると、これは当然の流れであり筆者も喜ばしい傾向と捉えています。しかしDMBoK2そのものは知識領域を網羅的に解説した内容であり、初学者が手軽にその内容を理解するのに抵抗を感じるという読者意見も少なくありませんでした。

そこで今回の記事では、分科会活動へ参加する中で筆者が整理した、DMBoK2で説明しているデータマネジメントの全体像をビジュアルな形で理解を進めるための地図「データマネジメント歩き方マップ」について簡単に紹介し、一つの知識領域である「データガバナンス」の位置付けに目を通したいと考えます。(この「DM歩き方マップ」についてはEDW2020のビデオパック講演として筆者が紹介したものです(※1)。日本語版/英語版あり)

データマネジメントを具体的なものとして捉えるためには、それを構成する知識領域(機能構成)を個別に学習するだけでは不十分であり、それら知識領域の全体像(関連性)を理解する必要があるということが筆者の考え方です。この全体像を捉え、しかも個々の要素も見落とさずに眺めることができるようにしたいというのが筆者の目標であり、それを具体的に表現する形として作成したのが、この「DM歩き方マップ」でした(図1)。

図 1 DMBoK2 データマネジメント歩き方マップ 1.8版と知識領域対応図 (※2)

今やスマートフォン/PCの日常的利用の中で、地図を活用できることの便利さを否定する人は余りいないと思われます。それと同様にデータマネジメント(DM)という難題に取り組み、理解を共通化するためには、視覚的見方を可能とするDM地図が必要です。これを利用することでDMBoK2の知識領域(機能分野)の関連性理解を深めることができます。

(ここでは紙面の都合上、細かい議論には入りません)

図1は、機能分野の外部的関連性を表していますが、それに加えて各分野の直接の参照関係を表現したものが、参照関係図です(図2)。ここでは12の知識領域に加えて、他の5つの章を加えた合計17の章立ての内部関係性を表しています。参照関係は方向性(矢印の向き及び色使い)と関係の強さ(矢印線の太さ)で示しています。この図(DM歩き方マップ2)を参照することで、DMBoK2を読み解く上での章間の流れを離散的に推し量ることができます。

図 2 DMBoK2 各章の記事参照関係図(DM歩き方マップ2) (※2)

これらのマップ利用の例として、DMを考える読者の多くに感心の高いと考えられる、第3章「データガバナンス」を取り上げてみます。図1からデータガバナンス領域は各知識領域へ繋がる起点の話題であることが分かります。それと同時にDM活動を考える上での1.ビジネス戦略、2.EA(エンタープライズ・アーキテクチャ)戦略、3.データ戦略といったビジネス活動に直結する戦略領域の話題はDM活動に対する入力となっていることを確認できます。つまり企業活動の上で、DMを推進することは目的ではなく手段であると改めて視覚的に説明できます。ビジネス目標を達成する、データ資産化を実現するために何をしたら良いかと考えてゆくことが、DM活動の方向性であるといえます。それであるからこそ、スポンサー、経営者も本気で取り組むべき話題であると捉えることができます。

(少し話が逸れますが、2年位前のIT領域に関わる記事で大手企業(複数)役員が「CIOは貧乏くじ」という発言をしたのを取り上げていました。そういう企業ではいつまで経っても、システムトラブルが絶えることはなく、システム関係者こそ被害者意識を持ちながら鬱々とした日々の仕事生活を送っているだろうと想像したことを思い出しました。)

マップ2から見ると、データガバナンス領域(第3章/DG)の延長として第15章、16章、17章が構成されていることが確認できます。DGを多く参照しているのは、参照データとマスタデータ(第10章)、データ品質(第13章)で、他の章からの参照も幾つか存在します。第3章はデータ品質を高め・維持に関する組織立て、基本的プロセスの考え方を説明しています。これを踏まえて各機能領域での具体的なDG活動は、それぞれの領域内に含まれるという構成で読み進めることがDMBoK2データガバナンス理解の道筋となります。

DMBoK2でのDM知識領域解説は網羅的な形であり、一部を除いて余り役割階層的、また時間軸的な説明を区別したものとはなっていないと見ることができます。それが、DMBoK2を頭から順番に読了しようとして読者が躓く一つの要因であると、筆者には考えられます。DM歩き方マップで見る景色は、実際には時間軸(ロードマップ要素)、整合性を踏まえた関係者の役割軸を意識する必要があります。データガバナンス要素を含めて、DM活動は組織としての継続的で総合的な有機的活動とすることが必要です(図3)。個人の努力に依存する形では、決してDM活動の理想に到達できないものと筆者は捉えています。人材の流動化が益々想定される社会では、確固として継続的なデータマネジメント活動の意味が大きなものとなることでしょう。

図 3 DMBoK2 を基本にしたデータマネジメント知識領域全体像 (※2)

組織的活動としてのデータマネジメントを成功させるために、DMBoK2で議論されているエッセンスが広く多くの立場の方々に理解され、納得性のある当たり前の活動として実践されることを期待しています。

尚、本記事で紹介したDM歩き方マップ等に関心のある方は、筆者に照会頂ければ資料ご案内します。問合せ下さい。

(メール: minoru.nakaoka(a)infolabyouyou.com メール発信時は、(a)部分をアットマークに変更下さい)

※1 EDW(Enterprise Data World)カンファレス2020は、当初3月にカリフォルニア、サンディエゴ市で開催予定されていたが、コロナ窩話題により集合形式実施は中止された。その際、主催者からの照会によりビデオ録画形式での実施参加問合せを受け、筆者はビデオパック向けの講演参加を行った(60セッション強のセッション参加あり)。

演題 “Walking Map of DMBOK2 : A Bird’s-Eye View to the Data Management World”

※2 図は何れも筆者のEDW2020 ビデオ講演で利用したものを抜粋している。(日本語表現に訂正して掲載)

[投稿者]中岡 実(インフオラボ游悠 代表/データマネジメントコンサルタント、ITコーディネータ、認定心理士)