データ管理は「集中」「分散」「ハイブリッド」

はじめに

このブログのタイトルを見て何を思い浮かべましたでしょうか? データガバナンス? メタデータ管理? マスターデータ管理? その他?
そのどれも正しいです。
DAMAの分科会でメタデータ管理がテーマの時に「メタデータ管理のアーキテクチャには、集中型、分散型、ハイブリッド型、双方向がある」と説明を受け、私は「どこかで聞いたことがあるな?」と思いました。
調べてみると同じような概念がDMBOKの各所にありました。
どこにその記述があるか? 全て解説を加えたいところですが、相当量になってしまいますので、今回は解説なしで項目だけ紹介してみます。

第3章 データガバナンス
データガバナンスのオペレーティングモデルタイプには以下の3種類があると説明されています。

  • 中央型 (集中型?)
  • 複製型 (分散型?)
  • 連邦型 (ハイブリッド型?)


第6章 データストレージとオペレーション
データベースアーキテクチャの種類には以下の3種類があると説明されています。

  • 集中型データベース
  • 分散型データベース
  • 連邦型データベース


第10章 参照データとマスターデータ
参照データとマスターデータの統合の基本的なアーキテクチャアプローチとして、以下の3種類があると説明されています。「集中」「分散」「ハイブリッド」とは異なるように聞こえますが、発想は類似しています。

  • レジストリ      (発想は分散型です)
  • トランザクションハブ (集中型です)
  • 統合アプローチ    (上記2つのハイブリッドと説明されています)


第12章 メタデータ管理
メタデータアーキテクチャの種類として、以下の4種類があると説明されています。

  • 集中型メタデータアーキテクチャ
  • 分散型メタデータアーキテクチャ
  • ハイブリッド型メタデータアーキテクチャ
  • 双方向メタデータアーキテクチャ


第16章 データマネジメント組織と役割期待
データマネジメントのオペレーティングモデルとして以下の5種類が説明されています。ネットワーク型と連邦型も広い意味でハイブリッド型と言って良いと思います。

  • 地方分権型オペレーティングモデル (分散型)
  • ネットワーク型オペレーティングモデル
  • 中央集権型オペレーティングモデル (集中型)
  • ハイブリッド型オペレーティングモデル
  • 連邦型オペレーティングモデル

本日は説明しませんが、どの集中型、分散型にも概ね同じようなメリットとデメリットがあり、その折衷案がハイブリッド型というのも概ね同じようです。

「だからどうした?」という話かもしれませんが、皆さんが今後DMBOK2 を読む際にちょっと頭の片隅に置いていただいても良いかと思います。

DMBOK第2版 第2章 「データ取扱倫理」は読む価値があるのか!?

DMBOK第2版では第1版からいくつかの章が追加されているが、その中の一つで際立っているのが「第2章 データ取扱倫理」である。この章は、データセキュリティ以前にデータマネジメントを行う上で守るべき倫理的概念や、非倫理的データの扱いの例が説明されており、 GDPR (General Data Protection Regulation: EU一般データ保護規則) をはじめとする各国の関連する法律にも言及している。
知識領域でもなく、新しい概念でもない、他とは異彩を放つ第2章。この章が追加された意義は何なのか、筆者の考えを述べたい。

第2章は データマネジメント会員規約?

いきなり話が変わるが、例えば皆さんが何らかのクラブ有料会員になる時にどのようなステップを踏むであろう? 通常は

 1.クラブ有料会員の概要を説明資料等で理解する
 2.会員申請し承認を得る。
  その際に「会員規約を読み、同意するサインを行う」
 3.会員として参加する

であろう。ところで皆さんは「同意するサインを行う」際にちゃんと会員規約を読んでいるであろうか?
多くの人は何も読まずにサイン(チェックボックスにチェック)してしまうのではないだろうか?

ところがこれが会員規約ではなく、数百億円の契約書の「契約条件」の場合はどうであろうか?おそらく目を皿のようにして確認するのではないか?

筆者はDMBOK 第2版 の「第2章 データ取扱倫理」はデータマネジメントにおける「会員規約」もしくは「契約条件」にあたるものと理解している。すなわち

 1.第1章でデータマネジメント概要を理解する
 2.第2章でデータマネジメントの「会員規約/契約条件」を理解する
 3.その上で、第3章以降のデータマネジメントを実践する

第2章を読む必要性

筆者の理解が正しいとすると、追加になったこの第2章を読む必要はあるのだろうか?それは以下のように考える

 1) データマネジメントを学びたい、DMBOKを理解したい
  → 第2章は無理して読む必要はない。
   先に第3章以降の興味のある章を読むべし≒「会員規約」
 2) データマネジメント組織を創りDMBOKベースでデータマネジメントを
  実践したい
  →第2章はしっかり読むべし≒「契約条件」

このように考えると、この章が最終章ではなく、第2章に位置付けられている意味も理解できる気がする。

それでも第2章は興味深い

上記の 1) の場合は「無理して読む必要はない」と言いながら、ひとこと付け加えさせていただくと、この章に書いてあることが決して面白くないという意味ではない。むしろ、この章にはデータマネジメントにとどまらず、一般的な話として興味深い内容が盛りだくさんとも言える。特に「3.4 非倫理的なデータ取扱業務のリスク」に関しては、非倫理的なデータ取扱の例が記載されており、自分自身が「あの時はデータに騙されてしまった!」や、逆に「あの時は、ちょっと悪さをして騙そうとしてしまったなあ」といった苦い思い出が蘇ってきたりもする。
この話はまた機会があればお伝えしたいと思う。

「DAMA日本支部 第9分科会=DMBOK勉強会=の紹介」

DAMA日本支部ではいくつかの分科会活動を行っている。そのうち筆者が担当しているのが第9分科会である。今回はこの場をお借りして簡単に第9分科会の紹介をさせていただきたい。既に当分科会に参加いただいている方やDAMA日本支部の総会に参加いただいた方には既知の情報ばかりになってしまうことをご容赦願いたい。

第9分科会はDMBOKの勉強会

DAMA日本支部のホームページでは「DMBOKに関する研究会」とも紹介されているが、簡単に言えば単なる勉強会である。概ね以下の方針で運営している。
・開催頻度・時間: 3か月に2回程度、各回は概ね90分
・開催場所:    都内+リモート接続 但し今年度からはリモート接続のみ
・内容:      毎回DMBOKの1章分を代表者が説明しディスカッション
・説明担当者:   分科会参加者のボランティア
DMBOK2は全17章あるので、全章の勉強を完了するのには2年以上を要する。

第9分科会は広く浅く 説明担当はボランティア

他の分科会が一つのテーマを掘り下げているのに対して、当分科会はその全く反対であり、DMBOK全体を広く浅く理解しようというアプローチである。
説明担当者もその道の専門家を招くわけでもなく、分科会参加メンバーが自分の得意分野もしくは自分の興味のある分野を自ら勉強して担当する。説明担当者は完全なるボランティアであり、自分で説明資料も作成するので、それなりの負担にはなる。説明担当者にはならずに、ディスカッションに加わるだけの参加方法も可能としている。だが、説明担当になることで、その章に関する理解がより深まるというメリットもあり、多くの参加者が説明担当に挑戦している。

既に2周りして3周目!

 1周目 DMBOK 第1版 2015.10~2017.07
 2周目 DMBOK 第2版 2017.12~2020.04

実はこの分科会の歴史は短くない。2015年の10月にDMBOK第1版の勉強会が始まり、2017年5月には第1版全章の勉強会が完了した。その後第2版の英語版が発売され、2017年12月からは第2版の勉強会として再開、本年4月に全17章の勉強会を完了したところである。この途中には第2版の日本語版も発売されている。これでこの分科会の活動は一旦終了したが、その後も継続の要望が強くその継続方法に関しては大きく以下の3つの意見に分かれた
 1) データ管理って何?というレベルの、より入門クラスの分科会にする
 2) 2周目の内容をもう1周する
 3) 各章をより深堀したディスカッションが行える分科会にする
検討を重ねた結果、2周目の途中から参加したメンバーも多く、また復習もしたいという意見もあったため「2) 2周目の内容をもう1周する」に決定した。2020年7月に3周目のキックオフを行い、今月2020年9月から各章の勉強会を再開する。

今がチャンス!?

これからDMBOKを勉強したいという方、今まさに3周目が始まろうとしているので、今がチャンスと言える。リモート接続のみの開催となったので、ある意味参加しやすいのではないかと思われる。これを機にDAMA日本支部の会員になり、第9分科会に参加してみては?

新分科会について

新分科会として「 データ管理って何?というレベルの、より入門クラスの分科会 」と「各章をより深堀したディスカッションが行える分科会」の要望がなくなったわけではない。会員の方で我こそはと思う方は、分科会リーダーとなり、新たな分科会を開始してみるのも良いと思われる。

== おことわり ==
第9分科会の資料だけいただけないか?という問い合わせをいただくことがありますが、説明資料は著作物の引用が多い関係で配布できませんのでご了承ください。

低品質データのロスは国家予算を超える!?

データ量は年間20億バイト!

DMBOKではいくつか数字の事例を用いて事象を説明することがある。つい読み流してしまうが、極端な例もある。

DMBOK第1版では、「1.1 データ:エンタープライズ資産」に以下の記述がある。
「カリフォルニア大学バークレー校の研究者達は、世界では毎年10億バイトから20億バイトのデータが生成されていると試算されており、情報の海で溺れそうになることも珍しくない」
20億か、大変だ〜。と一瞬思うが20億バイトは2GBである。これなら世界で1年ではなく、私のPCで1日に生成することもある量である。ネット検索して出典*1を見つけたが、そこにも同じ記述があったので、DAMAのミスではなさそうだ。それにしても 20億バイトは何かの勘違いか?
なお、出典*2によるとDMBOK 第1版が発売された2009年の世界のデータ量は800Exaバイトとあり桁が11個も違う。また出典*3のように2025年には、175Zettaバイトという予想もあるようだ。

低品質データの損失は300兆円以上!

DMBOK第2版の第1章の「2.5.3データ品質」には以下の記述がある。
「IBMは米国において低品質データのために費やしたコストは2016年で3.1兆ドルであったと推定している」
それは大きな損失だなあ〜。と一瞬思うが3.1兆ドルは300兆円以上である。300兆円と言えば国家予算並みではないかと思い、その2016年の国家予算(歳入)を調べてみた。出典*4によると
1位 米国 5.7兆ドル
2位 中国 3.2兆ドル
3位 日本 1.7兆ドル
とのことだ。米国の低品質データの損失は国家予算の半分以上! IBMも随分極端な推定をしたものだ、と思いながら一応調べてみたところ、IBMはとあるコンサルティングファームの推定(出典*5)を引用して、好んでこの値を使っているだけで、IBM自身で推定したものではないようだ。いずれにせよ 3.1兆ドルというのはちょっと大げさではないだろうか?
もっとも、低品質データの損失を正確に見積もることは、相当困難であろう。多くの論文等(出典*6)で「低品質データの損失により、収益の10%以上を失う可能性がある (Redman 2001)」というのを引用しているが、私としてはこちらの方がまだ納得できる気がする。

すいません、データ管理と直接関係のない話題となってしまいましたが、DMBOKも注意深く読んでみると色んな発見があるものだということがわかった、ということで今回はお許しください。

出典1
https://www.coursehero.com/file/p1bd5g3/Data-needs-to-be-thoughtfully-managed-because-it-controls-the-entire-life-of/

出典2
https://www.researchgate.net/figure/Global-growth-trend-of-data-volume-2006-2020-based-on-The-digital-universe-in-2020_fig1_274233315

出典3
https://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025/#62fb86165459

出典4
https://4knn.tv/government-budgets-by-country/

出典5
https://www.edq.com/blog/data-quality-failures-cost-us-3tn-a-year/

出典6
https://www.researchgate.net/publication/281269036_Classifying_costs_and_effects_of_poor_Data_Quality_-_examples_and_discussion など多数