座学でデータマネジメントを学ぶには

データ利活用を推進するために、データマネジメントやデータガバナンスに関心を持つ組織が増えています。それとともに、組織内にデータマネジメントの知見が無いため、まずは一般的な教育を受けるところからはじめたい、という方も増えてきています。
効率的に自社に必要な知識を学び、同時に組織内のデータマネジメントを実践するには、外部の専門家に入ってもらい、プロジェクト化するのが手っ取り早いでしょう。今後組織のデータマネジメントの中核を担うメンバにもプロジェクトに参加してもらい、OJTで手を動かしながら学んでいくやり方です。
ただ組織が必要とする特定のデータマネジメントの専門家を見つけられない場合、独力で座学で学んでいくことも必要です。

座学でデータマネジメントを学ぶ3つのステップ

私はデータマネジメントについてわからないことがあると、次のようなステップで調べ、学んでいます。

その1 DMBOKで基本に立ち返る

なにかわからないことがあれば、まずはDMBOKを開いています。
データマネジメント知識体系ガイド 第二版
https://www.nikkeibp.co.jp/atclpubmkt/book/18/270160/

翻訳メンバだったこともあり、英語原本も日本語版ももうすでに何度となく読んでいます。ですが新たに経験した現場の成果物や組織体制を踏まえて読み返すたびに、「この成果物や考え方は別の場面にも適用できるな」などと、新しい気づきが得られます。
データマネジメント未経験者の方も、DMBOKを何度も読み返せば、全般的な知識を学べるはずです。
ただし、DMBOKは日本語版の本文だけでもおよそ650ページあり、また具体的な成果物やルールの記述が少ないため、ひとりで最初から最後まで通して読み切るには、なかなか歯ごたえがあります。
おそらく英語圏でも同じような悩みがあるのでしょう。DMBOKの出版責任者の方が、DMBOKの概説書を英語で出版されています。英語が堪能な方は、まずはこちらを読み込み、より深く学ぶときにDMBOK本体にあたられるといいかもしれません。
Navigating the Labyrinth: An Executive Guide to Data Management
https://technicspub.com/dmbok/

その2 WEB教育プラットフォームで最新情報を押さえる

現在のDMBOK第2版の英語原本が出版されてから、すでに3年が経過しています。データマネジメントも、新しい技法や考え方が出てきています。
私はこうした情報を、WEBの教育プラットフォームのコースや解説記事を通じて仕入れています。特に、毎年DAMA-Internationalと国際的なデータマネジメントカンファレンスEDW(Enterprise Data World)を開催しているDataversityのサイトは頻繁に巡回しています。
Dataversity
https://www.dataversity.net/

有料のトレーニングコースもありますが、その時々のデータマネジメントやガバナンスのトレンドを押さえるのであれば、Webinarをチェックすれば十分でしょう。(https://www.dataversity.net/category/education/webinars/upcoming-webinars/
ここでWebinarを開催しているDMBOKの著者もいます。彼らのWebinarではDMBOKには載せていなかった事例や成果物イメージを確認できることもあるので、おすすめです。

その3 SNSで疑問を直接専門家にぶつける

書籍やWebinarの疑問は、著者または講演者本人にSNSを通じて質問します。海外、特にアメリカの著名なデータマネジメント専門家の多くが、LinkedinかTwitterのアカウントを持っていて、直接コンタクトを取ることができます。
またLinkedinではグループ機能で専門家を中心にディスカッションが行われているので、参加してみるとおもしろいでしょう。

日本語で学ぶならまずはDAMA日本支部へ

上記以外に日常的に参照している書籍やサイトもありますが、だいたいなにか知りたいことがあると、この3ステップのどこかで解消されます。
また書籍代以外は基本無料なので、金銭コストを避けたい学生や若手の方にもおすすめです。ご参考ください。
ただ、その2もその3もそれなりの英語力が必要になります。
やはり語学のハードルは高い、日本語で幅広く学びたい、という方はDAMA日本支部にご参加ください。
テーマ別の分科会だけでなく、最近では2~3ヵ月に一度DMBOKの概説セミナも実施しています。また国内の専門家が所属しているので、分科会/セミナの場で直接質問をぶつけてみてはいかがでしょうか?

DMBOK第2版 第2章 「データ取扱倫理」は読む価値があるのか!?

DMBOK第2版では第1版からいくつかの章が追加されているが、その中の一つで際立っているのが「第2章 データ取扱倫理」である。この章は、データセキュリティ以前にデータマネジメントを行う上で守るべき倫理的概念や、非倫理的データの扱いの例が説明されており、 GDPR (General Data Protection Regulation: EU一般データ保護規則) をはじめとする各国の関連する法律にも言及している。
知識領域でもなく、新しい概念でもない、他とは異彩を放つ第2章。この章が追加された意義は何なのか、筆者の考えを述べたい。

第2章は データマネジメント会員規約?

いきなり話が変わるが、例えば皆さんが何らかのクラブ有料会員になる時にどのようなステップを踏むであろう? 通常は

 1.クラブ有料会員の概要を説明資料等で理解する
 2.会員申請し承認を得る。
  その際に「会員規約を読み、同意するサインを行う」
 3.会員として参加する

であろう。ところで皆さんは「同意するサインを行う」際にちゃんと会員規約を読んでいるであろうか?
多くの人は何も読まずにサイン(チェックボックスにチェック)してしまうのではないだろうか?

ところがこれが会員規約ではなく、数百億円の契約書の「契約条件」の場合はどうであろうか?おそらく目を皿のようにして確認するのではないか?

筆者はDMBOK 第2版 の「第2章 データ取扱倫理」はデータマネジメントにおける「会員規約」もしくは「契約条件」にあたるものと理解している。すなわち

 1.第1章でデータマネジメント概要を理解する
 2.第2章でデータマネジメントの「会員規約/契約条件」を理解する
 3.その上で、第3章以降のデータマネジメントを実践する

第2章を読む必要性

筆者の理解が正しいとすると、追加になったこの第2章を読む必要はあるのだろうか?それは以下のように考える

 1) データマネジメントを学びたい、DMBOKを理解したい
  → 第2章は無理して読む必要はない。
   先に第3章以降の興味のある章を読むべし≒「会員規約」
 2) データマネジメント組織を創りDMBOKベースでデータマネジメントを
  実践したい
  →第2章はしっかり読むべし≒「契約条件」

このように考えると、この章が最終章ではなく、第2章に位置付けられている意味も理解できる気がする。

それでも第2章は興味深い

上記の 1) の場合は「無理して読む必要はない」と言いながら、ひとこと付け加えさせていただくと、この章に書いてあることが決して面白くないという意味ではない。むしろ、この章にはデータマネジメントにとどまらず、一般的な話として興味深い内容が盛りだくさんとも言える。特に「3.4 非倫理的なデータ取扱業務のリスク」に関しては、非倫理的なデータ取扱の例が記載されており、自分自身が「あの時はデータに騙されてしまった!」や、逆に「あの時は、ちょっと悪さをして騙そうとしてしまったなあ」といった苦い思い出が蘇ってきたりもする。
この話はまた機会があればお伝えしたいと思う。

「DAMA日本支部 第9分科会=DMBOK勉強会=の紹介」

DAMA日本支部ではいくつかの分科会活動を行っている。そのうち筆者が担当しているのが第9分科会である。今回はこの場をお借りして簡単に第9分科会の紹介をさせていただきたい。既に当分科会に参加いただいている方やDAMA日本支部の総会に参加いただいた方には既知の情報ばかりになってしまうことをご容赦願いたい。

第9分科会はDMBOKの勉強会

DAMA日本支部のホームページでは「DMBOKに関する研究会」とも紹介されているが、簡単に言えば単なる勉強会である。概ね以下の方針で運営している。
・開催頻度・時間: 3か月に2回程度、各回は概ね90分
・開催場所:    都内+リモート接続 但し今年度からはリモート接続のみ
・内容:      毎回DMBOKの1章分を代表者が説明しディスカッション
・説明担当者:   分科会参加者のボランティア
DMBOK2は全17章あるので、全章の勉強を完了するのには2年以上を要する。

第9分科会は広く浅く 説明担当はボランティア

他の分科会が一つのテーマを掘り下げているのに対して、当分科会はその全く反対であり、DMBOK全体を広く浅く理解しようというアプローチである。
説明担当者もその道の専門家を招くわけでもなく、分科会参加メンバーが自分の得意分野もしくは自分の興味のある分野を自ら勉強して担当する。説明担当者は完全なるボランティアであり、自分で説明資料も作成するので、それなりの負担にはなる。説明担当者にはならずに、ディスカッションに加わるだけの参加方法も可能としている。だが、説明担当になることで、その章に関する理解がより深まるというメリットもあり、多くの参加者が説明担当に挑戦している。

既に2周りして3周目!

 1周目 DMBOK 第1版 2015.10~2017.07
 2周目 DMBOK 第2版 2017.12~2020.04

実はこの分科会の歴史は短くない。2015年の10月にDMBOK第1版の勉強会が始まり、2017年5月には第1版全章の勉強会が完了した。その後第2版の英語版が発売され、2017年12月からは第2版の勉強会として再開、本年4月に全17章の勉強会を完了したところである。この途中には第2版の日本語版も発売されている。これでこの分科会の活動は一旦終了したが、その後も継続の要望が強くその継続方法に関しては大きく以下の3つの意見に分かれた
 1) データ管理って何?というレベルの、より入門クラスの分科会にする
 2) 2周目の内容をもう1周する
 3) 各章をより深堀したディスカッションが行える分科会にする
検討を重ねた結果、2周目の途中から参加したメンバーも多く、また復習もしたいという意見もあったため「2) 2周目の内容をもう1周する」に決定した。2020年7月に3周目のキックオフを行い、今月2020年9月から各章の勉強会を再開する。

今がチャンス!?

これからDMBOKを勉強したいという方、今まさに3周目が始まろうとしているので、今がチャンスと言える。リモート接続のみの開催となったので、ある意味参加しやすいのではないかと思われる。これを機にDAMA日本支部の会員になり、第9分科会に参加してみては?

新分科会について

新分科会として「 データ管理って何?というレベルの、より入門クラスの分科会 」と「各章をより深堀したディスカッションが行える分科会」の要望がなくなったわけではない。会員の方で我こそはと思う方は、分科会リーダーとなり、新たな分科会を開始してみるのも良いと思われる。

== おことわり ==
第9分科会の資料だけいただけないか?という問い合わせをいただくことがありますが、説明資料は著作物の引用が多い関係で配布できませんのでご了承ください。

低品質データのロスは国家予算を超える!?

データ量は年間20億バイト!

DMBOKではいくつか数字の事例を用いて事象を説明することがある。つい読み流してしまうが、極端な例もある。

DMBOK第1版では、「1.1 データ:エンタープライズ資産」に以下の記述がある。
「カリフォルニア大学バークレー校の研究者達は、世界では毎年10億バイトから20億バイトのデータが生成されていると試算されており、情報の海で溺れそうになることも珍しくない」
20億か、大変だ〜。と一瞬思うが20億バイトは2GBである。これなら世界で1年ではなく、私のPCで1日に生成することもある量である。ネット検索して出典*1を見つけたが、そこにも同じ記述があったので、DAMAのミスではなさそうだ。それにしても 20億バイトは何かの勘違いか?
なお、出典*2によるとDMBOK 第1版が発売された2009年の世界のデータ量は800Exaバイトとあり桁が11個も違う。また出典*3のように2025年には、175Zettaバイトという予想もあるようだ。

低品質データの損失は300兆円以上!

DMBOK第2版の第1章の「2.5.3データ品質」には以下の記述がある。
「IBMは米国において低品質データのために費やしたコストは2016年で3.1兆ドルであったと推定している」
それは大きな損失だなあ〜。と一瞬思うが3.1兆ドルは300兆円以上である。300兆円と言えば国家予算並みではないかと思い、その2016年の国家予算(歳入)を調べてみた。出典*4によると
1位 米国 5.7兆ドル
2位 中国 3.2兆ドル
3位 日本 1.7兆ドル
とのことだ。米国の低品質データの損失は国家予算の半分以上! IBMも随分極端な推定をしたものだ、と思いながら一応調べてみたところ、IBMはとあるコンサルティングファームの推定(出典*5)を引用して、好んでこの値を使っているだけで、IBM自身で推定したものではないようだ。いずれにせよ 3.1兆ドルというのはちょっと大げさではないだろうか?
もっとも、低品質データの損失を正確に見積もることは、相当困難であろう。多くの論文等(出典*6)で「低品質データの損失により、収益の10%以上を失う可能性がある (Redman 2001)」というのを引用しているが、私としてはこちらの方がまだ納得できる気がする。

すいません、データ管理と直接関係のない話題となってしまいましたが、DMBOKも注意深く読んでみると色んな発見があるものだということがわかった、ということで今回はお許しください。

出典1
https://www.coursehero.com/file/p1bd5g3/Data-needs-to-be-thoughtfully-managed-because-it-controls-the-entire-life-of/

出典2
https://www.researchgate.net/figure/Global-growth-trend-of-data-volume-2006-2020-based-on-The-digital-universe-in-2020_fig1_274233315

出典3
https://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025/#62fb86165459

出典4
https://4knn.tv/government-budgets-by-country/

出典5
https://www.edq.com/blog/data-quality-failures-cost-us-3tn-a-year/

出典6
https://www.researchgate.net/publication/281269036_Classifying_costs_and_effects_of_poor_Data_Quality_-_examples_and_discussion など多数