データに騙されない!?

はじめに

既に1年以上前となりますが、私はDMBOK2 第2章「データ倫理」に関して、このブログに投稿したことがあります。そこで「データで騙した例、騙された例など機会があれば紹介したい」という主旨のことを最後に書きました。今回はその例をいくつか紹介してみたいと思います。

母数に注意

現在の新型コロナの感染者数は若年層が多いと言われていますが、第一波のころには「どの年代でも平均的に感染している」という報道がありました。その頃に提供されたデータが以下となります(リンク先を参考にグラフは独自に作成)。

確かにどの年代でも平均しているように見えますが、もともと東京都は20代の人口が少ないはずです。そこで10万人あたりの感染者数にしてみると以下のようになります(独自に集計)。

こう見ると、明らかに若年層の方が感染者数が多いように見えます。なので「どの年代も平均して~」という報道には疑問も感じます。
実は「10万人あたり~」を棒グラフにしたのは、円グラフよりも差が際立つからであり、このようにグラフを使い分けることもデータを扱う上でのテクニックであり、”騙すこと”ともいえます。

コロナの感染者数はあくまでも例であり、例えば国ごとのオリンピックでのメダル数ランキングも「人口当たり」にすると、かなり違う見え方になるでしょう。また、出身都道府県別総理大臣数は山口県が東京都の次に多いらしいですが、人口あたりにすると山口県が圧倒的に多くなります。

このように、母数を意識した観点も忘れてはならないでしょう。

単位に注意

Cloud時代になりメインフレームの需要は減退していると言われています。IT系の記事でこれを証明するべく「メインフレームの出荷台数推移」なるもが紹介され、出荷台数が激減しているということが示されています。
しかし、メインフレームは1台の処理能力は飛躍的に向上しており、20台以上のメインフレームを1台に集約するような事例もあります。単純に出荷台数で評価することが正しいかは疑問があります。
例えば、あるベンダーでは「メインフレームの出荷処理性能」が10年間で3倍以上になっていることを公表しています。これは、価格性能比も3倍以上になっているでしょうから、素直に、メインフレームがまだ成長している、という評価はできないでしょう。
「出荷台数」「出荷処理能力」「出荷額」など単位が異なると評価が変わります。
この例にかかわらず、データを扱う際にその単位にも気を付けた方が良いでしょう。「xx茶は2lボトルより、500mlの方が売れている」というような場合も、それが、本数比較なのか、価格比較なのか、容量比較なのか、ハッキリしないと評価が難しいですね。

その他の例

その他にもたくさん例があるのですが、長くなるので、箇条書きで紹介します。

◇ 母集団特性に注意・・「部門別TOEIC点数ランキング」で「国際部が1位」
→国際部ですから、当然の結果で意味のない評価とも言えます。

◇ 不要な過去情報・・「これまでxxx円を投資したので、今更このプロジェクトはやめられない」「せっかく30分待ったから、もうちょっとタクシーを待ってみよう」→いずれも過去情報は今後の判断に影響しないはずです。

◇ 不要な追加情報・・最高気温の統計分析に「湿度情報」→ 正確な分析に影響?
◇ 無意味な平均・・「平均貯蓄額」→ 一部の資産家の影響大
◇ 言葉の定義・・「国別暴力事件の発生件数」・・暴力事件の定義が国により異なる


この話題、いくらでもお話できそうですが、今回はここまでにさせていただきます。興味のある方は是非DMBOK2 第2章を読んでください。

「DMBOK2概説セミナー」の紹介

はじめに

DAMA日本支部では年に3回程度「DMBOK2概説セミナー」を開催しています。今回は宣伝も兼ねてそのセミナーの全体像を紹介させていただきます。

開催のきっかけ

DMBOK (Data Management Body Of Knowledge)の第2版(以下、DMBOK2) は2017年に英語版が2018年12月に日本語が発売となりました。日本語版の翻訳作業はMetafind社とともに DAMA日本支部も担当しています。
そこでDAMA日本支部としては、このDMBOK2を普及させ、これをきっかけにDAMA日本支部の会員増加にもつなげたいとの思いがありました。その施策のひとつが「DMBOK2概説セミナーの開催」となり、2019年3月から開始しています。

開催方法・開催内容

1回の開催は18:00~概ね2時間、毎回2テーマを取り上げています。第3回までは集合研修、第4回以降はオンライン開催となっています。これまで以下のように8回開催しています。
原則3月、6月、9月の開催を基本としていますが、2020年は3月開催の直前中止、オンライン開催への切り替えなどがあり、変則的になりました。

第1回 2019.03.05 「DMBOK2 全体概要」「第1章 データマネジメント
第2回 2019.06.18  第1回と同内容
第3回 2019.09.04 「第3章データガバナンス」「第12章 メタデータ管理」
第4回 2020.07.28 「第4章 データアーキテクチャ」「第13章 データ品質

第5回 2020.09.14  第3回と同内容
第6回 2021.03.15  第1回、第2回とほぼ同内容

第7回 2021.06.23 「第5章 データモデリング~」「第8章 データ統合~」
第8回 2021.09.15  第4回と同内容

アンケート結果

このセミナーへの参加者には毎回アンケートをお願いしています。その設問の1つに以下があります。
「セミナーの継続開催を希望する場合、ご希望のテーマを教えてください(複数選択)」
過去8回分の結果を積み重ねると以下のようになりました。

これまで、このアンケートをもとに、希望者の多いテーマを取り上げてきました。今後も希望者が多くかつまだ開催していないテーマを中心に開催を継続する予定です。

参加方法

開催の1か月程度前にはDAMA日本支部のホームページに掲載しますので、そこから申し込んでください。当初はDAMA日本支部の会員以外は有料でしたが、第4回以降、オンライン開催に切り替えたのをきっかけに全員無料での参加が可能となっています。

またDAMA日本支部の会員の方には、講義録画を無料で公開しております。過去のセミナーに参加できず、過去のセミナーを視聴したいという非会員の方は、これを機に入会をご検討いただければ幸いです。

今後の予定

詳細は未定ですが、次回は2022年の2月か3月にこれまで取り上げた実績のないテーマでの開催を検討しています。また、過去開催分の無料視聴会なども検討したいと思います。

データ管理は「集中」「分散」「ハイブリッド」

はじめに

このブログのタイトルを見て何を思い浮かべましたでしょうか? データガバナンス? メタデータ管理? マスターデータ管理? その他?
そのどれも正しいです。
DAMAの分科会でメタデータ管理がテーマの時に「メタデータ管理のアーキテクチャには、集中型、分散型、ハイブリッド型、双方向がある」と説明を受け、私は「どこかで聞いたことがあるな?」と思いました。
調べてみると同じような概念がDMBOKの各所にありました。
どこにその記述があるか? 全て解説を加えたいところですが、相当量になってしまいますので、今回は解説なしで項目だけ紹介してみます。

第3章 データガバナンス
データガバナンスのオペレーティングモデルタイプには以下の3種類があると説明されています。

  • 中央型 (集中型?)
  • 複製型 (分散型?)
  • 連邦型 (ハイブリッド型?)


第6章 データストレージとオペレーション
データベースアーキテクチャの種類には以下の3種類があると説明されています。

  • 集中型データベース
  • 分散型データベース
  • 連邦型データベース


第10章 参照データとマスターデータ
参照データとマスターデータの統合の基本的なアーキテクチャアプローチとして、以下の3種類があると説明されています。「集中」「分散」「ハイブリッド」とは異なるように聞こえますが、発想は類似しています。

  • レジストリ      (発想は分散型です)
  • トランザクションハブ (集中型です)
  • 統合アプローチ    (上記2つのハイブリッドと説明されています)


第12章 メタデータ管理
メタデータアーキテクチャの種類として、以下の4種類があると説明されています。

  • 集中型メタデータアーキテクチャ
  • 分散型メタデータアーキテクチャ
  • ハイブリッド型メタデータアーキテクチャ
  • 双方向メタデータアーキテクチャ


第16章 データマネジメント組織と役割期待
データマネジメントのオペレーティングモデルとして以下の5種類が説明されています。ネットワーク型と連邦型も広い意味でハイブリッド型と言って良いと思います。

  • 地方分権型オペレーティングモデル (分散型)
  • ネットワーク型オペレーティングモデル
  • 中央集権型オペレーティングモデル (集中型)
  • ハイブリッド型オペレーティングモデル
  • 連邦型オペレーティングモデル

本日は説明しませんが、どの集中型、分散型にも概ね同じようなメリットとデメリットがあり、その折衷案がハイブリッド型というのも概ね同じようです。

「だからどうした?」という話かもしれませんが、皆さんが今後DMBOK2 を読む際にちょっと頭の片隅に置いていただいても良いかと思います。

DMBOK第2版 第2章 「データ取扱倫理」は読む価値があるのか!?

DMBOK第2版では第1版からいくつかの章が追加されているが、その中の一つで際立っているのが「第2章 データ取扱倫理」である。この章は、データセキュリティ以前にデータマネジメントを行う上で守るべき倫理的概念や、非倫理的データの扱いの例が説明されており、 GDPR (General Data Protection Regulation: EU一般データ保護規則) をはじめとする各国の関連する法律にも言及している。
知識領域でもなく、新しい概念でもない、他とは異彩を放つ第2章。この章が追加された意義は何なのか、筆者の考えを述べたい。

第2章は データマネジメント会員規約?

いきなり話が変わるが、例えば皆さんが何らかのクラブ有料会員になる時にどのようなステップを踏むであろう? 通常は

 1.クラブ有料会員の概要を説明資料等で理解する
 2.会員申請し承認を得る。
  その際に「会員規約を読み、同意するサインを行う」
 3.会員として参加する

であろう。ところで皆さんは「同意するサインを行う」際にちゃんと会員規約を読んでいるであろうか?
多くの人は何も読まずにサイン(チェックボックスにチェック)してしまうのではないだろうか?

ところがこれが会員規約ではなく、数百億円の契約書の「契約条件」の場合はどうであろうか?おそらく目を皿のようにして確認するのではないか?

筆者はDMBOK 第2版 の「第2章 データ取扱倫理」はデータマネジメントにおける「会員規約」もしくは「契約条件」にあたるものと理解している。すなわち

 1.第1章でデータマネジメント概要を理解する
 2.第2章でデータマネジメントの「会員規約/契約条件」を理解する
 3.その上で、第3章以降のデータマネジメントを実践する

第2章を読む必要性

筆者の理解が正しいとすると、追加になったこの第2章を読む必要はあるのだろうか?それは以下のように考える

 1) データマネジメントを学びたい、DMBOKを理解したい
  → 第2章は無理して読む必要はない。
   先に第3章以降の興味のある章を読むべし≒「会員規約」
 2) データマネジメント組織を創りDMBOKベースでデータマネジメントを
  実践したい
  →第2章はしっかり読むべし≒「契約条件」

このように考えると、この章が最終章ではなく、第2章に位置付けられている意味も理解できる気がする。

それでも第2章は興味深い

上記の 1) の場合は「無理して読む必要はない」と言いながら、ひとこと付け加えさせていただくと、この章に書いてあることが決して面白くないという意味ではない。むしろ、この章にはデータマネジメントにとどまらず、一般的な話として興味深い内容が盛りだくさんとも言える。特に「3.4 非倫理的なデータ取扱業務のリスク」に関しては、非倫理的なデータ取扱の例が記載されており、自分自身が「あの時はデータに騙されてしまった!」や、逆に「あの時は、ちょっと悪さをして騙そうとしてしまったなあ」といった苦い思い出が蘇ってきたりもする。
この話はまた機会があればお伝えしたいと思う。

「DAMA日本支部 第9分科会=DMBOK勉強会=の紹介」

DAMA日本支部ではいくつかの分科会活動を行っている。そのうち筆者が担当しているのが第9分科会である。今回はこの場をお借りして簡単に第9分科会の紹介をさせていただきたい。既に当分科会に参加いただいている方やDAMA日本支部の総会に参加いただいた方には既知の情報ばかりになってしまうことをご容赦願いたい。

第9分科会はDMBOKの勉強会

DAMA日本支部のホームページでは「DMBOKに関する研究会」とも紹介されているが、簡単に言えば単なる勉強会である。概ね以下の方針で運営している。
・開催頻度・時間: 3か月に2回程度、各回は概ね90分
・開催場所:    都内+リモート接続 但し今年度からはリモート接続のみ
・内容:      毎回DMBOKの1章分を代表者が説明しディスカッション
・説明担当者:   分科会参加者のボランティア
DMBOK2は全17章あるので、全章の勉強を完了するのには2年以上を要する。

第9分科会は広く浅く 説明担当はボランティア

他の分科会が一つのテーマを掘り下げているのに対して、当分科会はその全く反対であり、DMBOK全体を広く浅く理解しようというアプローチである。
説明担当者もその道の専門家を招くわけでもなく、分科会参加メンバーが自分の得意分野もしくは自分の興味のある分野を自ら勉強して担当する。説明担当者は完全なるボランティアであり、自分で説明資料も作成するので、それなりの負担にはなる。説明担当者にはならずに、ディスカッションに加わるだけの参加方法も可能としている。だが、説明担当になることで、その章に関する理解がより深まるというメリットもあり、多くの参加者が説明担当に挑戦している。

既に2周りして3周目!

 1周目 DMBOK 第1版 2015.10~2017.07
 2周目 DMBOK 第2版 2017.12~2020.04

実はこの分科会の歴史は短くない。2015年の10月にDMBOK第1版の勉強会が始まり、2017年5月には第1版全章の勉強会が完了した。その後第2版の英語版が発売され、2017年12月からは第2版の勉強会として再開、本年4月に全17章の勉強会を完了したところである。この途中には第2版の日本語版も発売されている。これでこの分科会の活動は一旦終了したが、その後も継続の要望が強くその継続方法に関しては大きく以下の3つの意見に分かれた
 1) データ管理って何?というレベルの、より入門クラスの分科会にする
 2) 2周目の内容をもう1周する
 3) 各章をより深堀したディスカッションが行える分科会にする
検討を重ねた結果、2周目の途中から参加したメンバーも多く、また復習もしたいという意見もあったため「2) 2周目の内容をもう1周する」に決定した。2020年7月に3周目のキックオフを行い、今月2020年9月から各章の勉強会を再開する。

今がチャンス!?

これからDMBOKを勉強したいという方、今まさに3周目が始まろうとしているので、今がチャンスと言える。リモート接続のみの開催となったので、ある意味参加しやすいのではないかと思われる。これを機にDAMA日本支部の会員になり、第9分科会に参加してみては?

新分科会について

新分科会として「 データ管理って何?というレベルの、より入門クラスの分科会 」と「各章をより深堀したディスカッションが行える分科会」の要望がなくなったわけではない。会員の方で我こそはと思う方は、分科会リーダーとなり、新たな分科会を開始してみるのも良いと思われる。

== おことわり ==
第9分科会の資料だけいただけないか?という問い合わせをいただくことがありますが、説明資料は著作物の引用が多い関係で配布できませんのでご了承ください。

低品質データのロスは国家予算を超える!?

データ量は年間20億バイト!

DMBOKではいくつか数字の事例を用いて事象を説明することがある。つい読み流してしまうが、極端な例もある。

DMBOK第1版では、「1.1 データ:エンタープライズ資産」に以下の記述がある。
「カリフォルニア大学バークレー校の研究者達は、世界では毎年10億バイトから20億バイトのデータが生成されていると試算されており、情報の海で溺れそうになることも珍しくない」
20億か、大変だ〜。と一瞬思うが20億バイトは2GBである。これなら世界で1年ではなく、私のPCで1日に生成することもある量である。ネット検索して出典*1を見つけたが、そこにも同じ記述があったので、DAMAのミスではなさそうだ。それにしても 20億バイトは何かの勘違いか?
なお、出典*2によるとDMBOK 第1版が発売された2009年の世界のデータ量は800Exaバイトとあり桁が11個も違う。また出典*3のように2025年には、175Zettaバイトという予想もあるようだ。

低品質データの損失は300兆円以上!

DMBOK第2版の第1章の「2.5.3データ品質」には以下の記述がある。
「IBMは米国において低品質データのために費やしたコストは2016年で3.1兆ドルであったと推定している」
それは大きな損失だなあ〜。と一瞬思うが3.1兆ドルは300兆円以上である。300兆円と言えば国家予算並みではないかと思い、その2016年の国家予算(歳入)を調べてみた。出典*4によると
1位 米国 5.7兆ドル
2位 中国 3.2兆ドル
3位 日本 1.7兆ドル
とのことだ。米国の低品質データの損失は国家予算の半分以上! IBMも随分極端な推定をしたものだ、と思いながら一応調べてみたところ、IBMはとあるコンサルティングファームの推定(出典*5)を引用して、好んでこの値を使っているだけで、IBM自身で推定したものではないようだ。いずれにせよ 3.1兆ドルというのはちょっと大げさではないだろうか?
もっとも、低品質データの損失を正確に見積もることは、相当困難であろう。多くの論文等(出典*6)で「低品質データの損失により、収益の10%以上を失う可能性がある (Redman 2001)」というのを引用しているが、私としてはこちらの方がまだ納得できる気がする。

すいません、データ管理と直接関係のない話題となってしまいましたが、DMBOKも注意深く読んでみると色んな発見があるものだということがわかった、ということで今回はお許しください。

出典1
https://www.coursehero.com/file/p1bd5g3/Data-needs-to-be-thoughtfully-managed-because-it-controls-the-entire-life-of/

出典2
https://www.researchgate.net/figure/Global-growth-trend-of-data-volume-2006-2020-based-on-The-digital-universe-in-2020_fig1_274233315

出典3
https://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025/#62fb86165459

出典4
https://4knn.tv/government-budgets-by-country/

出典5
https://www.edq.com/blog/data-quality-failures-cost-us-3tn-a-year/

出典6
https://www.researchgate.net/publication/281269036_Classifying_costs_and_effects_of_poor_Data_Quality_-_examples_and_discussion など多数