低品質データのロスは国家予算を超える!?

データ量は年間20億バイト!

DMBOKではいくつか数字の事例を用いて事象を説明することがある。つい読み流してしまうが、極端な例もある。

DMBOK第1版では、「1.1 データ:エンタープライズ資産」に以下の記述がある。
「カリフォルニア大学バークレー校の研究者達は、世界では毎年10億バイトから20億バイトのデータが生成されていると試算されており、情報の海で溺れそうになることも珍しくない」
20億か、大変だ〜。と一瞬思うが20億バイトは2GBである。これなら世界で1年ではなく、私のPCで1日に生成することもある量である。ネット検索して出典*1を見つけたが、そこにも同じ記述があったので、DAMAのミスではなさそうだ。それにしても 20億バイトは何かの勘違いか?
なお、出典*2によるとDMBOK 第1版が発売された2009年の世界のデータ量は800Exaバイトとあり桁が11個も違う。また出典*3のように2025年には、175Zettaバイトという予想もあるようだ。

低品質データの損失は300兆円以上!

DMBOK第2版の第1章の「2.5.3データ品質」には以下の記述がある。
「IBMは米国において低品質データのために費やしたコストは2016年で3.1兆ドルであったと推定している」
それは大きな損失だなあ〜。と一瞬思うが3.1兆ドルは300兆円以上である。300兆円と言えば国家予算並みではないかと思い、その2016年の国家予算(歳入)を調べてみた。出典*4によると
1位 米国 5.7兆ドル
2位 中国 3.2兆ドル
3位 日本 1.7兆ドル
とのことだ。米国の低品質データの損失は国家予算の半分以上! IBMも随分極端な推定をしたものだ、と思いながら一応調べてみたところ、IBMはとあるコンサルティングファームの推定(出典*5)を引用して、好んでこの値を使っているだけで、IBM自身で推定したものではないようだ。いずれにせよ 3.1兆ドルというのはちょっと大げさではないだろうか?
もっとも、低品質データの損失を正確に見積もることは、相当困難であろう。多くの論文等(出典*6)で「低品質データの損失により、収益の10%以上を失う可能性がある (Redman 2001)」というのを引用しているが、私としてはこちらの方がまだ納得できる気がする。

すいません、データ管理と直接関係のない話題となってしまいましたが、DMBOKも注意深く読んでみると色んな発見があるものだということがわかった、ということで今回はお許しください。

出典1
https://www.coursehero.com/file/p1bd5g3/Data-needs-to-be-thoughtfully-managed-because-it-controls-the-entire-life-of/

出典2
https://www.researchgate.net/figure/Global-growth-trend-of-data-volume-2006-2020-based-on-The-digital-universe-in-2020_fig1_274233315

出典3
https://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025/#62fb86165459

出典4
https://4knn.tv/government-budgets-by-country/

出典5
https://www.edq.com/blog/data-quality-failures-cost-us-3tn-a-year/

出典6
https://www.researchgate.net/publication/281269036_Classifying_costs_and_effects_of_poor_Data_Quality_-_examples_and_discussion など多数

データガバナンスとデータマネジメント

 ガバナンスが「統治」とか「統制」の意味を持つので例えば個人情報の扱いだとか、国、通貨等の標準コードの使用とかについてのルールを守らせることをガバナンスを効かせるという言い方をする。データガバナンスについて書かれたものには、データをマネジメントすることについて書かれたものも多く、ガバナンスに必要な要素が分かりにくくなっている。DMBOK2を見てみよう。この二つの言葉は以下のように表されている。

実際にデータに触れているのは?

 データガバナンスとは「正しいことを行う(Do the right things)」ことであり、データマネジメントとは「正しくことを行う(Do things right)」ことである(Ladley, 2012)。p607

 監査人は財務プロセスを統制するが実際には財務管理をしていないのと同様に、データガバナンスはデータが適切にマネジメントされるようにすることであって、データマネジメントを直接実施するわけではない。(図15参照)。p99

 データガバナンス:データを適切にマネジメントさせること

 データマネジメント:ゴールに到達するためにデータを管理すること p100

実際にデータを管理しているのはデータマネジメント側である。

データガバナンスは何故必要か

 正式なデータマネジメント機能を持っているかどうかにかかわらず、組織というものはデータに関する何らかの意思決定をしている。正式なデータガバナンス・プログラムが導入されれば、より明確な意図のもとに職務権限と統制を行使できるようになる。p94

データガバナンスは現場で行われているデータマネジメントを、組織の正式な取組に引き上げる。

データを資産として管理するための原則、ポリシー、プロセス、フレームワーク、評価指標を提供し、組織の各階層レベルでデータマネジメントプログラムを牽引する。 p98

 データアナリティクスからビジネスの価値を得る取組を見出したり、デジタルトランスフォーメーションに対応していくためには、その土台としてDAMAホイールに記載されている領域を中心としたデータマネジメントの実践が前提となる。実際行われてはいるが組織間でばらつきのあるデータマネジメントの取組みを一定のレベルまで引き上げ、さらにビジネスの目的に沿うレベルまで到達するには地道な取り組みと時間が必要だ。この取り組みをトップがコミットして組織横断で進めることがデータガバナンスである。

 DMBOK2では第3章でデータガバナンスについて包括的にまとめ、各章の後半ではそのデータマネジメント領域でのガバナンスの取組みに触れている。この総体がデータガバナンスということになる。ちょっとまとめづらい構成になっているけど第3章に加え、取り組み優先順位の高いデータマネジメント領域の章を合わせて是非読み進んでいただければと思います!