データに騙されない!?

はじめに

既に1年以上前となりますが、私はDMBOK2 第2章「データ倫理」に関して、このブログに投稿したことがあります。そこで「データで騙した例、騙された例など機会があれば紹介したい」という主旨のことを最後に書きました。今回はその例をいくつか紹介してみたいと思います。

母数に注意

現在の新型コロナの感染者数は若年層が多いと言われていますが、第一波のころには「どの年代でも平均的に感染している」という報道がありました。その頃に提供されたデータが以下となります(リンク先を参考にグラフは独自に作成)。

確かにどの年代でも平均しているように見えますが、もともと東京都は20代の人口が少ないはずです。そこで10万人あたりの感染者数にしてみると以下のようになります(独自に集計)。

こう見ると、明らかに若年層の方が感染者数が多いように見えます。なので「どの年代も平均して~」という報道には疑問も感じます。
実は「10万人あたり~」を棒グラフにしたのは、円グラフよりも差が際立つからであり、このようにグラフを使い分けることもデータを扱う上でのテクニックであり、”騙すこと”ともいえます。

コロナの感染者数はあくまでも例であり、例えば国ごとのオリンピックでのメダル数ランキングも「人口当たり」にすると、かなり違う見え方になるでしょう。また、出身都道府県別総理大臣数は山口県が東京都の次に多いらしいですが、人口あたりにすると山口県が圧倒的に多くなります。

このように、母数を意識した観点も忘れてはならないでしょう。

単位に注意

Cloud時代になりメインフレームの需要は減退していると言われています。IT系の記事でこれを証明するべく「メインフレームの出荷台数推移」なるもが紹介され、出荷台数が激減しているということが示されています。
しかし、メインフレームは1台の処理能力は飛躍的に向上しており、20台以上のメインフレームを1台に集約するような事例もあります。単純に出荷台数で評価することが正しいかは疑問があります。
例えば、あるベンダーでは「メインフレームの出荷処理性能」が10年間で3倍以上になっていることを公表しています。これは、価格性能比も3倍以上になっているでしょうから、素直に、メインフレームがまだ成長している、という評価はできないでしょう。
「出荷台数」「出荷処理能力」「出荷額」など単位が異なると評価が変わります。
この例にかかわらず、データを扱う際にその単位にも気を付けた方が良いでしょう。「xx茶は2lボトルより、500mlの方が売れている」というような場合も、それが、本数比較なのか、価格比較なのか、容量比較なのか、ハッキリしないと評価が難しいですね。

その他の例

その他にもたくさん例があるのですが、長くなるので、箇条書きで紹介します。

◇ 母集団特性に注意・・「部門別TOEIC点数ランキング」で「国際部が1位」
→国際部ですから、当然の結果で意味のない評価とも言えます。

◇ 不要な過去情報・・「これまでxxx円を投資したので、今更このプロジェクトはやめられない」「せっかく30分待ったから、もうちょっとタクシーを待ってみよう」→いずれも過去情報は今後の判断に影響しないはずです。

◇ 不要な追加情報・・最高気温の統計分析に「湿度情報」→ 正確な分析に影響?
◇ 無意味な平均・・「平均貯蓄額」→ 一部の資産家の影響大
◇ 言葉の定義・・「国別暴力事件の発生件数」・・暴力事件の定義が国により異なる


この話題、いくらでもお話できそうですが、今回はここまでにさせていただきます。興味のある方は是非DMBOK2 第2章を読んでください。

海外のDX事情

今回は出張先から書いています。今年に入ってから既に4回の出張になりますが、ほとんどがHoustonとLondonでのカンファレンス、打合せ、ワークショップでした。どこに行っても共通なのは、「如何に業務をDigitalizeするか」に焦点が当たっています。

もちろん現状の業務のDigitalizeという「いわゆるIT化」ではなく、業務とIT技術を同時に刷新する方法が模索されています。

宿泊中のホテルからSt. Paul寺院を見る
Ludgate Hill通りの西

違う言い方をすれば、今までは技術的に難しいという「思い込み」のせいで、「そんなことできるはずがない」とか「いくらかかるんだ!」という箍(たが)が嵌(はめ)められていました。 多くのことがただの思い込みだったのですが、逆にそれは「如何に業務を改善しないか」という理由付けに使われてきたのではと思います。

Londonで行われたAWP(Advanced Work Package)カンファレンスでの筆者の発表風景

先月Londonで開催された建設関連カンファレンスにて、トヨタ生産システム(TPS)と建設業のデジタル化がどのように関係するかの発表を行いました。ご存じのようにTPSが稼働し始めた時代ではPCもインターネットもありません。そんな中で車の生産業務を劇的に改善する方法を思いつき実行したことには驚く他ありません。

TPSは「無理・無駄・ムラ」を徹底的に排除することにより「Lean(余計なものは一切ない)」というコンセプトを実現しています。しかもIT技術やコンピュータではなくカンバンを使えばよかったのです。

ところがこんなにIT技術が進んだ時代でも建設業務が生み出す?無理・無駄・ムラが如何に多いのか。これらを徹底的に剃り落とすことで、なんと40%以上のコスト削減になることが統計上わかってきています。SDGs的に言えば、これらの無駄はCO2になり環境負荷になります。

ところで、IT以前であるTPSと、IT後であるDXとの共通点は何でしょうか。それはデータです。またデータを処理した結果を業務にすぐに反映するプロシージャです。それがITやデータベースを使って行われようと、カンバンと人の手で行われようと、目的である業務改革は達成されるのです。

最近までDXにはデータが不可欠であるという当たり前のことがあまり議論されてきていませんでした。私もエンジニアリングや建設業務の変革を目指す国際カンファレンスに多く出席していますが、特にこの2年間というもの、データマネジメントやデータ品質、そしてアーキテクチャの重要性を繰り返し業界にアピールしてきました。

この辺、実は日本も海外も同じです。違うと言えば、(西洋では)一度重要性に気付くと、その分野を追及し実現するのが早いということでしょうか。DAMAを含め様々な団体がデータに注目した知識を発表しており、当然ながら文献のほとんどは英語で書かれています。データ関連の専門家に頼むときも言語の壁がありません。

一方で日本には何十年も前から知恵を使い工夫を凝らして様々な製品や芸術を生み出してきています。決して日本が不利だとか言うつもりもなく、英語ができないからという「言い訳」を受け入れてしまったら、せっかく我々日本人が持っている才能が無駄になってしまいますね。