第14分科会(若手データマネジメント勉強会)の紹介

はじめに

私はリーダーとして第14分科会の企画・運営を行っています。DAMA日本支部には様々な分科会がありますが、第14分科会は2021年度から始めた、比較的新しい分科会です。より多くの方に私達の活動を知っていただきたく、この場をお借りして第14分科会の概要や活動内容、分科会の特徴などをご紹介いたします。

第14分科会ではデータマネジメントの基礎を勉強

第14分科会(通称:若手データマネジメント勉強会)は、「データマネジメントって何?メタデータってどんなデータ?データにも品質があるの?」など、データマネジメントの基礎的な内容について、参加者同士で発表や意見交換を行う分科会です。テーマに沿って発表者が事前に資料を準備して、当日発表します。初学者や若手だけでは、理解が及ばないところもあるため、毎回有識者にも参加いただき、サポートやコメントを頂戴しています。開催要領は以下の通りです。

  • 設立年月:2021年4月
  • 開催頻度:月に1回
  • 時間  :毎回90分程度
  • 場所  :オンライン
  • 内容  :データマネジメントの基礎的な内容、発表テーマは毎回異なる
  • 登録人数:37名 (2022年7月現在)

分科会のタイトルに「若手」と書いてありますが、年齢制限はありません。DAMA日本支部の会員なら誰でも参加可能です。データマネジメントに興味・関心のある方が増えているようで、登録人数は発足当初の6倍にもなりました(下図参照)。データマネジメントについて基礎から勉強したいという方は是非ご参加ください。

DAMA日本支部 第14分科会の登録人数の推移

活動内容

2022年度の活動指針は、「データマネジメントの各テーマについて、基礎的な知識を学び、実際の活用事例を知る」です。テーマは、年度の初めに参加者からアンケートを取って決めます。人によって興味・関心のあるテーマは異なりますが、「データマネジメント全体を浅く広く勉強したい」という点が共通していたため、「知識」と「事例」を基本セットとして、1年で様々なテーマを扱います。具体的な活動内容は下表の通りです。毎回独立した内容なので、途中から参加した方も容易にキャッチアップ可能です。自分の興味がある分野だけ参加するのもOKです。

2022年度スケジュール

2023年度(来年度)も、参加者からのアンケート結果を元にテーマを決める予定です。「こんな勉強したい、こんなテーマを扱ってほしい」などのご意見お待ちしております。

分科会の特徴

1. 発表は立候補制

昨年度は、参加者全員が事前に資料を作成し、当日に発表していました。しかし、喜ばしいことに参加人数がどんどん増え、全員が発表するスタイルは時間的に厳しくなってきました。そこで今年度からは、毎回最後に次回の発表者を募る立候補制に変更しています。毎回2~4名の方が手を挙げてくださり、大変助かっています。15分程度の資料とはいえ、新しい分野について資料を作成するのは大変です。それでも発表した皆さんは「自分で資料を作って説明することで、一番知識が身に付く」とおっしゃっています。題材は、DMBOKはもちろん、他の書籍やweb記事、参加者の知見や経験、日ごろ抱える疑問など、バラエティに富んでいます。毎回、興味深いお話を分かりやすく解説してくださるので、とても勉強になります。

2. 情報共有はslackで

第14分科会では情報共有のツールとしてSlackを使用しています。Slackはメンバーやグループ内でチャットやファイル共有などができる、ビジネス向けのオンラインチャットツールです。発表資料やデータマネジメント関連記事の共有、メンバーの自己紹介、イベントの告知、勉強会終了後のQAなど、様々な用途に利用しています。 発表資料へのアクセスは各回の参加者のみに制限していますが、その他データマネジメント関連記事や勉強会以外の資料は分科会登録者全員に公開しています。新規加入者も過去スレッドに遡ることが可能なので、入会された方は是非ご覧ください。

データマネジメントを基礎から勉強したい人は第14分科会へ!

  • データマネジメントについて基礎から学びたい
  • データマネジメントに興味・関心はあるもののどこから手をつけたら良いか分からない
  • DMBOKを読もうと思っているが、内容が難しく、量も多いため、なかなか前に進めない
  • 企業や組織を横断して、データマネジメント初学者と繋がりたい

当てはまる方は、ぜひDAMA日本支部・第14分科会にお越しください。お待ちしております。

[投稿者]
鶴田 一晃 
Metafindコンサルティング株式会社 コンサルタント
大学卒業後、商社のSCM担当として、日本→アメリカ→タイ→メキシコと複数拠点で勤務。その後、データマネジメントやデータガバナンスの専門コンサルティング会社であるMetafindコンサルティング株式会社へ転職。現在、DWHやMDMのデータ構造設計、データマネジメントやデータガバナンス導入などのコンサルティングに従事。DAMA第14分科会のリーダー。CDMP Associate保持。

データマネジメントの認知・普及について

みなさんのブログでは様々な専門的な事が書かれてあり、大変有意義であり、参考になり、ブログを読んで頂いている方々も、日々、会社・業務にて、データマネジメントの活動を実施されている事と思います。 そういった方々には、あまり参考となる内容ではありませんが、そもそもデータマネジメントがどこまで世間で認知されているか、普及されているか、あらためて考えたい、調べたいと思いました。

その理由は、データマネジメントに少しでも関わりがある人間として、もっとデータマネジメントの重要性を世間で理解され、着目され、データマネジメント活動を担う方々の認知度や地位が向上できたらうれしいと思っています。

今は、「IT」という用語が使われていますが、以前は、システムも「情報システム」、IT部門も「情報システム部門」と呼ばれ、「情報」を取り扱っているシステム、部門となりますが、プログラム、業務アプリケーション、システムの方が着目され、「情報」や基となる「データ」のマネジメントやガバナンス、それらの活動を担う方々がより認知され、価値がもっと向上するべきと思っています。

繰り返しですが、「情報」や「データ」を取り扱うシステムを、企画、開発、提供、運用しているのです。

また、ビッグデータ、AI、DXには、「情報」や「データ」がより重要な事は、周知の事実だと思います。

以前から、システム開発において「データ中心」、「DOA(Data Oriented Approach)データ中心アプローチ」という言葉、考え方もありました。今も当然、重要で、必要になりますが、なかなかスタンダードな考え方になっていなく、浸透していないようにも思われ、比較的若い世代の方々は、ご存じない方もいるのではないでしょうか。

もしかしたらシステム開発で、データモデリングやER図を描いていなかったり、DA(データアーキテト)がいないというプロジェクト、現場、会社もあるのではないでしょうか。
※そんな事はない! と怒られるかもしれませんが・・・・。

ただ、みなさんご存じの「DMBOK(データマネジメント知識体系ガイド)」があり、DAMA(データマネジメント協会)がありますね。

ただ、もっともっと認知・普及できればと思っています。

さて、前置きが長くなりましたが、まずは、 認知・普及度合いについて、ネット検索してみました。
まずは一番簡単で調べやすい、出版物(書籍)です。これは電子書籍も含みます。

該当業務をする人がいて、調べたい人、参考にしたい人、活用したい人がいて、ニーズがあるから、またビジネス上、発信したい人がいるから、みなさん出版されているのではないでしょうか。ある部分では普及度合いを表しているものと思います。

ある書籍販売サイトの検索結果になります。和書になります。

「DMBOK」で検索すると・・・。

  • データマネジメント知識体系ガイド(DMBOK) 第一版、第二版:2冊
  • データマネジメントと題した書籍:9冊
  • 情報管理、データ管理と題した書籍:2冊
  • データ経営と題した書籍:2冊

上記の中で、DAMA日本支部以外の団体が発行しているものが4冊。
上記は、単行本は6冊、電子書籍は9冊でした。

次に「データマネジメント」で検索すると・・・。

「DMBOK」でヒットした書籍を除くと、プラス、

  • データマネジメントと題した書籍:1冊
  • データドリブン経営、組織に関するもの:2冊
  • 医療系のデータマネジメントに関するもの:2冊

でした。

データマネジメントという用語を題していなく、データ分析、データモデル、データ活用・利活用、データサイエンス、情報セキュリティ、DXといった題名がついた書籍は除いています。

これは多いのでしょうか、少ないのでしょうか。
みなさんの印象はいかがでしょうか。

比較対象にしてはいけないかもしれませんが、「プロジェクトマネジメント」だとどうなるか、検索してみました。

プロジェクトマネジメントも「PMBOK(Project Management Body of Knowledge)プロジェクトマネジメント知識体系ガイド」があり、PMI(プロジェクトマネジメント協会)があります。

「PMBOK」で検索すると・・・。

プロジェクトマネジメント知識体系ガイド(PMBOK)以外は、

  • PMBOKと題した書籍:34冊
  • プロジェクトマネジメントと題した書籍:35冊
  • PMP®(プロジェクトマネジメント・プロフェッショナル) 等、資格・試験に関する書籍:23冊
  • プロジェクトマネージャー、リーダーに関する書籍:9冊
  • プロジェクトマネジメントツールに関する書籍:3冊
  • PMO(Project Management Office)に関する書籍:1冊

となりました。

追加で「データマネジメント」のように、「プロジェクトマネジメント」で検索すると、より多くの検索結果が出ましたが、かなり多くなるため、ここでは割愛させていただきます。

また、PMBOKは第7版、DMBOKは第2版といった違いもありますね。

特徴としては、

  • 「PMBOK」と題した書籍が多くありました。
    ※中には、PMBOKでは教えない、PMBOKでは書いていない、といった事を題した書籍もありました。(笑)
  • PMP®(プロジェクトマネジメント・プロフェッショナル) といった、プロジェクトマネジメントに関する資格に関する書籍も多くあります。
  • マネジメントを実行するプロジェクトマネージャー、リーダーの書籍もありました。
  • ポイント図解、マンガでわかる、といった書籍もいくつかありますね。

データマネジメントも、国際資格のCDMP(Certified Data Management Professionals)がありますが、和書がヒットしませんでした。

この結果が全てではなく、比較するつもりもなく、出版物、和書で、普及の度合いを全て語るものではありませんが、これらは何か普及、定着化するための糸口や、きっかけがみつからないかなと思い調べました。

何か見えてきて、気付きがあり、今後の普及等の活動に繋げていけるとよいと思っています。

余談になりますが、「社長が知りたいIT 50の本当」 出版社 ‏ : ‎ 日経BP には、情報(データ)マネジメントの章があり、DMBOKも少し触れられています。このような経営層向けの書籍に、データマネジメントの必要性、価値が書かれていると、より認知度が高くなると思います。

今回はここまでです。また機会があれば、別のキーワード、切り口で調べたいと思います。
(例.概要紹介・発信、サービス、事例、広告、セミナー、動画などなど)

本ブログを読んで頂いた方ご自身でも簡単に調べられると思いますので、ご興味・お時間ありましたら、一度ネット検索して頂ければうれしいです。

以上

デジタル庁の事業所ベース・レジストリ整備の中断について

デジタル庁については,期待もあり,また,人材募集や組織図を見ていて,不安も覚えるというのが正直なところである。今回は,かつての特許庁のような大惨事に陥ることなく仕切り直しとなったことは評価する向きもあるが,それでも,中断に至った原因を分析し,その対応策が取れなければ再び失敗を繰り返すことになる。

公開された情報からは,事業所の定義ができないが,それだけではないといった曖昧な情報であったが,今は少し落ち着いて原因分析した日経XTECHの記事も出てきた。

事業所データ整備を中断したデジタル庁、「撤退」の次こそDX司令塔の真価が決まる

https://xtech.nikkei.com/atcl/nxt/column/18/00138/051801041/

この記事では,事業中断の原因として,事業所という言葉の概念が複雑かつ多岐にわたり,また,監督官庁も異なることをあげている。これは実際,その通りだろう。なので,そもそも事業所は何を指す概念かを定義しないといけない。

日経XTECHの記事では,ユースケースを限定し,目的を絞ってデータ整備したらどうかとあるが,これを安易にやってしまうと,また,新たな標準が1つ増え,データの体系化がさらに困難になるだろう。データを目的別に整理するのはデータモデルのアンチパターンである。全体を捉えたうえで,部分を定義しないとデータは体系化されない。全体は部分の寄せ集めではない。ユースケースで検証することは最低限必要なことだが,選択したユースケースが全体の構造を決めるうえで適切である保証はない。日経XTECHの記事は(日経さんなので期待も込めて書くが),掘り下げが浅すぎる。

では,これはどのように進められてきたのだろうか。ネットで検索すると,「ベース・レジストリの 検討状況について」という資料が公開されていた。

https://www.digitalservice.metro.tokyo.lg.jp/society5.0/pdf/211020_04.pdf

一般論としては良く書かれているが,気になったのは最後のページである。

2021年度に「調査研究・パイロット」,「首都圏等自治体と共働」とあるが,TOBEデータモデルを検討しているようには読み取れない。「調査研究・パイロット」で検討しているのかもしれないが,パイロットという単語からは,プロトタイプ・システムで検証するといったことを想定しているようにも見受けられる。

日経XTECHの記事では,多岐にわたる事業所,それを管轄するそれぞれの官庁,自治体ごとの違いが挙げられているので,まずは法人と紐づけし,事業所を整理構造化し(サブタイプ化),ステークホルダーを整理し,場合によっては,その官庁権限を変更し(これができないとデジタル庁は,単なるボトムアップ方式しかできなくなる,ただ,このもとになるのはTOBEデータモデルがあってこそ),TOBE/ASIS変換の仕組みを作成しないと,再び,同じ轍を踏むことになる。 実際のところは,さらにドロドロとした状況であるのかもしれないが,日本が前に進むためには乗り越えなくといけない道である。また、次回は,優秀なデータモデラー,データアーキテクトを,RFP以前に参画させることを願っています 。

データに騙されない!?

はじめに

既に1年以上前となりますが、私はDMBOK2 第2章「データ倫理」に関して、このブログに投稿したことがあります。そこで「データで騙した例、騙された例など機会があれば紹介したい」という主旨のことを最後に書きました。今回はその例をいくつか紹介してみたいと思います。

母数に注意

現在の新型コロナの感染者数は若年層が多いと言われていますが、第一波のころには「どの年代でも平均的に感染している」という報道がありました。その頃に提供されたデータが以下となります(リンク先を参考にグラフは独自に作成)。

確かにどの年代でも平均しているように見えますが、もともと東京都は20代の人口が少ないはずです。そこで10万人あたりの感染者数にしてみると以下のようになります(独自に集計)。

こう見ると、明らかに若年層の方が感染者数が多いように見えます。なので「どの年代も平均して~」という報道には疑問も感じます。
実は「10万人あたり~」を棒グラフにしたのは、円グラフよりも差が際立つからであり、このようにグラフを使い分けることもデータを扱う上でのテクニックであり、”騙すこと”ともいえます。

コロナの感染者数はあくまでも例であり、例えば国ごとのオリンピックでのメダル数ランキングも「人口当たり」にすると、かなり違う見え方になるでしょう。また、出身都道府県別総理大臣数は山口県が東京都の次に多いらしいですが、人口あたりにすると山口県が圧倒的に多くなります。

このように、母数を意識した観点も忘れてはならないでしょう。

単位に注意

Cloud時代になりメインフレームの需要は減退していると言われています。IT系の記事でこれを証明するべく「メインフレームの出荷台数推移」なるもが紹介され、出荷台数が激減しているということが示されています。
しかし、メインフレームは1台の処理能力は飛躍的に向上しており、20台以上のメインフレームを1台に集約するような事例もあります。単純に出荷台数で評価することが正しいかは疑問があります。
例えば、あるベンダーでは「メインフレームの出荷処理性能」が10年間で3倍以上になっていることを公表しています。これは、価格性能比も3倍以上になっているでしょうから、素直に、メインフレームがまだ成長している、という評価はできないでしょう。
「出荷台数」「出荷処理能力」「出荷額」など単位が異なると評価が変わります。
この例にかかわらず、データを扱う際にその単位にも気を付けた方が良いでしょう。「xx茶は2lボトルより、500mlの方が売れている」というような場合も、それが、本数比較なのか、価格比較なのか、容量比較なのか、ハッキリしないと評価が難しいですね。

その他の例

その他にもたくさん例があるのですが、長くなるので、箇条書きで紹介します。

◇ 母集団特性に注意・・「部門別TOEIC点数ランキング」で「国際部が1位」
→国際部ですから、当然の結果で意味のない評価とも言えます。

◇ 不要な過去情報・・「これまでxxx円を投資したので、今更このプロジェクトはやめられない」「せっかく30分待ったから、もうちょっとタクシーを待ってみよう」→いずれも過去情報は今後の判断に影響しないはずです。

◇ 不要な追加情報・・最高気温の統計分析に「湿度情報」→ 正確な分析に影響?
◇ 無意味な平均・・「平均貯蓄額」→ 一部の資産家の影響大
◇ 言葉の定義・・「国別暴力事件の発生件数」・・暴力事件の定義が国により異なる


この話題、いくらでもお話できそうですが、今回はここまでにさせていただきます。興味のある方は是非DMBOK2 第2章を読んでください。

海外のDX事情

今回は出張先から書いています。今年に入ってから既に4回の出張になりますが、ほとんどがHoustonとLondonでのカンファレンス、打合せ、ワークショップでした。どこに行っても共通なのは、「如何に業務をDigitalizeするか」に焦点が当たっています。

もちろん現状の業務のDigitalizeという「いわゆるIT化」ではなく、業務とIT技術を同時に刷新する方法が模索されています。

宿泊中のホテルからSt. Paul寺院を見る
Ludgate Hill通りの西

違う言い方をすれば、今までは技術的に難しいという「思い込み」のせいで、「そんなことできるはずがない」とか「いくらかかるんだ!」という箍(たが)が嵌(はめ)められていました。 多くのことがただの思い込みだったのですが、逆にそれは「如何に業務を改善しないか」という理由付けに使われてきたのではと思います。

Londonで行われたAWP(Advanced Work Package)カンファレンスでの筆者の発表風景

先月Londonで開催された建設関連カンファレンスにて、トヨタ生産システム(TPS)と建設業のデジタル化がどのように関係するかの発表を行いました。ご存じのようにTPSが稼働し始めた時代ではPCもインターネットもありません。そんな中で車の生産業務を劇的に改善する方法を思いつき実行したことには驚く他ありません。

TPSは「無理・無駄・ムラ」を徹底的に排除することにより「Lean(余計なものは一切ない)」というコンセプトを実現しています。しかもIT技術やコンピュータではなくカンバンを使えばよかったのです。

ところがこんなにIT技術が進んだ時代でも建設業務が生み出す?無理・無駄・ムラが如何に多いのか。これらを徹底的に剃り落とすことで、なんと40%以上のコスト削減になることが統計上わかってきています。SDGs的に言えば、これらの無駄はCO2になり環境負荷になります。

ところで、IT以前であるTPSと、IT後であるDXとの共通点は何でしょうか。それはデータです。またデータを処理した結果を業務にすぐに反映するプロシージャです。それがITやデータベースを使って行われようと、カンバンと人の手で行われようと、目的である業務改革は達成されるのです。

最近までDXにはデータが不可欠であるという当たり前のことがあまり議論されてきていませんでした。私もエンジニアリングや建設業務の変革を目指す国際カンファレンスに多く出席していますが、特にこの2年間というもの、データマネジメントやデータ品質、そしてアーキテクチャの重要性を繰り返し業界にアピールしてきました。

この辺、実は日本も海外も同じです。違うと言えば、(西洋では)一度重要性に気付くと、その分野を追及し実現するのが早いということでしょうか。DAMAを含め様々な団体がデータに注目した知識を発表しており、当然ながら文献のほとんどは英語で書かれています。データ関連の専門家に頼むときも言語の壁がありません。

一方で日本には何十年も前から知恵を使い工夫を凝らして様々な製品や芸術を生み出してきています。決して日本が不利だとか言うつもりもなく、英語ができないからという「言い訳」を受け入れてしまったら、せっかく我々日本人が持っている才能が無駄になってしまいますね。

EDW2022が無料オンライン開催に

オミクロン株が引き続き猛威を振るっています。国際的なデータマネジメントのカンファレンスであるEnterprise Data World(EDW)もパンデミックの影響で今年はオンライン開催となりました。

ご存知の方もいらっしゃるかと思いますが、EDWは例年3-4月に5日間程度、シカゴやオースティンなどのアメリカの各都市でローテーションして開催されている1000人規模のカンファレンスです。今年は3月下旬にサンディエゴでの開催が予定されていました。が、パンデミックでリアル開催を断念せざるを得ず、4/19-20の2日間のオンライン開催となりました。しかも無料です。

一刻も早いパンデミックの収束を願うばかりですが、一方で日本から参加しやすい状況ではあります。

リアルタイムでは日本時間だと23:00-翌6:00と深夜から朝にかけての視聴しづらい時間帯かもしれません。しかし、登録ページによると、無料登録するとレコーディングを視聴することもできるようなので、費用やスケジュール上、今まで参加を諦めていた方にもチャンスだと思います。元々のプログラムからは縮小されるものの、それでも40ほどのセッションがあります(スポンサーセッションも含む)。

下表にオンライン開催のプログラムで予定されているセッション数をトラックごとに集計してみました。今回のセッション数が絞られているので単純比較はできませんが、参考までに2020,2021と並べてみています。

比べてみると、引き続きデータガバナンス、データストラテジー、メタデータが上位に入っています。また、2020で上位に入っていたデータリーダーシップも再び順位を上げています(データリーダーシップについてはこちらの過去記事で紹介されています)。

そして、2022の特徴としてはデータリテラシーが順位を上げて2番目に入っていることが分かります。データリテラシーと一口に言っても、セッション内容はデータの見せ方やデータのビジネスコンテキストの理解、組織的な変化の必要性とバラエティがありそうです。ですが、根底としてはデータをどう価値に変えていくか、戦略やガバナンスが重要なのはもちろんのこととして、データの理解や扱いに関してもっと成熟する必要がある、という意識が強くなってきているような印象を受けます。

無料ですし、オンライン開催なので1週間休みをとるのは厳しい、、、という方にも敷居が低くなっているのではないかと思います。良い機会なので、興味のあるセッションがないか、ちょっとプログラムを覗いてみてはいかがでしょうか?

ちなみにDAMA日本支部の林会長のセッションは、4/20 7:00-7:50(日本時間だと4/20 23:00-23:50)に予定されています。
是非、視聴をご検討いただければと思います。

統計に係る問題発生の根本原因について

年末に発覚した国交省での「建設工事受注動態統計」におけるデータ改竄事件が世間を騒がせました。
以下が主要紙で取り上げられている統計不正に関する記事です。

(産経新聞)
・国交省の統計不正 信用裏切った罪は大きい(2022年1月21日)
https://www.sankei.com/article/20220121-5XQH3MFRINLZJPE6G5H27ECVNI/

(日経クロステック)
・統計不正で国交省が次官ら10人処分、総務省も次官ら7人(2022年1月25日)
https://xtech.nikkei.com/atcl/nxt/column/18/00142/01194/

(朝日新聞デジタル)
・GDP、国交省の統計不正の影響は「不明」 元データ修正待って判断(2022年2月15日)
https://www.asahi.com/articles/ASQ2H436MQ28ULFA026.html

今回のようにデータを生成する過程で意図的に操作されてしまうと、ソースデータから統計表にアウトプットするまでのデータを完璧に記録し、誰がいつどのようにデータを編集したかの証跡を徹底的に記録しない限り検知することは不可能です。
「毎月勤労統計」に端を発してメディアを賑わせた2019年当時の「統計不正」が注目された際に、私は民間のデータマネジメントの有識者として点検検証部会の委員として招聘され、「紙の調査票を回答者から回収し、紙の統計表を出力すること」を前提とした統計の古い思想から、「過去の回答結果データを呼び出し、変更点だけを修正して簡単に回答できるような、回答者にとって、それを審査する行政機関にとっても快適的な、マスターデータを中心とした新たなデジタル統計の姿を目指すべき」と何度も何度も主張してきました。

https://www.realize-corp.jp/news/20190308

今回の原因はまだまだ氷山の一角であり、毎月勤労統計のように「拡大推計し忘れて、それを長年放置してきた」といったケアレスミスに基づくものや調査回収率が悪いのを良く見せるため、実際には調査していないが、分母を増やして類似データを登録する、といった意図的なもの(※調査の主管課の職員たちにもそんなに悪気がある訳ではない)が何度点検検証部会を開催しても根絶は不可能であろうと考えています。

なぜ、そうなってしまうのか・・・
私はものすごく有益な武器にもなれば、判断を誤らせる凶器にもなり得るというデータの本質に対する理解が日本全体に決定的に足りていないことに根本原因があると感じています。
以前、自分の「リアライズ社長ブログ」でも記しましたが、「そのデータが後々にどのような活用のされ方をするか」をイメージせずにデータを取り扱うことの恐ろしさ、組織のボトムからトップに至るまでのデータマネジメントの重要性に関する実感がもっと日本社会の「新しい常識」になってほしいと願うばかりです。

・杭データ改ざん事件に寄せて~ストップ!データ軽視~

realize-corp.jp/blog/blog02-2-4

年末の国交省での統計不正の報道に触れるにつけ、自分が声高に叫んできたことが活かされていないことに暗澹たる気持ちになるとともに、まだまだデータマネジメントの普及・啓発に取り組んでいかなければいけないと決意を新たにした次第です。

DAMA日本支部 企画担当理事
日本データマネジメント・コンソーシアム[JDMC] 発起人 兼 事務局長
大 西 浩 史

データモデルと「統制語彙」

中岡さんが「統制語彙」とデータモデルに関する話題、を書いてくださいました。待ってました!該当の第10分科会は仕事で参加できませんでした。残念!そこで二番バッターとしてこの場で話題を引き継ぎ、皆さんの意見をいただいて実装に向けて議論を深めることができればと思います。

この辺のお話は、セマンティックレイヤー、論理が物理を隠ぺいする、「データレイク(湖)」じゃなくて「データスワンプ(沼)」だ!、とかに関連しています。

データとデータを組み合わせるとビジネス上の良いことを得ることができるらしい! ー> いろいろなデータが取得できるようになりました。 + 大量のデータを蓄積できるようになりました。= 誰も何のデータが蓄積されているのか分からないようになりました。 ー> 活用されないデータが大量に蓄積され誰も手が付けられないようになりました、とさ。
いくらクラウドのストレージが安くなったからと言ってこれでは困りますね。

何故データとデータを組み合わせるとビジネス上の良いことが得られるのでしょう。クロスセル/アップセル的アプローチ?SCMがどこまでも繋がりまくるインダストリー4.0?そこにS&OPが絡んで尚且つROIC!?いやいや他人が苦労してクレンジングして分類付けしてくれたデータを活用して手間を省きたい?(その逆の説も!)動機は様々ですね。

ビジネスの世界で「もの」+「こと」=「実体」を扱っている。それらはビジネスプロセスの中で言葉で伝達されてビジネスの成果を得ている。だから言葉ですね。この言葉をリレーショナルモデルで表してみる。基本に立ち戻ってみます。

おなじみコッドのタプルです。各行が実態の一つ一つを表しています。それらはドメインという値の集合から寄せ集められて成り立っています。だからこの値が一つでも違えば別の実体と見なされます。ほとんど同じドメインから値を持ってきているのに一部だけ、他と異なるドメインの値が追加されているとか、一部だけあるドメインの値が持ってこられない=Nullである場合は異なるタプルとして全体の箱自体を分ける、つまりサブタイプですね。そいうことだと理解しています。

この命名規則は古典中の古典ですね。

こうやって見ると、タプルを構成するドメイン達、すなわちこれが実体を表すメタデータになりますね。どのドメインで実体を表すかを統制するのが標準メタデータです。例えばある実験の結果には必ず「温度」と「湿度」と「色」が必要という具合です。この標準メタデータ設定の目的は実験の再現性でしょうか。仮に温度が欠けると再現実験ができない。ではこの温度とは何でしょうか。摂氏?華氏?色とは?どの色見本帳と比較して色を決めるのか?これが決められていないとやはり再現できなさそうですね。これらは標準リファレンスデータと呼ぶ?

実体に対しこれらの標準メタデータと用いられる値の指定を業務で使用されているすべての言葉に当てはめていくのは気の遠くなる作業ですね。誰もそんなこと気にして使ってませんものね。まぁ一部、標準リファレンスデータは決まっているかもしれません。企業内の組織コードとかで表される実体やUoM:計測単位だったり。本来KPIとかはソースデータと計算ロジックにこの考えがないといけないと思いますが、足せないものを足したり、精度の低い値を掛けて有効桁数を無視したり?とかありがちですね。

せめてこのKPIだったり、機能/業務/組織をまたいで接続したいデータについて、この標準メタデータとリファレンスデータを「統制語彙」として整備して、その言葉でコミュニケーションできるようにする、というのが今取り組んでいることで日々頭を悩ませています・・・

デジタルノートツール/PKMとデータマネジメント

デジタルノートツールについて

皆さん、デジタルノートツールは使っていますでしょうか?
具体的にはEvernoteやNotionといったツール・サービスで、基本的にはテキストエディタの延長であるものの、 クラウド上のデータに異なる端末からアクセス可能であったり、タグ付けなどの分類方法が発達していたりします。PKM(Personal Knowledge Mangement)ツールとも呼ばれることもあります。
用途は当然のことながら多岐にわたり、日々のタスクに関わるメモ、Webで見つけた記事の保管、などが含まれます。

筆者はこのあたりのツールやLifeHackなどが大好きなのですが、
この「個人の情報・知識の管理ツール」と「企業のデータのマネジメント」という2者に多くの類似性を感じており、 今回この場を借りて考察を記します。

どちらも広い意味では情報管理です。

結論を先に言っておきます。
・ここ数年でどちらも技術面(ツール)と運用・文化面(成熟度)の両面で大きく進化している
・ハコ(ツール)だけでなく運用が重要と認識されてきている
・情報は「活用できる状態に保つ」ことがポイント。集める・溜めるだけでは片手落ち
・情報を活用可能な状態するためのメタ情報管理と品質管理に一定の時間を割くべき

これらは個人の情報・知識管理・企業のデータマネジメント どちらにも共通して言えることです。

デジタルノートツールの変遷 ~ 蓄積に主眼を置いたツール

まずデジタルノートツールがどのような変遷を辿ったか、筆者の主観を多分に含みますがおさらいしましょう。

2010年頃にEvernoteというツールが登場しました。
全ての情報をここに蓄積しましょう! というコンセプトで、 様々な場所にあるデータを一元集約すべく、PCアプリ・スマホアプリ・ブラウザ等の様々なチャネルを持つこのツール は新しもの好きやLifeHackに興味がある方々にヒットし、多くのユーザを獲得しました。

筆者もToDoや買い物メモ、思考の記録、Web記事のクリップ、過去のテキスト などを せっせと集約してこのツールに流し込んでは悦に入っていたものです。

しかしながら、ノートの数が1000を超えたあたりから、徐々に管理不能・肥大化した状態となったと ストレスを感じるようになりました。
目の前に置いておくべき情報とアーカイブすべき情報の区別が難しくなり、
また少し前に読んだ/読もうとしたWEB記事を探すことに労力がかかるようになってしまいました。

もちろん検索機能や#Tag付け機能はあるのですが、Tagの数自体も増える一方で、Tag付けのルールも自分としての一貫性を保つことが困難になり、 半年くらいの前の情報となるとどう検索すべきかが直感的に分からなくなってしまったのです。
そして過去のノートの多くは、二度と再利用・活用されることのないゴミの山になってしまいました。

蓄積偏重のハコの限界

この状況には既視感があります。

まさにこれは企業ITにおいて、
「DataLakeへ・DataWareHouseへ、あらゆるデータを流し込み蓄積さえしておけば あとで素晴らしい分析・データ活用ができるはず!」

と言う一部のベンダーの謳い文句に乗ってハコモノを導入し、多くのデータを溜めてはみたものの、 いざ分析しようとするとどのデータを使ってよいか分からない・データの品質が確保できない、 といった昨今の状況に似ています。

当たり前ですが、玉石混淆の広大な地図の無いLakeから玉だけを取り出すのは至難の業です。 このあたりの失敗事例からも、データマネジメントの重要性が認識されてきたようにも思います。

デジタルノートツールの次の世代

話をツールに戻しますが、Evernoteでは自分と同様の難しさを感じたユーザは他にも多かったようで、 また必要以上の高機能化や性能問題により「重たいツール」だという印象をあたえたこと、課金戦略のまずさなどもあり、Evernoteは一定数のユーザを離反させてしまいました。 (とはいえ、まだ多くのファンをもつツールであることは変わりありません)

その後、次の世代のデジタルノートツール群が台頭してきました。

アウトラインエディタ

一つにはDynalist、Workflowyなど、アウトラインエディタ・ アウトライナーと呼ばれる階層的にテキストを管理ができるツールが挙げられます。
例えば、

〇 XXに関するご提案
 -提案の背景
  ・昨今のxx業界のニーズの変化
  ・海外競合他社の進化
 -ご提案の骨子
  ・hoge hoge

といった形で階層構造で情報を管理します。アウトラインエディタ自体は目新しいものではないですが、項目ごとのリンク機能、タグ付け機能など、統合的に情報を管理する機能をもつサービスが登場してきました。

人気ツール Notion

現在日本で最も流行しているのはNotion というツールでしょうか。
アウトライナー機能に加え、さらにRelational Database機能を持つツールで、 各自のカスタマイズ次第で様々な情報を管理することが出来ます。

例えばプロジェクトの進捗やタスク管理をしようとした場合、

[プロジェクト] 1—N [中間ゴール] 1—N [タスク]

のようなリレーションをもつテーブル群を作成し、そのレコードに個々のタスクの内容に関するアウトライン形式のテキストを紐づけて管理することも出来ます。

無料版でかなりの事ができますし、オンライン上でRDBが無料で使えるのは素晴らしいことです。ここではこれ以上は述べませんが興味がある方はWebやYoutubeで検索してみてください。

筆者の使うツールとその情報アーキテクチャ

Wiki型の情報管理ツール Obsidian

筆者は上記のNotionやいくつかのツール(RoamReserch、Dynalist、GoogleKeepなど)を使った結果、 Obsidianというツールにたどり着きました。

Obsidianは情報管理のアーキテクチャーが優れていること、ツールだけでなく情報管理の方法論とそれをブラシュアップする活発なコミュニティ(主に海外)が存在することが採択の理由です。

特徴としては、Markdownエディタであり、かつWikiのような形式でノート群を管理できるツールです。
すなわちディレクトリ型管理ではなくネットワーク型管理であり、個々のぺージから他のページにリンクし、相互関係を管理します。

ツールの設計思想と運用の方法論

ツールの設計思想の背景にはドイツのZettelkastenというカード式の情報管理があります。日本の京大式カードに似たものです。
https://gigazine.net/news/20200604-zettelkasten-note/

またさらにPKM(personal knowledge management)という名前で、Zettelkastenを拡張する形での、個人の情報・知識管理の方法論が提唱・議論され、ツールの進化と足並みを揃えて成熟を続けています。

ざっとそれらの内容を紹介しておきますと以下のような原則が設けられています。

  • Dailyで書くノートと、蓄積しメンテし続けるノートは区別する。
  • 一つのノートには一つの概念を記載する(Atomic)
  • タイトルと概要は 自分の言葉で記載する(コピペ・Clipしない)
  • インデックスページ(MOC:Map of contents)を作る。
  • ノートは内容やリンクを定期的に見直す、必要なメタタグを付与する。
  • メンテされた状態を保つ、Evergreen Notes(常緑のノート群)という原則
  • https://notes.andymatuschak.org/Evergreen_notes?stackedNotes=z2HUE4ABbQjUNjrNemvkTCsLa1LPDRuwh1tXC

これらの原則を守れば、多量・長期間 という情報にとっての天敵に太刀打ちできるということです。

個人の情報/知識管理と企業データマネジメントの類似性

まとめますと、現在のデジタルノートツールとPKMなどの方法論で語られていることは以下の通りです。

  • 情報のアーキテクチャを定める
  • 情報の作成・収集 → 精査・移動 → 蓄積 →活用 といったプロセスを管理する
  • 情報自身のメタ情報を管理する
  • 情報の品質を管理する

どこかで見たような内容ではないでしょうか?
そう、DMBOKの記載内容に非常に類似しています。

これは結局 「情報の資産価値を高める」という主題にフォーカスすると、そのプロセスや仕組みが 似たものになることだと思います。

筆者はこれらの領域が、メタデータ管理あたりを皮切りにどこかで直接的に交わり、そして日本でも議論が出来る日が来るのが近いのではと考えています。
ご興味を持たれた方は、情報氾濫社会を乗り切るべく、どうぞこれらツールを使用してみてください。大部分は無料です。そして是非、情報管理のあるべき姿について意見交換させて頂ければと思います。