第14分科会(若手データマネジメント勉強会)の紹介

はじめに

私はリーダーとして第14分科会の企画・運営を行っています。DAMA日本支部には様々な分科会がありますが、第14分科会は2021年度から始めた、比較的新しい分科会です。より多くの方に私達の活動を知っていただきたく、この場をお借りして第14分科会の概要や活動内容、分科会の特徴などをご紹介いたします。

第14分科会ではデータマネジメントの基礎を勉強

第14分科会(通称:若手データマネジメント勉強会)は、「データマネジメントって何?メタデータってどんなデータ?データにも品質があるの?」など、データマネジメントの基礎的な内容について、参加者同士で発表や意見交換を行う分科会です。テーマに沿って発表者が事前に資料を準備して、当日発表します。初学者や若手だけでは、理解が及ばないところもあるため、毎回有識者にも参加いただき、サポートやコメントを頂戴しています。開催要領は以下の通りです。

  • 設立年月:2021年4月
  • 開催頻度:月に1回
  • 時間  :毎回90分程度
  • 場所  :オンライン
  • 内容  :データマネジメントの基礎的な内容、発表テーマは毎回異なる
  • 登録人数:37名 (2022年7月現在)

分科会のタイトルに「若手」と書いてありますが、年齢制限はありません。DAMA日本支部の会員なら誰でも参加可能です。データマネジメントに興味・関心のある方が増えているようで、登録人数は発足当初の6倍にもなりました(下図参照)。データマネジメントについて基礎から勉強したいという方は是非ご参加ください。

DAMA日本支部 第14分科会の登録人数の推移

活動内容

2022年度の活動指針は、「データマネジメントの各テーマについて、基礎的な知識を学び、実際の活用事例を知る」です。テーマは、年度の初めに参加者からアンケートを取って決めます。人によって興味・関心のあるテーマは異なりますが、「データマネジメント全体を浅く広く勉強したい」という点が共通していたため、「知識」と「事例」を基本セットとして、1年で様々なテーマを扱います。具体的な活動内容は下表の通りです。毎回独立した内容なので、途中から参加した方も容易にキャッチアップ可能です。自分の興味がある分野だけ参加するのもOKです。

2022年度スケジュール

2023年度(来年度)も、参加者からのアンケート結果を元にテーマを決める予定です。「こんな勉強したい、こんなテーマを扱ってほしい」などのご意見お待ちしております。

分科会の特徴

1. 発表は立候補制

昨年度は、参加者全員が事前に資料を作成し、当日に発表していました。しかし、喜ばしいことに参加人数がどんどん増え、全員が発表するスタイルは時間的に厳しくなってきました。そこで今年度からは、毎回最後に次回の発表者を募る立候補制に変更しています。毎回2~4名の方が手を挙げてくださり、大変助かっています。15分程度の資料とはいえ、新しい分野について資料を作成するのは大変です。それでも発表した皆さんは「自分で資料を作って説明することで、一番知識が身に付く」とおっしゃっています。題材は、DMBOKはもちろん、他の書籍やweb記事、参加者の知見や経験、日ごろ抱える疑問など、バラエティに富んでいます。毎回、興味深いお話を分かりやすく解説してくださるので、とても勉強になります。

2. 情報共有はslackで

第14分科会では情報共有のツールとしてSlackを使用しています。Slackはメンバーやグループ内でチャットやファイル共有などができる、ビジネス向けのオンラインチャットツールです。発表資料やデータマネジメント関連記事の共有、メンバーの自己紹介、イベントの告知、勉強会終了後のQAなど、様々な用途に利用しています。 発表資料へのアクセスは各回の参加者のみに制限していますが、その他データマネジメント関連記事や勉強会以外の資料は分科会登録者全員に公開しています。新規加入者も過去スレッドに遡ることが可能なので、入会された方は是非ご覧ください。

データマネジメントを基礎から勉強したい人は第14分科会へ!

  • データマネジメントについて基礎から学びたい
  • データマネジメントに興味・関心はあるもののどこから手をつけたら良いか分からない
  • DMBOKを読もうと思っているが、内容が難しく、量も多いため、なかなか前に進めない
  • 企業や組織を横断して、データマネジメント初学者と繋がりたい

当てはまる方は、ぜひDAMA日本支部・第14分科会にお越しください。お待ちしております。

[投稿者]
鶴田 一晃 
Metafindコンサルティング株式会社 コンサルタント
大学卒業後、商社のSCM担当として、日本→アメリカ→タイ→メキシコと複数拠点で勤務。その後、データマネジメントやデータガバナンスの専門コンサルティング会社であるMetafindコンサルティング株式会社へ転職。現在、DWHやMDMのデータ構造設計、データマネジメントやデータガバナンス導入などのコンサルティングに従事。DAMA第14分科会のリーダー。CDMP Associate保持。

データマネジメントの認知・普及について

みなさんのブログでは様々な専門的な事が書かれてあり、大変有意義であり、参考になり、ブログを読んで頂いている方々も、日々、会社・業務にて、データマネジメントの活動を実施されている事と思います。 そういった方々には、あまり参考となる内容ではありませんが、そもそもデータマネジメントがどこまで世間で認知されているか、普及されているか、あらためて考えたい、調べたいと思いました。

その理由は、データマネジメントに少しでも関わりがある人間として、もっとデータマネジメントの重要性を世間で理解され、着目され、データマネジメント活動を担う方々の認知度や地位が向上できたらうれしいと思っています。

今は、「IT」という用語が使われていますが、以前は、システムも「情報システム」、IT部門も「情報システム部門」と呼ばれ、「情報」を取り扱っているシステム、部門となりますが、プログラム、業務アプリケーション、システムの方が着目され、「情報」や基となる「データ」のマネジメントやガバナンス、それらの活動を担う方々がより認知され、価値がもっと向上するべきと思っています。

繰り返しですが、「情報」や「データ」を取り扱うシステムを、企画、開発、提供、運用しているのです。

また、ビッグデータ、AI、DXには、「情報」や「データ」がより重要な事は、周知の事実だと思います。

以前から、システム開発において「データ中心」、「DOA(Data Oriented Approach)データ中心アプローチ」という言葉、考え方もありました。今も当然、重要で、必要になりますが、なかなかスタンダードな考え方になっていなく、浸透していないようにも思われ、比較的若い世代の方々は、ご存じない方もいるのではないでしょうか。

もしかしたらシステム開発で、データモデリングやER図を描いていなかったり、DA(データアーキテト)がいないというプロジェクト、現場、会社もあるのではないでしょうか。
※そんな事はない! と怒られるかもしれませんが・・・・。

ただ、みなさんご存じの「DMBOK(データマネジメント知識体系ガイド)」があり、DAMA(データマネジメント協会)がありますね。

ただ、もっともっと認知・普及できればと思っています。

さて、前置きが長くなりましたが、まずは、 認知・普及度合いについて、ネット検索してみました。
まずは一番簡単で調べやすい、出版物(書籍)です。これは電子書籍も含みます。

該当業務をする人がいて、調べたい人、参考にしたい人、活用したい人がいて、ニーズがあるから、またビジネス上、発信したい人がいるから、みなさん出版されているのではないでしょうか。ある部分では普及度合いを表しているものと思います。

ある書籍販売サイトの検索結果になります。和書になります。

「DMBOK」で検索すると・・・。

  • データマネジメント知識体系ガイド(DMBOK) 第一版、第二版:2冊
  • データマネジメントと題した書籍:9冊
  • 情報管理、データ管理と題した書籍:2冊
  • データ経営と題した書籍:2冊

上記の中で、DAMA日本支部以外の団体が発行しているものが4冊。
上記は、単行本は6冊、電子書籍は9冊でした。

次に「データマネジメント」で検索すると・・・。

「DMBOK」でヒットした書籍を除くと、プラス、

  • データマネジメントと題した書籍:1冊
  • データドリブン経営、組織に関するもの:2冊
  • 医療系のデータマネジメントに関するもの:2冊

でした。

データマネジメントという用語を題していなく、データ分析、データモデル、データ活用・利活用、データサイエンス、情報セキュリティ、DXといった題名がついた書籍は除いています。

これは多いのでしょうか、少ないのでしょうか。
みなさんの印象はいかがでしょうか。

比較対象にしてはいけないかもしれませんが、「プロジェクトマネジメント」だとどうなるか、検索してみました。

プロジェクトマネジメントも「PMBOK(Project Management Body of Knowledge)プロジェクトマネジメント知識体系ガイド」があり、PMI(プロジェクトマネジメント協会)があります。

「PMBOK」で検索すると・・・。

プロジェクトマネジメント知識体系ガイド(PMBOK)以外は、

  • PMBOKと題した書籍:34冊
  • プロジェクトマネジメントと題した書籍:35冊
  • PMP®(プロジェクトマネジメント・プロフェッショナル) 等、資格・試験に関する書籍:23冊
  • プロジェクトマネージャー、リーダーに関する書籍:9冊
  • プロジェクトマネジメントツールに関する書籍:3冊
  • PMO(Project Management Office)に関する書籍:1冊

となりました。

追加で「データマネジメント」のように、「プロジェクトマネジメント」で検索すると、より多くの検索結果が出ましたが、かなり多くなるため、ここでは割愛させていただきます。

また、PMBOKは第7版、DMBOKは第2版といった違いもありますね。

特徴としては、

  • 「PMBOK」と題した書籍が多くありました。
    ※中には、PMBOKでは教えない、PMBOKでは書いていない、といった事を題した書籍もありました。(笑)
  • PMP®(プロジェクトマネジメント・プロフェッショナル) といった、プロジェクトマネジメントに関する資格に関する書籍も多くあります。
  • マネジメントを実行するプロジェクトマネージャー、リーダーの書籍もありました。
  • ポイント図解、マンガでわかる、といった書籍もいくつかありますね。

データマネジメントも、国際資格のCDMP(Certified Data Management Professionals)がありますが、和書がヒットしませんでした。

この結果が全てではなく、比較するつもりもなく、出版物、和書で、普及の度合いを全て語るものではありませんが、これらは何か普及、定着化するための糸口や、きっかけがみつからないかなと思い調べました。

何か見えてきて、気付きがあり、今後の普及等の活動に繋げていけるとよいと思っています。

余談になりますが、「社長が知りたいIT 50の本当」 出版社 ‏ : ‎ 日経BP には、情報(データ)マネジメントの章があり、DMBOKも少し触れられています。このような経営層向けの書籍に、データマネジメントの必要性、価値が書かれていると、より認知度が高くなると思います。

今回はここまでです。また機会があれば、別のキーワード、切り口で調べたいと思います。
(例.概要紹介・発信、サービス、事例、広告、セミナー、動画などなど)

本ブログを読んで頂いた方ご自身でも簡単に調べられると思いますので、ご興味・お時間ありましたら、一度ネット検索して頂ければうれしいです。

以上

デジタル庁の事業所ベース・レジストリ整備の中断について

デジタル庁については,期待もあり,また,人材募集や組織図を見ていて,不安も覚えるというのが正直なところである。今回は,かつての特許庁のような大惨事に陥ることなく仕切り直しとなったことは評価する向きもあるが,それでも,中断に至った原因を分析し,その対応策が取れなければ再び失敗を繰り返すことになる。

公開された情報からは,事業所の定義ができないが,それだけではないといった曖昧な情報であったが,今は少し落ち着いて原因分析した日経XTECHの記事も出てきた。

事業所データ整備を中断したデジタル庁、「撤退」の次こそDX司令塔の真価が決まる

https://xtech.nikkei.com/atcl/nxt/column/18/00138/051801041/

この記事では,事業中断の原因として,事業所という言葉の概念が複雑かつ多岐にわたり,また,監督官庁も異なることをあげている。これは実際,その通りだろう。なので,そもそも事業所は何を指す概念かを定義しないといけない。

日経XTECHの記事では,ユースケースを限定し,目的を絞ってデータ整備したらどうかとあるが,これを安易にやってしまうと,また,新たな標準が1つ増え,データの体系化がさらに困難になるだろう。データを目的別に整理するのはデータモデルのアンチパターンである。全体を捉えたうえで,部分を定義しないとデータは体系化されない。全体は部分の寄せ集めではない。ユースケースで検証することは最低限必要なことだが,選択したユースケースが全体の構造を決めるうえで適切である保証はない。日経XTECHの記事は(日経さんなので期待も込めて書くが),掘り下げが浅すぎる。

では,これはどのように進められてきたのだろうか。ネットで検索すると,「ベース・レジストリの 検討状況について」という資料が公開されていた。

https://www.digitalservice.metro.tokyo.lg.jp/society5.0/pdf/211020_04.pdf

一般論としては良く書かれているが,気になったのは最後のページである。

2021年度に「調査研究・パイロット」,「首都圏等自治体と共働」とあるが,TOBEデータモデルを検討しているようには読み取れない。「調査研究・パイロット」で検討しているのかもしれないが,パイロットという単語からは,プロトタイプ・システムで検証するといったことを想定しているようにも見受けられる。

日経XTECHの記事では,多岐にわたる事業所,それを管轄するそれぞれの官庁,自治体ごとの違いが挙げられているので,まずは法人と紐づけし,事業所を整理構造化し(サブタイプ化),ステークホルダーを整理し,場合によっては,その官庁権限を変更し(これができないとデジタル庁は,単なるボトムアップ方式しかできなくなる,ただ,このもとになるのはTOBEデータモデルがあってこそ),TOBE/ASIS変換の仕組みを作成しないと,再び,同じ轍を踏むことになる。 実際のところは,さらにドロドロとした状況であるのかもしれないが,日本が前に進むためには乗り越えなくといけない道である。また、次回は,優秀なデータモデラー,データアーキテクトを,RFP以前に参画させることを願っています 。

EDW2022が無料オンライン開催に

オミクロン株が引き続き猛威を振るっています。国際的なデータマネジメントのカンファレンスであるEnterprise Data World(EDW)もパンデミックの影響で今年はオンライン開催となりました。

ご存知の方もいらっしゃるかと思いますが、EDWは例年3-4月に5日間程度、シカゴやオースティンなどのアメリカの各都市でローテーションして開催されている1000人規模のカンファレンスです。今年は3月下旬にサンディエゴでの開催が予定されていました。が、パンデミックでリアル開催を断念せざるを得ず、4/19-20の2日間のオンライン開催となりました。しかも無料です。

一刻も早いパンデミックの収束を願うばかりですが、一方で日本から参加しやすい状況ではあります。

リアルタイムでは日本時間だと23:00-翌6:00と深夜から朝にかけての視聴しづらい時間帯かもしれません。しかし、登録ページによると、無料登録するとレコーディングを視聴することもできるようなので、費用やスケジュール上、今まで参加を諦めていた方にもチャンスだと思います。元々のプログラムからは縮小されるものの、それでも40ほどのセッションがあります(スポンサーセッションも含む)。

下表にオンライン開催のプログラムで予定されているセッション数をトラックごとに集計してみました。今回のセッション数が絞られているので単純比較はできませんが、参考までに2020,2021と並べてみています。

比べてみると、引き続きデータガバナンス、データストラテジー、メタデータが上位に入っています。また、2020で上位に入っていたデータリーダーシップも再び順位を上げています(データリーダーシップについてはこちらの過去記事で紹介されています)。

そして、2022の特徴としてはデータリテラシーが順位を上げて2番目に入っていることが分かります。データリテラシーと一口に言っても、セッション内容はデータの見せ方やデータのビジネスコンテキストの理解、組織的な変化の必要性とバラエティがありそうです。ですが、根底としてはデータをどう価値に変えていくか、戦略やガバナンスが重要なのはもちろんのこととして、データの理解や扱いに関してもっと成熟する必要がある、という意識が強くなってきているような印象を受けます。

無料ですし、オンライン開催なので1週間休みをとるのは厳しい、、、という方にも敷居が低くなっているのではないかと思います。良い機会なので、興味のあるセッションがないか、ちょっとプログラムを覗いてみてはいかがでしょうか?

ちなみにDAMA日本支部の林会長のセッションは、4/20 7:00-7:50(日本時間だと4/20 23:00-23:50)に予定されています。
是非、視聴をご検討いただければと思います。

統計に係る問題発生の根本原因について

年末に発覚した国交省での「建設工事受注動態統計」におけるデータ改竄事件が世間を騒がせました。
以下が主要紙で取り上げられている統計不正に関する記事です。

(産経新聞)
・国交省の統計不正 信用裏切った罪は大きい(2022年1月21日)
https://www.sankei.com/article/20220121-5XQH3MFRINLZJPE6G5H27ECVNI/

(日経クロステック)
・統計不正で国交省が次官ら10人処分、総務省も次官ら7人(2022年1月25日)
https://xtech.nikkei.com/atcl/nxt/column/18/00142/01194/

(朝日新聞デジタル)
・GDP、国交省の統計不正の影響は「不明」 元データ修正待って判断(2022年2月15日)
https://www.asahi.com/articles/ASQ2H436MQ28ULFA026.html

今回のようにデータを生成する過程で意図的に操作されてしまうと、ソースデータから統計表にアウトプットするまでのデータを完璧に記録し、誰がいつどのようにデータを編集したかの証跡を徹底的に記録しない限り検知することは不可能です。
「毎月勤労統計」に端を発してメディアを賑わせた2019年当時の「統計不正」が注目された際に、私は民間のデータマネジメントの有識者として点検検証部会の委員として招聘され、「紙の調査票を回答者から回収し、紙の統計表を出力すること」を前提とした統計の古い思想から、「過去の回答結果データを呼び出し、変更点だけを修正して簡単に回答できるような、回答者にとって、それを審査する行政機関にとっても快適的な、マスターデータを中心とした新たなデジタル統計の姿を目指すべき」と何度も何度も主張してきました。

https://www.realize-corp.jp/news/20190308

今回の原因はまだまだ氷山の一角であり、毎月勤労統計のように「拡大推計し忘れて、それを長年放置してきた」といったケアレスミスに基づくものや調査回収率が悪いのを良く見せるため、実際には調査していないが、分母を増やして類似データを登録する、といった意図的なもの(※調査の主管課の職員たちにもそんなに悪気がある訳ではない)が何度点検検証部会を開催しても根絶は不可能であろうと考えています。

なぜ、そうなってしまうのか・・・
私はものすごく有益な武器にもなれば、判断を誤らせる凶器にもなり得るというデータの本質に対する理解が日本全体に決定的に足りていないことに根本原因があると感じています。
以前、自分の「リアライズ社長ブログ」でも記しましたが、「そのデータが後々にどのような活用のされ方をするか」をイメージせずにデータを取り扱うことの恐ろしさ、組織のボトムからトップに至るまでのデータマネジメントの重要性に関する実感がもっと日本社会の「新しい常識」になってほしいと願うばかりです。

・杭データ改ざん事件に寄せて~ストップ!データ軽視~

realize-corp.jp/blog/blog02-2-4

年末の国交省での統計不正の報道に触れるにつけ、自分が声高に叫んできたことが活かされていないことに暗澹たる気持ちになるとともに、まだまだデータマネジメントの普及・啓発に取り組んでいかなければいけないと決意を新たにした次第です。

DAMA日本支部 企画担当理事
日本データマネジメント・コンソーシアム[JDMC] 発起人 兼 事務局長
大 西 浩 史

データモデルと「統制語彙」

中岡さんが「統制語彙」とデータモデルに関する話題、を書いてくださいました。待ってました!該当の第10分科会は仕事で参加できませんでした。残念!そこで二番バッターとしてこの場で話題を引き継ぎ、皆さんの意見をいただいて実装に向けて議論を深めることができればと思います。

この辺のお話は、セマンティックレイヤー、論理が物理を隠ぺいする、「データレイク(湖)」じゃなくて「データスワンプ(沼)」だ!、とかに関連しています。

データとデータを組み合わせるとビジネス上の良いことを得ることができるらしい! ー> いろいろなデータが取得できるようになりました。 + 大量のデータを蓄積できるようになりました。= 誰も何のデータが蓄積されているのか分からないようになりました。 ー> 活用されないデータが大量に蓄積され誰も手が付けられないようになりました、とさ。
いくらクラウドのストレージが安くなったからと言ってこれでは困りますね。

何故データとデータを組み合わせるとビジネス上の良いことが得られるのでしょう。クロスセル/アップセル的アプローチ?SCMがどこまでも繋がりまくるインダストリー4.0?そこにS&OPが絡んで尚且つROIC!?いやいや他人が苦労してクレンジングして分類付けしてくれたデータを活用して手間を省きたい?(その逆の説も!)動機は様々ですね。

ビジネスの世界で「もの」+「こと」=「実体」を扱っている。それらはビジネスプロセスの中で言葉で伝達されてビジネスの成果を得ている。だから言葉ですね。この言葉をリレーショナルモデルで表してみる。基本に立ち戻ってみます。

おなじみコッドのタプルです。各行が実態の一つ一つを表しています。それらはドメインという値の集合から寄せ集められて成り立っています。だからこの値が一つでも違えば別の実体と見なされます。ほとんど同じドメインから値を持ってきているのに一部だけ、他と異なるドメインの値が追加されているとか、一部だけあるドメインの値が持ってこられない=Nullである場合は異なるタプルとして全体の箱自体を分ける、つまりサブタイプですね。そいうことだと理解しています。

この命名規則は古典中の古典ですね。

こうやって見ると、タプルを構成するドメイン達、すなわちこれが実体を表すメタデータになりますね。どのドメインで実体を表すかを統制するのが標準メタデータです。例えばある実験の結果には必ず「温度」と「湿度」と「色」が必要という具合です。この標準メタデータ設定の目的は実験の再現性でしょうか。仮に温度が欠けると再現実験ができない。ではこの温度とは何でしょうか。摂氏?華氏?色とは?どの色見本帳と比較して色を決めるのか?これが決められていないとやはり再現できなさそうですね。これらは標準リファレンスデータと呼ぶ?

実体に対しこれらの標準メタデータと用いられる値の指定を業務で使用されているすべての言葉に当てはめていくのは気の遠くなる作業ですね。誰もそんなこと気にして使ってませんものね。まぁ一部、標準リファレンスデータは決まっているかもしれません。企業内の組織コードとかで表される実体やUoM:計測単位だったり。本来KPIとかはソースデータと計算ロジックにこの考えがないといけないと思いますが、足せないものを足したり、精度の低い値を掛けて有効桁数を無視したり?とかありがちですね。

せめてこのKPIだったり、機能/業務/組織をまたいで接続したいデータについて、この標準メタデータとリファレンスデータを「統制語彙」として整備して、その言葉でコミュニケーションできるようにする、というのが今取り組んでいることで日々頭を悩ませています・・・

デジタルノートツール/PKMとデータマネジメント

デジタルノートツールについて

皆さん、デジタルノートツールは使っていますでしょうか?
具体的にはEvernoteやNotionといったツール・サービスで、基本的にはテキストエディタの延長であるものの、 クラウド上のデータに異なる端末からアクセス可能であったり、タグ付けなどの分類方法が発達していたりします。PKM(Personal Knowledge Mangement)ツールとも呼ばれることもあります。
用途は当然のことながら多岐にわたり、日々のタスクに関わるメモ、Webで見つけた記事の保管、などが含まれます。

筆者はこのあたりのツールやLifeHackなどが大好きなのですが、
この「個人の情報・知識の管理ツール」と「企業のデータのマネジメント」という2者に多くの類似性を感じており、 今回この場を借りて考察を記します。

どちらも広い意味では情報管理です。

結論を先に言っておきます。
・ここ数年でどちらも技術面(ツール)と運用・文化面(成熟度)の両面で大きく進化している
・ハコ(ツール)だけでなく運用が重要と認識されてきている
・情報は「活用できる状態に保つ」ことがポイント。集める・溜めるだけでは片手落ち
・情報を活用可能な状態するためのメタ情報管理と品質管理に一定の時間を割くべき

これらは個人の情報・知識管理・企業のデータマネジメント どちらにも共通して言えることです。

デジタルノートツールの変遷 ~ 蓄積に主眼を置いたツール

まずデジタルノートツールがどのような変遷を辿ったか、筆者の主観を多分に含みますがおさらいしましょう。

2010年頃にEvernoteというツールが登場しました。
全ての情報をここに蓄積しましょう! というコンセプトで、 様々な場所にあるデータを一元集約すべく、PCアプリ・スマホアプリ・ブラウザ等の様々なチャネルを持つこのツール は新しもの好きやLifeHackに興味がある方々にヒットし、多くのユーザを獲得しました。

筆者もToDoや買い物メモ、思考の記録、Web記事のクリップ、過去のテキスト などを せっせと集約してこのツールに流し込んでは悦に入っていたものです。

しかしながら、ノートの数が1000を超えたあたりから、徐々に管理不能・肥大化した状態となったと ストレスを感じるようになりました。
目の前に置いておくべき情報とアーカイブすべき情報の区別が難しくなり、
また少し前に読んだ/読もうとしたWEB記事を探すことに労力がかかるようになってしまいました。

もちろん検索機能や#Tag付け機能はあるのですが、Tagの数自体も増える一方で、Tag付けのルールも自分としての一貫性を保つことが困難になり、 半年くらいの前の情報となるとどう検索すべきかが直感的に分からなくなってしまったのです。
そして過去のノートの多くは、二度と再利用・活用されることのないゴミの山になってしまいました。

蓄積偏重のハコの限界

この状況には既視感があります。

まさにこれは企業ITにおいて、
「DataLakeへ・DataWareHouseへ、あらゆるデータを流し込み蓄積さえしておけば あとで素晴らしい分析・データ活用ができるはず!」

と言う一部のベンダーの謳い文句に乗ってハコモノを導入し、多くのデータを溜めてはみたものの、 いざ分析しようとするとどのデータを使ってよいか分からない・データの品質が確保できない、 といった昨今の状況に似ています。

当たり前ですが、玉石混淆の広大な地図の無いLakeから玉だけを取り出すのは至難の業です。 このあたりの失敗事例からも、データマネジメントの重要性が認識されてきたようにも思います。

デジタルノートツールの次の世代

話をツールに戻しますが、Evernoteでは自分と同様の難しさを感じたユーザは他にも多かったようで、 また必要以上の高機能化や性能問題により「重たいツール」だという印象をあたえたこと、課金戦略のまずさなどもあり、Evernoteは一定数のユーザを離反させてしまいました。 (とはいえ、まだ多くのファンをもつツールであることは変わりありません)

その後、次の世代のデジタルノートツール群が台頭してきました。

アウトラインエディタ

一つにはDynalist、Workflowyなど、アウトラインエディタ・ アウトライナーと呼ばれる階層的にテキストを管理ができるツールが挙げられます。
例えば、

〇 XXに関するご提案
 -提案の背景
  ・昨今のxx業界のニーズの変化
  ・海外競合他社の進化
 -ご提案の骨子
  ・hoge hoge

といった形で階層構造で情報を管理します。アウトラインエディタ自体は目新しいものではないですが、項目ごとのリンク機能、タグ付け機能など、統合的に情報を管理する機能をもつサービスが登場してきました。

人気ツール Notion

現在日本で最も流行しているのはNotion というツールでしょうか。
アウトライナー機能に加え、さらにRelational Database機能を持つツールで、 各自のカスタマイズ次第で様々な情報を管理することが出来ます。

例えばプロジェクトの進捗やタスク管理をしようとした場合、

[プロジェクト] 1—N [中間ゴール] 1—N [タスク]

のようなリレーションをもつテーブル群を作成し、そのレコードに個々のタスクの内容に関するアウトライン形式のテキストを紐づけて管理することも出来ます。

無料版でかなりの事ができますし、オンライン上でRDBが無料で使えるのは素晴らしいことです。ここではこれ以上は述べませんが興味がある方はWebやYoutubeで検索してみてください。

筆者の使うツールとその情報アーキテクチャ

Wiki型の情報管理ツール Obsidian

筆者は上記のNotionやいくつかのツール(RoamReserch、Dynalist、GoogleKeepなど)を使った結果、 Obsidianというツールにたどり着きました。

Obsidianは情報管理のアーキテクチャーが優れていること、ツールだけでなく情報管理の方法論とそれをブラシュアップする活発なコミュニティ(主に海外)が存在することが採択の理由です。

特徴としては、Markdownエディタであり、かつWikiのような形式でノート群を管理できるツールです。
すなわちディレクトリ型管理ではなくネットワーク型管理であり、個々のぺージから他のページにリンクし、相互関係を管理します。

ツールの設計思想と運用の方法論

ツールの設計思想の背景にはドイツのZettelkastenというカード式の情報管理があります。日本の京大式カードに似たものです。
https://gigazine.net/news/20200604-zettelkasten-note/

またさらにPKM(personal knowledge management)という名前で、Zettelkastenを拡張する形での、個人の情報・知識管理の方法論が提唱・議論され、ツールの進化と足並みを揃えて成熟を続けています。

ざっとそれらの内容を紹介しておきますと以下のような原則が設けられています。

  • Dailyで書くノートと、蓄積しメンテし続けるノートは区別する。
  • 一つのノートには一つの概念を記載する(Atomic)
  • タイトルと概要は 自分の言葉で記載する(コピペ・Clipしない)
  • インデックスページ(MOC:Map of contents)を作る。
  • ノートは内容やリンクを定期的に見直す、必要なメタタグを付与する。
  • メンテされた状態を保つ、Evergreen Notes(常緑のノート群)という原則
  • https://notes.andymatuschak.org/Evergreen_notes?stackedNotes=z2HUE4ABbQjUNjrNemvkTCsLa1LPDRuwh1tXC

これらの原則を守れば、多量・長期間 という情報にとっての天敵に太刀打ちできるということです。

個人の情報/知識管理と企業データマネジメントの類似性

まとめますと、現在のデジタルノートツールとPKMなどの方法論で語られていることは以下の通りです。

  • 情報のアーキテクチャを定める
  • 情報の作成・収集 → 精査・移動 → 蓄積 →活用 といったプロセスを管理する
  • 情報自身のメタ情報を管理する
  • 情報の品質を管理する

どこかで見たような内容ではないでしょうか?
そう、DMBOKの記載内容に非常に類似しています。

これは結局 「情報の資産価値を高める」という主題にフォーカスすると、そのプロセスや仕組みが 似たものになることだと思います。

筆者はこれらの領域が、メタデータ管理あたりを皮切りにどこかで直接的に交わり、そして日本でも議論が出来る日が来るのが近いのではと考えています。
ご興味を持たれた方は、情報氾濫社会を乗り切るべく、どうぞこれらツールを使用してみてください。大部分は無料です。そして是非、情報管理のあるべき姿について意見交換させて頂ければと思います。

COVID-19でマイナンバーを考える

コロナでの日本(あえて日本政府でなく、日本と書きました)の対応で一番情けないのは、政府や地方自治体でデータが寸断され、必要な情報を得るのに時間がかかる、いや時間がかかっても正確な情報が得られないことです。様々な原因があって、いまだにFAXを使っていることや、ワクチン接種記録システム(VRS)への入力が大変で、遅れ気味の自治体が多いとか、これがOCR入力とか・・・・

もちろん、こうした状況になってしまった原因は、技術的なことよりも、政治であったり、古い仕組みを脱却できない人間に起因することの方が大きいと思います。ただ、これに似たような状況に陥っている企業も多いのではないかと思います。

国民背番号についての是非はともかくとして、管理したい対象については、ユニークに識別できるキーを振りたいわけですが、日本の場合、マイナンバー、住基ネット番号、保険証番号、年金番号、運転免許証番号、パスポート番号といったものが乱立しているわけです。パスポート番号や運転免許証番号は、必ずしも国民1人1人が持つキーではありませんが、これにより個人を識別していることが多いかと思います。

しかし、住基ネット番号は、そもそもマイナンバーがあれば不要、年金番号もマイナンバーへ統合可能でしょう。 保険証番号もマイナンバーで置き換え可能でしょう。 運転免許証番号で個人を識別する役割は終わらせることができるはずです(そのために高齢者が免許返上しにくいとかは馬鹿げています)。

用途ごとにキーを振るのではなく、管理対象に対してキーを振るという、データ管理であれば、当たり前のことができていないがために、多くの情報寸断が起き、集計に人手が必要となり、人手を介するがゆえにミスも生じてデータが不正確になる。これが国や地方自治体の効率性を妨げているわけです。ワクチン接種記録の入力に時間がかかったり、感染者の集計が遅れたり、漏れたりとかは、適切に設計されたデータモデルと、それに基づいて設計されたシステムがあれば起きなかったはず。

マイナンバーが住基ネットの番号に基づいて振られる、チェックディジットの不完全性のため入力ミスを100%防止できないなど、(相対的に小さな)問題点もありますが、大きくはマイナンバー自体をまず将来的(TOBE)に、これに統一していくというビジョンを定め、それを妨げる障害を1つ1つ除き、なりすましや情報漏洩を防ぐセキュリティ、管理されている情報のオプトイン、オプトアウトなどを整備し、徐々に適用範囲を広げていくことが重要なのではないかと思います。マイナンバーカードを作ることのメリットを訴求するのはマイナポイントではなくビジョンであるべきです。

企業のシステムでも、新旧のコード体系混在や、目的別に振ったIDなど、実は同様の問題を抱えていることが多いようです(特に歴史ある大企業)。まずはTOBEをきちんと定め、データ管理をもう一度見直していくべきです。

データマネジメントの学び方 ~海外コンテンツ活用例~

今回はデータマネジメントの学び方の1つとして、DATAVERSITYの活用例を紹介したいと思います。

DATAVERSITYに関してはDAMA日本支部公式ブログの過去記事(座学でデータマネジメントを学ぶには)でも紹介されておりますので、ご存知の方もいらっしゃるかもしれませんが、データおよびデータマネジメントに関して幅広く情報が集約されている、Webベースの教育プラットフォームです。

有償で学ぶことができるトレーニングメニューに加えて、無償でも参照可能なブログやWebinarが多数公開されています。

DATAVERSITYhttps://www.dataversity.net/

この教育プラットフォームは英語で掲載されているため少しハードルが高いなと感じられている方のために、私が実際に参照してみてよいなと思った無償で閲覧できるWebinarを1つご紹介させていただきたいと思います。

DAS Webinar: Data Quality Best Practice

上記のWebinarはタイトルの通りデータ品質のベストプラクティスについて学ぶことができるWebinarです。例えば次のような要素について学ぶことができます。

  • データ品質の向上におけるビジネスルールの重要な役割
  • データ品質においてなぜビジネスルールの厳格化が重要なのか
  • データ品質の継続的改善に向けた4ステップ

データ品質に取り組む際、Null値の割合や、最大値、最小値などテクニカルな側面のアプローチに偏ることなく、ビジネスルールに主眼を置いて取り組むことの重要性について学ぶことができます。

データ品質とビジネス上のROIがどのような関係にあるのかについては、その説明に苦労されている方も多いと思いますが、具体的なユースケースも踏まえて学ぶことができるコンテンツになっていますので、データ品質の取り組みを自社内で推進していきたいと考えられている皆様の活動のヒントとしてもお役に立つ内容になっているのではないかと思います。

DMBOK2に加えて、こうしたWebinarで得られる事例や実践的な情報をかけ合わせていくことで、自社におけるデータマネジメント推進のヒントを一つでも多くつかんでいただければ幸いです。

「統制語彙」とデータモデルに関する話題(10/21(木) 10分科会を踏まえて)

10月21日(木)に開催された月次の第10分科会で話題となった「統制語彙」とデータモデルの果たす役割に関するディスカッションを取り掛かりに、今回のブログ題材として取上げる。

この回の勉強会では、4月迄に行われた第12分科会話題とDMBoK2第9章「ドキュメントとコンテンツ管理」記述内容を材料にする形で、分科会メンバ國澤氏からの話題説明および考え方を解説する形で議論が進められた(題目:「統制語彙とデータモデル」、分科会参加者14名、ZOOMオンライン方式)。

今回の話題は、概念データモデリングのアプローチが「統制語彙」(Controlled Vocabularies)を整備するために役に立つというDMBoK2の説明要素を、議論の糸口として始められた。また、同時に統制語彙を取り囲む語彙集合の位置付けとしてフォークソノミ周辺語彙を関係付けた説明があった。単にER図だけでなく用語定義等の説明情報を含めてこその本来の「データモデル」であることも話題要素となった。尚、DMBoK2第5章における概念データモデル・アプローチの基本的考え方は、エンティティ定義と意味の明確化をモデル作成上の主要要素としている点を確認しておくと議論として分かり易い。

ここで確認のためにDMBoK2(日本語版)p.173での概念モデルの説明を引用する。「概念データモデルには、関連する概念の集合体としてデータ要件の概念が取り込まれる。ここには、特定の領域や業務機能に関する基本的で重要なビジネスエンティティのみが含まれ、各エンティティの説明とエンティティ間のリレーションシップが含まれる」とある。IE表記法を用いたリレーショナル概念データモデルの例として、学校、学生、応募書類の関係をモデル化した例をこの回でも議論題材として取上げた(図1)。

図1に表される動詞句表記が必須であるかどうかについては、モデラーの立場による議論の余地があるものの、このような概念モデルを関係者間で確認し作成する中で、出現する語彙(主にエンティティ名となる語彙等)の表す意味合いが共有・図式化され、統制語彙(の候補)として用語整理する上でモデリングの役割が発揮されるという流れである。更に、この概念モデルの表す意味関係を変えずにエンティティの主キー属性を検討し、他の属性項目を加えてゆくことで次段階としての論理データモデルに落とし込むのがデータモデル詳細化の進め方となる(DMBoK2 日本語版、p.175、図48参照)。その実装に向けたモデル整備過程ではリレーショナルモデルの正規化といった要素の考慮等が必要とされるが、ここでは語彙論議から外れるためその詳細は割愛する。

当日の議論には出ていないが、筆者の立場としては、このような手続きにより統制語彙候補を抽出した後で、最終的に統制語彙としての採用要否の検討要素として、オントロジの考え方が必要になるという点をここで加えておきたい。例えば、図1の例では、「学生」という語はオントロジ視点を通せば「ロール」概念として位置付くものであり、論理モデル化でのモデル表現の仕方に影響が出ることになる(いわゆる海外で取上げられることの多いパーティモデルは、この視点での立場を取っている)。更に、用語を利用する部門によっては、同じ用語の意味使いに差異が生まれることが実務上存在する点を考慮する際には、統制語彙レイヤ(≑共通語彙)と部門用語レイヤ(部門ビューともいえる)のような階層化視点での用語整理実施という語彙設計も必要であろう。これは語彙の方言、いわば多元的フォークソノミの話題として深掘り検討すべき内容と考えられる。

DMBoK2第9章では、統制語彙の実用的な例として図書館情報分野で利用されるダブリンコア(Dublin Core)の語彙が紹介されている。日本でのこの語彙の利用状況は、国立国会図書館のダブリンコアメタデータ記述(DC-NDL)Webページで知ることができる(こちらを参照)。

統制語彙の考え方に関連した第二の話題としてここで次の補足をしたい。IPA(情報処理推進機構)の推進するIMI情報共有基盤事業(Infrastructure for Multilayer Interoperability)について簡単に触れる。これは、電子行政分野におけるオープンな利用環境整備に向けたアクションプランの一環で、データに用いる文字や用語を共通化し、情報の共有や活用を円滑に行うための基盤構築プロジェクトとして2013年を起点として計画・推進されている(※2)。これは、共通語彙基盤および文字情報基盤の2要素からなり、この中の共通語彙基盤の内容が今回の話題に関係する話題として参照できる。

このプロジェクトでは、行政分野でのデータ流通相互運用性向上を目指す中で、コア語彙およびドメイン語彙からなる語彙データベース(DB)構築が取組まれている。分科会で議論した概念データモデル作成のアプローチとは異なる方式で共通語彙の整備が行われ、2019年2月時点でコア語彙バージョン2.4.2が公開され(現時点最新)、ここでの共通語彙群の位置付けは、図2のように表現されている。

この図2での語彙階層は、以下のように説明されている。

(1)コア語彙: 分野を超えて使われる共通性のある用語(【人】【氏名】など)の集合

(2)ドメイン語彙: コア語彙の概念を継承して定義した、分野固有の用語の集合

(3)応用語彙: 現場の必要に応じ,既存の語彙を継承した独自の 語彙を定義する必要が出てくるが,これを応用語彙と呼ぶ。応用語彙は,将来,分野に共通な語彙を洗い出すなどによりドメイン 語彙へと整理されていくことを想定している。

IMI共通語彙基盤の中で定義する語彙範囲は(1)と(2)であり、現時点コア語彙(1)のうちクラス語彙約60、プロパティ語彙約250が定義されている。(2)は今後の応用分野の開発の中で(3)と共に定義してゆく領域として扱われるものと説明され、プロジェクトWebページでは現在(1)項目の共通語彙が定義公開されている。

概念モデルアプローチから抽出されるのは主にエンティティ名に関する語彙(用語)になり得ることは冒頭からの議論紹介の中で記述したが、こちらのアプローチでは、クラス語(ほぼエンティティに対応)に加えてプロパティ語(リレーショナルモデルでは属性項目に相当)が定義されている点に違いがある。これはLOD(Linked Open Data)トリブル表現からの設計アプローチでは、エンティティ(≑クラス)、属性(≑プロパティ)、インスタンス/オカレンスが区別されない形となる集合的用語認識から始まる結果、当然現れる現象といえる。このようなモデルでオントロジ言語利用(OWL:Web Ontology Language)の必要性発生とも関係している。実際、(1)で定義された語彙の実装は、XMLおよびRDF定義形式で提供されている(この語彙定義は、同プロジェクトWebサイトからダウンロードできる)。

ここで見たように、語彙定義、そして相互利用のための共通化を目的として整理する語彙種別や内容範囲に違いが現れるということは、統制語彙や共通語彙という呼び名とその整備アプローチに加えて、語彙定義を行う目的と適用方法および範囲を先だって明確化する必要があることを示唆している。更に、これに加え、複合語、部門用語、方言的使い方を設計上考慮するという点も含むべきであると筆者は考える。この辺りは、DMBoK2 日本語版pp.339-343、「1.3.2.4 用語管理」~「1.3.2.9 オントロジ」の説明内容に着目すると、より分かり易いものとなる。

このようにして整備した語彙群を共有化し、管理実現を可能にするには、参照データ、メタデータとしての管理機能群を提供することが実装の要点となる。これらについてはDMBoK2第10章「参照データとマスタデータ」、第12章「メタデータ管理」の各章に関連する考え方や情報が取上げられており、更なる興味のある方はこれらの章を参考することにしたい。その際、語彙の統制管理(開発過程での利用を含む)とビジネス利用者から見た利用語彙/用語の運営とは区別するものと捉える方が分かりやすいと考える。それは、前者は技術メタデータ用語管理、データディクショナリ管理の領域話題として扱われ、後者はグローサリー(用語辞書、ビジネス用語集、メタデータ管理の一部)の提供話題として分けて説明される傾向が高いからである。これはまた、メタモデルの作成方針とも関係する。参考に、データディクショナリとビジネス用語を分けて管理するための概念メタモデル図を図3に例示する。

またDMBoK2の上記各章中に記述されているように、語彙/用語の整理および利用検討に当たっては、同音異義語、異音同義語、同意語(シソーラス)、複合語といった見方による整理が必要である。これに加え筆者は、基本語彙の辞書だけでなく、先に述べた利用者ビュー(部門ビュー)階層の設定、用語読み仮名(英文字)の活用といった考慮点を追加することが有効であると考えている。

(以上)

※1  DMBoK2 第5章p.174 「図46 リレーショナル概念モデル」を引用

※2 詳細はIPA/IMIページを参照。 https://imi.go.jp/ (2021年10月27日時点)

※3 出典: 情報処理学会デジタルプラクティス Vol.9 No.1 (Jan. 2018)

      IMI共通語彙基盤 p.35 図1 共通語彙の3層構造

※4 以下の資料を参考に筆者作成:

  The Joint C3 Information Exchange Data Model, Metamodel

(JC3IEDM Metamodel)   V. 3.1.4, Feb. 2012,

Multilateral Interoperability Programme(MIP)

[投稿者]中岡 実(インフオラボ游悠 代表/データマネジメントコンサルタント、ITコーディネータ、PMP、認定心理士)