データモデルと「統制語彙」

中岡さんが「統制語彙」とデータモデルに関する話題、を書いてくださいました。待ってました!該当の第10分科会は仕事で参加できませんでした。残念!そこで二番バッターとしてこの場で話題を引き継ぎ、皆さんの意見をいただいて実装に向けて議論を深めることができればと思います。

この辺のお話は、セマンティックレイヤー、論理が物理を隠ぺいする、「データレイク(湖)」じゃなくて「データスワンプ(沼)」だ!、とかに関連しています。

データとデータを組み合わせるとビジネス上の良いことを得ることができるらしい! ー> いろいろなデータが取得できるようになりました。 + 大量のデータを蓄積できるようになりました。= 誰も何のデータが蓄積されているのか分からないようになりました。 ー> 活用されないデータが大量に蓄積され誰も手が付けられないようになりました、とさ。
いくらクラウドのストレージが安くなったからと言ってこれでは困りますね。

何故データとデータを組み合わせるとビジネス上の良いことが得られるのでしょう。クロスセル/アップセル的アプローチ?SCMがどこまでも繋がりまくるインダストリー4.0?そこにS&OPが絡んで尚且つROIC!?いやいや他人が苦労してクレンジングして分類付けしてくれたデータを活用して手間を省きたい?(その逆の説も!)動機は様々ですね。

ビジネスの世界で「もの」+「こと」=「実体」を扱っている。それらはビジネスプロセスの中で言葉で伝達されてビジネスの成果を得ている。だから言葉ですね。この言葉をリレーショナルモデルで表してみる。基本に立ち戻ってみます。

おなじみコッドのタプルです。各行が実態の一つ一つを表しています。それらはドメインという値の集合から寄せ集められて成り立っています。だからこの値が一つでも違えば別の実体と見なされます。ほとんど同じドメインから値を持ってきているのに一部だけ、他と異なるドメインの値が追加されているとか、一部だけあるドメインの値が持ってこられない=Nullである場合は異なるタプルとして全体の箱自体を分ける、つまりサブタイプですね。そいうことだと理解しています。

この命名規則は古典中の古典ですね。

こうやって見ると、タプルを構成するドメイン達、すなわちこれが実体を表すメタデータになりますね。どのドメインで実体を表すかを統制するのが標準メタデータです。例えばある実験の結果には必ず「温度」と「湿度」と「色」が必要という具合です。この標準メタデータ設定の目的は実験の再現性でしょうか。仮に温度が欠けると再現実験ができない。ではこの温度とは何でしょうか。摂氏?華氏?色とは?どの色見本帳と比較して色を決めるのか?これが決められていないとやはり再現できなさそうですね。これらは標準リファレンスデータと呼ぶ?

実体に対しこれらの標準メタデータと用いられる値の指定を業務で使用されているすべての言葉に当てはめていくのは気の遠くなる作業ですね。誰もそんなこと気にして使ってませんものね。まぁ一部、標準リファレンスデータは決まっているかもしれません。企業内の組織コードとかで表される実体やUoM:計測単位だったり。本来KPIとかはソースデータと計算ロジックにこの考えがないといけないと思いますが、足せないものを足したり、精度の低い値を掛けて有効桁数を無視したり?とかありがちですね。

せめてこのKPIだったり、機能/業務/組織をまたいで接続したいデータについて、この標準メタデータとリファレンスデータを「統制語彙」として整備して、その言葉でコミュニケーションできるようにする、というのが今取り組んでいることで日々頭を悩ませています・・・

デジタルノートツール/PKMとデータマネジメント

デジタルノートツールについて

皆さん、デジタルノートツールは使っていますでしょうか?
具体的にはEvernoteやNotionといったツール・サービスで、基本的にはテキストエディタの延長であるものの、 クラウド上のデータに異なる端末からアクセス可能であったり、タグ付けなどの分類方法が発達していたりします。PKM(Personal Knowledge Mangement)ツールとも呼ばれることもあります。
用途は当然のことながら多岐にわたり、日々のタスクに関わるメモ、Webで見つけた記事の保管、などが含まれます。

筆者はこのあたりのツールやLifeHackなどが大好きなのですが、
この「個人の情報・知識の管理ツール」と「企業のデータのマネジメント」という2者に多くの類似性を感じており、 今回この場を借りて考察を記します。

どちらも広い意味では情報管理です。

結論を先に言っておきます。
・ここ数年でどちらも技術面(ツール)と運用・文化面(成熟度)の両面で大きく進化している
・ハコ(ツール)だけでなく運用が重要と認識されてきている
・情報は「活用できる状態に保つ」ことがポイント。集める・溜めるだけでは片手落ち
・情報を活用可能な状態するためのメタ情報管理と品質管理に一定の時間を割くべき

これらは個人の情報・知識管理・企業のデータマネジメント どちらにも共通して言えることです。

デジタルノートツールの変遷 ~ 蓄積に主眼を置いたツール

まずデジタルノートツールがどのような変遷を辿ったか、筆者の主観を多分に含みますがおさらいしましょう。

2010年頃にEvernoteというツールが登場しました。
全ての情報をここに蓄積しましょう! というコンセプトで、 様々な場所にあるデータを一元集約すべく、PCアプリ・スマホアプリ・ブラウザ等の様々なチャネルを持つこのツール は新しもの好きやLifeHackに興味がある方々にヒットし、多くのユーザを獲得しました。

筆者もToDoや買い物メモ、思考の記録、Web記事のクリップ、過去のテキスト などを せっせと集約してこのツールに流し込んでは悦に入っていたものです。

しかしながら、ノートの数が1000を超えたあたりから、徐々に管理不能・肥大化した状態となったと ストレスを感じるようになりました。
目の前に置いておくべき情報とアーカイブすべき情報の区別が難しくなり、
また少し前に読んだ/読もうとしたWEB記事を探すことに労力がかかるようになってしまいました。

もちろん検索機能や#Tag付け機能はあるのですが、Tagの数自体も増える一方で、Tag付けのルールも自分としての一貫性を保つことが困難になり、 半年くらいの前の情報となるとどう検索すべきかが直感的に分からなくなってしまったのです。
そして過去のノートの多くは、二度と再利用・活用されることのないゴミの山になってしまいました。

蓄積偏重のハコの限界

この状況には既視感があります。

まさにこれは企業ITにおいて、
「DataLakeへ・DataWareHouseへ、あらゆるデータを流し込み蓄積さえしておけば あとで素晴らしい分析・データ活用ができるはず!」

と言う一部のベンダーの謳い文句に乗ってハコモノを導入し、多くのデータを溜めてはみたものの、 いざ分析しようとするとどのデータを使ってよいか分からない・データの品質が確保できない、 といった昨今の状況に似ています。

当たり前ですが、玉石混淆の広大な地図の無いLakeから玉だけを取り出すのは至難の業です。 このあたりの失敗事例からも、データマネジメントの重要性が認識されてきたようにも思います。

デジタルノートツールの次の世代

話をツールに戻しますが、Evernoteでは自分と同様の難しさを感じたユーザは他にも多かったようで、 また必要以上の高機能化や性能問題により「重たいツール」だという印象をあたえたこと、課金戦略のまずさなどもあり、Evernoteは一定数のユーザを離反させてしまいました。 (とはいえ、まだ多くのファンをもつツールであることは変わりありません)

その後、次の世代のデジタルノートツール群が台頭してきました。

アウトラインエディタ

一つにはDynalist、Workflowyなど、アウトラインエディタ・ アウトライナーと呼ばれる階層的にテキストを管理ができるツールが挙げられます。
例えば、

〇 XXに関するご提案
 -提案の背景
  ・昨今のxx業界のニーズの変化
  ・海外競合他社の進化
 -ご提案の骨子
  ・hoge hoge

といった形で階層構造で情報を管理します。アウトラインエディタ自体は目新しいものではないですが、項目ごとのリンク機能、タグ付け機能など、統合的に情報を管理する機能をもつサービスが登場してきました。

人気ツール Notion

現在日本で最も流行しているのはNotion というツールでしょうか。
アウトライナー機能に加え、さらにRelational Database機能を持つツールで、 各自のカスタマイズ次第で様々な情報を管理することが出来ます。

例えばプロジェクトの進捗やタスク管理をしようとした場合、

[プロジェクト] 1—N [中間ゴール] 1—N [タスク]

のようなリレーションをもつテーブル群を作成し、そのレコードに個々のタスクの内容に関するアウトライン形式のテキストを紐づけて管理することも出来ます。

無料版でかなりの事ができますし、オンライン上でRDBが無料で使えるのは素晴らしいことです。ここではこれ以上は述べませんが興味がある方はWebやYoutubeで検索してみてください。

筆者の使うツールとその情報アーキテクチャ

Wiki型の情報管理ツール Obsidian

筆者は上記のNotionやいくつかのツール(RoamReserch、Dynalist、GoogleKeepなど)を使った結果、 Obsidianというツールにたどり着きました。

Obsidianは情報管理のアーキテクチャーが優れていること、ツールだけでなく情報管理の方法論とそれをブラシュアップする活発なコミュニティ(主に海外)が存在することが採択の理由です。

特徴としては、Markdownエディタであり、かつWikiのような形式でノート群を管理できるツールです。
すなわちディレクトリ型管理ではなくネットワーク型管理であり、個々のぺージから他のページにリンクし、相互関係を管理します。

ツールの設計思想と運用の方法論

ツールの設計思想の背景にはドイツのZettelkastenというカード式の情報管理があります。日本の京大式カードに似たものです。
https://gigazine.net/news/20200604-zettelkasten-note/

またさらにPKM(personal knowledge management)という名前で、Zettelkastenを拡張する形での、個人の情報・知識管理の方法論が提唱・議論され、ツールの進化と足並みを揃えて成熟を続けています。

ざっとそれらの内容を紹介しておきますと以下のような原則が設けられています。

  • Dailyで書くノートと、蓄積しメンテし続けるノートは区別する。
  • 一つのノートには一つの概念を記載する(Atomic)
  • タイトルと概要は 自分の言葉で記載する(コピペ・Clipしない)
  • インデックスページ(MOC:Map of contents)を作る。
  • ノートは内容やリンクを定期的に見直す、必要なメタタグを付与する。
  • メンテされた状態を保つ、Evergreen Notes(常緑のノート群)という原則
  • https://notes.andymatuschak.org/Evergreen_notes?stackedNotes=z2HUE4ABbQjUNjrNemvkTCsLa1LPDRuwh1tXC

これらの原則を守れば、多量・長期間 という情報にとっての天敵に太刀打ちできるということです。

個人の情報/知識管理と企業データマネジメントの類似性

まとめますと、現在のデジタルノートツールとPKMなどの方法論で語られていることは以下の通りです。

  • 情報のアーキテクチャを定める
  • 情報の作成・収集 → 精査・移動 → 蓄積 →活用 といったプロセスを管理する
  • 情報自身のメタ情報を管理する
  • 情報の品質を管理する

どこかで見たような内容ではないでしょうか?
そう、DMBOKの記載内容に非常に類似しています。

これは結局 「情報の資産価値を高める」という主題にフォーカスすると、そのプロセスや仕組みが 似たものになることだと思います。

筆者はこれらの領域が、メタデータ管理あたりを皮切りにどこかで直接的に交わり、そして日本でも議論が出来る日が来るのが近いのではと考えています。
ご興味を持たれた方は、情報氾濫社会を乗り切るべく、どうぞこれらツールを使用してみてください。大部分は無料です。そして是非、情報管理のあるべき姿について意見交換させて頂ければと思います。

COVID-19でマイナンバーを考える

コロナでの日本(あえて日本政府でなく、日本と書きました)の対応で一番情けないのは、政府や地方自治体でデータが寸断され、必要な情報を得るのに時間がかかる、いや時間がかかっても正確な情報が得られないことです。様々な原因があって、いまだにFAXを使っていることや、ワクチン接種記録システム(VRS)への入力が大変で、遅れ気味の自治体が多いとか、これがOCR入力とか・・・・

もちろん、こうした状況になってしまった原因は、技術的なことよりも、政治であったり、古い仕組みを脱却できない人間に起因することの方が大きいと思います。ただ、これに似たような状況に陥っている企業も多いのではないかと思います。

国民背番号についての是非はともかくとして、管理したい対象については、ユニークに識別できるキーを振りたいわけですが、日本の場合、マイナンバー、住基ネット番号、保険証番号、年金番号、運転免許証番号、パスポート番号といったものが乱立しているわけです。パスポート番号や運転免許証番号は、必ずしも国民1人1人が持つキーではありませんが、これにより個人を識別していることが多いかと思います。

しかし、住基ネット番号は、そもそもマイナンバーがあれば不要、年金番号もマイナンバーへ統合可能でしょう。 保険証番号もマイナンバーで置き換え可能でしょう。 運転免許証番号で個人を識別する役割は終わらせることができるはずです(そのために高齢者が免許返上しにくいとかは馬鹿げています)。

用途ごとにキーを振るのではなく、管理対象に対してキーを振るという、データ管理であれば、当たり前のことができていないがために、多くの情報寸断が起き、集計に人手が必要となり、人手を介するがゆえにミスも生じてデータが不正確になる。これが国や地方自治体の効率性を妨げているわけです。ワクチン接種記録の入力に時間がかかったり、感染者の集計が遅れたり、漏れたりとかは、適切に設計されたデータモデルと、それに基づいて設計されたシステムがあれば起きなかったはず。

マイナンバーが住基ネットの番号に基づいて振られる、チェックディジットの不完全性のため入力ミスを100%防止できないなど、(相対的に小さな)問題点もありますが、大きくはマイナンバー自体をまず将来的(TOBE)に、これに統一していくというビジョンを定め、それを妨げる障害を1つ1つ除き、なりすましや情報漏洩を防ぐセキュリティ、管理されている情報のオプトイン、オプトアウトなどを整備し、徐々に適用範囲を広げていくことが重要なのではないかと思います。マイナンバーカードを作ることのメリットを訴求するのはマイナポイントではなくビジョンであるべきです。

企業のシステムでも、新旧のコード体系混在や、目的別に振ったIDなど、実は同様の問題を抱えていることが多いようです(特に歴史ある大企業)。まずはTOBEをきちんと定め、データ管理をもう一度見直していくべきです。

「DMBOK2概説セミナー」の紹介

はじめに

DAMA日本支部では年に3回程度「DMBOK2概説セミナー」を開催しています。今回は宣伝も兼ねてそのセミナーの全体像を紹介させていただきます。

開催のきっかけ

DMBOK (Data Management Body Of Knowledge)の第2版(以下、DMBOK2) は2017年に英語版が2018年12月に日本語が発売となりました。日本語版の翻訳作業はMetafind社とともに DAMA日本支部も担当しています。
そこでDAMA日本支部としては、このDMBOK2を普及させ、これをきっかけにDAMA日本支部の会員増加にもつなげたいとの思いがありました。その施策のひとつが「DMBOK2概説セミナーの開催」となり、2019年3月から開始しています。

開催方法・開催内容

1回の開催は18:00~概ね2時間、毎回2テーマを取り上げています。第3回までは集合研修、第4回以降はオンライン開催となっています。これまで以下のように8回開催しています。
原則3月、6月、9月の開催を基本としていますが、2020年は3月開催の直前中止、オンライン開催への切り替えなどがあり、変則的になりました。

第1回 2019.03.05 「DMBOK2 全体概要」「第1章 データマネジメント
第2回 2019.06.18  第1回と同内容
第3回 2019.09.04 「第3章データガバナンス」「第12章 メタデータ管理」
第4回 2020.07.28 「第4章 データアーキテクチャ」「第13章 データ品質

第5回 2020.09.14  第3回と同内容
第6回 2021.03.15  第1回、第2回とほぼ同内容

第7回 2021.06.23 「第5章 データモデリング~」「第8章 データ統合~」
第8回 2021.09.15  第4回と同内容

アンケート結果

このセミナーへの参加者には毎回アンケートをお願いしています。その設問の1つに以下があります。
「セミナーの継続開催を希望する場合、ご希望のテーマを教えてください(複数選択)」
過去8回分の結果を積み重ねると以下のようになりました。

これまで、このアンケートをもとに、希望者の多いテーマを取り上げてきました。今後も希望者が多くかつまだ開催していないテーマを中心に開催を継続する予定です。

参加方法

開催の1か月程度前にはDAMA日本支部のホームページに掲載しますので、そこから申し込んでください。当初はDAMA日本支部の会員以外は有料でしたが、第4回以降、オンライン開催に切り替えたのをきっかけに全員無料での参加が可能となっています。

またDAMA日本支部の会員の方には、講義録画を無料で公開しております。過去のセミナーに参加できず、過去のセミナーを視聴したいという非会員の方は、これを機に入会をご検討いただければ幸いです。

今後の予定

詳細は未定ですが、次回は2022年の2月か3月にこれまで取り上げた実績のないテーマでの開催を検討しています。また、過去開催分の無料視聴会なども検討したいと思います。

データマネジメントの学び方 ~海外コンテンツ活用例~

今回はデータマネジメントの学び方の1つとして、DATAVERSITYの活用例を紹介したいと思います。

DATAVERSITYに関してはDAMA日本支部公式ブログの過去記事(座学でデータマネジメントを学ぶには)でも紹介されておりますので、ご存知の方もいらっしゃるかもしれませんが、データおよびデータマネジメントに関して幅広く情報が集約されている、Webベースの教育プラットフォームです。

有償で学ぶことができるトレーニングメニューに加えて、無償でも参照可能なブログやWebinarが多数公開されています。

DATAVERSITYhttps://www.dataversity.net/

この教育プラットフォームは英語で掲載されているため少しハードルが高いなと感じられている方のために、私が実際に参照してみてよいなと思った無償で閲覧できるWebinarを1つご紹介させていただきたいと思います。

DAS Webinar: Data Quality Best Practice

上記のWebinarはタイトルの通りデータ品質のベストプラクティスについて学ぶことができるWebinarです。例えば次のような要素について学ぶことができます。

  • データ品質の向上におけるビジネスルールの重要な役割
  • データ品質においてなぜビジネスルールの厳格化が重要なのか
  • データ品質の継続的改善に向けた4ステップ

データ品質に取り組む際、Null値の割合や、最大値、最小値などテクニカルな側面のアプローチに偏ることなく、ビジネスルールに主眼を置いて取り組むことの重要性について学ぶことができます。

データ品質とビジネス上のROIがどのような関係にあるのかについては、その説明に苦労されている方も多いと思いますが、具体的なユースケースも踏まえて学ぶことができるコンテンツになっていますので、データ品質の取り組みを自社内で推進していきたいと考えられている皆様の活動のヒントとしてもお役に立つ内容になっているのではないかと思います。

DMBOK2に加えて、こうしたWebinarで得られる事例や実践的な情報をかけ合わせていくことで、自社におけるデータマネジメント推進のヒントを一つでも多くつかんでいただければ幸いです。

「統制語彙」とデータモデルに関する話題(10/21(木) 10分科会を踏まえて)

10月21日(木)に開催された月次の第10分科会で話題となった「統制語彙」とデータモデルの果たす役割に関するディスカッションを取り掛かりに、今回のブログ題材として取上げる。

この回の勉強会では、4月迄に行われた第12分科会話題とDMBoK2第9章「ドキュメントとコンテンツ管理」記述内容を材料にする形で、分科会メンバ國澤氏からの話題説明および考え方を解説する形で議論が進められた(題目:「統制語彙とデータモデル」、分科会参加者14名、ZOOMオンライン方式)。

今回の話題は、概念データモデリングのアプローチが「統制語彙」(Controlled Vocabularies)を整備するために役に立つというDMBoK2の説明要素を、議論の糸口として始められた。また、同時に統制語彙を取り囲む語彙集合の位置付けとしてフォークソノミ周辺語彙を関係付けた説明があった。単にER図だけでなく用語定義等の説明情報を含めてこその本来の「データモデル」であることも話題要素となった。尚、DMBoK2第5章における概念データモデル・アプローチの基本的考え方は、エンティティ定義と意味の明確化をモデル作成上の主要要素としている点を確認しておくと議論として分かり易い。

ここで確認のためにDMBoK2(日本語版)p.173での概念モデルの説明を引用する。「概念データモデルには、関連する概念の集合体としてデータ要件の概念が取り込まれる。ここには、特定の領域や業務機能に関する基本的で重要なビジネスエンティティのみが含まれ、各エンティティの説明とエンティティ間のリレーションシップが含まれる」とある。IE表記法を用いたリレーショナル概念データモデルの例として、学校、学生、応募書類の関係をモデル化した例をこの回でも議論題材として取上げた(図1)。

図1に表される動詞句表記が必須であるかどうかについては、モデラーの立場による議論の余地があるものの、このような概念モデルを関係者間で確認し作成する中で、出現する語彙(主にエンティティ名となる語彙等)の表す意味合いが共有・図式化され、統制語彙(の候補)として用語整理する上でモデリングの役割が発揮されるという流れである。更に、この概念モデルの表す意味関係を変えずにエンティティの主キー属性を検討し、他の属性項目を加えてゆくことで次段階としての論理データモデルに落とし込むのがデータモデル詳細化の進め方となる(DMBoK2 日本語版、p.175、図48参照)。その実装に向けたモデル整備過程ではリレーショナルモデルの正規化といった要素の考慮等が必要とされるが、ここでは語彙論議から外れるためその詳細は割愛する。

当日の議論には出ていないが、筆者の立場としては、このような手続きにより統制語彙候補を抽出した後で、最終的に統制語彙としての採用要否の検討要素として、オントロジの考え方が必要になるという点をここで加えておきたい。例えば、図1の例では、「学生」という語はオントロジ視点を通せば「ロール」概念として位置付くものであり、論理モデル化でのモデル表現の仕方に影響が出ることになる(いわゆる海外で取上げられることの多いパーティモデルは、この視点での立場を取っている)。更に、用語を利用する部門によっては、同じ用語の意味使いに差異が生まれることが実務上存在する点を考慮する際には、統制語彙レイヤ(≑共通語彙)と部門用語レイヤ(部門ビューともいえる)のような階層化視点での用語整理実施という語彙設計も必要であろう。これは語彙の方言、いわば多元的フォークソノミの話題として深掘り検討すべき内容と考えられる。

DMBoK2第9章では、統制語彙の実用的な例として図書館情報分野で利用されるダブリンコア(Dublin Core)の語彙が紹介されている。日本でのこの語彙の利用状況は、国立国会図書館のダブリンコアメタデータ記述(DC-NDL)Webページで知ることができる(こちらを参照)。

統制語彙の考え方に関連した第二の話題としてここで次の補足をしたい。IPA(情報処理推進機構)の推進するIMI情報共有基盤事業(Infrastructure for Multilayer Interoperability)について簡単に触れる。これは、電子行政分野におけるオープンな利用環境整備に向けたアクションプランの一環で、データに用いる文字や用語を共通化し、情報の共有や活用を円滑に行うための基盤構築プロジェクトとして2013年を起点として計画・推進されている(※2)。これは、共通語彙基盤および文字情報基盤の2要素からなり、この中の共通語彙基盤の内容が今回の話題に関係する話題として参照できる。

このプロジェクトでは、行政分野でのデータ流通相互運用性向上を目指す中で、コア語彙およびドメイン語彙からなる語彙データベース(DB)構築が取組まれている。分科会で議論した概念データモデル作成のアプローチとは異なる方式で共通語彙の整備が行われ、2019年2月時点でコア語彙バージョン2.4.2が公開され(現時点最新)、ここでの共通語彙群の位置付けは、図2のように表現されている。

この図2での語彙階層は、以下のように説明されている。

(1)コア語彙: 分野を超えて使われる共通性のある用語(【人】【氏名】など)の集合

(2)ドメイン語彙: コア語彙の概念を継承して定義した、分野固有の用語の集合

(3)応用語彙: 現場の必要に応じ,既存の語彙を継承した独自の 語彙を定義する必要が出てくるが,これを応用語彙と呼ぶ。応用語彙は,将来,分野に共通な語彙を洗い出すなどによりドメイン 語彙へと整理されていくことを想定している。

IMI共通語彙基盤の中で定義する語彙範囲は(1)と(2)であり、現時点コア語彙(1)のうちクラス語彙約60、プロパティ語彙約250が定義されている。(2)は今後の応用分野の開発の中で(3)と共に定義してゆく領域として扱われるものと説明され、プロジェクトWebページでは現在(1)項目の共通語彙が定義公開されている。

概念モデルアプローチから抽出されるのは主にエンティティ名に関する語彙(用語)になり得ることは冒頭からの議論紹介の中で記述したが、こちらのアプローチでは、クラス語(ほぼエンティティに対応)に加えてプロパティ語(リレーショナルモデルでは属性項目に相当)が定義されている点に違いがある。これはLOD(Linked Open Data)トリブル表現からの設計アプローチでは、エンティティ(≑クラス)、属性(≑プロパティ)、インスタンス/オカレンスが区別されない形となる集合的用語認識から始まる結果、当然現れる現象といえる。このようなモデルでオントロジ言語利用(OWL:Web Ontology Language)の必要性発生とも関係している。実際、(1)で定義された語彙の実装は、XMLおよびRDF定義形式で提供されている(この語彙定義は、同プロジェクトWebサイトからダウンロードできる)。

ここで見たように、語彙定義、そして相互利用のための共通化を目的として整理する語彙種別や内容範囲に違いが現れるということは、統制語彙や共通語彙という呼び名とその整備アプローチに加えて、語彙定義を行う目的と適用方法および範囲を先だって明確化する必要があることを示唆している。更に、これに加え、複合語、部門用語、方言的使い方を設計上考慮するという点も含むべきであると筆者は考える。この辺りは、DMBoK2 日本語版pp.339-343、「1.3.2.4 用語管理」~「1.3.2.9 オントロジ」の説明内容に着目すると、より分かり易いものとなる。

このようにして整備した語彙群を共有化し、管理実現を可能にするには、参照データ、メタデータとしての管理機能群を提供することが実装の要点となる。これらについてはDMBoK2第10章「参照データとマスタデータ」、第12章「メタデータ管理」の各章に関連する考え方や情報が取上げられており、更なる興味のある方はこれらの章を参考することにしたい。その際、語彙の統制管理(開発過程での利用を含む)とビジネス利用者から見た利用語彙/用語の運営とは区別するものと捉える方が分かりやすいと考える。それは、前者は技術メタデータ用語管理、データディクショナリ管理の領域話題として扱われ、後者はグローサリー(用語辞書、ビジネス用語集、メタデータ管理の一部)の提供話題として分けて説明される傾向が高いからである。これはまた、メタモデルの作成方針とも関係する。参考に、データディクショナリとビジネス用語を分けて管理するための概念メタモデル図を図3に例示する。

またDMBoK2の上記各章中に記述されているように、語彙/用語の整理および利用検討に当たっては、同音異義語、異音同義語、同意語(シソーラス)、複合語といった見方による整理が必要である。これに加え筆者は、基本語彙の辞書だけでなく、先に述べた利用者ビュー(部門ビュー)階層の設定、用語読み仮名(英文字)の活用といった考慮点を追加することが有効であると考えている。

(以上)

※1  DMBoK2 第5章p.174 「図46 リレーショナル概念モデル」を引用

※2 詳細はIPA/IMIページを参照。 https://imi.go.jp/ (2021年10月27日時点)

※3 出典: 情報処理学会デジタルプラクティス Vol.9 No.1 (Jan. 2018)

      IMI共通語彙基盤 p.35 図1 共通語彙の3層構造

※4 以下の資料を参考に筆者作成:

  The Joint C3 Information Exchange Data Model, Metamodel

(JC3IEDM Metamodel)   V. 3.1.4, Feb. 2012,

Multilateral Interoperability Programme(MIP)

[投稿者]中岡 実(インフオラボ游悠 代表/データマネジメントコンサルタント、ITコーディネータ、PMP、認定心理士)

ADMC2021”DX推進のためのデータストラテジーとガバナンス”のご紹介

11月16日に、DAMAの日本支部主催でデータマネジメントのカンファレンス、Asian Data Management Conference 2021(以下、ADMC2021)が開催されます。
今回のブログでは、ADMC2021の概要を紹介し、データストラテジー(以下、データ戦略)とデータガバナンスがなぜDX推進に必要なのかについて、私見ですがまとめます。

Asian Data Management Conference 2021とは

ADMCは、データマネジメントの普及活動のために、2010年から毎年開催されており、今年で11回目を数えます。  
毎年、DAMA海外支部メンバによる先進事例やノウハウの共有と、国内企業の最新の取り組みを紹介しており、今年は次の内容で11月16日にオンラインで開催されます。

【テーマ】 最新事例に学ぶ DX推進のためのデータストラテジーとガバナンス  
【日時】  2021年 11月16日(火)10時~17時  
【会場】  ZOOMウェビナー  
【会費】  無料  
【講演】
1. 開催にあたってのご挨拶  
(DAMA日本支部会長 林幹高氏)
2. データガバナンスの成功要因 ―カナダにおける銀行事例― メタデータの収集、カタログ化とその普及  
(DAMAインターナショナル 理事兼Chief Privacy Officer Ron Klein氏)
3. スポンサー各社によるLightning Talk
4. 今取り組まないと置いていかれる!データコンプライアンスの最前線  
(SBIホールディングス株式会社 社長室 ビッグデータ担当次長 佐藤市雄氏)
5. データ戦略を構築する ―ビジネスゴールに沿った実践的なSTEP  
(Global Data Strategy Ltd,マネージングディレクター Donna Burbank氏)
6. DX推進を支えるデジタル事業基盤とデータガバナンス  
(株式会社日立物流 IT戦略本部副本部長兼デジタルビジネス推進部長 佐野直人氏)  
※1・4・6の国内講師による講演はリアルタイム配信ですが、2・3・5のLTと海外講師による講演は録画の配信になります。なお、2&5の海外講師講演には日本語字幕が付きます。

【申込】 https://us02web.zoom.us/webinar/register/WN_WkQkPHnXTGCJAlQekl24wA  
【その他詳細】https://www.dama-japan.org/ADMC2021.html

DX推進にデータガバナンスとデータ戦略が必要な理由

今はDXが徐々に浸透しつつある段階で、DXのための取り組みの多くが、PoCや単一の業務部門に閉じて実施されています。こうした小さな範囲では、データに関する問題・課題に目が届きやすく、関係者間で解決に向けて調整しやすいため、データガバナンスとデータ戦略の必要性はあまり認識されていません。

ただ、これからPoCが実装・運用され、複数の部門を横断したサービスとして継続することになると、データに関する問題・課題に誰が継続して携わるか役割を明確にし、どう対処するべきか方針とルールを決め、いつ実行するか計画を立てる必要がでてきます。  
このように役割とルールを決め、データが適切に管理されるようにコントロールし続ける活動が、データガバナンスです。
また、複数部門間で共通のデータ問題・課題に優先順位をつけて、いつどうやって解決するかの計画をまとめたものが、データ戦略です。
データガバナンスは、現在の統制活動がデータ戦略による計画の範囲と深さに対して過不足無いかを判断しつつ、組織全体のデータに関するリスクを軽減していきます。
データガバナンスとデータ戦略無しでデータに関わるDX事業を本格化させると、データに関する潜在的なリスクを増やし、問題が起こったときに即座に対応することができなくなるでしょう。

たとえばデータサイエンスのPoCでは、データサイエンティストがデータ品質向上のため、分析前に都度、データのクレンジングや集約などの処理を直接行います。
もしある分析のPoCが終了し、今後継続して複数部門のデータを対象に分析していくことになったら、データサイエンティストだけでデータの前処理を行うのは、負担になります(そもそもデータサイエンティストは前処理よりも分析作業に時間を割くべきですね)。
データガバナンスとして、サイエンティスト以外の誰がどうやって処理していくか、ルールを決める必要があります。もし、ビジネス側が将来分析範囲を拡大したいなら、いつまでにそのソースデータを収集できるか、事前に関係者と調整して準備しておく必要があります。早すぎず遅すぎず、適切な時期に収集開始できるように、データ戦略のなかでロードマップを描いておく必要があります。
また、DXのためのデータ利活用のため、データを収集・蓄積・連携する基盤や、部門横串の分析を実現するためのマスタデータマネジメント(MDM)基盤の構築が活発になっています。なかには、取り組み毎にこうした基盤の構築を進めてしまい、よく似た基盤が同じようなツールによって複数できてしまう企業も見受けられます。こうした基盤の乱立を防ぐためにも、中長期に渡るデータ戦略を整備しておくべきです。

まとめ

DXの試行期間が終わり、データが部門やサービスを横断して本格的に活用されていくこれからこそ、全社的なデータガバナンスとデータ戦略が必要になります。これら無しでは、データの問題・課題にすみやかに対応できず、ビジネスが要求するスピードに応えられない場面も増えてくるでしょう。
では、具体的にデータガバナンスでどんな役割とルールが必要なのか。
データ戦略では、どんな要素を考慮して計画としてまとめるのか。
具体的な中身については、本カンファレンスに参加して学んでいただけると幸いです。
そして、国内外の先進事例を参考にして、みなさんも自分の組織のデータガバナンスとデータ戦略に着手してみてください。  

【ADMC2021申込はこちらから】 https://us02web.zoom.us/webinar/register/WN_WkQkPHnXTGCJAlQekl24wA

DAMA日本支部 財務担当理事 髙橋章

DXは「保守的な考え」から生まれる

今日は、「DXは革新ではなく保守である」というお話をする。 ここで言う保守とは保守運用の保守ではなく、あくまで保守的な考えや姿勢ということである。

え?DXは革新的なことを追求する考え方ではないの?と思う方も多いと思う。

それに答える前に、そもそも革新とは何か、保守とは何かということをはっきりさせないといけないのだが、世の中には様々な定義があり困ってしまう。そこで誠に勝手ながら私なりの解釈を業務に当てはめることとする。ご容赦願いたい。

革新:
今やっていること、即ち今の業務遂行方法をガラッと変える。新しい「革新的な」製品ややり方を生み出す。市場の価値観を変える。などなど。
保守:
伝統的な価値を重視し、本当の意味や価値を追求する。今のやり方が良ければそれを踏襲する。違和感があれば変えてみる。

どうだろうか。こう書くとDXがひょっとしたら保守に近いのではないかと思い始めないだろうか(笑。まだまだしっくりこない方は続けて読み進めてほしい。

私が「DXが保守」という時に頭に浮かぶ重要なキーワードは、「価値」である。価値とは人間にとって、お客様にとって、環境や地球にとっての価値を指す。逆に今まで「価値があると思っていた」対象には実は価値がないことを発見したときに、おそらく人生は変わるし、市場も変わる。

よい例は株式市場や不動産である。

最近のニュースで、中国の不動産大手・中国恒大集団が巨額の負債を抱え、経営危機に陥っていることが報じられている。負債が30兆円を超えるまでなぜ金融機関やサプライヤーはこの会社を信頼してきたのか不思議になる。日本人の年金基金もここに投資している。もちろんこれに限らずリーマンショック、通貨危機も、信じていたものに裏切られたという意味では同じだろう。

人や市場は何を信じ、何に価値を見出すのか。非常に深く難しい問題である。悲しいことに今日の価値は明日のゴミかもしれない。

しかしいつの時代でも変わらないこと。それは「人間」にとって常に 大事なことでで、人間が持つ根本的な価値観、おそらく「人類」が生まれてから一度も変わっていないものである。

それを見失ってはいけない。

このこととDXには大いに関係がある。DXとは一見新しい価値を創造するように思えて、実は忘れられていた価値、勘違いしていた価値、操作されていた価値に対するアンチテーゼに過ぎない。今あなたが欲しいのは本当にこれですか?という「今思い込んでいる」価値に対する挑戦状である。

他の言い方をすれば、DXを推進する中で、今なぜこれに価値があると思っているのか、本当にこれに価値があるのか、なぜこの仕事をしているのか、という問いに答えていかなければならない。自問自答を繰り返すのだ。

それでは、それに答えるために何が必要なのか。実は技術でもなくスキルでもなく、正直さと勇気である。

ひょっとしたら現状を冷静に受け入れることが怖いかもしれない。見て見ないフリをしたくなるかもしれない。 それでも対象を真正面から見なければ答えは見つからない。

ここまで、データマネジメントと全く関係のない話をしてきた。ただデータマネジメントはそもそもデータの業務価値を高めるためのものであり、「価値の追求」という意味では同じである。人間や市場が求める「本来の価値」やデータが持つ「潜在的な価値」を見出して、それを再発見し活用する。これが私が冒頭で述べたある意味「保守の姿勢」と重なるのである。

【次回予告】
現状を冷静に分析し問い詰めるのに何も技術を使わないかというと、データモデリングという手法を使う。いきなりデータモデルが登場したが、私の会社ではデータモデリングを通して多くのDXが起きつつある。次回はデータモデリングからDXを起こす事例をご紹介する。

DAMA日本支部の学生会員

今回はDAMA日本支部の学生会員について書きたいと思います。

まだまだあまり利用されていないのですが、実はDAMA日本支部では学生の会員は会費無料です。支部規約ではこんな風に決められています。

———————-
8.会費
4. 個人会員の年会費を、10,000円とする。ただし、学生は無料とする。ここで言う学生とは、未就労の大学院生以下を指す。
(DAMA日本支部規約の全文はコチラ
———————-

もともとの支部規約では学生向けの優遇措置は特にありませんでした。しかし、理事会で会員のダイバーシティを促進するための議論があり、2019年度に規約が改定されました。これから社会人になっていく学生にデータマネジメントに触れる機会、「こういう分野があるんだ」と知る機会としてもっとご活用いただきたい制度です。

2020年度からプログラミング教育が小学校でも必修となりましたが、そのねらいはIT業界で働く人材を増やすというよりも、どんな職業でもITを使いながら課題解決を図る力としてプログラミング的思考を育成するというものです。
今後、どんな職業であってもデータを活用しながら課題解決をしていくと考えると、データマネジメント的な思考も間違いなく必要になってくるのはないかと思います。

以前、データガバナンスの導入にあたって、会社としてのデータに対する基本的な考え方、関係者の方向性を合わせるためにデータマネジメント方針の策定をご支援したことがあります。その方針の中では、データは自分の業務だけで使えれば良いのではなく、他の領域や横断的な判断のために活用できることを意識する、またIT側だけの話ではなく業務側も含めた話であるという考え方を込めて「データマネジメントはみんなの務めである」という趣旨の記載を含めることになりました。実際にデータマネジメント施策を推進、普及、定着させていくには専門家はもちろん、様々な立場の人が携わっていくことになります。

現在、企業等にデータマネジメントが段々と普及していっています。学生の間にこの分野に触れることによって、データマネジメントを担う人材がもっと増えていってほしいと思います。さらに将来的には専門家だけでなくデータマネジメント的な思考を持つ人が増え、組織横断的なデータマネジメント施策の推進もしやすくなっていくということを期待したいと思います。

やや話を広げすぎたかもしれませんが、もし、データマネジメントに興味がある学生のお知り合いがいらっしゃいましたら、ぜひ入会の検討を勧めていただければ幸いです。

「デジタル化」で改革ができるか?

9月1日にデジタル庁が発足され、平井卓也デジタル相の会見はじめ、華々しくメディアでも取り上げられています。
報道のされ方含めて、誰もが「徹底的にデジタル化を進める」と繰り返していますが、この認識に私は大いに違和感を覚えます。

アナログ(紙)のデジタル化(電子化)についていえば、職員のExcelだろうが、多額な国家予算が投じられ、ほぼ使われていないような行政手続きシステムだろうが、既にデジタル化(電子化)されている状態になっているのです。
問題は今やデジタル化することではなく、各行政手続きごとに縦割りの状態で構築され、メインフレーム時代の古いアーキテクチャーを見直すことなく長年場当たり的な増改築が繰り返されてきたシステムの中で”データがサイロ化”し、意味や粒度、整合性が合わない状態で分断されていることが最大の問題なのです。
適切に管理されないままに増大化の一途を遂げるデータは、複数の「系」のシステムをまたがってつなぐことができないため、手続きのたびに本人確認や同じ情報の入力を強いられ、デジタル化(電子化)すればするほど、人手のかかる照合・確認対象のデータや利活用することができないデータがさらに無尽蔵に増えていくことを強く危惧しています。

デジタル化(電子化)という手段が今後も引き続き目的化し、新たな「器(システム)」の開発・導入が進んで濫立化することにより、その結果、使えないデータがさらに増えてしまう。
この悪循環を断ち切るためには、「器(システム)」ではなく、その「中身(データ)」と向き合い、これをいかに最短距離で整備すれば利活用できるようになるかを実地にアセスメントし、それを改善していくための地道な活動計画を策定・実行していくことに他なりません。
どうしても目に見えやすい「器」をどう作るかに衆目が集まりがちになりますが、その「中身」と真摯に向き合わないと、政府が標榜する「Once,Only原則(国民・事業者が役所に一度提出した情報を他の役所が二度と求めてはならない)」などは夢のまた夢になります。

データマネジメントの普及・啓発団体であるDAMA日本支部にとっても、私が事務局長を務める(一社)日本データマネジメント・コンソーシアム[JDMC]としても、こうした問題意識をもっと世に問い、情報発信していくことが重い責務なのではないかと、デジタル庁の一連の報道を見ていて再認識した次第です。

DAMA日本支部 企画担当理事
日本データマネジメント・コンソーシアム[JDMC] 発起人 兼 事務局長
大 西 浩 史