「統制語彙」とデータモデルに関する話題(10/21(木) 10分科会を踏まえて)

10月21日(木)に開催された月次の第10分科会で話題となった「統制語彙」とデータモデルの果たす役割に関するディスカッションを取り掛かりに、今回のブログ題材として取上げる。

この回の勉強会では、4月迄に行われた第12分科会話題とDMBoK2第9章「ドキュメントとコンテンツ管理」記述内容を材料にする形で、分科会メンバ國澤氏からの話題説明および考え方を解説する形で議論が進められた(題目:「統制語彙とデータモデル」、分科会参加者14名、ZOOMオンライン方式)。

今回の話題は、概念データモデリングのアプローチが「統制語彙」(Controlled Vocabularies)を整備するために役に立つというDMBoK2の説明要素を、議論の糸口として始められた。また、同時に統制語彙を取り囲む語彙集合の位置付けとしてフォークソノミ周辺語彙を関係付けた説明があった。単にER図だけでなく用語定義等の説明情報を含めてこその本来の「データモデル」であることも話題要素となった。尚、DMBoK2第5章における概念データモデル・アプローチの基本的考え方は、エンティティ定義と意味の明確化をモデル作成上の主要要素としている点を確認しておくと議論として分かり易い。

ここで確認のためにDMBoK2(日本語版)p.173での概念モデルの説明を引用する。「概念データモデルには、関連する概念の集合体としてデータ要件の概念が取り込まれる。ここには、特定の領域や業務機能に関する基本的で重要なビジネスエンティティのみが含まれ、各エンティティの説明とエンティティ間のリレーションシップが含まれる」とある。IE表記法を用いたリレーショナル概念データモデルの例として、学校、学生、応募書類の関係をモデル化した例をこの回でも議論題材として取上げた(図1)。

図1に表される動詞句表記が必須であるかどうかについては、モデラーの立場による議論の余地があるものの、このような概念モデルを関係者間で確認し作成する中で、出現する語彙(主にエンティティ名となる語彙等)の表す意味合いが共有・図式化され、統制語彙(の候補)として用語整理する上でモデリングの役割が発揮されるという流れである。更に、この概念モデルの表す意味関係を変えずにエンティティの主キー属性を検討し、他の属性項目を加えてゆくことで次段階としての論理データモデルに落とし込むのがデータモデル詳細化の進め方となる(DMBoK2 日本語版、p.175、図48参照)。その実装に向けたモデル整備過程ではリレーショナルモデルの正規化といった要素の考慮等が必要とされるが、ここでは語彙論議から外れるためその詳細は割愛する。

当日の議論には出ていないが、筆者の立場としては、このような手続きにより統制語彙候補を抽出した後で、最終的に統制語彙としての採用要否の検討要素として、オントロジの考え方が必要になるという点をここで加えておきたい。例えば、図1の例では、「学生」という語はオントロジ視点を通せば「ロール」概念として位置付くものであり、論理モデル化でのモデル表現の仕方に影響が出ることになる(いわゆる海外で取上げられることの多いパーティモデルは、この視点での立場を取っている)。更に、用語を利用する部門によっては、同じ用語の意味使いに差異が生まれることが実務上存在する点を考慮する際には、統制語彙レイヤ(≑共通語彙)と部門用語レイヤ(部門ビューともいえる)のような階層化視点での用語整理実施という語彙設計も必要であろう。これは語彙の方言、いわば多元的フォークソノミの話題として深掘り検討すべき内容と考えられる。

DMBoK2第9章では、統制語彙の実用的な例として図書館情報分野で利用されるダブリンコア(Dublin Core)の語彙が紹介されている。日本でのこの語彙の利用状況は、国立国会図書館のダブリンコアメタデータ記述(DC-NDL)Webページで知ることができる(こちらを参照)。

統制語彙の考え方に関連した第二の話題としてここで次の補足をしたい。IPA(情報処理推進機構)の推進するIMI情報共有基盤事業(Infrastructure for Multilayer Interoperability)について簡単に触れる。これは、電子行政分野におけるオープンな利用環境整備に向けたアクションプランの一環で、データに用いる文字や用語を共通化し、情報の共有や活用を円滑に行うための基盤構築プロジェクトとして2013年を起点として計画・推進されている(※2)。これは、共通語彙基盤および文字情報基盤の2要素からなり、この中の共通語彙基盤の内容が今回の話題に関係する話題として参照できる。

このプロジェクトでは、行政分野でのデータ流通相互運用性向上を目指す中で、コア語彙およびドメイン語彙からなる語彙データベース(DB)構築が取組まれている。分科会で議論した概念データモデル作成のアプローチとは異なる方式で共通語彙の整備が行われ、2019年2月時点でコア語彙バージョン2.4.2が公開され(現時点最新)、ここでの共通語彙群の位置付けは、図2のように表現されている。

この図2での語彙階層は、以下のように説明されている。

(1)コア語彙: 分野を超えて使われる共通性のある用語(【人】【氏名】など)の集合

(2)ドメイン語彙: コア語彙の概念を継承して定義した、分野固有の用語の集合

(3)応用語彙: 現場の必要に応じ,既存の語彙を継承した独自の 語彙を定義する必要が出てくるが,これを応用語彙と呼ぶ。応用語彙は,将来,分野に共通な語彙を洗い出すなどによりドメイン 語彙へと整理されていくことを想定している。

IMI共通語彙基盤の中で定義する語彙範囲は(1)と(2)であり、現時点コア語彙(1)のうちクラス語彙約60、プロパティ語彙約250が定義されている。(2)は今後の応用分野の開発の中で(3)と共に定義してゆく領域として扱われるものと説明され、プロジェクトWebページでは現在(1)項目の共通語彙が定義公開されている。

概念モデルアプローチから抽出されるのは主にエンティティ名に関する語彙(用語)になり得ることは冒頭からの議論紹介の中で記述したが、こちらのアプローチでは、クラス語(ほぼエンティティに対応)に加えてプロパティ語(リレーショナルモデルでは属性項目に相当)が定義されている点に違いがある。これはLOD(Linked Open Data)トリブル表現からの設計アプローチでは、エンティティ(≑クラス)、属性(≑プロパティ)、インスタンス/オカレンスが区別されない形となる集合的用語認識から始まる結果、当然現れる現象といえる。このようなモデルでオントロジ言語利用(OWL:Web Ontology Language)の必要性発生とも関係している。実際、(1)で定義された語彙の実装は、XMLおよびRDF定義形式で提供されている(この語彙定義は、同プロジェクトWebサイトからダウンロードできる)。

ここで見たように、語彙定義、そして相互利用のための共通化を目的として整理する語彙種別や内容範囲に違いが現れるということは、統制語彙や共通語彙という呼び名とその整備アプローチに加えて、語彙定義を行う目的と適用方法および範囲を先だって明確化する必要があることを示唆している。更に、これに加え、複合語、部門用語、方言的使い方を設計上考慮するという点も含むべきであると筆者は考える。この辺りは、DMBoK2 日本語版pp.339-343、「1.3.2.4 用語管理」~「1.3.2.9 オントロジ」の説明内容に着目すると、より分かり易いものとなる。

このようにして整備した語彙群を共有化し、管理実現を可能にするには、参照データ、メタデータとしての管理機能群を提供することが実装の要点となる。これらについてはDMBoK2第10章「参照データとマスタデータ」、第12章「メタデータ管理」の各章に関連する考え方や情報が取上げられており、更なる興味のある方はこれらの章を参考することにしたい。その際、語彙の統制管理(開発過程での利用を含む)とビジネス利用者から見た利用語彙/用語の運営とは区別するものと捉える方が分かりやすいと考える。それは、前者は技術メタデータ用語管理、データディクショナリ管理の領域話題として扱われ、後者はグローサリー(用語辞書、ビジネス用語集、メタデータ管理の一部)の提供話題として分けて説明される傾向が高いからである。これはまた、メタモデルの作成方針とも関係する。参考に、データディクショナリとビジネス用語を分けて管理するための概念メタモデル図を図3に例示する。

またDMBoK2の上記各章中に記述されているように、語彙/用語の整理および利用検討に当たっては、同音異義語、異音同義語、同意語(シソーラス)、複合語といった見方による整理が必要である。これに加え筆者は、基本語彙の辞書だけでなく、先に述べた利用者ビュー(部門ビュー)階層の設定、用語読み仮名(英文字)の活用といった考慮点を追加することが有効であると考えている。

(以上)

※1  DMBoK2 第5章p.174 「図46 リレーショナル概念モデル」を引用

※2 詳細はIPA/IMIページを参照。 https://imi.go.jp/ (2021年10月27日時点)

※3 出典: 情報処理学会デジタルプラクティス Vol.9 No.1 (Jan. 2018)

      IMI共通語彙基盤 p.35 図1 共通語彙の3層構造

※4 以下の資料を参考に筆者作成:

  The Joint C3 Information Exchange Data Model, Metamodel

(JC3IEDM Metamodel)   V. 3.1.4, Feb. 2012,

Multilateral Interoperability Programme(MIP)

[投稿者]中岡 実(インフオラボ游悠 代表/データマネジメントコンサルタント、ITコーディネータ、PMP、認定心理士)

ADMC2021”DX推進のためのデータストラテジーとガバナンス”のご紹介

11月16日に、DAMAの日本支部主催でデータマネジメントのカンファレンス、Asian Data Management Conference 2021(以下、ADMC2021)が開催されます。
今回のブログでは、ADMC2021の概要を紹介し、データストラテジー(以下、データ戦略)とデータガバナンスがなぜDX推進に必要なのかについて、私見ですがまとめます。

Asian Data Management Conference 2021とは

ADMCは、データマネジメントの普及活動のために、2010年から毎年開催されており、今年で11回目を数えます。  
毎年、DAMA海外支部メンバによる先進事例やノウハウの共有と、国内企業の最新の取り組みを紹介しており、今年は次の内容で11月16日にオンラインで開催されます。

【テーマ】 最新事例に学ぶ DX推進のためのデータストラテジーとガバナンス  
【日時】  2021年 11月16日(火)10時~17時  
【会場】  ZOOMウェビナー  
【会費】  無料  
【講演】
1. 開催にあたってのご挨拶  
(DAMA日本支部会長 林幹高氏)
2. データガバナンスの成功要因 ―カナダにおける銀行事例― メタデータの収集、カタログ化とその普及  
(DAMAインターナショナル 理事兼Chief Privacy Officer Ron Klein氏)
3. スポンサー各社によるLightning Talk
4. 今取り組まないと置いていかれる!データコンプライアンスの最前線  
(SBIホールディングス株式会社 社長室 ビッグデータ担当次長 佐藤市雄氏)
5. データ戦略を構築する ―ビジネスゴールに沿った実践的なSTEP  
(Global Data Strategy Ltd,マネージングディレクター Donna Burbank氏)
6. DX推進を支えるデジタル事業基盤とデータガバナンス  
(株式会社日立物流 IT戦略本部副本部長兼デジタルビジネス推進部長 佐野直人氏)  
※1・4・6の国内講師による講演はリアルタイム配信ですが、2・3・5のLTと海外講師による講演は録画の配信になります。なお、2&5の海外講師講演には日本語字幕が付きます。

【申込】 https://us02web.zoom.us/webinar/register/WN_WkQkPHnXTGCJAlQekl24wA  
【その他詳細】https://www.dama-japan.org/ADMC2021.html

DX推進にデータガバナンスとデータ戦略が必要な理由

今はDXが徐々に浸透しつつある段階で、DXのための取り組みの多くが、PoCや単一の業務部門に閉じて実施されています。こうした小さな範囲では、データに関する問題・課題に目が届きやすく、関係者間で解決に向けて調整しやすいため、データガバナンスとデータ戦略の必要性はあまり認識されていません。

ただ、これからPoCが実装・運用され、複数の部門を横断したサービスとして継続することになると、データに関する問題・課題に誰が継続して携わるか役割を明確にし、どう対処するべきか方針とルールを決め、いつ実行するか計画を立てる必要がでてきます。  
このように役割とルールを決め、データが適切に管理されるようにコントロールし続ける活動が、データガバナンスです。
また、複数部門間で共通のデータ問題・課題に優先順位をつけて、いつどうやって解決するかの計画をまとめたものが、データ戦略です。
データガバナンスは、現在の統制活動がデータ戦略による計画の範囲と深さに対して過不足無いかを判断しつつ、組織全体のデータに関するリスクを軽減していきます。
データガバナンスとデータ戦略無しでデータに関わるDX事業を本格化させると、データに関する潜在的なリスクを増やし、問題が起こったときに即座に対応することができなくなるでしょう。

たとえばデータサイエンスのPoCでは、データサイエンティストがデータ品質向上のため、分析前に都度、データのクレンジングや集約などの処理を直接行います。
もしある分析のPoCが終了し、今後継続して複数部門のデータを対象に分析していくことになったら、データサイエンティストだけでデータの前処理を行うのは、負担になります(そもそもデータサイエンティストは前処理よりも分析作業に時間を割くべきですね)。
データガバナンスとして、サイエンティスト以外の誰がどうやって処理していくか、ルールを決める必要があります。もし、ビジネス側が将来分析範囲を拡大したいなら、いつまでにそのソースデータを収集できるか、事前に関係者と調整して準備しておく必要があります。早すぎず遅すぎず、適切な時期に収集開始できるように、データ戦略のなかでロードマップを描いておく必要があります。
また、DXのためのデータ利活用のため、データを収集・蓄積・連携する基盤や、部門横串の分析を実現するためのマスタデータマネジメント(MDM)基盤の構築が活発になっています。なかには、取り組み毎にこうした基盤の構築を進めてしまい、よく似た基盤が同じようなツールによって複数できてしまう企業も見受けられます。こうした基盤の乱立を防ぐためにも、中長期に渡るデータ戦略を整備しておくべきです。

まとめ

DXの試行期間が終わり、データが部門やサービスを横断して本格的に活用されていくこれからこそ、全社的なデータガバナンスとデータ戦略が必要になります。これら無しでは、データの問題・課題にすみやかに対応できず、ビジネスが要求するスピードに応えられない場面も増えてくるでしょう。
では、具体的にデータガバナンスでどんな役割とルールが必要なのか。
データ戦略では、どんな要素を考慮して計画としてまとめるのか。
具体的な中身については、本カンファレンスに参加して学んでいただけると幸いです。
そして、国内外の先進事例を参考にして、みなさんも自分の組織のデータガバナンスとデータ戦略に着手してみてください。  

【ADMC2021申込はこちらから】 https://us02web.zoom.us/webinar/register/WN_WkQkPHnXTGCJAlQekl24wA

DAMA日本支部 財務担当理事 髙橋章

DXは「保守的な考え」から生まれる

今日は、「DXは革新ではなく保守である」というお話をする。 ここで言う保守とは保守運用の保守ではなく、あくまで保守的な考えや姿勢ということである。

え?DXは革新的なことを追求する考え方ではないの?と思う方も多いと思う。

それに答える前に、そもそも革新とは何か、保守とは何かということをはっきりさせないといけないのだが、世の中には様々な定義があり困ってしまう。そこで誠に勝手ながら私なりの解釈を業務に当てはめることとする。ご容赦願いたい。

革新:
今やっていること、即ち今の業務遂行方法をガラッと変える。新しい「革新的な」製品ややり方を生み出す。市場の価値観を変える。などなど。
保守:
伝統的な価値を重視し、本当の意味や価値を追求する。今のやり方が良ければそれを踏襲する。違和感があれば変えてみる。

どうだろうか。こう書くとDXがひょっとしたら保守に近いのではないかと思い始めないだろうか(笑。まだまだしっくりこない方は続けて読み進めてほしい。

私が「DXが保守」という時に頭に浮かぶ重要なキーワードは、「価値」である。価値とは人間にとって、お客様にとって、環境や地球にとっての価値を指す。逆に今まで「価値があると思っていた」対象には実は価値がないことを発見したときに、おそらく人生は変わるし、市場も変わる。

よい例は株式市場や不動産である。

最近のニュースで、中国の不動産大手・中国恒大集団が巨額の負債を抱え、経営危機に陥っていることが報じられている。負債が30兆円を超えるまでなぜ金融機関やサプライヤーはこの会社を信頼してきたのか不思議になる。日本人の年金基金もここに投資している。もちろんこれに限らずリーマンショック、通貨危機も、信じていたものに裏切られたという意味では同じだろう。

人や市場は何を信じ、何に価値を見出すのか。非常に深く難しい問題である。悲しいことに今日の価値は明日のゴミかもしれない。

しかしいつの時代でも変わらないこと。それは「人間」にとって常に 大事なことでで、人間が持つ根本的な価値観、おそらく「人類」が生まれてから一度も変わっていないものである。

それを見失ってはいけない。

このこととDXには大いに関係がある。DXとは一見新しい価値を創造するように思えて、実は忘れられていた価値、勘違いしていた価値、操作されていた価値に対するアンチテーゼに過ぎない。今あなたが欲しいのは本当にこれですか?という「今思い込んでいる」価値に対する挑戦状である。

他の言い方をすれば、DXを推進する中で、今なぜこれに価値があると思っているのか、本当にこれに価値があるのか、なぜこの仕事をしているのか、という問いに答えていかなければならない。自問自答を繰り返すのだ。

それでは、それに答えるために何が必要なのか。実は技術でもなくスキルでもなく、正直さと勇気である。

ひょっとしたら現状を冷静に受け入れることが怖いかもしれない。見て見ないフリをしたくなるかもしれない。 それでも対象を真正面から見なければ答えは見つからない。

ここまで、データマネジメントと全く関係のない話をしてきた。ただデータマネジメントはそもそもデータの業務価値を高めるためのものであり、「価値の追求」という意味では同じである。人間や市場が求める「本来の価値」やデータが持つ「潜在的な価値」を見出して、それを再発見し活用する。これが私が冒頭で述べたある意味「保守の姿勢」と重なるのである。

【次回予告】
現状を冷静に分析し問い詰めるのに何も技術を使わないかというと、データモデリングという手法を使う。いきなりデータモデルが登場したが、私の会社ではデータモデリングを通して多くのDXが起きつつある。次回はデータモデリングからDXを起こす事例をご紹介する。