DMBOK【データ統合と相互運用性】わかりやすいまとめ
とある社畜のDX担当、いねおけです。
今回のテーマは
DMBOKで紹介されている11の知識領域の中から「データ統合と相互運用性」の概要について御紹介します。
データ活用こそDXのキモだと言えますが、データをただ取り貯めるだけでは活用できません。生ログを各自が参照する様な非効率な管理ではなく、使いやすく、一元化されたデータを、ビジネスサイドの人員に提供しましょう。
データ統合と相互運用性とは
データ統合と相互運用性について、DMBOKでは下記の通り定義されています。
データ統合と相互運用性は、データストア、アプリケーション、組織などの内部とそれらの相互間で実行される、データの移動と統合に関するプロセスを表している。
簡単に表現すると「データをスムーズに使える形で連携し管理・運用すること」です。
単にデータのハブシステムを作れば良いという事ではなく、全社視点で統合されたデータ設計に基づくフォーマットを用意して、周辺システムへ整合の取れたデータを提供する必要があります。
データ連携
データ連携の観点ではETLという、データ移動のプロセスが重要な役割を果たします。
- 抽出(Extract)
- 変換(Transform)
- 取り込み(Load)
毎日のビジネス活動を積み重ねる上で、多種多様なデータが、様々な粒度で、色々なデータソースに溜まっていきます。例えば、顧客の個人情報データ、顧客のトランザクションデータ、webサイトのログデータなどが該当するでしょう。
このようなデータの生ログに、ビジネスサイドの社員が直接アクセスするというのは効率が良くありません。集計・分析・可視化するのに効率が悪く、データ分析のスピードや精度・方向性にばらつきが生じ、充分にデータを活用できないことが想像できます。
色々なデータソースから汚いデータをとってきて、各自で試行錯誤して集計するのではなく、ETLの運用をすることで、1つのデータソースに一元化された状態で、使いやすい形でデータを提供することが重要です。
データ構造の設計
データは、種類や発生源毎に適切な管理方法が変わってきます。
例えば、通販サイトのweb会員を想像してください。
ユーザー向けのメールマガジンを送る際に、メールマガジンを「受取許可設定にしているか、拒否設定にしているか」のデータをどう取り扱うかを考えてみます。
メールマガジンの送信・未送信を管理するだけであれば、ユーザーの現在の設定状況だけを参照すれば問題ありません。この場合、受取設定データは上書き更新で問題ないでしょう。
一方で、ユーザーがメールマガジンの受取を拒否するのを防ぐ為にどういう行動をするとメールマガジンが拒否されやすいか、という分析をしたい場合はどうでしょうか。
現在の設定データのみでは、この様な行動分析はできません。いつまで受取許可設定で、いつから受取拒否設定にかわったのかが時系列で分かる様に、データを追加保存する必要があります。
データを追加保存する後者の方式では、保管するデータの容量が大きくなり、管理コストも増大します。ビジネス要件から適切な管理方法を定めることが重要になるのです。
まとめ
データ統合と相互運用性とは「データをスムーズに使える形に連携し管理・運用すること」です。
データ移動のプロセスは、抽出(Extract)、変換(Transform)、取り込み(Load)にわかれており、それらをETLと呼びます。データを適切に移動させることで、使いやすい、一元化されたデータソースを提供することが重要です。
ビジネスにおいて必要なデータの粒度や管理方法は変わります。それぞれの要件に合わせて最適なデータ管理と運用を実施しましょう。
【DMBOK】11の知識領域から「データマネジメント」を理解する
コチラの記事では、DMBOKの全体像を紹介しています。合わせて確認してみてください。
その他のオススメ記事
「DXについてもっと学ぶ・学んでもらう為の記事」はコチラから、
ぜひ参考にしてみてください。
最後まで読んでいただき、ありがとうございました。