Read Book: Data Governance: The Definitive Guide
タイトルの通り、データガバナンスについて、定義からポリシーやプロセスの構築、そしてそれらの組織への定着まで 全体像を解説する一冊です。 社内で読んだ数名の評判がよさそうだったのと、最近データガバナンス関連の開発に触れる機会が増えてきているので、 知識の獲得と整理のために読みました。以下読書メモです。
データガバナンスの重要性
現代では企業活動において、コンピュータによるデジタルデータ活用は切っても切り離せないものとなっています。 デジタルデータ活用が一般的になるにつれ、個人情報など繊細なデータの扱いを規定する法制の整備が急速に進んでおり、 California Consumer Privacy Act (CCPA), General Data Protection Regulation (GDPR)などといった、 その地域における全ての企業が対象となる規制が設けられてきました。 今後、他の地域でも同様の規制が導入されることが予想され、全ての企業にデータを正しく扱う義務が課される時代を迎えています。 規制を遵守する仕組みとして、データガバナンスの重要性が高まっています。 データガバナンスとは、企業活動に用いられるデータの可用性、有用性、完全性やセキュリティの管理を指します。
データ分類付けについて
データガバナンスにおいてまず重要となるのは、データの分類付けです。 データに対して、適切なアクセスコントロールやセキュリティを実施するために、各データの性質を確認し、 ラベル付けや分類が必要となります。 データクラスやその取り扱いを定義するポリシー辞書を策定し、全てのデータに適用します。
データの分類付けは、Data stewardによって担われますが、この作業は各データの特性を精査する必要があるため、 自動化が難しく、多くの場合手作業による時間のかかる作業となります。 また、新しいデータアセットが増えたり、法制の更新などに応じても、分類が必要となるため、継続的な作業が生じます。 企業によっては、フルタイムのData stewardを設けるというケースもあるようです。
データポリシー
データポリシーは、データの分類に対して設定され、その分類のデータのコントロールを規定します。 データポリシーには主に以下の情報が含まれます。
- 誰がデータへのアクセス権を持つか
- データの保持期間
- データを保管する場所(国や地域)に関する制約
- データの利用用途(分析やMLへの使用可否)
アクセスコントロールとして、誰がアクセス権を持つかに加えて、データの利用用途の制約も管理するべきであるという点は 新たな発見でした。(例えば商品の発送作業への利用は可だが、分析用途での利用不可など) 利用用途の制約については、ユーザー認可などと違って、システマティックにルール適用するのが難しそうという印象です。 分析プラットフォームへのデータ移動の禁止など、その組織のもつシステムの枠組みで制約を課す仕組みを考える必要がありそうです。
Data Catalog / Discovery / Metadata management / Lineage
データガバナンスが注目を集めるきっかけとなったのは、規制の強化に端を発したかと思いますが、 法令遵守以外にもよいデータガバナンスを構築することにはメリットがありそうです。
例えば、データの所在や発生元に関する情報が明確化、一覧化されることで、より多くの人がデータの存在を知り、 活用を促進する効果が見込まれます。また、正確性、完全性、リアルタイム性などが明確に管理されることによって、 データ分析を始める前のデータ品質の確保、確認の作業時間を短縮なども期待できます。
Data Catalogの整備が進むにつれ、各データの特性(データソースの母集団の説明など)や品質(更新頻度、平均欠損率など) といった情報を加えることで、さらに組織内でのデータ理解が深められそうです。
まとめ
組織にデータガバナンスを有機的に導入するためには、データポリシーの策定からツールの導入、 プロセスの構築、運用、継続的なアップデート、組織内での教育や啓蒙、さらにはデータガバナンスに対する カルチャーの構築まで多くの労力が必要となります。ただその結果として、法令遵守による企業価値の向上だけでなく、 データ利活用の推進といった大きなメリットを享受することも可能となります。 データガバナンスの全体像を理解するための文献としてよい一冊でした。