データマネジメント知識体系(DMBOK)第9章「ドキュメントとコンテンツ管理」概説
リレーショナルデータベースに保存されないデータと情報の取得、保存、アクセス、利用の制御に焦点を当て、非構造化・半構造化情報の整合性とアクセス可能性の維持を目的とした知識。
特に法律や規制への準拠にフォーカス
1. イントロダクション
1.1 業務上の意義
規制村主、訴訟やeディスカバリ要請にこたえ、事業継続性などの招請に対応できるようにする。
組織が特定の業務活動レコードを保持することは、法律により要求されている。
レコードには神のドキュメントと電子的に保存された情報がある。
電子メール、チャット、ウェブサイト、電子ドキュメントなどのレコードや、アプリケーションの生データとメタデータを組織が管理している方法によって、組織のeディスカバリ対応能力がきまる。
ドキュメント管理の技術的進歩によって、組織の業務プロセスが合理化されドキュメント検索、アクセス、迅速な共有化を生み、ドキュメントの喪失も防げる。
eディスカバリにとって非常に重要
1.2 目的と原則
目的
非構造か形式でデータとインフォメーションを効率的かつ効果的に取得し利用できるようにする。
構造化データと非構造化データ間の統合機能を実現する。
法的義務を遵守し、顧客の期待に応える。
基本理念
組織の誰もが、組織の将来を守る役割を果たす。
レコードを作成、利用、検索、処分するときは、全員が既定のポリシーと手順に従わなければならない。
レコードとコンテンツの取り扱いに関するポリシーと計画の立案には、専門家が十分にかかわらなければならない。
規制やベストプラクティスが、業界や法的管轄によって大きく異なる可能性があるため。
一般的に認められたレコード維持管理の原則(GARP)
説明責任の原則: 組織は、上級管理職を適切な個人に割り当て、スタッフ指導方針と手順に従い、プログラム監査能力を確保しなければならない。
完全性の原則: インフォメーションガバナンスプログラムによって、組織が作成し管理するレコードと情報の信憑性と信頼性が確保されるようにする。
保護の原則: 個人情報または保護が必要な情報に対する妥当な保護レベルを達成する。
コンプライアンスの原則: 適用される法律やその他拘束力のある当局や組織の方針に準拠する。
可用性の原則: 必要な時に効率的かつ正確に検索できるように情報を維持する。
保持の原則: 運用上、法律上、規制上、財政上の要件を考慮し、該当情報を適切な期間保持する。
処分の原則: 組織の方針、適用される法律、規制、その他拘束力のある当局の指示に従って、不要になった情報を安全に廃棄する。
透明性の原則: インフォメーションガバナンスプログラムを含む、ポリシー、プロセス、アクティビティを文書化し、スタッフと適切な利害関係者がそれらを利用できるようにする 。
1.3 本質的な概念
1.3.1 コンテンツ
コンテンツとはドキュメントやウェブサイトの中に含まれるデータやインフォメーションのこと。
1.3.1.1 コンテンツ管理
コンテンツを整理・分類・構造化するプロセスや技法、技術など
1.3.1.2 コンテンツメタデータ
フォーマット、検索機能、自己文書化、既存のパターン、コンテンツのテーマ、要件
1.3.1.3 コンテンツモデリング
コンテンツが表す外苑を論理的に、コンテンツタイプ、属性、データ型に分解して、リレーションシップを持たせるプロセス。
1.3.1.4 コンテンツ配信方法
ウェブページ、印刷物、モバイルアプリなどへのプッシュ、プル、インタラクティブ
1.3.2 統制語彙
明確に許可された用語を定義したリストで、コンテンツを閲覧、検索する際に使用される。理想的には企業の概念データモデルのエンティティ名と定義に合わせる必要がある。一種の参照データであり、その値と定義の完全性と再申請を管理する必要がある。
1.3.2.4 用語管理
用語とは概念を指定する1つ以上の単語
基本語: 複数の同義語や字句の変異形が含まれた統制語彙
用語間の関係管理: 等位、階層、関連
1.3.2.5 同義語グループと典拠リスト
同義語グループは検索のためのもので、一つの用語を検索したユーザーは同等の用語に関連するコンテンツにもアクセスできる。
検索エンジンと様々なメタデータレジストリには同義語グループが存在する。
典拠リストとは、特定の分野や領域内の情報検索を容易にするために設計された記述用語の統制語彙。
各用語の同義語や変位計を相互参照して、非推奨語から基本語にユーザーを誘導する。
1.3.2.6 タクソノミ
分類や統制語彙を刺す総称。
コンテンツ管理においては、内容の概略説明用の統制語彙が含まれた命名構造であり、これによりナビゲーションと検索システムが機能する。
曖昧さが減少し、同義語を統制することができる。
様々な構造を持つことができる。
フラット、階層、高い層、ファセット型、ネットワーク型…
1.3.2.9 オントロジ
ある領域内の一連の概念とその関係を表すタクソノミの一種
クラス、ここの実態、属性、関係、イベントを記述する。
知識を表現し、情報交換を行うための共通語彙で構成されるタクソノミとシソーラスの集合である。
タクソノミとの違い
タクソノミは特定概念領域のデータコンテンツ鵜を分類する方法
オントロジーはエンティティ、属性、コンテンツの概念を完全に混合できる。
タクソノミは閉世界仮説。
オントロジーは開世界仮説。
RDFS (Resource Description Framework Schema) などのオントロジ言語は、その知識処理に対応するための推論規則を含むことができる。
RDFSの拡張であるWOL (Web Ontology Language) はオントロジを定義する正式構文である。
1.3.3 ドキュメントとレコード
電子または神のオブジェクトであり、その中にはタスクの指示、決定事項のログなどが含まれ、情報や知識を伝え、共有することができる。
ドキュメントの一部のみがレコードとして指定され、ある措置が取られ、決定が手順に従って行われたことの証拠となる。
1.3.3.1 ドキュメント管理
目録管理、ポリシー、分類、ストレージ、検索と配布、保存と廃棄
1.3.3.2 レコード管理
レコードは物理的、電子的、データベース上にあるデータなどの場合がある
レコードの特性: コンテンツ、コンテキスト、即時性、永続性、構造
1.3.3.3 デジタル資産管理
ビデオ、ロゴ、写真などのリッチメディアドキュメントの保存、追跡、利用
1.3.5 eディスカバリ
ディスカバリは法律用語で、後半の事例段階において両当事者が訴訟に関する事実をつかみ、どちらの意見がどれほど強力であるかを知るために、お互いの情報を要求することを示す。
1.3.6 インフォメーションアーキテクチャ
インフォメーションやコンテンツ本体の構造を作成するプロセス。以下のコンポーネントが含まれている。
統制語彙
タクソノミとオントロジー
ナビゲーションマップ
検索機能仕様
ユースケース
ユーザーフロー
1.3.8 意味的モデル
概念のネットワークとそのリレーションを記述す知識モデリングの一種
意味的モデルには意味的オブジェクトとバインディングが含まれる。
意味的オブジェクトはカーでぃなりてぃとドメイン、および識別子を持つ属性を持つことができる。
その構造には、シンプル、コンポジット、複合、ハイブリット、関連付け、親 / サブタイプ、アーキタイプ / バージョンなどがある。
バインディングとはUMLで使われるアソシエーションやアソシエーションクラスを表す。
このモデルは、パターンや傾向をつかみ、一見違うものに見える情報館の関係を発見するのに役立つ。
オントロジと統制語彙は、意味論的モデリングにとって重要である。データ統合には、いくつかの異なる方法でオントロジが使用される。
参考: Knowledge Graph
意味的モデルの一種にKnowledge Graphがある。
データ間の意味的な関係をネットワークとして表現したもので、エンティティ(物や概念)とそれらの属性、エンティティ間の関係を構造化し、データの意味論的な理解を可能にする。
つまり、Knowledge Graphはデータの意味と文脈を理解するための豊富な情報を提供を可能にし、ChatGPTなどの生成AIはこれを利用することで、より文脈に沿った回答やコンテンツを生成できるようになる。
1.3.9 意味検索
意味検索は所定のキーワードではなく、意味と文章に焦点を当てる
意味的検索エンジンは、人工知能を使用して、単語や文脈に基づいて検索の一致を識別することができる。
そのような検索エンジンには位置情報、ユーザーの糸、単語の変異形、同義語、概念まっちぐによる分析機能が備わっている。
意味的キーワードには変位計を不育むコアキーワード、主題に概念的な関係を持つキーワード、人々が聞くと予想される語幹キーワードなどがある。
1.3.10 非構造化データ
全保全データの80%藻がリレーショナルデータベースの外で維持されていると推定される。
ユーザーがコンテンツやその構成方法を理解するためのデータモデルがないものが非構造化データである。
これらの中には非テーブル型夜半構造化データとして言及されるものがあるが、今日の世界で精製、保存される膨大な量の電子情報は多様な形式を持つので、構造化されていないという一つの単語で適切に記述することはできない。
データマネジメントの基本原則は、構造化データと非構造化データの両方に適用される。
ストレージ、完全性、セキュリティ、コンテンツ品質、アクセス、効果的利用に関して管理を行う。
データガバナンス、アーキテクチャ、セキュリティ、メタデータ、データ品質が必要。
2. アクティビティ
2.1 ライフサイクル管理計画
ドキュメント管理工程には、作成、受領から、配布、保管、検索、アーカイブ、将来的な破棄の可能性に至るまでのライフサイクル計画が含まれる。
2.2 ライフサイクル管理
2.2.1 レコードとコンテンツの収集
コンテンツを収集するときは、少なくともドキュメントや画像の識別し、収集した日時、タイトルと作者など、適切なメタデータでタグ付けする。
つまりカタログ化するということ
2.2.2 バージョン管理と統制
正式版の統制、改訂版の統制、保存版の統制
2.2.3 バックアップと復元
ドキュメント / レコード管理システムは、事業継続や災害復旧計画を含む。
2.2.4 保持・廃棄管理
保持・廃棄ポリシーでは、運用上、法律上、財務上、履歴管理上の価値を記述したドキュメント維持期間が定義される。
2.2.5 ドキュメント / レコードの監査
意思決定や業務活動のために、適切な情報が適時、適切な人に届くように、定期的な監査が必要。
2.3 コンテンツの発行と配信
2.3.1 アクセス、検索、抽出機能
コンテンツがメタデータ / キーワード・タグ付けによって記述され、適切な情報コンテンツ・アーキテクチャ内に分類されて初めて、検索と利用が可能になる。
2.3.2 受け入れ可能な方法で配信する
コンテンツのユーザーは、選択したデバイスでコンテンツを取得して利用したいと考えているので、配信方法への期待が変化している。
データベースにある構造化データをHTML形式にしてしまうと、データと表現形式に分離することが必ずしも容易ではないため、元の構造化データを復元することは困難になる。
3. ツール
3.1 エンタープライズコンテンツ管理システム
3.1.1 ドキュメント管理
ドキュメント管理システムは、電子ドキュメントやハードコピーのスキャン画像を追跡し格納するために使用される。
3.1.1.1 デジタル資産管理
オーディオ、ビデオ、音楽、デジタル写真資産の管理3.1.1.2 画像処理
紙や電子ドキュメントの画像を取り込み、返還し管理する。3.1.1.3 レコード管理システム
保存と廃棄の自動化、eディスカバリのサポート、法的規制要件を満たすための長期アーカイブなどの機能に対応
3.1.2 コンテンツ管理システム
要素間のリンクを維持しながらコンテンツを収集、整理、索引付け、検索を行い、ドキュメントすべてまたはその一部を格納するために使用
3.5 eディスカバリ技術
eディスカバリでは、大量のドキュメントのレビューが必要になることがよくある
eディスカバリ技術は、訴訟の初期段階評価、収集、識別、保全、処理、OCR、淘汰、類似性分析、電子メールスレッド分析など多くの機能と技術を提供する。
テクノロジ支援型レビューはチームが該当するドキュメントをレビューして関連性の有無を決めていくワークフローまたはプロセス
ここでの決定が予測符号化エンジンの入力となり、関連性に従って残りのドキュメントがレビューされ分類される。
インフォメーションガバナンスの手助けにも技術である。
4. 技法
4.1 訴訟対応戦略シナリオ
eディスカバリは訴訟開始とともにスタートする
しかし組織は主要なディスカバリプロジェクトが始まる前に目的、指標、責任を含むシナリオを作成して、訴訟対応をあらかじめ計画することができる。
この戦略シナリオは、eディスカバリの対象となる環境を定義し、現状と対照環境の間にギャップが存在するかどうかを評価する。
4.2 訴訟対応データマップ
eディスカバリには、限られた騎亜kンが設けられることが多い。
弁護士にITやESI環境のデータマップを提供することにより、組織はより効率的に対応することができる。
データマップは、すべてのシステムを含む包括的でなkれ羽ならない。
メタデータは検索に非常に重要。
5. 導入ガイドライン
エンタープライズコンテンツ管理を実現するには長期的な努力が必要であり、高価なものと認識されるかもしれない。企業全体の取り組みと同時に、幅広いステークホルダーから受け入れられ、執行委員会からの資金援助を受ける必要がある。
6. ドキュメントとコンテンツガバナンス
6.1 インフォメーションガバナンス・フレームワーク
ドキュメント、レコードやその他非構造化コンテンツは、組織にとってリスクとなる。
このリスクを管理し、これらの情報から価値を得るにはガバナンスが必要である。
法令及び規制遵守
正当なレコード処分
eディスカバリのための積極的な準備
機密情報に対するセキュリティ
電子メールやビッグデータなど、リスクとなる領域の管理
6.2 情報の普及
一般に、非構造化データは構造化データよりもはるかに速く増加し、これがガバナンス上の課題になる。
その所有権を確認するのはむずか催区、コンテンツの業務目的が使用されるシステムから常に確認できるとは限らず分類することも難しい。
必要なメタデータが管理されていない非構造化データはリスクになる。
6.3 コンテンツ品質のガバナンス
非構造化データを管理するには、データスチュワードと他のデータマネジメント・プロフェッショナルに加え、レコード管理者との効果的なパートナーシップが必要である。
こう瀕す津のコンテンツを明確にするためには、作成時と利用時の背景を理解する必要がる。
6.4 評価尺度
KPIとは目標に対する組織の業績を評価するために使用される定量的及び鄭瀬的尺度で、戦略レベルと運用レベルがある。
6.4.1 レコード管理
企業レコードとして識別されたユーザー当たりのドキュメント数と電子メールの割合。
企業が申告し、レコード管理下に置き、特定した企業レコードの割合。
適切な保存ルールがてっ起用されている保存済みレコードの割合。
6.2.4 eディスカバリ
コスト削減、eディスカバリ要求が満たされる平均日数、…。
6.4.3 エンタープライズコンテンツ管理
生産性の向上、コストの削減、情報品質の向上、コンプライアンスの向上。
コラボレーションの改善、定型業務やワークフローの簡素化。
エンタープライズコンテンツ管理プロジェクトの数、採用率、ユーザー満足度、…。