データ漏洩防止用カスタムデータタイプの操作

この記事では、DLPポリシーのために、組織の中で機密データを識別するためのカスタムデータ型を作成する方法を説明します。

CatoカスタムDLPデータタイプの概要

Catoは、典型的なDLPポリシーのシナリオに対応する数百の事前定義されたデータ型とカテゴリを提供します。 ただし、事前定義型にカバーされていない特定のデータ検査に適合するカスタム定義データ型を作成する必要がある場合があります。

データ漏洩防止ポリシーのコンテンツ検査をカスタマイズするために、以下のカスタムデータタイプを定義できます:

  • カトDLPポリシーでMicrosoft Information Protection (MIP) フレームワークからのMicrosoft Sensitivity Labelsを使用します。

  • ユーザ定義のデータ型には以下が含まれます:

    • データ漏洩防止エンジンが検索する単語やフレーズを含むアイテムを定義するためにキーワードを使用します。

    • 辞書は最大50の単語またはフレーズを含むコンテナであり、DLPエンジンは辞書の任意のアイテムに一致するかを検索します

    • 正規表現データタイプを使用して、データ漏洩防止エンジンが検索するコンテンツを定義する正規表現を入力できます。

  • カスタム機械学習分類子

  • 正確なデータ一致 (EDM) プロファイルでは、一般的なデータパターンではなく、コンテンツ一致のための特定のデータを定義できます。 EDMプロファイルの詳細については、DLPのための正確なデータマッチング(EDM)の操作をご覧ください。

ユーザー定義データタイプまたは感度ラベルを作成した後、既存のDLPコンテンツプロファイルに追加するか、新しいものを作成できます。

Cato DLPでの感度ラベルの手動作成

MIPラベルで機密データを定義し、その後MIPラベルをCato DLPポリシーのデータタイプとして使用できます。

さらに詳しく

Cato管理アプリケーションで機密ラベルを作成した後、それらをコンテンツプロファイルに追加できます。 その後、MIPラベルに従って異なるユーザーとグループのコンテンツアクセスを管理するDLPルールを作成できます。

例えば、MIPラベルで分類されたファイルがある場合は、CATOのDLPポリシーでラベルを作成し、コンテンツプロファイル 制限付きのドキュメントに追加してください。 その後、十分なセキュリティクリアランスがないユーザーグループへのアクセスをブロックするようなDLPルールを定義します。

DLPエンジンはファイルのメタデータ内で定義されたラベルをスキャンし、実際のコンテンツではスキャンしません。これにより、誤検知を減らすことができます。 エンジンは、構成したラベルIDに基づき機密ラベルを適用します。名前に基づくものではありません。 機密ラベルラベルIDがMIPラベルIDと完全に一致することを確認してください。 組織のアカウントに対するMIPラベルIDの検索に関する詳細は、Microsoftドキュメントを参照してください。

DLP_感度ラベル.png

注意

注意: ファイルはこのデータタイプによって管理されるためにMIPラベルが必要です。 ファイルが正しくラベル付けされているか確認するには、DLPバリデータツールを使用してください

機密ラベルを作成するには:

  1. ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データタイプタブを選択します。

  2. 機密ラベルにおいて、新規作成をクリックします。 機密ラベルを追加パネルが開きます。

  3. ラベルの名前説明を入力してください。

  4. MIPラベルIDと同じラベルIDを入力してください。

  5. 適用をクリックします。

ユーザー定義データタイプの作成

ユーザ定義のデータ型は、キーワード、辞書、または正規表現のいずれかになります。

さらに詳しく

新しいキーワードおよび辞書データタイプの作成

DLPエンジンが検索するカスタム機密コンテンツのために、カスタムキーワードまたは辞書を作成してください。 辞書については、CSVファイルにエントリを維持し、それらをその辞書の値として貼り付けることができます。

  • データ漏洩防止エンジンは、各キーワードまたは辞書エントリの完全一致を検索

  • キーワードは、最低でも8文字(シングルバイトまたはマルチバイト)を含む必要があります。

  • キーワード内には、単語や文字数の上限はありません。

  • キーワードと辞書は、大文字と小文字を区別しません。

  • 辞書内のエントリは、互いに「または」関係にあります。

  • フレーズは各単語で完全一致しなければなりません。たとえば、health carehealthcareと一致しません。

    したがって、辞書のために、上記の単語に一致する以下の3つの値を作成します: health, care, healthcare

  • 単語とフレーズは、標準の単語境界に従って識別されます。たとえば、単語の後のスペースです。 単語を検出するためには、単語の前後に境界が必要です。 サポートされている単語境界の完全なリストについては、以下のキーワードおよび辞書データタイプの単語境界を参照してください

    • マルチバイトワードを検出するために、Regexデータタイプを使用することをお勧めします。通常、前後に境界がないためです。

しきい値の設定

各ユーザー定義のデータ型に対して、しきい値を定義することができ、ファイル内のキーワードまたは辞書の一致回数を決定します。 一致したりしきい値を超えたりすると、そのファイルはデータ・コントロール・ルール(セキュリティ > アプリケーション制御ページ)に一致します。

  • キーワード: キーワードのしきい値は、その単語またはフレーズの完全一致する繰り返しを探します。

    • たとえば、キーワードapple のしきい値が3の場合。 ファイルに単語appleが3つ含まれている場合、そのファイルはブロックされます。

  • 辞書: 辞書のしきい値は、その辞書内の任意の値の繰り返しを探します。

    • 例えば、辞書にappleorangeが含まれており、しきい値が3の場合。 ファイルに単語appleが2回、単語orangeが1回含まれている場合、ファイルはブロックされます。

      また、ファイルに単語appleが3回、単語orangeが0回含まれている場合、ファイルはブロックされます。

ユーザー定義データタイプを作成するには:

  1. ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データタイプタブを選択します。

  2. ユーザー定義で、新規をクリックし、新規キーワードまたは辞書の新規作成を選択します。

  3. 新規キーワードを作成するには:

    1. キーワードの名前説明を入力します。

    2. ファイル内にキーワードが出現する最低回数をしきい値で選択します。

    3. キーワード/フレーズを入力します。

    4. 適用をクリックします。

  4. 新規辞書を作成するには:

    1. 辞書の名前説明を入力します。

    2. 辞書エントリの中でファイルに出現する最低回数をしきい値で選択します。

    3. 辞書のために一つ以上の値を追加(または貼り付け)します。 複数の値はカンマで区切る必要があります。

    4. 適用をクリックします。

New_DLP_Dictionary.png
キーワードおよび辞書データタイプの単語境界

キーワードまたはフレーズに一致させるために、DLPエンジンは各単語の終わりを識別するために標準的な単語境界を使用します。 これらは、エンジンが単語境界として認識する文字です:

  • ([\s,.:;“‘]|^)

新しいRegexデータタイプの作成

正規表現を使用して、データタイプと一致するコンテンツのタイプを定義します。 例えば、正規表現の式を使うことで、特定の桁数を持つカスタマイズされた企業IDと簡単に一致させることができます。 各正規表現データタイプは一つの正規表現をサポートするため、複数の正規表現を使用する必要がある場合は、それぞれの表現に対して別のデータタイプを作成してください。

データタイプと一致するコンテンツを正しく定義するために、表現内で単語境界を使用してください。

正規表現エンジンはUTF-8に基づいており、非英語コンテンツの文字をサポートしています。

正規表現のしきい値

しきい値を定義して、コンテンツがファイル内に出現する回数を設定できます。 しきい値に一致または超える場合、ファイルはデータ・コントロール・ルールに一致します。

例えば、しきい値5に設定したIDの表現を作成した場合、そのIDが5回以上含まれているファイルのみがブロックされます。

正規表現の検証

式の検証フィールドを使用して表現をテストし、それがコンテンツと正しく一致することを確認できます。 テストをクリックすると、DLPサービスはコンテンツが正規表現に一致するかどうかをチェックします。 これはCatoクラウドで動作するのと同じサービスであり、同じテスト結果をアカウントで確認できます。

式の検証にはデータタイプのしきい値も含まれます。 したがって、しきい値1より大きい場合、その値はテストが成功するために少なくともその回数だけ出現する必要があります。

Regex_User_Data_Type.png

ユーザー定義の正規表現データタイプを作成するには:

  1. ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データタイプタブを選択します。

  2. 新規をクリックし、新しい正規表現を選択します。

  3. キーワードの名前説明を入力します。

  4. しきい値を選択し、ファイルに表現に一致するテキストが出現する最低回数を設定します。

  5. 表現に、正規表現データタイプとしての通常式を入力します。

  6. (オプション) 式の検証を展開し、テキストを入力してテストするをクリックします。

  7. 保存をクリックします。

サポートされている演算子と量指定子

これらは、ユーザ定義の正規表現データの種類に対してサポートされている正規表現の演算子と量指定子です:

演算子

一致する パターン

\

次のメタキャラクタを引用する

^

行の先頭に一致

$

行の末尾に一致

.

任意の1文字に一致

|

交互

()

キャプチャグループはサポートされていません。 括弧を使用してサブ式を境界付けることができます。

[xy]

ブラケットで指定された文字のうち、1文字に一致

[x-z]

xからzまでの文字範囲

[^z]

zを除く任意の文字

量指定子

一致する パターン

*

0回以上一致する(以下の注意を参照)

+

1回以上一致する(以下の注意を参照)

?

0回または1回一致

{n}

n回完全一致

{n,}

少なくともn回一致

{n,m}

少なくともn回一致し、m回を超えない

注意

注意: 任意の文字を貪欲に無制限に指定する量指定子の使用.*.+は許可されていません。 クラスやセットに文字を含めようとする場合は、それらを逆にしてください。 例えば、*.

これらの貪欲な量指定子を使用する代わりに、各キーワードまたはパターンに対して最大50文字までサポートする.{1,50}を使用できます

ユーザー定義ML分類子の作成

業界や会社に関連する専門文書の保護を強化するために、独自のユーザー定義の機械学習 (ML) クラシファイアを作成することができます。

さらに詳しく

ユーザー定義MLクラシファイアは、偽陽性を大幅に削減し、DLPエンジンの全体的な効率と精度を向上させます。 高度なデータ科学類似モデルを使用中、ML分類器はデータパターンの変化に伴い動的に学習および進化することで、感度の高いデータを検出する際の適応性と精度が向上します。

ユーザー定義ML分類子のトレーニング

保護したいドキュメントのサンプルとしてテキストファイルをアップロードすると、類似のドキュメントをリアルタイムで識別し、不正なデータエクスフィルトレーションを防ぐ機械学習モデルをトレーニングできます。 機械学習モデルはファイル内のテキストに基づいており、画像やビデオは無視されます。

ML分類子のファイル要件
  • MLモデルをトレーニングするためには、英語のコンテンツのみが使用されます

  • サポートされているファイルタイプ: DOC、XLS、CSV、TXT、PDF

  • 最大10ファイルをアップロードできます

  • ファイルには最低でも100語が含まれています

ユーザー定義ML分類子を作成するためのファイルのアップロード

サンプルファイルをCMAにアップロードして、ユーザー定義データタイプのためのMLモデルをトレーニングします。 ドキュメントを正確に保護するために、少なくとも5ファイルをアップロードすることをお勧めします。

MLクラシファイアのためにドキュメントをアップロードするには:

  1. ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択します。

  2. データの種類 タブで、ユーザー定義MLクラシファイア をクリックします。

  3. 新規をクリックします。

  4. 分類器の名前説明を入力して保存して続行をクリックします。

  5. モデルをトレーニングするファイルを追加します。

  6. (オプション) サンプル ファイルをアップロードしてモデルを検証し、検証をクリックします。

  7. 保存をクリックしてください。

データタイプの検証とベストプラクティス

各DLPデータの種類について、DLPエンジンがテストファイル内の機密データを認識し、照合することを検証できます。 検証機能は、データの種類 & プロファイル ページにある事前定義、ユーザー定義、および感度ラベル プロファイルに組み込まれています。 新しいまたは既存のキーワード、辞書、または正規表現の文字列を使用して、設定をテストするドキュメントをアップロードし、新しいデータタイプを展開する前にその設定を確認できます。 定義済みデータタイプ感度ラベルを検証することもできます。

DLP検証ツールの主な用途の1つは、特定のデータセットに対して入力されたデータを使用してキーワードや情報の文字列(正規表現経由)が正しく検出されることを確認するために、DLP設定を検証することです。 もう1つの主要なユースケースは、サンプルドキュメントをルールにアップロードして、ファイルタイプと形式がデータタイプの規定されたデータを検出するために正しくスキャンされるか確認することです。

ファイルがデータタイプと一致しない場合のトラブルシューティングとサポートのために、DLPエンジンが抽出した内容の解析されたテキストファイルをダウンロードできます。

辞書データ種類を検証するための手順例は以下の通りです:

テストファイルを使用して辞書データタイプを検証するには:

  1. ナビゲーション メニューからセキュリティ > データの種類 & プロファイルを選択し、データの種類 タブを選択します。

  2. 辞書データタイプの行にマウスを合わせて、編集アイコンをクリックします。 編集パネルが開きます。

  3. 辞書を検証をクリックします。 辞書を検証パネルが開きます。

    DLP_Validate_Dictionary.png
  4. テストファイルをアップロードし、ファイルをスキャンをクリックします。 スキャン結果が表示されます。

  5. DLPエンジンによって抽出されたコンテンツのテキストファイルをダウンロードするには、抽出されたテキストをエクスポートをクリックします。

ユーザー定義データタイプのベストプラクティス

  • ポリシーを実装するか、ブロックアクションを伴う新しいアプリケーションを追加する時:

    • ルールには監視アクションを使用します。

    • ルールが生成するイベントを確認し、許可したいトラフィックに対してイベントがないことを確認します(偽陽性トラフィック)。

    • 偽陽性トラフィックがある場合、以下の変更を行うことができます:

      • 偽陽性トラフィックを除外するためにルールのスコープを調整します

      • ブロックルールの前に新しい許可ルールを作成し、新しいルールのスコープは偽陽性トラフィックのみに対してのみです

      • 正規表現を調整し、スキャン対象のコンテンツの正確な例を使用してそれを検証してください

  • アプリケーション制御ポリシーは順序付けられたポリシーであり、最終的な暗黙のルールは「すべて すべて 承認する」です。 ポリシーにルールを追加して、関連するアプリケーショントラフィック、アクティビティおよび基準をブロックします。

既知の制限

  • ファイル要件についての情報は、What is the Cato DLP Service? を参照してください。

    • 一部のgzipフォーマットで圧縮されたダウンロードに関しては、データ漏洩防止のファイルサイズは圧縮ファイルに基づいて計算されます。 圧縮ファイルのサイズが1kb未満の場合、スキャンされません。

  • 正規表現の最大制限値は256文字です。

  • Base64でエンコードされたファイルはサポートされておらず、データ漏洩防止エンジンはこれらのファイルの内容を検査できません。

この記事は役に立ちましたか?

2人中2人がこの記事が役に立ったと言っています

0件のコメント