カスタムデータ種類でDLPを操作する

この記事は、組織内で機密データを特定するためのカスタムデータ種類の作成方法について説明します。

CatoカスタムDLPデータ種類の概要

Catoは、DLPポリシーの典型的なシナリオに対して数百の事前定義済みのデータ種類とカテゴリを提供します。しかし、組織が独自に定義したこのタイプに含まれない特定のデータ検査に対応するために、カスタム定義済みデータの種類を作成する必要がある場合があります。

DLPポリシー用にコンテンツ検査をカスタマイズするために、次のカスタムデータ種類を定義できます。

CatoのDLPポリシーでMicrosoft Information Protection (MIP) フレームワークのMicrosoft機密ラベルを使用
ユーザー定義のデータ型を含む：
- キーワードを使用して、DLPエンジンが検索する単語またはフレーズを含む項目を定義します。
- 辞書は、最大50の単語またはフレーズを含むコンテナであり、DLPエンジンは辞書内の任意のアイテムと一致するように検索します。
- 正規表現データの種類では、DLPエンジンが検索するコンテンツを定義する正規表現を入力できます。
カスタム機械学習分類器
正確なデータ一致（EDM）プロファイルは、一般的なデータパターンではなく、コンテンツ一致のための特定のデータを定義できます。 EDMプロファイルの詳細については、「データ漏洩防止用のEDMとの正確なデータ一致」を参照してください。

ユーザ定義のデータタイプまたは機密ラベルを作成した後、それらを既存のデータ漏洩防止コンテンツプロファイルに追加するか、新規作成できます。

Cato DLPにおける機密ラベルを手動で作成

MIPラベルで機密データを定義し、そのMIPラベルをCato DLPポリシー内のデータ種類として使用できます。

詳細

Cato管理アプリケーションで機密ラベルを作成した後、コンテンツプロファイルに追加できます。次に、MIPラベルに従って異なるユーザーおよびグループのコンテンツへのアクセスを管理するためのDLPルールを作成できます。

例えば、分類されているMIPラベルを持つファイルがある場合は、そのラベルをCato DLPポリシーで作成し、コンテンツプロファイルの制限付き文書に追加します。次に、十分なセキュリティクリアランスを持たないユーザーグループに対してアクセスをブロックするDLPルールを定義します。

DLPエンジンは、ファイルの実際のコンテンツではなく、メタデータで定義済みのラベルをスキャンして、誤検知を減らすのに役立ちます。エンジンは、ラベルIDに従って機密ラベルを適用し、名前に従って適用しません。 機密ラベルのラベルIDがMIPラベルIDと完全に一致していることを確認してください。組織のアカウントに対するMIPラベルIDの検索に関する詳細は、Microsoftドキュメントを参照してください。

注意

注:ファイルは、このデータ種類で管理されるためにMIPラベルが必要です。ファイルが正しくラベリングされているか確認するには、DLPバリデーターツールを使用します。

機密ラベルを作成するには：

ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データの種類タブを選択します。
機密ラベルで、新規をクリックします。 機密ラベルを追加パネルが開きます。
ラベルの名前と説明を入力します。
MIPラベルIDと同じラベルIDを入力します。
保存をクリックします。

ユーザ定義データの種類を作成する

ユーザ定義データの種類は、キーワード、辞書、正規表現のいずれかを選択できます。

詳細

新しいキーワードと辞書データの種類を作成する

DLPエンジンが検索するカスタム機密コンテンツのためにカスタムキーワードまたは辞書を作成します。辞書の場合、エントリーをCSVファイルで管理し、それらをその辞書の値として貼り付けます。

DLPエンジンは、各キーワードまたは辞書エントリの完全一致を検索します
キーワードは、最低8文字（シングルバイトまたはマルチバイト）を含む必要があります
キーワードの単語または文字の数に上限はありません
キーワードと辞書は大文字小文字を区別しません
辞書のエントリは、互いにOR関係を持ちます
フレーズは各単語の正確な一致である必要があります。例えば、フレーズhealth careはhealthcareと一致しません

したがって、辞書には、次の3つの値を作成して上記の単語に一致させます: health, care, healthcare
単語とフレーズは、標準的な単語の境界に従って識別されます。例えば、単語の後のスペースなどですそれを検出するためには、単語の前後に境界が必要です。サポートされる単語の境界の完全なリストについては、以下のキーワードと辞書データの種類の単語の境界を参照してください
- マルチバイト単語を検出するには、通常はその前後に境界がないため、正規表現データタイプを使用することをお勧めします。

しきい値を操作する

ユーザー定義データの種類ごとに、ファイル内でキーワードや辞書が一致する回数のしきい値を定義できます。しきい値に一致またはそれを超えると、ファイルはデータ制御ルール（セキュリティ > アプリケーション制御ページ内）に一致します。

キーワード – キーワードのしきい値は、その単語またはフレーズの完全一致の繰り返し発生を探します。
- 例えば、キーワードappleとしきい値3の場合。ファイルにappleの単語が3回含まれている場合、そのファイルはブロックされます。
辞書 – 辞書のしきい値は、その辞書の任意の値の繰り返し発生を探します。
- 例えば、辞書にappleとorangeのエントリーがあり、しきい値が3の場合。ファイルにappleの単語が2回とorangeの単語が1回含まれている場合、そのファイルはブロックされます。
  
  また、ファイルにappleの単語が3回含まれ、orangeの単語が0回の場合、そのファイルもブロックされます。

ユーザ定義データの種類を作成するには：

ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データの種類タブを選択します。
ユーザー定義で、新規をクリックし、次に新規キーワードまたは新規辞書を選択します。
新規キーワードを作成するには：
1. キーワードの名前と説明を入力します。
2. しきい値、ファイル内でキーワードが出現する最小回数を選択します。
3. キーワード/フレーズを入力します。
4. 保存をクリックします。
新しい辞書を作成するには：
1. 辞書の名前と説明を入力します。
2. しきい値、ファイル内で辞書エントリの1つが出現する最小回数を選択します。
3. 辞書の1つまたは複数の値を追加（または貼り付け）します。複数の値はコンマで区切る必要があります。
4. 保存をクリックします。

キーワードと辞書データの種類の単語の境界

キーワードまたはフレーズに一致させるために、DLPエンジンは各単語の終わりを識別するために標準の単語境界を使用します。これらは、エンジンが単語の境界として認識する文字です：

([\s,.:;“‘]|^)

新しい正規表現のデータタイプの作成

通常の表現を使用して、データタイプに一致するコンテンツの種類を定義します。例えば、正規表現の式を使用して、特定の桁数を持つカスタマイズされた会社IDを簡単に一致させることができます。各正規表現データタイプは単一の通常表現をサポートするので、複数の通常表現を使用する必要がある場合は、各表現ごとに別々のデータタイプを作成します。

表現内で単語境界を使用して、データタイプに一致するコンテンツを正しく定義します。

正規表現エンジンはUTF-8に基づいており、非英語コンテンツの文字をサポートします。

正規表現のしきい値

式に対してしきい値を定義し、コンテンツがファイルに現れる回数を指定できます。 しきい値に一致または超過すると、そのファイルはデータ・コントロール・ルールに一致します。

例えば、しきい値 5 のIDの表現を作成した場合、IDを5回以上含むファイルのみがブロックされます。

正規表現の検証

式の検証フィールドを使用して、式をテストし、コンテンツに正しく一致することを確認できます。 テストするをクリックすると、DLPサービスがコンテンツが通常表現に一致するかどうかを確認します。これはCato Cloudで実行されているのと同じサービスなので、テスト結果はアカウントで見られる動作と同じです。

式の検証には、データタイプのためのしきい値も含まれます。したがって、しきい値が1より大きい場合、テストが成功するためにはその値が少なくともその回数現れる必要があります。

ユーザー定義正規表現データタイプを作成するには:

ナビゲーションメニューからセキュリティ > データの種類 & プロファイルを選択し、データの種類タブを選択します。
新規をクリックし、次に新しい正規表現を選択します。
キーワードの名前と説明を入力します。
しきい値を選択し、ファイルに現れる表現に一致するテキストの最小回数を指定します。
表現に、このデータタイプのための通常表現を入力します。
(オプション) 式の検証を展開し、テキストを入力してテストするをクリックします。
適用をクリックします。

サポートされるオペレーターと量指定子

これらはユーザー定義正規表現データタイプでサポートされる通常表現のオペレーターと量指定子です:

オペレーター	一致するパターン
\	次のメタ文字を引用符で括ります
^	行の始まりに一致
$	行の終わりに一致
.	任意の単一文字に一致
\|	交代
()	キャプチャグループはサポートされていません。括弧を使ってサブ表現を括ることができます。
[xy]	括弧内に指定された単一の文字に一致
[x-z]	xとzの間の文字範囲
[^z]	z以外の任意の文字

量指定子	一致するパターン
*	0回またはそれ以上の回数に一致 (以下の注意参照)
+	1回またはそれ以上の回数に一致 (以下の注意参照)
?	0回または1回に一致
{n}	正確にn回に一致
{n,}	少なくともn回に一致
{n,m}	少なくともn回、でも最大m回までに一致

注意

注意: 無制限の貪欲量指定子である任意の文字など、.*や.+の使用は許可されていません。クラスまたはセット内に文字を含めようとしている場合は、逆にします。例えば、*.

これらの貪欲量指定子を使用する代わりに、1つのキーワードまたはパターンにつき最大50文字をサポートする.{1,50}を使用できます。

ユーザー定義ML分類器の作成

業界や会社に関連する専門文書の保護を強化するために、独自のユーザー定義機械学習（ML）分類器を作成できます。

詳細

ユーザー定義MLクラシファイアは、偽陽性を大幅に減少させ、DLPエンジンの全体的な効率性と精度を向上させます。高度なデータサイエンス類似性モデルを使用して、ML分類器は機密データを検出する際の適応性と精度を向上させます。変化するデータパターンに動的に学習し進化することができます。

ユーザー定義MLクラシファイアの訓練

保護したい文書のサンプルとしてテキストファイルをアップロードすることにより、類似する文書をリアルタイムで識別し、無許可のデータ流出を防ぐ機械学習モデルを訓練できます。機械学習モデルはファイル内のテキストに基づいており、画像やビデオは無視されます。

ML分類器のためのファイル要件

英語でのコンテンツのみがMLモデルの訓練に使用されます。
サポートされるファイルタイプ: DOC、XLS、CSV、TXT、PDF
最大で10ファイルをアップロードできます。
ファイルには最低限100単語を含んでいる必要があります。

ユーザー定義MLクラシファイアを作成するためのファイルのアップロード

サンプルファイルをCMAにアップロードして、ユーザー定義データタイプのMLモデルを訓練します。文書の保護のために機械学習モデルを正確に訓練するには、少なくとも5つのファイルをアップロードすることをお勧めします。

ML分類器のためにドキュメントをアップロードするには:

ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択します。
データの種類タブで、ユーザー定義MLクラシファイアをクリックします。
新規をクリックします。
分類器の名前と説明を入力し、保存して続行をクリックします。
モデルをトレーニングするために必要なファイルを追加します。
（オプション）モデルを検証するために例のファイルをアップロードし、検証をクリックします。
保存をクリックしてください。

データの種類とベストプラクティスを検証する

各DLPデータタイプごとに、テストファイルでDLPエンジンが機密データを認識し一致するかを検証できます。検証機能は、データの種類 & プロファイルページにある定義済み、ユーザー定義、機密性ラベルプロファイルに埋め込まれています。新しいまたは既存のキーワード、辞書、REGEX文字列で、新しいデータタイプを展開する前に設定をテストする文書をアップロードできます。定義済みデータタイプおよび機密ラベルを検証することもできます。

DLP検証ツールの主な用途の1つは、DLP設定を検証し、特定のデータセットのために入力されたデータを使用して、キーワードや情報の文字列（正規表現経由）が適切に検出されていることを確認することです。もう一つの重要なユースケースは、ファイルタイプとフォーマットが正しくスキャンされ、データタイプのための必要なデータを検出するかどうかを判断するために、ルールにサンプル文書をアップロードできることです。

ファイルがデータタイプに一致しない場合のトラブルシューティングとサポートのために、DLPエンジンが抽出したコンテンツの解析されたテキストファイルをダウンロードできます。

辞書データタイプを検証するための例の手順は次のとおりです:

テストファイルで辞書データタイプを検証するには:

ナビゲーションメニューから、セキュリティ > データの種類 & プロファイルを選択し、データの種類タブを選択します。
辞書データタイプの行にマウスを置いて、編集アイコンをクリックします。編集パネルが開きます。
辞書を検証をクリックします。 辞書を検証パネルが開きます。
テストファイルをアップロードし、ファイルをスキャンをクリックします。スキャン結果が表示されます。
DLPエンジンで抽出されたコンテンツのテキストファイルをダウンロードするには、抽出されたテキストをエクスポートをクリックします。

ユーザー定義データタイプのベストプラクティス

ポリシーを実装するか、ブロックアクションを伴う新しいアプリケーションを追加するとき:
- ルールにモニタアクションを使用します。
- ルールが生成するイベントを確認し、許可したいトラフィック（偽陽性トラフィック）に対するイベントがないことを確認してください。
- 偽陽性トラフィックがある場合、これらの変更を行うことができます:
  - ルールの適用範囲を洗練して、偽陽性トラフィックを除外します。
  - ブロックルールの前に新しい許可ルールを作成し、新しいルールのスコープは偽陽性トラフィックのみです。
  - 正規表現を洗練して、スキャンしているコンテンツの正確な例でそれを検証することを確認してください。
アプリケーション制御ポリシーは順序付けされたポリシーであり、最終的な暗黙のルールはANY ANY承認です。関連するアプリケーションのトラフィック、アクティビティ、基準をブロックするためにポリシーにルールを追加します。

既知の制限

ファイルの要件については、What is the Cato DLP Service?を参照してください。
- gzip形式で圧縮された一部のダウンロードでは、DLPのファイルサイズは圧縮ファイルに基づいて計算されます。圧縮ファイルサイズが1kb未満の場合はスキャンされません。
正規表現には256文字の最大制限があります。
Base64でエンコードされたファイルはサポートされず、DLPエンジンはこれらのファイルのコンテンツを検査できません。