Travailler avec des types de données personnalisés pour DLP

Cet article explique comment créer des types de données personnalisés pour identifier les données sensibles de votre organisation pour la politique DLP.

Aperçu des Types de Données Personnalisées de Cato DLP

Cato fournit des centaines de types de données et catégories prédéfinis pour les scénarios typiques des politiques DLP. Cependant, parfois, les organisations nécessitent la capacité de créer des types de données personnalisés pour correspondre à des inspections de données spécifiques non couvertes par le type prédéfini.

Vous pouvez définir les types de données personnalisés suivants pour personnaliser l'inspection du contenu de vos politiques DLP :

  • Utilisez les étiquettes de sensibilité Microsoft du cadre Microsoft Information Protection (MIP) dans votre politique DLP Cato

  • Types de données définis par l'utilisateur y compris :

    • Utilisez des mots-clés pour définir des éléments contenant un mot ou une phrase que le moteur DLP recherche

    • Les dictionnaires sont des conteneurs qui contiennent jusqu'à 50 mots ou phrases, et le moteur DLP recherche pour correspondance n'importe quel élément du dictionnaire

    • Les types de données Regex permettent d'entrer des expressions régulières qui définissent le contenu que le moteur DLP recherche

  • Classificateurs d'apprentissage automatique personnalisés

  • Les profils de Correspondance Exacte de Données (EDM) vous permettent de définir des données spécifiques pour la correspondance de contenu au lieu de modèles de données généraux. Pour plus d'informations sur les profils EDM, voir Travailler avec la correspondance exacte des données (EDM) pour DLP.

Après avoir créé le Type de Données Défini par Utilisateur ou Étiquette de Sensibilité, vous pouvez les ajouter aux profils de contenu DLP existants ou en créer de nouveaux.

Création Manuelle d'Étiquettes de Sensibilité dans Cato DLP

Vous pouvez définir des données sensibles avec des étiquettes MIP, puis utiliser ces étiquettes comme types de données dans votre politique DLP Cato.

Lire Plus

Après avoir créé les Étiquettes de Sensibilité dans l'Application de Gestion Cato, vous pouvez les ajouter aux Profils de Contenu. Vous pouvez ensuite créer des règles DLP pour gérer l'accès au contenu pour différents utilisateurs et groupes selon les étiquettes MIP.

Par exemple, si vous avez des fichiers avec l'étiquette MIP Classifié, créez l'étiquette dans votre politique DLP Cato et ajoutez-la au Profil de Contenu Documents Restreints. Ensuite, définissez une règle DLP qui bloque l'accès pour les groupes d'utilisateurs sans niveau de sécurité suffisant.

Le moteur DLP analyse les étiquettes définies dans les métadonnées du fichier et non dans le contenu réel, ce qui aide à réduire les faux positifs. Le moteur applique l'Étiquette de Sensibilité selon l'ID de l'Étiquette que vous configurez, pas selon le Nom. Assurez-vous que l'ID de l'Étiquette de l'Étiquette de Sensibilité correspond exactement à l'ID de l'étiquette MIP. Pour plus d'informations sur la recherche des ID de l'étiquette MIP pour le compte de votre organisation, consultez la documentation Microsoft.

Étiquettes_de_sensibilité_DLP.png

Note

Remarque : Les fichiers doivent être étiquetés par MIP pour être gérés par ce type de données. Pour vérifier si un fichier est correctement étiqueté, utilisez l'outil de validation DLP.

Pour créer une Étiquette de Sensibilité :

  1. Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils, et sélectionnez l'onglet Types de données.

  2. Dans Étiquettes de Sensibilité, cliquez sur Nouveau. Le panneau Ajouter Étiquette de Sensibilité s'ouvre.

  3. Entrez le Nom et la Description pour l'étiquette.

  4. Entrez le même ID de l'Étiquette que l'ID de l'étiquette MIP.

  5. Cliquez sur Appliquer.

Création de Types de Données Définis par l'Utilisateur

Les types de données définis par l'utilisateur peuvent être un mot-clé, un dictionnaire ou une expression regex.

Lire Plus

Création de Nouveaux Types de Données par Mot-Clé et Dictionnaire

Créez un mot-clé ou un dictionnaire personnalisé pour le contenu sensible personnalisé que le moteur DLP recherche. Pour les dictionnaires, vous pouvez maintenir les entrées dans un fichier CSV, puis les coller comme valeurs pour ce dictionnaire.

  • Le moteur DLP recherche une correspondance exacte de chaque entrée de mot-clé ou de dictionnaire

  • Un mot-clé doit contenir au moins 8 caractères (soit d'un seul octet soit multi-octets)

  • Aucune limite supérieure pour le nombre de mots ou de caractères dans un mot-clé

  • Les mots-clés et les dictionnaires ne sont PAS sensibles à la casse

  • Les entrées d'un dictionnaire ont une relation OU entre elles

  • Les phrases doivent être exactement identiques à chaque mot, par exemple la phrase health care ne correspond pas à healthcare

    Ainsi pour un dictionnaire, vous créeriez les trois valeurs suivantes pour correspondre aux mots ci-dessus : health, care, healthcare

  • Les mots et phrases sont identifiés selon les limites standards des mots, par exemple un espace après un mot. Il doit y avoir des limites avant et après le mot pour qu'il soit détecté. Pour une liste complète des limites de mots pris en charge, voir ci-dessous Limites de Mots pour les Types de Données par Mot-Clé et Dictionnaire

    • Pour détecter les mots multi-octets, nous recommandons d'utiliser un Type de Données Regex, car généralement il n'y a pas de limite avant et après

Travailler avec des Seuils

Vous pouvez définir le Seuil pour chaque type de données défini par l'utilisateur, le nombre de fois que le mot-clé ou le dictionnaire correspond dans un fichier. Lorsqu'il correspond ou dépasse le Seuil, alors le fichier correspond à la règle de Contrôle des Données (dans la page Sécurité > Contrôle des Applications).

  • Mots-clés - Le Seuil pour les mots-clés recherche des occurrences répétées qui sont une correspondance exacte de ce mot ou phrase.

    • Par exemple, pour le mot-clé pomme avec un Seuil de 3. Si un fichier contient 3 instances du mot pomme, alors ce fichier est bloqué.

  • Dictionnaire - Le Seuil pour les dictionnaires recherche les occurrences répétées de TOUTE valeur dans ce dictionnaire.

    • Par exemple, si le dictionnaire contient les entrées pomme et orange avec un Seuil de 3. Si un fichier contient 2 instances du mot pomme et 1 instance du mot orange, le fichier est bloqué.

      De plus, si un fichier contient 3 instances du mot pomme et 0 instance du mot orange, le fichier est bloqué.

Pour créer un type de données défini par l'utilisateur :

  1. Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils, et sélectionnez l'onglet Types de données.

  2. Dans Défini par l'utilisateur, cliquez sur Nouveau et sélectionnez ensuite Nouveau mot-clé ou Nouveau dictionnaire.

  3. Pour créer un nouveau mot-clé :

    1. Entrez le Nom et la Description pour le mot-clé.

    2. Sélectionnez le Seuil, le nombre minimum de fois que le mot-clé apparaît dans le fichier.

    3. Entrez le Mot-clé/Phrase.

    4. Cliquez sur Appliquer.

  4. Pour créer un nouveau dictionnaire :

    1. Entrez le Nom et la Description pour le dictionnaire.

    2. Sélectionnez le Seuil, le nombre minimum de fois où une des entrées du dictionnaire apparaît dans le fichier.

    3. Ajoutez (ou collez) une ou plusieurs valeurs pour le dictionnaire. Les valeurs multiples doivent être séparées par des virgules.

    4. Cliquez sur Appliquer.

New_DLP_Dictionary.png
Limites de Mots pour les Types de Données par Mot-Clé et Dictionnaire

Pour correspondre à un mot-clé ou une phrase, le moteur DLP utilise des frontières de mots standard pour identifier la fin de chaque mot. Voici les caractères que le moteur reconnaît comme frontières de mots :

  • ([\s,.:;“‘]|^)

Création de Nouveaux Types de Données Regex

Utilisez des expressions régulières pour définir le type de contenu qui correspond au type de données. Par exemple, les formules regex vous permettent de correspondre facilement à un ID d'entreprise personnalisé avec un nombre spécifique de chiffres. Chaque type de données Regex prend en charge une seule expression régulière, donc si vous devez utiliser plusieurs expressions, créez un type de données séparé pour chaque expression.

Utilisez des frontières de mots dans l'expression pour définir correctement le contenu qui correspond au type de données.

Le moteur regex est basé sur UTF-8 et prend en charge les caractères pour le contenu non anglais.

Seuils Regex

Vous pouvez définir le Seuil pour l'expression, le nombre de fois que le contenu apparaît dans un fichier. Lorsqu'il correspond ou dépasse le Seuil, alors le fichier correspond à la règle de contrôle des données.

Par exemple, si vous avez créé une expression pour un ID avec un Seuil de 5, alors seuls les fichiers contenant cet ID cinq fois ou plus seraient bloqués.

Validation des expressions régulières

Vous pouvez utiliser le champ Valider l'expression pour tester l'expression et vous assurer qu'elle correspond correctement au contenu. Lorsque vous cliquez sur Test, le service DLP vérifie si le contenu correspond à l'expression régulière. C'est le même service qui fonctionne dans le Cloud Cato, vous verrez donc les mêmes résultats de test dans votre compte.

La validation de l'expression inclut également le Seuil pour le type de données. Ainsi, lorsque le Seuil est supérieur à 1, la valeur doit apparaître au moins autant de fois pour réussir le test.

Regex_User_Data_Type.png

Pour créer un type de données Regex défini par l'utilisateur :

  1. Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils, et sélectionnez l'onglet Types de données.

  2. Cliquez sur Nouveau et sélectionnez ensuite Nouvelle expression régulière.

  3. Entrez le Nom et la Description pour le mot-clé.

  4. Sélectionnez le Seuil, le nombre minimum de fois que le texte qui correspond à l'Expression apparaît dans le fichier.

  5. Dans Expression, entrez l'expression régulière pour ce type de données.

  6. (Optionnel) Développez Valider l'expression, entrez le texte et cliquez sur Test.

  7. Cliquez sur Appliquer.

Opérateurs et Quantificateurs Pris en Charge

Voici les opérateurs et quantificateurs d'expressions régulières qui sont pris en charge pour les types de données Regex définis par l'utilisateur :

Opérateurs

Motif correspondant

\

Citer le prochain métacaractère

^

Correspondre au début d'une ligne

$

Correspondre à la fin d'une ligne

.

Correspond à n'importe quel caractère unique

|

Alternance

()

Les groupes de capture ne sont pas pris en charge. Les parenthèses peuvent être utilisées pour délimiter des sous-expressions.

[xy]

Correspond à un seul caractère parmi ceux donnés entre crochets

[x-z]

La plage de caractères entre x et z

[^z]

N'importe quel caractère sauf z

Quantificateurs

Motif correspondant

*

Correspond à 0 ou plus fois (voir remarque ci-dessous)

+

Correspond à 1 ou plus fois (voir remarque ci-dessous)

?

Correspond à 0 ou 1 fois

{n}

Correspond exactement à n fois

{n,}

Correspondre au moins n fois

{n,m}

Correspondre au moins n fois, mais pas plus de m

Note

Note : L'utilisation de quantificateurs voraces illimités pour des caractères arbitraires tels que .* ou .+ n'est pas autorisée. Si vous essayez d'inclure les caractères dans une classe ou un ensemble, inversez-les. Par exemple, *.

Au lieu d'utiliser ces quantificateurs voraces, vous pouvez utiliser .{1,50} qui prend en charge jusqu'à 50 caractères pour chaque mot-clé ou modèle pour le type de données regex

Création de Classifieurs ML Définis par Utilisateur

Pour augmenter la protection des documents spécialisés pertinents pour votre industrie ou entreprise, vous pouvez créer votre propre Classificateur ML défini par l'utilisateur.

Lire Plus

Les Classificateurs ML définis par l'utilisateur réduisent considérablement les faux positifs et améliorent l'efficacité et la précision globales du moteur DLP. Using an advanced data science similarity model, the ML Classifiers offer better adaptability and accuracy in detecting sensitive data, as they can dynamically learn and evolve with changing data patterns.

Formation des Classifieurs ML Définis par l'Utilisateur

En téléversant des fichiers texte en tant qu'exemples des documents que vous souhaitez protéger, vous pouvez entraîner un modèle d'apprentissage automatique capable d'identifier en temps réel des documents similaires, empêchant l'exfiltration de données non autorisée. Le modèle d'apprentissage automatique est basé sur le texte à l'intérieur d'un fichier, les images ou vidéos sont ignorées.

Exigences de Fichier pour les Classifieurs ML
  • Seul le contenu en anglais est utilisé pour entraîner le modèle ML

  • Types de fichiers pris en charge : DOC, XLS, CSV, TXT et PDF

  • Un maximum de 10 fichiers peut être téléversé

  • Le fichier contient un minimum de 100 mots

Téléchargement de Fichiers pour Créer un Classifieur ML Défini par l'Utilisateur

Téléchargez les fichiers d'exemple sur le CMA pour entraîner le modèle ML pour votre Type de données défini par l'utilisateur. Nous recommandons de téléverser au moins 5 fichiers pour entraîner précisément le modèle d'apprentissage automatique pour protéger vos documents.

Pour téléverser des documents pour le Classificateur ML :

  1. Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils.

  2. Dans l'onglet Types de données, cliquez sur Classificateurs ML définis par l'utilisateur.

  3. Cliquez sur Nouveau.

  4. Entrez un Nom et une Description pour le classificateur et cliquez sur Enregistrer et continuer.

  5. Ajoutez les fichiers avec lesquels vous souhaitez entraîner le modèle.

  6. (Optional) Validez le modèle en téléversant un fichier d'exemple et cliquez sur Valider.

  7. Cliquez sur Sauvegarder.

Validation des Types de Données et Meilleures Pratiques

Pour chaque Type de Donnée DLP, vous pouvez valider que le moteur DLP reconnaît et correspond aux données sensibles dans un fichier de test. La fonctionnalité de validation est intégrée dans les profils prédéfinis, définis par l'utilisateur, et les profils d'étiquettes de sensibilité situés sur la page Types de données & Profils. Avec un mot-clé, un dictionnaire ou une chaîne REGEX nouveau ou existant, vous pouvez télécharger un document qui testera vos paramètres avant de déployer le nouveau type de données. Vous pouvez également valider les types de données prédéfinis et les Étiquettes de Sensibilité.

Un des principaux usages de l'outil de validation DLP est de vérifier vos paramètres DLP pour s'assurer que les mots-clés et chaînes d'informations (via regex) sont correctement détectés à l'aide des données saisies pour cet ensemble de données particulier. Un autre cas d'utilisation clé est que vous pouvez télécharger des documents d'exemple à la règle pour voir si le type de fichier et le format vont être correctement analysés pour détecter les données prescrites pour les types de données.

Pour le dépannage et la compatibilité pour les cas où le fichier ne correspond pas au type de données, vous pouvez télécharger un fichier texte analysé du contenu tel qu'il a été extrait par le moteur DLP.

La procédure suivante est un exemple pour valider un type de données de Dictionnaire :

Pour valider un type de données de Dictionnaire avec un fichier de test :

  1. Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils, et sélectionnez l'onglet Types de données.

  2. Survolez la ligne d'un type de données Dictionnaire avec la souris et cliquez sur l'icône de modification. Le panneau Éditer s'ouvre.

  3. Cliquez sur Valider Dictionnaire. Le panneau Valider Dictionnaire s'ouvre.

    DLP_Valider_Dictionnaire.png
  4. Téléchargez un fichier test, et cliquez sur Analyser Fichier. Les résultats de l'analyse sont affichés.

  5. Pour télécharger un fichier texte du contenu extrait par le moteur DLP, cliquez sur Exporter Texte Extrait.

Meilleures Pratiques pour les Types de Données Définis par l'Utilisateur

  • Lorsque vous implémentez la politique, ou ajoutez une nouvelle application avec l'action Bloquer :

    • Utilisez l'action Monitor pour la règle.

    • Examinez les événements générés par la règle et assurez-vous qu'il n'y a pas d'événements pour le trafic que vous souhaitez autoriser (trafic faux positif).

    • S'il y a du trafic faux positif, vous pouvez effectuer ces modifications :

      • Affinez la portée de la règle pour exclure le trafic faux positif

      • Créez une nouvelle règle d'autorisation avant la règle de blocage, et la portée de la nouvelle règle est uniquement pour le trafic faux positif

      • Affinez l'expression régulière et assurez-vous de la valider avec un exemple précis du contenu que vous recherchez

  • Rappelez-vous que la politique de Contrôle des Applications est une politique ordonnée, et la règle implicite finale est n'importe quel n'importe quel Accepter. Ajoutez des règles à la politique pour bloquer le trafic d'application, les activités et les critères pertinents.

Limites Connues

  • Pour des informations sur les exigences du fichier, voir Qu'est-ce que le service DLP de Cato ?

    • Pour certains téléchargements compressés au format gzip, la taille du fichier pour DLP est calculée sur la base du fichier compressé. Si la taille du fichier compressé est inférieure à 1kb, il ne sera pas analysé.

  • Il y a une limite maximale de 256 caractères pour une expression régulière.

  • Les fichiers encodés en Base64 ne sont pas pris en charge, et le moteur DLP ne peut pas inspecter le contenu de ces fichiers.

Cet article vous a-t-il été utile ?

Utilisateurs qui ont trouvé cela utile : 2 sur 2

0 commentaire