Travailler avec des Types de Données Personnalisés pour DLP

Cet article explique comment créer des types de données personnalisés pour identifier les données sensibles dans votre organisation pour la politique de DLP.

Vue d'ensemble des Types de Données DLP Personnalisés de Cato

Cato fournit des centaines de types de données et de catégories prédéfinis pour les scénarios typiques des politiques de DLP. Cependant, certaines organisations nécessitent la capacité de créer des types de données personnalisés définis pour correspondre à des inspections de données spécifiques qui ne sont pas couvertes par le type prédéfini.

Vous pouvez définir les types de données personnalisés suivants pour personnaliser l'inspection du contenu pour vos politiques DLP :

Utiliser les Étiquettes de Sensibilité de Microsoft du cadre Microsoft Information Protection (MIP) dans votre politique DLP Cato
Types de données définis par l'utilisateur y compris :
- Utilisez des mots-clés pour définir des éléments qui contiennent un mot ou une phrase que le moteur DLP recherche
- Les dictionnaires sont des conteneurs qui contiennent jusqu'à 50 mots ou phrases, et le moteur DLP recherche une correspondance avec n'importe quel élément unique dans le dictionnaire
- Les types de données Regex vous permettent d'entrer des expressions régulières qui définissent le contenu que le moteur de DLP recherche
Classificateurs d'apprentissage machine personnalisés
Les profils Exact Data Matching (EDM) vous permettent de définir des données spécifiques pour la correspondance de contenu au lieu de motifs de données généraux. Pour plus d'informations sur les profils EDM, voir Working with Exact Data Matching (EDM) for DLP.

Après avoir créé le Type de Données Défini par l'Utilisateur ou Étiquette de Sensibilité, vous pouvez les ajouter à des Profils de Contenu DLP existants ou en créer de nouveaux.

Création manuelle d'Étiquettes de Sensibilité dans Cato DLP

Vous pouvez définir des données sensibles avec des étiquettes MIP, et ensuite utiliser les étiquettes MIP comme types de données dans votre politique DLP Cato.

Lire plus

Après avoir créé les Étiquettes de Sensibilité dans l'Application de Gestion Cato, vous pouvez les ajouter aux Profils de Contenu. Vous pouvez ensuite créer des règles de DLP pour gérer l'accès au contenu pour différents utilisateurs et groupes en fonction des étiquettes MIP.

Par exemple, si vous avez des fichiers avec l'étiquette MIP Classifié, créez l'étiquette dans votre politique DLP de Cato et ajoutez-la au Profil de Contenu Documents Restreints. Définissez ensuite une règle DLP qui bloque l'accès pour les groupes d'utilisateurs sans autorisation de sécurité suffisante.

Le moteur DLP recherche les étiquettes définies dans les métadonnées de fichier et non dans le contenu réel, ce qui aide à réduire les faux positifs. Le moteur applique l'Étiquette de Sensibilité selon l'ID de l'étiquette que vous configurez, et non selon le Nom. Assurez-vous que l'ID de l'étiquette de l'Étiquette de Sensibilité correspond exactement à l'ID de l'étiquette MIP. Pour plus d'informations sur la recherche des ID de l'étiquette MIP pour le compte de votre organisation, consultez la documentation Microsoft.

Remarque

Note : Les fichiers doivent être étiquetés MIP pour être gérés par ce type de données. Pour vérifier si un fichier est correctement étiqueté, utilisez l'outil de validation DLP.

Pour créer une Étiquette de Sensibilité :

Dans le menu de navigation, sélectionnez Sécurité > Types de Données & Profils, et sélectionnez l'onglet Types de Données.
Dans Étiquettes de Sensibilité, cliquez sur Nouveau. Le panneau Ajouter une Étiquette de Sensibilité s'ouvre.
Entrez le Nom et la Description pour l'étiquette.
Entrez l'ID de l'étiquette identique à l'ID de l'étiquette MIP.
Cliquez sur Appliquer.

Création de Types de Données Utilisateurs Définis

Les types de données définis par l'utilisateur peuvent être soit un mot-clé, un dictionnaire, une expression regex.

Lire plus

Création de Nouveaux Types de Données Mot-clé et Dictionnaire

Créez un mot-clé ou un dictionnaire personnalisé pour le contenu sensible personnalisé que le moteur DLP recherche. Pour les dictionnaires, vous pouvez maintenir les entrées dans un fichier CSV, et ensuite les coller en tant que valeurs pour ce dictionnaire.

Le moteur DLP recherche une correspondance exacte de chaque mot-clé ou entrée de dictionnaire
Un mot-clé doit contenir au moins 8 caractères (soit un octet simple ou multioctet)
Aucune limite supérieure pour le nombre de mots ou de caractères dans un mot-clé
Les mots-clés et les dictionnaires ne sont PAS sensibles à la casse
Les entrées dans un dictionnaire ont une relation OU entre elles
Les phrases doivent être une correspondance exacte sur chaque mot, par exemple la phrase soins de santé ne correspond pas à soinsdesanté

Ainsi, pour un dictionnaire, vous créeriez les trois valeurs suivantes pour correspondre aux mots ci-dessus : santé, soins, soinsdesanté
Les mots et les phrases sont identifiés selon des limites de mots standard, par exemple un espace après un mot. Il doit y avoir des limites avant et après le mot pour qu'il soit détecté. Pour une liste complète des limites de mots prises en charge, voir ci-dessous Limites de Mots pour les Types de Données Mot-clé et Dictionnaire
- Pour détecter les mots multioctets, nous recommandons d'utiliser un Type de données Regex, car généralement il n'y a pas de limite avant et après

Travailler avec les Seuils

Vous pouvez définir le Seuil pour chaque type de données défini par l'utilisateur, le nombre de fois que le mot-clé ou le dictionnaire correspond dans un fichier. Lorsqu'il atteint ou dépasse le Seuil, alors le fichier correspond à la règle de Contrôle des Données (dans la page Sécurité > Contrôle d'Application).

Mots-clés - Le Seuil pour les mots-clés recherche les occurrences répétées qui sont une correspondance exacte de ce mot ou de cette phrase.
- Par exemple, pour le mot-clé pomme avec un Seuil de 3. Si un fichier contient 3 instances du mot pomme, alors ce fichier est bloqué.
Dictionnaire - Le Seuil pour les dictionnaires recherche les occurrences répétées de N'IMPORTE quelle valeur dans ce dictionnaire.
- Par exemple, si le dictionnaire contient les entrées pomme et orange avec un Seuil de 3. Si un fichier contient 2 instances du mot pomme et 1 instance du mot orange, le fichier est bloqué.
  
  De plus, si un fichier contient 3 instances du mot pomme et 0 instance du mot orange, le fichier est bloqué.

Pour créer un type de données défini par l'utilisateur :

Dans le menu de navigation, sélectionnez Sécurité > Types de Données & Profils, et sélectionnez l'onglet Types de Données.
Dans Défini par l'utilisateur, cliquez sur Nouveau puis sélectionnez Nouveau Mot-clé ou Nouveau Dictionnaire.
Pour créer un Nouveau Mot-clé :
1. Entrez le Nom et la Description pour le mot-clé.
2. Sélectionnez le Seuil, le nombre minimum de fois que le mot-clé apparaît dans le fichier.
3. Entrez le Mot-clé/Phrase.
4. Cliquez sur Appliquer.
Pour créer un Nouveau Dictionnaire :
1. Entrez le Nom et la Description pour le dictionnaire.
2. Sélectionnez le Seuil, le nombre minimum de fois que l'une des entrées du dictionnaire apparaît dans le fichier.
3. Ajoutez (ou collez) une ou plusieurs valeurs pour le dictionnaire. Les valeurs multiples doivent être séparées par des virgules.
4. Cliquez sur Appliquer.

Limites de Mots pour les Types de Données Mot-clé et Dictionnaire

Pour correspondre à un mot-clé ou une phrase, le moteur DLP utilise les limites de mots standard pour identifier la fin de chaque mot. Ce sont les caractères que le moteur reconnaît comme limites de mots :

([\s,.:;“‘]|^)

Créer de nouveaux types de données Regex

Utilisez les expressions régulières pour définir le type de contenu qui correspond au Type de données. Par exemple, les formules regex vous permettent de faire facilement correspondre un ID d'entreprise personnalisé avec un nombre spécifique de chiffres. Chaque Type de données Regex prend en charge une seule expression régulière, donc si vous devez utiliser plusieurs expressions régulières, créez un type de données distinct pour chaque expression.

Utilisez les limites de mots dans l'expression pour définir correctement le contenu qui correspond au Type de données.

Le moteur Regex est basé sur UTF-8 et prend en charge les caractères pour le contenu non anglais.

Seuils Regex

Vous pouvez définir le Seuil pour l'expression, le nombre de fois que le contenu apparaît dans un fichier. Lorsqu'il correspond ou dépasse le Seuil, alors le fichier correspond à la règle de Contrôle des données.

Par exemple, si vous avez créé une expression pour un ID avec un Seuil de 5, alors seuls les fichiers contenant l'ID cinq fois ou plus seraient bloqués.

Validation des expressions régulières

Vous pouvez utiliser le champ Valider l'expression pour tester l'expression et vous assurer qu'elle correspond correctement au contenu. Lorsque vous cliquez sur Test, le service DLP vérifie si le contenu correspond à l'expression régulière. C'est le même service qui fonctionne dans le Cloud Cato, donc les résultats du test sont le même comportement que vous verrez dans votre compte.

La validation de l'expression inclut également le Seuil pour le Type de données. Donc, quand le Seuil est supérieur à 1, la valeur doit apparaître au moins ce nombre de fois pour que le test réussisse.

Pour créer un Type de données Regex défini par l'utilisateur :

Dans le menu de navigation, sélectionnez Sécurité > Types de données & Profils, et sélectionnez l'onglet Types de données.
Cliquez sur Nouveau puis sélectionnez Nouvelle expression régulière.
Entrez le Nom et la Description pour le mot-clé.
Sélectionnez le Seuil, le nombre minimum de fois que le texte qui correspond à l'Expression apparaît dans le fichier.
Dans Expression, entrez l'expression régulière pour ce Type de données.
(Optionnel) Développez Valider l'expression, entrez le texte et cliquez sur Test.
Cliquez sur Appliquer.

Opérateurs et quantificateurs pris en charge

Voici les opérateurs et quantificateurs d'expression régulière qui sont pris en charge pour les Types de données Regex définis par l'utilisateur :

Opérateurs	Modèle correspondant
\	Citez le méta-caractère suivant
^	Correspond à le début d'une ligne
$	Correspond à la fin d'une ligne
.	Correspond à n'importe quel caractère unique
\|	Alternative
()	Les groupes de capture ne sont pas pris en charge. Les parenthèses peuvent être utilisées pour délimiter des sous-expressions.
[xy]	Correspond à un seul caractère parmi ceux donnés entre les crochets
[x-z]	La plage de caractères entre x et z
[^z]	N'importe quel caractère sauf z

Quantificateurs	Modèle correspondant
*	Correspond 0 fois ou plus (voir la note ci-dessous)
+	Correspond 1 fois ou plus (voir la note ci-dessous)
?	Correspond 0 ou 1 fois
{n}	Correspond exactement n fois
{n,}	Correspond au moins n fois
{n,m}	Correspond au moins n fois, mais pas plus de m

Remarque

Remarque: L'utilisation de quantificateurs voraces non restreints de caractères arbitraires tels que, .* ou .+ ne sont pas autorisés. Si vous essayez d'inclure les caractères dans une classe ou un ensemble, inversez-les. Par exemple, *.

Au lieu d'utiliser ces quantificateurs voraces, vous pouvez utiliser .{1,50} qui prend en charge jusqu'à 50 caractères pour chaque mot-clé ou modèle pour le type de données regex

Création de Classificateurs ML Définis par l'utilisateur

Pour augmenter la protection des documents spécialisés pertinents pour votre secteur ou entreprise, vous pouvez créer votre propre Classificateur ML défini par l'utilisateur.

Lire plus

Les Classificateurs ML définis par l'utilisateur réduisent significativement les faux positifs et améliorent l'efficacité globale et la précision du moteur DLP. Utilisant un modèle de similarité avancé de science des données, les classificateurs ML offrent une meilleure adaptabilité et précision dans la détection des données sensibles, car ils peuvent apprendre et évoluer dynamiquement en fonction de motifs de données changeants.

Entraînement des Classificateurs ML Définis par l'utilisateur

En téléchargeant des fichiers texte comme échantillons des documents que vous souhaitez protéger, vous pouvez entraîner un modèle d'apprentissage automatique qui peut identifier des documents similaires en temps réel, empêchant l'exfiltration non autorisée des données. Le modèle d'apprentissage automatique est basé sur le texte à l'intérieur d'un fichier, les images ou vidéos sont ignorées.

Exigences de fichier pour les Classificateurs ML

Seul le contenu en anglais est utilisé pour entraîner le modèle ML
Types de fichiers pris en charge : DOC, XLS, CSV, TXT, et PDF
Un maximum de 10 fichiers peut être téléchargé
Le fichier contient un minimum de 100 mots

Téléversement de Fichiers pour Créer un Classificateur ML Défini par l'utilisateur

Téléversez les fichiers d'échantillon vers le CMA pour entraîner le modèle ML pour votre Type de données défini par l'utilisateur. Nous recommandons de téléverser au moins 5 fichiers pour entraîner précisément le modèle d'apprentissage automatique pour protéger vos documents.

Vers téléversement des documents pour le Classificateur ML:

Dans le menu de navigation, sélectionnez Sécurité > Types de Données & Profils.
Sur l'onglet Types de Données, cliquez sur Classificateurs ML définis par l'utilisateur.
Cliquez sur Nouveau.
Entrez un Nom et une Description pour le classificateur et cliquez sur Enregistrer et continuer.
Ajoutez les fichiers que vous souhaitez utiliser pour entraîner le modèle.
(Optionnel) Validez le modèle en téléversant un fichier exemple et cliquez sur Valider.
Cliquez sur Sauvegarder.

Validation des Types de Données et Meilleures Pratiques

Pour chaque Type de Données DLP, vous pouvez valider que le moteur DLP reconnaît et fait correspondre les données sensibles dans un fichier de test. La fonctionnalité de validation est intégrée dans les profils d'étiquettes prédéfinis, définis par l'utilisateur et de sensibilité situés sur la page Types de Données & Profils. Avec soit un mot-clé nouveau ou existant, un dictionnaire ou une chaîne REGEX, vous pouvez téléverser un document qui testera vos paramètres avant de déployer le nouveau type de données. Vous pouvez également valider les types de données prédéfinis et les étiquettes de sensibilité.

Un des principaux usages de l'outil de validation DLP est de vérifier vos paramètres DLP pour s'assurer que les mots-clés et les chaînes d'informations (via regex) sont correctement détectés en utilisant les données saisies pour ce jeu de données particulier. Un autre cas d'utilisation clé est que vous pouvez téléverser des documents exemples à la règle pour voir si le type de fichier et le formatage vont être scannés correctement pour détecter les données prescrites pour les types de données.

Pour le dépannage et la capacité de prise en charge pour les cas où le fichier ne correspond pas au type de données, vous pouvez télécharger un fichier texte analysé du contenu tel qu'extrait par le moteur DLP.

La procédure suivante est un exemple de validation d'un type de données Dictionnaire:

Pour valider un type de données Dictionnaire avec un fichier de test:

Dans le menu de navigation, sélectionnez Sécurité > Types de Données & Profils, puis sélectionnez l'onglet Types de Données.
Placez la souris dans la ligne d'un type de données Dictionnaire et cliquez sur l'icône de modification. Le panneau Modifier le jeton d'accès s'ouvre.
Cliquez sur Valider le Dictionnaire. Le panneau Valider le Dictionnaire s'ouvre.
Téléversez un fichier de test, puis cliquez sur Analyser le fichier. Les résultats de l'analyse sont affichés.
Pour télécharger un fichier texte du contenu extrait par le moteur DLP, cliquez sur Exporter le texte extrait.

Bonnes Pratiques pour les Types de Données Définis par l'Utilisateur

Lorsque vous implémentez la politique, ou ajoutez une nouvelle application avec l'action Bloquer:
- Utilisez l'action Surveiller pour la règle.
- Examinez les événements que la règle génère et assurez-vous qu'il n'y a pas d'événements pour le trafic que vous souhaitez autoriser (trafic faux positif).
- S'il y a du trafic faux positif, vous pouvez apporter ces modifications:
  - Affinez la portée de la règle pour exclure le trafic faux positif
  - Créez une nouvelle règle d'autorisation avant la règle de blocage, et la portée de la nouvelle règle est uniquement pour le trafic faux positif
  - Affinez l'expression régulière et assurez-vous de la valider avec un exemple précis du contenu que vous analysez
Rappelez-vous que la politique de Contrôle d'Application est une politique ordonnée, et la règle implicite finale est ANY ANY Accept. Ajoutez des règles à la politique pour bloquer le trafic d'application pertinent, les activités et les critères.

Limitations Connues

Pour des informations sur les exigences de fichier, voir Qu'est-ce que le service DLP de Cato?
- Pour certains téléchargements compressés au format gzip, la taille du fichier pour DLP est calculée en fonction du fichier compressé. Si la taille du fichier compressé est inférieure à 1kb, il ne sera pas scanné.
Il y a une limite maximale de 256 caractères pour une expression régulière.
Les fichiers encodés en Base64 ne sont pas pris en charge, et le moteur DLP ne peut pas inspecter le contenu de ces fichiers.

Travailler avec des Types de Données Personnalisés pour DLP

Vue d'ensemble des Types de Données DLP Personnalisés de Cato

Création manuelle d'Étiquettes de Sensibilité dans Cato DLP

Lire plus

Remarque

Création de Types de Données Utilisateurs Définis

Lire plus

Création de Nouveaux Types de Données Mot-clé et Dictionnaire

Limites de Mots pour les Types de Données Mot-clé et Dictionnaire

Créer de nouveaux types de données Regex

Opérateurs et quantificateurs pris en charge

Remarque

Création de Classificateurs ML Définis par l'utilisateur

Lire plus

Entraînement des Classificateurs ML Définis par l'utilisateur

Exigences de fichier pour les Classificateurs ML

Téléversement de Fichiers pour Créer un Classificateur ML Défini par l'utilisateur

Validation des Types de Données et Meilleures Pratiques

Bonnes Pratiques pour les Types de Données Définis par l'Utilisateur

Limitations Connues

Cet article vous a-t-il été utile ?

0 commentaire