Este artículo explica cómo crear tipos de datos personalizados para identificar datos sensibles en su organización para la política de DLP.
Cato proporciona cientos de tipos de datos y categorías predefinidos para escenarios típicos de políticas de DLP. Sin embargo, a veces las organizaciones requieren la capacidad de crear tipos de datos personalizados para coincidir con inspecciones de datos específicos que no están cubiertos por los tipos predefinidos.
Puede definir los siguientes tipos de datos personalizados para personalizar la inspección de contenido para sus políticas de DLP:
-
Usar Etiquetas de Sensibilidad de Microsoft desde el marco de Protección de la Información de Microsoft (MIP) en su política de DLP de Cato
-
Tipos de datos definidos por el usuario incluyendo:
-
Usar palabras clave para definir elementos que contengan una palabra o frase que el motor de DLP busca
-
Los contenedores son contenedores que contienen hasta 50 palabras o frases, y el motor de detección DLP busca coincidir cualquier artículo en el diccionario
-
Los tipos de datos Regex le permiten ingresar expresiones regulares que definen el contenido que el motor de DLP busca
-
-
Clasificadores de aprendizaje automático personalizados
-
Los perfiles de Coincidencia Exacta de Datos (EDM) le permiten definir datos específicos para la coincidencia de contenido en lugar de patrones de datos generales. Para más información sobre perfiles de EDM, vea Trabajando con Coincidencia Exacta de Datos (EDM) para DLP.
Después de crear el Tipo de Datos Definido por el Usuario o Etiqueta de Sensibilidad, puede agregarlos a Perfiles de Contenido de DLP existentes o crear nuevos.
Puede definir datos sensibles con etiquetas MIP y luego usar las etiquetas MIP como tipos de datos en su política DLP de Cato.
Después de crear las Etiquetas de Sensibilidad en la Aplicación de Gestión de Cato, puede agregarlas a Perfiles de Contenido. Luego puede crear reglas de DLP para gestionar el acceso al contenido para diferentes usuarios y grupos de acuerdo con las etiquetas MIP.
Por ejemplo, si tiene archivos con la etiqueta MIP Clasificado, cree la etiqueta en su política de DLP de Cato y agrégela al Perfil de Contenido Documentos Restringidos. Luego defina una regla de DLP que bloquee el acceso para grupos de usuarios sin nivel de seguridad suficiente.
El motor de DLP escanea las etiquetas definidas en los metadatos del archivo y no en el contenido real, lo que ayuda a reducir los falsos positivos. El motor aplica la Etiqueta de Sensibilidad según el ID de Etiqueta que configure, no según el Nombre. Asegúrese de que el ID de Etiqueta de la Etiqueta de Sensibilidad coincida exactamente con el ID de etiqueta MIP. Para más información sobre cómo encontrar los IDs de etiqueta MIP para la cuenta de su organización, consulte la documentación de Microsoft.
Nota
Nota: Los archivos deben estar etiquetados por MIP para ser gestionados por este tipo de datos. Para verificar si un archivo está etiquetado correctamente, utilice la herramienta de validación DLP.
Para crear una Etiqueta de Sensibilidad:
-
En el menú de navegación, seleccione Seguridad > Tipos de datos & Perfiles, y seleccione la pestaña Tipos de datos.
-
En Etiquetas de Sensibilidad, haga clic en Nuevo. Se abre el panel Agregar Etiqueta de Sensibilidad.
-
Ingrese el Nombre y la Descripción para la etiqueta.
-
Ingrese el mismo ID de Etiqueta que el ID de etiqueta MIP.
-
Haga clic en aplicar.
Los tipos de datos definidos por el usuario pueden ser una Palabra Clave, Diccionario o expresión regex.
Cree una palabra clave o diccionario personalizado para el contenido sensible personalizado que el motor de DLP está buscando. Para diccionarios, puede mantener las entradas en un archivo CSV y luego pegarlas como los valores de ese diccionario.
-
El motor de DLP busca una coincidencia exacta de cada entrada de palabra clave o diccionario
-
Una palabra clave debe contener al menos 8 caracteres (ya sea de un solo byte o multibyte)
-
No hay límite superior para el número de palabras o caracteres en una palabra clave
-
Las palabras clave y los diccionarios NO son sensibles a mayúsculas y minúsculas
-
Las entradas en un diccionario tienen una relación OR entre ellas
-
Las frases deben coincidir exactamente en cada palabra, por ejemplo, la frase health care no coincide con healthcare
Entonces, para un diccionario, crearía los siguientes tres valores para coincidir con las palabras anteriores: health, care, healthcare
-
Las palabras y frases son identificadas según los límites de palabras estándar, por ejemplo, un espacio después de una palabra. Debe haber límites antes y después de la palabra para que sea detectada. Para una lista completa de las delimitaciones de palabras compatibles, vea a continuación Delimitaciones de palabras para Tipos de Datos de Palabra Clave y Diccionario
-
Para detectar palabras multibyte, recomendamos usar un Tipo de Datos Regex, porque típicamente no hay una delimitación antes y después
-
Trabajando con Umbrales
Puede definir el Umbral para cada tipo de datos definido por el usuario, el número de veces que la palabra clave o el diccionario coinciden en un archivo. Cuando coincide o supera el Umbral, entonces el archivo coincide con la regla de Control de Datos (en la página de Seguridad > Control de Aplicación).
-
Palabras clave - El Umbral para las palabras clave busca repeticiones que sean una coincidencia exacta de esa palabra o frase.
-
Por ejemplo, para la palabra clave manzana con un Umbral de 3. Si un archivo contiene 3 instancias de la palabra manzana, entonces ese archivo es bloqueado.
-
-
Diccionario - El Umbral para los diccionarios busca repeticiones de CUALQUIER valor en ese diccionario.
-
Por ejemplo, si el diccionario contiene las entradas manzana y naranja con un Umbral de 3. Si un archivo contiene 2 instancias de la palabra manzana y 1 instancia de la palabra naranja, el archivo es bloqueado.
Además, si un archivo contiene 3 instancias de la palabra manzana y 0 instancia de la palabra naranja, el archivo es bloqueado.
-
Para crear un tipo de datos definido por el usuario:
-
En el menú de navegación, seleccione Seguridad > Tipos de datos & Perfiles, y seleccione la pestaña Tipos de datos.
-
En Definido por el usuario, haga clic en Nuevo y luego seleccione Nueva Palabra Clave o Agregar nuevo diccionario.
-
Para crear una Nueva Palabra Clave:
-
Ingrese el Nombre y la Descripción para la palabra clave.
-
Seleccione el Umbral, el número mínimo de veces que la palabra clave aparece en el archivo.
-
Ingrese la Palabra clave/Frase.
-
Haga clic en Aplicar.
-
-
Para crear un Nuevo Diccionario:
-
Seleccione el Umbral, el número mínimo de veces que uno de los elementos del diccionario aparece en el archivo.
-
Agregue (o pegue) uno o más valores para el diccionario. Los valores múltiples deben estar separados por comas.
-
Haga clic en Aplicar.
Utilice expresiones regulares para definir el tipo de contenido que coincide con el tipo de datos. Por ejemplo, las fórmulas regex le permiten coincidir fácilmente con un ID corporativo personalizado con un número específico de dígitos. Cada tipo de datos Regex admite una sola expresión regular, por lo que si necesita usar múltiples expresiones, cree un tipo de datos separado para cada expresión.
Utilice límites de palabras en la expresión para definir correctamente el contenido que coincide con el tipo de datos.
El motor de regex se basa en UTF-8 y admite caracteres para contenido no inglés.
Umbrales de Regex
Puede definir el Umbral para la expresión, el número de veces que el contenido aparece en un archivo. Cuando coincide o excede el Umbral, entonces el archivo coincide con la Regla de control de datos.
Por ejemplo, si creó una expresión para un ID con un Umbral de 5, entonces solo se bloquearán los archivos que contengan el ID cinco o más veces.
Validación de expresiones regulares
Puede utilizar el campo Validar Expresión para probar la expresión y asegurarse de que coincide correctamente con el contenido. Cuando hace clic en Prueba, el servicio DLP verifica si el contenido coincide con la expresión regular. Este es el mismo servicio que se ejecuta en la nube de Cato, por lo que verá los mismos resultados de prueba en su cuenta.
La validación de la expresión también incluye el Umbral para el tipo de datos. Por lo tanto, cuando el Umbral es mayor que 1, el valor debe aparecer al menos tantas veces para que la prueba tenga éxito.
Para crear un Tipo de Datos de Regex Definido por el Usuario:
-
En el menú de navegación, seleccione Seguridad > Tipos de datos & Perfiles, y seleccione la pestaña Tipos de datos.
-
Haga clic en Nuevo y luego seleccione Nueva expresión regular.
-
Ingrese el Nombre y la Descripción para la palabra clave.
-
Seleccione el Umbral, el número mínimo de veces que el texto que coincide con la Expresión aparece en el archivo.
-
En Expresión, ingrese la expresión regular para este tipo de datos.
-
(Opcional) Expanda Validar Expresión, ingrese el texto y haga clic en Prueba.
-
Haga clic en Aplicar.
Estos son los operadores y cuantificadores de expresiones regulares que se admiten para los tipos de datos Regex Definidos por el Usuario:
Operadores |
Patrón coincidente |
---|---|
\ |
Citar el siguiente metacaracter |
^ |
Coincidencia con el inicio de una línea |
$ |
Coincidir con el fin de una línea |
. |
Coincide con cualquier carácter único |
| |
Alternación |
() |
Los grupos de captura no son compatibles. Se pueden usar paréntesis para delimitar subexpresiones. |
[xy] |
Coincide con un solo carácter de los indicados entre los corchetes |
[x-z] |
El rango de caracteres entre x y z |
[^z] |
Cualquier carácter excepto z |
Cuantificadores |
Patrón Coincidente |
---|---|
* |
Coincide 0 o más veces (ver nota abajo) |
+ |
Coincide 1 o más veces (ver nota abajo) |
? |
Coincide 0 o 1 vez |
{n} |
Coincide exactamente n veces |
{n,} |
Coincide al menos n veces |
{n,m} |
Coincide al menos n veces, pero no más de m |
Nota
Nota: No se permite el uso de cuantificadores voraces ilimitados de caracteres arbitrarios como, .* o .+. Si está intentando incluir los caracteres en una clase o conjunto, inviértalos. Por ejemplo, *.
En lugar de usar estos cuantificadores voraces, puede usar .{1,50} que admite hasta 50 caracteres para cada palabra clave o patrón para el tipo de dato regex
To increase the protection of specialized documents relevant to your industry or company, you can create your own user defined Machine Learning (ML) Classifier.
Los Clasificadores ML definidos por el usuario reducen considerablemente los falsos positivos y mejoran la eficacia y precisión globales del motor DLP. Usando un modelo avanzado de similitud de ciencia de datos, los Clasificadores ML ofrecen mejor adaptabilidad y precisión en la detección de datos sensibles, ya que pueden aprender y evolucionar dinámicamente con patrones de datos cambiantes.
Cargando archivos de texto como muestras de los documentos que desea proteger, puede entrenar un modelo de aprendizaje automático que puede identificar documentos similares en tiempo real, evitando la exfiltración de datos no autorizados. El modelo de aprendizaje automático se basa en el texto dentro de un archivo, se ignoran imágenes o videos.
Cargue los archivos de muestra al CMA para entrenar el modelo ML para su Tipo de Datos Definido por el Usuario. Recomendamos cargar al menos 5 archivos para entrenar con precisión el modelo de aprendizaje automático para proteger sus documentos.
Para cargar documentos para el Clasificador ML:
-
En el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles.
-
En la pestaña Tipos de Datos, haga clic en Clasificadores ML Definidos por el Usuario.
-
Haga clic en Nuevo.
-
Ingrese un Nombre y una Descripción para el clasificador y haga clic en Guardar y Continuar.
-
Agregue los archivos con los que desea entrenar el modelo.
-
(Opcional) Valide el modelo cargando un archivo de ejemplo y haga clic en Validar.
-
Haz clic en Guardar.
Para cada Tipo de Datos DLP, puedes validar que el motor DLP reconoce y coincide con los datos sensibles en un archivo de prueba. La función de validación está integrada en los perfiles predefinidos, definidos por el usuario y los perfiles de etiquetas de sensibilidad ubicados en la página Tipos de Datos & Perfiles. Con cualquier palabra clave nueva o existente, diccionario o cadena REGEX, puedes subir un documento que probará tus configuraciones antes de implementar el nuevo tipo de dato. También puedes validar los tipos de datos predefinidos y las etiquetas de sensibilidad.
Uno de los usos clave de la herramienta de validación DLP es verificar tus configuraciones DLP para asegurar que las palabras clave y cadenas de información (mediante regex) están siendo detectadas correctamente utilizando los datos introducidos para ese conjunto de datos en particular. Otro caso de uso clave es que puedes subir documentos de ejemplo a la regla para ver si el tipo de archivo y el formato van a ser escaneados correctamente para detectar los datos prescritos para los tipos de datos.
Para solucionar problemas y para la capacidad de asistencia en casos donde el archivo no coincide con el tipo de datos, puedes descargar un archivo de texto parseado del contenido como fue extraído por el motor DLP.
A continuación, se presenta un procedimiento de ejemplo para validar un tipo de dato de Diccionario:
Para validar un tipo de dato de Diccionario con un archivo de prueba:
-
En el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles, y seleccione la pestaña Tipos de Datos.
-
Pase el ratón sobre la fila de un tipo de dato de Diccionario y haga clic en el icono de editar. Se abre el panel Editar.
-
Haz clic en Validar Diccionario. Se abre el panel Validar Diccionario.
-
Sube un archivo de prueba y haz clic en Escanear Archivo. Se muestran los resultados de la exploración.
-
Para descargar un archivo de texto del contenido extraído por el motor DLP, haz clic en Exportar Texto Extraído.
-
Cuando implementas la política, o añades una nueva aplicación con la acción Bloquear:
-
Usa la acción Monitor para la regla.
-
Revisa los eventos que genera la regla y asegúrate de que no hay eventos para el tráfico que quieres permitir (tráfico de falso positivo).
-
Si hay tráfico de falso positivo, puedes hacer estos cambios:
-
Refina el alcance de la regla para excluir el tráfico de falso positivo
-
Crea una nueva regla de permitir antes de la regla de bloqueo, y el alcance de la nueva regla es solo para el tráfico de falso positivo
-
Refina la expresión regular y asegúrate de que la validas con un ejemplo preciso del contenido que estás escaneando
-
-
-
Recuerda que la política de Control de Aplicaciones es una política ordenada, y la regla implícita final es CUALQUIERA CUALQUIERA Aceptar. Añade reglas a la política para bloquear el tráfico, actividades y criterios de aplicación relevantes.
-
Los límites de tamaño de archivo para la inspección de contenido están entre 1KB y 20MB. Los eventos para archivos fuera de este límite muestran el veredicto omitido debido al tamaño.
-
Para algunas descargas comprimidas en formato gzip, el tamaño del archivo para DLP se calcula basado en el archivo comprimido. Si el tamaño del archivo comprimido es menor de 1kb no será escaneado.
-
-
Hay un límite máximo de 256 caracteres para una expresión regular.
-
Los archivos codificados en Base64 no son compatibles, y el motor DLP no puede inspeccionar el contenido en estos archivos.
0 comentarios
Inicie sesión para dejar un comentario.