Trabajando con Tipos de Datos Personalizados para DLP

Este artículo explica cómo crear tipos de datos personalizados para identificar datos sensibles en su organización para la política de DLP.

Resumen de Tipos de Datos de DLP Personalizados de Cato

Cato proporciona cientos de tipos de datos y categorías predefinidos listos para usar para escenarios típicos de políticas de DLP. Sin embargo, a veces las organizaciones requieren la capacidad de crear tipos de datos definidos personalizados para coincidir con inspección específica de datos que no está cubierta por el tipo predefinido.

Puede definir los siguientes tipos de datos personalizados para personalizar la inspección de contenido para sus políticas de implementación de DLP:

Use Etiquetas de Sensibilidad de Microsoft desde el marco de Protección de Información de Microsoft (MIP) en su política de implementación de DLP de Cato.
Tipos de datos definidos por el usuario que incluyen:
- Use palabras clave para definir elementos que contienen una palabra o frase que el motor de detección DLP busca.
- Los diccionarios son contenedores que contienen hasta 50 palabras o frases, y el motor de detección DLP busca coincidir con cualquier elemento único en el diccionario.
- Los tipos de datos regex le permiten ingresar expresiones regulares que definen el contenido que el motor de detección DLP busca.
Clasificadores de aprendizaje automático personalizado
Los perfiles de Coincidencia Exacta de Datos (EDM) le permiten definir datos específicos para la coincidencia de contenido en lugar de patrones generales de datos. Para más información sobre perfiles de EDM, vea Trabajando con Coincidencia Exacta de Datos (EDM) para DLP.

Después de crear el Tipo de Datos Definido por el Usuario o Etiqueta de Sensibilidad, puede agregarlos a Perfiles de Contenido de DLP existentes o crear nuevos.

Creando Etiquetas de Sensibilidad Manualmente en DLP de Cato

Puede definir datos sensibles con etiquetas MIP y luego usar las etiquetas MIP como los tipos de datos en su política de implementación de DLP de Cato.

Leer más

Después de crear las Etiquetas de Sensibilidad en la Aplicación de Gestión de Cato, puede agregarlas a Perfiles de Contenido. A continuación, puede crear reglas de DLP para gestionar el acceso al contenido para diferentes usuarios y grupos según las etiquetas MIP.

Por ejemplo, si tiene archivos con la etiqueta MIP Clasificada, cree la etiqueta en su política de implementación de DLP de Cato y agréguela al Perfil de Contenido Documentos restringidos. Luego define una regla de DLP que bloquee el acceso para grupos de usuarios sin autorización de seguridad suficiente.

El motor de detección DLP escanea las etiquetas definidas en los metadatos del archivo y no en el contenido real, lo que ayuda a reducir los resultados de falsos positivos. El motor de detección aplica la Etiqueta de Sensibilidad según el ID de Etiqueta que configure, no según el Nombre. Asegúrese de que el ID de Etiqueta de la Etiqueta de Sensibilidad coincida exactamente con el ID de etiqueta MIP. Para obtener más información sobre cómo encontrar los ID de las etiquetas MIP para la cuenta de su organización, consulte la documentación de Microsoft.

Nota

Nota: Los archivos deben estar etiquetados con MIP para ser gestionados por este tipo de datos. Para comprobar si un archivo está etiquetado correctamente, utilice la herramienta de validación DLP.

Para crear una Etiqueta de Sensibilidad:

Desde el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles, y seleccione la pestaña Tipos de Datos.
En Etiquetas de Sensibilidad, haga clic en Nuevo. Se abre el panel Agregar Etiqueta de Sensibilidad.
Ingrese el Nombre y Descripción para la etiqueta.
Ingrese el mismo ID de Etiqueta que el ID de etiqueta MIP.
Haga clic en Aplicar.

Creando Tipos de Datos Definidos por el Usuario

Los tipos de datos definidos por el usuario pueden ser una Palabra Clave, Diccionario, expresión regex.

Leer más

Creando Nuevos Tipos de Datos de Palabra Clave y Diccionario

Crear una palabra clave personalizada o un diccionario para el contenido sensible personalizado que el motor de detección DLP está buscando. Para diccionarios, puede mantener las entradas en un archivo CSV y luego pegarlas como los valores para ese diccionario.

El motor de detección DLP busca una coincidencia exacta de cada palabra clave o entrada de diccionario.
Una palabra clave debe contener al menos 8 caracteres (ya sea de byte único o multibyte)
No hay límite superior para el número de palabras o caracteres en una palabra clave.
Las palabras clave y los diccionarios NO son sensibles a mayúsculas y minúsculas.
Las entradas en un diccionario tienen una relación OR entre ellas.
Las frases deben ser una coincidencia exacta en cada palabra, por ejemplo, la frase salud cuidados no coincide con saludcuidados.

Así que para un diccionario, crearías los siguientes tres valores para coincidir con las palabras anteriores: salud, cuidados, saludcuidados.
Las palabras y frases se identifican según los límites de palabra estándar, por ejemplo, un espacio después de una palabra. Debe haber límites antes y después de la palabra para que sea detectada. Para una lista completa de los límites de palabras soportados, vea abajo Límites de Palabra para Tipos de Datos de Palabra Clave y Diccionario.
- Para detectar palabras multibyte, recomendamos usar un tipo de datos Regex, porque típicamente no hay límite antes y después.

Trabajando con Umbrales

Puede definir el Umbral para cada tipo de datos definido por el usuario, el número de veces que la palabra clave o diccionario coincide en un archivo. Cuando coincide o excede el Umbral, entonces el archivo coincide con la regla de Control de Datos (en la página de Seguridad > Control de Aplicaciones).

Palabras clave - El Umbral para palabras clave busca repeticiones que sean una coincidencia exacta de esa palabra o frase.
- Por ejemplo, para la palabra clave manzana con un Umbral de 3. Si un archivo contiene 3 instancias de la palabra manzana, entonces ese archivo es bloqueado.
Diccionario - El Umbral para diccionarios busca repeticiones de CUALQUIER valor en ese diccionario.
- Por ejemplo, si el diccionario contiene las entradas manzana y naranja con un Umbral de 3. Si un archivo contiene 2 instancias de la palabra manzana y 1 instancia de la palabra naranja, el archivo es bloqueado.
  
  También, si un archivo contiene 3 instancias de la palabra manzana y 0 instancias de la palabra naranja, el archivo es bloqueado.

Para crear un tipo de datos definido por el usuario:

Desde el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles, y seleccione la pestaña Tipos de Datos.
En Definido por el usuario, haga clic en Nuevo y luego seleccione Nueva Palabra Clave o Nuevo Diccionario.
Para crear una Nueva Palabra Clave:
1. Ingrese el Nombre y Descripción para la palabra clave.
2. Seleccione el Umbral, el número mínimo de veces que la palabra clave aparece en el archivo.
3. Ingrese la Palabra Clave/Frase.
4. Haga clic en Aplicar.
Para crear un Nuevo Diccionario:
1. Ingrese el Nombre y Descripción para el diccionario.
2. Seleccione el Umbral, el número mínimo de veces que una de las entradas del diccionario aparece en el archivo.
3. Agregue (o pegue) uno o más valores para el diccionario. Los valores múltiples deben estar separados por comas.
4. Haga clic en Aplicar.

Límites de Palabra para Tipos de Datos de Palabra Clave y Diccionario

Para coincidir con una palabra clave o frase, el motor de detección DLP utiliza límites de palabra estándar para identificar el final de cada palabra. Estos son los caracteres que el motor de detección reconoce como límites de palabra:

([\s,.:;“‘]|^)

Crear Nueva expresión regular Tipos de Datos

Use expresiones regulares para definir el Tipo de contenido que coincide con el Tipo de Datos. Por ejemplo, las fórmulas de regex permiten coincidir fácilmente un ID corporativo personalizado con un número específico de dígitos. Cada Tipo de Datos de Regex admite una sola expresión regular, por lo que si necesita utilizar múltiples expresiones regulares, cree un tipo de datos separado para cada expresión.

Use límites de palabras en la expresión para definir correctamente el contenido que coincide con el Tipo de Datos.

El motor de regex se basa en UTF-8 y admite caracteres para contenido no inglés.

Umbrales de Regex

Puede definir el Umbral para la expresión, el número de veces que el contenido aparece en un archivo. Cuando coincide o supera el Umbral, el archivo coincide con la regla de control de datos.

Por ejemplo, si creó una expresión para un ID con un Umbral de 5, entonces solo los archivos que contengan el ID cinco veces o más se bloquearían.

Validando Expresiones Regulares

Puede usar el campo Validar Expresión para probar la expresión y asegurarse de que coincida correctamente con el contenido. Cuando hace clic en Prueba, el servicio DLP verifica si el contenido coincide con la expresión regular. Este es el mismo servicio que funciona en Cato Cloud, por lo que los resultados de la prueba son el mismo comportamiento que verá en su cuenta.

Validar la expresión también incluye el Umbral para el Tipo de Datos. Entonces, cuando el Umbral es mayor que 1, el valor debe aparecer al menos ese número de veces para que la prueba tenga éxito.

Para crear un Tipo de Datos Regex definido por el usuario:

Desde el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles, y seleccione la pestaña Tipos de Datos.
Haga clic en Nuevo y luego seleccione Nueva expresión regular.
Introduzca el Nombre y Descripción para la palabra clave.
Seleccione el Umbral, el número mínimo de veces que el texto que coincide con la Expresión aparece en el archivo.
En Expresión, ingrese la expresión regular para este Tipo de Datos.
(Opcional) Expanda Validar Expresión, ingrese el texto y haga clic en Prueba.
Haga clic en Aplicar.

Operadores y Cuantificadores Admitidos

Estos son los operadores y cuantificadores de expresiones regulares que se admiten para los Tipos de Datos Regex definidos por el usuario:

Operadores	Coincidencia de Patrón
\	Citar el siguiente metacarácter
^	Coincidencia al principio de una línea
$	Coincidencia al final de una línea
.	Coincide con cualquier carácter único
\|	Alternación
()	Los grupos de captura no son compatibles. Se pueden usar paréntesis para delimitar subexpresiones.
[xy]	Coincide con un solo carácter de los dados entre corchetes
[x-z]	El rango de caracteres entre x y z
[^z]	Cualquier carácter excepto z

Cuantificadores	Coincidencia de Patrón
*	Coincide 0 o más veces (ver nota abajo)
+	Coincide 1 o más veces (ver nota abajo)
?	Coincide 0 o 1 vez
{n}	Coincide exactamente n veces
{n,}	Coincide al menos n veces
{n,m}	Coincide al menos n veces, pero no más de m

Nota

Nota: El uso de cuantificadores codiciosos ilimitados de caracteres arbitrarios como, .* o .+ no están permitidos. Si está intentando incluir los caracteres en una clase o conjunto, reviértalos. Por ejemplo, *.

En lugar de usar estos cuantificadores codiciosos, puede utilizar .{1,50} que admite hasta 50 caracteres para cada palabra clave o patrón para el tipo de datos de regex

Creación de Clasificadores ML Definidos por el Usuario

Para aumentar la protección de documentos especializados relevantes para su industria o empresa, puede crear su propio clasificador de aprendizaje automático (ML) definido por el usuario.

Leer más

Los clasificadores ML definidos por el usuario reducen significativamente los falsos positivos y mejoran la eficacia y precisión general del motor de DLP. Utilizando un modelo avanzado de ciencia de datos de similitud, los clasificadores ML ofrecen mejor adaptabilidad y precisión en la detección de datos sensibles, ya que pueden aprender y evolucionar dinámicamente con patrones de datos cambiantes.

Entrenamiento de Clasificadores ML Definidos por el Usuario

Al cargar archivos de texto como muestras de los documentos que desea proteger, puede entrenar un modelo de aprendizaje automático que pueda identificar documentos similares en tiempo real, previniendo la exfiltración de datos no autorizados. El modelo de aprendizaje automático se basa en el texto dentro de un archivo, las imágenes o videos se ignoran.

Requisitos de Archivo para Clasificadores ML

Solo el contenido en inglés se utiliza para entrenar el modelo de ML.
Tipos de archivo admitidos: DOC, XLS, CSV, TXT y PDF.
Se puede cargar un máximo de 10 archivos.
El archivo contiene un mínimo de 100 palabras.

Cargando archivos para crear un clasificador ML definido por el usuario

Suba los archivos de muestra al CMA para entrenar el modelo de ML para su Tipo de Datos definido por el usuario. Recomendamos cargar al menos 5 archivos para entrenar con precisión el modelo de aprendizaje automático para proteger sus documentos.

Subir documentos para el Clasificador ML.

Desde el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles.
En la pestaña Tipos de Datos, haga clic en Clasificadores ML definidos por el usuario.
Haga clic en Nuevo.
Ingrese un Nombre y una Descripción para el clasificador y haga clic en Guardar y Continuar.
Agregue los archivos con los que desea entrenar el modelo.
(Opcional) Valide el modelo subiendo un archivo de ejemplo y haga clic en Validar.
Haz clic en Guardar.

Validación de Tipos de Datos y Mejores Prácticas

Para cada Tipo de Datos DLP, puede validar que el motor DLP reconozca y coincida los datos sensibles en un archivo de prueba. La función de validación está incorporada en los perfiles predefinidos, definidos por el usuario y etiquetas de sensibilidad ubicadas en la página Tipos de Datos & Perfiles. Con una palabra clave nueva o existente, diccionario o cadena REGEX, puede subir un documento que probará sus ajustes antes de implementar el nuevo tipo de datos. También puedes validar los tipos de datos predefinidos y las etiquetas de sensibilidad.

Una de las principales utilidades de la herramienta de validación DLP es verificar la configuración de DLP para asegurarse de que las palabras clave y cadenas de información (vía regex) se detectan correctamente utilizando los datos introducidos para ese conjunto de datos en particular. Otro caso de uso clave es que puede subir documentos de muestra a la regla para ver si el tipo de archivo y formato se escanearán correctamente para detectar los datos prescritos para los tipos de datos.

Para la solución de problemas y la capacidad de soporte en casos donde el archivo no coincide con el tipo de datos, puede descargar un archivo de texto analizado del contenido según lo extraído por el motor DLP.

El siguiente es un procedimiento de ejemplo para validar un tipo de datos de Diccionario:

Para validar un tipo de datos de Diccionario con un archivo de prueba:

Desde el menú de navegación, seleccione Seguridad > Tipos de Datos & Perfiles, y seleccione la pestaña Tipos de Datos.
Pase el ratón sobre la fila de un tipo de datos de Diccionario y haga clic en el icono de edición. Se abre el panel Editar.
Haga clic en Validar Diccionario. Se abre el panel Validar Diccionario.
Suba un archivo de prueba y haga clic en Escanear Archivo. Se muestran los resultados del escaneo.
Para descargar un archivo de texto del contenido extraído por el motor de DLP, haga clic en Exportar Texto Extraído.

Mejores Prácticas para Tipos de Datos Definidos por el Usuario

Cuando implemente la política, o agregue una nueva aplicación con la acción Bloquear:
- Use la acción Monitorear para la regla.
- Revise los eventos que genera la regla y asegúrese de que no haya eventos para el tráfico que desea permitir (tráfico falso positivo).
- Si hay tráfico falso positivo, puede realizar estos cambios:
  - Mejore el alcance de la regla para excluir el tráfico falso positivo.
  - Cree una nueva regla de permitir antes de la regla de bloque, y el alcance de la nueva regla es solo para el tráfico falso positivo.
  - Refine la expresión regular y asegúrese de validarla con un ejemplo preciso del contenido que está escaneando.
Recuerde que la política de Control de Aplicaciones es una política ordenada, y la regla implícita final es CUALQUIERA CUALQUIERA Aceptar. Agregue reglas a la política para bloquear el tráfico relevante de aplicaciones, actividades y criterios.

Limitaciones conocidas

Para información sobre los requisitos de archivo, consulte What is the Cato DLP Service
- Para algunas descargas comprimidas en formato gzip, el tamaño del archivo para DLP se calcula en base al archivo comprimido. Si el tamaño del archivo comprimido es menor que 1kb no se escaneará.
Hay un límite máximo de 256 caracteres para una expresión regular.
Los archivos codificados en Base64 no son compatibles y el motor DLP no puede inspeccionar el contenido de estos archivos.

Trabajando con Tipos de Datos Personalizados para DLP

Resumen de Tipos de Datos de DLP Personalizados de Cato

Creando Etiquetas de Sensibilidad Manualmente en DLP de Cato

Leer más

Nota

Creando Tipos de Datos Definidos por el Usuario

Leer más

Creando Nuevos Tipos de Datos de Palabra Clave y Diccionario

Límites de Palabra para Tipos de Datos de Palabra Clave y Diccionario

Crear Nueva expresión regular Tipos de Datos

Operadores y Cuantificadores Admitidos

Nota

Creación de Clasificadores ML Definidos por el Usuario

Leer más

Entrenamiento de Clasificadores ML Definidos por el Usuario

Requisitos de Archivo para Clasificadores ML

Cargando archivos para crear un clasificador ML definido por el usuario

Validación de Tipos de Datos y Mejores Prácticas

Mejores Prácticas para Tipos de Datos Definidos por el Usuario

Limitaciones conocidas

¿Fue útil este artículo?

0 comentarios