Trabalhando com Tipos de Dados Personalizados para DLP

Este artigo explica como criar tipos de dados personalizados para identificar dados sensíveis em sua organização para a política de DLP.

Visão geral dos Tipos de Dados de DLP Personalizados da Cato

A Cato fornece centenas de tipos de dados pré-definidos e categorias prontas para cenários típicos de políticas de DLP. No entanto, às vezes as organizações necessitam da capacidade de criar tipos de dados personalizados definidos para corresponder a inspeções de dados específicas que não são abrangidas pelo tipo pré-definido.

Você pode definir os seguintes tipos de dados personalizados para personalizar a inspeção de conteúdo para suas políticas de DLP:

  • Use Rótulos de Sensibilidade da Microsoft do framework Microsoft Information Protection (MIP) em sua política de DLP Cato

  • Tipos de dados definidos manualmente, incluindo:

    • Use palavras-chave para definir itens que contenham uma palavra ou frase que o mecanismo DLP procura

    • Os dicionários são contêineres que contêm até 50 palavras ou frases, e o motor DLP procura corresponder a qualquer item único no dicionário

    • Os tipos de dados Regex permitem inserir expressões regulares que definem o conteúdo que o motor DLP procura

  • Classificadores de aprendizagem de máquina personalizados

  • Perfis de Correspondência Exata de Dados (EDM) permitem definir dados específicos para correspondência de conteúdo em vez de padrões gerais de dados. Para mais informações sobre perfis EDM, veja Trabalhando com Correspondência Exata de Dados (EDM) para DLP.

Após criar o Tipo de Dados Definido pelo Usuário ou Etiqueta de Sensibilidade, você pode adicioná-los a Perfis de Conteúdo existentes ou criar novos.

Criando Manualmente Rótulos de Sensibilidade no DLP da Cato

Você pode definir dados sensíveis com rótulos MIP e depois usá-los como tipos de dados em sua política de DLP Cato.

Após você criar os Rótulos de Sensibilidade no Aplicativo de Gerenciamento Cato, você pode adicioná-los aos Perfis de Conteúdo. Você pode então criar regras de DLP para gerenciar o acesso ao conteúdo para diferentes usuários e grupos de acordo com rótulos MIP.

Por exemplo, se você tiver arquivos com o rótulo MIP Classificado, crie o rótulo em sua política de DLP Cato e adicione-o ao Perfil de Conteúdo Documentos Restritos. Em seguida, defina uma regra de DLP que bloqueie o acesso para grupos de usuários sem o nível de segurança suficiente.

O motor DLP escaneia os rótulos definidos nos metadados do arquivo e não no conteúdo real, o que ajuda a reduzir falsos positivos. O motor aplica o Rótulo de Sensibilidade de acordo com o ID da Etiqueta que você configurou, não de acordo com o Nome. Certifique-se que o ID da Etiqueta do Rótulo de Sensibilidade corresponde exatamente ao ID do rótulo MIP. Para mais informações sobre como encontrar os IDs das etiquetas MIP para a conta da sua organização, consulte a documentação da Microsoft.

DLP_Sensitivity_Labels.png

Nota

Nota: Os arquivos devem estar etiquetados MIP para serem geridos por este tipo de dados. Para verificar se um arquivo está etiquetado corretamente, use a ferramenta de validação de DLP.

Para criar um Rótulo de Sensibilidade:

  1. No menu de navegação, selecione Segurança > Tipos de Dados & Perfis e selecione a aba Tipos de Dados.

  2. Em Rótulos de Sensibilidade, clique em Novo. O painel Adicionar Rótulo de Sensibilidade é aberto.

  3. Digite o Nome e a Descrição para a etiqueta.

  4. Digite o mesmo ID da Etiqueta que o ID do rótulo MIP.

  5. Clique em Aplicar.

Criando Tipos de Dados Definidos pelo Usuário

Os tipos de dados definidos manualmente podem ser uma Palavra-chave, Dicionário ou expressão regex.

Criando Novos Tipos de Dados de Palavra-chave e Dicionário

Crie uma palavra-chave ou dicionário personalizado para o conteúdo sensível personalizado que o motor DLP está procurando. Para dicionários, você pode manter as entradas em um arquivo CSV e depois colá-las como os valores para esse dicionário.

  • O motor DLP procura uma correspondência exata de cada entrada de palavra-chave ou dicionário

  • Uma palavra-chave deve conter pelo menos 8 caracteres (seja byte único ou multibyte)

  • Sem limite superior para o número de palavras ou caracteres em uma palavra-chave

  • Palavras-chave e dicionários NÃO são sensíveis a maiúsculas e minúsculas

  • Entradas em um dicionário têm uma relação OU entre elas

  • Frases devem ser uma correspondência exata de cada palavra, por exemplo a frase assistência médica não corresponde a assistênciamédica

    Então, para um dicionário, você criaria os seguintes três valores para corresponder às palavras acima: saúde, cuidados, assistência médica

  • Palavras e frases são identificadas de acordo com limites de palavras padrão, por exemplo, um espaço após uma palavra. Devem existir limites antes e depois da palavra para que ela seja detectada. Para uma lista completa dos limites de palavras suportados, veja abaixo Limites de Palavras para Tipos de Dados de Palavra-chave e Dicionário

    • Para detectar palavras multibyte, recomendamos usar um tipo de dado Regex, porque normalmente não há limite antes e depois

Trabalhando com Limites

Você pode definir o Limite para cada tipo de dado Definido pelo Usuário, o número de vezes que a palavra-chave ou dicionário corresponde em um arquivo. Quando corresponde ou excede o Limite, então o arquivo corresponde à regra de Controle de Dados (na página Segurança > Controle de Aplicativos).

  • Palavras-chave - O Limite para palavras-chave busca ocorrências repetidas que sejam uma correspondência exata daquela palavra ou frase.

    • Por exemplo, para a palavra-chave maçã com um Limite de 3. Se um arquivo contiver 3 instâncias da palavra maçã, então esse arquivo será bloqueado.

  • Dicionário - O Limite para dicionários busca ocorrências repetidas de QUALQUER valor nesse dicionário.

    • Por exemplo, se o dicionário contiver as entradas maçã e laranja com um Limite de 3. Se um arquivo contiver 2 instâncias da palavra maçã e 1 instância da palavra laranja, o arquivo será bloqueado.

      Além disso, se um arquivo contiver 3 instâncias da palavra maçã e 0 instância da palavra laranja, o arquivo será bloqueado.

Para criar um tipo de dado Definido pelo Usuário:

  1. No menu de navegação, selecione Segurança > Tipos de Dados & Perfis e selecione a aba Tipos de Dados.

  2. Em Definido pelo Usuário, clique em Novo e depois selecione Nova Palavra-chave ou Novo Dicionário.

  3. Para criar uma Nova Palavra-chave:

    1. Digite o Nome e a Descrição para a palavra-chave.

    2. Selecione o Limite, o número mínimo de vezes que a palavra-chave aparece no arquivo.

    3. Digite a Palavra-chave/Frase.

    4. Clique em Aplicar.

  4. Para criar um Novo Dicionário:

    1. Digite o Nome e a Descrição para o dicionário.

    2. Selecione o Limite, o número mínimo de vezes que uma das entradas do dicionário aparece no arquivo.

    3. Adicione (ou cole) um ou mais valores para o dicionário. Vários valores devem ser separados por vírgulas.

    4. Clique em Aplicar.

New_DLP_Dictionary.png
Limites de Palavras para Tipos de Dados de Palavra-chave e Dicionário

Para corresponder uma palavra-chave ou frase, o motor DLP usa limites de palavras padrão para identificar o fim de cada palavra. Estes são os caracteres que o motor reconhece como limites de palavras:

  • ([\s,.:;“‘]|^)

Criar Novas Expressões Regulares

Usar expressões regulares para definir o tipo de conteúdo que corresponda ao Tipo de Dados. Por exemplo, fórmulas regex permitem combinar facilmente um ID corporativo personalizado com um número específico de dígitos. Cada Tipo de Dados Regex suporta uma única expressão regular, portanto, se precisar usar múltiplas expressões regulares, crie um tipo de dado separado para cada expressão.

Use limites de palavras na expressão para definir corretamente o conteúdo que corresponda ao Tipo de Dados.

O motor regex é baseado em UTF-8 e suporta caracteres para conteúdo não inglês.

Limites Regex

Você pode definir o Limite para a expressão, o número de vezes que o conteúdo aparece em um arquivo. Quando corresponde ou excede o Limite, então o arquivo corresponde à regra de Controle de Dados.

Por exemplo, se você criou uma expressão para um ID com um Limite de 5, então apenas arquivos que contêm o ID cinco ou mais vezes seriam bloqueados.

Validando Expressões Regulares

Você pode usar o campo Validar Expressão para testar a expressão e garantir que ela corresponde ao conteúdo corretamente. Quando você clica em Teste, o serviço DLP verifica se o conteúdo corresponde à expressão regular. Este é o mesmo serviço que opera na Cato Cloud, então os resultados do teste são o mesmo comportamento que você verá na sua conta.

Validar a expressão também inclui o Limite para o Tipo de Dados. Assim, quando o Limite é maior que 1, o valor deve aparecer pelo menos esse número de vezes para o teste ter sucesso.

Regex_User_Data_Type.png

Para criar um Tipo de Dados Regex Definido pelo Usuário:

  1. No menu de navegação, selecione Segurança > Tipos de Dados & Perfis, e selecione a aba Tipos de Dados.

  2. Clique em Novo e então selecione Nova Expressão Regular.

  3. Digite o Nome e Descrição para a palavra-chave.

  4. Selecione o Limite, o número mínimo de vezes que o texto que corresponde à Expressão aparece no arquivo.

  5. Em Expressão, digite a expressão regular para este Tipo de Dados.

  6. (Opcional) Expanda Validar Expressão, digite o texto e clique em Teste.

  7. Clique em Aplicar.

Operadores e Quantificadores Suportados

Estes são os operadores e quantificadores de expressões regulares que são suportados para os Tipos de Dados Regex Definidos pelo Usuário:

Operadores

Padrão de Correspondência

\

Citar o próximo meta-caractere

^

Corresponde ao início de uma linha

$

Corresponde ao fim de uma linha

.

Corresponde a qualquer caractere único

|

Alternância

()

Grupos de captura não são suportados. Parênteses podem ser usados para limitar subexpressões.

[xy]

Corresponde a um único caractere dentre os dados entre os colchetes

[x-z]

O intervalo de caracteres entre x e z

[^z]

Qualquer caractere exceto z

Quantificadores

Padrão de Correspondência

*

Corresponder 0 ou mais vezes (ver nota abaixo)

+

Corresponder 1 ou mais vezes (ver nota abaixo)

?

Corresponder 0 ou 1 vez

{n}

Corresponder exatamente n vezes

{n,}

Corresponder ao menos n vezes

{n,m}

Corresponder ao menos n vezes, mas não mais que m

Nota

Nota: O uso de quantificadores ávidos irrestritos de caracteres arbitrários como .* ou .+ não são permitidos. Se estiver tentando incluir os caracteres em uma classe ou conjunto, inverta-os. Por exemplo, *.

Em vez de usar esses quantificadores ávidos, você pode usar .{1,50} que suporta até 50 caracteres para cada palavra-chave ou padrão para o tipo de dados regex

Criando Classificadores ML Definidos pelo Usuário

Para aumentar a proteção de documentos especializados relevantes para sua indústria ou empresa, você pode criar seu próprio Classificador de Machine Learning (ML) Definido pelo Usuário.

Leia mais

Classificadores ML definidos pelo usuário reduzem significativamente falsos positivos e melhoram a eficácia e precisão geral do motor DLP. Usando um modelo avançado de similaridade de ciência de dados, os Classificadores ML oferecem melhor adaptabilidade e precisão na detecção de dados sensíveis, pois podem aprender e evoluir dinamicamente com base em padrões de dados que mudam.

Treinando Classificadores ML Definidos pelo Usuário

Ao carregar arquivos de texto como amostras dos documentos que deseja proteger, você pode treinar um modelo de aprendizado de máquina que pode identificar documentos semelhantes em tempo real, prevenindo exfiltração de dados não autorizada. O modelo de aprendizado de máquina é baseado no texto dentro de um arquivo, imagens ou vídeos são ignorados.

Requisitos de Arquivo para Classificadores ML
  • Somente conteúdo em inglês é utilizado para treinar o modelo ML

  • Tipos de arquivo suportados: DOC, XLS, CSV, TXT e PDF

  • Um máximo de 10 arquivos pode ser enviado

  • O arquivo contém um mínimo de 100 palavras

Carregando Arquivos para Criar um Classificador ML Definido pelo Usuário

Carregue os arquivos de amostra para o CMA para treinar o modelo ML para seu Tipo de Dados Definido pelo Usuário. Recomendamos o envio de pelo menos 5 arquivos para treinar com precisão o modelo de aprendizado de máquina para proteger seus documentos.

Para fazer upload de documentos para o Classificador ML:

  1. No menu de navegação, selecione Segurança > Tipos de Dados & Perfis.

  2. Na aba Tipos de Dados, clique em Classificadores ML definidos pelo usuário.

  3. Clique em Novo.

  4. Digite um Nome e uma Descrição para o classificador e clique em Salvar e Continuar.

  5. Adicione os arquivos que você deseja treinar no modelo.

  6. (Opcional) Valide o modelo fazendo upload de um arquivo de exemplo e clique em Validar.

  7. Clique em Salvar.

Validando Tipos de Dados e Melhores Práticas

Para cada Tipo de Dados DLP, você pode validar que o motor DLP reconhece e corresponde aos dados sensíveis em um arquivo de teste. O recurso de validação está embutido nos perfis predefinidos, definidos pelo usuário e de rótulos de sensibilidade localizados na página Tipos de Dados & Perfis. Com uma palavra-chave, dicionário ou string REGEX nova ou existente, você pode fazer upload de um documento que testará suas configurações antes de implantar o novo tipo de dados. Você também pode validar tipos de dados predefinidos e Rótulos de Sensibilidade.

Um dos usos principais da ferramenta de validação DLP é verificar suas configurações DLP para garantir que palavras-chave e strings de informação (via regex) estejam sendo detectadas corretamente usando os dados inseridos para aquele conjunto de dados específico. Outro caso de uso principal é que você pode fazer upload de documentos de amostra para a regra para ver se o tipo e formatação do arquivo serão escaneados corretamente para detectar os dados prescritos para os tipos de dados.

Para solução de problemas e suporte para casos onde o arquivo não corresponde ao tipo de dados, você pode baixar um arquivo de texto parseado do conteúdo conforme extraído pelo motor DLP.

O seguinte é um procedimento de exemplo para validar um tipo de dados de Dicionário:

Para validar um tipo de dados de Dicionário com um arquivo de teste:

  1. No menu de navegação, selecione Segurança > Tipos de Dados & Perfis, e selecione a aba Tipos de Dados.

  2. Passe o mouse na linha de um tipo de dados de Dicionário e clique no ícone de editar. O painel Editar abre.

  3. Clique em Validar Dicionário. O painel Validar Dicionário abre.

    DLP_Validate_Dictionary.png
  4. Faça upload de um arquivo de teste e clique em Escanear Arquivo. Os resultados do escaneamento são mostrados.

  5. Para baixar um arquivo de texto do conteúdo extraído pelo motor DLP, clique em Exportar Texto Extraído.

Melhores Práticas para Tipos de Dados Definidos pelo Usuário

  • Quando você implementa a política ou adiciona um novo aplicativo com a ação Bloquear:

    • Use a ação Monitorar para a regra.

    • Revise os eventos que a regra gera e certifique-se de que não há eventos para o tráfego que você deseja permitir (tráfego falso positivo).

    • Se houver tráfego falso positivo, você pode fazer estas mudanças:

      • Refine o escopo da regra para excluir o tráfego falso positivo

      • Crie uma nova regra de permitir antes da regra de bloqueio, e o escopo da nova regra é somente para o tráfego falso positivo

      • Refine a expressão regular e certifique-se de que você a valida com um exemplo preciso do conteúdo que você está escaneando

  • Lembre-se de que a política de Controle de Aplicativos é uma política ordenada, e a regra implícita final é QUALQUER QUALQUER Aceitar. Adicione regras à política para bloquear o tráfego, atividades e critérios relevantes do aplicativo.

Limitações Conhecidas

  • Para informações sobre os requisitos de arquivo, veja O que é o Serviço DLP da Cato?

    • Para alguns downloads compactados em formato gzip, o tamanho do arquivo para DLP é calculado com base no arquivo compactado. Se o tamanho do arquivo compactado for menor que 1kb, ele não será escaneado.

  • Há um limite máximo de 256 caracteres para uma expressão regular.

  • Arquivos codificados em Base64 não são suportados, e o motor DLP não pode inspecionar o conteúdo destes arquivos.

Esse artigo foi útil?

Usuários que acharam isso útil: 2 de 2

0 comentário