Работа с пользовательскими типами данных для DLP

Эта статья объясняет, как создать пользовательские типы данных для идентификации конфиденциальных данных в вашей организации для политики DLP.

Обзор пользовательских типов данных DLP Cato

Cato предоставляет сотни предустановленных типов данных и категорий для типичных сценариев политик DLP. Тем не менее, иногда организациям требуется возможность создавать определенные пользователем типы данных для соответствия специфической проверке данных, которая не охвачена предустановленными типами.

Вы можете определить следующие пользовательские типы данных, чтобы настроить проверку контента для ваших политик DLP:

Используйте метки конфиденциальности Microsoft из платформы Microsoft Information Protection (MIP) в вашей политике DLP Cato.
Определенные пользователем типы данных, включая:
- Используйте ключевые слова для определения объектов, которые содержат одно слово или фразу, которую ищет двигатель DLP.
- Словари - это контейнеры, которые содержат до 50 слов или фраз, и двигатель DLP ищет для соответствия любого отдельного элемента в словаре.
- Типы данных Regex позволяют вводить регулярные выражения, которые определяют контент, который ищет двигатель DLP.
Пользовательские классификаторы машинного обучения
Профили точного соответствия данных (EDM) позволяют определить специфические данные для соответствия контенту вместо общих шаблонов данных. Для получения дополнительной информации о профилях EDM см. Работа с точным соответствием данных (EDM) для предотвращения утечки данных.

После создания Пользовательского типа данных или Метки конфиденциальности вы можете добавить их в существующие Профили контента для предотвращения утечки данных или создать новые.

Ручное создание меток конфиденциальности в DLP Cato

Вы можете определить конфиденциальные данные с помощью меток MIP, а затем использовать метки MIP как типы данных в вашей политике DLP Cato.

Подробнее

После создания меток конфиденциальности в приложении управления Cato, вы можете добавить их в профили контента. Затем вы можете создать правила DLP для управления доступом к контенту для различных пользователей и групп в соответствии с метками MIP.

Например, если у вас есть файлы с меткой MIP "Классифицировано", создайте метку в вашей политике DLP Cato и добавьте её в Профиль контента "Ограниченные документы". Затем определите правило DLP, которое блокирует доступ для группы пользователей без достаточного уровня безопасности.

Двигатель DLP сканирует метаданные файла на наличие определенных меток, а не фактическое содержание, что помогает снизить количество ложных положительных результатов. Двигатель применяет метку конфиденциальности в соответствии с ID метки, которую вы настроили, а не по имени. Убедитесь, что ID метки метки конфиденциальности точно совпадает с ID метки MIP. Для получения дополнительной информации о поиске ID меток MIP для аккаунта вашей организации, см. документацию Microsoft.

Примечание

Примечание: Файлы должны быть помечены MIP для управления этим типом данных. Чтобы проверить, помечен ли файл правильно, используйте инструмент проверки DLP.

Чтобы создать метку конфиденциальности:

Из навигационного меню выберите Безопасность > Типы данных & профили и выберите вкладку Типы данных.
В разделе метки конфиденциальности нажмите Новый. Откроется панель Добавить метку конфиденциальности.
Введите имя и описание для метки.
Введите тот же ID метки, что и ID метки MIP.
Нажмите Применить.

Создание пользовательских типов данных

Определенные пользователем типы данных могут быть либо ключевым словом, либо словарем, либо регулярным выражением.

Подробнее

Создание новых типов данных ключевых слов и словарей

Создайте пользовательское ключевое слово или словарь для поиска пользовательского конфиденциального контента, который исследует двигатель DLP. Для создания словарей вы можете хранить записи в файле CSV, а затем вставить их как значения для этого словаря.

Двигатель DLP ищет точное соответствие каждого ключевого слова или записи словаря.
Ключевое слово должно содержать минимум 8 символов (либо однобайтовых, либо многобайтовых)
Нет верхнего ограничения на количество слов или символов в ключевом слове
Ключевые слова и словари НЕ чувствительны к регистру
Записи в словаре имеют отношение ИЛИ между ними
Фразы должны точно совпадать с каждым словом, например фраза health care не совпадает с healthcare

Таким образом, для словаря вы бы создали следующие три значения для совпадения с вышеупомянутыми словами: health, care, healthcare
Слова и фразы идентифицируются в соответствии со стандартными границами слов, например пробел после слова. Перед и после слова должны быть границы, чтобы оно было обнаружено. Для полного списка поддерживаемых границ слов см. ниже Границы слов для типов данных ключевых слов и словарей
- Чтобы обнаружить многобайтовые слова, мы рекомендуем использовать тип данных Regex, потому что обычно нет границы перед и после

Работа с порогами

Вы можете определить пороговое значение для каждого типа данных, определенного пользователем, количество раз, когда ключевое слово или словарь совпадают в файле. Когда оно совпадает или превышает пороговое значение, то файл совпадает с правилом контроля данных (на странице Безопасность > Контроль приложений).

Ключевые слова - пороговое значение для ключевых слов ищет повторяющиеся появления, которые точно совпадают с этим словом или фразой.
- Например, для ключевого слова apple с пороговым значением 3. Если файл содержит 3 экземпляра слова apple, тогда этот файл заблокирован.
Словарь - пороговое значение для словарей ищет повторяющиеся появления ЛЮБОГО значения в этом словаре.
- Например, если словарь содержит записи apple и orange с пороговым значением 3. Если файл содержит 2 экземпляра слова apple и 1 экземпляр слова orange, файл заблокирован.
  
  Также, если файл содержит 3 экземпляра слова apple и 0 экземпляров слова orange, файл заблокирован.

Чтобы создать пользовательский тип данных:

Из навигационного меню выберите Безопасность > Типы данных & профили и выберите вкладку Типы данных.
В Определено пользователем нажмите Новый, а затем выберите Новое ключевое слово или Новый словарь.
Чтобы создать новое ключевое слово:
1. Введите имя и описание для ключевого слова.
2. Выберите пороговое значение, минимальное количество раз, когда ключевое слово появляется в файле.
3. Введите ключевое слово/фразу.
4. Нажмите Применить.
Чтобы создать новый словарь:
1. Введите имя и описание для словаря.
2. Выберите пороговое значение, минимальное количество раз, когда одна из записей словаря появляется в файле.
3. Добавьте (или вставьте) одно или несколько значений для словаря. Несколько значений должны быть разделены запятыми.
4. Нажмите Применить.

Границы слов для типов данных Ключевые слова и Словарь

Для соответствия ключевых слов или фраз движок DLP использует стандартные границы слов для определения конца каждого слова. Эти символы движок распознает как границы слов:

([\s,.:;“‘]|^)

Создание новых типов данных регулярных выражений

Используйте регулярные выражения для определения типа контента, который соответствует Типу данных. Например, формулы регулярных выражений позволяют легко сопоставить кастомизированный корпоративный ID с определенным количеством цифр. Каждый тип данных регулярного выражения поддерживает одно регулярное выражение, поэтому, если вам нужно использовать несколько регулярных выражений, создайте отдельный тип данных для каждого выражения.

Используйте границы слов в выражении для правильного определения контента, который соответствует типу данных.

Движок регулярных выражений основан на UTF-8 и поддерживает символы для контента на других языках, кроме английского.

Пороговые значения регулярных выражений

Вы можете определить Пороговое значение для выражения, количество раз, которое контент появляется в файле. Когда оно соответствует или превышает Пороговое значение, тогда файл соответствует правилу контроля данных.

Например, если вы создали выражение для ID с Пороговым значением 5, тогда только файлы, которые содержат ID пять или более раз, будут заблокированы.

Валидация регулярных выражений

Вы можете использовать поле Проверка выражения для тестирования выражения и убедитесь, что оно правильно соответствует контенту. Когда вы нажимаете Тест, сервис DLP проверяет, соответствует ли контент регулярному выражению. Это тот же самый сервис, который работает в облаке Cato, поэтому результаты теста будут такими же, как вы увидите в своей учетной записи.

Проверка выражения также включает Пороговое значение для типа данных. Итак, когда Пороговое значение больше чем 1, значение должно появиться по крайней мере столько раз, чтобы тест прошел успешно.

Для создания определенного пользователем типа данных регулярных выражений:

Из меню навигации выберите Безопасность > Типы данных & Профили, и выберите вкладку Типы данных.
Щелкните Новый и затем выберите Новое регулярное выражение.
Введите Имя и Описание для ключевого слова.
Выберите Пороговое значение, минимальное количество раз, которое текст, соответствующий Выражению, появляется в файле.
В Выражении введите регулярное выражение для этого типа данных.
(Опционально) Разверните Проверка выражения, введите текст и нажмите Тест.
Нажмите Применить.

Поддерживаемые операторы и квантификаторы

Это операторы регулярных выражений и квантификаторы, которые поддерживаются для определенных пользователем типов данных регулярных выражений:

Операторы	Образец соответствия
\	Процитировать следующий метасимвол
^	Соответствие началу строки
$	Соответствие концу строки
.	Соответствие любому одиночному символу
\|	Альтернация
()	Группы захвата не поддерживаются. Круглые скобки могут использоваться для ограничения подвыражений.
[xy]	Соответствие одиночному символу среди тех, что указаны в скобках
[x-z]	Диапазон символов между x и z
[^z]	Любой символ кроме z

Квантификаторы	Образец соответствия
*	Соответствие 0 или более раз (см. примечание ниже)
+	Соответствие 1 или более раз (см. примечание ниже)
?	Соответствие 0 или 1 раз
{n}	Точное соответствие n раз
{n,}	Соответствие минимум n раз
{n,m}	Соответствие минимум n раз, но не более чем m

Примечание

Примечание: Использование неограниченных жадных квантификаторов произвольных символов, таких как .* или .+, не разрешено. Если вы пытаетесь включить символы в класс или набор, переверните их. Например, *.

Вместо использования этих жадных квантификаторов, вы можете использовать .{1,50}, который поддерживает до 50 символов для каждого ключевого слова или образца для типа данных регулярного выражения

Создание определенных пользователем классификаторов ML

Чтобы усилить защиту специализированных документов, относящихся к вашей отрасли или компании, вы можете создать свой собственный определенный пользователем классификатор машинного обучения (ML).

Читать далее

Определенные пользователем классификаторы ML значительно уменьшают ложные срабатывания и улучшают общую эффективность и точность движка DLP. Используя продвинутую модель сходства данных, классификаторы ML предлагают лучшую адаптивность и точность в обнаружении конфиденциальных данных, так как они могут динамически обучаться и развиваться в зависимости от изменяющихся паттернов данных.

Тренировка определенных пользователем классификаторов ML

Загружая текстовые файлы в качестве образцов документов, которые вы хотите защитить, вы можете обучить модель машинного обучения, которая сможет в реальном времени идентифицировать похожие документы, предотвращая несанкционированную эксфильтрацию данных. Модель машинного обучения основана на тексте в файле, изображения или видео игнорируются.

Требования к файлам для классификаторов ML

Для обучения модели ML используется только контент на английском языке
Поддерживаемые типы файлов: DOC, XLS, CSV, TXT и PDF
Максимальное количество загружаемых файлов: 10
Файл содержит минимум 100 слов

Загрузка файлов для создания пользовательского ML-классификатора

Загрузите примерные файлы в CMA, чтобы обучить модель машинного обучения для вашего пользовательского типа данных. Мы рекомендуем загрузить как минимум 5 файлов для точного обучения модели машинного обучения для защиты ваших документов.

Для загрузки документов для классификатора ML:

В навигационном меню выберите Безопасность > Типы данных & профили.
На вкладке Типы данных нажмите Пользовательские классификаторы ML.
Нажмите Новый.
Введите Имя и Описание для классификатора и нажмите Сохранить и продолжить.
Добавьте файлы, с которыми вы хотите обучить модель.
(Опционально) Проверьте модель, загрузив примерный файл и нажмите Проверить.
Нажмите Сохранить.

Проверка типов данных и лучшие практики

Для каждого типа данных DLP вы можете подтвердить, что движок DLP распознает и соответствует конфиденциальным данным в тестовом файле. Функция проверки встроена в предопределенные, пользовательские профили и метки конфиденциальности, расположенные на странице Типы данных и профили. С помощью нового или существующего ключевого слова, словаря или строки REGEX вы можете загрузить документ, который проверит ваши настройки перед развертыванием нового типа данных. Вы также можете проверить предопределенные типы данных и метки конфиденциальности.

Одним из ключевых применений инструмента проверки DLP является проверка ваших настроек DLP, чтобы убедиться, что ключевые слова и строки информации (через regex) правильно обнаруживаются с использованием введенных данных для данного набора данных. Другой ключевой случай использования — это загрузка примерных документов в правило, чтобы увидеть, правильно ли будет просканирован тип файла и форматирование для обнаружения предписанных данных для типов данных.

Для устранения неполадок и поддержки в случаях, когда файл не соответствует типу данных, вы можете загрузить текстовый файл с разобранным содержимым, извлеченным движком DLP.

Ниже приведена примерная процедура проверки типа данных «Словарь»:

Для проверки типа данных «Словарь» с использованием тестового файла:

В навигационном меню выберите Безопасность > Типы данных & профили и выберите вкладку Типы данных.
Удерживайте курсор мыши на строке типа данных «Словарь» и нажмите значок редактирования. Открывается панель Редактировать.
Нажмите Проверить словарь. Открывается панель Проверить словарь.
Загрузите тестовый файл и нажмите Сканировать файл. Показаны результаты сканирования.
Чтобы скачать текстовый файл с содержимым, извлеченным движком DLP, нажмите Экспортировать извлеченный текст.

Лучшие практики для пользовательских типов данных

При реализации политики или добавлении нового приложения с действием "Блокировать":
- Используйте действие "Мониторинг" для правила.
- Просмотрите события, которые генерирует правило, и убедитесь, что нет событий для трафика, который вы хотите разрешить (ложный положительный трафик).
- Если существует ложный положительный трафик, вы можете внести следующие изменения:
  - Уточните область действия правила, чтобы исключить ложный положительный трафик
  - Создайте новое правило разрешения перед правилом блокировки, и область действия нового правила предназначена только для ложного положительного трафика
  - Уточните регулярное выражение и убедитесь, что вы проверили его с помощью точного примера содержимого, которое вы сканируете
Помните, что политика управления приложениями является упорядоченной политикой, и окончательное неявное правило - ANY ANY Accept. Добавьте правила в политику, чтобы блокировать соответствующий трафик приложений, активности и критерии.

Известные ограничения

Для получения информации о требованиях к файлам см. Что такое Cato DLP Service?
- Для некоторых загружаемых файлов, сжатых в формате gzip, размер файла для DLP рассчитывается на основе сжатого файла. Если сжатый размер файла составляет менее 1 Кб, он не будет сканироваться.
Максимальный предел составляет 256 символов для регулярного выражения.
Файлы, закодированные в формате Base64, не поддерживаются, и движок DLP не может проверить содержимое этих файлов.

Работа с пользовательскими типами данных для DLP

Обзор пользовательских типов данных DLP Cato

Ручное создание меток конфиденциальности в DLP Cato

Подробнее

Примечание

Создание пользовательских типов данных

Подробнее

Создание новых типов данных ключевых слов и словарей

Границы слов для типов данных Ключевые слова и Словарь

Создание новых типов данных регулярных выражений

Поддерживаемые операторы и квантификаторы

Примечание

Создание определенных пользователем классификаторов ML

Читать далее

Тренировка определенных пользователем классификаторов ML

Требования к файлам для классификаторов ML

Загрузка файлов для создания пользовательского ML-классификатора

Проверка типов данных и лучшие практики

Лучшие практики для пользовательских типов данных

Известные ограничения

Была ли эта статья полезной?

0 комментариев