사용자 정의 DLP 데이터 유형 작업

이 문서에서는 조직의 민감한 데이터를 식별하기 위한 사용자 정의 데이터 유형을 생성하는 방법을 설명합니다.

Cato 사용자 정의 DLP 데이터 유형 개요

Cato는 DLP 정책의 일반적인 경우에 대해 수백 개의 사전 정의된 데이터 유형과 카테고리를 제공합니다. 하지만 때때로 조직에서는 미리 정의된 유형으로 다루어지지 않는 특정 데이터 검사를 지원할 수 있는 사용자 정의된 데이터 유형을 생성하는 기능이 필요합니다.

사용자 정의 콘텐츠 검사에 대한 DLP 정책을 구성하기 위해 다음 사용자 정의 데이터 유형을 정의할 수 있습니다:

Cato DLP 정책에서 Microsoft 정보 보호(MIP) 프레임워크의 Microsoft 민감도 레이블을 사용하십시오.
사용자 정의 데이터 유형에는 다음 항목이 포함됩니다:
- DLP 엔진이 검색할 단어 또는 구문을 포함하는 항목을 정의하기 위해 키워드를 사용하십시오.
- 사전은 최대 50개의 단어 또는 구문을 포함하는 컨테이너이며, DLP 엔진은 사전의 단일 항목과 일치하는지 검색합니다.
- 정규 표현식을 입력하여 DLP 엔진이 검색할 콘텐츠를 정의할 수 있습니다.
사용자 정의 머신러닝 분류자
정확한 데이터 일치(EDM) 프로필을 사용하면 일반적인 데이터 패턴 대신 콘텐츠 일치를 위한 특정 데이터를 정의할 수 있습니다. EDM 프로필에 대한 자세한 내용은 Working with Exact Data Matching (EDM) for DLP을 참조하십시오.

사용자 정의 데이터 유형 또는 민감도 라벨을 생성한 후에는 기존 DLP 콘텐츠 프로필에 추가하거나 새로 만들 수 있습니다.

Cato DLP에서 민감도 레이블을 수동으로 생성하기

MIP 레이블을 사용하여 민감한 데이터를 정의한 후, 이를 Cato DLP 정책의 데이터 유형으로 사용할 수 있습니다.

자세히 보기

Cato 관리 애플리케이션에서 민감도 레이블을 생성한 후에는 콘텐츠 프로필에 추가할 수 있습니다. 그런 다음 MIP 레이블에 따라 다양한 사용자와 그룹에 대한 콘텐츠 액세스를 관리하기 위한 DLP 규칙을 생성할 수 있습니다.

예를 들어, MIP 레이블이 "Classified"된 파일이 있다면 이를 Cato DLP 정책에서 레이블로 생성하고 콘텐츠 프로필에 추가하십시오. 그런 다음 충분한 보안 허가가 없는 사용자 그룹에 대한 액세스를 차단하는 DLP 규칙을 정의하십시오.

DLP 엔진은 파일 메타데이터에서 정의된 레이블을 스캔하며 실제 콘텐츠에서는 검색하지 않으므로 오탐 결과를 줄이는 데 도움이 됩니다. 엔진은 민감도 레이블에 대해 구성한 라벨 ID에 따라 적용하며, 이름에 따라 적용하지 않습니다. 민감도 레이블의 라벨 ID가 MIP 레이블 ID와 정확히 일치하는지 확인하십시오. 조직 계정의 MIP 레이블 ID를 찾는 방법에 대한 자세한 내용은 Microsoft 문서를 참조하세요.

참고

참고: 이 데이터 유형으로 관리되려면 파일에 MIP 레이블이 있어야 합니다. 파일이 올바르게 레이블링 되었는지 확인하려면 DLP 검사 도구를 사용하십시오.

민감도 레이블을 생성하려면:

네비게이션 메뉴에서 보안 > 데이터 유형 및 프로필을 선택하고, 데이터 유형 탭을 선택하십시오.
민감도 레이블에서 새로운을 클릭하십시오. 민감도 레이블 추가 패널이 열립니다.
레이블에 대한 이름 및 설명을 입력하십시오.
MIP 레이블 ID와 동일한 라벨 ID를 입력하십시오.
적용을 클릭하십시오.

사용자 정의 데이터 유형 생성

사용자 정의 데이터 유형은 키워드, 사전, 또는 정규식 표현식이 될 수 있습니다.

자세히 보기

새 키워드 및 사전 데이터 유형 생성

DLP 엔진이 검색할 사용자 정의 민감도 콘텐츠를 위한 사용자 정의 키워드 또는 사전을 생성하십시오. 사전의 경우 CSV 파일에서 항목을 유지관리하고 값을 사전에 붙여넣을 수 있습니다.

DLP 엔진은 각 키워드 또는 사전 항목의 정확한 일치를 검색합니다
키워드는 최소한 8자 이상(단일 바이트 또는 다중 바이트)이어야 합니다
키워드에 포함되는 단어 또는 문자의 수에는 상한선이 없습니다
키워드와 사전은 대소문자를 구분하지 않습니다
사전의 항목 사이에는 OR 관계가 있습니다
구문은 각 단어와 정확히 일치해야 합니다. 예를 들어, health care라는 구문은 healthcare와 일치하지 않습니다

따라서 사전에서는 위 단어와 일치하는 다음 세 가지 값을 생성합니다: health, care, healthcare
단어 뒤에 공백 같은 표준 단어 경계에 따라 단어와 구문이 식별됩니다. 단어를 감지하려면 그 앞뒤에 경계가 있어야 합니다. 지원되는 단어 경계에 대한 전체 목록은 아래 키워드 및 사전 데이터 유형의 단어 경계를 참조하십시오
- 멀티바이트 단어를 감지하기 위해, 일반적으로 앞뒤에 경계가 없기 때문에 정규식 데이터 유형을 사용하는 것을 권장합니다.

임계값 작업

각 사용자 정의 데이터 유형에 대한 임계값을 정의하십시오, 즉 키워드 또는 사전 항목이 파일에서 반복 발생하는 횟수입니다. 임계값이 일치하거나 초과할 경우, 데이터 제어 규칙과 파일이 일치합니다(보안 > 응용 프로그램 제어 페이지에서).

키워드 - 키워드에 대한 임계값은 그 단어 또는 구문의 반복되는 정확한 일치를 찾습니다.
- 예를 들어, 사과라는 키워드에 대한 임계값이 3인 경우. 파일에 사과라는 단어가 3번 포함되어 있으면 그 파일은 차단됩니다.
사전 - 사전의 임계값은 사전의 어떤 값이든 반복 발생을 찾습니다.
- 예를 들어, 사전에 사과 및 오렌지 항목이 들어 있고, 임계값이 3인 경우. 파일에 사과이라는 단어가 2번, 오렌지이라는 단어가 1번 포함되어 있으면 파일이 차단됩니다.
  
  또한 파일에 사과라는 단어가 3번 포함되고 오렌지라는 단어가 0번 포함되어 있으면 파일이 차단됩니다.

사용자 정의 데이터 유형을 생성하려면:

네비게이션 메뉴에서 보안 > 데이터 유형 및 프로필을 선택하고, 데이터 유형 탭을 선택하십시오.
사용자 정의에서 새로운을 클릭한 다음 새 키워드 또는 새 사전을 선택하십시오.
새 키워드를 생성하려면:
1. 키워드에 대한 이름 및 설명을 입력하십시오.
2. 임계값을 선택하고, 파일에 키워드가 나타나는 최소 횟수를 선택하십시오.
3. 키워드/구문을 입력하십시오.
4. 적용을 클릭하십시오.
새 사전을 생성하려면:
1. 사전에 대한 이름 및 설명을 입력하십시오.
2. 임계값을 선택하고 파일에서 사전 항목 중 하나가 나타나는 최소 횟수를 선택하십시오.
3. 사전 값을 하나 이상 추가(또는 붙여넣기)하십시오. 여러 값은 쉼표로 구분해야 합니다.
4. 적용을 클릭하십시오.

키워드 및 사전 데이터 유형의 단어 경계

키워드 또는 구문을 일치시키기 위해 DLP 엔진은 표준 단어 경계를 사용하여 각 단어의 끝을 식별합니다. 엔진이 단어 경계로 인식하는 문자는 다음과 같습니다:

([\s,.:;“‘]|^)

새 정규식 데이터 유형 생성

정규 표현식을 사용하여 데이터 유형과 일치하는 컨텐츠 유형을 정의합니다. 예를 들어, 정규 표현식 공식은 특정 자릿수의 맞춤형 기업 ID와 쉽게 일치시킬 수 있습니다. 각 정규 표현식 데이터 유형은 단일 정규 표현식을 지원하므로, 여러 정규 표현식을 사용하려면 각 표현식을 위해 별도의 데이터 유형을 생성하십시오.

표현식에서 단어 경계를 사용하여 데이터 유형과 일치하는 콘텐츠를 올바르게 정의합니다.

정규 표현식 엔진은 UTF-8을 기반으로 하며 비영어 콘텐츠의 문자 지원이 가능합니다.

정규 표현식 임계값

표현식의 임계값, 파일에 콘텐츠가 나타나는 횟수를 정의할 수 있습니다. 파일이 임계값과 일치하거나 초과되면, 해당 파일은 데이터 제어 규칙과 일치합니다.

예를 들어, ID에 대한 표현식을 생성했을 때 임계값이 5라면, ID를 다섯 번 이상 포함하는 파일만 차단됩니다.

정규 표현식 검증

표현식 검증 필드를 사용하여 표현식을 테스트하고 콘텐츠가 올바르게 일치하는지 확인할 수 있습니다. 테스트를 클릭하면 DLP 서비스가 콘텐츠가 정규 표현식과 일치하는지 확인합니다. 이는 Cato Cloud에서 실행되는 동일한 서비스로, 테스트 결과는 계정에서 보게 되는 동일한 동작입니다.

표현식 검증에는 데이터 유형에 대한 임계값도 포함됩니다. 임계값이 1보다 클 경우, 테스트가 성공하려면 값이 최소한 그만큼 나타나야 합니다.

사용자 정의 정규 표현식 데이터 유형 생성 방법:

네비게이션 메뉴에서 보안 > 데이터 유형 & 프로필을 선택하고, 데이터 유형 탭을 선택하십시오.
새로운을 클릭한 후, 새 정규식을 선택하십시오.
키워드에 대한 이름과 설명을 입력하십시오.
임계값을 선택하고, 표현식과 일치하는 텍스트가 파일에 나타나는 최소 횟수를 지정하십시오.
표현식에 정규 표현식을 입력하여 이 데이터 유형을 설정하십시오.
(선택 사항) 표현식 검증을 확장하고, 텍스트를 입력한 후 테스트를 클릭하십시오.
적용을 클릭하십시오.

지원되는 연산자 및 수량자

사용자 정의 정규 표현식 데이터 유형에 대한 지원되는 정규 표현식 연산자 및 수량자는 다음과 같습니다:

연산자	일치 패턴
\	다음 메타 문자를 인용합니다
^	줄의 시작 부분과 일치합니다
$	줄의 끝과 일치합니다
.	단일 문자를 포함하는 모든 문자와 일치합니다
\|	대안
()	캡처 그룹은 지원되지 않습니다. 괄호는 하위 표현식을 묶는 데 사용될 수 있습니다.
[xy]	괄호 사이에 주어진 문자 중 하나와 일치합니다
[x-z]	x와 z 사이의 문자 범위
[^z]	z를 제외한 모든 문자

수량자	일치 패턴
*	0회 이상 일치 (아래 참고 사항 참조)
+	1회 이상 일치 (아래 참고 사항 참조)
?	0회 또는 1회 일치
{n}	정확히 n회 일치합니다
{n,}	최소 n회 일치합니다
{n,m}	최소 n회 일치하지만, m 이상은 일치하지 않습니다

참고

참고: 임의의 문자와 같은 제한되지 않는 탐욕적 수량자인 .* 또는 .+은 허용되지 않습니다. 클래스나 세트에 문자를 포함하려고 한다면 상태를 반전시킵니다. 예를 들면, *.

이러한 탐욕적 수량자 대신, 각 키워드 또는 패턴에 대해 최대 50자를 지원하는 {1,50}를 사용할 수 있습니다.

사용자 정의 ML 분류기 생성

산업이나 회사에 관련된 전문화된 문서의 보호를 강화하려면 사용자 정의 머신 러닝 (ML) 분류기를 생성할 수 있습니다.

자세히 보기

사용자 정의 ML 분류기는 오탐을 크게 줄이고 DLP 엔진의 전체적인 효능과 정확성을 향상합니다. 고급 데이터 과학 유사성 모델을 사용하여, ML 분류기는 민감한 데이터 감지에서 더 나은 적응성 및 정확성을 제공하며, 변화하는 데이터 패턴에 따라 동적으로 학습하고 발전할 수 있습니다.

사용자 정의 ML 분류기 학습

보호하고자 하는 문서의 샘플로 텍스트 파일을 업로드하여, 실시간으로 유사한 문서를 식별하고 유출을 방지할 수 있는 머신 러닝 모델을 학습시킬 수 있습니다. 머신 러닝 모델은 파일 내의 텍스트를 기반으로 하며, 이미지나 동영상은 무시됩니다.

ML 분류기에 대한 파일 요구 사항

영어로 된 콘텐츠만 ML 모델 학습에 사용됩니다.
지원되는 파일 유형: DOC, XLS, CSV, TXT, 및 PDF
최대 10개의 파일을 업로드할 수 있습니다
파일에는 최소 100개의 단어가 포함되어야 합니다.

사용자 정의 ML 분류기 생성을 위한 파일 업로드

샘플 파일을 CMA에 업로드하여 사용자 정의 데이터 유형의 ML 모델을 학습시키십시오. 문서의 정확한 보호를 위해 최소 5개의 파일을 업로드하는 것을 권장합니다.

문서를 ML 분류기에 업로드하려면:

내비게이션 메뉴에서 보안 > 데이터 유형 & 프로필을 선택하십시오.
데이터 유형 탭에서 사용자 정의 ML 분류기를 클릭하십시오.
새로운을 클릭하십시오.
분류기와 관련된 이름 및 설명을 입력하고 저장 후 계속을 클릭하십시오.
모델을 훈련시키고 싶은 파일을 추가하십시오.
(선택 사항) 예시 파일을 업로드하여 모델을 검증하고 검증을 클릭하십시오.
저장을 클릭하십시오.

데이터 유형 및 모범 사례 검증

각 DLP 데이터 유형에 대해, 테스트 파일에서 민감한 데이터를 인식하고 일치시키는지 DLP 엔진을 검증할 수 있습니다. 정의된 사용자 정의 및 민감도 레이블 프로필에 대한 검증 기능은 데이터 유형 & 프로필 페이지에 포함되어 있습니다. 새로운 키워드, 사전 또는 REGEX 문자열을 사용할 경우, 새로운 데이터 유형을 배포하기 전 설정을 테스트할 문서를 업로드할 수 있습니다. 사전 정의된 데이터 유형 및 민감도 레이블을 검증할 수도 있습니다．

DLP 검증 툴의 주요 용도 중 하나는 설정을 확인하여 특정 데이터 세트에 대한 데이터를 입력하면 키워드 및 정보 문자열(정규 표현식으로)이 올바르게 감지되는지 확인하는 것입니다. 또 다른 주요 사용 사례는 샘플 문서를 규칙에 업로드하여 파일 유형과 포맷이 데이터 유형에 대한 미리 규정된 데이터를 올바르게 감지할 수 있도록 검사되는지를 보는 것입니다.

파일이 데이터 유형과 일치하지 않는 경우, DLP 엔진에 의해 추출된 콘텐츠의 구문 분석된 텍스트 파일을 다운로드할 수 있습니다.

다음은 사전 데이터 유형을 검증하기 위한 예시 절차입니다.

테스트 파일과 함께 사전 데이터 유형을 검증하려면:

내비게이션 메뉴에서 보안 > 데이터 유형 & 프로필을 선택하고 데이터 유형 탭을 선택하십시오.
사전 데이터 유형의 행에서 마우스를 올리고 편집 아이콘을 클릭하십시오. 편집 패널이 열립니다.
사전 검증을 클릭하십시오. 사전 검증 패널이 열립니다.
테스트 파일을 업로드하고 파일 스캔을 클릭하십시오. 스캔 결과가 표시됩니다.
DLP 엔진에 의해 추출된 콘텐츠의 텍스트 파일을 다운로드하려면, 추출된 텍스트 내보내기를 클릭하십시오.

사용자 정의 데이터 유형의 모범 사례

정책을 구현하거나 차단 작업으로 새로운 애플리케이션을 추가할 때:
- 규칙에 대해 모니터링 작업을 사용하십시오.
- 규칙이 생성한 이벤트를 검토하고 허용하려는 트래픽에 대한 이벤트가 없는지 확인하십시오(오탐 트래픽).
- 오탐 트래픽이 있는 경우, 다음 변경을 수행할 수 있습니다:
  - 오탐 트래픽을 제외할 수 있도록 규칙의 범위를 조정하십시오.
  - 차단 규칙 앞에 새로운 허용 규칙을 만들고, 새로운 규칙의 범위는 오직 오탐 트래픽에만 해당됩니다.
  - 정규 표현식을 세분화하고 스캔할 콘텐츠의 정확한 예로 이를 검증했는지 확인하십시오.
애플리케이션 제어 정책은 순서를 따르는 정책이며, 최종 암시적 규칙은 모든 애플리케이션 수락입니다. 정책에 규칙을 추가하여 관련 애플리케이션 트래픽, 활동 및 기준을 차단하십시오.

알려진 제한 사항

파일 요구사항에 대한 정보는 What is the Cato DLP Service?를 참조하십시오．
- gzip 형식으로 압축된 일부 다운로드의 경우, DLP 파일 크기는 압축 파일을 기준으로 계산됩니다. 압축된 파일 크기가 1kb 미만이면 스캔되지 않습니다.
정규 표현식의 최대 제한은 256자입니다.
Base64로 인코딩된 파일은 지원되지 않으며, DLP 엔진은 이러한 파일의 콘텐츠를 검사할 수 없습니다.

사용자 정의 DLP 데이터 유형 작업

Cato 사용자 정의 DLP 데이터 유형 개요

Cato DLP에서 민감도 레이블을 수동으로 생성하기

자세히 보기

참고

사용자 정의 데이터 유형 생성

자세히 보기

새 키워드 및 사전 데이터 유형 생성

키워드 및 사전 데이터 유형의 단어 경계

새 정규식 데이터 유형 생성

지원되는 연산자 및 수량자

참고

사용자 정의 ML 분류기 생성

자세히 보기

사용자 정의 ML 분류기 학습

ML 분류기에 대한 파일 요구 사항

사용자 정의 ML 분류기 생성을 위한 파일 업로드

데이터 유형 및 모범 사례 검증

사용자 정의 데이터 유형의 모범 사례

알려진 제한 사항

도움이 되었습니까?

댓글 0개