DLP 自定义数据类型的工作

本文说明如何创建自定义数据类型以标识组织内的敏感数据，用于 DLP 策略。

Cato 自定义 DLP 数据类型的概览

Cato 为 DLP 策略的典型场景提供了数百种预定义盒装数据类型和类别。然而，有些组织需要能够创建自定义定义的数据类型，以匹配未涵盖的特定数据检查。

您可以定义以下自定义数据类型，以便根据您的 DLP 策略定制内容检查：

在您的 Cato DLP 策略中使用 Microsoft 信息保护 (MIP) 框架的 Microsoft 敏感度标签
用户定义数据类型包括：
- 使用关键词定义包含一个单词或短语的项目，DLP 引擎搜索这些项目。
- 字典是容器，包含最多 50 个单词或短语，DLP 引擎搜索以匹配字典中的任何单个项目。
- 正则表达式数据类型允许您输入定义 DLP 引擎搜索内容的正则表达式。
自定义机器学习分类器
精确数据匹配 (EDM) 配置文件允许您定义特定数据用于内容匹配，而不是通用数据模式。有关EDM配置文件的更多信息，请参见 Working with Exact Data Matching (EDM) for DLP。

创建 用户定义的数据类型 或 敏感性标签 后，您可以将它们添加到现有的 DLP内容配置文件中或创建新的。

在 Cato DLP 中手动创建敏感性标签

您可以使用 MIP 标签定义敏感数据，然后在您的 Cato DLP 策略中将 MIP 标签用作数据类型。

注意

注意： 文件必须贴有 MIP 标签才能由此数据类型管理。要检查文件是否正确标记，请使用 DLP 验证工具。

创建敏感性标签：

从导航菜单中选择 安全性 > 数据类型 & 配置文件，然后选择 数据类型 选项卡。
在 敏感性标签 中，点击新建。 添加敏感性标签 面板打开。
输入标签的名称和描述。
输入与 MIP 标签 ID 相同的 标签 ID。
点击应用。

创建用户定义数据类型

用户定义数据类型可以是关键词、字典、正则表达式表达式。

阅读更多

创建新的关键词和字典数据类型

创建自定义关键词或字典，用于自定义敏感内容，DLP 引擎正在搜索这些内容。对于字典，您可以在 CSV 文件中维护条目，然后将其粘贴为该字典的值。

DLP 引擎搜索每个关键词或字典条目的精确匹配。
关键词必须至少包含8个字符（单字节或多字节）。
关键词中的字数或字符数没有上限。
关键词和字典不区分大小写。
字典中的条目之间有一个或关系。
短语必须是每个单词的精确匹配，例如短语 健康护理 不与 健康护理 匹配。

因此，对于字典，您可以创建以下三个值来匹配上文中的词：健康、护理、保健。
词和短语根据标准词边界被识别，例如单词后的空格。单词的前后必须有边界才能被检测到。有关支持的词边界完整列表，请参见下面的关键词和字典数据类型的词边界
- 要检测多字节单词，我们建议使用正则表达式数据类型，因为通常它们的前后没有边界

阈值的使用

您可以为每个用户定义数据类型定义阈值，即关键词或字典在文件中匹配的次数。当匹配或超过阈值时，文件匹配数据控制规则（在安全性 > 应用程序控制页面）。

关键词——关键词的阈值查找重复出现的次数，词或短语的精确匹配。
- 例如，对于关键词苹果设置的阈值为 3。如果文件包含 3 个单词苹果的实例，则文件被阻止。
字典——字典的阈值查找字典中任何值的重复出现次数。
- 例如，如果字典包含苹果和橙子条目，阈值设置为 3。如果文件包含 2 个 "苹果" 和 1 个 "橙子"，则文件被阻止。
  
  此外，如果文件包含 3 个 "苹果" 和 0 个 "橙子"，则文件被阻止。

创建用户定义的数据类型：

从导航菜单中选择 安全性 > 数据类型 & 配置文件，然后选择 数据类型 选项卡。
在 用户定义 中，点击新建，然后选择 新关键词 或 新字典。
创建新关键词：
1. 输入关键词的名称和描述。
2. 选择阈值，即关键词在文件中出现的最低次数。
3. 输入 关键词/短语。
4. 点击应用。
创建新字典：
1. 输入字典的名称和描述。
2. 选择阈值，即字典条目在文件中出现的最低次数。
3. 添加（或粘贴）一个或多个字典的值。多个值必须用逗号分隔。
4. 点击应用。

关键词和字典数据类型的词边界

为了匹配关键词或短语，DLP 引擎使用标准词边界来识别每个词的结束。这些是引擎识别作为词边界的字符：

([\s,.:;“‘]|^)

创建新的正则表达式数据类型

使用正则表达式定义与数据类型匹配的内容类型。例如，正则表达式公式让您轻松匹配具有特定位数的自定义公司 ID。每种正则表达式数据类型支持单个常规表达式，因此如果需要使用多个常规表达式，请为每个表达式创建一个单独的数据类型。

在表达式中使用单词边界来正确定义与数据类型匹配的内容。

正则表达式引擎基于 UTF-8，并支持非英文内容的字符。

正则表达式阈值

您可以为表达式定义阈值，即内容在文件中出现的次数。当它匹配或超过阈值时，文件则匹配数据控制规则。

例如，若您为 ID 创建了表达式，阈值为5，则只有包含 ID 五次或更多的文件才会被阻止。

验证常规表达式

您可以使用验证表达式字段测试表达式，确保其正确匹配内容。当您点击测试时，DLP 服务会检查内容是否匹配常规表达式。这是在 Cato 云中运行的同一服务，因此测试结果与您在账户中看到的行为一致。

验证表达式也包含数据类型的阈值。因此，当阈值大于1时，值必须至少出现那么多次才能使测试成功。

创建用户定义的正则表达式数据类型：

从导航菜单中选择安全性 > 数据类型 & 配置文件，然后选择数据类型选项卡。
点击新建，然后选择新增正则表达式。
输入关键词的名称和描述。
选择阈值，文本匹配表达式在文件中出现的最小次数。
在表达式中，输入常规表达式以用于本数据类型。
（可选）展开验证表达式，输入文本并点击测试。
点击应用。

支持的运算符与量词

以下为支持的用户定义正则表达式数据类型的常规表达式运算符与量词：

运算符	匹配模式
\	引用下一个元字符
^	匹配行的开始
$	匹配行的结束
.	匹配任意单个字符
\|	选项
()	不支持捕获组。可以使用括号用于边界确定子表达式。
[xy]	匹配单个字符给出在括号之间的任意字符
[x-z]	字符的范围在x和z之间
[^z]	任何字符除外z

量词	匹配模式
*	匹配 0 次或更多次（见下文说明）
+	匹配 1 次或更多次（见下文说明）
?	匹配 0 次或 1 次
{n}	匹配精确n次
{n,}	至少匹配n次
{n,m}	至少匹配n次，但不超过m

注意

注意：不允许使用任意字符的无限制贪婪量词，如.*或.+。如果您尝试在类或集内包含字符，请反转它们。例如，*。

代替使用这些贪婪量词，您可以使用.{1,50}来支持最多50个字符以匹配每个关键词或模式的正则表达式数据类型

创建用户定义的机器学习分类器

为了增强对您行业或公司相关专门文档的保护，您可以创建自己的用户定义机器学习（ML）分类器。

验证数据类型和最佳实践

对于每个DLP数据类型，您可以验证DLP引擎是否识别并匹配测试文件中的敏感数据。验证功能嵌入在预定义、用户定义和敏感度标签配置文件中，位于数据类型 & 配置文件页面。无论是新的或现有的关键词、字典或正则表达式字符串，您都可以上传一个文件来测试您的设置，然后再部署新的数据类型。您还可以验证预定义数据类型和敏感度标签。

DLP验证工具的一个关键用途是通过使用输入数据验证您的DLP设置，确保关键词和信息串（通过正则表达式）被正确检测。另一个关键用例是您可以上传示例文件到规则中，以查看文件类型和格式是否被正确扫描以检测数据类型的规定数据。

对于文件不匹配数据类型的情况下的故障排除和支持，您可以下载由DLP引擎提取内容的解析文本文件。

以下是验证字典数据类型的示例过程：

验证字典数据类型的测试文件：

从导航菜单中选择安全性 > 数据类型 & 配置文件，然后选择数据类型标签页。
将鼠标移动到字典数据类型的行并点击编辑图标。编辑面板打开。
点击验证字典。 验证字典面板打开。
上传一个测试文件，并点击扫描文件。显示扫描结果。
要下载由DLP引擎提取的内容的文本文件，请点击导出提取的文本。

用户定义数据类型的最佳实践

当您实施策略或添加带有阻止操作的新应用程序时：
- 使用规则的监控操作。
- 查看规则生成的事件，确保没有想要允许的流量事件（误报流量）。
- 如果存在误报流量，您可以做出这些更改：
  - 精炼规则的范围以排除误报流量
  - 在阻止规则之前创建新的允许规则，新规则的范围仅针对误报流量
  - 优化正则表达式并确保使用要扫描的内容的准确示例验证它
请记住，应用控制策略是一个有序的策略，最终默认规则是ANY ANY接受。为策略添加规则以阻止相关应用程序流量、活动和标准。

已知限制

有关文件要求的信息，请参见卡托DLP服务是什么。
- 对于以gzip格式压缩的某些下载，DLP的文件大小是根据压缩文件计算的。如果压缩文件大小小于1kb，将不会被扫描。
正则表达式的最大字符限制为256个字符。
不支持Base64编码文件，DLP引擎无法检查这些文件中的内容。

DLP 自定义数据类型的工作

Cato 自定义 DLP 数据类型的概览

在 Cato DLP 中手动创建敏感性标签

阅读更多

注意

创建用户定义数据类型

阅读更多

创建新的关键词和字典数据类型

关键词和字典数据类型的词边界

创建新的正则表达式数据类型

支持的运算符与量词

注意

创建用户定义的机器学习分类器

阅读更多

训练用户定义的机器学习分类器

机器学习分类器的文件要求

上传文件以创建用户定义的机器学习分类器

验证数据类型和最佳实践

用户定义数据类型的最佳实践

已知限制

这篇文章有帮助吗？

0 条评论