本文说明如何创建自定义数据类型以标识组织内的敏感数据,用于 DLP 策略。
Cato 为 DLP 策略的典型场景提供了数百种预定义盒装数据类型和类别。 然而,有些组织需要能够创建自定义定义的数据类型,以匹配未涵盖的特定数据检查。
您可以定义以下自定义数据类型,以便根据您的 DLP 策略定制内容检查:
-
在您的 Cato DLP 策略中使用 Microsoft 信息保护 (MIP) 框架的 Microsoft 敏感度标签
-
用户定义数据类型包括:
-
使用关键词定义包含一个单词或短语的项目,DLP 引擎搜索这些项目。
-
字典是容器,包含最多 50 个单词或短语,DLP 引擎搜索以匹配字典中的任何单个项目。
-
正则表达式数据类型允许您输入定义 DLP 引擎搜索内容的正则表达式。
-
-
自定义机器学习分类器
-
精确数据匹配 (EDM) 配置文件允许您定义特定数据用于内容匹配,而不是通用数据模式。 有关EDM配置文件的更多信息,请参见 Working with Exact Data Matching (EDM) for DLP。
创建 用户定义的数据类型 或 敏感性标签 后,您可以将它们添加到现有的 DLP内容配置文件中或创建新的。
您可以使用 MIP 标签定义敏感数据,然后在您的 Cato DLP 策略中将 MIP 标签用作数据类型。
在 Cato 管理应用程序中创建 敏感性标签 后,您可以将它们添加到 内容配置文件。 然后您可以创建 DLP 规则以根据 MIP 标签管理对不同用户和组的内容访问。
例如,如果您有带有 MIP 标签 "机密" 的文件,请在您的 Cato DLP 策略中创建标签并将其添加到受限 内容配置文件中。 然后定义一个 DLP 规则,阻止没有足够安全许可的用户组访问。
DLP 引擎扫描文件元数据中定义的标签,而不是实际内容,有助于减少误报结果。 引擎根据您配置的 标签 ID执行 敏感性标签,而不是根据 名称。 确保 敏感性标签的 标签 ID与 MIP 标签 ID 完全匹配。 有关查找您组织账户的 MIP 标签 ID 的更多信息,请参阅Microsoft 文档。
注意
注意: 文件必须贴有 MIP 标签才能由此数据类型管理。 要检查文件是否正确标记,请使用 DLP 验证工具。
用户定义数据类型可以是关键词、字典、正则表达式表达式。
创建自定义关键词或字典,用于自定义敏感内容,DLP 引擎正在搜索这些内容。 对于字典,您可以在 CSV 文件中维护条目,然后将其粘贴为该字典的值。
-
DLP 引擎搜索每个关键词或字典条目的精确匹配。
-
关键词必须至少包含8个字符(单字节或多字节)。
-
关键词中的字数或字符数没有上限。
-
关键词和字典不区分大小写。
-
字典中的条目之间有一个或关系。
-
短语必须是每个单词的精确匹配,例如短语 健康护理 不与 健康护理 匹配。
因此,对于字典,您可以创建以下三个值来匹配上文中的词:健康、护理、保健。
-
词和短语根据标准词边界被识别,例如单词后的空格。 单词的前后必须有边界才能被检测到。 有关支持的词边界完整列表,请参见下面的 关键词和字典数据类型的词边界
-
要检测多字节单词,我们建议使用 正则表达式数据类型,因为通常它们的前后没有边界
-
阈值的使用
您可以为每个用户定义数据类型定义 阈值,即关键词或字典在文件中匹配的次数。 当匹配或超过 阈值 时,文件匹配数据控制规则(在安全性 > 应用程序控制页面)。
-
关键词——关键词的 阈值 查找重复出现的次数,词或短语的精确匹配。
-
例如,对于关键词 苹果 设置的 阈值为 3。 如果文件包含 3 个单词 苹果 的实例,则文件被阻止。
-
-
字典——字典的 阈值 查找字典中任何值的重复出现次数。
-
例如,如果字典包含 苹果 和 橙子 条目,阈值设置为 3。 如果文件包含 2 个 "苹果" 和 1 个 "橙子",则文件被阻止。
此外,如果文件包含 3 个 "苹果" 和 0 个 "橙子",则文件被阻止。
-
使用正则表达式定义与数据类型匹配的内容类型。 例如,正则表达式公式让您轻松匹配具有特定位数的自定义公司 ID。 每种正则表达式数据类型支持单个常规表达式,因此如果需要使用多个常规表达式,请为每个表达式创建一个单独的数据类型。
在表达式中使用单词边界来正确定义与数据类型匹配的内容。
正则表达式引擎基于 UTF-8,并支持非英文内容的字符。
正则表达式阈值
您可以为表达式定义阈值,即内容在文件中出现的次数。 当它匹配或超过阈值时,文件则匹配数据控制规则。
例如,若您为 ID 创建了表达式,阈值为5,则只有包含 ID 五次或更多的文件才会被阻止。
验证常规表达式
您可以使用验证表达式字段测试表达式,确保其正确匹配内容。 当您点击测试时,DLP 服务会检查内容是否匹配常规表达式。 这是在 Cato 云中运行的同一服务,因此测试结果与您在账户中看到的行为一致。
验证表达式也包含数据类型的阈值。 因此,当阈值大于1时,值必须至少出现那么多次才能使测试成功。
以下为支持的用户定义正则表达式数据类型的常规表达式运算符与量词:
|
运算符 |
匹配模式 |
|---|---|
|
\ |
引用下一个元字符 |
|
^ |
匹配行的开始 |
|
$ |
匹配行的结束 |
|
. |
匹配任意单个字符 |
|
| |
选项 |
|
() |
不支持捕获组。 可以使用括号用于边界确定子表达式。 |
|
[xy] |
匹配单个字符给出在括号之间的任意字符 |
|
[x-z] |
字符的范围在x和z之间 |
|
[^z] |
任何字符除外z |
|
量词 |
匹配模式 |
|---|---|
|
* |
匹配 0 次或更多次(见下文说明) |
|
+ |
匹配 1 次或更多次(见下文说明) |
|
? |
匹配 0 次或 1 次 |
|
{n} |
匹配精确n次 |
|
{n,} |
至少匹配n次 |
|
{n,m} |
至少匹配n次,但不超过m |
注意
注意:不允许使用任意字符的无限制贪婪量词,如.*或.+。 如果您尝试在类或集内包含字符,请反转它们。 例如,*。
代替使用这些贪婪量词,您可以使用.{1,50}来支持最多50个字符以匹配每个关键词或模式的正则表达式数据类型
为了增强对您行业或公司相关专门文档的保护,您可以创建自己的用户定义机器学习(ML)分类器。
用户定义的机器学习分类器显著减少误报,提升整体效率和引擎的精确度。 使用高级数据科学相似性模型,机器学习分类器在检测敏感数据方面提供了更好的适应性和准确性,因为它们可以根据变化的数据模式动态学习和发展。
通过上传文本文件作为您想要保护的文档示例,您可以训练机器学习模型,以实时识别类似文档,防止未经授权的数据泄露。 机器学习模型基于文件内的文本,图像或视频将被忽略。
对于每个DLP数据类型,您可以验证DLP引擎是否识别并匹配测试文件中的敏感数据。 验证功能嵌入在预定义、用户定义和敏感度标签配置文件中,位于数据类型 & 配置文件页面。 无论是新的或现有的关键词、字典或正则表达式字符串,您都可以上传一个文件来测试您的设置,然后再部署新的数据类型。 您还可以验证预定义数据类型和敏感度标签。
DLP验证工具的一个关键用途是通过使用输入数据验证您的DLP设置,确保关键词和信息串(通过正则表达式)被正确检测。 另一个关键用例是您可以上传示例文件到规则中,以查看文件类型和格式是否被正确扫描以检测数据类型的规定数据。
对于文件不匹配数据类型的情况下的故障排除和支持,您可以下载由DLP引擎提取内容的解析文本文件。
以下是验证字典数据类型的示例过程:
验证字典数据类型的测试文件:
-
从导航菜单中选择安全性 > 数据类型 & 配置文件,然后选择数据类型标签页。
-
将鼠标移动到字典数据类型的行并点击编辑图标。 编辑面板打开。
-
点击验证字典。 验证字典面板打开。
-
上传一个测试文件,并点击扫描文件。 显示扫描结果。
-
要下载由DLP引擎提取的内容的文本文件,请点击导出提取的文本。
-
当您实施策略或添加带有阻止操作的新应用程序时:
-
使用规则的监控操作。
-
查看规则生成的事件,确保没有想要允许的流量事件(误报流量)。
-
如果存在误报流量,您可以做出这些更改:
-
精炼规则的范围以排除误报流量
-
在阻止规则之前创建新的允许规则,新规则的范围仅针对误报流量
-
优化正则表达式并确保使用要扫描的内容的准确示例验证它
-
-
-
请记住,应用控制策略是一个有序的策略,最终默认规则是ANY ANY接受。 为策略添加规则以阻止相关应用程序流量、活动和标准。
-
有关文件要求的信息,请参见卡托DLP服务是什么。
-
对于以gzip格式压缩的某些下载,DLP的文件大小是根据压缩文件计算的。 如果压缩文件大小小于1kb,将不会被扫描。
-
-
正则表达式的最大字符限制为256个字符。
-
不支持Base64编码文件,DLP引擎无法检查这些文件中的内容。
0 条评论
请登录写评论。