本文将解释如何创建自定义数据类型,以便为您的组织识别在数据泄露防护策略中的敏感数据。
Cato 提供数百种预定义数据类型和类别,用于典型的DLP策略场景。 然而,有时组织需要能够创建自定义定义的数据类型,以匹配既存的预定义类型所未涵盖的特定数据检查。
您可以定义以下自定义数据类型以自定义 内容检查策略:
-
在您的Cato数据泄露防护策略中使用来自Microsoft信息保护框架的Microsoft敏感性标签
-
用户定义数据类型包括:
-
使用关键字来定义包含一个或多个 协议即用于搜索 DLP 引擎的敏感条目的项
-
字典是包含最多 50 个单词或短语的容器,数据泄露防护引擎会搜索以匹配字典中的任意项目
-
正则表达式数据类型允许输入定义了 DLP 引擎搜索内容的正则表达式
-
-
自定义机器学习分类器
-
精确数据匹配 (EDM) 配置文件允许您定义用于内容匹配的特定数据,而不是通用数据模式。 有关EDM配置文件的更多信息,请参见使用EDM处理DLP。
创建用户定义数据类型或敏感度标签后,可以将它们添加到现有DLP内容配置文件或创建新的配置文件。
您可以使用 MIP 标签定义敏感数据,然后在您的 Cato 数据泄露防护策略中使用这些 MIP 标签作为数据类型。
在 Cato 管理应用程序中创建 敏感性标签 后,您可以将它们添加到 内容配置文件。 然后,您可以根据MIP标签为不同的用户和群组创建数据泄露防护规则来管理内容访问。
例如,如果您有MIP分类标签的文件,请在您的Cato数据泄露防护策略中创建该标签并将其添加到内容配置文件受限制的文档中。 然后,为没有足够安全权限的用户群组定义阻止访问的 DLP 规则。
DLP 引擎会扫描文件元数据中定义的标签,而不是实际内容,这有助于减少误报。 引擎根据您配置的 标签 ID 强制执行 敏感性标签,而不是根据 名称。 确保标签ID与MIP标签ID完全匹配。 有关如何查找您的组织帐户的 MIP 标签 ID 的更多信息,请参见 Microsoft 文档。
注意
注意: 文件必须被MIP标记才能被此数据类型管理。 要检查文件是否正确标记,请使用数据泄露防护验证工具。
用户定义的数据类型可以是关键词、字典或正则表达式。
为 DLP 引擎要搜索的自定义敏感内容创建自定义关键词或字典。 对于字典,您可以在 CSV 文件中维护条目,然后将其粘贴为该字典的值。
-
DLP 引擎会搜索每个关键词或字典条目的精确匹配
-
关键词必须包含至少8个字符(无论是单字节还是多字节)。
-
在关键词中,字数或字符数没有上限
-
关键词和字典不区分大小写
-
字典条目之间存在或的关系
-
短语必须在每个词语上完全匹配,例如短语 health care 不会与 healthcare 匹配
因此,对于字典,您将创建以下三个值以匹配以上单词:health,care,healthcare
-
根据标准的单词边界识别单词和短语,例如单词后的空格。 单词前后必须有边界才能被检测到。 有关支持的词边界的完整列表,请参见下文关键词和词典数据类型的词边界
-
要检测多字节词汇,我们建议使用正则表达式数据类型,因为通常在其前后没有边界
-
处理阈值
您可以为每个用户定义的数据类型定义阈值,即文件中关键字或字典匹配的次数。 当文件匹配或超过阈值时,该文件将符合数据控制规则(在安全性 > 应用控制页面)。
-
关键字 - 关键词的阈值会查找完全匹配该单词或短语的重复出现。
-
例如,关键词apple的阈值为3。 如果文件中包含3次单词apple,那么该文件将被阻止。
-
-
字典 - 字典的阈值会查找该字典中任意值的重复出现。
-
例如,如果字典中包含apple和orange,阈值为3。 如果文件中包含2次单词apple和1次单词orange,那么该文件将被阻止。
此外,如果文件中包含3次单词apple和0次单词orange,那么该文件将被阻止。
-
使用正则表达式来定义与数据类型匹配的内容类型。 例如,正则表达式公式可以让您轻松匹配具有特定位数的自定义企业 ID。 每个正则表达式数据类型支持单个正则表达式,所以如果您需要使用多个正则表达式,请为每个表达式创建一个单独的数据类型。
在表达式中使用词边界来正确定义与数据类型匹配的内容。
正则表达式引擎基于 UTF-8 并支持非英文内容的字符。
正则表达式阈值
您可以为表达式定义阈值,即内容在文件中出现的次数。 当匹配或超过阈值时,文件将匹配数据控制规则。
例如,如果您为 ID 创建了一个5的阈值表达式,那么只有包含该 ID 五次或更多次的文件才会被阻止。
验证正则表达式
您可以使用验证表达式字段来测试表达式,以确保它正确匹配内容。 当您点击测试时,DLP 服务将检查内容是否匹配正则表达式。 这是与卡托云相同的服务,因此测试结果将在您的账户中表现相同。
验证表达式还包括数据类型的阈值。 因此,当阈值大于1时,值必须至少出现这么多次才能使测试成功。
这些是支持用户定义正则表达式数据类型的正则表达式操作符和量词:
|
操作符 |
匹配模式 |
|---|---|
|
\ |
引用下一个元字符 |
|
^ |
匹配一行的开头 |
|
$ |
匹配一行的结尾 |
|
. |
匹配任何单个字符 |
|
| |
交替 |
|
() |
不支持捕获组。 括号可以用于限定子表达式。 |
|
[xy] |
匹配括号内给定的单个字符 |
|
[x-z] |
x和z之间的字符范围 |
|
[^z] |
任意字符除z外 |
|
量词 |
匹配模式 |
|---|---|
|
* |
匹配0次或多次(参见下方说明) |
|
+ |
匹配1次或多次(参见下方说明) |
|
? |
匹配0次或1次 |
|
{n} |
正好匹配n次 |
|
{n,} |
至少匹配n次 |
|
{n,m} |
至少匹配n次,但不超过m次 |
注意
注意:不允许使用.*或.+等任意字符的无限制贪婪量词。 如果您尝试在类或集合中包含字符,请将其反转。 例如,*.
Instead of using these greedy quantifiers, you can use .{1,50} that supports up to 50 characters for each keyword or pattern for the regex data type
为了增加对您所在行业或公司相关的专业文档的保护,您可以创建自己的用户定义机器学习(ML)分类器。
用户定义的机器学习分类器显著减少了误报,并提高了数据泄露防护引擎的整体效果性和精确性。 Using an advanced data science similarity model, the ML Classifiers offer better adaptability and accuracy in detecting sensitive data, as they can dynamically learn and evolve with changing data patterns.
通过上传文本文件作为您要保护的文档样本,您可以训练一个机器学习模型,该模型可以实时识别相似的文档,防止未经授权的数据泄露。 机器学习模型基于文件中的文本,图片或视频会被忽略。
对于每个数据泄露防护数据类型,您可以验证DLP引擎是否在测试文件中识别并匹配了敏感数据。 验证功能已嵌入到位于数据类型 & 配置文件页面中的预定义、用户定义和敏感度标签配置文件中。 无论是新关键词、字典或正则表达式字符串,还是已有的,您都可以上传一个文档以在部署新数据类型之前测试您的设置。 您还可以验证预定义数据类型和敏感度标签。
DLP验证工具的其中一个关键用途是验证您的DLP设置,以确保使用输入的数据正确检测关键词和信息字符串(通过正则表达式)。 另一个关键用例是您可以将示例文档上传到规则中,以查看文件类型和格式是否会被正确扫描,以检测数据类型的规定数据。
对于文件不符合数据类型的情况下的故障排除和支持,您可以下载DLP引擎提取的内容的解析文本文件。
以下是验证字典数据类型的示例过程:
使用测试文件验证字典数据类型:
-
从导航菜单选择安全 > 数据类型 & 配置文件,然后选择数据类型选项卡。
-
将鼠标悬停在字典数据类型的行上,然后点击编辑图标。 编辑面板打开。
-
点击验证字典。 验证字典面板打开。
-
上传一个测试文件,然后点击扫描文件。 会显示扫描结果。
-
要下载由DLP引擎提取的内容的文本文件,点击导出提取的文本。
-
当您实施该策略或添加带有阻止操作的新应用程序时:
-
针对该规则使用监控操作。
-
查看规则生成的事件,并确保没有与您要允许的流量相关(误报流量)的事件。
-
如果存在误报流量,您可以做以下更改:
-
细化规则的范围以排除误报流量
-
在阻止规则之前创建一个新的允许规则,新规则的范围仅用于误报流量
-
细化正则表达式,并确保使用您想扫描的内容的准确示例来验证它
-
-
-
记住,应用控制策略是有序策略,最终隐含规则是任何 任何 接受。 向策略中添加规则以阻止相关的应用流量、活动和条件。
-
有关文件要求的信息,请参见卡托DLP服务是什么。
-
对于某些以gzip格式压缩的下载,DLP的文件大小是基于压缩文件计算的。 如果压缩文件大小小于1kb,将不进行扫描。
-
-
正则表达式的最大限制为256个字符。
-
Base64编码的文件不支持,数据泄露防护引擎无法检查这些文件中的内容。
0 条评论
请登录写评论。