查看站点操作故事

本文讨论如何使用故事工作台查看网络中关于连接性和性能问题的站点操作故事。

概览

Cato XOps识别网络问题,如性能下降,除了潜在的安全威胁。 高级站点操作引擎检测与连接性和性能相关的不同指征和指标,并生成相关数据的故事以解决网络问题。 例如,如果一个WAN链接间歇性地经历高数据包丢失,引擎将创建一个故事,包含所有链接的相关数据。

故事工作台页面显示每个故事的详细信息,帮助您了解和分析问题。 您可以排序和筛选故事以找到最重要的事件,然后深入研究故事以进一步调查和解决问题。

站点操作故事指征

这些是由站点操作引擎检测到的网络连接性和性能问题的指征,并用于生成故事:

指示

描述

生成故事的阈值

站点断开

站点从Cato Cloud断开连接。

所有链接断开2.5分钟

链接断开

站点的一个WAN链接从Cato Cloud断开,站点仍然连接。

链接断开5分钟,或在10分钟内有5次较短的断开

BGP会话断开

BGP会话意外断开,可能影响应用连接性和用户体验。

BGP会话断开5分钟或在10分钟内有5次或更多较短的断开

LAN监控 - 主机不可访问

被监控的站点后面的主机没有响应PoP的保活数据包,被认为不可访问。

需要为主机配置LAN监控规则。

一个LAN监控不可访问事件

链接质量SLA

站点的链接SLA质量阈值被超出。 这可能影响用户体验。

质量健康规则配置SLA阈值。

注意:

  • 链接质量SLA故事不包括链接拥塞问题。

  • 对于ILMM客户,不生成基于抖动和延迟的故事。

一个质量健康规则事件

Socket HA未就绪状态

Socket高可用性(HA)配置存在问题,状态为未就绪。

发生以下之一的Socket HA未就绪条件:

  • 已连接未就绪5分钟

  • 保活未就绪60分钟

  • 兼容版本未就绪60分钟

  • 故障转移到备用socket 60分钟

有关这些条件的更多信息,请参见什么是Socket HA

PoP重新连接以改善连接性

站点被迫重新连接到PoP,以优化性能。 重新连接PoP可能影响用户体验。

此消息的一个重新连接事件:

检测到性能问题,重新连接到Cato Cloud中的不同服务节点

有关事件消息字段的更多信息,请参见了解Socket连接事件消息字段

LAN端口断开

其中一个LAN端口断开连接

端口断开5分钟

备用WAN链接断开

一个备用 WAN链接断开

链接断开或通道数降至0,持续5分钟

升级后插座离线

插座在升级到新版本后,没有在预期时间内重新建立隧道。

插座在预计升级时间完成后断开连接5分钟。

了解站点操作故事生命周期

站点操作故事在整个故事生命周期中经历不同的阶段,从触发故事的最初问题到最终解决方案。 然而,站点断开故事的生命周期与其他故事类型略有不同。 这是因为当一个站点断开故事正在进行时,不会为该站点创建其他故事,以避免产生冗余故事。

例如,如果具有两个WAN链接的站点断开,将生成一个站点断开故事,而不为每个WAN链接生成单独的链接断开故事。

以下是一个站点断开故事及其他故事类型的可能阶段:

  • 站点断开故事生命周期中的阶段:

    1. 开放 - 问题当前正在进行,已创建故事

    2. 监控 - 问题已解决不到2小时

    3. 已关闭 - 问题已解决2小时,故事已关闭

  • 其他故事类型的生命周期阶段:

    1. 搁置 - 问题正在进行,但未创建故事,因为站点当前断开。 直到站点断开故事关闭后经过2分钟,问题仍然搁置

    2. 开放 - 问题当前正在进行,已创建故事

    3. 监控 - 问题已解决不到2小时

    4. 已关闭 - 问题已解决2小时,故事已关闭

注意

注意: 站点操作故事在以下情况下也会自动关闭:

  • 30天 - 关闭以确保问题再次发生时的新跟踪

  • 故事需要重新验证 - 站点操作引擎确定需要重新验证该故事。 如果问题再次发生,引擎会验证并重新开启故事

  • 配置更改 – 由于配置更新,故事中的实体(链接、站点、BGP范围、主机)不再相关

示例用例

这是管理员使用故事工作台识别和解决站点操作网络故事的示例用例:

  • 将故事工作台过滤以显示按站点分组的开放站点操作故事

  • 识别出纽约站点的一个高危故事,指示链接断开

  • 打开故事的深入分析页面,查看故事数据,发现站点的WAN 01链接从Cato Cloud断开

  • 查看相关的剧本以调查和排查问题

  • 在检查纽约站点的物理Socket后,发现WAN 01链接电缆故障

  • 更换电缆,确认链接已上线并连接,并继续监控故事以防问题再次发生

  • 在没有再次发生问题的情况下,故事在两小时后自动关闭

显示故事工作台页面

故事工作台页面显示您账户的XOps故事摘要。

查看故事工作台页面:

  • 在导航菜单中,点击首页 > 故事工作台

了解故事列

检测___响应___工作台_w_网络.png

描述

ID

此故事的唯一Cato ID

状态

站点操作故事的状态代表故事生命周期中的不同阶段,从触发故事的初始问题到最终解决方案。 当站点操作引擎检测到网络事件的相关更改时,会自动更新状态。 这些是状态类型:

  • 打开 - 站点操作引擎检测到触发生成故事的网络问题

  • 监控 - 站点操作引擎检测到初始问题已解决,并继续监控两小时以检查是否复发。 如果检测到复发,状态将更改回打开

  • 关闭 - 当连续两小时未检测到复发时,状态为监控的故事将更改为关闭

    注意

    注意: 仅有站点操作故事会自动关闭,并且只有在120分钟内不再出现问题之后才会自动关闭。 XOps安全事件不会自动关闭。

已创建

故事的第一个流量流日期

已更新

故事的最新流量流日期

关键性

  • 问题对网络的潜在影响。 数值范围从1(低影响)到10(高影响)

指示

  • 故事的网络问题指示

来源

  • 出现网络问题的站点

出现次数

问题发生的次数,包括暂时解决后的复发。 例如,如果链接反复断开和重新连接,则每次断开都计为一次出现

引擎类型

创建故事的引擎。 对于站点操作故事,引擎为站点操作

故事分组

在查看故事时提供上下文,您可以按包括来源指示状态类型在内的详细信息分组显示故事。 例如,您可以将所有与特定来源站点相关的故事,或所有链路质量SLA故事一起显示。 这可以在分析故事时提供更广泛的视角,帮助您更快速地了解和解决问题。

对于站点操作故事,来源为网络中的站点。

我们建议作为最佳实践,先按来源分组来分析网络故事。

每个组都会突出显示该组中故事的关键级别,包括高、中、低关键性故事的数量。

Stories_Workbench_Grouping.png

在故事工作台中分组故事:

  1. 从导航菜单中,点击主页 > 故事工作台

  2. 按组下拉菜单中选择所需的标准。

    故事将以可展开的组显示。

筛选故事

在故事工作台中有三种方法可以筛选数据:

  • 选择预设筛选器

  • 自动更新筛选器以添加选定项目

  • 手动配置筛选器

预设筛选器

您可以选择预设筛选器以聚焦于网络操作安全操作故事。 选择预设筛选器后,故事类型最相关的故事列默认为显示。

选择预设筛选器:

  1. 在筛选栏中,点击选择预设下拉菜单。

  2. 选择预设。 故事工作台将更新以显示与预设相匹配的故事。

自动筛选项目

当你在一个项目或字段上悬停并且有过滤器选项可用时,TD_Filter.png按钮会出现。 点击图标以显示筛选选项:

  • 添加到筛选器 - 将项目添加到筛选器,故事工作台现在仅显示包含此项目的故事。 例如,如果您根据特定关键性得分进行筛选,则页面只会显示具有该关键性的故事。

  • 从筛选器中排除 - 更新筛选器以排除此项目,故事工作台现在仅显示不包含此项目的故事。

你可以继续向过滤器添加项目,再次点击TD_Filter.png更新过滤器并进一步深钻。

选择时间范围

故事工作台的默认时间范围为前两天。 您可以选择不同的时间范围以显示更长或更短的时间段。 有关更多信息,请参见设置时间范围筛选器

故事工作台的最大日期范围为90天。

手动配置筛选器

您可以手动配置故事筛选器以获得更大的粒度进行故事分析。 配置筛选器后,它将添加到故事筛选栏,页面自动更新以显示符合新筛选器的故事。

创建筛选器:

  1. 在过滤器栏中,点击Add2.png

  2. 开始输入或选择字段

  3. 选择操作符,它确定字段与您正在搜索的之间的关系。

  4. 选择

  5. 点击添加筛选器。 筛选器会添加到筛选栏,故事工作台更新以基于筛选器显示故事。

清除筛选器

您可以单独移除筛选器中的每个项目,或清除整个筛选器。

清除故事工作台页面的筛选器:

  1. 要清除一个过滤器,点击过滤器旁边的remove.png

  2. 要清除所有筛选器,请点击筛选栏右侧的X。

深入分析和分析故事

您可以在故事工作台中点击某个故事以深入研究并在不同页面上调查详细信息。 此页面包含多个小部件,有助于您评估站点操作引擎识别的潜在问题。

使用剧本调查故事

故事工作台的深入分析包含一个链接到一个剧本,这个剧本提供了调查、故障排除和解决问题的步骤。 每个站点操作故事链接到该故事特定指示的剧本。 例如,具有指示Socket HA未就绪状态的故事的剧本。

生成AI故事摘要

故事工作台深入分析包括一个工具,让您可以创建由AI生成的自然语言故事描述,提供丰富的上下文,帮助您快速评估故事。 故事摘要会动态生成,以反映故事的当前状态。 如果故事更新了新信息,您可以重新生成摘要以反映更改。

关于生成AI故事摘要的更多信息,请参见下方

  • AI故事摘要仅在管理员请求时生成

使用标记保护敏感数据

为了在将故事数据传输到第三方AI服务期间实现强大的数据安全,Cato使用标记化技术来确保所有敏感数据仍然留在Cato XOps平台中。 这涉及将敏感信息替换为唯一标识符或“令牌”,使未授权实体对数据毫无意义。 敏感数据绝不会暴露给第三方服务。 这种方法确保故事的详细信息的机密性,与我们对强大数据隐私和安全标准的承诺保持一致。

注意

注意: 由于生成AI的局限性,故事摘要中提供的信息可能偶尔包含不准确之处。

了解故事深入分析小部件

Detection___Response_Network_callouts.png

这些是故事的深入分析小部件:

项目

名称

描述

1

故事摘要

有关故事的基本信息摘要,包括:

  • 故事类型

  • 与故事相关联的站点名称

  • 故事的关键性

  • 问题发生的次数

  • 故事生成后经过的天数

  • 故事的当前状态

2

故事时间轴

显示故事状态的变化时间轴

3

故事详情

用于分析故事的基本信息,包括故事描述、创建和更新的时间、新的相关网络事件及站点信息。

  • 点击生成 AI 概要,获取自然语言故事描述,为您提供丰富的上下文,以帮助您快速评估故事。

  • 点击操作手册知识库文章链接,打开该操作手册,了解如何排除故障并解决此类故事。

4

当前站点概览

有关受此故事影响的网络内站点的信息。 小部件中包含一个链接,可查看站点的近期连接日志,并提供下拉菜单快捷方式,指向站点配置站点监控页面。 此小部件与拓扑页面上的站点信息面板相同。

5

事件时间表

检测到的事件列表,包含故事中的问题和解决方案。 例如,"链接已断开"故事的事件时间表包括以下事件:

  • WAN1 主套接字的活动链接 - 已与 Cato 云断开连接

  • WAN1 主套接字的活动链接 - 成功重新建立了与 Cato 云的连接

  • 120 分钟后不再出现此问题,故事状态从监控更改为关闭

    注意

    注意: 只有站点操作故事会自动关闭,并且仅在问题不再发生的 120 分钟后。 XOps安全事件不会自动关闭。

以下是事件时间表的列:

  • 创建时间 - 事件首次检测的时间

  • 确认时间 - 创建的事件被确认的时间

  • 事件描述

  • 事件 - 一个链接显示为事件页,预过滤以显示该事件的事件

使用站点操作故事的响应策略

检测___响应_网络_响应_政策.png

XOps响应策略帮助你通过定义何时将事件的电子邮件通知发送给管理员来监控XOps事件。 您可以创建规则来定义发送通知的故事标准,并可使用邮件列表配置接收通知的管理员。 例如,您可以创建一个规则来为具有高严重程度的站点操作故事发送通知,并定义邮件列表包括帮助台电子邮件地址,以自动打开支持工单。

有关创建响应策略规则的更多信息,请参见XOps故事创建响应策略

这篇文章有帮助吗?

0 人中有 0 人觉得有帮助

0 条评论