本文讨论如何使用故事工作台查看网络中关于连接性和性能问题的站点操作故事。
Cato XOps识别网络问题,如性能下降,除了潜在的安全威胁。 高级站点操作引擎检测与连接性和性能相关的不同指征和指标,并生成相关数据的故事以解决网络问题。 例如,如果一个WAN链接间歇性地经历高数据包丢失,引擎将创建一个故事,包含所有链接的相关数据。
故事工作台页面显示每个故事的详细信息,帮助您了解和分析问题。 您可以排序和筛选故事以找到最重要的事件,然后深入研究故事以进一步调查和解决问题。
这些是由站点操作引擎检测到的网络连接性和性能问题的指征,并用于生成故事:
|
指示 |
描述 |
生成故事的阈值 |
|---|---|---|
|
站点断开 |
站点从Cato Cloud断开连接。 |
所有链接断开2.5分钟 |
|
链接断开 |
站点的一个WAN链接从Cato Cloud断开,站点仍然连接。 |
链接断开5分钟,或在10分钟内有5次较短的断开 |
|
BGP会话断开 |
BGP会话意外断开,可能影响应用连接性和用户体验。 |
BGP会话断开5分钟或在10分钟内有5次或更多较短的断开 |
|
LAN监控 - 主机不可访问 |
被监控的站点后面的主机没有响应PoP的保活数据包,被认为不可访问。 需要为主机配置LAN监控规则。 |
一个LAN监控不可访问事件 |
|
链接质量SLA |
站点的链接SLA质量阈值被超出。 这可能影响用户体验。 为质量健康规则配置SLA阈值。 注意:
|
一个质量健康规则事件 |
|
Socket HA未就绪状态 |
Socket高可用性(HA)配置存在问题,状态为未就绪。 |
发生以下之一的Socket HA未就绪条件:
有关这些条件的更多信息,请参见什么是Socket HA |
|
PoP重新连接以改善连接性 |
站点被迫重新连接到PoP,以优化性能。 重新连接PoP可能影响用户体验。 |
此消息的一个重新连接事件: 检测到性能问题,重新连接到Cato Cloud中的不同服务节点 有关事件消息字段的更多信息,请参见了解Socket连接事件消息字段 |
|
LAN端口断开 |
其中一个LAN端口断开连接 |
端口断开5分钟 |
|
备用WAN链接断开 |
一个备用 WAN链接断开 |
链接断开或通道数降至0,持续5分钟 |
|
升级后插座离线 |
插座在升级到新版本后,没有在预期时间内重新建立隧道。 |
插座在预计升级时间完成后断开连接5分钟。 |
站点操作故事在整个故事生命周期中经历不同的阶段,从触发故事的最初问题到最终解决方案。 然而,站点断开故事的生命周期与其他故事类型略有不同。 这是因为当一个站点断开故事正在进行时,不会为该站点创建其他故事,以避免产生冗余故事。
例如,如果具有两个WAN链接的站点断开,将生成一个站点断开故事,而不为每个WAN链接生成单独的链接断开故事。
以下是一个站点断开故事及其他故事类型的可能阶段:
-
站点断开故事生命周期中的阶段:
-
开放 - 问题当前正在进行,已创建故事
-
监控 - 问题已解决不到2小时
-
已关闭 - 问题已解决2小时,故事已关闭
-
-
其他故事类型的生命周期阶段:
-
搁置 - 问题正在进行,但未创建故事,因为站点当前断开。 直到站点断开故事关闭后经过2分钟,问题仍然搁置
-
开放 - 问题当前正在进行,已创建故事
-
监控 - 问题已解决不到2小时
-
已关闭 - 问题已解决2小时,故事已关闭
-
注意
注意: 站点操作故事在以下情况下也会自动关闭:
-
30天 - 关闭以确保问题再次发生时的新跟踪
-
故事需要重新验证 - 站点操作引擎确定需要重新验证该故事。 如果问题再次发生,引擎会验证并重新开启故事
-
配置更改 – 由于配置更新,故事中的实体(链接、站点、BGP范围、主机)不再相关
这是管理员使用故事工作台识别和解决站点操作网络故事的示例用例:
-
将故事工作台过滤以显示按站点分组的开放站点操作故事
-
识别出纽约站点的一个高危故事,指示链接断开
-
打开故事的深入分析页面,查看故事数据,发现站点的WAN 01链接从Cato Cloud断开
-
查看相关的剧本以调查和排查问题
-
在检查纽约站点的物理Socket后,发现WAN 01链接电缆故障
-
更换电缆,确认链接已上线并连接,并继续监控故事以防问题再次发生
-
在没有再次发生问题的情况下,故事在两小时后自动关闭
故事工作台页面显示您账户的XOps故事摘要。
|
列 |
描述 |
|---|---|
|
ID |
此故事的唯一Cato ID |
|
状态 |
站点操作故事的状态代表故事生命周期中的不同阶段,从触发故事的初始问题到最终解决方案。 当站点操作引擎检测到网络事件的相关更改时,会自动更新状态。 这些是状态类型:
|
|
已创建 |
故事的第一个流量流日期 |
|
已更新 |
故事的最新流量流日期 |
|
关键性 |
|
|
指示 |
|
|
来源 |
|
|
出现次数 |
问题发生的次数,包括暂时解决后的复发。 例如,如果链接反复断开和重新连接,则每次断开都计为一次出现 |
|
引擎类型 |
创建故事的引擎。 对于站点操作故事,引擎为站点操作 |
在查看故事时提供上下文,您可以按包括来源、指示、状态和类型在内的详细信息分组显示故事。 例如,您可以将所有与特定来源站点相关的故事,或所有链路质量SLA故事一起显示。 这可以在分析故事时提供更广泛的视角,帮助您更快速地了解和解决问题。
对于站点操作故事,来源为网络中的站点。
我们建议作为最佳实践,先按来源分组来分析网络故事。
每个组都会突出显示该组中故事的关键级别,包括高、中、低关键性故事的数量。
在故事工作台中有三种方法可以筛选数据:
-
选择预设筛选器
-
自动更新筛选器以添加选定项目
-
手动配置筛选器
您可以选择预设筛选器以聚焦于网络操作或安全操作故事。 选择预设筛选器后,故事类型最相关的故事列默认为显示。
当你在一个项目或字段上悬停并且有过滤器选项可用时,按钮会出现。 点击图标以显示筛选选项:
-
添加到筛选器 - 将项目添加到筛选器,故事工作台现在仅显示包含此项目的故事。 例如,如果您根据特定关键性得分进行筛选,则页面只会显示具有该关键性的故事。
-
从筛选器中排除 - 更新筛选器以排除此项目,故事工作台现在仅显示不包含此项目的故事。
你可以继续向过滤器添加项目,再次点击更新过滤器并进一步深钻。
您可以手动配置故事筛选器以获得更大的粒度进行故事分析。 配置筛选器后,它将添加到故事筛选栏,页面自动更新以显示符合新筛选器的故事。
您可以在故事工作台中点击某个故事以深入研究并在不同页面上调查详细信息。 此页面包含多个小部件,有助于您评估站点操作引擎识别的潜在问题。
故事工作台的深入分析包含一个链接到一个剧本,这个剧本提供了调查、故障排除和解决问题的步骤。 每个站点操作故事链接到该故事特定指示的剧本。 例如,具有指示Socket HA未就绪状态的故事的剧本。
故事工作台深入分析包括一个工具,让您可以创建由AI生成的自然语言故事描述,提供丰富的上下文,帮助您快速评估故事。 故事摘要会动态生成,以反映故事的当前状态。 如果故事更新了新信息,您可以重新生成摘要以反映更改。
关于生成AI故事摘要的更多信息,请参见下方。
-
AI故事摘要仅在管理员请求时生成
这些是故事的深入分析小部件:
|
项目 |
名称 |
描述 |
|---|---|---|
|
1 |
故事摘要 |
有关故事的基本信息摘要,包括:
|
|
2 |
显示故事状态的变化时间轴 |
|
|
3 |
故事详情 |
用于分析故事的基本信息,包括故事描述、创建和更新的时间、新的相关网络事件及站点信息。 |
|
4 |
当前站点概览 |
有关受此故事影响的网络内站点的信息。 小部件中包含一个链接,可查看站点的近期连接日志,并提供下拉菜单快捷方式,指向站点配置和站点监控页面。 此小部件与拓扑页面上的站点信息面板相同。 |
|
5 |
事件时间表 |
检测到的事件列表,包含故事中的问题和解决方案。 例如,"链接已断开"故事的事件时间表包括以下事件:
以下是事件时间表的列:
|
XOps响应策略帮助你通过定义何时将事件的电子邮件通知发送给管理员来监控XOps事件。 您可以创建规则来定义发送通知的故事标准,并可使用邮件列表配置接收通知的管理员。 例如,您可以创建一个规则来为具有高严重程度的站点操作故事发送通知,并定义邮件列表包括帮助台电子邮件地址,以自动打开支持工单。
有关创建响应策略规则的更多信息,请参见为XOps故事创建响应策略。
0 条评论
请登录写评论。