Cato Socket Link SLA 架构

概述

Cato Cloud 是通过一级服务提供商构建的私有全球骨干网,旨在为企业站点间的广域网流量提供一致和可预测的 SLA 性能。 每个 Cato PoP 都通过这个骨干网互连,提供独立于公共互联网的可控延迟和数据包传输。

为保持这些保障,Cato 开发了专有技术,使得 Cato Socket 和 PoP 之间能够持续协调。 Socket 测量每条链接的关键性能指标,而 PoP 则聚合并关联这些测量结果,以保持站点与骨干网之间的最佳路径。 它们共同确保一致的链路性能,实时调整以保持服务连续性并最大化可用广域网资源的效率。

Cato 提供对每个站点、用户和应用程序的网络状况的完整端到端可见性。 Cato 的 XOps 服务运用 AI 驱动的分析,将这些数据转化为清晰、可操作的故事,帮助 IT 团队更快速地解决问题。 通过不断将指标摄入到单一上下文引擎中,XOps 提供实时洞察和警报,减少重复调查并加速根本原因识别,确保最佳用户体验。

行为依据站点部署类型

  • 活跃/活跃: Cato 动态评估并根据实时条件在两个活跃广域网链接上路由流量。 流量被转向基于实时条件表现更好的链路。 设置由 Cato 骨干网动态配置,不可定制(注意: 计划为活跃/活跃部署提供自定义 SLA 阈值)

  • 活跃/被动: 在正常操作期间,只有主链路承载流量。 当性能低于 SLA 阈值时,Socket 激活被动链路并重定向流量以保持连接。 这种行为由智能 SLA 控制,自动评估链路质量以进行故障转移决策。 您还可以按站点定制 SLA 阈值

  • 活跃/被动加最后手段: 为确保在严重广域网中断期间的关键连接,您可以为 Socket 定义最后手段链路。 通常为蜂窝连接,Socket 仅在紧急情况下使用此链路

链路 SLA 操作和架构

Cato Cloud 骨干网和 Socket 作为统一的 SD-WAN 结构运行,确保整个广域网的链路性能一致。 通过 Socket 与其连接的 PoP 之间的连续遥测交换,平台监控每个链接的实时质量,并主动调整路由以防止性能下降。

Socket 和 PoP 协调

Socket 测量每个广域网链路的延迟、丢包率、抖动和拥堵,并将这些数据发送给连接的 PoP。 PoP 然后根据其自身骨干网侧遥测验证测量结果。 Socket 和 PoP 协同工作,做出同步路由决策,确保端到端的可见性,并避免局部异常。 有关详细信息,请参见理解站点的可接受和不可接受 SLA

实时链路评估

Socket 根据实时性能为每条链路分配动态评分,评分每隔几秒更新。 当网络条件发生变化时,流量路径会自动调整,无需人工干预。 管理员可以在 CMA 中查看实时和历史指标,这些反映了来自 Socket 和 PoP 的洞察。 欲了解更多信息,请参见第1部分:Socket接口和优先级

骨干网级优化

PoP 将链路遥测集成到 Cato 的全球路由引擎中。 如果 Socket 报告一致的性能下降,PoP 可能会通过备用骨干网路径重新路由站点的流量。 这种方式确保在站点级别之外执行 SLA。

示例序列:性能下降检测和路径调整

这个例子说明了美国费城的物理站点如何通过切换纽约和华盛顿特区附近的 Cato PoP 来保持 SLA 合规性。

  1. 性能下降检测: 费城站点的 Socket 检测到连接到纽约 PoP 的链路上数据包丢失率和延迟增加。 这些性能下降指标会立即报告给纽约 PoP。

  2. 遥测交换: 华盛顿特区 PoP 根据其自身骨干网侧遥测验证报告。 两个 PoP 均确认性能下降是持续性的,并不是由短暂的局部问题引起的。

  3. 路径调整: 费城 Socket 将受影响的流量从纽约 PoP 重新路由到华盛顿特区 PoP。 转换自动发生,保持会话连续性并恢复 SLA 合规性。

  4. 后调整监控: Socket 和 PoPs 继续监控链路质量。 当纽约 PoP 连接恢复正常性能时,流量自动迁移回通过纽约的最佳路径。 这种行为由预防性逻辑驱动,确保 Socket 在问题解决后总是重新连接到地理位置最近且性能最佳的 PoP。

活跃/活跃站点行为

为了提供负载均衡,Socket 使用其评分数据智能地平衡流量在活跃的广域网链路上。 这确保了带宽利用效率和一致的应用程序性能。 Cato 的 SD-WAN 逻辑评估上行和下行方向,以维持实时应用程序(如语音和视频)的双向质量。

当检测到性能下降时,Socket 和 PoP 无缝地将流量重定向到表现更好的链路上。 现有会话保持稳定,用户不会体验到明显的中断。

活跃/被动站点行为

在活跃/被动部署中,一个广域网链路承载流量,而第二个保持备用。 对于活跃/被动/最后手段部署,为避免不必要的数据收费或带宽使用,在链路保持被动时仅发送最少的数据。 它仅在活跃和被动广域网链路都不可用或表现超出定义的 SLA 阈值时才会激活。 有关更多信息,请参见配置最后手段链路

故障转移与恢复

故障转移导致短暂但预期的中断,因为被动链路初始化。 一旦稳定,Socket 在两个路径上恢复链路评估。 当主链路恢复时,流量自动回迁。

活跃/被动链路评估与智能 SLA

对于活跃/被动 Socket 站点,默认 SLA 设置为 Cato 的智能 SLA。 此设置通过实时性能评估确保流量流经最可靠的链路。 Socket 应用为延迟、抖动和丢包率预定义的阈值。 降级的指标报告给 PoP,PoP 使用骨干网遥测验证数据。

智能 SLA 消除了配置站点特定阈值的需求,同时仍能适应实时条件。 这确保了故障转移和恢复决策快速且准确。

智能 SLA 每隔几秒取样链路数据,将指标聚合成移动平均值。 当没有用户流量时,使用合成探测器以保持可见性。 Socket 和 PoP 之间的双重验证防止由于局部异常引起的误报。

故障转移仅在阈值违反达到最低次数后发生。 指标加权优先考虑实时流量的延迟和抖动,而丢包率则为大数据流优先。 有关详细信息,请参阅配置连接SLA设置

监控链路性能

Cato 提供多种方式进行网络中广域网链路性能监控。 您可以在 CMA 中查看实时和历史 SLA 指标,通过 Cato API 访问原始遥测数据,或者使用 XOps 通过基于故事的洞察分析事件和趋势。 这些选项给您以运营和事件级别的可见性,帮助您主动管理性能并排查连接性问题。

通过XOps监控链接

Cato 的 XOps 服务增加了一个 AI 驱动的操作层,帮助管理员主动识别和解决网络中链路相关的问题。 站点运营引擎检测链路不稳定、BGP 断开或站点中断等情况,并自动将它们关联成统一的事件。 每个 XOps 故事都将相关指标、事件和拓扑详情聚集到单一视图中,反映问题的根本原因和时间线。 这些故事在事件工作台页面可见,您可以按站点、指示类型或严重等级进行排序、过滤和钻取事件。

事件链接到相关的操作手册来指导调查,同时生成动态的 AI 基于故事摘要加速分析。 在解决后,事件自动关闭,使得无需手动清理即可更轻松地跟踪重复问题和运营健康。 例如,由于站点被迫重新连接到 PoP 以优化性能,站点运营故事开始。 两个小时后,故事自动关闭,因为问题未重复出现。

相关文章: 

在 CMA 中监控链接

管理员可以通过仪表板和页面查看所有 Socket 和 PoP 的链接数据:

通过 API 监控链接 SLA

使用以下 API 检索 SLA 遥测:

  • accountMetrics API – 站点与骨干网之间的历史 SLA

  • socketPortMetrics API – 每个 Socket 接口和传输的实时性能

相关文章: 

集成和通知

Cato 与 SIEM 和协作工具进行集成。 Webhooks 可以发送以下警报:

  • 通过健康警报和 XOps 网络事件进行的链接性能下降

  • Socket 故障转移和恢复事件

有关详细信息,请参阅链接健康规则操作

这篇文章有帮助吗?

0 人中有 0 人觉得有帮助

0 条评论