了解站点可接受和不可接受的SLA

概览

Cato 提供的最后一公里连接SLA,保证站点应用程序流量的最佳性能和弹性。 套接字和已连接的 PoP 使用基于实时 SLA 的路径选择算法,为每条流上下行方向选择最佳链路。 算法不断监控丢包率、延迟、拥堵、端口状态、互联网连接状态等SLA KPI;当检测到SLA下降时,套接字可以无缝地在链路之间流动。

链路的性能根据丢包率、延迟以及其他指标的阈值被归类为“可接受”或“不可接受”。 这个分类决定了何时套接字使用活跃的WAN链路,激活备份链路,或启动与不同PoP的连接。 了解套接字对SLA劣化的反应是确保可靠应用程序交付的关键。

套接字在所有活跃链路间最优地分布流量,包括带宽容量不同和上行/下行带宽不对称的链路。 套接字的连接SLA机制被编程为在任何连接性问题发生时自动反应,并采取措施自动克服问题。 当连接性SLA变得不可接受并且无法达到阈值时,套接字和PoP采取行动修复连接性。 例如,套接字激活被动链路。 如果这些措施无法解决连接性问题,套接字将连接到不同的PoP。

我们建议使用Socket站点的活跃/活跃配置,以获得最佳的弹性和性能。 有关更多信息,请参见Cato Socket 链路 SLA 架构

为活跃/被动站点自定义SLA阈值

连接SLA页面允许您定义对Socket站点施加的活跃/被动部署中的可接受和不可接受的SLA阈值。

当站点的主要链路存在不可接受的SLA时,套接字激活次要的被动链路,并通过它将流量发送到PoP。 当主要链路恢复到可接受的SLA时,套接字将流量移回到主要链路,并取消激活次要链路。

为活跃/活跃站点自定义SLA阈值

连接SLA页面还允许您为活跃/活跃部署定义可接受和不可接受的SLA阈值。 有关流量分布和为活跃/活跃站点配置自定义阈值的更多信息,请参见配置活跃/活跃Socket站点的连接SLA设置

在可接受的SLA下操作

在可接受的SLA范围内,套接字使用所有活跃链路,并根据实时计算的健康评分为每个新流选择最佳链路。 这些SLA KPI指标包括:丢包率、延迟、抖动、拥堵等。 欲了解更多信息,请参见第1部分:Socket接口和优先级

对于活跃/被动配置,甚至只要有一个活跃链路满足SLA,被动链路就保持不激活状态。

在可接受SLA范围内丢包率的示例

以下示例显示了设置为10%丢包率的不可接受SLA阈值的套接字站点配置。 链路1经历了3%的丢包率,而链路2的丢包率为0%。

AA_Good_SLA.png
  • 对于新的流量,套接字或PoP选择质量最好的链路。

    在上例中,新流量将在链路2上打开,丢包率为0%。

AP_Good_SLA.png
  • 由于链路1符合可接受的SLA阈值,因此没有激活链路2(被动链路)。 所有流量继续使用活跃链路。

在不可接受的SLA下操作

当套接字确定所有活跃链路在时间范围内都不满足SLA时,这被认为是不可接受的SLA,并且套接字会自动采取措施来修复连接性问题。 根据链路配置和连接SLA设置,套接字将激活低优先级的被动链路,或者如果没有链路符合可接受的SLA阈值,则将所有链路连接到不同的PoP。

不可接受SLA的补救行动示例

以下示例显示了设置为10%丢包率的不可接受SLA阈值的套接字站点配置。 链路1经历了15%的丢包率,而链路2的丢包率为0%。 这些示例发生在PoP使用自愈机制的评估期间。

AA_Bad_Link.png
AP_Bad_Link.png
  • 备用链路(链路2)被激活

  • Socket现在在活动/活动配置中工作

  • 新流量使用链路2

  • 现有流量逐渐从链路1迁移到链路2

  • 对于链路2作为最后手段链路的配置,宽限计时器开始计时。

    宽限时间在激活蜂窝链路之前,提供额外时间来解决连接性问题。

    • 如果在宽限时间内,链路1未恢复到可接受的SLA,则激活链路2(最后手段链路)。

连接到不同PoP解决不可接受连接性SLA的示例

如果评估期间的补救措施无法解决连接性问题,则套接字连接到不同的PoP。 例如,如果PoP位置的一级云提供商出现问题。

当Socket连接到新的PoP时,将出现以下行为:

  1. 套接字开始初始的连接SLA评估期,时长为40-50秒。

    SLA 评估期为 40 秒,并且每10 秒进行一次检查,这意味着评估期总时间在40-50秒之间。

    1. 如果连接到PoP的链路拥有可接受的SLA,套接字将保持连接到PoP。

    2. 如果连接到PoP的链路不符合SLA,套接字将连接到不同的PoP,并重复初始连接SLA评估期,时长为40-50秒。

  2. 如果套接字无法找到满足SLA的PoP,它将返回并连接到原始PoP。

以下示例显示了设置为10%丢包率的不可接受SLA阈值的套接字站点配置。 链路1经历了20%的丢包率,而链路2的丢包率为15%,这是由于一级服务提供商的连接性问题造成的。 第二个图显示了连接到不同的PoP如何解决该问题。 对于活跃/活跃以及活跃/被动站点部署,其表现方式相同。

T1_Bad_SLA.png
  • 评估期结束后,所有活跃链路上存在不可接受的SLA(丢包率超过10%)。

    例如,与一级服务提供商相关的丢包率。

T1_Good_SLA.png
  • Socket连接到下一个最佳PoP

  • 在40-50秒后,套接字确认链路符合可接受的SLA。

  • 生成重新连接事件

重新连接到原始PoP

为获得最佳性能和最低延迟,始终推荐套接字连接到最近的物理PoP位置。 如果套接字因为主要PoP的SLA问题而迁移到不同的PoP,套接字将在60分钟内自动尝试重新连接到首选PoP位置(离站点最近的PoP)。 套接字将在重新连接到首选PoP前,验证其可用性和提供的服务质量。 您也可以选择手动将套接字重新连接到首选PoP,详见为站点定义首选PoP

这篇文章有帮助吗?

0 人中有 0 人觉得有帮助

0 条评论