具有 WAN 恢复功能的 Socket 站点弹性

本文讨论 Socket 站点的 WAN 恢复功能，该功能在 Cato Cloud 发生连接问题的极不可能情况下提供弹性。

WAN恢复概览

如果您的 Socket 站点无法使用 Cato Cloud 通信，WAN 恢复功能是提供弹性的多种恢复选项之一。 WAN 恢复使用 Internet 上的 VPN 通道在 Socket 站点之间保留您的站点之间的 WAN 流量连接，以防 Cato Cloud 出现连通性问题。

WAN恢复如何工作？

WAN 恢复基于全网状拓扑，默认对所有 Socket 站点启用。每个 Socket 在公共互联网中对每个其他设备创建一个直接的 DTLS 通道。它们在通道上定期发送保持活动消息，并保持一个开放的实时通道，以减少恢复时间。这种拓扑为您账户中的 Socket 站点提供最大弹性。

下图显示了一个例子，其中一个 Socket 与 Cato Cloud 断开连接。为该站点启用 WAN 恢复，以在两个 Sockets 之间提供直接连接：

WAN恢复是Cato云韧性和维持站点连接性的关键组成部分。如需更多信息，请参见这些视频：

站点静态端口和WAN恢复

为了确保站点平滑过渡到 WAN 恢复，您可以为站点使用静态 IP，并为站点定义 Socket 接口 Public IP 和 Static Port 设置，以改善站点之间的离云隧道的建立。

对于难以为所有 Sockets 配置静态 IP 设置的账户，我们建议您为一些关键站点（如数据中心）使用静态 IP 设置，这些站点作为 WAN 恢复的集线器。集线器站点的 IP 地址被发送到 PoPs 并传播到配置为 WAN 恢复的账户中的其他 Sockets。

使用Hub & Spoke拓扑

WAN恢复的全网状拓扑主要适合小型和中型部署，但这种行为会在大规模环境中生成不必要的流量并增加CPU负载。对于这些环境，您可以转换为Hub & Spoke拓扑以减少隧道和探测器的数量，保持最佳性能和效率。更多信息，请参见Hub & Spoke离线云拓扑用于WAN恢复。

中国站点的WAN恢复

中国Socket站点支持通过离线直接隧道进行通信。这允许在中国的站点之间直接路由大量流量，以及业务连续性用例。

恢复 WAN 流量

Socket 保持开放通道以进行 WAN 恢复，因此如果它与 Cato Cloud 失去连接，Socket 会恢复与其他站点的连接并最大限度地减少断开连接时间。然后 Socket 立即开始通过 WAN 恢复链接发送 WAN 流量。

您可以使用Cato管理应用程序 (CMA) 禁用特定站点或整个账户的WAN恢复。有关更多信息，请参阅账户高级配置操作。

一旦Cato Cloud的连接恢复，恢复结束，流量将通过Cato Cloud发送。

配置 WAN 恢复站点

我们建议您对一些关键站点使用静态 IP 地址，例如作为 WAN 恢复的集线器的数据中心。定义每个集线器站点的 WAN 链接的离云 Public IP 和 Static Port。

您可以使用最佳实践页面确认高级配置设置中启用了所有站点以支持WAN恢复。

要为 WAN 恢复配置站点：

从导航菜单中选择 网络 > 站点，然后选择站点。
从导航菜单中选择 站点配置 > Socket。
配置 WAN 链接以进行 WAN 恢复：
1. 点击 WAN 链接。 Edit Socket Interface 面板开启。
2. 将 流量状态设置为 已启用。
3. (可选) 为链接定义静态 Public IP 和 Static Port。
  
  最佳实践：我们建议您为关键枢纽站点配置此设置。
对所有 Socket WAN 链接重复步骤 3。
点击 Apply，然后点击 Save。

站点已配置为 WAN 恢复。

分析 WAN 恢复事件

当一个站点通过 Internet 上的 DTLS 通道向另一个站点发送流量而不是通过 Cato Cloud 时，会生成 WAN 恢复事件。 CMA 显示 WAN 恢复的以下事件：

非云恢复已激活 - 此事件在 Socket 开始通过 WAN 恢复传输发送 WAN 流量时生成。

离线云恢复停止 - 当连接到Cato云恢复时生成此事件，并且Socket停止通过WAN恢复传输发送WAN流量。

当WAN恢复对站点有效（状态为准备）但该站点未通过恢复DTLS隧道发送流量时，不会生成事件。

监控 WAN 恢复状态

CMA提供了对Socket站点WAN恢复准备情况的可视化。您可以主动识别阻碍WAN恢复的问题站点，并采取纠正措施以维持WAN恢复能力。

最佳实践：为每个WAN接口配置静态或动态IP地址，以确保可靠的隧道检测和准确的状态报告。

您可以在网络 > 站点页面的WAN恢复隧道列监控WAN恢复。每个站点的实时状态指示WAN链路的WAN恢复准备状态：

准备就绪 (X/X): 此站点用于 WAN 恢复，并连接到所有 Socket 站点
部分 (X/Y): 站点部分准备好进行WAN恢复（例如，16/20意味着该站点已连接到20个站点中的16个以进行WAN恢复）
未准备好 (0/Y): 此站点未准备好进行 WAN 恢复，且未连接到任何 Socket 站点。如果 Cato 云发生故障，此站点将失去 WAN 连接

要查看所有站点的 WAN 恢复状态：

从导航菜单中选择网络 > 站点，并在WAN恢复隧道列中查看状态。

您还可以在以下页面查看特定站点的状态：
- 主页 > 拓扑并选择一个站点
- 站点配置 > {site name} > Socket

修复部分或未准备就绪的状态

如果某个站点显示部分或未准备好状态，请采取以下步骤恢复全面的恢复准备状态：

验证 WAN 接口设置：确保每个 WAN 接口都有有效的静态或动态 IP 地址，并且 WAN 链接正常运行。
检查隧道建立：使用 CMA 或 Socket WebUI 确保创建并维护与远程站点的非云隧道。
排查本地网络问题：调查可能的原因，例如：
- 入站/出站防火墙规则阻止流量
- 不正确的 NAT 行为或端口限制
- 路由配置错误
应用最佳实践：在可行的情况下，在关键站点（例如，数据中心或枢纽）上配置静态 WAN IP，以增强隧道稳定性和状态准确性。

监控 WAN 恢复的已知限制

特定站点问题：未准备好 状态通常表明站点上的本地问题（例如 WAN 链接失败、配置问题或 IP 分配问题），而不是远程站点的问题。
网状可见性范围：状态反映了站点之间整体隧道网状连接。它并未立即显示哪些特定隧道失效。您可能需要对每个站点或接口进行调查。
网络条件：临时网络问题、NAT 行为或防火墙规则可能干扰隧道建立并延迟或影响状态的准确性。

WAN 恢复期间对账户的影响

默认情况下，所有 Socket 站点已启用 WAN 恢复以使用离云流量提供弹性，如果某些或多个站点已禁用，则它们无法与其它站点通信。例如，如果在站点 A 和 B 上启用了 WAN 恢复，但未在站点 C 上启用恢复，那么在恢复期间，站点 C 无法与其他站点通信，A 和 B 站点也无法与 C 站点通信。

LAN防火墙策略不会受到影响，因为Socket会应用策略。

不要重启 Socket

在WAN恢复期间，确保不要重启Socket，否则会对站点造成不利影响，并且可能无法重新建立与其他站点的连接。

在主动/主动或主动/被动中的 WAN 恢复

对于所有部署，当启用 WAN 恢复时，每个 Socket 都在已启用的离云流量的所有 WAN 接口上建立安全的 DTLS 通道到远程 Socket 站点。对于主动/主动链路配置，Socket 随机选择一个主动链路用于 WAN 恢复。对于主动/被动, Socket 使用主动链路。

WAN 恢复期间对 CMA 的影响

Cato 管理应用程序 (CMA) 未接收到所有站点数据，因为它未连接到 PoP，并且无法获悉受影响站点的状态。

您可以登录Socket WebUI并使用SD-WAN选项卡监控流量和off-cloud隧道。这是使用Socket WebUI监控流量的一个示例：

BGP 和 WAN 恢复

在 WAN 恢复期间，Socket 路由表被冻结，这意味着在恢复开始前存在的所有 BGP 范围将通过离云流量路由到其他站点。在 WAN 恢复开始后引入的 BGP 范围在 Socket 退出恢复并重新连接到 PoP 之前是无法访问的。

WAN 恢复期间的 PoP 限制

通过 WAN 恢复离云传输的流量不由 Cato Cloud 中的 PoPs 处理。这意味着在 WAN 恢复期间，PoP 服务不会应用于流量，包括以下项目：

安全性
- WAN 和互联网防火墙策略
- 威胁防护服务（例如，IPS，反恶意软件）
- 托管 XDR 服务
网络
- NAT 策略
- 复杂网络规则
- DNS 转发
- DHCP 转发
- 静态范围翻译（SRT）
访问
- 客户端访问（例如，客户端连接策略）
- 设备状态

WAN 恢复和其他。 WAN 恢复

对于启用了通过Alt恢复的账户：恢复连接， WAN 恢复（例如 MPLS）的账户，如果 Socket 与 Cato Cloud 断开连接，Alt. WAN 链接优先级高于 WAN 恢复。因此，Socket 首先将流量移动到 Alt. WAN 链接。如果 Alt. WAN 链接不可用，Socket 就会将 WAN 流量移动到 WAN 恢复链接。总体而言，WAN 恢复作为一种运输选项的优先级最低，仅在其他交通选项不可用时才使用。

了解 NAT 打洞以连接 Sockets

WAN 恢复依赖于 NAT 穿孔来建立站点之间的 WAN 连接。当Socket连接到Cato Cloud时，PoP会告知Socket所有其他端点，并且Socket会为每个端点打开DTLS隧道。 Socket 使用 NAT 穿孔技术与其他 Sockets 建立直接连接。

注意： NAT 穿孔的协商从 Cato Cloud 开始。因此，Sockets 必须连接到 Cato Cloud 以允许 NAT 穿孔。

下图显示了在 WAN 恢复中为两个 Sockets 建立直接连接的流程：

NAT 穿孔技术为每对 Sockets 如下工作：

PoP 选择一个 Socket 作为发起者来建立直接连接（Socket 1），基于站点 ID （ID 值最高的站点是发起者）。
发起者 Socket 向 Cato 云发送请求以下详细信息：IP 地址和端口号，例如，IP 地址 82.128.1.1 和端口号 4444（步骤 #2）
Cato PoP 将源 IP 地址和端口发送给 Socket 1
Socket 1 通过 Cato 隧道将其 IP 地址和端口发送给 Socket 2
Socket 2 向 Cato 云发送请求以下详细信息：IP 地址和端口
Cato PoP 将源 IP 地址和端口发送给 Socket 2
Socket 2 通过 Cato 隧道将其 IP 地址和端口发送给 Socket 1
Socket 1 向 Socket 2 发送 32 个数据包，源端口范围内，每个数据包具有不同端口号
Socket 2 向 Socket 1 发送 32 个数据包，源端口范围内，每个数据包具有不同端口号
找到正确的端口后，Sockets 打开使用源 IP 地址和端口号的 DTLS 通道

当Socket 2与Socket 1连接时，路由器将在其路由表中添加NAT条目
从那时起，Sockets 每 15 秒发送一次保持活动消息以保持连接打开

通过 NAT 打洞减少重新连接时间

NAT punching成功后，Socket保存此NAT数据。在Socket重新启动的情况下，它可以立即使用该NAT数据重新连接到其他Sockets。保存NAT数据显著减少了Socket重新连接的时间。对于位于网络防火墙或路由器后的Sockets，如果您的防火墙或路由器重新启动，NAT条目将被更改。 NAT数据不再相关，Sockets必须再次执行NAT punching过程。