概况
站点连接对于通过Socket访问Cato云的主机来说至关重要。 站点的连接缺失会扰乱业务功能。 本手册旨在提供排查该情况的指导。
症状
Socket连接故障可以以多种方式表现出来。 管理员可能注意到以下症状:
- 站点在CMA中已断开连接
-
站点连接到意外的PoP
- 网络分析显示隧道不稳定
可能原因
以下是您可以在排查过程中识别的可能原因
- 无Socket连接
- 仅单向DTLS流量
- 基础性能差
- IP地理位置限制
- 不合适的PoP选择配置
- 错误基线的SLA配置
- NAT设备前的socket
问题排查
管理员可能遇到的症状排查步骤如下所示。 这些步骤旨在识别所面临问题的可能原因。 解决步骤将在本手册中稍后突出显示。
在CMA中排查站点断开
从事件中收集信息
使用CMA中的主页 > 事件页,管理员可以快速获取帐户内站点的连接事件历史。 可以通过选择“站点连接状态”预设,或过滤事件类型“连接性”和子类型“断开”来筛选出相关事件。 您还可以在“源站点”字段中进一步筛选问题站点的名称。
查看问题站点相关断开事件的时间戳可以帮助集中调查重点。 在此时间戳是否已知发生任何更广泛的网络事件或本地供电事件? 在此之前是否有任何可能相关的审计追踪变更?
检查Socket连接性
请查看Cato Socket连接前提以了解Socket连接要求。
Socket的连接状态可以通过其本地Socket WebUI查看,请参考本地登录到Socket WebUI。要使Socket连接,正在使用的WAN端口应显示绿色状态图标。 非绿色指示灯表示连接问题。 不同状态图标颜色的含义如理解连接状态图标中所述
如果是红色图标,请确保socket和ISP设备之间有一个正常工作的物理连线。 这包括确保电缆连接牢固,以及端口LED按预期点亮。
Socket连接状态也会检测到IP冲突。 IP冲突警告将在冲突首次检测到之后的24小时内持续显示,如此知识库文章所述。
确认工具下的通过互联网绕过的强制恢复状态正常。 “强制绕过”按钮将迫使所有LAN流量绕过Cato,并使Cato隧道断开,显示站点在CMA中断开。
如果强制恢复状态活跃,则点击退出强制绕过按钮退出此状态。
如果出现连接问题,我们可以使用工具标签页进行进一步测试。 要连接到Cato,Socket需要L3访问Cato的公共IP地址。 使用ping工具确保此Socket可以直接通过WAN端口到达Cato IP地址或域名,或知名IP可达地址如8.8.8.8。 如果没有可达,请查看无Socket连接的解决方案 部分。
运行数据包捕获
也可以进行数据包捕获,以确保响应Socket的建立DTLS隧道到PoP的请求。 在涉及的WAN端口捕获时,应看到UDP/443双向数据包到PoP。 以下屏幕截图显示了成功的DTLS握手和应用程序数据数据包的交换。
如果仅检测到出站DTLS数据包或DTLS握手不完整,请查看解决不完整的DTLS握手问题。
由于Socket前面的NAT设备导致无法建立隧道
对于使用多个WAN链路的套接字,如果在套接字和PoP之间有NAT设备,那么可能会发生一个或多个WAN链路无法连接到PoP的情况。 这可能会导致连接问题,例如站点的HA状态未就绪。
PoP使用每个传入DTLS连接的源端口将每个WAN链接连接到同一个逻辑隧道。 NAT设备可能会更改源端口,并阻止WAN链接与其他WAN链接连接到同一逻辑隧道。
与LTE/5G服务提供商的DTLS连接失败
正如本案例研究中所述,如果使用LTE/5G服务提供商连接到Cato,ISP可能会干扰UDP/443端口上的DTLS握手(例如,APN),这可以在握手期间看到运营商特定的数据。
即使存在双向DTLS通信,握手也未完成;因此,Cato隧道将无法建立。
要解决此问题,请将DTLS端口更改为UDP/1337,请查看解决未完成的DTLS握手问题。
排查意外的PoP选择
检查ISP的IP地址和当前所选的PoP
在监控下,选择一个站点并打开站点的概览窗格。 在站点Sockets部分,点击“查看日志”以查看所有最近的连接。 寻找连接到Cato的ISP公共IP(远程IP),以及ISP的名称和位置。 'PoP'列将显示站点当前连接的PoP。
重要的是要验证“远程IP”和ISP位置是否如预期,并且ISP没有通过意外位置回送连接。 ISP位置(城市)应与站点常规设置中指定的国家/城市对应或接近。
检查CMA上的PoP选择配置
站点上过时或配置错误的首选PoP位置可能会强制连接到次优PoP。 可以通过网络 > 站点 > 站点配置 > 常规页面查看每个站点的PoP选择配置。
如果此处配置的位置看起来不适合最佳连接,或者如果希望允许Cato PoP选择机制确定最佳PoP,请查看解决不合适的PoP选择配置部分。
检查Socket上的PoP选择配置
在Socket配置中,也可能存在过时或不适合的PoP选择配置。 要查看是否是这种情况,请导航到Socket的webUI中的云连接设置,请参阅使用Socket WebUI。
如果此处存在配置并且希望允许Cato PoP选择机制确定最佳PoP,请查看解决不合适的PoP选择配置部分。
检查PoP状态
由于最近的地理PoP受维护或其他问题的影响,套接字可能连接到意外的PoP。 请查看PoP状态页面以验证是否是这种情况。
验证地理位置的限制
根据Cato MSA,某些地理位置的套接字站点被限制连接到其他位置的PoP。 MSA在购买Cato服务时概述。
某些地理位置的套接字站点将仅限于一个可用PoP的池,例如,中国的套接字站点将连接到中国的PoP,而越南的套接字站点将连接到亚洲的PoP池。
有关此的更多信息,请参阅MSA。
检查套接字在PoP之间移动的迹象
事件页面可用于确定由于连接性问题,套接字可能不在最初确定的最佳PoP上。 使用一组字段选择,套接字连接到不同PoP的时间线。
通过使用“站点重新连接”事件预设,并进一步过滤到相关站点,同时将“event_message”字段值设置为“检测到性能问题,重新连接到Cato Cloud中的不同服务节点”,我们可以查看所有因隧道连接参数违反配置的SLA阈值而移动PoP的情况。 如果一个套接字站点违反SLA阈值连接到多个PoP,请继续故障排除流程以验证连接SLA设置。
验证连接SLA是否过于严格
连接SLA在确保站点连接到最佳PoP中起着重要作用,尤其是在具有公共底层的动态网络环境中,如ISP互联网连接。 然而,过于严格的连接SLA可能会导致不必要地重新连接到管理员首选位置以外的PoP。
每个站点的连接SLA配置可以在网络 > 站点 > 站点配置 > 连接SLA下查看。
使用网络分析来建立最后一英里的性能指标基线,考虑SLA指标是否适合该站点。
如果这些参数不合适,请查看解决错误基线上的SLA配置。
如果参数合适,但PoP重新优化事件仍定期发生在多个PoP上,请查看解决底层性能较差问题部分。
如果遵循上述步骤后套接字仍然连接到不适合的PoP,请打开支持工单并突出显示当前和期望的PoP。
排查不稳定隧道
检查最后一英里与站点连接性能的相关性
在注意到给定站点与PoP的连接性能较差时,重要的是要确定丢包是否可能是由于底层ISP线路的性能造成的。
这可以通过在一个时间范围内将任何给定的性能问题与同一时间范围内最后一英里内观察到的性能相关联并寻找模式来完成。
可以使用网络分析来做到这一点。
上面的示例显示出在站点隧道到PoP上的上行丢包。 我们可以看到几个大约10%的峰值和在整个时间段内的恒定低水平丢包。
当我们将此与同一时间段内最后一英里的性能进行比较时,我们可以看到以下情况:
最后一英里也可能会出现一些性能变化,但它受到大约10-20%的持续损失影响。 很明显,从套接字到Cato PoP的隧道上的丢包率可能是基础设施性能不佳的症状。
如果在排查性能问题时出现此情况,请查看解决较差的基础架构性能。
交叉引用类似站点
站点之间共享的属性可以用来尝试推断出有关问题的事实。 例如,下面的站点出现了连接性问题。 注意,已连接的PoP是伦敦:
此信息可用于交叉引用可能连接到伦敦的其他站点,查看是否存在共享问题。 这可以在下面的截图中看到:
如果交叉引用表明问题出在Cato PoP上,请查看部分检查PoP状态。
交叉引用对于共享ISP的站点也很有用。 这在下面的示例中进行了说明:
如果此交叉引用暗示ISP存在连接性问题,请查看部分解决较差的基础架构性能。
验证连接SLA不太宽松
连接SLA在确保站点连接到最优PoP方面发挥重要作用,尤其是在通过ISP互联网连接的公共基础架构的动态网络环境中。 然而,过于宽松的连接SLA会导致套接字长时间保持次优的PoP连接,从而影响敏感应用程序。
可以在网络 > 站点 > 站点配置 > 连接SLA下查看每个站点的连接SLA配置。
使用网络分析来建立最后一英里性能指标的基线,考虑SLA指标是否适合此站点。
如果这些参数不适合,请查看解决不正确基线的SLA配置。
解决发现的问题
解决无套接字连接性
重要的是要隔离连接性问题是否仅影响套接字。 如果您将笔记本电脑插入相同的ISP连接,您是否遇到相同的DNS解析或对地址的ping问题? 如果是,请联系您的ISP进行推进。
确保测试笔记本电脑禁用了IPv6,并在分配静态IP地址时,在测试时分配与套接字相同的IP地址。
如果连接性问题仅限于您的套接字,请确保WebUI的网络设置选项卡下的IP配置正确:
解决不完整的DTLS握手
确保您的提供商允许UDP端口443上的DTLS流量出站到互联网。 如有必要,可以将该端口更改为UDP/1337,如设置不同端口以连接到Cato PoP中所述。
解决较差的基础架构性能
较差的基础架构性能将影响在该基础架构上构建的任何隧道。 虽然基础架构由ISP负责,但可以使用一些工具来识别引入性能问题的地方,并尝试在可能的情况下缓解性能问题。
套接字的WebUI有一个追踪路由工具,可以让您通过ISP连接ping公共可访问的主机。 当ping公共可访问的主机名时,可以确定在套接字和服务之间的L3路径上引入丢包或过度延迟的跳跃。
在上述情况下,丢包率明显是直接从ISP提供的L3边界引入的。
虽然最终任何基础架构问题都必须提交给ISP,但确保CMA中的设置正确将有助于减轻性能问题的影响。 确保套接字接口的带宽配置与线路提供的带宽准确对应。 可以执行Socket WebUI速度测试工具以评估连接。 此外,减少连接的突发性参数可以迫使Cato更早地启动QoS引擎,并允许丢弃优先级最低的流量以支持更关键的应用程序。
解决不合适的PoP选择配置
为了恢复任何手动PoP选择配置并允许Cato为套接字连接选择最佳PoP,首先确保CMA上没有手动PoP位置配置,然后对套接字执行相同操作。
在CMA中,可以在网络 > 站点 > 常规 > 首选PoP位置中完成此操作。
确保选择“自动”。
在套接字WebUI中导航到云连接设置。
确保目的地设置为“Steering”。
解决不正确基线的SLA配置
确保SLA配置适合的第一步是了解站点使用的关键应用程序的关键阈值或要求。
为此考虑两个示例。
- 应用程序A对低水平的数据包丢失具有耐受性,并且具有良好的数据包重新排序能力,但需要保持会话以使服务工作;流中断和重新创建会导致应用程序内部出现问题。
- 应用程序B对于间歇性数据包丢失非常敏感。 即使是低水平的丢失也会导致数据传输中断,并且传输将不得不从头开始重新启动。 也就是说,控制通道对于会话结束和重连具有很强的弹性。
鉴于应用程序A的配置文件,我们将创建一个允许即使在较长时间窗口内也容忍低水平丢失的SLA配置;即使丢失会对服务产生其他影响,也优先保留连接到PoP以维持会话。
相比之下,应用程序B需要更严格的SLA配置。 如果检测到即使是少量的数据包丢失,最好更换PoP以保护传输的完整性。
站点显然使用了一些具有不同配置文件和需求的应用程序的混合。 管理员必须战略性地平衡这些需求以实现合适的SLA策略。
向 Cato 支持提出案例
如果按照本剧本操作后问题仍未解决,请提交支持工单。 为了获得对请求的最有帮助的响应,管理员应该提供在使用本剧本过程中进行的故障排除步骤的结果。 包括例如:
- 相关过滤器以引起对特定事件的关注。
- WebUI 测试的结果。
- 网络分析发现。
- SLA 配置要求。
0 条评论
请登录写评论。