Socket站点问题的故障排除

概述

客户在连接到Cato时可能会遇到应用程序性能问题。 性能问题是一个广泛的话题,可以在不同的OSI层发生,从物理层到应用层。 此指南将主要关注TCP层以下的性能问题。 与应用层相关的性能问题将在其他指南中讨论:

症状

  • 文件传输缓慢,吞吐量降低
    • 连接到Cato Cloud时,客户可能会体验到下载和上传速度缓慢。
  • 应用程序响应时间延迟
    • 这在交互式应用程序中可能更为明显,比如远程桌面。 

可能的原因

  • 配置错误(Qos, 许可证, TCP加速, 窗口缩放)
  • 网络拥塞
  • 数据包丢失(ISP, 最后一英里)
  • 非最佳PoP 
  • 高Socket CPU 
  • 增加的云延迟
  • 硬件限制

问题排查

在进行更多故障排除之前,确定这是否与Cato Cloud相关是至关重要的。 为此,我们可以绕过与Cato的连接并验证问题是否存在。 绕过Cato Cloud提供了实现该步骤的详细过程。

如果绕过连接后问题仍然存在,则表明不是Cato引起的问题。 但是,如果通过绕过连接到Cato Cloud解决了问题,请按照以下步骤进行进一步的故障排除和隔离。

许可和带宽配置

注意: WAN带宽分配基于站点许可证和接口的带宽配置。 如果二者的值不同,将应用较低的值到WAN链接。

  • 验证站点分配的许可证是否正确。 进入Network > 站点 > 站点配置 > 常规 
  • 验证WAN接口的带宽配置是否正确。 进入Network > 站点 > 站点配置 > 套接字 > 编辑WAN接口。 
  • 对于中国和越南的站点,许可是不同的。 许可证将分为全球和区域许可证。 全球许可证用于全球站点间的连接,而区域许可证用于国内连接。 
  • 有关管理站点许可证的更多信息,请参阅 管理站点带宽许可证。 

数据包丢失

数据包丢失可以发生在Cato的基础设施内或与互联网服务提供商(ISP)相关。 以下步骤旨在隔离数据包丢失的来源。

  • 检查 网络分析 中的数据包丢失(上行/下行)。

  • 如果这与最后一英里的数据包丢失相符,表明连接到Socket的WAN端口的电缆可能有硬件问题,或者是互联网服务提供商(ISP)的问题。

  • 请参阅 解决数据包丢失部分以获取解决数据包丢失问题的建议。

数据包丢弃(带宽管理)

如果您在网络分析页面上看到大量的数据包丢弃,说明数据包因带宽管理(QoS)而被丢弃。 要确定您的应用程序是否受到影响:

  • 导航到Network > 优先级分析器以验证哪个类正在丢弃数据包以及您的应用程序是否分配到相同的类。
  • 如果是这样,考虑为此类分配更多带宽。
  • 或者,如果受影响的应用程序比较关键,将其移动到更高优先级的类以提高性能。 请参阅 解决数据包丢弃(QoS)以获取有关配置类的说明。
  • 数据包丢弃的另一个原因是微爆发。 请参阅 微爆发检查,了解其意义、如何识别以及最终采取哪些步骤来解决。

Socket资源限制

当Socket达到其资源限制时,可能会导致性能下降。

1. 最大支持吞吐量

  • 导航到Network > 站点 > 网络分析并验证站点的吞吐量是否在支持的限制内。
  • 以下是我们Socket型号的支持最大隧道吞吐量:
    Socket型号 最大隧道吞吐量
    X1500 500Mbps
    X1600 1Gbps
    X1600 LTE 1Gbps
    X1700 3Gbps
    X1700B 10Gbps
  • 请参阅相应数据表上的Cato-Socket-Deployment-Guides以获取更多详细信息。 
  • 如果您超过列出的限制,请参阅解决超过支持的吞吐量

2. 高 Socket CPU 使用率

  • Socket 资源的过度使用还会导致性能下降。  
  • 从 Socket WebUI 中,选择 HW 状态标签。 这将显示每个核心的当前 CPU % 使用情况。 持续高 CPU 使用率将直接影响 Socket 性能并导致数据包丢失。 
  • 如果发现网络数据包丢失的同时CPU使用率持续较高,请联系支持获取帮助。
  • 从 Physical Sockets 版本 21.1 和 virtual Sockets 版本 22 开始,Socket 的中央处理器使用率指标现在在 CMA 中可见。 去网络分析 在 CMA 中,选择硬件标签页。

  • 此外,中央处理器使用率指标也可在 Socket UI 的硬件状态标签页中找到。

次优 PoP

在使用 Cato 云时,客户可能会注意到应用程序性能变慢或下载/上传速度降低。

  • 为了验证,请对受影响的服务执行PING测试。
  • 如果返回的RTT高于预期,请通过导航到监控>拓扑并单击站点以验证站点已连接到最佳PoP。
  • 右侧窗口窗格将会出现。 单击窗口底部的“查看日志”
  • 将出现另一个窗口。 验证 ISP 是否靠近已连接的 PoP。
  • 要解决此问题,请参阅解决最佳PoP

网络规则验证

  • 验证受影响的连接是否命中正确的网络规则。 
  • 如果受影响的应用程序是文件共享或 Web 应用程序,请创建一个启用 TCP 加速的网络规则,并将该规则放在列表的顶部以进行隔离。 请参阅TCP加速最佳实践以获取更多详细信息。

添加的云延迟

  • 对延迟变化敏感的应用程序(例如 SQL 服务)在迁移到 Cato 云时可能会有更长的任务完成时间。
  • 即使只有几毫秒,在 WAN 上执行这些查询引入的附加延迟,在考虑查询数量时也会累积。
  • 为了减少站点之间的延迟,建议您考虑实施Cato解决方案,例如TCP加速离线云。 或Alt-WAN
  • 在如Azure或AWS之类的公共云环境中托管的服务可以利用云互联来显著减少站点之间的延迟。
  • 或者,可以修改 SQL 查询以在 Cato 云上更好地执行。

Windows 设备的窗口缩放

  • TCP/IP 中的窗口缩放允许协商更大的窗口大小,从而在每个数据包中发送更多数据并提高性能。
  • 它应该默认启用。 为了验证这一点,打开 Windows 设备上的命令提示符并运行命令 netsh interface tcp show global
  • 查找“接收窗口自动调谐级别”设置,该设置应设置为“正常”。
  • 有关详细信息,请参阅启用TCP窗口缩放选项

Windows 设备的 TCP 时间戳选项

  • Windows 操作系统的默认设置不支持 TCP 时间戳选项。 启用 TCP 时间戳选项以改进数据包 RTT 测量,这可以更好地帮助识别数据包丢失。
  • 此选项还协助 TCP 堆栈在数据包丢失的情况下调整重传计时器。
  • 我们建议按照以下步骤在您的 Windows 计算机上启用 TCP 时间戳:
    • 在 Windows 上打开注册表编辑器。
    • 导航到以下键HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters
    • 查找名为Tcp1323Opts的键。 如果它不存在,您将需要将其创建为DWORD(32位)值,并命名为Tcp1323Opts。 将值设置为2
    • 重新启动您的系统。
  • 要验证TCP时间戳的状态,请从命令提示符下运行 netsh int tcp show global。 RFC1323时间戳应启用。

iPerf 测试

  • 另一个帮助隔离问题的故障排除工具是 iPerf。 iPerf 测试可以用来测量网络中最大可实现的吞吐量。 这包含在套接字 Web UI 中,作为网络和连接性测试的一部分,可以在工具标签下访问。
  • 请参阅测试链接与iPerf以获取有关在Socket Web UI中进行iPerf测试的更多信息。
    注意:为了获得更准确的结果,建议使用UDP作为测试协议,因为它不考虑拥堵控制。 请记住,此测试的目的是确定链接的最大可实现吞吐量。

(可选)体验监控最后一英里

  • 拥有体验监控许可证的客户可以检查最后一英里和应用程序性能标签以检测可能的数据包丢失和丢弃。 数据可以与站点网络分析标签中的结果相关联,以更好地了解问题的来源。

离线云

  • 出于测试目的,考虑在两个站点之间配置一个离线云设置。 这个方法将允许我们比较云上和云下的性能。
  • 如果性能在离线云中更好,这可能是性能问题的永久解决方案。
  • 但是需要注意的是,卡托威胁防护引擎不会检查离线流量。
  • 有关配置的详细信息,请参阅 路由流量到离线云链接。 

解决已发现的问题

解决配置错误

解决数据包丢失

  • 如果存在最后一公里丢包率问题,请更换连接到套接字WAN端口的电缆。
  • 如果可行,请连接到套接字和上游设备上的另一个WAN端口。 如果这没有改善最后一公里丢包率问题,请联系您的互联网服务提供商以进一步隔离问题。 
  • 如果观察到高丢包率,请考虑为VoIP流量启用数据包丢失缓解。 有关详细信息,请参阅优化流量
  • 有关数据包丢失的详细故障排除,请参阅如何排除Socket站点数据包丢失故障

解决丢弃的数据包(QoS)

  • 要为该类别分配更多带宽,请转到 网络 > 带宽管理,选择受影响的类别,并相应地更改限制。
  • 要将受影响的应用程序移动到更高优先级的类别,可以编辑受影响的应用程序的现有网络规则并将带宽优先级更改为更低的值(值越低,优先级越高)。 或者,创建一个新的网络规则,并将带宽优先级分配给一个更低的值。
  • 有关带宽管理的详细指南,请参阅配置带宽管理配置文件

解决连接到次优PoP

  • 如果设备未连接到最佳PoP,请检查是否配置了“首选PoP位置”设置。 要执行此操作,请导航到网络 > 站点 > 站点配置 > 常规 > 首选PoP位置。 如果设置错误,请选择最佳位置。
  • 套接字将自动重新连接到网络 > 站点 > 连接 SLA中配置的新定义的首选PoP。但是,通过使用 重新连接到首选 PoP ,也可以手动触发重新连接,具体说明见手动重新连接到首选PoP位置

解决超出支持的吞吐量

  • 请联系您的账户经理或客户服务经理以升级到更大的套接字。 如果您不确定他们是谁,请联系支持

将问题提交给Cato支持

如果上述步骤未能帮助隔离和解决问题,请与Cato支持打开一个案件。 在打开案件时,请考虑以下问题并提供相应的答案: 

  1. 问题是否影响所有应用程序或特定应用程序? 
  2. 如果影响特定应用程序,这些是新建应用程序吗? 
  3. 对于新建应用程序,请提供详细信息,包括应用程序名称、版本等。
  4. 现有应用程序发生了什么变化导致了问题?
  5. 此问题是否影响所有站点或特定站点? 如果是特定站点,请列出受影响的站点
  6. 如果这影响到所有站点,服务器位于何处? 

数据收集

请收集支持自助服务(SSS)同时复制问题。 另外,请在设备上安装Wireshark并捕获两组数据包:

  • 第一组数据包捕获(PCAP)应捕获性能问题。 在收集SSS的同时可以同时完成此操作。
  • 第二组PCAP应在连接绕过卡托云时收集,即在没有性能问题时。 这组数据将在查看收集的日志和SSS时作为支持的基准。
  •  

这篇文章有帮助吗?

0 人中有 0 人觉得有帮助

0 条评论