Solución de problemas de falla de actualización de Socket

Visión general

Las fallas de actualización de Socket pueden ocurrir en varias etapas, desde la implementación inicial hasta la ventana de mantenimiento programada y las actualizaciones manuales. Comprender y resolver estos problemas de manera oportuna es crucial para mantener la integridad de la Red. Aquí hay una visión general del proceso de solución de problemas para abordar las fallas de actualización de Socket.

Síntomas

  • Falla de actualización inicial: Ocurre durante la implementación de Socket.
  • Problemas en la ventana de mantenimiento: Un gran número de Sockets no se actualizaron durante el mantenimiento programado.
  • Túnel establecido tras una falla de actualización: La actualización del Socket falló, pero el túnel permanece activo.
  • Inaccesibilidad después de la actualización: Los Sockets se vuelven inaccesibles después de una actualización.

Posibles causas

  • Problemas de conectividad: Tiempo de espera agotado debido a internet lenta o configuraciones incorrectas de MTU.
  • Fallas en la resolución del DNS: Incapacidad para resolver cc2.catonetworks.com.
  • Restricciones del firewall: Firewalls con inspección SSL.
  • Limitaciones de puerto: Restricciones de WAN1/Puerto1.

Reprogramar actualizaciones automáticas

Si la razón por la que se omitió la actualización fue debido a un enlace ISP inestable, que provocó que se omitiera la actualización automática para la cuenta completa, podemos pausar actualizaciones automáticas para el socket afectado y reprogramar la actualización automática para la siguiente ventana de mantenimiento.

Una vez que el problema haya sido resuelto, podemos proceder a actualizar manualmente el Socket problemático.

Solución de problemas de falla de actualización de Socket

Nota

Nota: Antes de comenzar a solucionar problemas, asegúrese de entender cómo funcionan las actualizaciones de Socket en Cato en el siguiente artículo: Understanding Cato's Managed Socket Upgrade Service

Las actualizaciones de Socket se realizarán durante la ventana de mantenimiento configurada en CMA o durante la implementación inicial. Esta sección profundizará en los pasos involucrados en la solución de problemas de fallas de actualización de Socket. Hay principalmente tres resultados posibles para las fallas de actualización:

  1. La actualización inicial de Socket falla durante la implementación de Socket.
  2. El túnel permanece activo y establecido a pesar de la falla de actualización.
  3. El túnel no se establece y el Socket se vuelve inaccesible después de la falla de actualización.

Falla de actualización inicial

Cuando un Socket recién implementado o restablecido de fábrica se conecta a Internet por primera vez, intentará continuamente comunicarse con Cato a través de su puerto WAN y tratará de actualizar su versión de firmware.

Para solucionar fallas de actualización inicial, consulte Troubleshooting Failed Initial Firmware Upgrade

 

El túnel se establece después de una falla de actualización 

Durante una ventana de mantenimiento, el proceso de actualización del Socket podría no tener éxito, resultando en una falla de actualización que impide la actualización de otros Sockets en toda la cuenta. Es importante identificar las actualizaciones fallidas y enfocarse en actualizarlas antes de programar una nueva ventana de mantenimiento.

Analizando eventos de CMA

Revise los eventos relacionados con la actualización de Socket filtrando el Sub-tipo como Socket Upgrade y la Acción como Not Succeeded

Los eventos con la acción Omitido pueden indicar que el Socket estaba fuera de línea durante la ventana de mantenimiento o que un Socket diferente falló en la actualización (No hay túnel abierto después del tiempo de gracia), lo que llevó a que todos los Sockets restantes fueran omitidos. La razón de la acción de omisión puede verse en el Mensaje del evento. Por ejemplo:

  • La actualización fue omitida. El socket principal estaba fuera de línea durante la ventana de mantenimiento.
  • La actualización fue omitida. Omitida la actualización pendiente para este Socket, porque un Socket diferente no pudo completar la actualización.

Los eventos con la acción Fallida indican que se intentó la actualización del Socket pero el proceso de actualización en sí falló. La razón de la acción fallida se puede ver en el Mensaje del evento

Si el Socket se vuelve inaccesible después de esta falla, vaya a Falla del túnel al establecerse después de una actualización.

Continúe el proceso de solución de problemas enfocándose en Sockets con la acción Fallida.

Solución de fallas durante la actualización

Durante el proceso de actualización, el Socket intentará descargar la imagen del firmware. Pueden ocurrir tiempos de espera debido a las siguientes razones:

  • Falla al resolver correctamente el DNS para cc2.catonetworks.com
  • Conexión a internet lenta o poco confiable que impide la descarga del firmware.
  • Configuración incorrecta de MTU en interfaces WAN.

Para descartar las razones anteriores, verifique lo siguiente:

  • Use la herramienta de Ping desde el WebUI para confirmar que el Socket puede resolver cc2.catonetworks.com a través del túnel. Si el FQDN no es resoluble, verifique los ajustes de DNS en el puerto WAN.
  • En Network Analytics, verifique si el túnel presentó pérdida de paquetes durante la ventana de mantenimiento. Si es así, verifique si también hay pérdida de paquetes de última milla y reporte este problema al ISP.
  • Los Sockets de Cato ejecutan PMTUD (descubrimiento de MTU) con el PoP para determinar el MTU permitido sobre el túnel. Sin embargo, configurar manualmente el MTU en la interfaz WAN puede llevar a fragmentación de paquetes y degradación del rendimiento. Verifique el valor configurado de MTU en el WebUI.

Solución de fallas después de la actualización

Una vez que el firmware ha sido descargado e instalado en el Socket, el Socket entrará en un período de gracia (10 minutos) donde se ejecutan varias verificaciones para determinar que la versión recién instalada es estable:

  • El proceso del socket está en ejecución.
  • Ping funciona a cc2.catonetworks.com, 8.8.8.8, y Facebook a través de Internet
  • La conexión con el PoP se establece durante al menos 5 minutos.
  • Hubo al menos diez sincronizaciones exitosas entre el Socket y el PoP.
  • cURL funciona a cc2.catonetworks.com a través del túnel.

Si las verificaciones no son exitosas durante el período de gracia, el Socket volverá a la versión anterior, asumiendo que la nueva versión es inestable. Asegúrese de que el Socket mantenga su acceso a Internet durante 10 minutos después de completar la actualización.

Realización de un reinicio del Socket

En algunas fallas de actualización Fatales, reiniciar el Socket puede ser útil antes de volver a intentar la actualización del firmware. Si el túnel todavía está activo después de la falla de actualización, se puede hacer un reinicio remoto del Socket a través del WebUI bajo la pestaña de administración.

Si el Socket está inaccesible después de la falla de actualización, vaya a Falla del túnel al establecerse después de una actualización.

Actualización manual de Socket y reprogramación

Los Sockets con la acción Omitida durante la ventana de mantenimiento pueden ser actualizados manualmente desde CMA una vez que el Socket vuelva a estar en línea. Los Sockets con la acción Fallida deben seguir los pasos de solución de problemas anteriores antes de intentar actualizarlos manualmente. Para información sobre cómo actualizar manualmente en CMA, consulte Actualización manual de CMA.

Para cuentas grandes, las actualizaciones manuales de CMA pueden tardar mucho tiempo en completarse. En lugar de actualizar manualmente cada Socket, puede ser necesario solucionar y actualizar solo el Socket que falló (acción Fallida) durante la primera ventana de mantenimiento y luego programar una nueva ventana de mantenimiento. Para obtener información sobre cómo reprogramar una ventana de mantenimiento en CMA, consulte Reprogramación del proceso de actualización.

Si el proceso de actualización sigue fallando con el mismo u otros Sockets, envíe un ticket de soporte con los resultados de la solución de problemas anterior.

 

Falla del túnel al establecerse después de una actualización

Analizando eventos CMA

Los eventos de actualización del Socket con la acción Fallida y el mensaje de evento No hay túnel abierto después del tiempo de gracia indican que el Socket se reportó fuera de línea después de que terminó el período de actualización del Socket (17 minutos).

El personal en sitio tendrá que estar en el lugar y seguir los pasos explicados en Resolución de Socket inaccesible después de una actualización.

 

Resolución de problemas descubiertos

Actualización manual de CMA 

Una falla de actualización puede haber sido causada por un problema de conectividad momentáneo y podría ser exitosa en el segundo intento. Para intentar una nueva actualización de Socket, inicie manualmente la actualización desde Configuración del Sitio > Socket > Acciones > Actualizar. Vea Actualización manual de un Socket

Se recomienda seleccionar la última versión de firmware disponible con el mecanismo de actualización "Iniciado por Cato Cloud". 17 minutos después de que comienza la actualización manual del firmware, CMA mostrará una notificación de "actualizado con éxito" indicando que el Socket informó una actualización exitosa después del período de gracia.

 

Resolución de Socket inaccesible después de una actualización

El personal en sitio tendrá que seguir los siguientes pasos:

Nota:  Siempre que sea posible, contactar al Soporte de Cato para recopilar los archivos de registro del Socket a través de la consola antes de reiniciar el Socket. Estos registros son cruciales para el análisis de la causa raíz.

  1. Recolectar logs de consola. Conecte un cable de consola al Socket. Vaya a Administrador de Dispositivos > Puertos y tome nota del puerto COM del cable de consola. Abierto Putty o una aplicación de terminal similar y use los siguientes parámetros.

    Guarde la salida de la consola en un archivo de texto para futura investigación.
    • En Sockets físicos, este paso debe realizarse antes de reiniciar el Socket ya que los logs del Socket se pierden después del reinicio.
    • Para Azure vSockets, los logs de consola se pueden obtener de Azure bajo la VM > Ayuda > Diagnósticos de arranque > Log serial > Descargar log serial. Estos logs se recopilan hasta por 6 inicios.
  2. Reiniciar. El siguiente paso es reiniciar si el túnel no se establece o el Socket se vuelve inaccesible después de una actualización.
  3. Desasignar y reasignar Socket al sitio. Si el reinicio no ayuda a levantar el túnel/Socket, desasigne el Socket en CMA. Si el Socket se detecta, aparecerá en la notificación CMA después de unos minutos. Asigne el Socket de nuevo al mismo sitio.  
  4. Flashear el Socket. Si no hay notificación de CMA, el siguiente paso es flashear el Socket a su estado de fábrica. Puede presionar y mantener presionado el botón F/D durante 30-35 segundos o realizar un reinicio USB para hacerlo.
    • Para el Reinicio F/D, siga Restablecimiento de un Socket.
    • Si el reinicio F/D no funcionó por alguna razón, puede realizar el Reinicio USB. Siga los artículos a continuación sobre cómo realizar el reinicio USB para los modelos de Socket respectivos:
      - X1500
      - X1500B
      - X1600
      - X1700
      - X1700B
  5. Contactar soporte. Envíe los logs de consola recopilados a Soporte y solicite iniciar un proceso de RMA para el Socket. Recomendamos iniciar este proceso si todos los pasos anteriores se han realizado y fallado.

Elevación de casos a Soporte de Cato

Envíe un ticket de soporte con los resultados de los pasos de solución de problemas anteriores. Por favor, incluya la siguiente información en el ticket:

  • Detalles de los Sockets afectados y el impacto general.
  • Eventos y notificaciones relacionados de CMA que muestran la falla de actualización del Socket.
  • Resultados de actualizaciones manuales y reprogramación de la ventana de mantenimiento.
  • Registros de consola recopilados si el socket se vuelve inaccesible.

¿Fue útil este artículo?

Usuarios a los que les pareció útil: 1 de 1

0 comentarios