Revisando Historias de Operaciones del Sitio

Este artículo trata sobre cómo puedes usar el Banco de Trabajo de Historias para revisar historias de Operaciones del Sitio relacionadas con problemas de conectividad y rendimiento en tu red.

Resumen

Cato XOps identifica problemas de red como la degradación, además de potenciales amenazas de seguridad. El motor avanzado de Operaciones del Sitio detecta diferentes indicaciones y métricas relacionadas con conectividad y rendimiento, y genera historias que correlacionan los datos para problemas relacionados con la red. Por ejemplo, si un enlace WAN está experimentando intermitentemente una alta pérdida de paquetes, el motor creará una sola historia con todos los datos relevantes para el enlace.

La página del Banco de Trabajo de Historias muestra los detalles de cada historia para ayudarte a entender y analizar los problemas. Puedes ordenar y filtrar las historias para encontrar los incidentes más importantes, y luego profundizar en una historia para investigar más los detalles y resolver el problema.

Indicaciones de Historia de Operaciones del Sitio

Estas son las indicaciones de problemas de conectividad y rendimiento de red que son detectadas por el motor de Operaciones del Sitio para generar historias:

Indicación

Descripción

Umbral para Generar una Historia

Sitio caído

El sitio se desconectó del Cato Cloud.

Todos los enlaces están caídos durante 2.5 minutos

Enlace caído

Uno de los enlaces WAN para un sitio se desconectó del Cato Cloud, el sitio todavía está conectado.

Un enlace está caído durante 5 minutos, o un enlace tuvo 5 desconexiones más cortas en un periodo de 10 minutos

Sesión BGP desconectada

Una sesión BGP se desconectó inesperadamente, lo que puede impactar la conectividad de la aplicación y la experiencia del usuario.

Una sesión BGP está caída por 5 minutos o tuvo 5 o más desconexiones más cortas en un periodo de 10 minutos

Monitoreo LAN - anfitrión inalcanzable

Un anfitrión monitoreado detrás de un sitio no está respondiendo a los paquetes de mantenimiento desde el PoP y se considera inalcanzable.

Requiere una regla de Monitoreo LAN configurada para el anfitrión.

Un evento de Monitoreo LAN Inalcanzable

Calidad del enlace SLA

El umbral de calidad SLA del enlace para un sitio ha sido superado. Esto puede impactar la experiencia del usuario.

Los umbrales SLA están configurados para Reglas de Calidad de Salud.

Notas:

  • Los problemas de congestión de un enlace están excluidos de las historias de Calidad de Enlace SLA.

  • Para los clientes ILMM, las historias basadas en jitter y latencia no son generadas.

Un evento de Regla de Calidad de Salud

Estado de No Listo de HA del Socket

Hay un problema con la configuración de Alta Disponibilidad (HA) del Socket, y el estado es No Listo.

Si ocurre una de las siguientes condiciones de Estado de No Listo de HA del Socket:

  • Conectado no está listo por 5 minutos

  • Mantenimiento no está listo por 60 minutos

  • Versión compatible no está lista por 60 minutos

  • Conmutación por falla al socket secundario por 60 minutos

Para más información sobre estas condiciones, consulte ¿Qué es Socket HA?

Reconexión de PoP para mejorar la conectividad

El sitio fue forzado a reconectarse al PoP para optimizar el rendimiento. Reconectar al PoP puede impactar la experiencia del usuario.

Un evento de reconexión con este mensaje:

Problema de rendimiento detectado, reconectado a un nodo de servicio diferente en el Cato Cloud

Para más información sobre los campos del mensaje de eventos, consulte Entendiendo los Campos del Mensaje de Evento de Conectividad de Socket

Puerto LAN caído

Uno de los puertos LAN se desconectó

El puerto está caído durante 5 minutos

Enlace WAN alternativo caído

Uno de los Alt. Enlaces WAN desconectados

El enlace está caído o el número de canales se redujo a 0 por 5 minutos

Socket desconectado después de la actualización

Un socket no reestableció un túnel dentro del tiempo esperado después de actualizar a una nueva versión.

Socket está desconectado por 5 minutos después de la finalización del tiempo de actualización esperado

Entendiendo el Ciclo de Vida de Historia de Operaciones del Sitio

Las historias de Operaciones del Sitio pasan por diferentes etapas a lo largo del ciclo de vida de la historia, desde el problema inicial que activó la historia, hasta la resolución final. Sin embargo, los ciclos de vida de las historias son ligeramente diferentes para las historias de Sitio caído frente a otros tipos de historias. Esto se debe a que cuando una historia de Sitio caído está en curso, no se crean otras historias para el sitio para evitar la creación de historias redundantes.

Por ejemplo, si un sitio con dos enlaces WAN cae, se genera una única historia de Sitio caído sin historias separadas de Enlace caído para cada enlace WAN.

A continuación se presentan las etapas potenciales para una historia de Sitio caído y otros tipos de historias:

  • Etapas en el ciclo de vida de la historia de Sitio caído:

    1. Abierto - el problema está actualmente en progreso, y la historia está creada

    2. Monitoreo - El problema ha sido resuelto por menos de 2 horas

    3. Cerrado - El problema ha sido resuelto por 2 horas, y la historia está cerrada

  • Etapas en el ciclo de vida de otros tipos de historias:

    1. En espera - El problema está en progreso, pero no se crea ninguna historia porque el sitio está actualmente caído. El problema permanece en espera hasta que hayan pasado 2 minutos después de que la historia de Sitio caído esté cerrada

    2. Abierto - el problema está actualmente en progreso, y la historia está creada

    3. Monitoreo - El problema ha sido resuelto por menos de 2 horas

    4. Cerrado - El problema ha sido resuelto por 2 horas, y la historia está cerrada

Nota

Nota: las historias de Operaciones del Sitio también se cierran automáticamente en los siguientes casos:

  • 30 días de antigüedad: Cerrado para asegurar un seguimiento fresco si el problema recurre

  • La historia requiere revalidación: El motor de Operaciones del Sitio determinó que la historia necesita ser revalidada. El motor valida y reabre la historia si el problema recurre

  • Cambio de configuración: Una entidad en la historia (enlace, sitio, rango BGP, anfitrión) ya no es relevante debido a actualizaciones de configuración

Ejemplo de Caso de Uso

Este es un ejemplo de caso de uso para un administrador que identifica y resuelve una historia de red de Operaciones del Sitio con el Banco de Trabajo de Historias:

  • Filtró el Banco de Trabajo de Historias para mostrar historias abiertas de Operaciones del Sitio agrupadas por sitio

  • Identificó una historia de alta criticidad para el sitio de Nueva York, con la indicación Enlace caído

  • Abrió la página de detalles de la historia, revisó los datos de la historia y descubrió que el enlace WAN 01 del sitio estaba desconectado del Cato Cloud

  • Revisó el libro de jugadas relevante para investigar y solucionar el problema

  • Después de revisar el Socket físico en el sitio de Nueva York, descubrió que el cable del enlace WAN 01 estaba defectuoso

  • Reemplazó el cable, confirmó que el enlace estaba activo y conectado, y continuó monitoreando la historia para posible recurrencia del problema

  • Historia cerrada automáticamente después de dos horas sin recurrencia

Mostrando la página del Banco de Trabajo de Historias

La página del Banco de Trabajo de Historias muestra un resumen de las historias de XOps para su cuenta.

Para ver la página del Banco de Trabajo de Historias:

  • Desde el menú de navegación, haz clic en Home > Banco de Trabajo de Historias.

Entendiendo las Columnas de Historias

Detection___Response_Workbench_w_Network.png

Columna

Descripción

ID

ID único de Cato para esta historia

Estado

Los estados para una historia de Operaciones del Sitio representan diferentes etapas a lo largo del ciclo de vida de la historia, desde el problema inicial que activó la historia, hasta la resolución final. El motor de Operaciones del Sitio actualiza automáticamente el estado cuando detecta los cambios relevantes en el incidente de red. Estos son los tipos de estado:

  • Abierto - El motor de Operaciones del Sitio detectó un problema de red que provocó la generación de una historia

  • Monitoreo - El motor de Operaciones del Sitio detectó que el problema inicial está resuelto y continúa monitoreando para una recurrencia durante dos horas. Si se detecta una recurrencia, el estado cambia de nuevo a Abierto

  • Cerrado - Una historia con un estado de Monitoreo cambia a Cerrado cuando no se detecta recurrencia durante dos horas.

    Nota

    Nota: Solo las historias de Operaciones del Sitio se cierran automáticamente, y solo después de 120 minutos sin que ocurra el problema. Las historias de Seguridad de XOps no se cierran automáticamente.

Creado

Fecha de la primera flujo de tráfico para la historia

Actualizado

Fecha del flujo de tráfico más reciente para la historia

Gravedad

  • El impacto potencial del problema en su red. Los valores van de 1 (bajo impacto) a 10 (alto impacto)

Indicación

  • Indicación del problema de red para la historia

Fuente

  • El sitio donde está ocurriendo el problema de red

Ocurrencias

El número de veces que ocurrió el problema, incluyendo recurrencias después de una resolución temporal. Por ejemplo, si un enlace se desconecta y reconecta repetidamente, cada desconexión cuenta como una ocurrencia

Tipo de motor

El motor que creó la historia. Para historias de Operaciones del Sitio, el motor es Operaciones del Sitio

Agrupación de las Historias

Para proporcionar contexto al revisar las historias, puedes mostrar las historias en grupos definidos por detalles que incluyen Fuentes, Indicación, Estado, y Tipo. Por ejemplo, puedes mostrar juntas todas las historias relacionadas con un sitio de fuente específico, o todas las historias de Calidad de Enlace SLA. Esto te da una perspectiva más amplia al analizar las historias y puede ayudarte a entender y resolver problemas más rápidamente.

Para historias de Operaciones del Sitio, las Fuentes son sitios en tu red.

Recomendamos como mejor práctica comenzar tu análisis de historias de Red agrupando por Fuentes.

Cada grupo resalta los niveles de criticidad para las historias en ese grupo, incluyendo el número de historias de alta, media y baja gravedad.

Stories_Workbench_Grouping.png

Para agrupar las historias en el Banco de Trabajo de Historias:

  1. Desde el menú de navegación, haz clic en Monitoreo > Banco de Trabajo de Historias.

  2. Desde el menú desplegable Agrupar por, selecciona el criterio requerido.

    Las historias se muestran en grupos expandibles.

Filtrar las Historias

Hay tres maneras de filtrar los datos en el Banco de Trabajo de Historias:

  • Selecciona un filtro preestablecido

  • Actualiza automáticamente el filtro con un elemento seleccionado

  • Configura manualmente el filtro

Filtros Preestablecidos

Puedes seleccionar un filtro preestablecido para centrarte en historias de Operaciones de Red o Operaciones de Seguridad. Al seleccionar un filtro preestablecido, las columnas de historia más relevantes para ese tipo de historia se muestran por defecto.

Para seleccionar un filtro preestablecido:

  1. En la barra de filtros, haz clic en el menú desplegable Sin preajustes.

  2. Selecciona el preajuste. El Banco de Trabajo de Historias se actualiza para mostrar las historias que coinciden con el preajuste.

Filtrado Automático para un Elemento

Cuando pase el ratón sobre un artículo o campo donde está disponible una opción de filtro, aparece el botón TD_Filter.png. Haz clic en el icono para mostrar las opciones de filtro:

  • Agregar al Filtro - Agrega el elemento al filtro, y el Banco de Trabajo de Historias ahora solo muestra historias que incluyen este elemento. Por ejemplo, si filtras por un puntaje de Criticidad específico, la página solo muestra historias con esa Criticidad.

  • Excluir del Filtro - Actualiza el filtro para excluir este elemento, y el Banco de Trabajo de Historias ahora solo muestra historias que NO incluyen este elemento.

Puede continuar agregando elementos al filtro, haga clic en TD_Filter.png nuevamente para actualizar el filtro y profundizar más.

Seleccionando el Rango de Tiempo

El rango de tiempo predeterminado para el Banco de Trabajo de Historias son los dos días anteriores. Puedes seleccionar un rango de tiempo diferente para mostrar un período de tiempo más largo o más corto. Para más información, consulte Estableciendo el filtro de rango de tiempo.

El rango máximo de fechas para el Banco de Trabajo de Historias es de 90 días.

Configuración Manual del Filtro

Puedes configurar manualmente el filtro de historias para mayor granularidad al analizar las historias. Después de configurar el filtro, se agrega a la barra de filtros de historias y la página se actualiza automáticamente para mostrar las historias que coinciden con el nuevo filtro.

Para crear un filtro:

  1. En la barra de filtro, haga clic en Add2.png.

  2. Empieza a escribir o selecciona el Campo.

  3. Selecciona el Operador, que determina la relación entre el Campo y el Valor que estás buscando.

  4. Selecciona el Valor.

  5. Haz clic en Agregar Filtro. El filtro se agrega a la barra de filtros y el Banco de Trabajo de Historias se actualiza para mostrar historias basadas en los filtros.

Limpiar el Filtro

Puedes eliminar cada elemento del filtro por separado o limpiar todo el filtro.

Para limpiar los filtros de la página de Banco de Trabajo de Historias:

  1. Para limpiar un único filtro, haga clic en remove.png junto al filtro.

  2. Para limpiar todos los filtros, haz clic en X al final derecho de la barra de filtros.

Profundizando y Analizando Historias

Puedes hacer clic en una historia en el Banco de Trabajo de Historias para profundizar e investigar los detalles en una página diferente. Esta página contiene varios widgets que te ayudan a evaluar el posible problema identificado por el motor de Operaciones del Sitio.

Investigando Historias con Playbooks

El desglose del Banco de Trabajo de Historias incluye un enlace a un playbook que ofrece pasos para investigar, resolver problemas y resolver el problema. Cada historia de Operaciones del Sitio se vincula a un playbook para la indicación específica de la historia. Por ejemplo, un playbook para historias con la indicación Estado de Socket HA No Listo.

Generando Resúmenes de Historias por IA

El desglose del Banco de Trabajo de Historias incluye una herramienta que te permite crear una descripción de historia en lenguaje natural generada por IA, que proporciona un contexto rico y te ayuda a evaluar rápidamente la historia. El resumen de la historia se genera dinámicamente para reflejar el estado actual de la historia. Si la historia se actualiza con nueva información, puedes regenerar el resumen para reflejar los cambios.

Para más información sobre la generación de resúmenes de historias por IA, consulte abajo.

  • El resumen de la historia por IA solo se genera bajo demanda por el administrador

Protección de Datos Sensibles con Tokenización

Para una seguridad robusta de datos durante la transmisión de datos de historias a servicios de IA de terceros, Cato utiliza la tokenización para garantizar que todos los datos sensibles permanezcan en la plataforma XOps de Cato. Esto implica reemplazar la información sensible con identificadores únicos, o "tokens", haciendo que los datos sean inútiles para entidades no autorizadas. Los datos sensibles nunca se exponen a servicios de terceros. Este enfoque asegura la confidencialidad de los detalles de la historia, alineándose con nuestro compromiso con estándares robustos de privacidad y seguridad de datos.

Nota

Nota: Debido a las limitaciones de la IA generativa, la información proporcionada en los resúmenes de historias puede ocasionalmente contener inexactitudes.

Entendiendo los Widgets de Desglose de Historias

Detection___Response_Network_callouts.png

Estos son los widgets de desglose de historias:

Artículo

Nombre

Descripción

1

Resumen de la historia

Un resumen de la información básica sobre la historia, incluyendo:

  • El tipo de historia

  • El nombre del sitio asociado con la historia

  • La criticidad de la historia

  • El número de veces que ocurrió el problema

  • El número de días desde que se generó la historia

  • El estado actual de la historia

2

Cronología de la historia

Muestra una cronología de cambios en el estado de la historia

3

Detalles de la historia

Información básica para analizar la historia, incluyendo una descripción de la misma, cuándo fue creada y actualizada con nuevos incidentes de red relacionados, y la información sobre el sitio.

  • Haga clic en Generar Resumen AI para obtener una descripción en lenguaje natural de la historia que proporciona un contexto enriquecido y le ayuda a evaluar rápidamente la historia

  • Haga clic en el enlace artículo KB del Manual para abrir el manual que explica cómo resolver este tipo de historia

4

Resumen del Sitio Actual

Información sobre el sitio de su red afectado por la historia. El widget incluye un enlace para ver registros recientes de conexiones del sitio y menús desplegables con accesos directos a las páginas de Configuración del Sitio y Monitoreo del Sitio. Este widget es el mismo que el Panel de Información del Sitio en la página de Topología.

5

Línea de Tiempo de Incidentes

Una lista de los incidentes detectados para problemas y resoluciones en la historia. Por ejemplo, la Línea de Tiempo de Incidentes para una historia de Link is down incluye estos incidentes:

  • Vínculo activo de WAN1 del enchufe principal - Desconectado de la Nube de Cato

  • Vínculo activo de WAN1 del enchufe principal - Conectividad restablecida con éxito a la Nube de Cato

  • No se registraron más ocurrencias del problema después de 120 minutos, estado de la historia cambió de Monitoreo a Cerrado

    Nota

    Nota: Sólo las historias de Operaciones del Sitio se cierran automáticamente, y sólo después de que el problema no ocurra más durante 120 minutos. Las historias de Seguridad de XOps no se cierran automáticamente.

Estas son las columnas para la Línea de Tiempo de Incidentes:

  • Creado - Cuando se detectó por primera vez el incidente

  • Validado - Cuando se confirmó el incidente creado

  • Una Descripción del incidente

  • Evento - Un enlace para mostrar la página de Eventos prefiltrada para el incidente

Usando la Política de Respuesta para Historias de Operaciones del Sitio

Detection___Response_Network_Response_Policy.png

La Política de Respuesta de XOps le ayuda a monitorear historias de XOps definiendo cuándo se envían notificaciones por correo electrónico de historias a los administradores. Puede crear reglas que definan los criterios de la historia para cuándo se envían notificaciones, y puede utilizar listas de correo para configurar qué administradores reciben las notificaciones. Por ejemplo, puede crear una regla para enviar notificaciones para una historia de Operaciones del Sitio con alta Gravedad, y definir la lista de correo para incluir una dirección de correo de la mesa de ayuda para abrir automáticamente un ticket de soporte.

Para más información sobre cómo crear reglas de la Política de Respuesta, consulte Creando la Política de Respuesta para Historias de XOps

¿Fue útil este artículo?

Usuarios a los que les pareció útil: 0 de 0

0 comentarios