Cet article explique comment utiliser le Stories Workbench pour examiner les histoires d'opérations de site concernant les problèmes de connectivité et de performance sur votre réseau.
Cato XOps identifie les problèmes de réseau tels que la dégradation, en plus des menaces potentielles de sécurité. Le moteur avancé des opérations de site détecte différentes indications et métriques relatives à la connectivité et à la performance, et génère des histoires qui corrèlent les données pour les problèmes concernant le réseau. Par exemple, si un lien WAN subit une perte de paquets élevée de manière intermittente, le moteur créera une seule histoire avec toutes les données pertinentes pour le lien.
La page du Stories Workbench montre les détails de chaque histoire pour vous aider à comprendre et analyser les problèmes. Vous pouvez trier et filtrer les histoires pour trouver les incidents les plus importants, puis explorer une histoire pour enquêter plus en détail et résoudre le problème.
Ce sont les indications de problèmes de connectivité et de performance du réseau détectés par le moteur des opérations de site pour générer des histoires :
|
Indication |
Description |
Seuil pour générer une histoire |
|---|---|---|
|
Site hors ligne |
Le site s'est déconnecté du Cato Cloud. |
Tous les liens sont en panne pendant 2,5 minutes |
|
Lien en panne |
Un des liens WAN d'un site s'est déconnecté du Cato Cloud, le site est toujours connecté. |
Un lien est en panne pendant 5 minutes, ou le lien a eu 5 déconnexions plus courtes sur une période de 10 minutes |
|
Session BGP déconnectée |
Une session BGP s'est déconnectée de manière inattendue, ce qui peut affecter la connectivité des applications et l'expérience utilisateur. |
Une session BGP est en panne pendant 5 minutes ou a eu 5 ou plus de déconnexions plus courtes sur une période de 10 minutes |
|
Surveillance LAN - hôte inaccessible |
Un hôte surveillé derrière un site ne répond pas aux paquets de maintien en vie du PoP et est considéré comme inaccessible. Nécessite une règle de surveillance LAN configurée pour l'hôte. |
Un événement "Surveillance LAN inaccessible" |
|
SLA de qualité de lien |
Le seuil de qualité SLA du lien pour un site est dépassé. Cela peut affecter l'expérience utilisateur. Les seuils de SLA sont configurés pour les règles de santé de qualité. Notes :
|
Un événement "règle de santé de qualité" |
|
Statut "Socket HA Not Ready" |
Il y a un problème avec la configuration de la haute disponibilité (HA) du Socket, et le statut est "Not Ready". |
Si l'une des conditions suivantes de "Socket HA Not Ready" se produit :
Pour plus d'informations sur ces conditions, voir Qu'est-ce que le Socket HA |
|
Reconnexion PoP pour améliorer la connectivité |
Le site a été forcé de se reconnecter au PoP pour optimiser les performances. La reconnexion au PoP peut affecter l'expérience utilisateur. |
Un événement de reconnexion avec ce message : Problème de performance détecté, reconnecté à un nœud de service différent dans le Cato Cloud Pour plus d'informations sur les champs de message d'événement, voir Comprendre les champs de message d'événement de connectivité Socket |
|
Port LAN en panne |
Un des ports LAN s'est déconnecté |
Le port est en panne depuis 5 minutes |
|
Lien WAN alternatif en panne |
Un des alt. Liens WAN déconnectés |
Le lien est en panne ou le nombre de canaux est tombé à 0 pendant 5 minutes |
|
Socket hors ligne après mise à niveau |
Un Socket n'a pas rétabli un tunnel dans les délais prévus après une mise à niveau vers une nouvelle version. |
Le Socket est déconnecté pendant 5 minutes après la fin du temps de mise à niveau prévu |
Les histoires des opérations de site traversent différentes étapes tout au long de leur cycle de vie, depuis le problème initial qui a déclenché l'histoire jusqu'à la résolution finale. Cependant, les cycles de vie des histoires diffèrent légèrement pour les histoires de Site hors ligne par rapport aux autres types d'histoires. C'est parce que lorsqu'une histoire de Site hors ligne est en cours, aucune autre histoire pour le site n'est créée pour éviter la création d'histoires redondantes.
Par exemple, si un site avec deux liens WAN est en panne, une seule histoire de Site hors ligne est générée sans histoires séparées de lien en panne pour chaque lien WAN.
Voici les étapes potentielles pour une histoire de Site hors ligne et d'autres types d'histoires :
-
Étapes du cycle de vie d'une histoire de Site hors ligne :
-
Ouvert - le problème est actuellement en cours, et l'histoire est créée
-
Surveillance - Le problème est résolu depuis moins de 2 heures
-
Fermé - Le problème est résolu depuis 2 heures, et l'histoire est fermée
-
-
Étapes du cycle de vie des autres types d'histoires :
-
En attente - Le problème est en cours, mais aucune histoire n'est créée car le site est actuellement hors ligne. Le problème reste en attente jusqu'à 2 minutes après la fermeture de l'histoire de Site hors ligne
-
Ouvert - le problème est actuellement en cours, et l'histoire est créée
-
Surveillance - Le problème est résolu depuis moins de 2 heures
-
Fermé - Le problème est résolu depuis 2 heures, et l'histoire est fermée
-
Remarque
Remarque : Les histoires des opérations de site sont également automatiquement fermées dans les cas suivants :
-
Vieille de 30 jours – Fermé pour garantir un suivi frais si le problème réapparaît
-
L'histoire nécessite une revalidation – Le moteur des opérations de site a déterminé que l'histoire doit être revalidée. Le moteur valide et rouvre l'histoire si le problème réapparaît
-
Modification de la configuration – Une entité dans l'histoire (lien, site, plage BGP, hôte) n'est plus pertinente en raison des mises à jour de configuration
Ceci est un exemple de cas d'utilisation pour un administrateur identifiant et résolvant une histoire de réseau d'opérations de site avec le Stories Workbench :
-
Filtré le Stories Workbench pour afficher les histoires d'opérations de site ouvertes groupées par site
-
Identifié une histoire de haute criticité pour le site de New York, avec l'indication lien est en panne
-
Ouvert la page de détail pour l'histoire, examiné les données de l'histoire, et découvert que le lien WAN 01 du site était déconnecté du Cato Cloud
-
Examiné le playbook pertinent pour enquêter et résoudre le problème
-
Après avoir vérifié le Socket physique sur le site de New York, découvert que le câble du lien WAN 01 était défectueux
-
Remplacé le câble, confirmé que le lien était rétabli et connecté, et continué à surveiller l'histoire pour une éventuelle récurrence du problème
-
Histoire fermée automatiquement après deux heures sans récurrence
La page du Stories Workbench montre un résumé des histoires XOps de votre compte.
Pour afficher la page du Stories Workbench :
-
Dans le menu de navigation, cliquez sur Accueil > Stories Workbench.
|
Colonne |
Description |
|---|---|
|
ID |
ID Cato unique pour cette histoire |
|
Statut |
Les statuts d'une histoire de opérations de site représentent différentes étapes de son cycle de vie, depuis le problème initial qui a déclenché l'histoire jusqu'à la résolution finale. Le moteur des opérations de site met automatiquement à jour le statut lorsqu'il détecte des changements pertinents dans l'incident réseau. Voici les types de statut :
|
|
Créé |
Date du premier flux de trafic pour l'histoire |
|
Mis à jour |
Date du flux de trafic le plus récent pour l'histoire |
|
Criticité |
|
|
Indication |
|
|
Source |
|
|
Occurrences |
Le nombre de fois où le problème est survenu, y compris les récurrences après une résolution temporaire. Par exemple, si un lien se déconnecte et se reconnecte plusieurs fois, chaque déconnexion compte comme une occurrence |
|
Type de moteur |
Le moteur qui a créé l'histoire. Pour les histoires Site Operations, le moteur est Site Operations |
Pour fournir un contexte lors de l'examen des histoires, vous pouvez afficher les histoires en groupes définis par des détails tels que Sources, Indication, Statut, et Type. Par exemple, vous pouvez afficher ensemble toutes les histoires liées à un site source spécifique, ou toutes les histoires Link quality SLA. Cela vous donne une perspective plus large lors de l'analyse des histoires, et peut vous aider à comprendre et résoudre plus rapidement les problèmes.
Pour les histoires Site Operations, les Sources sont des sites de votre réseau.
Nous recommandons comme meilleure pratique de commencer votre analyse des histoires réseau en les regroupant par Sources.
Chaque groupe met en évidence les niveaux de criticité des histoires dans ce groupe, y compris le nombre d'histoires critiques, moyennes et faibles.
Il existe trois manières de filtrer les données dans l'Atelier des Histoires :
-
Sélectionner un filtre prédéfini
-
Mettre à jour automatiquement le filtre avec un élément sélectionné
-
Configurer manuellement le filtre
Vous pouvez sélectionner un filtre prédéfini pour vous concentrer sur les histoires Network Operations ou Security Operations. Lorsque vous sélectionnez un filtre prédéfini, les colonnes d'histoires les plus pertinentes pour ce type d'histoire sont affichées par défaut.
Lorsque vous survolez un élément ou un champ où une option de filtre est disponible, le bouton apparaît. Cliquez sur l'icône pour afficher les options de filtre :
-
Ajouter au filtre - Ajoute l'élément au filtre, et l'Atelier des Histoires ne montre désormais que les histoires qui incluent cet élément. Par exemple, si vous filtrez un score de criticité spécifique, la page affiche uniquement les histoires avec cette criticité.
-
Exclure du filtre - Met à jour le filtre pour exclure cet élément, et l'Atelier des Histoires ne montre désormais que les histoires qui n'incluent PAS cet élément.
Vous pouvez continuer à ajouter des éléments au filtre, cliquez à nouveau sur pour mettre à jour le filtre et approfondir davantage.
L'intervalle de temps par défaut pour l'Atelier des Histoires est les deux jours précédents. Vous pouvez sélectionner un autre intervalle de temps pour afficher une période plus longue ou plus courte. Pour plus d'informations, voir Setting the Time Range Filter.
L'intervalle de dates maximal pour l'Atelier des Histoires est de 90 jours.
Vous pouvez configurer manuellement le filtre d'histoire pour une plus grande granularité afin d'analyser les histoires. Après avoir configuré le filtre, il est ajouté à la barre de filtre des histoires et la page est automatiquement mise à jour pour afficher les histoires correspondant au nouveau filtre.
Pour créer un filtre :
-
Dans la barre de filtre, cliquez sur
.
-
Commencez à taper ou sélectionnez le Champ.
-
Sélectionnez l'Opérateur, qui détermine la relation entre le Champ et la Valeur que vous recherchez.
-
Sélectionnez la Valeur.
-
Cliquez sur Ajouter le filtre. Le filtre est ajouté à la barre de filtre et l'Atelier des Histoires est mis à jour pour afficher les histoires basées sur les filtres.
Vous pouvez supprimer chaque élément du filtre séparément, ou effacer l'intégralité du filtre.
Vous pouvez cliquer sur une histoire dans l'Atelier des Histoires pour approfondir et examiner les détails sur une page différente. Cette page contient un certain nombre de widgets qui vous aident à évaluer le problème potentiel identifié par le moteur de Site Operations.
L'approfondissement de l'Atelier des Histoires inclut un lien vers un playbook qui fournit des étapes pour enquêter, résoudre et régler le problème. Chaque histoire Site Operations est liée à un playbook pour l'indication spécifique de l'histoire. Par exemple, un playbook pour des histoires avec l'indication Statut Socket HA Non Prêt.
L'approfondissement de l'Atelier des Histoires inclut un outil qui vous permet de créer une description d'histoire générée par IA en langage naturel, qui fournit un contexte riche et vous aide à évaluer rapidement l'histoire. Le résumé de l'histoire est généré dynamiquement pour refléter l'état actuel de l'histoire. Si l'histoire est mise à jour avec de nouvelles informations, vous pouvez régénérer le résumé pour refléter les changements.
Pour plus d'informations sur la génération de résumés d'histoire AI, voir ci-dessous.
-
Le résumé d'histoire AI est généré uniquement à la demande par l'admin
Pour une sécurité des données robuste lors de la transmission de données d'histoire à des services AI tiers, Cato utilise la tokenisation pour s'assurer que toutes les données sensibles restent sur la plateforme Cato XOps. Cela implique le remplacement des informations sensibles par des identifiants uniques, ou "tokens", rendant les données incompréhensibles aux entités non autorisées. Les données sensibles ne sont jamais exposées aux services tiers. Cette approche garantit la confidentialité des détails de l'histoire, en accord avec notre engagement envers des normes de confidentialité et de sécurité des données robustes.
Remarque
Remarque : En raison des limitations de l'IA générative, les informations fournies dans les résumés d'histoire peuvent occasionnellement contenir des inexactitudes.
Ce sont les widgets d'approfondissement de l'histoire :
|
Éléments |
Nom |
Description |
|---|---|---|
|
1 |
Résumé de l'histoire |
Un résumé des informations de base sur l'histoire, y compris :
|
|
2 |
Montre une chronologie des changements de statut de l'histoire |
|
|
3 |
Détails de l'histoire |
Informations de base pour analyser l'histoire, y compris une description de l'histoire, la date de création, la mise à jour avec de nouveaux incidents réseau liés et des informations sur le site. |
|
4 |
Vue d'ensemble du site actuel |
Informations sur le site de votre réseau impacté par l'histoire. Le widget inclut un lien pour voir les journaux de connexion récents pour le site, et des menus déroulants avec des raccourcis vers les pages Configuration du Site et Surveillance du Site. Ce widget est le même que le Panneau d'Informations du Site sur la page de Topologie. |
|
5 |
Chronologie des Incidents |
Une liste des incidents détectés pour les problèmes et les résolutions dans l'histoire. Par exemple, la Chronologie des Incidents pour une histoire Le lien est en panne inclut ces incidents :
Voici les colonnes pour la Chronologie des Incidents :
|
La politique de réponse XOps vous aide à surveiller les histoires XOps en définissant quand les notifications par e-mail pour les histoires sont envoyées aux admins. Vous pouvez créer des règles qui définissent les critères de l'histoire pour quand les notifications sont envoyées, et utilisez des listes de diffusion pour configurer quels admins reçoivent les notifications. Par exemple, vous pouvez créer une règle pour envoyer des notifications pour une histoire Site Operations avec une Critique haute, et définir la liste de diffusion pour inclure une adresse email du service d'assistance pour ouvrir automatiquement un ticket de support.
Pour plus d'informations sur la création des règles de la Politique de Réponse, voir Création de la Politique de Réponse pour les Histoires XOps
0 commentaire
Vous devez vous connecter pour laisser un commentaire.