Compréhension de la correction de la catégorisation automatisée des domaines par IA

Vue d'ensemble

Le service de catégorisation de domaines de Cato attribue des domaines Internet à des catégories prédéfinies. Ces catégories sont utilisées pour appliquer les politiques de sécurité et contrôler l'accès des utilisateurs.

Dans certains cas, des domaines légitimes peuvent être catégorisés d'une manière qui ne reflète pas avec précision leur objectif. Par exemple, un service valide peut être placé dans une catégorie couramment bloquée par les politiques de sécurité par défaut. Cela peut empêcher involontairement les utilisateurs d'accéder aux services requis.

Pour régler cela à grande échelle, Cato a développé un système de correction automatisée de la catégorisation des domaines basé sur l'IA. Ce système identifie et corrige en continu les catégorisations de domaines inexactes afin d'améliorer la précision de la sécurité et l'expérience utilisateur.

Les corrections de catégorisation suivent un processus de déploiement contrôlé et prévisible qui s'exécute toutes les 24 heures et est déployé sur l'ensemble des PoP toutes les 24 heures. Ainsi, une fois une mauvaise classification détectée ou signalée, elle est généralement corrigée dans un délai de 24 à 48 heures. Toutes les corrections sont appliquées globalement et de manière cohérente sur le réseau Cato, assurant une application uniforme des politiques.

Portée de la recatégorisation automatisée

Le processus automatisé se concentre sur les modèles de mauvaise catégorisation les plus courants et les plus impactants observés sur le réseau Cato.

Pour garantir la sécurité et la cohérence :

Les réévaluations automatisées sont appliquées uniquement aux domaines avec une utilisation démontrée auprès de plusieurs clients et utilisateurs
Les domaines spécifiques aux clients ou les cas particuliers ne sont pas remplacés globalement
Chaque domaine subit un processus de réévaluation structuré avant qu'un changement de catégorie ne soit effectué

Si une inexactitude est confirmée, une nouvelle catégorie est assignée. Si la catégorie existante est validée, elle reste inchangée.

Recatégorisations supportées

La correction automatisée de catégorisation de domaine prend en charge ces scénarios :

Domaines légitimes et courants incorrectement étiquetés comme à risque

Les catégories à risque sont celles couramment bloquées par les politiques de sécurité par défaut. Exemples incluent :

Non catégorisé
Domaines Parqués
Hameçonnage
Logiciels Malveillants
Contenu pour adultes

Si un domaine légitime est incorrectement placé dans l'une de ces catégories, les utilisateurs peuvent rencontrer des blocages d'accès non souhaités. Le système automatisé identifie ces cas couramment accédés par les utilisateurs et les réévalue.

Domaines signalés par les utilisateurs finaux comme incorrectement catégorisés

Les utilisateurs peuvent signaler une mauvaise classification suspectée directement depuis la page de blocage en utilisant le lien Signaler une mauvaise catégorie.

Les domaines signalés sont collectés et automatiquement réévalués par le système. Si une mauvaise classification est confirmée, la catégorie est corrigée.

Comment fonctionne la recatégorisation automatisée

Lorsque un domaine est sélectionné pour réévaluation, il est traité via ce flux de travail automatisé :

Étape 1 : Collecte de contexte

Plusieurs signaux sont rassemblés pour comprendre le but du domaine. Les décisions ne sont jamais basées uniquement sur le nom de domaine.

Les signaux incluent :

Titre et contenu de la page d'accueil
Metrics d'utilisation chez les clients Cato
Caractéristiques du client (par exemple, navigateur, ligne de commande ou accès à l'application)
Méthodes HTTP

Étape 2 : Analyse assistée par IA

Un modèle d'IA évalue les signaux collectés et suggère la catégorie la plus appropriée. Chaque suggestion inclut un :

Niveau de confiance
Justification de soutien

Étape 3 : Validation axée sur la sécurité

Avant d'appliquer toute modification, des protections supplémentaires sont imposées :

Validation renforcée pour les catégories à haut risque – Les domaines suspectés, par exemple Hameçonnage ou Logiciels Malveillants, sont réévalués par un modèle de machine learning supplémentaire formé pour détecter les domaines malveillants en utilisant plusieurs augmentations de sécurité tierces
Seuils de confiance conservateurs – Seuls les changements de catégorie qui répondent à des exigences de confiance strictes sont appliqués.

Cette approche en couches assure que les corrections améliorent la précision sans introduire de risque.