카토 소켓 링크 SLA 아키텍처

개요

카토 클라우드는 엔터프라이즈 사이트 간의 WAN 트래픽에 대해 일관되고 예측 가능한 SLA 성능을 제공하기 위해 Tier-1 공급업체 위에 구축된 사설 글로벌 백본입니다. 각 카토 PoP는 이 백본을 통해 상호 연결되어 있으며, 공용 인터넷과 독립적으로 제어된 지연 시간 및 패킷 전달을 제공합니다.

이 보장을 유지하기 위해 Cato는 Cato 소켓과 PoP 간의 지속적인 조정을 가능하게 하는 독점 기술을 개발했습니다. 소켓은 각 링크에 대한 주요 성능 메트릭을 측정하고 PoP는 이러한 측정을 집계하고 상관시켜 사이트와 백본 간의 최적 경로를 유지합니다. 이들 함께, 서비스 연속성을 유지하고 사용 가능한 WAN 리소스의 효율성을 극대화하기 위해 실시간으로 적응하여 일관된 링크 성능을 보장합니다.

카토는 모든 사이트, 사용자 및 애플리케이션의 네트워크 상태에 대한 완전한 엔드투엔드 가시성을 제공합니다. Cato의 XOps 서비스는 AI 기반 분석을 적용하여 이 데이터를 명확하고 실행 가능한 스토리로 변환하여 IT 팀이 문제를 빠르게 해결할 수 있도록 합니다. 단일 컨텍스트 엔진에 메트릭을 지속적으로 수집하여 XOps는 반복적인 조사 시간을 줄이고 근본 원인 식별을 가속화하는 실시간 인사이트와 경고를 제공합니다. 이를 통해 최적의 사용자 경험을 보장합니다.

사이트 배포 유형별 동작

  • 활성/활성: 카토는 두 활성 WAN 링크에서 동적으로 트래픽을 평가하고 라우팅합니다. 트래픽은 실시간 조건을 기반으로 더 나은 성능의 링크로 조향됩니다. 설정은 카토 백본에 의해 동적으로 구성되며 사용자 정의할 수 없습니다 (참고: 활성/활성 배포를 위한 사용자 정의 SLA 임계값은 예정된 릴리스에 계획되어 있습니다)

  • 활성/수동: 정상 작동 중에는 기본 링크만 트래픽을 전달합니다. 성능이 SLA 임계값 아래로 떨어지면, 소켓은 수동 링크를 활성화하고 트래픽을 리디렉션하여 연결성을 유지합니다. 이 동작은 Smart SLA에 의해 제어되며, 자동으로 링크 품질을 평가하여 장애극복 결정을 내립니다. 사이트별로 SLA 임계값을 사용자 정의할 수도 있습니다

  • 활성/수동(최후의 수단 포함): 심각한 WAN 중단 시 중요 연결성을 보장하기 위해 소켓에 최후의 수단 링크를 정의할 수 있습니다. 보통 셀룰러 연결인 이 링크는 비상 상황에서만 소켓에 의해 사용됩니다

링크 SLA 운영 및 아키텍처

카토 클라우드 백본과 소켓은 서로 통합된 SD-WAN 패브릭으로 운영되어 WAN 전반에 걸쳐 일관된 링크 성능을 유지합니다. 소켓과 연결된 PoP 간의 지속적인 원격 측정 교환을 통해 플랫폼은 각 링크의 실시간 품질을 모니터링하고 악화 방지를 위한 라우팅 조정을 적극적으로 수행합니다.

소켓 및 PoP의 하모니

소켓은 각 WAN 링크에 대한 지연 시간, 패킷 손실률, 지터 및 혼잡을 측정하고 이 데이터를 연결된 PoP로 보냅니다. PoP는 자신의 백본 측 원격 측정과 측정을 검증합니다. 함께 작업하여 소켓과 PoP는 동기화된 라우팅 결정을 내리고 엔드투엔드 가시성을 보장하며 로컬 이상을 방지합니다. 자세한 내용은 사이트의 허용 가능한 SLA와 허용되지 않는 SLA 이해하기를 참조하십시오.

실시간 링크 평가

소켓은 실시간 성능을 기반으로 각 링크에 동적 점수를 부여하며, 점수는 몇 초마다 업데이트됩니다. 네트워크 상태가 변경되면, 트래픽 경로가 수동 개입 없이 자동으로 조정됩니다. 관리자는 소켓과 PoP의 인사이트를 반영하는 실시간 및 역사적 메트릭스를 CMA에서 볼 수 있습니다. 추가 정보를 보려면 1부: 소켓 인터페이스와 우선순위를 참조하십시오.

백본 수준 최적화

PoP는 링크 원격 측정을 카토의 글로벌 라우팅 엔진에 통합합니다. 소켓에 의해 일관된 성능 저하가 보고되면, PoP는 사이트의 트래픽을 대체 백본 경로를 통해 재라우팅할 수 있습니다. 이 접근 방식은 사이트 수준을 넘어 SLA 강제를 보장합니다.

예시 순서: 성능 저하 감지 및 경로 조정

이 예시는 미국 필라델피아에 있는 물리적 사이트가 뉴욕과 워싱턴 D.C.의 인근 카토 PoP 사이를 스위칭하여 SLA 준수를 유지하는 방법을 보여줍니다.

  1. 성능 저하 감지: 필라델피아 사이트의 소켓이 뉴욕 PoP에 연결된 링크에서 패킷 손실과 지연 시간 증가를 감지합니다. 이 성능 저하 메트릭은 즉시 뉴욕 PoP에 보고됩니다.

  2. 원격 측정 교환: 워싱턴 D.C. PoP는 자신의 백본 측 원격 측정을 기준으로 보고서를 검증합니다. 두 PoP는 성능 저하가 일시적인 로컬 문제가 아니라는 것을 확인합니다.

  3. 경로 조정: 필라델피아 소켓이 영향을 받은 흐름을 뉴욕 PoP에서 워싱턴 D.C. PoP로 재라우팅합니다. 전환은 자동으로 이루어지며, 세션 연속성을 보존하고 SLA 준수를 복원합니다.

  4. 조정 후 모니터링: 소켓과 PoP는 링크 품질을 계속 모니터링합니다. 뉴욕 PoP 연결이 정상 성능으로 복귀하면, 트래픽은 자동으로 뉴욕을 통한 최적의 경로로 다시 이동합니다. 이 행동은 소켓이 이슈가 해결되면 항상 지리적으로 가장 가까운 성능이 좋은 PoP로 재연결하도록 보장하는 사전 논리에 의해 구동됩니다.

활성/활성 사이트 동작

부하 균형을 제공하기 위해 소켓은 자신이 분류한 데이터를 사용하여 활성 WAN 링크 전반에 트래픽을 지능적으로 균형 조정합니다. 이렇게 함으로써 효율적인 대역폭 사용 및 일관된 애플리케이션 성능을 보장합니다. 카토의 SD-WAN 로직은 상향과 하향 방향 모두를 평가하여 음성 및 비디오와 같은 실시간 애플리케이션의 양방향 품질을 유지합니다.

성능 저하가 감지되면, 소켓과 PoP는 무결하게 트래픽을 더 좋은 성능의 링크로 리디렉션합니다. 기존 세션은 안정적으로 유지되며, 사용자는 눈에 띄는 방해를 경험하지 않습니다.

활성/수동 사이트 동작

활성/수동 배포의 경우, 한 WAN 링크가 트래픽을 전달하고 두 번째는 대기 상태가 유지됩니다. 활성/수동/최후의 수단 배포의 경우, 불필요한 데이터 요금이나 대역폭 사용을 피하기 위해 링크가 수동 상태일 때 최소한의 데이터만 전송됩니다. 활성 및 수동 WAN 링크가 모두 사용할 수 없거나 정의된 SLA 임계값을 만족하지 않을 때만 활성화됩니다. 자세한 내용은 최후의 수단 링크 구성을 참조하십시오.

장애 극복 및 복구

장애 극복은 수동 링크가 초기화되는 동안 짧지만 예상되는 중단을 초래합니다. 안정되면, 소켓은 양 경로에서 링크 평가를 재개합니다. 기본 링크가 복원되면, 트래픽은 자동으로 다시 전환됩니다.

Smart SLA가 포함된 활성/수동 링크 평가

활성/수동 소켓 사이트의 경우, 기본 SLA 설정은 카토의 Smart SLA입니다. 이 설정은 실시간 성능 평가를 사용하여 가장 신뢰할 수 있는 링크를 통해 트래픽 흐름을 보장합니다. 소켓은 지연 시간, 지터 및 패킷 손실에 대한 사전 정의된 임계값을 적용합니다. 성능 저하 메트릭은 PoP에 보고되며, PoP는 백본 원격 측정을 사용하여 데이터를 검증합니다.

Smart SLA는 사이트별 임계값을 설정할 필요성을 제거하면서도 실시간 조건에 적응합니다. 이를 통해 장애 극복 및 복구 결정이 빠르고 정확하게 이루어집니다.

Smart SLA는 몇 초마다 링크 데이터를 샘플링하고 메트릭을 이동 평균으로 집계합니다. 사용자 트래픽이 없을 때 가시성을 유지하기 위해 합성 프로브가 사용됩니다. 소켓과 PoP 간의 이중 검증은 국지적인 이상에 의해 발생하는 오탐을 방지합니다.

최소 임계값 위반 횟수 이후에만 장애 극복이 발생합니다. 메트릭 가중치는 실시간 트래픽의 경우 지연 시간과 지터를 선호하며, 대량 데이터 흐름의 경우 패킷 손실을 우선시합니다. 자세한 내용은 연결 SLA 설정 구성을 참조하십시오.

링크 성능 모니터링

카토는 네트워크 전반의 WAN 링크 성능을 모니터링할 수 있는 여러 가지 방법을 제공합니다. CMA에서 실시간 및 역사적 SLA 메트릭을 보고, 카토 API를 통해 원시 원격 측정에 액세스하거나 XOps를 사용하여 스토리 기반 인사이트를 통해 사건 및 트렌드를 분석할 수 있습니다. 이러한 옵션은 운영 및 이벤트 수준에서 가시성을 제공하여 성능을 능동적으로 관리하고 연결 문제를 해결하는 데 도움을 줍니다.

XOps을 사용한 링크 모니터링

카토의 XOps 서비스는 AI 기반 운영 계층을 추가하여 관리자가 네트워크 전반에서 링크 관련 문제를 사전적으로 식별하고 해결할 수 있도록 도와줍니다. 사이트 운영 엔진은 링크 불안정성, BGP 연결 해제 또는 사이트 장애와 같은 조건을 감지하고 이를 통합된 스토리로 자동으로 상관시킵니다. 각 XOps 스토리는 관련 메트릭, 이벤트 및 토폴로지 세부 정보를 단일 보기로 모아 문제의 근본 원인과 타임라인을 반영합니다. 스토리는 스토리 워크벤치 페이지에 표시되며, 여기에서 사이트, 지표 유형 또는 중요도 수준별로 이벤트를 정렬, 필터링 및 깊이 있게 조사할 수 있습니다.

스토리는 조사를 안내하기 위해 관련된 플레이북과 연결되며, AI 기반 동적 스토리 요약을 생성하여 분석을 가속화합니다. 스토리는 해결 후 자동으로 종료되어 반복적인 문제 및 운영 상태를 수동 정리 없이 시간에 걸쳐 추적하기가 더 쉽습니다. 예를 들어, 사이트가 성능을 최적화하기 위해 PoP에 다시 연결해야 했기 때문에 사이트 운영 스토리가 열렸습니다. 두 시간 후, 문제가 다시 발생하지 않았기 때문에 스토리가 자동으로 닫힙니다.

관련 문서: 

CMA에서 링크 모니터링

관리자는 대시보드와 페이지를 통해 모든 소켓과 PoP의 링크 데이터를 볼 수 있습니다:

API를 통한 링크 SLA 모니터링

SLA 원격 측정을 검색하기 위한 다음 API를 사용하십시오:

  • accountMetrics API – 사이트와 백본 간의 역사적 SLA

  • socketPortMetrics API – 각 소켓 인터페이스와 전송별 실시간 성능

관련 문서: 

통합 및 알림

카토는 SIEM 및 협업 도구와 통합됩니다. 웹훅은 다음 사항에 대한 경고를 제공합니다:

  • 상태 경고 및 XOps 네트워크 스토리를 통한 링크 성능 저하

  • 소켓 장애극복 및 복구 이벤트

자세한 내용은 링크 상태 규칙 작업을 참조하십시오.

도움이 되었습니까?

0명 중 0명이 도움이 되었다고 했습니다.

댓글 0개