사이트 운영 스토리 검토하기

이 문서는 네트워크의 연결 및 성능 문제에 대한 사이트 운영 스토리를 검토하기 위해 스토리 워크벤치를 어떻게 사용할 수 있는지 논의합니다.

개요

Cato XOps는 네트워크 문제를 식별하고 성능 저하와 잠재적 보안 위협을 포함합니다. 고급 사이트 운영 엔진은 연결 및 성능과 관련된 다양한 지표와 데이터를 감지하고, 네트워크에 관한 문제를 상관시키는 스토리를 생성합니다. 예를 들어, WAN 링크에 간헐적으로 높은 패킷 손실이 발생하면, 엔진은 링크와 관련된 모든 데이터를 포함한 단일 스토리를 생성합니다.

스토리 워크벤치 페이지는 문제를 이해하고 분석하는 데 도움이 되는 각 스토리의 세부 정보를 표시합니다. 가장 중요한 사고를 찾기 위해 스토리를 정렬 및 필터링할 수 있으며, 문제를 해결하기 위해 스토리를 심층적으로 조사할 수 있습니다.

사이트 운영 스토리 지표

다음은 스토리를 생성하기 위해 사이트 운영 엔진이 감지하는 네트워크 연결성 및 성능 문제의 지표입니다:

지표

설명

스토리 생성 임계값

사이트 다운

사이트가 카토 클라우드에서 연결이 끊어졌습니다.

모든 링크가 2.5분 동안 다운되었습니다.

링크 다운

사이트의 WAN 링크 중 하나가 카토 클라우드에서 연결이 끊어졌으나, 사이트는 여전히 연결되어 있습니다.

링크가 5분 동안 다운되거나 10분 내에 5회의 짧은 연결 차단이 발생했습니다.

BGP 세션 연결 끊김

예상치 못하게 BGP 세션이 연결이 끊겨 앱 연결성과 사용자 경험에 영향을 미칠 수 있습니다.

BGP 세션이 5분 동안 다운되었거나 10분 내에 5회 이상의 짧은 연결 차단이 발생했습니다.

LAN 모니터링 - 호스트 도달 불가

사이트 뒤에 있는 모니터링된 호스트가 팝(PoP)에서 오는 유지 패킷에 응답하지 않으며, 도달할 수 없다고 간주됩니다.

호스트에 대해 구성된 LAN 모니터링 규칙이 필요합니다.

LAN 모니터링 도달 불가 이벤트 한 건

링크 품질 SLA

사이트의 링크 SLA 품질 임계값이 초과되었습니다. 이는 사용자 경험에 영향을 미칠 수 있습니다.

SLA 임계값은 품질 헬스 규칙에 대해 구성됩니다.

참고:

  • 링크의 혼잡 문제는 링크 품질 SLA 스토리에서 제외됩니다.

  • ILMM 고객의 경우, 지터와 지연 기반 스토리는 생성되지 않습니다.

품질 헬스 규칙 이벤트 한 건

소켓 HA 비준비 상태

소켓 고가용성(HA) 구성에 문제가 있으며, 상태가 비준비로 표시됩니다.

다음 소켓 HA 비준비 조건 중 하나가 발생한 경우:

  • 연결됨이 5분 동안 준비되지 않음

  • 유지가 60분 동안 준비되지 않음

  • 호환 버전이 60분 동안 준비되지 않음

  • 60분 동안 보조 소켓으로 페일오버

이 조건에 대한 자세한 내용은 소켓 HA란 무엇인가를 참조하십시오.

PoP 다시 연결하여 연결성 개선

사이트가 성능 최적화를 위해 강제로 PoP에 다시 연결되었습니다. PoP에 다시 연결하는 것은 사용자 경험에 영향을 미칠 수 있습니다.

이 메시지가 있는 다시 연결 이벤트 한 건:

성능 문제가 감지되어 카토 클라우드의 다른 서비스 노드에 다시 연결됨

이벤트 메시지 필드에 대한 자세한 내용은 소켓 연결성 이벤트 메시지 필드 이해하기를 참조하십시오.

LAN 포트 다운

LAN 포트 중 하나가 끊어짐

포트가 5분 동안 다운되었습니다.

대체 WAN 링크 다운

대체 WAN 링크 중 하나가 끊어짐 WAN 링크가 끊어짐

링크가 다운되었거나 채널 수가 0으로 떨어진 시간이 5분간 지속됨

소켓 업그레이드 후 오프라인

소켓이 새 버전으로 업그레이드 후 예상 시간 내에 터널을 재설정하지 않았습니다.

업그레이드 완료 예상 시간 후 소켓이 5분 동안 연결이 끊김

사이트 운영 스토리 라이프사이클 이해하기

사이트 운영 스토리는 스토리가 발생한 초기 문제부터 최종 해결까지 여러 단계를 거칩니다. 그러나 사이트 다운 스토리와 다른 유형의 이야기들의 라이프사이클은 약간 다릅니다. 이는 사이트 다운 스토리가 진행 중일 때 사이트에 대한 다른 스토리가 생성되지 않아 중복 스토리 생성이 방지되기 때문입니다.

예를 들어, 두 개의 WAN 링크가 있는 사이트가 다운되면, 각 WAN 링크에 대한 별도의 링크 다운 스토리 없이 단일 사이트 다운 스토리가 생성됩니다.

아래는 사이트 다운 스토리 및 다른 스토리 유형에 대한 잠재적 단계입니다:

  • 사이트 다운 스토리 라이프사이클의 단계:

    1. 열림 - 문제가 현재 진행 중이며 스토리가 생성됨

    2. 모니터링 - 문제가 해결된지 2시간이 지나지 않음

    3. 종결 - 문제가 해결된지 2시간이 지나면 스토리가 종결됨

  • 다른 스토리 유형의 라이프사이클 단계:

    1. 보류 중 - 문제가 진행 중이지만 사이트가 현재 다운되어 스토리가 생성되지 않음. 문제는 사이트 다운 스토리가 종결된 후 2분이 지나야 대기 상태를 벗어남

    2. 열림 - 문제가 현재 진행 중이며 스토리가 생성됨

    3. 모니터링 - 문제가 해결된지 2시간이 지나지 않음

    4. 종결 - 문제가 해결된지 2시간이 지나면 스토리가 종결됨

참고

참고: 사이트 운영 스토리는 다음과 같은 경우 자동으로 종결됩니다:

  • 30일 경과 – 문제가 다시 발생할 경우 신선한 추적을 보장하기 위해 종결됨

  • 스토리가 재확인 요구 – 사이트 운영 엔진이 스토리 재확인이 필요하다고 판단함. 엔진은 문제가 다시 발생하면 스토리를 검증하고 재개합니다

  • 구성 변경 – 스토리 내 엔터티(링크, 사이트, BGP 범위, 호스트)가 구성 업데이트로 더 이상 관련이 없음

예시 사용 사례

이것은 스토리 워크벤치를 사용하여 사이트 운영 네트워크 스토리를 식별하고 해결하는 관리자에 대한 예시 사용 사례입니다:

  • 스토리 워크벤치를 사이트별로 그룹화된 열려 있는 사이트 운영 스토리만 표시하도록 필터 설정함

  • 뉴욕 사이트에 대해 링크 다운이라는 지표가 포함된 높은 중요도 스토리를 식별함

  • 스토리의 드릴다운 페이지를 열고 스토리 데이터를 검토하여 사이트의 WAN 01 링크가 카토 클라우드에서 연결이 끊어진 것을 발견함

  • 문제를 조사하고 해결하기 위해 관련 플레이북을 검토함

  • 뉴욕 사이트의 물리적 소켓을 확인한 후 WAN 01 링크 케이블이 불량임을 발견함

  • 케이블을 교체하고 링크가 정상이고 연결되었음을 확인한 뒤 문제가 다시 발생할 가능성을 모니터링함

  • 문제가 다시 발생하지 않아 스토리가 두 시간 후 자동으로 종결됨

스토리 워크벤치 페이지 표시

스토리 워크벤치 페이지는 계정에 대한 XOps 스토리 요약을 보여줍니다.

스토리 워크벤치 페이지 보기:

  • 내비게이션 메뉴에서 Home > Stories Workbench를 클릭하십시오.

스토리 열 이해하기

Detection___Response_Workbench_w_Network.png

설명

ID

이 스토리에 대한 고유한 카토 ID

상태

사이트 운영 스토리의 상태는 스토리가 발생한 초기 문제부터 최종 해결까지 다양한 단계를 대표합니다. 사이트 운영 엔진은 네트워크 사건의 관련 변경 사항을 감지하면 상태를 자동으로 업데이트합니다. 다음은 상태 유형입니다:

  • 열린 - Site Operations 엔진이 네트워크 문제를 감지하여 스토리를 생성했습니다.

  • 모니터링 - Site Operations 엔진이 초기 문제가 해결되었음을 감지했으며, 2시간 동안 재발을 모니터링합니다. 재발이 감지되면 상태가 열린으로 변경됩니다.

  • 종결됨 - 모니터링 상태의 스토리는 2시간 동안 재발이 감지되지 않으면 종결됨으로 변경됩니다.

    참고

    참고: Site Operations 스토리만 자동으로 닫히고, 문제가 더 이상 발생하지 않은 지 120분 후에만 닫힙니다. XOps 보안 스토리는 자동으로 닫히지 않습니다.

생성됨

스토리의 첫 번째 트래픽 흐름 날짜

업데이트됨

스토리의 가장 최근 트래픽 흐름 날짜

위험 수준

  • 네트워크에 대한 문제의 잠재적 영향. 값은 1 (낮음)부터 10 (높음)까지입니다.

지표

  • 스토리에 대한 네트워크 문제의 지표

소스

  • 네트워크 문제가 발생하고 있는 사이트

발생 횟수

임시 해결 후 재발한 경우를 포함하여 문제가 발생한 횟수. 예를 들어, 링크가 반복적으로 연결이 끊어지고 다시 연결될 경우, 각 연결 끊김이 발생으로 간주됩니다.

엔진 유형

스토리를 생성한 엔진. Site Operations 스토리의 경우, 엔진은 Site Operations입니다.

스토리 그룹화

스토리를 검토할 때 맥락을 제공하기 위해 소스, 지표, 상태유형을 포함하는 세부 정보로 정의된 그룹으로 스토리를 표시할 수 있습니다. 예를 들어, 특정 소스 사이트와 관련된 모든 스토리 또는 링크 품질 SLA 스토리를 함께 표시할 수 있습니다. 이렇게 하면 스토리를 분석할 때 더 넓은 시야를 제공하고 문제를 더 빠르게 이해하고 해결하는 데 도움이 될 수 있습니다.

Site Operations 스토리의 경우, 소스는 네트워크 내 사이트입니다.

네트워크 스토리를 분석할 때는 소스로 그룹화하는 것이 베스트 프랙티스로 추천됩니다.

각 그룹은 해당 그룹의 스토리에 대한 중요도 수준을 강조 표시하며, 높은, 중간 및 낮은 중요도의 스토리 수를 포함합니다.

Stories_Workbench_Grouping.png

XDR 발견 사건에서 스토리를 그룹화하려면:

  1. 탐색 메뉴에서 홈 > XDR 발견 사건을 클릭합니다.

  2. 그룹 기준 드롭다운 메뉴에서 필요한 기준을 선택하십시오.

    스토리는 확장 가능한 그룹으로 표시됩니다.

스토리 필터링

XDR 발견 사건에서 데이터를 필터링하는 세 가지 방법이 있습니다.

  • 프리셋 필터 선택

  • 선택된 항목으로 자동으로 필터 업데이트

  • 필터 수동 구성

프리셋 필터

프리셋 필터를 선택하여 네트워크 운영 또는 보안 운영 스토리에 집중할 수 있습니다. 프리셋 필터를 선택하면 해당 유형의 스토리에 가장 관련성 있는 스토리 열이 기본적으로 표시됩니다.

프리셋 필터 선택:

  1. 필터 바에서 프리셋 선택 드롭다운 메뉴를 클릭합니다.

  2. 프리셋을 선택합니다. XDR 발견 사건이 프리셋에 일치하는 스토리를 표시하도록 업데이트됩니다.

항목 자동 필터링

필터 옵션이 있는 항목이나 필드 위에 마우스를 올리면 TD_Filter.png 버튼이 나타납니다. 아이콘을 클릭하여 필터 옵션을 표시합니다.

  • 필터에 추가 - 항목을 필터에 추가하면 XDR 발견 사건은 이제 이 항목을 포함한 스토리만을 표시합니다. 예를 들어, 특정 중요도 점수로 필터를 적용하면 페이지에는 해당 중요도가 있는 스토리만 표시됩니다.

  • 필터에서 제외 - 필터를 업데이트하여 이 항목을 제외하고, XDR 발견 사건은 이제 이 항목이 포함되지 않은 스토리만을 표시합니다.

필터에 항목을 계속 추가할 수 있으며, TD_Filter.png을 다시 클릭하여 필터를 업데이트하고 더 세분화할 수 있습니다.

시간 범위 선택

XDR 발견 사건의 기본 시간 범위는 이전 2일입니다. 더 긴 또는 짧은 기간을 보여주기 위해 다른 시간 범위를 선택할 수 있습니다. 자세한 내용은 시간 범위 필터 설정을 참조하십시오.

XDR 발견 사건의 최대 날짜 범위는 90일입니다.

필터 수동 구성

스토리를 더 자세히 분석하기 위해 스토리 필터를 수동으로 구성할 수 있습니다. 필터를 구성하면, 스토리 필터 바에 추가되고 페이지는 새로운 필터에 맞는 스토리를 표시하도록 자동으로 업데이트됩니다.

필터를 만들려면:

  1. 필터 막대에서 Add2.png를 클릭하십시오.

  2. 필드를 입력하거나 선택하십시오.

  3. 연산자를 선택하여 검색 중인 필드 사이의 관계를 결정합니다.

  4. 을 선택하십시오.

  5. 필터 추가를 클릭합니다. 필터가 필터 바에 추가되고, XDR 발견 사건은 필터에 따라 스토리를 표시하도록 업데이트됩니다.

필터 지우기

필터의 각 항목을 개별적으로 제거하거나 전체 필터를 지울 수 있습니다.

XDR 발견 사건 페이지의 필터를 지우려면:

  1. 단일 필터를 지우려면 해당 필터 옆에 있는 remove.png를 클릭하십시오.

  2. 모든 필터를 지우려면 필터 바 오른쪽 끝의 X를 클릭합니다.

스토리 드릴 다운 및 분석

XDR 발견 사건에서 스토리를 클릭하여 감지 및 대응 스토리 페이지에서 세부 정보를 조사할 수 있습니다. 이 페이지에는 Site Operations 엔진이 식별한 잠재적 문제를 평가하는 데 도움이 되는 여러 위젯이 포함되어 있습니다.

플레이북을 사용한 스토리 조사

XDR 발견 사건 드릴 다운에는 문제를 조사하고, 문제를 해결하기 위한 단계를 제공하는 플레이북에 대한 링크가 포함되어 있습니다. 각 Site Operations 스토리는 스토리의 특정 지표에 대한 플레이북에 연결됩니다. 예를 들어, 소켓 HA 준비되지 않음 상태 지표가 있는 스토리를 위한 플레이북입니다.

AI 스토리 요약 생성

XDR 발견 사건 드릴 다운에는 AI가 생성한 자연 언어 스토리 설명을 생성하여 풍부한 맥락을 제공하고 스토리를 빠르게 평가하는 도구가 포함되어 있습니다. 스토리 요약은 스토리의 현재 상태를 반영하도록 동적으로 생성됩니다. 스토리가 새로운 정보로 업데이트되면 변경 사항을 반영하기 위해 요약을 다시 생성할 수 있습니다.

AI 스토리 요약 생성에 대한 자세한 내용은 아래를 참조하십시오.

  • AI 스토리 요약은 관리자에 의해 필요한 경우에만 생성됩니다.

민감한 데이터 보호를 위한 토큰화

스토리 데이터를 타사 AI 서비스로 전송하는 동안의 강력한 데이터 보안을 위해, Cato는 모든 민감한 데이터가 Cato XOps 플랫폼 내에 남아 있도록 토큰화를 사용합니다. 이는 민감한 정보를 고유한 식별자 또는 "토큰"으로 대체하여 데이터가 비승인된 엔터티에게 무의미하도록 만드는 것입니다. 민감한 데이터는 절대 타사 서비스에 노출되지 않습니다. 이 접근 방식은 스토리의 세부 정보를 보호하며, 당사의 견고한 데이터 개인정보 보호 및 보안 표준에 맞춰 기밀성을 보장합니다.

참고

참고: 생성 AI의 한계로 인해 스토리 요약에서 제공되는 정보는 때때로 부정확할 수 있습니다.

스토리 드릴 다운 위젯 이해

Detection___Response_Network_callouts.png

다음은 스토리 드릴 다운 위젯입니다.

항목

이름

설명

1

스토리 요약

스토리에 대한 기본 정보를 요약합니다. 여기에는 다음이 포함됩니다.

  • 스토리 유형

  • 스토리와 관련된 사이트 이름

  • 스토리의 위험 수준

  • 문제가 발생한 횟수

  • 스토리가 생성된 후 경과 일수

  • 스토리의 현재 상태

2

스토리 타임라인

스토리 상태의 변화 타임라인을 보여줍니다.

3

스토리 세부 정보

스토리를 분석하기 위한 기본 정보로, 스토리 설명, 언제 생성되고 새로운 관련 네트워크 사건으로 업데이트되었는지, 그리고 사이트에 대한 정보가 포함되어 있습니다.

  • AI 요약 생성을 클릭하여 풍부한 컨텍스트를 제공하는 자연어 스토리 설명서를 생성하고 스토리를 빠르게 평가할 수 있습니다.

  • Playbook KB 문서 링크를 클릭하여 이 유형의 스토리를 해결하고 문제를 해결하는 방법을 설명하는 플레이북을 엽니다.

4

현재 사이트 개요

스토리에 영향을 받은 네트워크의 사이트에 관한 정보. 위젯에는 최근 연결 로그를 확인할 수 있는 링크와 사이트 설정 및 사이트 모니터링 페이지로의 바로 가기 드롭다운 메뉴가 포함되어 있습니다. 이 위젯은 토폴로지 페이지의 사이트 정보 패널과 동일합니다.

5

사고 타임라인

스토리에서 이슈와 해결에 대해 감지된 사건의 목록입니다. 예를 들어, 링크가 다운됨 스토리의 사건 타임라인에는 다음과 같은 사건이 포함됩니다:

  • WAN1 기본 소켓의 활성 링크 - Cato 클라우드에서 연결 해제됨

  • WAN1 기본 소켓의 활성 링크 - Cato 클라우드에 성공적으로 재연결됨

  • 120분 후 문제가 더 이상 발생하지 않았으며, 스토리 상태가 모니터링에서 종료로 변경되었습니다.

    참고

    참고: 사이트 운영 스토리만 자동으로 종료되며, 문제 해결 후 120분 후에만 가능합니다. XOps 보안 스토리는 자동으로 닫히지 않습니다.

사건 타임라인에 있는 열들은 다음과 같습니다:

  • 생성됨 - 사건이 처음 감지된 시기

  • 확인됨 - 생성된 사건이 확인된 시기

  • 사건의 설명

  • 이벤트 - 사건에 대해 미리 필터링된 이벤트 페이지로의 링크

사이트 운영 스토리에 대한 대응 정책 사용

Detection___Response_Network_Response_Policy.png

XOps 대응 정책은 스토리에 대한 이메일 알림이 관리자에게 전송되는 시점을 정의하여 XOps 스토리를 모니터링하는 데 도움이 됩니다. 알림이 전송될 스토리 기준을 정의하는 규칙을 생성할 수 있으며, 어떤 관리자가 알림을 받을지 구성하기 위해 메일링 리스트를 사용할 수 있습니다. 예를 들어, 높은 중요도의 사이트 운영 스토리에 대한 알림을 보내고, 도움 데스크 이메일 주소를 포함하여 지원 티켓을 자동으로 열도록 메일링 리스트를 정의하는 규칙을 생성할 수 있습니다.

대응 정책 규칙 생성에 대한 자세한 내용은 XOps 스토리에 대한 대응 정책 생성을 참조하세요.

도움이 되었습니까?

0명 중 0명이 도움이 되었다고 했습니다.

댓글 0개