Обзор
Это руководство предоставляет подробную структуру для устранения общих проблем, возникающих при развертывании AWS vSocket с высокой доступностью (HA). Независимо от того, выполняется ли развертывание вручную или через AWS Marketplace, эти шаги направлены на эффективное выявление и решение потенциальных проблем.
Симптомы
Общие проблемы в развертываниях AWS vSocket HA могут включать:
-
Сбой переключения HA
- Неудачные тесты HA API из Веб-интерфейса сокета.
- Сбой переключения HA, в результате чего трафик не перенаправляется на вторичный vSocket.
-
HA Статус Не Готов
- CMA отображает статус HA площадки как "Не Готов"
Возможные причины
Сбои развертывания HA часто связаны со следующими причинами:
- Использование непубличного DNS в AWS.
- Управляющий интерфейс лишен доступа в Интернет.
- Ошибка конфигурации роли IAM.
- Ограниченные настройки Группы администраторов и Маршрутизации в AWS.
- Сбой при назначении соответствующего сетевого интерфейса таблице маршрутизации ЛВС.
- Проблемы с подключением ЛВС.
Устранение проблем с вопросом
Важно
ВАЖНО: Перед началом устранения неполадок убедитесь, что все предварительные условия для развертывания AWS HA vSocket проверены. См. Ручная настройка площадки AWS vSocket, Развертывание площадки vSocket из AWS Marketplace и Настройка HA для AWS vSockets
Устранение неполадок в случае сбоя переключения HA
Если трафик не направляется на вторичный vSocket во время переключения, рассмотрите следующие шаги для устранения неполадок:
Запуск Теста API HA
- Из Веб-интерфейса сокета запустите инструмент теста API для обоих vSocket.
- Этот инструмент проверяет, что вызов API к AWS может быть выполнен успешно.
- Здесь можно увидеть любые ошибки, связанные с разрешениями или обновлениями таблицы маршрутизации.
Проверка конфигурации DNS AWS
- Убедитесь, что по умолчанию AWS DNS сервер настроен для связанного VPC.
- Чтобы проверить конфигурацию DNS AWS, см. Устранение проблем с конфигурацией DNS
- Если настроен пользовательский DNS-сервер (например, частный DNS-сервер), убедитесь, что он может разрешать общедоступные домены. Убедитесь, что он может разрешать полное доменное имя (FQDN) ec2.<region>.amazonaws.com (например, ec2.us-east-1.amazonaws.com), которое используется API.
- Группа администраторов, ассоциированная с интерфейсом управления, должна разрешать DNS-запросы на 8.8.8.8 и 8.8.4.4, даже если сервер DNS AWS по умолчанию настроен.
Проверка Таблицы маршрутизации ЛВС
- Для маршрутизации трафика на главный vSocket, AWS назначает текущий сетевой интерфейс ЛВС главного vSocket таблице маршрутизации ЛВС.
- Перейдите в VPC > Таблицы маршрутизации и выберите таблицу маршрутизации ЛВС. На вкладке Маршруты, убедитесь, что сетевой интерфейс ЛВС главного vSocket является шлюзом (целью) маршрута по умолчанию. Если нет, продолжайте с последующими шагами.
- Учтите, что ручная модификация таблицы маршрутизации ЛВС может быть быстрой временной мерой, если целевой сетевой интерфейс не был изменен во время переключения на резервный канал.
Проверка Роли IAM
- Во время развертывания AWS vSocket, HA Роль IAM создается и привязывается к обоим, основному и вторичному, vSocket.
- На странице Сведения каждого экземпляра, подтвердите, что назначена правильная Роль IAM.
- Нажмите на ссылку роли IAM и на вкладке разрешений убедитесь, что политика IAM содержит правильное утверждение, как показано ниже.
Примечание: В случае отсутствующей роли IAM, после добавления роли необходимо перезагрузить сокеты, чтобы добавленные роли вступили в силу.
Проверка настроек IMDS
- Убедитесь, что оба vSocket используют соответствующие настройки IMDS (по желанию или обязательно). Для получения дополнительной информации смотрите документацию AWS.
- Начиная с версии сборки vSocket 20.0.18221, поддерживается IMDSv2.
- Чтобы изменить настройки IMDS, выберите экземпляр и в разделе действий нажмите Настройки экземпляра > Изменить параметры метаданных экземпляра.
Проверка группы безопасности сети.
- Убедитесь, что группа безопасности сети не блокирует исходящий трафик к интерфейсу управления.
-
В разделе EC2 > Сетевые интерфейсы найдите группу безопасности, связанную с интерфейсом управления.
-
Убедитесь, что исходящие правила группы безопасности разрешают порты 80, 443 и 53. В данном случае весь исходящий трафик разрешен.
Проверка маршрутизации интерфейса управления для интернет-трафика.
- Если трафик интерфейса управления маршрутизируется через сторонний файервол в AWS, проверьте, разрешены ли исходящие подключения UDP/53, TCP/80 и TCP/443.
-
На странице сетевого интерфейса, нажмите на ID подсети интерфейса управления.
-
На странице подсети выберите вкладку Таблица маршрутизации. На скриншоте ниже показан маршрут по умолчанию, который указывает на интернет-шлюз, так что файервол не блокирует трафик.
- Откройте соответствующую таблицу маршрутизации и проверьте, что все подсети управления указаны как связанные подсети. В случае с двумя зонами доступности будут существовать две подсети управления, по одной на каждый vSocket, как объясняется в создании подсети для вторичных интерфейсов LAN vSocket.
- На вкладке карты ресурсов VPC все связанные подсети и их маршрутизационные конфигурации визуально представлены для удобства.
- Подтвердите, что эластичный IP связан с интерфейсом управления. Это можно увидеть на вкладке сети экземпляра. Интерфейс управления можно идентифицировать по его индексу устройства 0. Интерфейсы WAN и LAN должны быть связаны с индексами устройства 1 и 2, соответственно.
Проверка журналов CloudTrail
- Включите AWS CloudTrail для записи API вызовов с AWS для отладки неудачных изменений таблицы маршрутизации LAN во время отказа HA.
- Вы можете следовать процессу создания следа, определения S3 bucket для хранения журналов и выбора управленческих событий, включающих активность API. Смотрите создание следа.
Устранение неисправностей статуса HA Не готово
Если CMA показывает, что статус HA Не готово и оба vSocket работают, оба vSocket будут заняты как роль Основного (сценарий разделения мозга). Это может произойти по следующим причинам:
- Оба vSocket работают на разных версиях прошивки
- Сообщения Keepalive HA не достигают вторичного vSocket
Рекомендуется проверить страницы WebUI обоих vSocket, чтобы подтвердить статус HA каждого из них. Сценарий разделения мозга проявится, если как первичный, так и вторичный vSocket находятся в роли Основного. WebUI покажет текущую роль в верхней части главной страницы Мониторинга.
Проверка версий прошивки
Для соответствия критериям совместимой версии, оба vSocket должны работать на одной и той же ОСНОВНОЙ версии, например, v17.xx.yy или v18.xx.yy. vSocket выполняют первоначальное обновление после первого развертывания. Если один из vSocket не удается обновить, необходимо устранить эту проблему. Отправьте тикет поддержки, чтобы сообщить об этой проблеме.
Проверка HA Keepalives
Пакеты Keepalive используют порт UDP/20480 для AWS vSocket и будут отправлены только от Основного vSocket к Резервному vSocket. Состояние разделенного мозга возникает, когда обе vSocket имеют роль Главного, что может произойти из-за проблем с ЛВС соединением между vSocket, которые создают ситуацию, при которой сообщения поддержки активности HA не доходят до вторичного vSocket.
Выполните следующие проверки, чтобы подтвердить соединение ЛВС:
- Проверьте, блокирует ли Группа безопасности сети порт UDP/20480. Быстрый способ проверить правила NSG – перейти к каждому сетевому интерфейсу ЛВС в AWS и проверить входящие и исходящие правила, как объяснено в Проверьте, блокирует ли группа безопасности сети исходящий трафик.
- Подтвердите, что оба интерфейса ЛВС ассоциированы с разными подсетями ЛВС.
- Выполните захват пакетов из WebUI обоих vSocket и определите, получает ли вторичный vSocket сообщения поддержки активности, отправленные основным.
Решение обнаруженных проблем
Устранение проблем с настройкой DNS
- Чтобы устранить проблемы с настройкой DNS, проверьте, что сервер DNS по умолчанию AWS настроен для VPC.
- В разделе Подробности VPC найдите набор опций DHCP, настроенный для него.
- Откройте набор опций DHCP и убедитесь, что определенный доменный имя сервер — это AmazonProvidedDNS.
- Невозможно изменить существующие доменные имя сервера. Для этого создайте новый набор опций DHCP, который будет использовать AmazonProvidedDNS по умолчанию.
Отменить регистрацию и повторное развертывание AWS vSocket
- Если после выполнения всех вышеприведенных шагов устранения неполадок отказ перехода HA продолжает происходить, возможно, отмените регистрацию и разверните один или оба vSocket. См. Развертывание площадок vSocket с высокой доступностью
- Важно удалить Виртуальную Машину, но сохранить сетевые интерфейсы, связанные публичные IP-адреса и роль IAM перед повторным развертыванием vSocket.
- Кроме того, не забудьте повторно прикрепить правильную роль IAM к vSocket, выбрав экземпляр vSocket > Безопасность > Прикрепить роль IAM и назначив роль AWS-HA.
Поднятие кейсов к Поддержке Cato
Отправьте Тикет в Поддержку с результатами вышеприведенных шагов устранения неисправностей. Пожалуйста, включите следующую информацию в тикет:
- Четкое описание проблемы, включая любые сообщения об ошибках.
- Конфигурация DNS в VPC.
- Результаты тестов API.
- Скриншоты таблицы маршрутизации LAN и настроенных ролей IAM.
- Если возможно, файлы журнала CloudTrail на момент сбоя переключения отказа.
0 комментариев
Войдите в службу, чтобы оставить комментарий.