Стек наблюдаемости в MWS Container Platform

Обзор архитектуры наблюдаемости

MWS Container Platform (MWS CP) построен как полностью облачное решение для оркестрации контейнеров, где каждый слой инфраструктуры снабжен механизмами наблюдаемости. Стек наблюдаемости объединяет три фундаментальных измерения: метрики, логи и трассировки. Вместе они позволяют получить целостную картину состояния кластера, выявлять аномалии в реальном времени и проводить глубокий пост‑мортем анализ инцидентов. В MWS CP эти измерения интегрированы через единый набор компонентов, построенных на открытых проектах: Prometheus, Grafana, Loki, Jaeger и OpenTelemetry. Взаимодействие происходит по стандартным протоколам (Prometheus exposition format, OTLP, Loki API), что упрощает расширение стека и подключение сторонних систем.

Сбор и хранение метрик

Prometheus‑оператор

Для сбора метрик в кластере используется Prometheus‑оператор, который автоматизирует развёртывание и масштабирование экземпляров Prometheus. Оператор следит за конфигурацией ServiceMonitor и PodMonitor объектов, позволяя динамически добавлять новые точки сбора без изменения базовой конфигурации. Метрики собираются с помощью exporter‑ов: kube‑state‑metrics, node‑exporter, cAdvisor и специализированных exporters для баз данных, очередей и бизнес‑логики.

Хранилище и ретеншн

Все метрики сохраняются в TSDB (time‑series database) Prometheus, где по умолчанию настроен ретеншн 30 дней. Для долгосрочного архивирования используется Cortex, позволяющий масштабировать хранение до нескольких терабайт и поддерживать многокластерные запросы. С помощью Thanos можно построить глобальный слой агрегации, объединяя метрики из разных регионов MWS CP.

Визуализация в Grafana

Grafana служит единой точкой доступа к метрикам. Платформенная панель предоставляет готовый набор дашбордов: нагрузка CPU/Memory, статус pod‑ов, latency сервисов, utilisation сетевых ресурсов. Пользователи могут создавать кастомные графики, используя PromQL‑запросы, а также настраивать алерты через Alertmanager, который интегрирован в стек.

Логирование и анализ

Loki как лог‑хранилище

Для централизации логов выбран Loki – легковесный агрегатор, совместимый с Prometheus‑подобным подходом к меткам. Каждый лог‑поток помечается теми же метками, что и метрики (namespace, pod, container), что упрощает корреляцию данных. Loki хранит только индексы, а сами логи находятся в объектном хранилище (S3‑совместимом), что снижает стоимость.

Fluent Bit и Fluentd

Сбор логов реализуется при помощи Fluent Bit, работающего как DaemonSet на каждом узле. Он читает stdout/stderr контейнеров и отправляет сообщения в Loki через HTTP. При необходимости можно добавить Fluentd для более сложных трансформаций (парсинг JSON, добавление пользовательских полей) перед отправкой в Loki.

Поиск и корреляция

Grafana Loki предоставляет UI‑поиск с поддержкой LogQL – языка запросов, позволяющего фильтровать строки, агрегировать их и выполнять join‑операции с метриками. Это делает возможным построение сценариев, где, к примеру, рост количества 5xx‑ответов в метриках сразу же приводит к поиску соответствующих записей в логах.

Трассировка запросов

Jaeger и OpenTelemetry Collector

Трассировка реализуется через Jaeger, развернутый в виде StatefulSet с поддержкой репликации. Инструменты в кластере (sidecar‑контейнеры, SDK‑библиотеки) отправляют спаны в OpenTelemetry Collector, который маршрутизирует их в Jaeger. Collector также может дублировать данные в Zipkin или в облачные APM‑решения.

Инструменты разработки

Для микросервисов, написанных на Go, Java, Python и Node.js, предоставляются готовые SDK от OpenTelemetry. Они автоматически захватывают контекст запросов, измеряют latency, собирают атрибуты (HTTP‑method, URL, статус) и передают их в Collector. В случае использования gRPC или Kafka трассировка сохраняет цепочку вызовов через несколько сервисов, позволяя визуализировать полные пути запросов в Jaeger UI.

Интеграция с OpenTelemetry

OpenTelemetry выступает в роли унифицированного слоя, объединяющего метрики, логи и трассировки. В MWS CP Collector настроен с несколькими receivers (OTLP, Jaeger, Prometheus), processors (batch, memory_limiter) и exporters (Prometheus, Loki, Jaeger). Это позволяет добавить новые источники данных без изменения инфраструктуры: достаточно запустить sidecar‑контейнер с OTLP‑exporter в pod‑е.

Практические сценарии обнаружения проблем

1. Перегрузка узла

Метрики node‑exporter фиксируют рост использования CPU > 90 % и памяти > 80 % на отдельном узле. Алёрт в Alertmanager срабатывает, открывая тикет в системе управления инцидентами. Одновременно в Grafana Loki выполняется запрос по метке node=worker-01, выводя последние логи kubelet, где видно сообщения о OOM‑kill. Это позволяет быстро локализовать проблему и выполнить миграцию pod‑ов на менее нагруженный узел.

2. Ошибки в микросервисе

Метрика http_requests_total{status=~"5.."} резко возрастает для сервиса order-service. По правилу в Alertmanager автоматически открывается дашборд с графиком latency и количеством ошибок. Через LogQL ищутся строки, содержащие order-service и ERROR, получаем стек‑трейсы, указывающие на исключение NullPointerException. Параллельно в Jaeger отображается рост времени обработки запросов, что подтверждает узкое место в базе данных. Инженер может сразу перейти к исправлению кода и перезапуску реплики.

3. Проблемы с сетевым взаимодействием

Метрика network_receive_bytes_total показывает падение трафика между namespace frontend и backend. При этом в Loki находятся логи CNI‑плагина с ошибкой Failed to allocate IP address. Jaeger визуализирует цепочку запросов, где запросы от фронтенда «зависают» на этапе обращения к backend‑API. Команда сетевого администрирования проверяет конфигурацию Calico, восстанавливает IP‑пул и наблюдает, как метрики и трассировки возвращаются к норме.

4. Долгие GC паузы в Java‑сервисе

Prometheus собирает метрику jvm_gc_pause_seconds_sum. При превышении порога в 2 секунды алерт активируется. Loki ищет логи GC, где видны сообщения о Full GC. Jaeger показывает, что запросы к сервису блокируются именно в эти интервалы. На основе полученных данных команда увеличивает размер heap и настраивает G1‑GC, после чего наблюдается стабилизация метрик.

Автоматизация реакций

Все алерты в Alertmanager могут быть связаны с webhook‑ами, вызывающими скрипты автоскейлинга: добавление новых worker‑узлов, перезапуск pod‑ов, изменение лимитов ресурсов. Кроме того, через Grafana Mimir можно хранить исторические данные и применять машинное обучение (Grafana Loki ML) для предиктивного обнаружения аномалий, что уменьшает количество ложных срабатываний.

Стек наблюдаемости в MWS Container Platform предоставляет полную видимость внутреннего состояния кластера, позволяя инженерам быстро диагностировать и устранять инциденты. Единый подход к метрикам, логам и трассировкам, построенный на открытых стандартах, обеспечивает гибкость, масштабируемость и готовность к будущим интеграциям.