Practical LLM Inference Scheduling on Kubernetes

{ "title": "Оптимизация вычислений LLM на Kubernetes с помощью приоритизации и времени среза GPU", "content": "## Оптимизация затрат на вычисления LLM

В данной статье рассматривается практический подход к организации вычислений больших языковых моделей (LLM) на платформе Kubernetes. Мы покажем, как можно снизить затраты на использование графических процессоров (GPU), применяя приоритетные очереди и технику времени среза GPU от компании NVIDIA.

Что мы создаем?

К концу данного руководства вы получите трехуровневую архитектуру планирования задач для смешанных запросов LLM с различными приоритетами. Архитектура включает интеграцию NVIDIA Multi-Process Service (MPS) для эффективного использования GPU, настройку классов приоритетов (PriorityClasses) для управления вытеснением контейнеров и создание пользовательской системы приоритетов на уровне приложения. Эти меры позволили команде сократить расходы на вычислительные ресурсы с $52,000 до $16,000 за месяц при использовании кластера с восемью ускорителями A100.

Необходимые предварительные условия

Для выполнения описанного подхода вам потребуется:

Кластер Kubernetes с узлами, оснащенными GPU (например, A100 или аналогичными моделями);
Установленный плагин устройства NVIDIA для Kubernetes;
Базовое понимание принципов работы Kubernetes, включая классы приоритетов и управление ресурсами.

Шаг 1: Настройка NVIDIA MPS для времени среза GPU

Первым шагом является настройка минимального окружения для реализации техники времени среза GPU. Большинство команд работают с GPU, выделенным исключительно под их задачи, что приводит к низкой эффективности использования ресурсов. NVIDIA MPS позволяет нескольким контейнерам совместно использовать один физический GPU, обеспечивая справедливое распределение вычислительных мощностей между ними.

Вот пример конфигурации ConfigMap, который необходимо применить к плагину устройств NVIDIA:

yaml nvidia-device-plugin version: v1 sharing: timeSlicing: true resources:

name: nvidia.com/gpu replicas: 4

Эта конфигурация создает четыре виртуальных GPU на каждом физическом устройстве. Каждый виртуальный GPU получает равный доступ к ресурсам физического GPU, а переключение контекста осуществляется аппаратно через механизм MPS, что значительно эффективнее традиционного контейнерного уровня времени среза.

Заключение

Использование предложенной архитектуры позволяет эффективно распределять вычислительные мощности между задачами различных типов, снижая общие эксплуатационные расходы и повышая производительность инфраструктуры."

"excerpt": "Статья описывает практическую реализацию оптимизации вычислений LLM на Kubernetes с использованием NVIDIA MPS и приоритетных очередей, позволяющую снизить затраты на GPU до 70%.", "metaTitle": "Оптимизация вычислений LLM на Kubernetes: снижение расходов на GPU до 70%", "metaDescription": "Практическое руководство по использованию NVIDIA MPS и приоритетных очередей для снижения затрат на вычисления LLM на Kubernetes.", "tags": [ "Kubernetes", "Cloud", "DevOps", "Architecture" ], "category": "DevOps" }

Необходимые предварительные условия

Для выполнения описанного подхода вам потребуется:

Кластер Kubernetes с узлами, оснащенными GPU (например, A100 или аналогичными моделями);

Установленный плагин устройства NVIDIA для Kubernetes;

Базовое понимание принципов работы Kubernetes, включая классы приоритетов и управление ресурсами.

Шаг 1: Настройка NVIDIA MPS для времени среза GPU

Вот пример конфигурации ConfigMap, который необходимо применить к плагину устройств NVIDIA:

yaml nvidia-device-plugin version: v1 sharing: timeSlicing: true resources:

name: nvidia.com/gpu replicas: 4

Заключение