Распределённая обработка моделей в Kubernetes с помощью LLM-D

Что такое LLM-D?

LLM-D представляет собой распределённую систему инференции моделей машинного обучения, оптимизированную под работу в среде Kubernetes. Проект был недавно представлен как экспериментальный проект фонда CNCF и поддерживается такими крупными компаниями, как Google Cloud, Red Hat, IBM, NVIDIA, CoreWeave, AMD, Cisco, Hugging Face, Intel, Lambda и Mistral AI.

Зачем нужен LLM-D?

Основная проблема, которую решает LLM-D, связана с кэшированием данных при обработке запросов пользователей. Например, если один пользователь отправляет запрос с длинным системным подсказом, а затем приходит другой пользователь со своим запросом, система может вытеснить данные первого пользователя из быстрой памяти (HBM) в более медленную память (DRAM). Когда первый пользователь снова обращается за результатом, его запрос обрабатывается значительно дольше, так как данные приходится извлекать из медленной памяти. Это приводит к резкому увеличению задержки обработки запроса (latency).

Как работает LLM-D?

LLM-D устраняет эту проблему путём оптимизации распределения ресурсов между контейнерами Kubernetes. Вместо того чтобы выделять каждому запросу отдельный контейнер («один-контейнер-на-запрос»), LLM-D распределяет запросы таким образом, что наиболее часто используемые данные остаются в быстрой памяти, минимизируя задержку обработки запросов.

В результате производительность системы повышается до 25–70%, а стоимость обработки одного миллиона токенов снижается примерно в десять раз – с $3 до всего лишь $0.3.

Kubernetes-Native Распределённая Инференция от LLM-D

Что такое LLM-D?

Зачем нужен LLM-D?

Как работает LLM-D?

Рекомендации по использованию