Что такое LLM-D?
LLM-D представляет собой распределённую систему инференции моделей машинного обучения, оптимизированную под работу в среде Kubernetes. Проект был недавно представлен как экспериментальный проект фонда CNCF и поддерживается такими крупными компаниями, как Google Cloud, Red Hat, IBM, NVIDIA, CoreWeave, AMD, Cisco, Hugging Face, Intel, Lambda и Mistral AI.
Зачем нужен LLM-D?
Основная проблема, которую решает LLM-D, связана с кэшированием данных при обработке запросов пользователей. Например, если один пользователь отправляет запрос с длинным системным подсказом, а затем приходит другой пользователь со своим запросом, система может вытеснить данные первого пользователя из быстрой памяти (HBM) в более медленную память (DRAM). Когда первый пользователь снова обращается за результатом, его запрос обрабатывается значительно дольше, так как данные приходится извлекать из медленной памяти. Это приводит к резкому увеличению задержки обработки запроса (latency).
Как работает LLM-D?
LLM-D устраняет эту проблему путём оптимизации распределения ресурсов между контейнерами Kubernetes. Вместо того чтобы выделять каждому запросу отдельный контейнер («один-контейнер-на-запрос»), LLM-D распределяет запросы таким образом, что наиболее часто используемые данные остаются в быстрой памяти, минимизируя задержку обработки запросов.
В результате производительность системы повышается до 25–70%, а стоимость обработки одного миллиона токенов снижается примерно в десять раз – с $3 до всего лишь $0.3.
Рекомендации по использованию
Если вы используете масштабируемые модели машинного обучения с длинными общими префиксами (например, чат-боты поддержки клиентов или юридические вопросы и ответы), то внедрение LLM-D позволит вам существенно повысить эффективность работы вашей инфраструктуры. Однако, если ваши рабочие нагрузки состоят преимущественно из уникальных запросов, использование LLM-D не даст значительного выигрыша, поскольку затраты на перераспределение ресурсов могут превысить выгоды.