Запускаем LLM на AMD RX580 через ROCm и Ollama

Введение в проблему

Запуск крупномасштабных моделей языковых моделей (LLM) на домашней видеокарте может быть серьезной проблемой. Одна из таких проблем — запуск LLM на AMD RX580 через ROCm и Ollama в Kubernetes.尽管 видеокарта определялась, VRAM занималась, а контейнеры запускались, inference падал с ошибками hipMemGetInfo или выдавал бессмысленный текст.

Диагностика проблемы

Для диагностики реального GPU compute, а не просто VRAM usage, необходимо использовать специальные инструменты. Один из таких инструментов — Vulkan. Vulkan помог найти root cause проблемы. Оказалось, что версии ROCm и kernel играют решающую роль в стабильной работе LLM на GPU.

Решение проблемы

Для достижения стабильной генерации ~42 tokens/sec на RX580 необходимо использовать правильные версии ROCm и kernel. После нескольких дней борьбы были найдены рабочие версии, и inference стал работать стабильно. Оказалось, что правильная настройка环境а и использование нужных версий软件 играют решающую роль в успешном запуске LLM на домашней видеокарте.

Технические детали

Для тех, кто интересуется техническими деталями, можно отметить, что процесс запуска LLM на RX580 включал в себя несколько этапов. Сначала необходимо было настроить ROCm и Ollama в Kubernetes. Затем необходимо было диагностировать проблему с помощью Vulkan. После этого необходимо было найти рабочие версии ROCm и kernel. Наконец, после нескольких дней борьбы, inference стал работать стабильно, генерируя ~42 tokens/sec на RX580.

Практические выводы

Запуск LLM на домашней видеокарте может быть серьезной проблемой, но она решаема. Для этого необходимо использовать правильные инструменты, такие как Vulkan, и найти рабочие версии ROCm и kernel. Кроме того, правильная настройка окружения и использование нужных версий программного обеспечения играют решающую роль в успешном запуске LLM на GPU. Таким образом, с помощью терпения и правильного подхода можно добиться стабильной генерации текста на домашней видеокарте.

Реальный GPU Inference: Запуск LLM на AMD RX580

Введение в проблему

Диагностика проблемы

Решение проблемы

Технические детали

Практические выводы