Создаем Telegram-бота с Ollama: текст, игры, карти

Выбор локального решения и базовая архитектура

Для создания интерактивного Telegram‑бота, способного генерировать ответы в реальном времени, был выбран стек Python + python‑telegram‑bot + Ollama. Ollama — открытая платформа, предоставляющая готовые модели большого размера (LLM) и возможность их локального запуска без подписки и ограничений API. Это избавило от необходимости платить за облачные сервисы и дало полный контроль над параметрами модели.

Бот построен по классической схеме: основной процесс запускает клиент Telegram, получает обновления (сообщения, команды) и передаёт их в локальный inference‑сервер Ollama через HTTP‑интерфейс. Ответ от модели возвращается в виде JSON, из которого извлекается текст и отправляется обратно пользователю. Такая архитектура позволяет поддерживать асинхронную обработку запросов и легко масштабировать отдельные модули без изменения ядра.

Подбор моделей под конкретное железо

Аппаратная конфигурация – GPU RTX 3070 и 32 ГБ RAM – определила набор используемых моделей. Для большинства диалоговых задач была выбрана Mistral‑7B‑Instruct, которая вмещается в ~12 ГБ видеопамяти и демонстрирует хорошую скорость генерации. Для более «творческих» запросов (описание сцен, генерация кода) использовалась Llama‑2‑13B‑Chat, требующая ~20 ГБ VRAM, что позволило задействовать оставшуюся часть видеопамяти без перегрузки.

В начале проекта был реализован простой переключатель модели: пользователь отправляет команду /model <name>, и бот сохраняет выбранный идентификатор в базе SQLite. При последующих запросах используется именно эта модель, что даёт гибкость без перезапуска сервиса.

Обеспечение стабильности при ограниченных ресурсах

Главным узким местом оказался отсутствие выделенного сервера – бот работает только на домашнем компьютере, который одновременно обслуживает графику, браузеры и другие задачи. Чтобы избежать падений, была введена очередь запросов с ограничением в 3 параллельных инференса. Очередь реализована через asyncio.Queue, а каждый запрос оборачивается в asyncio.Semaphore, гарантирующую, что одновременно запущено не более заданного количества процессов.

Для экономии оперативной памяти включён режим "offload to CPU" в Ollama, позволяющий выгружать часть весов модели в RAM, когда GPU перегружен. Это уменьшило пик потребления RAM до 24 ГБ, оставив запас для операционной системы.

Расширение функционала: мини‑игры и генерация изображений

После стабилизации базового диалога в бот были добавлены два новых направления:

Мини‑игры – реализованы простые текстовые квесты и викторины. Каждая игра хранит своё состояние в базе и использует LLM для динамического построения сценариев. Например, команда /adventure запускает интерактивный квест, где модель генерирует описания локаций и реакции на действия игрока. Благодаря локальному inference время отклика не превышает 1 секунды, что делает игру плавной.
Генерация изображений – интегрирован открытый сервис Stable Diffusion через локальный API. Пользователь отправляет запрос /draw <prompt>, бот передаёт текстовый промпт в модель Diffusion, получает PNG‑файл и отправляет его в чат. Для снижения нагрузки используется токен‑кеш: если запрос повторяется, бот отдаёт уже сгенерированное изображение из кэша, экономя GPU‑циклы.

Управление версиями и обновлениями

Ollama поддерживает многоуровневое обновление моделей: новые версии скачиваются в виде отдельных файлов, а старые остаются доступными для отката. В боте реализован механизм автопроверки версии модели каждую ночь. При обнаружении новой версии автоматически создаётся резервная копия текущего конфигурационного файла и переключается на обновлённый образ. Это позволяет экспериментировать с новыми возможностями без риска нарушения текущего сервиса.

Для контроля изменений в коде применяется Git с ветвлением feature/* для каждой новой функции (игры, генерация изображений, переключатель модели). CI‑скрипты проверяют наличие конфликтов зависимостей и запускают тесты нагрузки перед слиянием в main.

Практические рекомендации для самостоятельного развертывания

Выделить отдельный виртуальный окружение (venv или conda) и зафиксировать версии библиотек (python-telegram-bot==20.5, requests==2.31.0).
Настроить Ollama с параметром --max-context 4096, чтобы обеспечить достаточный контекст при диалогах.
При работе без постоянного доступа к интернету рекомендуется кешировать токены и ответы, используя SQLite или Redis.
Для стабильной работы с изображениями следует ограничить размер генерируемых картинок (например, 512×512) и задавать num_inference_steps=20, чтобы сократить время генерации.
Мониторинг нагрузки реализовать через psutil и отправлять предупреждения в отдельный чат администраторов, если использование GPU превышает 90 %.

Перспективы развития

Текущий набор функций уже позволяет использовать бота как универсального помощника: от генерации кода и технической документации до развлечений и визуального контента. Дальнейшие шаги включают интеграцию векторных баз знаний (FAISS) для более точного поиска по пользовательским данным, а также мульти‑модельный роутинг, где запросы автоматически направляются к наиболее подходящей модели в зависимости от тематики. Такие улучшения сохранят полностью локальный характер решения, обеспечивая при этом гибкость и масштабируемость, необходимую для реального применения в небольших командах и персональных проектах.

Как построить Telegram‑бота на локальной LLM Ollama: от базовой генерации текста до мини‑игр и создания изображений