Тестирование производительности LLM-серверов
Автор решил проверить производительность различных локальных серверов машинного обучения при работе с моделью Qwen 3.5 35B на своем MacBook Pro M2 Max с 64 ГБ оперативной памяти. Для тестирования был написан специальный скрипт на языке программирования Python.
Тест включал пять последовательных запросов с использованием разных типов входных данных – от коротких вопросов типа AIME до длинных текстов объемом около 52 тысяч токенов. Результаты показали значительные различия в скорости обработки запросов различными серверами.
Результаты тестов
При обработке одиночных запросов три сервера продемонстрировали примерно одинаковую скорость работы. Однако при параллельном выполнении двух запросов ситуация изменилась кардинально:
- Четыре сервера значительно замедлили свою работу или вовсе поставили запросы в очередь;
- Один сервер снизил производительность до уровня 0.85 раза медленнее базового результата;
- Только один сервер смог обеспечить стабильное ускорение в 2.17 раза относительно базовой производительности.
Кроме того, автор обнаружил ряд технических нюансов, таких как неэффективный механизм внимания («квадратичное внимание»), завышенные показатели пропускной способности из-за ошибки в парсере событий реального времени (SSE) и наличие фоновых процессов, занимающих значительное количество ресурсов памяти (до 20 ГБ).
Заключение и рекомендации
Для пользователей, желающих развернуть локальную инфраструктуру для работы с большими языковыми моделями, важно учитывать не только заявленные характеристики серверов, но и их реальную производительность в реальных условиях эксплуатации. Автор предоставил детальные результаты своих исследований вместе с графиками и таблицами, позволяющими сделать осознанный выбор подходящего решения.