Производительность LLM-серверов на MacBook Pro M2 Max

Тестирование производительности LLM-серверов

Автор решил проверить производительность различных локальных серверов машинного обучения при работе с моделью Qwen 3.5 35B на своем MacBook Pro M2 Max с 64 ГБ оперативной памяти. Для тестирования был написан специальный скрипт на языке программирования Python.

Тест включал пять последовательных запросов с использованием разных типов входных данных – от коротких вопросов типа AIME до длинных текстов объемом около 52 тысяч токенов. Результаты показали значительные различия в скорости обработки запросов различными серверами.

Результаты тестов

При обработке одиночных запросов три сервера продемонстрировали примерно одинаковую скорость работы. Однако при параллельном выполнении двух запросов ситуация изменилась кардинально:

Четыре сервера значительно замедлили свою работу или вовсе поставили запросы в очередь;
Один сервер снизил производительность до уровня 0.85 раза медленнее базового результата;
Только один сервер смог обеспечить стабильное ускорение в 2.17 раза относительно базовой производительности.

Кроме того, автор обнаружил ряд технических нюансов, таких как неэффективный механизм внимания («квадратичное внимание»), завышенные показатели пропускной способности из-за ошибки в парсере событий реального времени (SSE) и наличие фоновых процессов, занимающих значительное количество ресурсов памяти (до 20 ГБ).

Заключение и рекомендации

Для пользователей, желающих развернуть локальную инфраструктуру для работы с большими языковыми моделями, важно учитывать не только заявленные характеристики серверов, но и их реальную производительность в реальных условиях эксплуатации. Автор предоставил детальные результаты своих исследований вместе с графиками и таблицами, позволяющими сделать осознанный выбор подходящего решения.

Сравнение производительности 8 локальных LLM-серверов на MacBook Pro M2 Max

Тестирование производительности LLM-серверов

Результаты тестов

Заключение и рекомендации