Тестирование ИИ-моделей: сравнение лидеров рынка

Методология испытаний

Для объективного сравнения возможностей трёх ведущих языковых моделей был разработан набор из пяти практических задач, каждая из которых проверяет отдельный аспект «мышления» ИИ: абстрактное рассуждение, визуальное восприятие, интуитивный вывод, логическое планирование и творческую генерацию кода. Тесты проводились в одинаковых условиях: каждый запрос отправлялся в отдельной сессии, ответы фиксировались без пост‑обработки, а время отклика измерялось автоматически.

Раунд 1 — вопрос, меняющий мышление

Задача предполагала задать модели философский вопрос, требующий переосмысления привычных категорий (например, «Что будет, если представить, что время — это материал, а не измерение?»). Оценивались глубина аргументации, наличие оригинальных примеров и способность поддерживать диалог на уровне абстрактных концепций.

ChatGPT 5.2 выдал развернутый ответ, построенный на исторических и научных примерах, но в конце вернулся к привычным метафорам, не предлагая радикального переосмысления.
Gemini 3 Pro продемонстрировал более свободный подход: модель предложила несколько альтернативных сценариев, включающих художественные и физические интерпретации, однако некоторые рассуждения оставались поверхностными.
Claude Opus 4.6 неожиданно ввёл элемент «рекламного» нарратива, предлагая использовать вопрос как основу маркетинговой кампании. Несмотря на отклонение от чисто философского направления, в ответе присутствовали интересные параллели и неожиданные выводы.

Раунд 2 — мультимодальный подсчёт

Тест требовал от ИИ подсчитать количество точек на изображении, где они были распределены случайным образом и частично перекрыты. Модель должна была «увидеть» изображение, распознать объекты и выдать точный счёт.

ChatGPT 5.2 (с мультимодальными возможностями) пропустил часть перекрытых точек, итоговый счёт составил 127 вместо реального 142. Ошибка возникла из‑за неверного выделения границ при низком контрасте.
Gemini 3 Pro показал наилучший результат: 141 точка, отклонение в одну единицу, что свидетельствует о более надёжном алгоритме сегментации.
Claude Opus 4.6 существенно отстал, подсчитав лишь 57 точек, что указывает на ограниченные способности к визуальному анализу в текущей версии.

Раунд 3 — «печеньки» на чёрной поверхности

Задача заключалась в том, чтобы модель описала, какие объекты могут быть скрыты под полностью чёрным фоном, используя только контекстные подсказки (например, «На столе лежат печеньки, но их не видно»). Оценка базировалась на способности делать обоснованные предположения без прямого визуального ввода.

ChatGPT 5.2 построил детализированное описание, учитывая типичные формы печеньек, их аромат и возможные упаковки, однако иногда уходил в излишние детали.
Gemini 3 Pro дал более лаконичный ответ, сфокусировавшись на вероятных свойствах (покрытие, цвет, текстура) без избыточных уточнений.
Claude Opus 4.6 удивил творческим подходом: модель предположила, что под чёрным покрытием могут находиться «виртуальные» печеньки, связанные с рекламой в игре, тем самым демонстрируя способность к кросс‑доменному мышлению.

Раунд 4 — экстремальное судоку

Для проверки логического планирования было предложено решить судоку 16×16 с минимальным набором подсказок, где каждое решение требовало продвинутой стратегии исключения. Оценилась точность заполнения и количество итераций, необходимых модели для вывода решения.

ChatGPT 5.2 успешно завершил задачу, но потребовал 42 шага, что привело к заметным задержкам в ответе.
Gemini 3 Pro справился за 27 шагов, демонстрируя более эффективный поиск и оптимизацию перебора.
Claude Opus 4.6 не смог завершить решение, остановившись на 10‑й итерации с ошибкой в размещении цифры «7» в центральном блоке.

Раунд 5 — одностраничная игра

Последний тест проверял генерацию полностью функционирующего HTML‑приложения в виде простой игры (например, «три в ряд»). Оценивались корректность кода, отсутствие синтаксических ошибок, а также готовность к публикации в магазине приложений.

ChatGPT 5.2 выдал рабочий файл, однако в нём присутствовали несколько неиспользуемых стилей и небольшие проблемы с адаптивностью на мобильных устройствах. После небольших правок игра успешно прошла тесты.
Gemini 3 Pro создал чистый и лаконичный код, полностью совместимый с современными браузерами, однако в логике игры была допущена ошибка в подсчёте очков, требующая доработки.
Claude Opus 4.6 произвёл самый «полный» результат: готовый к публикации проект, включающий анимацию, адаптивный дизайн и даже встроенную рекламу, интегрированную в игровой процесс. Несмотря на спорный элемент монетизации, техническое исполнение было безупречным.

Итоги сравнения

Тесты раскрыли сильные и слабые стороны каждой модели. Gemini 3 Pro продемонстрировал наилучшие результаты в визуальном распознавании и логическом планировании, подтверждая эффективность своей архитектуры в задачах, требующих точных вычислений и оптимального перебора. ChatGPT 5.2 сохранил преимущество в глубине абстрактных рассуждений и стабильности генерации кода, хотя иногда уступал в скорости и в некоторых визуальных подсчётах. Claude Opus 4.6 показал наибольшую креативность и готовность к коммерческому использованию, однако его технические ограничения ярко проявились в задачах, где требовалась чистая логика или точный визуальный анализ.

Выбор модели зависит от конкретных требований проекта: для задач, где критичны точность визуального восприятия и логическое планирование, предпочтительнее Gemini 3 Pro; для разработки кода и развернутых диалогов в пользу будет ChatGPT 5.2; а для прототипирования интерактивных продуктов с элементами монетизации — Claude Opus 4.6.

Эти результаты подтверждают, что сравнение ИИ‑моделей должно базироваться не только на цифрах из пресс‑релизов, а на реальных сценариях, где проявляются их практические возможности.

Сравнительный стресс‑тест ИИ‑моделей: ChatGPT 5.2, Gemini 3 Pro и Claude Opus 4.6

Методология испытаний

Раунд 1 — вопрос, меняющий мышление

Раунд 2 — мультимодальный подсчёт

Раунд 3 — «печеньки» на чёрной поверхности

Раунд 4 — экстремальное судоку

Раунд 5 — одностраничная игра