ИИ-агенты, способные контролировать ваш компьютер, больше не являются просто демонстрацией исследований. Они являются реальными продуктами, которые можно скачать и использовать сегодня. Например, ChatGPT Atlas может просматривать веб-страницы за вас, а Anthropic's Claude может работать с виртуальным рабочим столом. Открытые инструменты, такие как Fazm, могут принимать голосовые команды и выполнять реальные действия на вашем Mac. Но возникает вопрос: как ИИ-агент на самом деле видит, что находится на вашем экране? Этот вопрос не является философским, а глубоко практическим. Подход, используемый ИИ-агентом для восприятия и взаимодействия с вашим компьютером, влияет на все - скорость работы, частоту ошибок, стоимость обслуживания и передачу содержимого экрана на сервер в облаке.
Два фундаментально разных подхода
Существуют два фундаментально разных подхода, которые ИИ-агенты используют для взаимодействия с вашим экраном. Первый подход заключается в использовании скриншотов, а второй - в контролировании DOM (Document Object Model) или дерева доступности. Чтобы понять разницу между этими двумя подходами, рассмотрим следующую аналогию. Вы стоите перед зданием и хотите найти комнату 204. Первый подход заключается в том, чтобы сфотографировать здание и попросить кого-то найти комнату на основе внешнего вида здания. Второй подход - использовать план этажа, который точно показывает расположение комнат.
Как работают агенты, основанные на скриншотах
Агенты, основанные на скриншотах, используют наиболее распространенный метод, который иногда называют "зрением" или "пиксельным подходом". Они создают скриншот экрана и затем пытаются определить, что находится на экране на основе визуальной информации. Этот подход может быть неэффективным и подверженным ошибкам, поскольку ИИ-агенту необходимо проанализировать большое количество пикселей и попытаться понять, что они представляют. Этот подход также может быть медленным и требовать больших вычислительных ресурсов.
Как работают агенты, контролирующие DOM
Агенты, контролирующие DOM, используют другой подход. Они имеют прямой доступ к DOM или дереву доступности, которое представляет собой иерархическое представление элементов на веб-странице. Этот подход позволяет ИИ-агенту точно определить, что находится на экране, без необходимости анализа визуальной информации. Этот подход более эффективен и менее подвержен ошибкам, поскольку ИИ-агент может получить доступ к точной информации о структуре и содержимом веб-страницы. Кроме того, этот подход может быть более быстрым и требовать меньше вычислительных ресурсов.
Сравнение двух подходов
Сравнение двух подходов показывает, что агенты, контролирующие DOM, имеют несколько преимуществ над агентами, основанными на скриншотах. Они более точны, более эффективны и менее подвержены ошибкам. Однако, агенты, основанные на скриншотах, могут быть полезны в определенных ситуациях, таких как когда необходимо проанализировать визуальную информацию на экране. В целом, выбор подхода зависит от конкретных требований и задач, которые необходимо решить.