Google представила Gemini 2.5 Computer Use

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

gemini 2.5googleui-automation

Не просто текст или код — теперь ИИ реально взаимодействует с UI: кликает по кнопкам, заполняет формы, двигает стикеры и даже работает из под вашей учётной записи. На DevDay 2025 Google показала новую версию своей модели — Gemini 2.5 Computer Use, доступную в превью через Gemini API, Google AI Studio и Vertex AI.

Модель построена на базе Gemini 2.5 Pro и обучена понимать визуальные интерфейсы. Вместо API-вызовов она управляет браузером или мобильным приложением в «петле»:

  • Получает запрос пользователя, скриншот интерфейса и историю действий.
  • Возвращает функцию-действие (например, click, type или scroll).
  • После выполнения получает новый скриншот и контекст, продолжая цикл до завершения задачи.

🟣 Примечательно, что это уже используется внутри Google модель применяют для UI-тестирования, где она восстанавливает до 60% проваленных прогонов. Работает в Project Mariner, Firebase Testing Agent и в AI Mode поиска. Ну и по заверениям Goole внешние команды используют её для автоматизации интерфейсов и личных ассистентов.

🟣 Если говорить про бенчмарки, то лидирует на Online-Mind2Web, WebVoyager, AndroidWorld. Демонстрирует низкую задержку (~225 с) при точности 70 %+. И имеет встроенный уровень защиты: каждый шаг проходит inference-time safety-check, а действия вроде платежей требуют подтверждения пользователя.

Мы всё ближе к настоящим автономным агентам, которые смогут не просто анализировать данные, а действовать — управлять CRM, тестировать интерфейсы и автоматизировать рутину без человека в цикле.

Источник

@ai_for_devs

Панорамный кадр леса с высокими стволами деревьев; справа затемнённая вертикальная панель с текстом/кодом — стилизованная заставка демонстрации интерфейсной модели.
Кадр-превью: лес как фон и правая панель с кодом как иллюстрация демонстрации
Крупный план лесного пейзажа с толстым стволом на переднем плане и затемнённой панелью интерфейса справа — фрейм из демонстрационного видео модели.
Ещё один кадр-превью с лесом и интерфейсной панелью справа

Читайте так же