Все Insights

Браузерные агенты: Browserbase, Multion и новая волна веб-автоматизации

Большая часть работы, которую выполняют офисные сотрудники, происходит в браузере. Заполнение форм, перенос данных между системами, бронирование, сравнение цен, мониторинг конкурентов, обработка заявок — все это рутинные действия, которые отнимают часы ежедневно.

Aravana··5 мин

Тип материала: Анализ

Поделиться:TelegramXLinkedIn

Большая часть работы, которую выполняют офисные сотрудники, происходит в браузере. Заполнение форм, перенос данных между системами, бронирование, сравнение цен, мониторинг конкурентов, обработка заявок — все это рутинные действия, которые отнимают часы ежедневно. Традиционная автоматизация через RPA и Selenium работает, но требует программирования и ломается при каждом изменении интерфейса. Браузерные AI-агенты обещают решить эту проблему принципиально иначе: вместо хрупких скриптов, привязанных к DOM-структуре страницы, — модель, которая «видит» интерфейс и взаимодействует с ним так, как это делал бы человек.

В начале 2026 года рынок браузерных агентов быстро консолидируется вокруг нескольких ключевых игроков. Browserbase предлагает инфраструктуру — облачные браузеры, оптимизированные для работы AI-агентов. MultiOn строит агента, способного выполнять пользовательские задачи в любом веб-интерфейсе. Anthropic выпустил Computer Use API, позволяющий Claude управлять компьютером через скриншоты. OpenAI интегрирует браузерного агента в ChatGPT через Operator. Google работает над аналогичными возможностями в Gemini.

Технически браузерные агенты работают по одному из двух принципов. Первый — анализ DOM-структуры: агент получает HTML-код страницы, идентифицирует интерактивные элементы и формирует последовательность действий. Этот подход быстрый, но требует доступа к DOM, что не всегда возможно. Второй — визуальный анализ: агент делает скриншот страницы, распознает элементы интерфейса через computer vision и кликает по координатам. Этот подход универсальнее, но медленнее и менее точен. Большинство современных решений комбинируют оба метода.

Browserbase занял интересную нишу: это не сам агент, а инфраструктурный слой для любого агента. Компания предоставляет облачные headless-браузеры с API для управления, системой сессий и встроенной обработкой CAPTCHA и антибот-защиты. Это решает одну из главных практических проблем браузерной автоматизации — многие сайты активно блокируют ботов, и обход этих блокировок требует значительных инженерных усилий. К февралю 2026 года Browserbase обслуживает более пяти тысяч компаний-клиентов.

MultiOn пошел другим путем — компания строит универсального агента, который может выполнить практически любую задачу в браузере по текстовому описанию. Пользователь говорит: «Забронируй мне столик в ресторане X на пятницу в семь вечера на четверых», и агент самостоятельно открывает сайт ресторана или агрегатор, находит доступные слоты, заполняет форму и подтверждает бронирование. Звучит впечатляюще, и в контролируемых демонстрациях это работает. В реальном мире — пока с ошибками примерно в тридцати процентах случаев.

Anthropic Computer Use, анонсированный осенью 2024 года и доработанный к 2026-му, предлагает наиболее общий подход: модель, которая может управлять всем рабочим столом, а не только браузером. Claude получает скриншот, решает, куда кликнуть или что напечатать, и отправляет команды операционной системе. Это теоретически позволяет автоматизировать работу в любом приложении — от Excel до Photoshop. На практике скорость остается проблемой: каждое действие требует нового скриншота и нового вызова модели, что создает задержку в несколько секунд между кликами.

Экономический потенциал браузерных агентов огромен. По оценкам McKinsey, до шестидесяти процентов рабочего времени knowledge workers уходит на задачи, которые теоретически можно автоматизировать. Браузерные агенты атакуют самую массовую часть этой рутины — ту, что происходит в веб-интерфейсах. Инвесторы это понимают: совокупные инвестиции в стартапы браузерной автоматизации на основе AI превысили два миллиарда долларов к началу 2026 года.

Главные риски связаны с безопасностью и приватностью. Браузерный агент, который авторизуется в банковском аккаунте, CRM-системе или корпоративной почте от имени пользователя, получает доступ к чувствительным данным. Скриншоты экрана с конфиденциальной информацией отправляются на серверы AI-провайдера для анализа. Это создает поверхность атаки, которая пока недостаточно защищена. Компании, внедряющие браузерных агентов, должны тщательно продумывать политики доступа и аудита.

Еще одна проблема — хрупкость в edge cases. Агент прекрасно справляется с типовыми задачами на популярных сайтах, но теряется при встрече с нестандартным интерфейсом, неожиданным всплывающим окном или двухфакторной аутентификацией. Человек интуитивно понимает, что делать с незнакомым диалоговым окном. Агент — пока нет.

Браузерные агенты — одна из самых быстрорастущих категорий в AI-экосистеме. Они не заменят людей полностью, но способны взять на себя значительную часть рутинных действий в браузере. Для компаний, которые ежедневно выполняют тысячи однотипных операций в веб-интерфейсах, это реальная возможность сократить затраты и ускорить процессы. Ключевой вопрос 2026 года — не появятся ли браузерные агенты, а как быстро они станут достаточно надежными для mission-critical задач.

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Похожие материалы

Microsoft объединяет AutoGen и Semantic Kernel: рождение агентной платформы нового поколения

Зачем Microsoft слила два своих главных AI-фреймворка в один — и что это значит для разработчиков агентных систем

·6 мин

Agentic AI Foundation: Linux Foundation берётся за стандартизацию агентного AI

В декабре 2025 года Linux Foundation запустила AAIF — фонд для создания открытых стандартов и протоколов взаимодействия между AI-агентами. Анализируем, зачем это нужно и кто стоит за инициативой

·6 мин

Google A2A Protocol: как будут общаться AI-агенты разных компаний

В апреле 2025 года Google представил Agent2Agent (A2A) — открытый протокол для коммуникации между AI-агентами. Разбираемся, почему это может стать HTTP для агентного мира

·5 мин