На Хабре представили BrowserAgent — подход к обучению ИИ-агентов действовать прямо в браузере (через Playwright) с атомарными действиями: клик, скролл, ввод, переключение вкладок. Вместо конвейера «парсинг → суммаризация → LLM» авторы добавили цикл «думать–резюмировать–действовать» и явную память. Оркестрация на Ray дала 50+ эпизодов/минуту на 32-ядерном сервере против типичных 1–2, инфраструктура обернута FastAPI, для стабильности Википедия развернута локально (Kiwix).Датасет: 5,3 тыс. богатых сценариев на задачах NQ/HotpotQA и др.; лимиты шагов: 6 для простых кейсов и до 30 для мультихопов. Обучение — SFT + Rejection Fine-Tuning на Qwen2.5-7B-Instruct, без тяжёлого RL. Оценка по EM и LLM-судьям (GPT-4.1, Gemini Flash 2.5, Claude Sonnet 3.7) фиксирует: BrowserAgent-7B даёт ~20% прирост к Search-R1 при меньшем объёме обучения; рост лимита шагов повышает точность (EM ≈0,34 при 6 шагах → ≈0,41 при 30).Сильные стороны: человекоподобное поведение в реальном вебе, воспроизводимая среда, заметный прирост качества на сложных задачах.Ограничения: дорогая среда vs «чистый текст», расхождения EM и смысловой корректности; нужен более широкий корпус источников и метрики, устойчивые к вариативности формулировок.