Agent TARS использует сочетание передовых технологий компьютерного зрения и обработки естественного языка для понимания и манипуляции графическими интерфейсами пользователя. Захватывая визуальные представления веб-страниц, TARS может распознавать кнопки, формы, таблицы и другие элементы страницы. Пользователи взаимодействуют с TARS с помощью команд на естественном языке, указывая ему кликать, прокрутить, извлекать текст или заполнять формы на нескольких страницах. Он поддерживает настраиваемые рабочие процессы, объединяющие задачи — такие как вход в аккаунты, сбор данных и экспорт результатов в CSV или JSON. Поддержка в headless и headful режимах делает TARS подходящим для интерактивных исследований и автоматизированных задач без наблюдения, что делает его идеальным для тестирования, сбора данных и рутинных операций на основе браузера.
AutoBrowse — это библиотека для разработчиков, позволяющая автоматизировать веб через использование LLM. Используя большие языковые модели, он планирует и выполняет действия браузера — поиск, навигацию, взаимодействие и извлечение информации со страниц. Вattern планировщика-исполнителя разбивает задачи высокого уровня на пошаговые действия, управляя рендерингом JavaScript, вводом в формы, переходами по ссылкам и разбором контента. Он выводит структурированные данные или резюме, что идеально подходит для исследований, сбора данных, автоматизированных тестов и процессов конкурентной разведки.