Agent TARSは、高度なコンピュータビジョンと自然言語処理技術の組み合わせを活用して、グラフィカルユーザーインターフェース(GUI)を理解し操作します。ウェブページの視覚表現をキャプチャし、ボタン、フォーム、テーブル、その他のページ要素を識別します。ユーザーは自然言語のプロンプトを通じてTARSに指示を与えることで、複数のページにわたるクリック、スクロール、テキスト抽出、フォーム入力を行います。カスタマイズ可能なワークフローをサポートし、タスクの連鎖(例:アカウントへのログイン、データスクレイピング、結果のCSVまたはJSONへのエクスポート)を実現します。ヘッドレスおよびヘッドフルブラウザモードをサポートし、インタラクティブな探索と無人自動化の両方を可能にします。これにより、テスト、データ収集、ルーチンブラウザ操作に最適です。