Browser Automation [v.Deep_Analzyed]

賦予 Agent 完整的 Web 交互能力。從無頭瀏覽器 CLI 到自主雲端代理,構建全方位的網絡自動化矩陣。

🌐 Web Control Matrix (網絡控制矩陣)

此類別涵蓋了瀏覽器自動化的三個層級: L1 基礎控制 (Playwright/CDP), L2 封裝工具 (Agent Browser CLI),以及 L3 自主代理 (Agent Zero/Browser Use)。 此外還整合了文檔檢索 (Context7) 與內部知識庫 (Guru),讓 Agent 不僅能 "操作" 網頁,更能 "理解" 內容。

L3: Autonomous & Cloud Agents (自主與雲端代理)

FEATURED

agent-zero

Framework

與 Agent Zero 框架的雙向橋接。適用於需要自我修正、循環迭代的複雜編程與研究任務。

  • 雙向通訊:支持文件附件傳輸、任務拆解與進度回報。
  • 持久環境:利用 Docker 提供穩定的執行環境,適合長時間運行任務。
Node.js Docker Bridge API
SAAS

browser-use

Cloud API

雲端瀏覽器自動化 API。提供持久化的雲端 Session 與 Profile 管理。

  • Subagent 模式:專用的 `browser-use-llm` 模型,處理瀏覽器任務比通用模型快 3-5 倍。
  • 狀態持久化:Profiles 可保存 Cookie 與登錄狀態,解決驗證碼與登錄難題。
REST API Cloud Browser

L2: Core Automation CLIs (核心自動化工具)

FAST

agent-browser

Rust CLI

基於 Rust 的高性能無頭瀏覽器 CLI。專為 Agent 設計的結構化指令集。

  • Snapshot 機制:將網頁轉換為帶有 @ref 的可交互元素樹,大幅簡化定位邏輯。
  • 多功能集成:內置截圖、PDF 生成、網絡攔截與 JS 執行。
  • (包含 tekin 變體)
Rust Headless Accessibility Tree

playwright-cli

Standard

Playwright 的 CLI 封裝。提供標準的點擊、輸入、截圖等自動化功能。

  • 工業標準:基於微軟 Playwright,穩定性高,支持多種瀏覽器引擎。
  • Token 高效:專為 Coding Agent 優化的輸出格式。
Playwright Node.js

L1: Low-Level Control & TUI (底層控制與終端)

verify-on-browser

CDP

直接使用 Chrome DevTools Protocol (CDP) 進行控制。上帝視角的瀏覽器操作。

  • 全能力解鎖:DOM 操作、網絡攔截、性能分析、JS 調試,無所不能。
  • 底層協議:直接發送 `Domain.method` 指令,適合高階調試任務。
CDP WebSocket

browsh

TUI

現代化的純文本瀏覽器。在終端中渲染網頁,支持圖像與視頻 (ASCII/Block)。

  • 節省帶寬:適合在極低帶寬或純 SSH 環境下快速瀏覽資訊。
  • Headless Firefox:後端使用 Firefox,確保網頁兼容性。
Go Firefox

Knowledge & Meta Tools (知識與元工具)

context7

Docs API

即時文檔檢索器。為 Agent 獲取最新的庫文檔 (React, Next.js, Supabase 等)。

  • 填補知識鴻溝:解決 LLM 訓練數據截止的問題,獲取最新 API 變更。
  • 精準上下文:通過 ID 和 Query 精確獲取所需的文檔片段。

guru-mcp

Enterprise

Guru 知識庫的 MCP 服務器。連接 Slack, Drive, Confluence 等企業數據源。

  • 企業搜索:一站式搜索所有公司內部文檔。
  • AI Answers:利用 Guru 的 AI Agent 直接生成問題答案。

mcporter

Meta Tool

MCP 服務器管理 CLI。列出、配置、調用任何 MCP 工具。

  • Ad-hoc 調用:無需代碼即可直接測試 MCP 工具指令。
  • 代碼生成:自動生成 Client 代碼或 CLI 包裝器。