針對 Artificial Intelligence 與 Large Language Model 相關技能的深度分析報告。本報告涵蓋了從自主 Agent、多模型編排、視覺/語音能力到自我進化機制的完整生態系統。
這些技能代表了 Agent 技術的最高水平,具備長時運行、自主規劃、環境交互和複雜任務執行的能力。
集成 Manus.im 的 API,這是一個全自主的 AI Agent,能夠操控瀏覽器、使用工具,並交付完整的可交付成果(如文檔、代碼、PPT)。
基於 Gemini 的深度研究 Agent。能夠分解複雜問題,進行多階段、多來源的搜索與綜合,生成詳盡的研究報告。
利用 Google 的 "Computer Use" 模型能力,結合 Playwright 實現瀏覽器自動化操作。Agent 能夠「看」到屏幕並進行點擊、輸入。
實現了 "Ralph Wiggum" 模式的自主循環腳本生成。讓 CLI Agent (如 Claude Code) 在 Plan -> Build -> Test 的死循環中自我驅動。
一個多 Agent 對抗實驗框架。生成具有衝突目標的 Agent (效率 vs 安全 vs 存檔) 在同一空間內活動,用於研究 AI 對齊與湧現行為。
這些技能關注於如何協調多個模型、角色或會話來完成複雜任務,超越了單一 LLM 的能力限制。
智能模型路由器。根據任務類型(編碼、寫作、數學)和成本策略,自動將 Prompt 路由到最合適的模型(Anthropic, OpenAI, Gemini 等)。
P2P 模型切換網絡。允許開發者在不離開當前終端的情況下,將任務無縫「跳轉」(Hop) 到另一台機器或另一個模型的 CLI 上執行。
強大的 CLI 編排器。並行啟動多個 Planner (Codex, Claude, Gemini),匿名化方案後由 Judge 進行評審和合併,生成高魯棒性的實施計劃。
使用 Claude 作為指揮官 (Coordinator),指揮多個 Pi Coding Agent 調用不同的後端模型 (GLM, MiniMax) 並行執行任務。
會議室模式 (Chamber Pattern)。在單個會話中切換不同的 System Persona (如架構師、分析師),共享同一份 Graphiti 記憶,進行結構化辯論。
子代理模式 (Sub-agent Pattern)。根據 `agents/` 目錄下的定義,實際 Spawn 出多個子 Agent 進程來分別分析問題,最後進行合成。
通過 WhatsApp 遠程監控和批准 `claude-code` 會話。利用 tmux 管理多個並行任務,解決了需要頻繁人工確認的痛點。
擴展 LLM 的感知邊界,使其具備看、聽、說和實時搜索的能力。
基於 Gemini 3 Pro Vision 的圖像生成與編輯工具。支持文生圖、圖生圖以及對現有圖片的指令式編輯 (Instruct Editing)。
利用 xAI (Grok) 的搜索能力,實時檢索 X (Twitter) 上的推文、趨勢和討論。支持按時間、用戶過濾。
雙模式屏幕集成:WebRTC 用於快速視覺檢查,Browser Relay 用於高精度 DOM 操作與調試。
使用 Gemini Pro/Flash 進行語音轉文字 (STT)。支持 OGG (Telegram)、MP3 等格式,速度快且支持多語言。
OpenAI 語音合成 (TTS) CLI。生成高質量的語音輸出,支持 Alloy, Echo 等多種音色。
利用 OpenRouter 上支持音頻輸入的模型 (如 GPT-4o-Audio) 進行轉錄,Whisper 的靈活替代方案。
DALL-E 3 批量圖像生成器。包含一個本地 HTML 畫廊用於預覽生成的圖片。
Perplexity AI 搜索 API 封裝。提供帶有引用來源 (Citations) 的高質量 AI 搜索結果。
這些技能不直接解決具體任務,而是提升 Agent 的「認知能力」,包括自我反思、需求澄清和學習機制。
Agent 的長期記憶與進化系統。記錄錯誤、糾正和新知識到 `.learnings/`,並將高價值經驗晉升到全局知識庫,防止重蹈覆轍。
防禦性 Agent 協議。當用戶指令模糊時,強制暫停並提出澄清問題,而不是盲目執行。避免「瞎忙」和錯誤假設。
召喚三個具有截然不同價值觀 (Elon, Capitalist, Monkey) 的人格進行辯論。通過強制的觀點衝突來暴露決策盲點。
系統化的紅隊分析 (Red Teaming)。強制執行「生成 → 批判 → 修復 → 驗證」的 7 階段流程,用於高風險問題的嚴謹求解。
用於管理自主研究 Agent 的狀態機。提供心跳監測、指令隊列和日誌記錄,確保長運行的 Agent 不會失控或迷失。
生成上下文相關的後續問題建議 (Quick, Deep Dive, Related)。提升對話的探索性和深度。
高級角色扮演引擎。支持 30+ 種預設人格 (Dev, Chef, Doctor...),並支持自定義人格創建與切換。
針對特定平台或單一功能的實用工具與 API 封裝。
通過 MCP 服務器查詢 OpenAI 官方文檔。獲取最新的 API 變更、Realtime API 用法等權威信息。
代碼審閱打包工具。將 Prompt 與關鍵文件智能打包,發送給另一個模型 (Oracle) 進行第二意見諮詢。
智能食譜轉換器。從圖片或網頁提取食材,智能比對並合併到 Todoist 購物清單,同時建立本地食譜庫。
監控 Antigravity 帳戶的 Claude/Gemini 配額使用情況。支持生成報表圖片。
macOS 專用工具。利用 Keychain 自動刷新 Claude CLI 的 OAuth Token,確保持續運行。
監控 MiniMax Coding Plan 的額度使用情況。
去 AI 化寫作工具。移除 "In today's fast-paced world" 等 AI 慣用語,還原人類自然的語氣。
xAI (Grok) API 的基礎封裝,支持對話與視覺功能。
將簡單任務卸載給本地運行的 LM Studio 模型,節省成本並保護隱私。
Google Gemini API 的標準 CLI 封裝。
後台研究工具。使用 Gemini CLI 在子進程中運行研究任務,不佔用主 Agent 的上下文。