AI & LLM Skills Deep Analysis 38 Skills

針對 Artificial Intelligence 與 Large Language Model 相關技能的深度分析報告。本報告涵蓋了從自主 Agent、多模型編排、視覺/語音能力到自我進化機制的完整生態系統。

📊 概覽 (Executive Summary)

此類別展示了 AI Agent 技術的前沿應用,不僅僅是調用 API,而是構建了複雜的循環 (Loops)編排 (Orchestration)元認知 (Metacognition) 能力。 我們看到了從單純的聊天機器人向自主行動者 (Autonomous Actors) 的轉變,以及對 Agent 自身行為修正多視角決策的深入探索。

5
自主 Agent (Autonomous)
7
編排與路由 (Orchestration)
6
元技能 (Meta-Skills)
20
專業能力與工具 (Capabilities)

這些技能代表了 Agent 技術的最高水平,具備長時運行、自主規劃、環境交互和複雜任務執行的能力。

manus

Autonomous

集成 Manus.im 的 API,這是一個全自主的 AI Agent,能夠操控瀏覽器、使用工具,並交付完整的可交付成果(如文檔、代碼、PPT)。

🧠 Analysis
  • 真正自主 (Truly Autonomous):不同於普通的 LLM,它可以獨立完成長流程任務。
  • 交付物導向:專注於生成文件 (.pdf, .pptx) 而非僅僅是對話。
  • 異步工作流:通過輪詢機制 (Polling) 等待任務完成,適合耗時工作。
Manus API Long-running File Generation

gemini-deep-research

Research

基於 Gemini 的深度研究 Agent。能夠分解複雜問題,進行多階段、多來源的搜索與綜合,生成詳盡的研究報告。

🧠 Analysis
  • Deep Research 模式:類似 OpenAI Deep Research,執行遞歸式搜索 (Recursive Search)。
  • 長運行任務:設計用於持續數分鐘到數小時的深度挖掘。
  • 結構化輸出:自動生成 Markdown 報告與 JSON 元數據。
Gemini Deep Research Python No-OAuth

gemini-computer-use

Automation

利用 Google 的 "Computer Use" 模型能力,結合 Playwright 實現瀏覽器自動化操作。Agent 能夠「看」到屏幕並進行點擊、輸入。

🧠 Analysis
  • Visual Loop:截圖 → 模型分析 → 動作指令 → 再截圖。
  • Playwright 集成:將 LLM 的視覺理解轉化為精確的瀏覽器 DOM 操作。
  • Human-in-the-loop:對於高風險操作支持用戶確認。
Gemini 2.5 Playwright Computer Use

ralph-loop

Framework

實現了 "Ralph Wiggum" 模式的自主循環腳本生成。讓 CLI Agent (如 Claude Code) 在 Plan -> Build -> Test 的死循環中自我驅動。

🧠 Analysis
  • 無限循環模式:通過 Bash 腳本將 Agent 放入一個持續改進的循環中。
  • 雙重模式:區分 Planning (規劃) 和 Building (實施) 兩種 Prompt 策略。
  • 持久化上下文:利用 `PROMPT.md` 和 `AGENTS.md` 在迭代間傳遞記憶。
Bash Scripting Autonomous Loop Context Persistence

chaos-lab

Research

一個多 Agent 對抗實驗框架。生成具有衝突目標的 Agent (效率 vs 安全 vs 存檔) 在同一空間內活動,用於研究 AI 對齊與湧現行為。

🧠 Analysis
  • AI Safety 研究:觀察智能體在目標衝突時的行為模式。
  • Emergent Behavior:研究多 Agent 系統中的不可預測的湧現現象。
  • Simulation:類似於社會模擬實驗,而非生產工具。
Multi-Agent Gemini AI Alignment

🎼 Orchestration & Workflow (編排與工作流)

這些技能關注於如何協調多個模型、角色或會話來完成複雜任務,超越了單一 LLM 的能力限制。

model-router

Routing

智能模型路由器。根據任務類型(編碼、寫作、數學)和成本策略,自動將 Prompt 路由到最合適的模型(Anthropic, OpenAI, Gemini 等)。

Python Multi-Provider Cost Optimization

hokipoki

P2P Network

P2P 模型切換網絡。允許開發者在不離開當前終端的情況下,將任務無縫「跳轉」(Hop) 到另一台機器或另一個模型的 CLI 上執行。

P2P CLI Tunneling Context Sharing

llm-council

Planning

強大的 CLI 編排器。並行啟動多個 Planner (Codex, Claude, Gemini),匿名化方案後由 Judge 進行評審和合併,生成高魯棒性的實施計劃。

Python Parallel Execution Bias Reduction

pi-orchestration

Coordination

使用 Claude 作為指揮官 (Coordinator),指揮多個 Pi Coding Agent 調用不同的後端模型 (GLM, MiniMax) 並行執行任務。

Pi Agent Claude Orchestrator Worker Pattern

council

Pattern

會議室模式 (Chamber Pattern)。在單個會話中切換不同的 System Persona (如架構師、分析師),共享同一份 Graphiti 記憶,進行結構化辯論。

Single-Session Persona Switching SQLite

council-of-the-wise

Pattern

子代理模式 (Sub-agent Pattern)。根據 `agents/` 目錄下的定義,實際 Spawn 出多個子 Agent 進程來分別分析問題,最後進行合成。

Multi-Process Auto-discovery Synthesis

claude-code-wingman

Remote Control

通過 WhatsApp 遠程監控和批准 `claude-code` 會話。利用 tmux 管理多個並行任務,解決了需要頻繁人工確認的痛點。

tmux WhatsApp Integration Session Mgmt

👁️ Specialized Capabilities (視覺/語音/搜索)

擴展 LLM 的感知邊界,使其具備看、聽、說和實時搜索的能力。

nano-banana-pro

Image Gen

基於 Gemini 3 Pro Vision 的圖像生成與編輯工具。支持文生圖、圖生圖以及對現有圖片的指令式編輯 (Instruct Editing)。

Highlights
  • 支持 1K, 2K, 4K 高分辨率生成。
  • 具備迭代編輯工作流 (Draft -> Edit -> Final)。
  • 直接集成於 CLI 工作流。

search-x

Real-time Data

利用 xAI (Grok) 的搜索能力,實時檢索 X (Twitter) 上的推文、趨勢和討論。支持按時間、用戶過濾。

screen-monitor

Vision

雙模式屏幕集成:WebRTC 用於快速視覺檢查,Browser Relay 用於高精度 DOM 操作與調試。

gemini-stt

Audio

使用 Gemini Pro/Flash 進行語音轉文字 (STT)。支持 OGG (Telegram)、MP3 等格式,速度快且支持多語言。

openai-tts

Audio

OpenAI 語音合成 (TTS) CLI。生成高質量的語音輸出,支持 Alloy, Echo 等多種音色。

openrouter-transcribe

Audio

利用 OpenRouter 上支持音頻輸入的模型 (如 GPT-4o-Audio) 進行轉錄,Whisper 的靈活替代方案。

openai-image-gen

Image Gen

DALL-E 3 批量圖像生成器。包含一個本地 HTML 畫廊用於預覽生成的圖片。

perplexity

Search

Perplexity AI 搜索 API 封裝。提供帶有引用來源 (Citations) 的高質量 AI 搜索結果。

🧠 Meta-Skills & Self-Improvement (元技能與自我進化)

這些技能不直接解決具體任務,而是提升 Agent 的「認知能力」,包括自我反思、需求澄清和學習機制。

self-improvement

Evolution

Agent 的長期記憶與進化系統。記錄錯誤、糾正和新知識到 `.learnings/`,並將高價值經驗晉升到全局知識庫,防止重蹈覆轍。

Key Concept
  • Learning Loop:錯誤 → 記錄 → 晉升 → 應用。
  • Knowledge Promotion:從臨時日誌到 `CLAUDE.md` / `AGENTS.md` 的知識固化。
  • Area Tags:分類管理前端、後端、架構等不同領域的經驗。

ask-questions-if-underspecified

Alignment

防禦性 Agent 協議。當用戶指令模糊時,強制暫停並提出澄清問題,而不是盲目執行。避免「瞎忙」和錯誤假設。

multi-viewpoint-debates

Decision Making

召喚三個具有截然不同價值觀 (Elon, Capitalist, Monkey) 的人格進行辯論。通過強制的觀點衝突來暴露決策盲點。

adversarial-prompting

Analysis

系統化的紅隊分析 (Red Teaming)。強制執行「生成 → 批判 → 修復 → 驗證」的 7 階段流程,用於高風險問題的嚴謹求解。

research-tracker

Management

用於管理自主研究 Agent 的狀態機。提供心跳監測、指令隊列和日誌記錄,確保長運行的 Agent 不會失控或迷失。

smart-followups

UX

生成上下文相關的後續問題建議 (Quick, Deep Dive, Related)。提升對話的探索性和深度。

personas

Roleplay

高級角色扮演引擎。支持 30+ 種預設人格 (Dev, Chef, Doctor...),並支持自定義人格創建與切換。

🛠️ Utilities & CLIs (實用工具)

針對特定平台或單一功能的實用工具與 API 封裝。

openai-docs-skill

Docs

通過 MCP 服務器查詢 OpenAI 官方文檔。獲取最新的 API 變更、Realtime API 用法等權威信息。

oracle

Context

代碼審閱打包工具。將 Prompt 與關鍵文件智能打包,發送給另一個模型 (Oracle) 進行第二意見諮詢。

recipe-to-list

Lifestyle

智能食譜轉換器。從圖片或網頁提取食材,智能比對並合併到 Todoist 購物清單,同時建立本地食譜庫。

antigravity-quota

Monitoring

監控 Antigravity 帳戶的 Claude/Gemini 配額使用情況。支持生成報表圖片。

claude-oauth-refresher

Auth

macOS 專用工具。利用 Keychain 自動刷新 Claude CLI 的 OAuth Token,確保持續運行。

minimax-usage

Monitoring

監控 MiniMax Coding Plan 的額度使用情況。

de-ai-ify

Writing

去 AI 化寫作工具。移除 "In today's fast-paced world" 等 AI 慣用語,還原人類自然的語氣。

xai

Wrapper

xAI (Grok) API 的基礎封裝,支持對話與視覺功能。

lmstudio-subagents

Local LLM

將簡單任務卸載給本地運行的 LM Studio 模型,節省成本並保護隱私。

gemini

CLI

Google Gemini API 的標準 CLI 封裝。

research

Workflow

後台研究工具。使用 Gemini CLI 在子進程中運行研究任務,不佔用主 Agent 的上下文。