← 返回首頁

AI & LLM Skills Deep Analysis 38 Skills

針對 Artificial Intelligence 與 Large Language Model 相關技能的深度分析報告。本報告涵蓋了從自主 Agent、多模型編排、視覺/語音能力到自我進化機制的完整生態系統。

📊 概覽 (Executive Summary)

此類別展示了 AI Agent 技術的前沿應用，不僅僅是調用 API，而是構建了複雜的循環 (Loops)、編排 (Orchestration) 和元認知 (Metacognition) 能力。我們看到了從單純的聊天機器人向自主行動者 (Autonomous Actors) 的轉變，以及對 Agent 自身行為修正和多視角決策的深入探索。

自主 Agent (Autonomous)

編排與路由 (Orchestration)

元技能 (Meta-Skills)

專業能力與工具 (Capabilities)

🌟 Featured & Autonomous Agents (精選自主 Agent)

這些技能代表了 Agent 技術的最高水平，具備長時運行、自主規劃、環境交互和複雜任務執行的能力。

manus

Autonomous

集成 Manus.im 的 API，這是一個全自主的 AI Agent，能夠操控瀏覽器、使用工具，並交付完整的可交付成果（如文檔、代碼、PPT）。

🧠 Analysis

真正自主 (Truly Autonomous)：不同於普通的 LLM，它可以獨立完成長流程任務。
交付物導向：專注於生成文件 (.pdf, .pptx) 而非僅僅是對話。
異步工作流：通過輪詢機制 (Polling) 等待任務完成，適合耗時工作。

Manus API Long-running File Generation

gemini-deep-research

Research

基於 Gemini 的深度研究 Agent。能夠分解複雜問題，進行多階段、多來源的搜索與綜合，生成詳盡的研究報告。

🧠 Analysis

Deep Research 模式：類似 OpenAI Deep Research，執行遞歸式搜索 (Recursive Search)。
長運行任務：設計用於持續數分鐘到數小時的深度挖掘。
結構化輸出：自動生成 Markdown 報告與 JSON 元數據。

Gemini Deep Research Python No-OAuth

gemini-computer-use

Automation

利用 Google 的 "Computer Use" 模型能力，結合 Playwright 實現瀏覽器自動化操作。Agent 能夠「看」到屏幕並進行點擊、輸入。

🧠 Analysis

Visual Loop：截圖 → 模型分析 → 動作指令 → 再截圖。
Playwright 集成：將 LLM 的視覺理解轉化為精確的瀏覽器 DOM 操作。
Human-in-the-loop：對於高風險操作支持用戶確認。

Gemini 2.5 Playwright Computer Use

ralph-loop

Framework

實現了 "Ralph Wiggum" 模式的自主循環腳本生成。讓 CLI Agent (如 Claude Code) 在 Plan -> Build -> Test 的死循環中自我驅動。

🧠 Analysis

無限循環模式：通過 Bash 腳本將 Agent 放入一個持續改進的循環中。
雙重模式：區分 Planning (規劃) 和 Building (實施) 兩種 Prompt 策略。
持久化上下文：利用 `PROMPT.md` 和 `AGENTS.md` 在迭代間傳遞記憶。

Bash Scripting Autonomous Loop Context Persistence

chaos-lab

Research

一個多 Agent 對抗實驗框架。生成具有衝突目標的 Agent (效率 vs 安全 vs 存檔) 在同一空間內活動，用於研究 AI 對齊與湧現行為。

🧠 Analysis

AI Safety 研究：觀察智能體在目標衝突時的行為模式。
Emergent Behavior：研究多 Agent 系統中的不可預測的湧現現象。
Simulation：類似於社會模擬實驗，而非生產工具。

Multi-Agent Gemini AI Alignment

🎼 Orchestration & Workflow (編排與工作流)

這些技能關注於如何協調多個模型、角色或會話來完成複雜任務，超越了單一 LLM 的能力限制。

model-router

Routing

智能模型路由器。根據任務類型（編碼、寫作、數學）和成本策略，自動將 Prompt 路由到最合適的模型（Anthropic, OpenAI, Gemini 等）。

Python Multi-Provider Cost Optimization

hokipoki

P2P Network

P2P 模型切換網絡。允許開發者在不離開當前終端的情況下，將任務無縫「跳轉」(Hop) 到另一台機器或另一個模型的 CLI 上執行。

P2P CLI Tunneling Context Sharing

llm-council

Planning

強大的 CLI 編排器。並行啟動多個 Planner (Codex, Claude, Gemini)，匿名化方案後由 Judge 進行評審和合併，生成高魯棒性的實施計劃。

Python Parallel Execution Bias Reduction

pi-orchestration

Coordination

使用 Claude 作為指揮官 (Coordinator)，指揮多個 Pi Coding Agent 調用不同的後端模型 (GLM, MiniMax) 並行執行任務。

Pi Agent Claude Orchestrator Worker Pattern

council

Pattern

會議室模式 (Chamber Pattern)。在單個會話中切換不同的 System Persona (如架構師、分析師)，共享同一份 Graphiti 記憶，進行結構化辯論。

Single-Session Persona Switching SQLite

council-of-the-wise

Pattern

子代理模式 (Sub-agent Pattern)。根據 `agents/` 目錄下的定義，實際 Spawn 出多個子 Agent 進程來分別分析問題，最後進行合成。

Multi-Process Auto-discovery Synthesis

claude-code-wingman

Remote Control

通過 WhatsApp 遠程監控和批准 `claude-code` 會話。利用 tmux 管理多個並行任務，解決了需要頻繁人工確認的痛點。

tmux WhatsApp Integration Session Mgmt

👁️ Specialized Capabilities (視覺/語音/搜索)

擴展 LLM 的感知邊界，使其具備看、聽、說和實時搜索的能力。

nano-banana-pro

Image Gen

基於 Gemini 3 Pro Vision 的圖像生成與編輯工具。支持文生圖、圖生圖以及對現有圖片的指令式編輯 (Instruct Editing)。

Highlights

支持 1K, 2K, 4K 高分辨率生成。
具備迭代編輯工作流 (Draft -> Edit -> Final)。
直接集成於 CLI 工作流。

search-x

Real-time Data

利用 xAI (Grok) 的搜索能力，實時檢索 X (Twitter) 上的推文、趨勢和討論。支持按時間、用戶過濾。

screen-monitor

Vision

雙模式屏幕集成：WebRTC 用於快速視覺檢查，Browser Relay 用於高精度 DOM 操作與調試。

gemini-stt

Audio

使用 Gemini Pro/Flash 進行語音轉文字 (STT)。支持 OGG (Telegram)、MP3 等格式，速度快且支持多語言。

openai-tts

Audio

OpenAI 語音合成 (TTS) CLI。生成高質量的語音輸出，支持 Alloy, Echo 等多種音色。

openrouter-transcribe

Audio

利用 OpenRouter 上支持音頻輸入的模型 (如 GPT-4o-Audio) 進行轉錄，Whisper 的靈活替代方案。

openai-image-gen

Image Gen

DALL-E 3 批量圖像生成器。包含一個本地 HTML 畫廊用於預覽生成的圖片。

perplexity

Perplexity AI 搜索 API 封裝。提供帶有引用來源 (Citations) 的高質量 AI 搜索結果。

🧠 Meta-Skills & Self-Improvement (元技能與自我進化)

這些技能不直接解決具體任務，而是提升 Agent 的「認知能力」，包括自我反思、需求澄清和學習機制。

self-improvement

Evolution

Agent 的長期記憶與進化系統。記錄錯誤、糾正和新知識到 `.learnings/`，並將高價值經驗晉升到全局知識庫，防止重蹈覆轍。

Key Concept

Learning Loop：錯誤 → 記錄 → 晉升 → 應用。
Knowledge Promotion：從臨時日誌到 `CLAUDE.md` / `AGENTS.md` 的知識固化。
Area Tags：分類管理前端、後端、架構等不同領域的經驗。

ask-questions-if-underspecified

Alignment

防禦性 Agent 協議。當用戶指令模糊時，強制暫停並提出澄清問題，而不是盲目執行。避免「瞎忙」和錯誤假設。

multi-viewpoint-debates

Decision Making

召喚三個具有截然不同價值觀 (Elon, Capitalist, Monkey) 的人格進行辯論。通過強制的觀點衝突來暴露決策盲點。

adversarial-prompting

Analysis

系統化的紅隊分析 (Red Teaming)。強制執行「生成 → 批判 → 修復 → 驗證」的 7 階段流程，用於高風險問題的嚴謹求解。

research-tracker

Management

用於管理自主研究 Agent 的狀態機。提供心跳監測、指令隊列和日誌記錄，確保長運行的 Agent 不會失控或迷失。

smart-followups

生成上下文相關的後續問題建議 (Quick, Deep Dive, Related)。提升對話的探索性和深度。

personas

Roleplay

高級角色扮演引擎。支持 30+ 種預設人格 (Dev, Chef, Doctor...)，並支持自定義人格創建與切換。

🛠️ Utilities & CLIs (實用工具)

針對特定平台或單一功能的實用工具與 API 封裝。

openai-docs-skill

Docs

通過 MCP 服務器查詢 OpenAI 官方文檔。獲取最新的 API 變更、Realtime API 用法等權威信息。

oracle

Context

代碼審閱打包工具。將 Prompt 與關鍵文件智能打包，發送給另一個模型 (Oracle) 進行第二意見諮詢。

recipe-to-list

Lifestyle

智能食譜轉換器。從圖片或網頁提取食材，智能比對並合併到 Todoist 購物清單，同時建立本地食譜庫。

antigravity-quota

Monitoring

監控 Antigravity 帳戶的 Claude/Gemini 配額使用情況。支持生成報表圖片。

claude-oauth-refresher

Auth

macOS 專用工具。利用 Keychain 自動刷新 Claude CLI 的 OAuth Token，確保持續運行。

minimax-usage

Monitoring

監控 MiniMax Coding Plan 的額度使用情況。

de-ai-ify

Writing

去 AI 化寫作工具。移除 "In today's fast-paced world" 等 AI 慣用語，還原人類自然的語氣。

xai

Wrapper

xAI (Grok) API 的基礎封裝，支持對話與視覺功能。

lmstudio-subagents

Local LLM

將簡單任務卸載給本地運行的 LM Studio 模型，節省成本並保護隱私。

gemini

CLI

Google Gemini API 的標準 CLI 封裝。

research

Workflow

後台研究工具。使用 Gemini CLI 在子進程中運行研究任務，不佔用主 Agent 的上下文。