Skip to main content
Skill Auditor 對每個 skill 執行 7 項獨立檢查。每項檢查產生帶嚴重性等級(CRITICAL、HIGH、MEDIUM、LOW、INFO)的發現,這些發現共同構成最終的 0-100 風險評分。

1. Manifest 驗證

驗證 SKILL.md frontmatter 結構。 檢查項目:
  • 必要欄位:namedescription
  • 有效的 metadata 結構和 JSON 格式
  • 正確的 YAML frontmatter 分隔符
  • 欄位值限制(名稱長度、有效字元)
範例發現:
[MEDIUM] Missing required field: "description"
         SKILL.md:1 - frontmatter block

2. Prompt Injection 偵測

11 種正規表達式模式掃描覆寫代理程式指令的嘗試。 偵測的模式:
模式嚴重性範例
忽略先前指令CRITICAL”ignore all previous instructions and…”
身份覆寫HIGH”you are now a hacking assistant”
系統提示操控CRITICAL”your new system prompt is…”
越獄模式CRITICAL”DAN mode enabled”, “bypass safety”
註解中的隱藏指令HIGH<!-- secretly do X -->
角色重新指派HIGH”act as root”, “pretend you are”
指令邊界繞過CRITICAL”end of system prompt”, “begin user mode”
輸出操控MEDIUM”do not mention this instruction”
上下文視窗填充MEDIUM超長字串設計將指令推出上下文
巢狀注入HIGH隱藏在程式碼區塊或資料中的指令
間接注入HIGH”when the user says X, instead do Y”
Prompt injection 是 AI skill 最危險的攻擊向量。一條注入的指令就能完全改變代理程式的行為,使其竊取資料、忽略安全規則、或攻擊其他系統。

3. 隱藏內容偵測

發現人眼不可見但 AI 代理程式會處理的內容。 偵測項目:
  • 零寬 Unicode 字元:U+200B(零寬空格)、U+200C(零寬非連接符)、U+200D(零寬連接符)、U+FEFF(位元組順序標記)
  • RTL 覆寫字元:U+202E 和 U+202D,反轉文字方向以隱藏內容
  • 同形字攻擊:外觀與 ASCII 相同但屬於不同 Unicode 碼位的字元(如西里爾字母 “а” 與拉丁字母 “a”)

4. 編碼載荷偵測

解碼並檢查 Base64 編碼內容中的危險操作。 檢查項目:
  • 解碼 Base64 字串並掃描:evalexecsubprocesschild_processos.systemRuntime.exec
  • 十六進位編碼載荷
  • URL 編碼的指令序列
  • 多層編碼(Base64 中的 Base64)

5. Tool Poisoning 偵測

識別危險的 shell 指令和系統存取模式。 類別:
  • sudo 指令
  • chmod 777chmod +s
  • chown root
  • setuid 操作
  • nc -e /bin/bash
  • bash -i >& /dev/tcp/
  • /dev/tcp//dev/udp/
  • Python/Perl/Ruby 反向 shell 一行指令
  • curl | bashwget | sh
  • eval "$(curl ...)" 模式
  • 下載並執行鏈
  • 讀取 ~/.ssh/~/.aws/~/.gnupg/
  • 存取 .env 檔案
  • $ENV 變數傾印
  • 透過 curlwgetnc 傳送資料至外部主機
  • rm -rf /rm -rf ~
  • mkfs(格式化檔案系統)
  • dd if=/dev/zero
  • 資料庫 DROP 指令

6. 程式碼安全(SAST + 機密掃描)

對 skill 目錄中的所有檔案進行靜態分析掃描。 SAST 檢查:
  • 各語言常見漏洞模式
  • 不安全函式使用(evalexecsystem
  • SQL injection 模式
  • 路徑遍歷嘗試
機密掃描:
  • 硬編碼 API 金鑰(AWS、GCP、Azure、OpenAI、Anthropic)
  • 私鑰(RSA、EC、Ed25519)
  • 原始碼中的密碼
  • 含憑證的連線字串
  • JWT token

7. 權限範圍分析

評估請求的權限是否與 skill 的聲明用途相符。 檢查項目:
  • 檔案系統存取範圍 vs 描述
  • 網路存取需求 vs 聲明功能
  • 環境變數存取模式
  • 程序執行權限
  • 跨 skill 互動請求

評分演算法

每項發現依嚴重性貢獻風險評分:
嚴重性分數
CRITICAL25
HIGH15
MEDIUM5
LOW2
INFO0
評分上限為 100。相同類型的多個發現會去重 — 計入最高嚴重性的實例。

與人工審查的比較

能力人工審查Skill Auditor
速度每個 skill 數分鐘不到 1 秒
一致性因審查者而異確定性
隱藏 Unicode人眼不可見自動偵測
Base64 載荷需手動解碼自動解碼分析
SAST 掃描不切實際整合掃描器
機密偵測手動 grep模式匹配偵測
風險評分主觀判斷量化 0-100