Host · Permissions
LLM 자율 검토 모드
Reviewer 모드 4종 중 'llm' 모드. 단순 정적 규칙으로는 잡기 어려운 위험 패턴 (자연어 reason, 인자 정황, cross-tool chain) 을 LLM 이 보조 평가합니다. 평가 결과는 권고일 뿐 — 실제 결정은 호스트가 사용자 grant + RiskLevel 과 결합해 내립니다.
src/permissions/reviewer/risk-classifier.ts
modes: disabled · rule · llm · strict
disabled
LLM 검토 끔. 정적 규칙 (RiskLevel × Category × grant) 만 적용.
rule
정적 규칙 기반 권고. LLM 호출 없음 → 빠름.
llm
LLM 이 인자 + reason + 컨텍스트를 보고 권고 발사. medium/high 도구 호출 시 활성.
strict
모든 medium/high 액션을 사용자 다이얼로그 강제. 자동화 최소화.
언제 LLM 검토가 발사되나요?
- 도구 호출 시점, reviewer 가 RiskLevel ≥
medium으로 분류한 경우. - cross-plugin
callToolchain 에서 권한 범위가 매니페스트pluginAccess와 일치하는지 확인. hostApi.agentApproval.request가 호출된 cross-plugin 위험 액션 — reason + scope 를 LLM 이 검토.
LLM이 직접 변경할 수 없는 것
- 도구 RiskLevel — 메타로 고정. LLM 결과로 격하할 수 없음.
- 도구 Category (
read | write | shell | network | meta) — manifesttoolSchemas.<tool>.category고정. - 사용자 grant — 사용자만 변경 가능.
No-fallback 룰
LLM 권고가 자동 실행을 허용해도 정적 규칙이 차단하면 차단이 우선. 우회/fallback 으로 위험 액션을 실행시키는 코드는 작성하지 않습니다. 대신 risk meta 자체를 수정하거나, 도구를 read/write 로 분리하거나, agentApproval 흐름을 명시적으로 거치는 것이 정답.