Host · Permissions

LLM 자율 검토 모드

Reviewer 모드 4종 중 'llm' 모드. 단순 정적 규칙으로는 잡기 어려운 위험 패턴 (자연어 reason, 인자 정황, cross-tool chain) 을 LLM 이 보조 평가합니다. 평가 결과는 권고일 뿐 — 실제 결정은 호스트가 사용자 grant + RiskLevel 과 결합해 내립니다.

src/permissions/reviewer/risk-classifier.ts

modes: disabled · rule · llm · strict

disabled

LLM 검토 끔. 정적 규칙 (RiskLevel × Category × grant) 만 적용.

rule

정적 규칙 기반 권고. LLM 호출 없음 → 빠름.

llm

LLM 이 인자 + reason + 컨텍스트를 보고 권고 발사. medium/high 도구 호출 시 활성.

strict

모든 medium/high 액션을 사용자 다이얼로그 강제. 자동화 최소화.

언제 LLM 검토가 발사되나요?

도구 호출 시점, reviewer 가 RiskLevel ≥ medium 으로 분류한 경우.
cross-plugin callTool chain 에서 권한 범위가 매니페스트 pluginAccess 와 일치하는지 확인.
hostApi.agentApproval.request 가 호출된 cross-plugin 위험 액션 — reason + scope 를 LLM 이 검토.

LLM이 직접 변경할 수 없는 것

도구 RiskLevel — 메타로 고정. LLM 결과로 격하할 수 없음.
도구 Category (read | write | shell | network | meta) — manifest toolSchemas.<tool>.category 고정.
사용자 grant — 사용자만 변경 가능.

No-fallback 룰

LLM 권고가 자동 실행을 허용해도 정적 규칙이 차단하면 차단이 우선. 우회/fallback 으로 위험 액션을 실행시키는 코드는 작성하지 않습니다. 대신 risk meta 자체를 수정하거나, 도구를 read/write 로 분리하거나, agentApproval 흐름을 명시적으로 거치는 것이 정답.