[Commentary] 예측마다 신뢰도를 묻는다 — Causal Guardrail 과 Mahalanobis 거리

MRM 스레드 3편이 “감사 로그가 위변조 없이 남는다” 는 층을 다뤘다면, 이번 Commentary 는 그보다 한 단계 아래 — 하나의 예측 이 신뢰할 만한지를 구조적으로 판정하는 층을 다룬다.

로그 무결성과 예측 신뢰도는 다른 질문이다

MRM Ep 3 에서 7개 감사 테이블과 HMAC 해시 체인이 보장하는 것은 집계 수준의 무결성 이다. “2026-04-15 14:37 에 고객 X 에게 모델 v143 이 어떤 피처 조합으로 어떤 상품을 추천했는가” 를 15개월 뒤에도 재구성할 수 있다. 체인이 깨지지 않았음은 AuditAgent 가 매일 검증한다.

그런데 재구성된 결과를 들여다볼 때, 감독 당국이 이어서 던지는 두 번째 질문이 있다. “이 예측이 신뢰할 만한 예측이었는가?”

집계 수준에서 답할 수 있는 건 “모델 v143 의 전체 AUC 는 0.82 였다” 정도다. 하지만 질문 대상이 된 그 고객 하나의 예측에 국한하면, 전체 AUC 는 의미가 없다. 그 예측이 모델이 학습한 분포 안에 있었는지, 아니면 학습 분포 바깥(OOD)에서 모델이 자신 없는 추정을 한 것인지 는 별개의 판정이다.

Causal Guardrail 은 이 질문에 답하는 예측-단위 지표다. Paper 3 의 Finding 10 / 11 에서 다뤄진 설계이며, Ep 4 에서 언급한 7 전문가 중 Causal expert 의 latent space 위에서 작동한다.

Mahalanobis 거리 — OOD 탐지의 얇은 원리

Guardrail 의 핵심은 단순하다. Causal expert 가 학습 단계에서 본 latent 분포의 평균 벡터(μ) 와 공분산 행렬(Σ) 을 계산해 둔다. 새 예측이 들어올 때마다 그 예측의 latent 벡터 z 에 대해 Mahalanobis 거리를 계산한다.

d_M(z) = sqrt( (z - μ)^T · Σ^(-1) · (z - μ) )

유클리드 거리와 차이는 공분산으로 축을 정규화한다 는 점이다. 학습 latent 분포가 타원형이면 타원을 따라 가까움/멂을 측정하고, 구형이면 구형을 따라 잰다. 분포가 관찰된 축에 따라 “가까움” 의 기준이 달라진다.

학습 분포 안쪽에 있는 예측은 Mahalanobis 거리가 작다 (±2σ 범위는 대부분 d_M ≈ 1–2). 학습 분포 바깥 에서 발생한 예측 — 전혀 본 적 없는 피처 조합, 드문 세그먼트, 외삽(extrapolation) 이 필요한 영역 — 은 d_M 이 크게 튄다. 임계치를 넘는 예측은 신뢰도 플래그 가 붙어 감사 로그에 함께 쓰인다.

합성 probe 에서의 목표 — 100% TPR @ 5% FPR

이 층이 얼마나 쓸 만한지는 학습 분포 안과 밖을 인위적으로 섞어본 실험으로 확인했다. 합성 데이터에 학습 분포와 겹치지 않는 OOD 샘플 소수를 주입한 뒤, Guardrail 이 그 OOD 샘플을 얼마나 잘 플래그하는지 측정했다.

결과는 거의 깔끔하게 갈렸다. 5% FPR (False Positive Rate — 정상 샘플을 잘못 플래그할 확률) 임계치에서 100% TPR (True Positive Rate — 진짜 OOD 를 정확히 잡아내는 확률). 실 프로덕션 분포에서 이 숫자가 그대로 재현될지는 2026-04-30 이후 누적되는 트래픽으로 검증해야 하지만, 적어도 학습 분포의 기하학적 구분 이라는 과제에서는 Mahalanobis 기반 탐지가 충분히 강력하다는 합성 증거는 확보됐다.

CEH Attribution 과의 쌍 — 규제 대응의 완성된 답

Guardrail 단독으로는 반쪽짜리다. 진짜 규제 대응 가치는 CEH (Causal Explainability Head) attribution 과 쌍을 이룰 때 나온다. Paper 3 Finding 9 · Paper 2 v2 에서 도입된 이 attribution 레이어는 각 예측이 어느 피처에 의해 어떻게 결정되었는지 를 causal 관점에서 분해한다.

두 층이 함께 감사 로그에 쓰이면, 감독 당국의 분쟁 질의에 대한 답의 형태가 바뀐다.

CEH attribution → “왜 이 고객에게 이런 추천을 했는가”
Causal guardrail → “그 추천을 신뢰해도 되는가”

CEH 만 있고 guardrail 이 없다면 — 설명은 있지만 그 설명이 학습 분포 바깥 에서의 외삽에 근거한 것일 가능성이 숨어 있다. Guardrail 만 있고 CEH 가 없다면 — “이 예측은 신뢰도가 낮습니다” 라는 플래그만 있고 왜 라는 질문에 답하지 못한다. 두 층이 같은 Causal expert 의 같은 forward pass 위에서 동시에 계산되어 감사 로그로 간다는 것이 이 설계의 핵심이다.

감사 로그로의 편입

구현 관점에서 guardrail 결과는 별도 테이블이 아니라 Ep 3 의 log_guardrail 에 쓴다. 엔트리 스키마는 이미 Safety Gate 의 규제 키워드 검사 결과를 위해 정의되어 있고, guardrail 출력(거리 값, 임계치 통과/미달, 관련 latent 통계 요약) 은 추가 필드로 들어간다. HMAC 서명은 다른 log_* 엔트리와 동일한 체인에 연결된다.

15개월 뒤 감독 당국이 특정 예측에 대한 신뢰도 판정 이력을 요청하면, log_guardrail 에서 해당 예측 ID 로 필터링해 guardrail 결과와 CEH attribution 을 함께 끌어오는 SQL 한 줄이 답이 된다. 별도의 “신뢰도 리포트 시스템” 을 만들지 않아도, 매 예측마다 두 층이 자동으로 남기는 엔트리가 누적된다.

한계와 다음 질문

Mahalanobis 기반 OOD 탐지는 학습 분포의 1·2차 모멘트 (평균과 공분산) 만 쓴다. 분포가 다봉(multi-modal) 이거나 심하게 비가우시안일 때 — 예를 들어 세그먼트별로 완전히 다른 피처 패턴이 존재할 때 — 단일 μ, Σ 로는 경계가 흐려질 수 있다. 이 경우 세그먼트별 분리 Mahalanobis 또는 density-based OOD (예: normalizing flow 기반) 로 확장이 필요하다.

또한 임계치 선택 자체는 운영자 판단의 영역이다. 5% FPR 가 “합리적” 인지는 도메인과 리스크 허용도에 달렸다 — 보수적으로 2% FPR 를 잡으면 true positive 도 일부 줄어드는 trade-off 가 생긴다. 임계치는 config 로 관리되고, 변경은 PR 경로로 감사 로그에 남는다 (Ep 6 의 임계치 관리 원칙과 동일).

실 프로덕션 트래픽이 쌓이면 합성 probe 에서 확인한 100% / 5% 수치가 실데이터에서 어떻게 바뀌는지 측정하고, 필요하면 임계치 또는 탐지 구조 자체를 재조정한다. 이 과정 자체가 분기 MRM 심사의 대상이 될 것이다.

MRM 위원회의 새 심사 항목

Guardrail 이 도입되면서 분기 심사표에 한 줄이 더 붙는다 — “이번 분기에 신뢰도 플래그가 붙은 예측 건수, 그리고 그중 사후에 실제로 문제가 된 비율”. 플래그가 많이 붙는데 사후 문제가 거의 없다면 임계치가 너무 엄격한 것이고, 플래그가 적은데 고객 분쟁이 잦다면 임계치가 느슨하거나 탐지 구조 자체가 부적합한 것이다. 운영 지표가 감사 지표로 자연스럽게 넘어간다.

감사 로그는 무결하게 남고, 각 예측은 신뢰도 값을 동반한다. 그 둘이 함께 저장되어 있을 때에야 비로소 “15개월 뒤 이 예측이 왜·어떻게·얼마나 신뢰 가능하게 나왔는가” 가 한 번의 쿼리로 답해진다. 집계 무결성과 예측 단위 신뢰도는 다른 질문에 답하는 두 층이고, 두 층이 같은 감사 체인 안에 들어 있다는 점이 이 Commentary 의 요지다.

원문 자료: Paper 2 (Zenodo) v2 § CEH, Paper 3 Findings 10-11 (WIP), 구현은 오픈소스 레포.