[4개월 개발기] 에피소드 4 — 일곱 전문가: 11개 학문에서 구조적 동형사상을 차용하다

“4개월간의 금융 AI 개발기” 4편. 에피소드 1에서 ‘이종 전문가 네트워크’라는 뼈대가 PLE(Progressive Layered Extraction) 구조로의 발상의 전환에서 비롯되었다고 언급했다. 에피소드 2에서는 이 과정에서 ‘구조적 동형사상’이라는 빛나는 아이디어가 도출되었음을 다루었다. 이번 편에서는 그 추상적이었던 개념들이 구체적으로 어떻게 7개의 전문가 네트워크로 귀착되었는지, 그 치열한 선택의 과정을 낱낱이 분석한다.

왜 하필 7명인가

처음부터 “전문가는 7개로 가자”라고 숫자를 못 박고 시작한 것은 아니었다. “충분히 이질적이고 다채로운 수학적 관점이 과연 몇 개나 필요한가?”라는 질문에서 출발했고, 수많은 검증과 탈락을 거친 끝에 남은 최종 결과물이 7이었을 뿐이다.

초기 후보군에는 10개가 훌쩍 넘는 다양한 모델들이 테이블 위에 올라와 있었다. 학제 간 탐색을 통해 무려 11개 분야의 수학적 구조들이 물망에 올랐다. 하이퍼볼릭 기하학, 화학 반응 속도론, SIR 전염병 확산 모델, 최적 수송(Optimal Transport) 이론, 지속 호몰로지(Persistent Homology), 구조적 인과 추론, 그래프 이론, 상태 공간 시계열, 내적/어텐션(Dot-product/Attention) 메커니즘, 팩터라이제이션 머신(Factorization Machine), 가우시안 혼합(Gaussian Mixture) 모델 등이 그것이다.

이 치열한 경쟁 속에서, 오직 7개의 구조만이 12GB VRAM이라는 팍팍한 예산과 공통된 태스크 처리 기반 위에서 **“서로 완전히 다른 수학적 관점으로 데이터를 바라본다”**는 까다로운 조건을 통과했다. 나머지 4개는 즉시 기각되었다.

기각된 후보들과 그 이유:

Mamba (Selective State Space) 단독 모델: 17개월 치의 방대한 고객 시퀀스 데이터를 처리하기에는 메모리 소모가 너무 극심했다. 결국 단독 모델로는 기각되고, 이후 Temporal Ensemble 전문가의 내부 부품으로 흡수되는 형태로만 명맥을 유지했다.
대형 Transformer 전문가: 거대한 파라미터 크기 때문에 12GB VRAM 환경에 7개나 쌓아 올리는 것은 물리적으로 불가능했다. 애초에 파라미터의 힘으로 억지스럽게 밀어붙이는 방향 자체를 배제했다.
가우시안 혼합 모델(Gaussian Mixture Model) 전문가: 기존에 채택된 다른 전문가들과 구조적인 역할이 겹쳤다. 이미 Causal 전문가와 OT 전문가가 데이터의 분포와 비교 관점을 훌륭하게 커버하고 있었기 때문이다.
단순 다층 퍼셉트론(MLP) 앙상블: 구조 자체가 다르지 않고 초기화(Initialization) 값만 다른 앙상블은 진정한 의미의 “이종(Heterogeneous)” 결합이 아니다. 이는 결국 전문가 붕괴(Expert Collapse)의 위험만 높일 뿐이었다.

이렇게 살아남은 7개의 정예 전문가들이 각각 어떤 수학적 빈틈을 훌륭하게 메우고 있는지 순서대로 살펴보자.

7개의 전문가가 세상을 바라보는 방식

1. DeepFM — 피처 상호작용 (Feature Interaction). 가장 평범하지만 절대 빠질 수 없는 든든한 기초 공사다. 팩터라이제이션 머신(Factorization Machine)과 깊은 신경망(Deep Network)을 결합하여 피처들 간의 복잡한 상호작용을 촘촘하게 잡아낸다. 이 자리가 바로 전체 시스템의 **베이스라인(Baseline)**이다. 다른 전문가들이 얼마나 새롭고 독창적인 성과를 내는지 측정하는 기준점이 되며, 단순한 상호작용만으로도 충분한 태스크에서는 어김없이 DeepFM이 우수한 성능을 발휘한다. 이 자리를 비워버리면 모든 전문가가 그저 “새롭고 신기한” 단순한 도구로 전락해 버려, 객관적인 비교 대상 자체가 사라지게 된다.

2. Temporal Ensemble (Mamba + LNN + PatchTST) — 시계열 동역학. 무려 17개월 치에 달하는 방대한 고객 행동 시퀀스 데이터를 소화해 낸다. 단일 아키텍처가 아니라 세 가지 시계열 모델의 영리한 앙상블이다. Mamba는 장기적인 시간 의존성을 포착하고, LNN(Liquid Neural Network)은 데이터의 비선형적인 적응 변화를 따라가며, PatchTST는 주기적인 패턴을 기가 막히게 잡아낸다. 이 세 모델이 각기 다른 시간적 구조를 분석하면, HMM(은닉 마르코프 모델) 기반의 Triple-Mode 라우팅이 현재 상황에 맞춰 똑똑하게 가중치를 분배한다.

3. HGCN — 계층 구조 (하이퍼볼릭 공간). 신용카드 가맹점 코드(MCC)는 식음료 > 레스토랑 > 한식당처럼 깊은 계층 구조(Tree)를 이룬다. 이런 트리 구조를 평범한 유클리드 공간에 억지로 추가하면 거리가 심하게 왜곡된다. 하지만 푸앵카레 원판(Poincaré ball) 모델로 대표되는 하이퍼볼릭 공간에서는 트리 구조의 임베딩이 수학적으로 너무나 자연스럽게 들어맞는다. 고객의 소비 카테고리 계층이 바로 이 곡률을 가진 공간에서 아름답게 해석된다.

4. PersLay / TDA — 위상적 형태 (Topological Shape). 위상 데이터 분석(TDA)의 핵심인 지속 호몰로지(Persistent Homology)를 활용하여, 고객의 소비 시점과 금액 분포가 그리는 형태(Shape) 자체를 정량적인 수치로 변환한다. 비에토리스-립스 복합체(Vietoris-Rips Complex)를 생성하고 이를 5-블록 다중 베타(Multi-beta) 아키텍처로 임베딩하여 파고든다. “이 고객의 지출 패턴은 매달 일정한 형태를 유지하는가, 아니면 불규칙하게 폭발하는(Bursting) 패턴을 띠는가?”와 같은 까다로운 질문에 명쾌하게 답한다.

5. Causal — 구조적 인과 추론. NOTEARS 알고리즘을 기반으로 방향성 비순환 그래프(DAG)를 학습하여, 피처들 사이에 숨겨진 인과 관계를 데이터로부터 스스로 찾아낸다. 다른 전문가들이 단순히 “이것과 저것이 겹칠 때 확률이 높다”라는 상관관계에 집중한다면, Causal 전문가는 “무엇에 개입(Intervention)해야 무엇이 변하는가?”라는 본질적인 질문에 답한다. 이는 이후 논문(Paper 2)에서 다룬 ‘반사실적 챔피언-챌린저(Counterfactual Champion-Challenger)’ 구조를 뒷받침하는 핵심이자 유일한 전문가다.

6. LightGCN — 사용자-상품 이분 그래프 (Bipartite Graph). 기존 ALS 추천기가 어렵게 수행하던 협업 필터링(Collaborative Filtering) 역할을 그래프 컨볼루션(Graph Convolution)으로 깔끔하게 대체한다. 만약 이 자리가 빠지면 “새로운 시스템이 기존 시스템의 기본 성능은 확실히 따라잡을 수 있는가?”에 대한 보증이 크게 흔들리게 된다. 즉, LightGCN은 기존 베이스라인으로의 회귀(Regression to Previous Baseline)를 든든하게 막아주는 강력한 안전장치 역할도 톡톡히 겸한다.

7. Optimal Transport (OT) — 분포 비교. 싱크혼 발산(Sinkhorn Divergence) 기법을 활용하여 두 고객(또는 고객군)의 복잡한 확률 분포 자체를 직접적으로 비교한다. Causal 전문가가 피처 간의 인과 그래프를 다룬다면, OT 전문가는 분포 자체를 하나의 거리 공간(Metric)으로 취급한다. 세그먼트의 미세한 변화 감지, 데이터의 드리프트 측정, 나아가 공정성 지표를 계산할 때 다른 전문가들과는 완전히 독립적인 신호를 묵묵히 제공한다.

”왜 이 순서로 선택되었는가”는 완전히 다른 이야기다

위의 명단은 개발 과정 끝에 살아남은 최종 리스트일 뿐, 처음부터 저 순서대로 아름답게 순차적으로 영입된 것은 결코 아니다.

가장 기본이 되는 DeepFM과 Temporal 전문가는 기존 ALS 시스템을 대체해야 한다는 현실적인 요구에 의해 필연적으로 가장 먼저 자리를 잡았다. 뒤이어 베이스라인의 안정성을 보장하기 위해 LightGCN이 합류했다. 여기까지는 일반적인 추천 시스템 관련 논문이나 교과서에서 흔히 볼 수 있는 전형적인 3종 세트다.

진짜 혁신은 HGCN, PersLay, Causal, OT가 차례로 합류하면서부터 시작되었다. 이들이 뭉치면서 비로소 우리 모델 특유의 ‘이종 전문가 풀(Expert Pool)‘이라는 강력한 정체성이 완성되었다. 아이디에이션 단계에서 “화학 반응 속도론의 공식은 고객 행동의 어떤 측면과 구조적으로 똑같이 맞아떨어지는가?”와 같은 엉뚱한 질문들을 지속적으로 던진 결과, 계층, 위상, 인과, 분포라는 네 가지 수학적 관점이 각자 독립적이면서도 상호 보완적인 훌륭한 의미를 지닌다는 단단한 합의에 도달할 수 있었다.

각 후보가 현실적으로 구현 가능한지를 따져 묻는 기술 검증 단계는 무척 가혹했다. “HGCN이 가맹점(MCC) 계층의 실제 트리 구조에서 제대로 연산될 수 있을까?”, “PersLay는 무려 17개월 치의 시계열 시퀀스를 도대체 어떤 필터를 써야 안정적인 지속 다이어그램(Persistence Diagram)으로 뽑아낼 수 있을까?”, “Causal 모듈은 349차원이나 되는 거대한 공간에서도 NOTEARS 알고리즘이 무사히 수렴할 수 있을까?” 이 모든 까다로운 질문들에 확실하게 “YES”라고 대답할 수 있는 모델만이 끝까지 살아남았다.

이러한 실현 가능성(Feasibility) 체크는 단순한 이론적 토론으로 끝나지 않았다. 철저하게 코드 중심의 검증 세션이었다. 기술적 적합성에 대한 토론이 끝나면, 곧바로 그날 오후에 최소한의 프로토타입(Prototype) 코드를 짜서 합성 데이터를 밀어 넣고 테스트를 돌렸다. 예를 들어 HGCN의 도입 여부는, 단 2시간의 치열한 세션 끝에 27차원의 얇은 가맹점 계층 슬라이스 위에서 푸앵카레 원판 임베딩을 직접 구현해 보고 손실(Loss) 곡선이 예쁘게 수렴하는 것을 두 눈으로 확인한 뒤에야 비로소 결정되었다. PersLay는 필트레이션(Filtration) 함수를 무려 3일 내내 깎고 다듬은 끝에야 다층 퍼셉트론(MLP)에 무사히 먹일 수 있을 만큼 안정적인 다이어그램을 뽑아낼 수 있었다. 반면 Mamba 단독 모델은 17개월 치 시퀀스를 처리하다 터져버린 터미널의 실제 OOM(Out of Memory) 에러 메시지 앞에서 변명의 여지 없이 기각되었고, 결국 Temporal Ensemble 안으로 초라하게 흡수되어야만 했다.

**‘치열한 가설 수립 → 재빠른 프로토타입 구현 → 냉혹한 숫자로 판정’**으로 이어지는 이 긴장되는 반복 패턴 덕분에, 3명뿐인 소규모 팀이 무려 7개의 전문가 아키텍처를 불과 6주 만에 모조리 검증해 낼 수 있었다. 각각의 프로토타입은 대개 300줄도 채 되지 않는 허술한 일회용 코드에 불과했지만, “아이디어 도출 → 즉각적인 테스트 → 냉정한 판정”으로 이어지는 엄청난 처리 속도야말로 최초 11개였던 후보군을 정예 7개로 성공적으로 압축할 수 있었던 가장 강력한 원동력이었다.

7개를 다 넣는 건 너무 과한(Overkill) 것 아닌가?

이 질문이야말로 제거 실험(Ablation Study) 단계에서 가장 핵심적으로 던져야 했던 질문이다. 우리는 v12 이터레이션(Iteration)까지 지속적으로 반복된 무려 23가지의 제거 실험 시나리오를 통해, 각 전문가를 하나씩 고의로 빼보며 성능 변화를 전수 비교했다.

결과는 대단히 흥미로웠다. 그 어떤 전문가를 빼더라도 전체 성능(AUC)이 의미 있는 수준으로 뚝 떨어졌다. 특히 HGCN을 뺐을 때는 가맹점(MCC) 계층 구조가 짙게 녹아있는 태스크(지출 카테고리 분류, 가맹점 선호도 등)에서 성능이 곤두박질쳤다. PersLay를 덜어냈을 때는 소비 패턴의 불규칙한 폭발(Bursting)을 감지해야 하는 태스크(소비 주기 예측)에서 엄청난 하락이 발생했다. OT를 제거했을 때는 고객 세그먼트 기반의 태스크에서 어김없이 경고등이 켜졌다.

이 결과는 7개의 전문가가 결코 남는 자리를 차지한 잉여 자원이 아니라, 서로의 약점을 촘촘하게 메워주는 성공적인 상보(Complementary) 관계임을 숫자로 증명해 주었다. 단일한 수학적 관점 하나만으로는 13개나 되는 각기 다른 태스크의 거대한 이질성을 도저히 감당할 수 없다는 것이 제거 실험의 명백한 결론이었다. 요컨대, “이종 전문가의 결합”이라는 그럴듯한 논문 속 아이디어가 마침내 현장에서 실제로 원활하게 작동하는 견고한 구조로 화려하게 전환된 셈이다.

왜 이 구조가 한국 금융권의 현실에 성공적으로 들어맞는가

7개의 전문가는 제각기 대단히 가볍다(20k–200k 파라미터 수준). 이들을 전부 다 합쳐도 2M(200만) 파라미터가 채 되지 않는다. 12GB의 VRAM을 가진 평범한 RTX 4070 그래픽 카드 한 대에 7개의 앙상블 모델이 넉넉하게 다 올라갈 수 있는 비결이 바로 여기에 있다. 만약 유행을 좇아 무거운 Transformer 기반의 전문가를 7개씩 쌓으려 했다면, 단 2개도 채 올리지 못하고 메모리가 터져버렸을 것이다.

가벼운 모델 사이즈 + 구조적으로 완전히 다른 이종 결합. 이것이 바로 거대한 전담 조직을 갖추지 못한 한국 금융권의 중소 규모 팀이 현실적으로 닿을 수 있는 유일한 접근 조건이다. 수백 대의 대형 GPU 클러스터가 없어도, “해당 도메인의 깊은 지식이 아키텍처 깊숙이 박혀 있는” 수준 높은 모델을 얼마든지 만들어낼 수 있다는 의미 있는 증명이다. 해외 유명 논문에서 떠드는 거대한 “대규모 MoE(Mixture of Experts)” 패러다임을 아무런 생각 없이 그대로 베껴오는 대신, 가혹한 자원의 제약을 오히려 날카로운 무기로, 그리고 기회로 탈바꿈시킨 빛나는 설계다.

다음 편

이어지는 에피소드 5에서는, 이 훌륭한 아키텍처가 실제로 시동을 걸기 전에 반드시 해결하고 넘어가야만 했던 복잡한 문제 — 바로 ‘데이터 무결성(Data Integrity)’ 사냥에 대한 이야기를 다룬다. 모델의 성과를 교묘하게 부풀리던 레이블 리키지(Label Leakage) 3건을 연쇄적으로 탐지해 낸 과정, 18개였던 태스크를 13개로 어렵게 축소해야만 했던 배경(결정론적 리키지의 덫), 그리고 합성 데이터(Synthetic Data)를 v2, v3, v4로 끝없이 갈아엎으며 개선했던 치열한 이터레이션 과정을 생생하게 공개한다. 그 어떤 화려한 아키텍처를 선택하기 전에, 모델의 입으로 들어가는 **‘입력 데이터’**가 과연 올바른지부터 확인하고 의심해야 했던 개발 과정의 기록이다.

원문 자료: 전문가 상세 (KO, PDF)

개발 스토리 §5 “설계 철학”.