Study Thread Study Thread — Papers & Math Foundations
Papers, math foundations, and reference reading behind the PLE architecture — studied and summarized in parallel English/Korean.
[Study Thread] PLE-1 — MTL과 게이트드 전문가로의 진화 (Shared-Bottom → MMoE)
멀티태스크 학습의 뿌리 — 추천 시스템이 왜 수십 개 타겟을 동시에 예측해야 하는가, Negative Transfer 의 수식적 모습, Shared-Bottom 과 MMoE 가 각각 어디서 무너지는가. PLE 가 풀어낸 지점으로 가기 전의 도입편.
[Study Thread] PLE-2 — Progressive Layered Extraction: 명시적 전문가 분리와 CGC 게이트
MMoE 의 Expert Collapse 가 끝난 지점에서 시작 — PLE 가 이어서 내린 세 가지 결정: Shared/Task Expert 명시적 분리, 이종 Shared Expert 풀, 태스크마다 각 전문가를 얼마나 쓸지 학습하는 CGC 게이트.
[Study Thread] PLE-3 — 7명의 전문가를 소개합니다: 각 Expert 가 고객을 어떤 수학적 렌즈로 보는가
왜 7명인가, 왜 이 7명인가 — 자리별로 어떤 수학적 빈틈을 메우는지 (DeepFM · Temporal · HGCN · PersLay · LightGCN · Causal · Optimal Transport), 어떤 후보들을 밀어냈고 왜 이 사람이 뽑혔는지 하나씩.
[Study Thread] PLE-4 — CGC 게이팅의 두 단계(CGCLayer + CGCAttention)와 HMM Triple-Mode 라우팅
7명 이종 전문가를 실제로 학습시키면 동시에 두 문제가 드러난다 — 128D 전문가로 쏠리는 dim-asymmetry collapse 와 고객이 단일 시간 스케일에 살지 않는다는 사실. 해법은 2단계 CGC 게이트 (CGCLayer + CGCAttention) 와 HMM Triple-Mode 라우팅.
[Study Thread] PLE-5 — GroupTaskExpertBasket · Logit Transfer · Task Tower
라우팅이 안정된 뒤 task-private 쪽에 남는 세 결정 — 태스크별 전용 전문가 메모리(GroupTaskExpertBasket), 태스크 간 명시적 의존(Logit Transfer 3 모드), 그리고 최종 Task Tower 의 손실 균형.
[Study Thread] PLE-6 — 해석성·불확실성·전체 사양
PLE 서브스레드 마지막 — 전문가 해석성을 위한 Sparse Autoencoder, 예측별 불확실성을 정량화하는 Evidential Deep Learning, 18개 태스크 전체 사양과 논문 대 구현 비교. 56쪽 PLE 기술 참조서 PDF 첨부.
[Study Thread] ADATT-1 — adaTT 동기: 적응형 타워와 Transformer Attention 의 유사성
adaTT 서브스레드 시작 — 멀티태스크 학습에서 고정 타워가 닿는 한계, Transformer Attention 이 적응형 타워 문제를 재해석하는 방식, 그리고 조건부 계산·Hypernetwork 계보에서 adaTT 의 위치.
[Study Thread] ADATT-2 — TaskAffinityComputer와 Gradient Cosine Similarity
TaskAffinityComputer — 태스크 간 친화도를 실제로 측정하는 엔진. Gradient cosine similarity 수식과 EMA 평활화, 유클리드 거리 대신 코사인을 쓰는 이유, 그리고 `torch.compiler.disable` 로 처리한 gradient 추출 경로.
[Study Thread] ADATT-3 — Transfer Loss · Group Prior · 3-Phase Schedule
adaTT Transfer Loss 전체 — 전이 가중치와 G-01 Clamp·target 미존재 태스크 마스킹, 태스크 그룹 기반 Prior 행렬과 Prior Blend Annealing, 3-Phase Schedule (Warmup → Dynamic → Frozen), Negative Transfer 감지·차단 메커니즘.
[Study Thread] ADATT-4 — 학습 루프·Loss Weighting·Optimizer·CGC 동기화
adaTT 서브스레드 마무리 — 2-Phase Training Loop, Loss Weighting 전략 (Uncertainty · GradNorm · DWA), Optimizer · Scheduler 설정, CGC ↔ adaTT 동기화, 메모리·성능 노트. adaTT 기술 참조서 PDF 첨부.