Basic Ablation: 25.01.16.~ | Notion

Preview

Train/Val Dataset, learning rate = 1e-4, BS = 1, loss rate = 1:1 (RGB + Depth loss), random mask
Vanilla
Vanilla (1) → RGB → Depth → RGB
Partial GEN + Given Masked Image → estimated_img
Vanila, 1D RIR input
latent_feature + raw_img [3 x 32 x 64] * 32 (scaling)
ResNet18 Pyramidal Layer (128+128+128+128)
(masked_img + estimated_img)/2 → estimated_img
(5) + (6) + (7) (similiar to U-Net)

RIR 정보의 효과적인 Injection Method Study는 모델 비교 다음 단계이다. (Now: Non-regardless)

Summary

RIR은 1D보다 2D STFT가 낫다. Why? CV task는 큰 정보를 생성해야 하는데 STFT가 1D보다 많은 정보를 얻을 수 있기 때문이라고 생각한다. (exp1 vs. exp4)
mask된 부분만 원래 이미지에 넣어서 훈련하는 것과 entire 이미지를 생성하는 것은 비슷하다. 오히려 전체 이미지를 생성하는 것이 조금 더 좋아 보인다. (exp1 vs. exp3)

exp1 | Not Bad: 괜찮은 성능을 보임 (다만 같은 그림인가 싶은 때가 있음)

Vanilla code (basic2 code)

		Train DT = Train	Val DT = Val	lr = 1e-4