Preview

  1. Train/Val Dataset, learning rate = 1e-4, BS = 1, loss rate = 1:1 (RGB + Depth loss), random mask
  2. Vanilla
  3. Vanilla (1) → RGB → Depth → RGB
  4. Partial GEN + Given Masked Image → estimated_img
  5. Vanila, 1D RIR input
  6. latent_feature + raw_img [3 x 32 x 64] * 32 (scaling)
  7. ResNet18 Pyramidal Layer (128+128+128+128)
  8. (masked_img + estimated_img)/2 → estimated_img
  9. (5) + (6) + (7) (similiar to U-Net)

RIR 정보의 효과적인 Injection Method Study는 모델 비교 다음 단계이다. (Now: Non-regardless)


Summary

  1. RIR은 1D보다 2D STFT가 낫다. Why? CV task는 큰 정보를 생성해야 하는데 STFT가 1D보다 많은 정보를 얻을 수 있기 때문이라고 생각한다. (exp1 vs. exp4)
  2. mask된 부분만 원래 이미지에 넣어서 훈련하는 것과 entire 이미지를 생성하는 것은 비슷하다. 오히려 전체 이미지를 생성하는 것이 조금 더 좋아 보인다. (exp1 vs. exp3)

exp1 | Not Bad: 괜찮은 성능을 보임 (다만 같은 그림인가 싶은 때가 있음)

Vanilla code (basic2 code)

Train DT = Train Val DT = Val lr = 1e-4