Preview

  1. 1e-4, GD (1 data per batch), Only Depth Estimate, Masked Image for Input (Inpainting)
  2. U-Net Vanilla
  3. U-Net + RIR latent (simple)
  4. U-Net + RIR latent (upgrade_1)

RIR Injection Method Study


Summary

  1. (1), (2) 분석은 URP/일시점검/250224
  2. RIR latent Injection한 모델이 Context를 고려한 Inpainting을 잘함
  3. Small DT가 Overfit되는 의문이 제기됨 (너무 데이터가 적고 비슷함)

exp1 | Only U-Net

순수 이미지만 이용한 복원 작업

Small DT Train DT = Train Val DT = Val lr = 1e-4
RIR Latent Audio Image Model Image Others
None 1D U-Net Full Image Batch Size = 1

exp2 | Simple latent

이미지 + RIR latent (mic의 각도과 거리를 이용한 FiLM 돌림)