Preview

  1. 비전과 오디오 인코더를 ResNet34로 교체함

Attention 수행을 위한 주춧돌


loss 설명 (ratio)

context: Entire Depth (1) (exp1, 2 → 0.4)

recon: Target Depth (0.2)

structural: SSIM Depth (exp1, 2 → Entire Depth) (0.1)

latent: MSE(latent, GT_depth) (0.005)

DepthGAN: PatchGAN Target Depth (0.01)

Why ResNet34?

  1. U-Net의 Contracting path에는 다른 연구도 보통 ResNet 34를 사용한다.
  2. ResNet 18보다 성능이 좋다는 것이 여러 CV task에서 이미 밝혀진 사실이다.
  3. 비전-오디오 대칭성을 맞춰 분석이 용이하게 두 인코더를 ResNet 34 1D, 2D로 구성했다.

Summary