March/ablation/exp1-3

2025.03.06.

March/ablation/exp1-3

Inpainting Enhancing

이미지가 뿌옇게 보임 → U-Net, RIR의 과한 Upconv, Data Size가 요인일 수 있음
이미지가 아예 다른 scene으로 인코딩 되는 경우 존재 → rep. learning이 향상되어야 함
약간 CV model, RIR model의 인코딩 성능 (너무 Basic) → 찾아서 적용하기
FiLM에만 positional encoding을 의존함 → 약한 연결관계 + 파노라마의 상대적 위치를 제공하지 않아서 모델이 implicit한 정보를 바탕으로 학습해야 함
파노라마 이미지의 끝과 반대 끝이 contiuous하고, closed room이라는 것을 implicit하게 학습하고 있어서 학습이 어려움
가로 축으로 local/glocal context를 가지는 것이 어려운 구조 (Only 3x3Conv. → Extremely Local context)
- 실제로 Only CV 모델의 경우 마스킹 좌우 픽셀을 연속적으로 잇도록 이미지를 생성하는데 집중한 것과 같은 결과를 보임 (그래서인지 검정과 검정 사이 흰 색이 마스킹된 경우, 검은색으로만 마스킹 영역을 채움 vice versa)
- 제대로 모델 설계 시 핵심 차이는 Only Depth → 경험 기반 확률 추론 (낮은 확률), With RIR → 물리적 특성 기반 디테일 측면에서 확률적으로 장면 구성 (높은 확률)일 듯
Latent가 전체 Depth의 평균으로 수렴함 → 그래서 확실한 강조 표현을 못하는 듯
- Latent와 depth간 Contrastive나 adversarail loss가 필요함