spade_title.png
Abstract
Semantic mask를 photorealistic image로 변환하는 기존의 네트워크들에서 normalization layer가 semantic information을 소실시키는 문제가 있음을 보이고, 이를 해결하기 위한 spatially-adaptive normalization layer를 제안한다.
COCO-Stuff, ADE20K, Cityscapes 등의 데이터셋에서 기존의 방법들보다 생성 결과가 좋았고, ablation study를 통해 spatially-adaptive normalization layer가 효과적임을 입증하였다.
Related Work
Unconditional Normalizations
uncond_norms.png
위 그림은 CNN에서의 몇가지 normalization 방법들이 동작하는 차원 축들을 비교한 것이며, 자세한 설명은 다음과 같다. (CNN이 아닌 다른 NN에서는 channel 축을 feature 축으로 보면 됨)
위 방법 모두 최적의 normalization 정도를 조절하기 위한 learnable parameters
γ,β를 학습하는 과정이 포함된다.
Conditional Normalizations
Conditional normalization 방법들은,
γ,β를 찾는 과정에서 external data를 사용한다는 점이 기존의 normalization 방법들과 다르며, 다음과 같은 방법들이 있다.
Semantic Image Synthesis
Spatially-adaptive denormalization
fig_2.png
Figure 2는 본 논문에서 제안하는 SPatially-Adaptive (DE)normalization (SPADE)를 나타낸 것이며, 동작 방식은 다음과 같다.