///
Search
Duplicate
🖼️

Learning to Cartoonize Using White-box Representations

Created
2021/07/04 07:06
발표일자
2020/11/16
발표자
김승일
Tags
GAN
StyleTransfer
✅main
포스팅 종류
논문리뷰
작성자 : 김승일(모두의연구소 연구소장)
발표일 : 20201116 at DeepLAB 논문반

학습자료

논문 링크
함께 보면 좋을 참고자료
Guided Image Filter
Bilateral Filter와 Guided Filter(한글)
Selective Search

논문 요약

목표

Image를 Cartoon 처럼 filtering 하는 알고리즘을 만들어 보겠다. 근데 cartoon 작가의 insight를 활용하겠음(인공지능에게만 맡기는 black-box모델이 아닌, 사람의 인사이트를 넣어서 white-box 라고 표현한 듯)

아이디어

cartoon 작가에게서 cartoon 색칠하는 것에 대한 인사이트를 컨설팅 받아서 진행해보니 크게 cartoon 색칠은 크게 3가지 방식으로 구성되더라.
Surface Representation
image의 smooth한 surface를 표현. cartoon 작가들이 detail하게 retouch하기 전에 대충 draft(composition draft)를 만드는 것에서 착안
Structure Representation
sparse color block를 표현(블럭 색칠).
celluloid cartoon style에서 착안.
Celluloid Cartoon Painting
Texture Representation
color와 무관한 high-frequency textural details 및 edge를 표현
Sturcture and Texture Representation

Method

Overview

Image를 3개의 representation으로 쪼개고, catoonized result를 얻기 위한 가이드 사용한다.
실제 시스템 구성도

Learning From the Surface Representation

Image Smoothing을 위해 Guided Filter 를 사용
Gaussian : edge가 안살고 뭉개짐
Bilateral : edge는 살지만, 연산 속도 및 왜곡의 문제가 발생

Learning From the Structure Representation

Felzenszwalb의 Superpixel image segementation 방법을 활용 + Selective Search
Region의 컬러값을 평균으로 취하지는 않고, adaptive하게 결정
평균으로 할 경우 darken images, hazing effect (뿌옇게 되기) 가 최종적으로 나오는 등 안좋은 효과가 있어서 바꿈.
Structure Loss는 Structure perceptual loss로 구성됨.

Learning from the Textural Representations

High-frequency feature를 표현하는 부분
real world photo와 cartoon은 color와 luminance 정보로 너무 쉽게 판별이 가능하므로, 합쳐서 흑백 이미지로 만듬 + random하게 RGB를 섞음
β\beta 는 (-1,1) uniform r.v.
Textural Loss

Full Loss

Content Loss cartoon 결과 이미지가 input 이미지와 semantically invariant하게 만드는 Loss
Total Variance Loss high-frequency noise(ex. salt-and-pepper noise)를 제거하기 위한 Loss

Experimental Results