My Motivation
•
쌓여가는 사진 데이터를 활용한 다양한 분류기 시도 중
•
데이터는 많지만 정제된 클린 데이터셋은 많이 없음
•
노이즈 데이터셋을 어떻게 잘 활용해서 모델 성능 개선을 할 수 있을까?
What is noise label?
: 잘못 어노테이션된 레이블들
기존의 데이터에대한 생각
Robust Training에서 달성하고 싶은 목표
: 일부 노이즈한 레이블이 들어와도 노이즈에 강한 학습을 수행하자
Introduction
Preliminaries
•
Supervised Learning with Noisy Labels
◦
기존의 risk minimization process는 noise-tolerant하지 않음
◦
DNN이 오염된 레이블을 쉽게 기억할 수 있음
◦
학습된적 없는 데이터에대한 일반화가 잘 안될 수 있음
•
Taxonomy of Label Noise
◦
typical noise (independent noise)> 데이터 피쳐가 조건부독립이라 가정
▪
symmetric noise (or uniform noise)
▪
asymmetric noise: 특정 한 레이블로 더 많이 mis-label
▪
pair noise: 완전히 특정 한 레이블로 mis-label
◦
instance noise (or label-dependent noise)
▪
데이터 피쳐가 의존적이라 가정
▪
아직 연구가 잘 없음
•
Non-deep Learning Approaches
◦
Data cleaning
◦
Probabilistic method
◦
Model-based method
Deep Learning Approaches
Robust Loss Function
•
concept: 노이즈 데이터가 있어도 잘 학습되는 loss function 만들기
•
여러가지 loss functions
◦
CCE: 분류기에서 일반적으로 사용된 loss function
▪
보통은 빨리 수렴하고 일반화가 잘되는 CCE를 사용
◦
MAE: noisy label이 있으면 CCE보다 MAE가 더 좋은 성능 달성, 복잡한 데이터에대해 일반화가 잘 안됨
◦
GCE: MAE와 CCE의 이점을 수용
◦
SCE: noise tolerance를 합친 CCE
◦
CL: 0-1 loss의 surrogate loss (대리 loss??), 쉽게 multi-class classification으로 확장 가능
•
Con: 그럼에도 noisy labels에 영향을 많이 받는다고 보고됨.
•
Con: 간단한 케이스(클래스 갯수가 작거나 학습이 쉬운)에만 잘 동작.
•
Con: 새로운 loss들을 사용하면 학습시간이 증가함
Robust Architecture
•
concept: model the label transition matrix of a noisy dataset
•
Noise Adaptation Layer
◦
intended to mimic the noise behavior in learning a DNN.
⇒ DNN 학습으로 노이즈를 모방
◦
학습중에는 noise adaption layer를 모델 top에 쌓아서 학습
◦
학습 끝나고 테스트에서는 noise adaptation layer 제거하고 사용
◦
con: noise adaptation layer는 복잡한 레이블 노이즈에 취약
•
Dedicated Architecture
◦
noise adaptation layer의 약점을 극복하기위해
◦
to increasing the reliability of estimating the label transition probability to handle more complex and realistic label noise.
◦
research
▪
probabilistic noise modeling:
▪
masking:
•
Con: 노이즈 타입에대한 가정이 강한편
Robust Regularization
•
have been widely studied to improve the generalizability of a learned model
•
methods:
◦
일반적으로 사용하고 있는 방법
▪
data augmentation, weight decay, dropout, batch normalization, adversarial training, label smoothing
◦
최근 연구
▪
mixup
▪
bilevel learning
▪
annotator confusion
▪
pre-training
•
pro: 다른 방법들과 함께 사용 (간단한 변경만으로 적용 가능)
•
con: 성능 향상은 상대적으로 작은편
•
con: 노이즈나 데이터 타입에 따라 민감할 수 있는 추가 하이퍼파라미터가 종종 필요
Loss Adjustment
•
effective for reducing the negative impact
•
concept: adjust the loss of all training samples before updating the DNN
◦
[for mini-batch] forward -> calculate loss -> adjust loss -> backward
•
3 Types:
◦
Loss Correction
▪
Similar to the noise adaptation layer
▪
modified loss = (the estimated label transition probability) * (output of a specified DNN)for each sample
◦
Loss Reweighting
▪
loss에 가중치를 둬서 학습 -> 입력마다 다른 가중치
◦
Label Refurbishment
→ 0~1 사이의 𝛂를 찾아가는 방식
Sample Selection
•
to avoid any false corrections
•
concept: design the selection criteria for sample selection.
•
research:
◦
decouple, memorization effect, MentorNet, Co-teaching and Co-teaching+, ITLM, INCV
◦
recent research: SELFIE, CL, SELF, mena-teacher
•
limitation:
◦
their general philosophy of selecting small-loss samples is applicable to only some limited cases such as symmetric noise
◦
In addition, either the true noise rate or a clean validation dataset must be available to quantify the number of samples that should be selected as true-labeled ones by the model.
•
(additional metric:)
◦
label precision = (# of clean selected labels) / (# of all selected labels from mini-batch)
◦
label recall = (# of clean selected labels) / (# of clean mini-batch labels)
Meta Learning
•
concept: learning to learn> which performs learning at a level higher than conventional learning
•
two types:
◦
Fast Adaption
▪
Pro: General and model-agnostic method,
▪
Con: Scalability caused by multiple inferences or updates prior to a conventional update for guiding their learning process.
◦
Learning to Update
▪
This approach is similar to loss adjustment, but the adjustment is automated in a meta-learning manner.
Semi-supervised Learning
•
to reduce annotation cost
•
false-labeled 샘플을 unlabeled로, 남은 샘플을 label로
◦
Q. 어떤 데이터가 false-labeled 데이터인지 미리 알아야하는 것?
•
pro: 의미있는 성능향상
•
con: 여기서 제시하는 하이프퍼라미터는 데이터나 노이즈 타입에따라 민감하게 반응
•
con: 추가적인 계산 비용 소요
Methodological Comparison
•
(P1) Flexibility: 쉽게 다른 모델에 적용 가능한지
•
(P2) No Pre-training: pre-trained 모델 없이 학습할 수 있음
•
(P3) Full Exploration: training loss를 조정해서
•
(P4) No Supervision: clean valid set 없이, 혹은 noise rate 없이 학습
•
(P5) Heavy Noise: 무거운 노이즈를 다룰 수 있는지
•
(P6) Complex Noise: 복잡한 노이즈를 다룰 수 있는지
Open Dataset for Experimental Design
•
clean data에 일부로 noise를 가해서 synthetic noise 측정
•
보통 Real-world noisy dataset은 noise rate와 clean validation set이 제공이 안됨
Future Research Directions
•
Undistinguishable Sample
◦
애매한 카테고리 구별해낼 수 있으면 robust training에 좋은 성능을 기여할 것
•
Complex Label Noise
◦
보통 symmetric and asymmetric noise를 가정함
◦
instance-dependent label, label-dependent noise 연구 필요
•
Multi-label Data
◦
보통 single-label의 문제를 가정함
◦
multi-label 문제로 확장 필요
•
Learning Efficiency
◦
보통 robust deep learning에서 학습 효율은 신경쓰지 않음
◦
얼마나 빨리 학습되는지, 얼마나 잘 학습되는지