Learning from Noisy Labels with Deep Neural Networks: A Survey

2021/07/04 06:31
포스팅 종류

My Motivation

쌓여가는 사진 데이터를 활용한 다양한 분류기 시도 중
데이터는 많지만 정제된 클린 데이터셋은 많이 없음
노이즈 데이터셋을 어떻게 잘 활용해서 모델 성능 개선을 할 수 있을까?

What is noise label?

: 잘못 어노테이션된 레이블들

기존의 데이터에대한 생각

Robust Training에서 달성하고 싶은 목표

: 일부 노이즈한 레이블이 들어와도 노이즈에 강한 학습을 수행하자



Supervised Learning with Noisy Labels
기존의 risk minimization process는 noise-tolerant하지 않음
DNN이 오염된 레이블을 쉽게 기억할 수 있음
학습된적 없는 데이터에대한 일반화가 잘 안될 수 있음
Taxonomy of Label Noise
typical noise (independent noise)> 데이터 피쳐가 조건부독립이라 가정
symmetric noise (or uniform noise)
asymmetric noise: 특정 한 레이블로 더 많이 mis-label
pair noise: 완전히 특정 한 레이블로 mis-label
instance noise (or label-dependent noise)
데이터 피쳐가 의존적이라 가정
아직 연구가 잘 없음
Non-deep Learning Approaches
Data cleaning
Probabilistic method
Model-based method

Deep Learning Approaches

Robust Loss Function

concept: 노이즈 데이터가 있어도 잘 학습되는 loss function 만들기
여러가지 loss functions
CCE: 분류기에서 일반적으로 사용된 loss function
보통은 빨리 수렴하고 일반화가 잘되는 CCE를 사용
MAE: noisy label이 있으면 CCE보다 MAE가 더 좋은 성능 달성, 복잡한 데이터에대해 일반화가 잘 안됨
GCE: MAE와 CCE의 이점을 수용
SCE: noise tolerance를 합친 CCE
CL: 0-1 loss의 surrogate loss (대리 loss??), 쉽게 multi-class classification으로 확장 가능
Con: 그럼에도 noisy labels에 영향을 많이 받는다고 보고됨.
Con: 간단한 케이스(클래스 갯수가 작거나 학습이 쉬운)에만 잘 동작.
Con: 새로운 loss들을 사용하면 학습시간이 증가함

Robust Architecture

concept: model the label transition matrix of a noisy dataset
Noise Adaptation Layer
intended to mimic the noise behavior in learning a DNN. ⇒ DNN 학습으로 노이즈를 모방
학습중에는 noise adaption layer를 모델 top에 쌓아서 학습
학습 끝나고 테스트에서는 noise adaptation layer 제거하고 사용
con: noise adaptation layer는 복잡한 레이블 노이즈에 취약
Dedicated Architecture
noise adaptation layer의 약점을 극복하기위해
to increasing the reliability of estimating the label transition probability to handle more complex and realistic label noise.
probabilistic noise modeling:
Con: 노이즈 타입에대한 가정이 강한편

Robust Regularization

have been widely studied to improve the generalizability of a learned model
일반적으로 사용하고 있는 방법
data augmentation, weight decay, dropout, batch normalization, adversarial training, label smoothing
최근 연구
bilevel learning
annotator confusion
pro: 다른 방법들과 함께 사용 (간단한 변경만으로 적용 가능)
con: 성능 향상은 상대적으로 작은편
con: 노이즈나 데이터 타입에 따라 민감할 수 있는 추가 하이퍼파라미터가 종종 필요

Loss Adjustment

effective for reducing the negative impact
concept: adjust the loss of all training samples before updating the DNN
[for mini-batch] forward -> calculate loss -> adjust loss -> backward
3 Types:
Loss Correction
Similar to the noise adaptation layer
modified loss = (the estimated label transition probability) * (output of a specified DNN)for each sample
Loss Reweighting
loss에 가중치를 둬서 학습 -> 입력마다 다른 가중치
Label Refurbishment
→ 0~1 사이의 𝛂를 찾아가는 방식

Sample Selection

to avoid any false corrections
concept: design the selection criteria for sample selection.
decouple, memorization effect, MentorNet, Co-teaching and Co-teaching+, ITLM, INCV
recent research: SELFIE, CL, SELF, mena-teacher
their general philosophy of selecting small-loss samples is applicable to only some limited cases such as symmetric noise
In addition, either the true noise rate or a clean validation dataset must be available to quantify the number of samples that should be selected as true-labeled ones by the model.
(additional metric:)
label precision = (# of clean selected labels) / (# of all selected labels from mini-batch)
label recall = (# of clean selected labels) / (# of clean mini-batch labels)

Meta Learning

concept: learning to learn> which performs learning at a level higher than conventional learning
two types:
Fast Adaption
Pro: General and model-agnostic method,
Con: Scalability caused by multiple inferences or updates prior to a conventional update for guiding their learning process.
Learning to Update
This approach is similar to loss adjustment, but the adjustment is automated in a meta-learning manner.

Semi-supervised Learning

to reduce annotation cost
false-labeled 샘플을 unlabeled로, 남은 샘플을 label로
Q. 어떤 데이터가 false-labeled 데이터인지 미리 알아야하는 것?
pro: 의미있는 성능향상
con: 여기서 제시하는 하이프퍼라미터는 데이터나 노이즈 타입에따라 민감하게 반응
con: 추가적인 계산 비용 소요

Methodological Comparison

(P1) Flexibility: 쉽게 다른 모델에 적용 가능한지
(P2) No Pre-training: pre-trained 모델 없이 학습할 수 있음
(P3) Full Exploration: training loss를 조정해서
(P4) No Supervision: clean valid set 없이, 혹은 noise rate 없이 학습
(P5) Heavy Noise: 무거운 노이즈를 다룰 수 있는지
(P6) Complex Noise: 복잡한 노이즈를 다룰 수 있는지

Open Dataset for Experimental Design

clean data에 일부로 noise를 가해서 synthetic noise 측정
보통 Real-world noisy dataset은 noise rate와 clean validation set이 제공이 안됨

Future Research Directions

Undistinguishable Sample
애매한 카테고리 구별해낼 수 있으면 robust training에 좋은 성능을 기여할 것
Complex Label Noise
보통 symmetric and asymmetric noise를 가정함
instance-dependent label, label-dependent noise 연구 필요
Multi-label Data
보통 single-label의 문제를 가정함
multi-label 문제로 확장 필요
Learning Efficiency
보통 robust deep learning에서 학습 효율은 신경쓰지 않음
얼마나 빨리 학습되는지, 얼마나 잘 학습되는지

딥랩 발표자료