이 논문은 Contemporary neural networks still fall short of human-level generalization 이라는 문장으로 시작한다. human-level generalization이라는 키워드에 관심이 없는 분이라면 수식하나 없는 이 논문에서 크게 건질것이 없을지도 모른다.
물론 딥러닝은 쓸만하다. 놀라울 때도 가끔 있다. 그러나 여전히 충분히 만족스럽지 않다면 그 근본적인 원인은 무엇일까? 이 논문의 저자들은 이 근본적인 원인을 Binding Problem 이라고 정의한다.
Binding Problem
딥러닝은 Connectionist(연결주의자)들의 산물이다. 이 방법이 가진 단점은 네트워크상에 분포한 정보(information)를 symbolic한 방법으로 연결(bind)지어 내지 못한다는 점이다.
그러나, 저자들의 아래 주장에 따르면, symbol manipulation process야말로 인간수준 지능의 가장 핵심적 요소이다.
Integrating symbolic processing into neural networks is of fundamental
importance for realizing human-level AI
이것이 왜 중요할까? 인간지능의 핵심은 기존의 지식을 결합(composition)하여 이전에 보지 못한 데이터에 대해서도 추론을 해낸다는 점이다. 그러려면 개념(구체적이든, 추상적이든) 정보를 재활용할 수 있어야 하는데, 연결주의적 관점으로는 네트워크 상 어딘가 존재하는 개념을 콕 찍어서 재활용하기가 매우 어렵다. 이런 어려운 점을 binding problem이라고 하는데, 이 문제를 해결하려면 다음 3가지가 가능해야 한다.
1)Segregation : ability to form(separate) meaningful entities from unstructured sensory inputs
> 어떤 개념을 그것과 그것이 아닌것 사이의 경계를 찾아 구별해 낼수 있어야 한다.
2)Representation : ability to maintain this separation of information at a representational level
> 구별해 낸 개념을 하나의 벡터로 표현할 수 있어야 한다.
3)Composition : ability to use these entities to construct new inferences, predictions, and behaviors
> 벡터로 형성한 개념을 재활용하여 새로운 개념을 재구성할 수 있어야 한다.
개인적인 생각으로는, 인간은 추상적인 개념을 discrete한 언어(단어)에 bind하는 경험을 통해 이 문제를 해결할 수 있기 때문에 동물들과 차별화된 지능을 가지게 된게 아닌가 생각한다.
그렇다면 Connectionist method로 접근한 symbolic processing은 없었나?
⇒ Hybrid method
case 1) NN을 전처리기로 삼은 symbolic prossessing
case 2) NN combined with search-based method
eg.) Alpha-go
Connectionist Method의 한계
1)Representation의 어려움 : superposition catastrophe
> 지금 이 벡터는 뭘 나타내는 것일까?
2)Segregation의 어려움 : notion of an object is context and task-dependent, and difficult to formalize
> 하여간 가장 어렵다.
3)Composition의 어려움 : this relies on the ability to learn abstract relations that can be arbitrarily and recursively applied to object representations
> Representation이 되어야 Composition도 의미가 있다.
그래서 이 논문의 메인 내용은 Representation, Segregation, Composition의 관점에 대해 불완전하나마 아래 목차를 따라 정리해 보는 것이다.
1)형식적 규정(Format)
Human Level General AI가 되기 위해 갖추어야 할 형식적 요건은?
2)동작원리(Dynamics)
Human Level General AI가 되기 위해 갖추어야 할 메커니즘 측면의 요건은?
3)방법론(Method)
그동안 어떤 방법들이 시도되어 왔나?
4)평가방법(Evaluation)
시도된 방법들을 어떻게 평가해 볼 수 있겠나?
1. Representation
Representation은 이를 구하는 inductive bias에 크게 영향받는다.
1)형식적 규정(Format/Object/Structure)
•
Separation : 배경을 제외하고 해당 object만을 표현하는 벡터여야 한다.
•
Common Format : 무엇을 표현해도 호환 가능한 동일 dim의 벡터여야 한다.
•
Disentanglement : 독립적인 피처들의 combination으로 쪼개질 수 있도록 구성되어야 한다.
2)동작원리(Dynamics)
•
Temporal Dynamics : 시간에 따른 변화의 히스토리까지 표현가능해야 한다.
•
Reliability : Occlusion 등에 강건한 self-correcting representation이어야 한다.
3)방법론(Method)
•
Slots : 개념 슬롯별로 임베딩을 할당하는 방식(워드 임베딩 등..) 그나마 쉽다.
◦
Instance Slots : 인스턴스 레벨의 슬롯, 즉 메모리를 다루는 접근법
▪
memory-augmented neural networks
▪
Recurrent Independent Mechanisms
▪
graph neural networks
◦
Sequential Slots : time step별 슬롯을 다루는 접근법
▪
RNN 계열
▪
Attention 메커니즘
◦
Spatial Slots
◦
Category Slots
▪
Capsules
▪
Recurrent Entity Network
•
Augmentation : augment each feature with additional grouping
information
•
Tensor Product Representation(TPR)
real-valued matrix (tensor) that is the result of combining distributed representations of fillers with distributed representations of roles
TPR is formed by combining each filler with a corresponding role via an outer product (“binding operation”)
•
Attractor Networks
4)평가방법(Evaluation)
•
held-out-combinations of features for disentanglement
•
separation
•
prediction roll-outs for temporal dynamics
•
robustness to injected noise for reliability
2. Segregation
Representation이 주어진 개념(혹은 인스턴스 등)에 대해 정확한 벡터 표현을 구하려는 시도라면, Segregation은 복잡한 input에서 정확한 object representation을 얻기 위해 해당 object의 경계를 찾아내는 과정이다.
이것은 이미 알려지지 않은 개념의 representation을 찾는 것까지 포함한다. (어렵고도 본질적으로 중요)
Segregation의 모든 어려움을 한장의 사진으로 알려준다. 여기 뭐가 얼마나 들어있을까?
1)형식적 규정(Format) → Object의 특성
Modularity
A는 복원 가능하다. internal predictive structure가 존재.
그러나 B, C는 불가능.
Hierarchical
Object의 part를 이루는 것들도 object
object들 사이에 part-of relation이 존재.
Multi-domain
2)동작원리(Dynamics)
Multistability :
이것이 무엇이다.. 를 말하는 것은 해석의 여지가 다양하다.
때로는 가능하지도, 바람직하지도 않다. a), b)
Incorporating top-down feedback :
이것은 한덩어리인가, 개별 의자인가? c)
바라보는 상황과 목표, 관점에 따라 달라진다.
Consistency :
관측의 시간에 따른 변화에도 불구하고 그것은 항상 그것이다.
reliable mechanism for re-identification : segregation의 중요한 힌트가 된다.
3)방법론(Method)
Segregation 을 supervision으로? 어려운 문제.
비전 분야에서는 image segmentation 문제로 볼 수 있다. 그러나 다른 도메인에서는 어렵다.
•
Clustering Approaches to Image Segmentation
•
Neural Approach to Image Segmentation
•
Sequential Attention
◦
Soft attention mechanisms have also been applied internally (self-attention) to support segregation.
•
Probabilistic Generative Approaches
4)평가방법(Evaluation)
A key part of the answer is to focus on the modularity of objects
it is important to provide architectural inductive biases that help with dynamic information routing, e.g. in the form of attention or masking specific parts of the input.
Object tracking : sequential consistency 평가에 용이
•
이미지 이외의 도메인 언급이 약해서 안타까움
3. Composition
the ability to combine object representations and relations without losing their integrity as constituents (as is needed for compositionality)
compositionality is a core aspect of human cognition and underlies our ability to
understand novel situations in terms of existing knowledge
1)형식적 규정(Format) - Structure
2)동작원리(Dynamics) → Reasoning
Relational Responding
Intering Structure
결국, segregation이 되어야 composition도 가능
3)방법론(Method)
Graph-Neural-Network(GNN)
노드에 information을, edge에 relation을 표현
Graph-Convolution-Network(GCN)
노드와 엣지의 관계를 규명하긴 좋으나, composition과 반대되는 coarsening (down-sampling) 방향으로 학습됨
Message-passing-Neural-Network(MPNN)
RNN의 일반화로 이해 가능
Self-Attention 기반 접근
node와 node 사이의 다양한 relation을 multi-head attention으로 표현
Transformer도 GNN의 하나로 이해 가능
Neural Computer 계열
RNN 계열의 processor를 활용하는 방법 : 시간적, 관계적 relation을 모두 제너럴하게 고려하면서 inductive bias가 최소. 가장 제너럴하지만 성능이 낮을 우려
NTM : read and write
DNC : based on the order in which memory locations are accessed
4)평가방법(Evaluation)
multi-exemplar training
아이들이 세상을 배우는 방법
meta-learning problem