들어가기 전에
공유 주제
•
SuperGLUE가 무엇?
•
NLU Tasks 설명
NLP 분야에서의 언어유희
•
SuperGLUE: 'Stickier' + GLUE (General-Purpose Language Understanding Evaluation)
•
ELMo, BERT - Sesame Street
NLU Tasks - 기계에 맞는 NLU (Natural Language Understanding) 문제
•
현 시점에서 사람한테는 쉽지만 기계에게 어려운 문제
•
같은 형식의 데이터로 테스트도 하면서 기계 학습도 해야함
•
주요 언어 이해 요소를 학습/평가
Abstract
•
SuperGLUE 란
◦
NLU 벤치마크
▪
SuperGLUE는 영어를 위한 범용적인 언어 이해를 위한 지표를 제공
◦
language understanding tasks
▪
+ dataset
◦
software toolkit
◦
public leader board
•
기존 GLUE를 개선한 NLU 시스템 벤치마크
1. Introduction
NLP (Natural Language Processing) 동향
•
ELMo, OpenAI GPT, BERT ...
•
self-supervised learning
◦
다량의 unlabelled text corpora 를 가지고 학습
◦
이 결과 모델로 target tasks에 적용 (transfer-learning)
▪
include question answering, sentiment analysis, textual entailment, and parsing, among many others
기존 GLUE 개선 필요성
•
기존 GLUE 의 tasks 중 human performance에 거의 가깝거나 능가하는 ML 모델이 나온 task 가 있음
SuperGLUE 개선점
•
더 어려운 task
◦
몇몇 GLUE의 어려운 task는 그대로 유지
•
보다 다양한 task 형식
◦
(기존) sentence- and sentence-pair classification.
◦
(추가) coreference resolution / question answering (QA).
•
human baseline 추가
◦
모든 기준 benchmark tasks에서 BERT-based baseline과 human baseline이 의미있는 차이가 있는 지 검증
•
2. Related Work
•
task-agnostic transfer leaning techniques
◦
다양한 NLP tasks에서 transfer learning이 좋은 성과를 보임
•
pretrained models의 scaling up
◦
model capacity, compute power, data quantity의 증가
◦
model expressivity의 발전
▪
recurrent (예: RNN) → bidirectional recurrent (예: ELMo)→ multi-headed transformer encoders (예: BERT)
◦
degree of contextualization의 발전
▪
representation of words in isolation → uni-directional contexts → bidirectional contexts
context-free (representation of words in isolation): word2vec, GloVe, fastText
uni-directional contexts: ELMo
bidirectional contexts: BERT
•
pretrained models 보완으로 성능 개선
◦
two-stage pretraning
◦
multi-task finetuning
◦
massive amounts of weak supervision
3. SuperGLUE Overview
3.1 (Task) Design Process
•
NLP 커뮤니티에 task 제안을 요청해서 30여개의 제안서를 받고 이 중 적절한 task를 선별
•
아래는 task 선별 기준
Task substance
•
영어로 쓰여진 글의 이해/추론 능력을 테스트 하는 task
Task difficulty
•
현재 state-of-the-art systems 에서는 어려우나 대부분의 college-educated English speakers 은 풀 수 있는 문제
•
특정 도메인(의학/과학적 지식)에 관련된 지식을 요구하는 문제는 제외
Evaluability
•
결과 품질을 잘 판단할 수 있는 자동화된 성능 지표를 가져야함
Public data
•
public traning data가 존재하는 task
Task format
•
간단한 input output 포맷
License
•
연구 목적을 위한 사용과 재배포가 가능한 task 데이터
3.2 Selected Tasks
•
최종으로 선택된 Tasks
BoolQ (Boolean Questions)
•
QA Task
•
데이터 구성
◦
passage
◦
yes/no question
◦
[label] answer - yes/no
•
수집 방법
◦
google search engine에서 수집한 질의 중 구글 검색 결과의 5순위 내 wikipedia에 답이 있는 경우 수집
CB (CommitmentBank)
•
NLI (Natural Language Inference) Task
•
데이터 구성
◦
premise
▪
least one sentence contains an embedded clause.
◦
Hypothesis
◦
[label] entailment - entailment, neutral, contradiction
•
평가 지표
◦
accuracy
◦
F1 per class 의 평균
▪
imbalanced-class (neutral 예시가 적음)
COPA (Choice of Plausible Alternatives)
•
causal reasoning / QA task
•
데이터 구성
◦
premise
◦
question (CAUSE / EFFECT)
◦
alternative 1/2
◦
[label] 1/2 (alternative 둘 중 하나 선택)
MultiRC (Multi-Sentence Reading Comprehension)
•
QA task
•
데이터 구성
◦
Paragraph
◦
Question
◦
Candidate answers
◦
[label] 각 Candidate answers에 대하여 True/False
ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset
•
Multiple-choice QA task
•
데이터 구성
◦
(출처: CNN / Daily Mail)
◦
Paragraph
▪
후보 entity
◦
Query: Cloze-style (빈칸) question
◦
[label] 후보 entity 중 하나 선택
RTE (Recognizing Textual Entailment)
•
text entailment (NLI - natural language inference)
•
데이터 구성
◦
Premise
◦
Hypothesis
◦
[label] True/False (entailment / not_entailment)
WiC (Word-in-Context)
•
word sense disambiguation task
•
데이터 구성
◦
Context 1/2
▪
다의어(polysemous word) 표시
◦
[label] True/False (두 다의어가 같은 뜻인가?)
WSC (Winograd Schema Challenge)
•
coreference resolution task
•
데이터 구성
◦
Text
▪
대명사(pronoun)과 noun
◦
[label] True/False (대명사의 참조가 올바른지 여부)
3.3 Scoring
•
최종 지표는 모든 tasks의 평균으로 정함
◦
task 마다의 중요도(weight) 기준이 불명확함 → task 마다 중요도를 균등하게 생각하여 평균으로 구함
3.4 Tools for Model Analysis
Analyzing Linguistic and World Knowledge in Models
Broadcoverage Diagnostics
•
for a broad range of linguistic, commonsense, and world knowledge
•
GLUE에서부터 사용했던 NLI 문제
•
종합적인 자연어 추론을 평가하기 위한 목적
Analyzing Gender Bias in Models
Winogender
•
성차별 인식
•
ex) He/She
4. Using SuperGLUE
Software Tools
•
◦
PyTorch, AllenNLP, pytorch-pretrained-bert 활용
Eligibility
•
시스템이나 방법에 제한이 없음
•
1일마다 2번 / 1달마다 6번의 submissions 으로 제한
◦
private test data에 overfitting하는 것을 제한
Data
•
SuperGLUE site 나 script included with the software toolkit 통해서 다운로드
•
traning / development / test(unlabeled) set
5. Experiments
5.1 baselines
BERT
•
bert-large-cased variant
•
각 task 별로 fine-tune
◦
가장 간단한 구조 선별
BERT++
•
BERT에 관련 dataset에 대한 추가적인 학습을 적용
•
STILTs two-stage style of transfer learning
Simple Baselines
•
bag-of-words
Outside Best
•
알려진 가장 좋은 결과
5.2 Human Performance
•
기존에 관련 데이터가 있으면 활용
•
Amazon’s Mechanical Turk 플랫폼 활용하여 클라우드 소싱
◦
어노테이터들에게 돈을 지불하고 annotation 정보 수집
◦
traning phase → annotation phase
6. Conclusion
•
SuperGLUE updates the GLUE benchmark
•
challenging NLU tasks
•
measured by the difference between human and machine baselines.
•
low-data training data tasks
•
multi-task, transfer, and unsupervised/self-supervised learning techniques 관련 추가적인 진보를 기대함