///
Search
Duplicate
🥊

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

Created
2021/07/04 06:36
발표일자
2021/03/22
발표자
유원홍
Tags
LanguageModeling
SuperGLUE
✅main
포스팅 종류
논문리뷰

들어가기 전에

공유 주제

SuperGLUE가 무엇?
NLU Tasks 설명

NLP 분야에서의 언어유희

SuperGLUE: 'Stickier' + GLUE (General-Purpose Language Understanding Evaluation)
ELMo, BERT - Sesame Street

NLU Tasks - 기계에 맞는 NLU (Natural Language Understanding) 문제

현 시점에서 사람한테는 쉽지만 기계에게 어려운 문제
같은 형식의 데이터로 테스트도 하면서 기계 학습도 해야함
주요 언어 이해 요소를 학습/평가

Abstract

SuperGLUE 란
NLU 벤치마크
SuperGLUE는 영어를 위한 범용적인 언어 이해를 위한 지표를 제공
language understanding tasks
+ dataset
software toolkit
public leader board
기존 GLUE를 개선한 NLU 시스템 벤치마크

1. Introduction

NLP (Natural Language Processing) 동향

ELMo, OpenAI GPT, BERT ...
self-supervised learning
다량의 unlabelled text corpora 를 가지고 학습
이 결과 모델로 target tasks에 적용 (transfer-learning)
include question answering, sentiment analysis, textual entailment, and parsing, among many others

기존 GLUE 개선 필요성

기존 GLUE 의 tasks 중 human performance에 거의 가깝거나 능가하는 ML 모델이 나온 task 가 있음

SuperGLUE 개선점

더 어려운 task
몇몇 GLUE의 어려운 task는 그대로 유지
보다 다양한 task 형식
(기존) sentence- and sentence-pair classification.
(추가) coreference resolution / question answering (QA).
human baseline 추가
모든 기준 benchmark tasks에서 BERT-based baseline과 human baseline이 의미있는 차이가 있는 지 검증
개선된 code 지원
NLP에서 pretraning, multi-task learning, transfer learning
PyTorch, AllenNLP 활용

2. Related Work

task-agnostic transfer leaning techniques
다양한 NLP tasks에서 transfer learning이 좋은 성과를 보임
pretrained models의 scaling up
model capacity, compute power, data quantity의 증가
model expressivity의 발전
recurrent (예: RNN) → bidirectional recurrent (예: ELMo)→ multi-headed transformer encoders (예: BERT)
degree of contextualization의 발전
representation of words in isolation → uni-directional contexts → bidirectional contexts
context-free (representation of words in isolation): word2vec, GloVe, fastText
uni-directional contexts: ELMo
bidirectional contexts: BERT
pretrained models 보완으로 성능 개선
two-stage pretraning
multi-task finetuning
massive amounts of weak supervision

3. SuperGLUE Overview

3.1 (Task) Design Process

NLP 커뮤니티에 task 제안을 요청해서 30여개의 제안서를 받고 이 중 적절한 task를 선별
아래는 task 선별 기준

Task substance

영어로 쓰여진 글의 이해/추론 능력을 테스트 하는 task

Task difficulty

현재 state-of-the-art systems 에서는 어려우나 대부분의 college-educated English speakers 은 풀 수 있는 문제
특정 도메인(의학/과학적 지식)에 관련된 지식을 요구하는 문제는 제외

Evaluability

결과 품질을 잘 판단할 수 있는 자동화된 성능 지표를 가져야함

Public data

public traning data가 존재하는 task

Task format

간단한 input output 포맷

License

연구 목적을 위한 사용과 재배포가 가능한 task 데이터

3.2 Selected Tasks

최종으로 선택된 Tasks

BoolQ (Boolean Questions)

QA Task
데이터 구성
passage
yes/no question
[label] answer - yes/no
수집 방법
google search engine에서 수집한 질의 중 구글 검색 결과의 5순위 내 wikipedia에 답이 있는 경우 수집

CB (CommitmentBank)

NLI (Natural Language Inference) Task
데이터 구성
premise
least one sentence contains an embedded clause.
Hypothesis
[label] entailment - entailment, neutral, contradiction
평가 지표
accuracy
F1 per class 의 평균
imbalanced-class (neutral 예시가 적음)

COPA (Choice of Plausible Alternatives)

causal reasoning / QA task
데이터 구성
premise
question (CAUSE / EFFECT)
alternative 1/2
[label] 1/2 (alternative 둘 중 하나 선택)

MultiRC (Multi-Sentence Reading Comprehension)

QA task
데이터 구성
Paragraph
Question
Candidate answers
[label] 각 Candidate answers에 대하여 True/False

ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset

Multiple-choice QA task
데이터 구성
(출처: CNN / Daily Mail)
Paragraph
후보 entity
Query: Cloze-style (빈칸) question
[label] 후보 entity 중 하나 선택

RTE (Recognizing Textual Entailment)

text entailment (NLI - natural language inference)
데이터 구성
Premise
Hypothesis
[label] True/False (entailment / not_entailment)

WiC (Word-in-Context)

word sense disambiguation task
데이터 구성
Context 1/2
다의어(polysemous word) 표시
[label] True/False (두 다의어가 같은 뜻인가?)

WSC (Winograd Schema Challenge)

coreference resolution task
데이터 구성
Text
대명사(pronoun)과 noun
[label] True/False (대명사의 참조가 올바른지 여부)

3.3 Scoring

최종 지표는 모든 tasks의 평균으로 정함
task 마다의 중요도(weight) 기준이 불명확함 → task 마다 중요도를 균등하게 생각하여 평균으로 구함

3.4 Tools for Model Analysis

Analyzing Linguistic and World Knowledge in Models

Broadcoverage Diagnostics
for a broad range of linguistic, commonsense, and world knowledge
GLUE에서부터 사용했던 NLI 문제
종합적인 자연어 추론을 평가하기 위한 목적

Analyzing Gender Bias in Models

Winogender
성차별 인식
ex) He/She

4. Using SuperGLUE

Software Tools

Eligibility

시스템이나 방법에 제한이 없음
1일마다 2번 / 1달마다 6번의 submissions 으로 제한
private test data에 overfitting하는 것을 제한

Data

SuperGLUE site 나 script included with the software toolkit 통해서 다운로드
traning / development / test(unlabeled) set

5. Experiments

5.1 baselines

BERT

bert-large-cased variant
각 task 별로 fine-tune
가장 간단한 구조 선별

BERT++

BERT에 관련 dataset에 대한 추가적인 학습을 적용
STILTs two-stage style of transfer learning

Simple Baselines

bag-of-words

Outside Best

알려진 가장 좋은 결과

5.2 Human Performance

기존에 관련 데이터가 있으면 활용
Amazon’s Mechanical Turk 플랫폼 활용하여 클라우드 소싱
어노테이터들에게 돈을 지불하고 annotation 정보 수집
traning phase → annotation phase

6. Conclusion

SuperGLUE updates the GLUE benchmark
challenging NLU tasks
measured by the difference between human and machine baselines.
low-data training data tasks
multi-task, transfer, and unsupervised/self-supervised learning techniques 관련 추가적인 진보를 기대함