///
Search
Duplicate
🎛️

Stiennon et al.[2020] Learning to summarize from human feedback

Created
2021/07/04 06:39
발표일자
2021/02/22
발표자
백병인
Tags
TextSummarization
RL
GPT
✅main
포스팅 종류
논문리뷰

들어가며

2020년 5월, OpenAI의 GPT-3가 발표되었다. 최대 175B의 어마어마한 파라미터를 자랑하는 이 모델은, 이전 GPT-2의 1.5B의 100배도 넘어가며 pretrain 비용은 50억이나 들었다고 한다. GPT-2만 해도 꽤 그럴싸한 문장생성 성능을 보여주었지만, GPT-3에서는 훨씬 어마어마하다.
OpenAI에서 2020년 9월에 발표한 본 논문에는 그런 OpenAI의 기대와 고민이 함께 담겨 있다. 너무나 그럴듯한 문장을 만들어 내는데는 성공했다. 이를 위해서 어마어마한 비용을 투자했다. 그러나 이것만으로 충분히 쓸모있는 것은 아니다. [사용자가 원하는, 서비스 맥락에 맞는] 아웃풋을 낼 수 있는 모델이 되기 위해서는 뭔가 부족한 부분을 어떻게 채워갈 것인가?

(Abstractive) Text Summarization

1) Seq2seq 방식
Abstractive Text Summarization에 접근하는 가장 일반적인 방법은 이것을 번역(NMT) 문제처럼 다루는 것이다. 그래서 seq2seq, AttnSeq2seq, Transformer 등이 많이 쓰였다. 그리고 transformer 기반이 아니더라도 Pointer Network 등 Extractive Text Summarization의 아이디어를 병용해서 성능을 올리는 방식들이 널리 검토되었다.
그래서 19년도까지만 해도(BERT 등 pretrained model이 이미 알려진 후에도) 한동안 SOTA 모델은 ConvSeq2seq 방식이었다. (Zhang et al. 2019, Abstract Text Summarization with a Convolutional Seq2seq Model) 2) GPT 방식
그러나, Text Generation에 뛰어난 GPT 계열을 활용해서 Fine-tuning을 하면 훨씬 sample-efficient 하게 Text Summarization에 접근할 수 있다. (https://www.notion.so/Khandelwal-et-al-2019-Sample-Efficient-Text-Summarization-Using-a-Single-Pre-Trained-Transformer-b91779dc97644f5aba50b5185d95e8d7) 이후 GPT-2, 3 등이 이어져 나오면서, pretrain만으로도 좋은 요약성능을 보이거나, fine-tuning을 할 경우 이미 사람이 수행한 수준의 요약 성능을 보여주기도 한다.

Human Feedback을 반영하자.

그러나! 본 논문의 문제제기는 여기서 시작한다. GPT pretrain & fine-tune이라는 지도학습만으로도 요약성능이 잘 나오긴 하지만 과연 이게 최선일까?
이게 최선이 아닐 수 있는 이유를 생각해 보자.
지도학습에서 최적화해야 할 target 함수로 ROUGE 등을 사용하긴 하는데, 이런 방식으로 요약문 정답이라는 Human Reference를 최대한 근사하는 것만으로 충분히 좋은 요약이라고 할 수 있을까?
이러한 loss 함수는 아마도!! 요약문에 빠져서는 안되는 핵심단어 2글자를 빼먹든(important error), 정답에 포함된 조사나 접속사 2글자를 빼먹든(unimportant error), 똑같은 크기만큼의 페널티를 부여할 것이다.
그래서 저자는, Human Reference(지도학습 정답)뿐 아니라 Human Preference(모델의 출력에 대한 사람의 평가)를 함께 반영할 수 있는 모델 학습방법을 제안한다.
본 논문이 제안하는 방법을 한마디로 정의하면 RL from Reward Model built on Human Feedback
라고 할 수 있다.
아이디어는 정말 심플하다. 위 그림에서 말하는게 전부이다. 위 방법은 본 논문에서만 활용하는 아주 참신한 방법이라고 할수도 없다. 19년도의 OpenAI 논문(저자진이 본 논문과 동일함, Ziegler et al, 2019 Fine-tuning language models from human preferences.)는 사실 거의 유사한 방법을 GPT-2를 기반으로 시도했었다. 단지 그때는 RL이 online으로 시도되었다면 이번에는 offline으로 수행되었다는 정도?
하지만 결과적으로, 이 방법은 엄청난 요약품질의 차이를 보인다.
위 그래프의 y축은 human reference보다 모델의 요약 퀄리티를 평가자가 더 선호하는 비율이다. GPT-3를 fine-tune한 모델에 Human feedback을 RL로 반영하면 오히려 human reference보다 뛰어난 요약 성능을 보이더라는 내용이다.
그리고, 이런 RL 기반의 접근이 가지는 또다른 장점은 데이터 도메인의 변화(distributional shift)에도 더욱 강건해서, 더욱 적응을 잘한다는 점이다.

요약결과 비교

Model 설계

Reward models
reward model theta은 지도학습으로 학습된다.
Human feedback policies
여기서 full reward R 은
이 reward를 기반으로 PPO(Proximal Policy Optimization)으로 최적화하도록 phi 를 학습한다.
이때 r_theta를 그대로 사용하지 않고 KL term이 추가되어 있는데, 아래 2가지 (다소 모순적인?) 역할을 한다. 1) entropy bonus → 요약결과의 다양성을 추구
2) 그러면서도 언어모델 관점에서 reward model이 기존의 fine-tune 모델 대비 너무 큰 확률분포 차이를 가지지는 않도록 한다. policy doesn’t learn to produce outputs that are too different from those that the reward model has seen during training

Experiment Result

모델크기, 요약문 길이에 따른 비교
평가 기준에 따라
Coverage : how much important information from the original post is covered
Coherence : how easy the summary is to read on its own
Accuracy : to what degree the statements in the summary are stated in the post

Discussion

너무 큰 모델과 훈련비용, 심지어 human prefence dataset 구축과 협업을 위한 비용이 추가로 더 많이 들어간다. 그러나, supervise learning의 패러다임을 뛰어넘기 위한 접근법의 관점에서 눈여겨볼만하다.
그리고, 성능이 너무 좋은 나머지 AI윤리 및 인류의 미래에 대한 고민이 뒤따른다.