Papers
•
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
→ 일단 Transformer 인코더 based
•
AST
•
video - audio
Dataset?
•
youtube 5M dataset 리뷰해보기, 8M은 없는듯?
6월 계획
•
5M dataset 다운로드 받기 → 영상이랑 음원 분리 전처리
•
루바토랩 서버에서 진행 예정