Search
Duplicate
🦄

주혜신 개인 프로젝트

최종 업데이트
2022/04/16 00:13
Tags
2022
일시
작성자
포스팅 종류
✅ main

주혜신: BGMGenerator

Overview

생성 - Video to MIDI
Motivation
영상에 어울리는 배경음악을 생성 → 영상 편집 및 제작하는 크리에이터들에게 더 풍부한 선택지 & 즐거운 경험을 제공
Approach
Transformer-based
영상의 tone & mood(emotion)을 반영한 음악을 생성

1주차 (2022-04-09 ~ 2022-04-16)

Progress
Literature Review: CMT, D2M-GAN 확인
TikTok Vlog dataset (video-music) 만들기 위한 reference 찾기, 만들 방법 고민
To-do
TikTok Vlog dataset (video-music) 데이터셋 제작하기 위한 영상 수집
BGMGenerator model architecture 디자인

Literature Review

Video Background Music Generation with Controllable Music Transformer (MM 2021)

Contribution
Model
Establish three melody-music rhythmic relationships between video & BGM
Motion speed & Simu-note density
Local maximum motion saliency & Simu-note strength
Beat-timing encoding
Based on: Music Transformer(ICLR 2019, paper), Linear Transformer (ICML 2020, paper)
Extract rhythmic features from both video and MIDI
Training stage: Rhythmic features from video included
Inference stage: Rhythmic features from MIDI included
Music Representation: MIDI
Dataset: Lakh Pianoroll Dataset (link). video-music paired dataset 사용 X.
Evaluation Metrics

Quantized GAN for Complex Music Generation from Dance Videos (arXiv 2022)

Contribution
a novel adversarial multi-modal framework that generates complex musical samples conditioned on dance videos
Model: Dance2Music-GAN (D2M-GAN)
A novel adversarial multi-modal framework that generates complex musical samples conditioned on dance videos
input: human body motion ⇒ output: music samples plausibly accompanying the corresponding input
Based on:
Music Representation: Vector Quantized audio representation
그래서 기존 video-music models가 output으로 mono-instrumental sounds(MIDI)를 생성하는 것과 다르게,
다양한 장르(pop, breakdancing)의 음악을 생성할 수 있음. Leverage both its generality and the high abstraction capacity of its symbolic and continuous counterparts???
Dataset
AIST++ (paper) (link)
TikTok dance-music dataset: Not published yet
445 dance videos, an average length of 12.5 seconds
85 different songs, the majority of videos having a single dance performer, and a maximum of five performers (face masking)
Training-testing splits: 392-53, no overlapping songs

Other RWs

Automatic Music Video Generation based on Temporal Pattern Analysis (MM 2004) (paper)

BGMGenerator

Model Architecture

How to define video-music relationship?
Emotion: Facial expression? (ThemeTransformer 참고)
Tone & Mood: Input video’s color → Musical features(???)
Scene change speed: CMT 참고

Dataset:

Video-music relationship을 학습시킬 수 있는 video-music paired dataset을 만든다 or 찾는다.
찾는다
Music Video Dataset (link)
YouTube-8M (Google) (link)
YouTube-MusicVideo-5M (keunwoochoi) (link)
YouTube-MusicVideo-8M (keunwoochoi) (link)
The Vlog Dataset (UC Berkeley) (link)
AudioSet >> Soundtrack music (Google) (link)
cf. Video Dataset Overview (link)
cf. MPII Movie Description Dataset (link)
cf. ISMIR dataset (link)
만든다 (음악 리스트 먼저 뽑고 그걸로 만든 영상 뽑기. 그럼 D2M-GAN의 TikTok dataset 처럼 할 수 있음)
1) TikTok의 Trending music 리스트를 뽑는다.
장르는 하나만 고르기. Pop or piano music.
아래 ‘참고자료'에 있는 음악은 다 가사 있는 것. 이 음악들의 instrumental version을 그걸로 만든 영상의 알맞은 구간에 넣어서 영상을 다시 만들어야, video-pop instrumental music 데이터셋 만들 수 잇음. 또는, 아래 음악의 instrumental version으로 만든 영상 리스트를 검색하여 그 영상을 수집.
참고자료
TikTok Discovery (참고용)
TikTok Discover (link)
By TikTok
Popular TikTok Songs 2022 (link)
2022 Trending Songs in TikTok (link)
#trendingsongs2022tiktok 이런 해시태그로 만들어진 영상 리스트 있음. 해시태그 9개.
By Spotify
TikTok Songs 2022 — Party Music (link)
236 songs, abour 11 hr, 1,769,098 likes
이 음악들로 만들어진 tiktok videos 확인해봐야 알겠지만, party music 이라서 tlog 영상은 많이 안 올라왔을 것 같음.
TikTok Music 2022 & Best TikTok Songs 2022 (link)
200 songs, about 10 hr, 1,230,540 likes
이 리스트로 만든 음악 제일 먼저 확인해보기.
By Apple Music
TikTok Songs 2022 (link)
98 songs, 5 hr 19 mins
2) 그 음악을 사용해서 만든 video 리스트를 뽑는다.
영상 장르: travel vlog. 자연이 많이 나오고(색깔이 다양), 사람도 등장(감정 인식 가능)