Search
Duplicate
🛹

김영운 개인 프로젝트

최종 업데이트
4/23/2022, 3:25:00 AM
Tags
2022
일시
2022/04/16
작성자
김영운
포스팅 종류
Empty
✅ main

이미지 기반 음향 효과 시스템

이미지의 정보를 추출하여 해당 정보의 대상들이 발생하는 소리를 종합하여 추출한다.
해당 시스템으로 이미지만으로 시청각적 경험을 느끼는 것을 목표로 한다.
곡 소개, 리뷰를 활용하여 Dataset 구성
모델: 미정
관련 연구 조사: 아직

3주차 (22.04.16)

할 일 목록

관련 논문 찾기 (Paper with code의 Music Generation, NLP? 쪽을 보려고 합니다. )
신시 공부 및 constant-Q 공부
BBC-SoundEffect 링크, 추가로 KBS에서 비슷한 종류의 자료 확인

주차 활동 정리

.

4주차 (22.04.23)

할 일 목록

관련 논문 찾기 (Paper with code의 Music Generation, NLP? 쪽을 보려고 합니다. )
신시 공부 및 constant-Q 공부
BBC-SoundEffect 링크, 추가로 KBS에서 비슷한 종류의 자료 확인

주차 활동 정리

.

7주차 (22.05.14)

할 일 목록

BBC SoundEffect 소스 추출 (기존에 있던 추출 프로그램은 사이트 개편으로 인해 사용 불가)
추출 시 Categories 정보와 Description 정보를 tag로 넣을 수 있도록 준비
Multi label Image Classification에 대한 공부

주차 활동 정리

Natural Language 모델에 지식 부족으로 주제 변경.
BBC-SoundEffect와 해당 desciption을 검색해 나온 구글 이미지와 연관지어 사진을 보고 해당 사진의 환경에 맞는 사운드 효과를 만들어내는 생성 모델을 만들고자 함 (Ex. 깊은 동굴 사진을 보고 동굴 관련 소리가 나도록)
이미지에 관한 청각적 정보를 제공하는 것을 목표로 함
image classification으로 해당 이미지의 정보를 추출하여,
추출된 정보에 알맞은 소리를 생성하는 모델
추출된 정보에 가장 어울리는 SoundEffect를 찾아내는 모델
classification된 정보에 하나만 추출하는 것이 아닌 threshold 이상의 값들을 다 고려하는 방식을 생각 중. cave와 stream이라면 동굴 속 물 소리를 탐색.
bird와 city인데 두 가지 tag를 가진 SoundEffect가 없다면 각 tag의 소스를 섞는 방법도 고려.

8주차 (22.05.21)

할 일 목록

주차 활동 정리

BBC sound effects source title, taging pdf
태깅이 의외로 부정확해서 Title에 있는 단어 정보를 태그화하는 작업을 고려 중
Loading PDF…
BBC sound effect source를 일괄 다운로드하는 Github이 있었는데, 사이트가 개편되면서 먹통이 되어버림... ← 직접 크롤링을 해야할 듯
multi label classification은 쉬운듯??

8주차 (22.05.28)

주차 활동 정리

기존 BBC sound effects 16k csv 파일 활용, 데이터 받기는 가능
기록된 description, category, CDName 의 정보를 활용하면 될 듯.
현재 33k로 늘어났지만 해당 정보를 얻으려면 크롤링해야해서 기존에 작성된 16k 버전 csv 파일을 토대로 진행하기로 함.

할 일 목록

10주차 (22.06.11)

주차 활동 정리

할 일 목록

데이터 확보

12주차 (22.06.25)

주차 활동 정리

한게 없네요

할 일 목록

이전 계획 달성