본문 바로가기

인공지능/Toy Projects

(12)
DeepMC_4 / Decoder 목차 Introduction E) Attention Mechanism과 연결되어있는 F) Decoder 부분을 살펴본다. Decoder의 output이 Attention의 input으로 사용되기 때문에 맨 처음에 Decoder LSTM을 어떻게 구현해야할지 고민을 많이 했다. 일반적인 nn.LSTM을 사용하면 time step별로 output을 뽑을 수 없기 때문이다. Method & Material E) Attention Mechanism은 2 level attention (Position Based Content Attention Layer, Scale Guided Attention Layer)로 이루어져 있고, 각각 Context vector c, c`을 time step 별로 출력해준다. 그리고 ..
DeepMC_3 / 2 Levels Attention Mechanism 목차 Introduction 저번 D)Multi-Scale Deep Learning에 이어서 다음 부분인 E)Attention Mechanism부분이다. DeepMC 모델에서 사용된 attention은 2가지 종류로 해당 논문에서는 '2 levels of attention models' 라고 표현하고 있다. 2 levels은 각각 Position Based Content Attention Layer, Scale Guided Attention Layer이다. Method & Metarial D) Multi-scale Deep Learning에서 다중 스케일로 encoding 된 데이터를 attention mechanism을 이용해 Decoder에 입력할 context vector(c)를 계산하는 과정이다...
DeepMC_2 / Multi-Scale Deep Learning 목차 Introduction 저번 C)WPD에 이어서 다음 단계인 D)Multi-Scale Deep Learning 부분이다. DeepMC 논문에서 설명하고 있는 모델의 추론 방식은 C)WPD(Wavelet Packet Decomposition)을 5 levels로 분리해 기상 데이터를 다양한 scale관점에서 encoding하고 attention을 이용해 분리한 다양한 scale의 데이터중에 예측에 어떤 데이터를 사용할지 가중치를 이용해 결정한다. D)Multi-Scale Deep Learning은 전체 모델에서 Encoder 부분으로 CNN stack과 CNN-LSTM스택으로 구분된다. 각각을 코드로 구현해 동작이 잘 되는지 확인해본다. Material & Method CNN stack과 CNN-LS..
DeepMC_1 / Wavelet Packet Decomposition (WPD) 목차 Introduction DeepMC(Kumar, Peeyush, et al. "Micro-climate Prediction-Multi Scale Encoder-decoder based Deep Learning Framework." Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.) 논문의 모델을 구현을 시도했다. 전처리에 WPD(Wavelet Packet Decomposition)을 이용해 time siries data를 time scale별로 분해하여 multi-scale deeplearning을 하는 프로세스가 있다. 그림 1의 C부분에 해당하는 내용을 실제 데이터를 이용해서 WPD를 ..
Multi-GPU Deep Learning_2 (using DDP, MaskRCNN) 목차 Introduction 이세돌 Image segmentation에 사용하던 MaskRCNN을 기존 pytorch에서 pytorch lightning으로 옮기는 동시에 DDP도 적용하여 Multi-GPU Deep Learning을 시도했다. Method & Material torchvision의 maskrcnn모델을 학습에 사용했다. 모델의 구조는 다음과 같다. 더보기 MaskRCNN( (transform): GeneralizedRCNNTransform( Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) Resize(min_size=(800,), max_size=1333, mode='bilinear') ) (backbone): Back..
Multi-GPU Deep Learning_1 (using DDP) 목차 Introduction Data Parallel과 분산 딥러닝에 익숙해지기 위해서 간단한 auto-encoder를 만들었다. Data Parallel에는 크게 DP와 DDP가 있는데, 그 둘의 차이점은 이미 간단하게 서술한바가 있다. Data Parallel(DP), Distributed Data Parallel(DDP)의 차이 목차 Keywords Data Parallel(DP), Distributed Data Parallel (DDP), Multi-GPU training, All reduce Data Parallel(DP), Distributed Data Parallel(DDP)의 차이 Compared to DataParallel, DistributedDataPar.. engui-note.tis..
가수의 목소리 변경_1 (Singing Voice Conversion) 목차 Introduction Voice Conversion is a technology that modifies the speech of a source speaker and makes their speech sound like that of another target speaker without changing the linguistic information. Singing voice conversion is to convert a singer's voice to another one's voice without changing singing content. 음성 변환은 언어 정보를 변경하지 않고 원본 화자의 음성을 수정하여 다른 대상 화자의 음성처럼 들리게 하는 기술이다. 그 중에서도 노래소리변환은 ..
노래에서 목소리와 악기소리 분리_完 (music demixing using mdx-net & MUSDB18 dataset) Introduction mixing은 멀티 트랙이 보편화된 작곡 환경에서 각 트랙간의 레벨 밸런스를 맞추고 여러 가지 소리들을 하나의 마스터 트랙이 모아 섞는 작업을 의미한다.(위키참고) demixing이란 mixing의 reverse 작업으로 합쳐진 하나의 파일에서 보컬, 드럼, 베이스 등등으로 구분하여 추출하는 작업이라고 생각하면 쉽다. 개인적으로 만들고 있는 영상이 여러명의 영상을 합친 영상인데, 노래소리가 중복해서 들려서 싱크 맞추기가 상당히 까다로운 상태이다. 이를 해결하기위해 생각한 방법이 만약 음성파일에서 노래소리를 제거하고 음성만 추출할 수 있다면, 싱크를 어느정도만 맞춰도 노래가 서로 공명하지 않고 깔끔한 소리가 날 수 있을 것 같아서 시도해봤다. Method & Material 알고리즘..