곰퓨타의 SW 이야기

Lab 11-6 PackedSequence 본문

인공지능/부스트코스_파이토치로 시작하는 딥러닝 기초

Lab 11-6 PackedSequence

곰퓨타 2021. 3. 23. 23:32

이는 부스트코스 강의를 들으면서 받아적었다!!!

www.boostcourse.org/ai214/lecture/43779/?isDesc=false

 

파이토치로 시작하는 딥러닝 기초

부스트코스 무료 강의

www.boostcourse.org

 

 

Examples of sequential data

-> 이미지 데이터와 다르게 길이가 미정인 데이터가 많다.

* Text :  "The quick brown fox jumps over the lazy dog"

* Audio 

 

 

 

 

How do we make a batch with multiple sequence sizes?

아래 예시와 같이 size가 다른 text data가 있을 때,  batch를 만드는 방법!! 

 

- padding method

가장 긴 자리에 맞추어, 다른 빈 공간들은 pad로 채워진다.

batch size는 가장 긴 문장 길이로 된다.

pad로 채우게 되면 계산하지 않아도 되는 pad로 채워진 자리 또한 계산해야한다는 단점이 있다.

 

- packing method

sequence 길이에 대한 정보를 저장하는 방법이다.

pytorch에서 사용하려면 데이터를 길이 내림차순으로 정렬하여야 사용이 가능하다.

padding 방법에 비해 효율적이고, pad token을 사용하지 않아도 되지만

내림차순으로 정렬하는 과정 및 구현 시 padding 에 비해 복잡하다는 단점이 있다.

 

 

PyTorch Library Functions

pytorch library 관계도

 

 

Comments