인공지능/부스트코스_파이토치로 시작하는 딥러닝 기초
Lab 11-6 PackedSequence
곰퓨타
2021. 3. 23. 23:32
이는 부스트코스 강의를 들으면서 받아적었다!!!
www.boostcourse.org/ai214/lecture/43779/?isDesc=false
파이토치로 시작하는 딥러닝 기초
부스트코스 무료 강의
www.boostcourse.org
Examples of sequential data
-> 이미지 데이터와 다르게 길이가 미정인 데이터가 많다.
* Text : "The quick brown fox jumps over the lazy dog"
* Audio
How do we make a batch with multiple sequence sizes?
아래 예시와 같이 size가 다른 text data가 있을 때, batch를 만드는 방법!!
- padding method
가장 긴 자리에 맞추어, 다른 빈 공간들은 pad로 채워진다.
batch size는 가장 긴 문장 길이로 된다.
pad로 채우게 되면 계산하지 않아도 되는 pad로 채워진 자리 또한 계산해야한다는 단점이 있다.
- packing method
sequence 길이에 대한 정보를 저장하는 방법이다.
pytorch에서 사용하려면 데이터를 길이 내림차순으로 정렬하여야 사용이 가능하다.
padding 방법에 비해 효율적이고, pad token을 사용하지 않아도 되지만
내림차순으로 정렬하는 과정 및 구현 시 padding 에 비해 복잡하다는 단점이 있다.