728x90
1. 파이프라인
머신러닝/딥러닝 파이프라인의 핵심 과정 3개는 transforms(전처리), dataset(데이터 관련 정의), model feeding(모델에 데이터 대입)
2. Dataset 클래스
1. 데이터 입력의 형태를 정의
2. 데이터 입력 방식 표준화
3. 데이터 특성에 따른 서로 다른 입력의 정의
4. 데이터 형태에 따라 각 함수가 다르게 정의됨
5. 모든 것을 데이터 생성 시점에 처리할 필요 X (이미지의 tensor 변화는 학습에 필요한 시점에서, transfrom 함수로 변환)
6. 최근 HuggingFace 등 표준화된 라이브러리 사용
3. DataLoader 클래스
1. Data의 Batch 생성하는 클래스
2. 학습 직전(GPU feed 이전) 데이터의 변환
3. tensor 변환 + batch 처리가 메인 업무
4. 병렬적인 데이터 전처리 코드의 고민 필요
5. 데이터타입 : iter 객체
6. 공식 문서 정의
7. 사용법(출처 : 공식 사이트)
from torch.utils.data import DataLoader
train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)
728x90
'AI > AITech 3기' 카테고리의 다른 글
[PyTorch] 6강 모델 불러오기 (2) | 2022.01.27 |
---|---|
[PyTorch] super().__init__() 과 super(MyClass, self).__init__() 차이 (2) | 2022.01.25 |
[PyTorch] 4강 AutoGrad & Optimizer (1) | 2022.01.25 |
[PyTorch] 파이토치 함수 코드 보는 법 (0) | 2022.01.25 |
[PyTorch] 3강 PyTorch 프로젝트 구조 이해하기 (0) | 2022.01.24 |