본문 바로가기

Computer/ML·DL·NLP26

Stable Diffusion Code Explained: train step & timestep 차이점 https://github.com/huggingface/diffusers/blob/ebf581e85f3aad7faa30ceb4678148ee87375446/examples/text_to_image/train_text_to_image.py 논문 한 번 읽었다고 SD 프로세스를 이해한 것은 절대 아니다! 직접 코드를 뜯어보고 GPT한테 물어도 보고 하면서 이해하려고 노력해야 조금이나마 내 것이 되는 것 같다.. 위 깃헙에서 main 함수 중 루프 돌면서 학습하는 부분만 가져와 봤다. 이해한 내용은 모두 한글로 주석을 달아 두었다. # 매 epoch마다.. (training step이라고도 하고, 100~1000회정도로 고정) for epoch in range(first_epoch, args.num_train.. 2024. 2. 19.
torchvision.transforms.Compose https://yeko90.tistory.com/entry/pytorch-transformsCompose-tutorial [pytorch] transforms.Compose 사용 방법 방대한 데이터 이미지를 한번에 변형 시킬 필요가 자주 있다. 이때 일일이 수작업으로 이미지를 변환한다면 리소스 낭비가 이만저만이 아닐거다. 이에 대한 해결책으로 torchvision.transforms.Compose yeko90.tistory.com 한꺼번에 이미지 데이터셋을 resize 및 전처리해야할 때 사용함 2024. 1. 26.
[PyTorch] .grad.zero_() zero_grad() 차이점 pytorch에서 gradient 값을 저장하는 방식 - 모든 파라미터(모델에서 학습하고자 하는 대상)에 .grad 라는 attribute를 붙여서, 파라미터마다 grad를 보관 - 어떤 파라미터를 학습할지는 초기에 텐서를 만들 때 requires_grad=True 옵션을 줘서 지정한다. .grad.zero_() zero_grad() 를 하는 이유 - gradient를 계산할 때 pytorch가 자동으로 gradient 값을 누적(accumulate)하기 때문. - 한 번 .backward() 를 불렀으면 그 값이 각 파라미터의 .grad에 누적되고, 따라서 나중에 한 번 더 .backward() 를 불렀을 때 영향을 끼침 - 따라서 .backward() 를 부르기 전에, 파라미터의 .grad에 원래 누.. 2024. 1. 16.
[KoBigBird] Basemodel, configuration 실수하면서 배우는 딥러닝....😭 https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertConfig BERT call ( input_ids: typing.Union[typing.List[tensorflow.python.framework.ops.Tensor], typing.List[numpy.ndarray], typing.List[tensorflow.python.keras.engine.keras_tensor.KerasTensor], typing.Dict[str, tensorflow.python.framework.ops.Tensor], typin huggingface.co 2022. 12. 16.
[ML] train, valid, test batch size 조정하기, 그 영향 https://towardsdatascience.com/how-to-break-gpu-memory-boundaries-even-with-large-batch-sizes-7a9c27a400ce How to Break GPU Memory Boundaries Even with Large Batch Sizes Overcoming the problem of batch size and available GPU memory in training neural networks towardsdatascience.com https://stackoverflow.com/questions/54413160/training-validation-testing-batch-size-ratio Training, Validation, Tes.. 2022. 12. 6.
[PCA] 공분산 행렬, PCA https://m.blog.naver.com/tjdrud1323/221720259834 PCA(주성분 분석)_Python(파이썬) 코드 포함 PCA PCA는 무엇이며 언제 사용하는가? https://www.youtube.com/watch?v=FgakZw6K1QQ P... blog.naver.com https://www.youtube.com/watch?v=jNwf-JUGWgg 공분산 행렬 - 공분산 행렬의 의미: 각 feature의 변동이 얼마나 닮았나? - 각 feature에서 평균을 뺀 값 : 변동 - 닮은 정도를 알기 위해서는 키의 변동, 몸무게의 변동에 내적을 적용. -> 두 매트릭스 곱해주면 분산, 공분산으로 이루어진 symmatric matrix가 만들어지게 됨 - n이 아니라 n-1으로 나눠주.. 2022. 9. 20.