본문 바로가기

Development/Pytorch4

deepspeed를 이용하여 pytorch 모델 학습 방법 Deepspeed란? Deepspeed는 모델을 training/inference 속도를 빠르고 효율적으로 할 수 있도록 도와주는 Microsoft에서 만든 딥러닝 최적화 라이브러리이다. 밑의 링크는 deepspeed에 대한 github 주소이다. https://github.com/microsoft/DeepSpeed GitHub - microsoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference ea DeepSpeed is a deep learning optimization library that makes distributed training and infer.. 2023. 4. 27.
[Pytorch] CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm cublasSgemm에 대한 오류가 발생하였을 경우 Pytorch 프레임워크로 코드를 학습하던 중 갑자기 다음과 같은 오류가 발생했다. CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm cublasSgemm에 대한 오류 해결 방법 google에 검색을 해보면 내 문제처럼 loss를 backward()할 때 발생하는 문제에 대한 해결 글은 없었고, 기존에 돌아가던 코드였는데 갑자기 실행이 안돼서 원인은 정확히 모르지만 pytorch version을 내렸더니 해결되었다. # 기존 version cudatoolkit==11.3.1 pytorch==1.13.0 torchvision==0.14.0 # 변경한 version cudatoolkit==.. 2022. 12. 14.
[Pytorch] pytorch모델을 onnx모델로 변환 방법 pytorch모델을 onnx 모델로의 변환 pytorch 모델을 tensorrt로 변환하기 위해서는 pytorch 모델을 onnx로 변환을 해야 하는 단계를 거쳐야 하는데, 변환을 할 때 batch를 원하는 size로 고정을 할 수도 있고 dynamic batch로 설정해 줄 수도 있다. onnx모델로의 변환 순서 onnx 모델로 변환하기 위해서는 기본적으로 1. 변환하고 싶은 pytorch model load 2. input tensor 설정 3. input, output name 설정 4. dynamic_axes 설정 (dynamic batch로 할 경우) 5. export 의 순서로 설정해서 변환해 주면 된다. 그리고 export할 때 여러가지 option을 할 수 있는데 아래의 링크 중간에 참고하.. 2021. 10. 25.
[Pytorch]docker container에서 pytorch memory error docker에서 발생하는 memory error local에서 잘 돌아가던 pytorch 코드를 docker의 container를 생성하여 pytorch 코드를 실행하면 가끔 메모리가 부족하다는 오류를 확인할 경우가 있다. Unexpected bus error encountered in worker. This might be caused by insufficient shared memory(shm) Memory Error을 해결하기 위한 방법 이러한 오류가 떴을 경우 내 경우에는 docker의 container 생성할 때 optiojn 하나를 추가해 주면 해결이 됐다. --ipc string IPC mode to use --ipc라는 option이 있는데 option을 밑에와 같이 host로 설정해 주변.. 2021. 9. 16.
728x90