본문 바로가기

Development/Triton Inference Server5

[Triton Inference Server] CUDA driver version is insufficient or CUDA runtime version CUDA driver version is insufficient or CUDA runtime version Problem tensorrt 모델로 변환하고 tritonserver를 load 하는데 다음과 같은 오류가 발생했다. solution 내 경우에는 docker 설정을 건드리니까 해결이 됐다. /etc/docker/의 폴더에 가면 deamon.json이라는 폴더가 있는데 열어보면 다음과 같이 적혀 있다. kubernetes설치하고 그러느라 적혀 있는건 다를 수도 있다. { "exec-opts": ["native.cgroupdriver=systemd"], "log-driver": "json-file", "log-opts": { "max-size": "100m" }, "storage-driver": "o.. 2022. 11. 4.
[Triton Inference Server] Server reload없이 model update --model-control-mode option Triton Inference Server에서 model-control-mode option이란 기존에 triton server에 모델을 올릴 때 update하면 server를 내렸다가 다시 load하는 식으로 진행해 왔었는데, 찾아보니 "--model-control-mode"라는 option이 있었다. "--model-control-mode= " option에는 3가지가 있는데 default인 None과 EXPLICIT, 그리고 POLL이 있다. 여기서 POLL을 option으로 주게 되면 model-repository에 모델을 변경하거나 update하였을 때 자동으로 update된 부분에 대해 update를 해준다. 자세한 설명은 밑의 링크를 보면 설명이 되어 있다. https://github.com.. 2022. 6. 27.
[Triton Inference Server] batch size does not match other inputs error Triton Inference Server ensemble model batch size error Triton inference server는 ensemble model을 만들어서 backend에서 한번에 결과를 출력할 수 있다. 이때 ensemble model에서는 config.pbtxt를 작성하는데, config.pbtxt에 scheduling한 모델 순서대로 process가 진행되고 각 모델 별로 input과 output의 name을 설정한다. 그리고, scheduling에 포함되어 있는 각 모델의 폴더 내에 있는 config.pbtxt와 이름을 맞춰주고, input과 output의 shape를 지정해 주게 된다. 만약 ensemble 방법이 궁금하면 밑의 링크를 보면 된다. https://shu.. 2022. 3. 14.
[Triton Inference Server] Triton Inference Server model ensemble Triton Inference Server란 Nvidia에서 만든 Triton Inference Server는 여러 프레임워크에 대한 모델들을 사용할 수 있고, cpu와 gpu의 처리량과 활용도를 극대화 해준다. Triton Inference Server에서 모델을 ensemble을 하게 되면 "preprocess -> inference -> postprocess"를 캡슐화 하여 intermediate tensors를 전송하는 overhead를 피할 수 있고, triton으로 보내야 하는 request 횟수를 줄일 수 있다. 만약, ensemble을 하기 전에 기본적인 예제를 실행해보고 싶으면 밑의 링크를 보면 된다. https://shuka.tistory.com/33 [Triton Inference S.. 2022. 2. 4.
[Triton Inference Server] Docker를 사용한 triton server 예제 실행 Triton Inference Server란 Triton server는 DL의 model을 Inference하는데 GPU의 자원을 최적으로 할당하여 활용도를 극대화 하여 Inference server를 구축하기 편하게 해준다. 그리고 tensorflow, TensorRT, Caffe2, pytorch 등과 같은 주요 framework를 지원하면서 docker container 기반의 Open-source inference serving software이다. 아래 링크는 triton inference server에 대해 자세히 설명되어 있는 nvidia 홈페이지와 Git 주소이다. https://developer.nvidia.com/nvidia-triton-inference-server NVIDIA Tri.. 2022. 1. 26.
728x90