최근 포스트

[실습] 멀티 GPU 환경에서 TensorRT-LLM Runtime API로 추론하기

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...

[실습] Lllama 3 델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...

[실습] NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

오픈 소스와 오픈 모델의 차이점

2 분 소요

메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

[실습] Slurm 설치 및 구성

1 분 소요

지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.

Slurm이란 무엇인가

1 분 소요

슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...