TensorRT와 TensorRT-LLM의 둘다 알아보기
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.