Category

NVIDIA

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

NVIDIA NIM(3): NVIDIA API 카탈로그 탐험하기

4 분 소요

NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...

NVIDIA NIM(2): NVIDIA NIM 이란?

2 분 소요

NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...

NVIDIA NIM(1): NVIDIA NIM 탄생의 배경

2 분 소요

2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

trtllm-build로 생성한 engine.plan을 멀티 GPU에서 실행

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 engine.plan`을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallelism)...

LLaMA 3 모델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT-LLM을 사용하는 LLaMa3 모델로 추론하기

최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM**은 **어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에...

NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

GPU

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

Accelerated Computing

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

HPC

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

Distributed Training

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

맨 위로 이동 ↑

PyTorch

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

맨 위로 이동 ↑

RDMA

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

CUDA

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

Infiniband

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

맨 위로 이동 ↑

DGX

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

맨 위로 이동 ↑

Meta

라마콘: AI가 개발자를 대체할 듯

1 분 소요

오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...

라마API를 신청하면서

최대 1 분 소요

일단 Llama API 프리뷰를 한번 신청해 보았다. 물론 몇 주 후에 아마 전체적으로 공개할 것이라고 한다.

[논문] AI 슈퍼컴퓨터 동향

4 분 소요

AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

LLaMA 3 모델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT-LLM을 사용하는 LLaMa3 모델로 추론하기

최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

맨 위로 이동 ↑

HPE

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

NCCL

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

맨 위로 이동 ↑

InfiniBand

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

맨 위로 이동 ↑

Transformer

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

맨 위로 이동 ↑

DeepSpeed

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

맨 위로 이동 ↑

RoCE

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

CPU

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

맨 위로 이동 ↑

HPE Compute

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

MLDE

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

맨 위로 이동 ↑

Microsoft

Phi-4 Reasoning Plus: 작은 모델, 강력한 추론 능력

1 분 소요

마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.

CPU만으로 동작하는 초경량 1비트 LLM, 비트넷(BitNet)

1 분 소요

마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

맨 위로 이동 ↑

DDP

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

맨 위로 이동 ↑

TensorRT-LLM

trtllm-build로 생성한 engine.plan을 멀티 GPU에서 실행

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 engine.plan`을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallelism)...

LLaMA 3 모델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT-LLM을 사용하는 LLaMa3 모델로 추론하기

최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM**은 **어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에...

맨 위로 이동 ↑

OpenAI

오픈AI가 Windsurf를 합병한 이유

최대 1 분 소요

오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

OpenAI GPT 4.1 API 공개

4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...

GPT-4.5 사전 학습 과정 통찰

5 분 소요

OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...

맨 위로 이동 ↑

Google

구글, AI Hypercomputer의 추론 업데이트

2 분 소요

지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.

맨 위로 이동 ↑

AI Factory

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

맨 위로 이동 ↑

DataCenter

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

맨 위로 이동 ↑

DeepSpeed ZeRO

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

맨 위로 이동 ↑

Inference

[논문] 병렬로 LLM을 추론하는 APR

5 분 소요

지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

맨 위로 이동 ↑

NIM

NVIDIA NIM(3): NVIDIA API 카탈로그 탐험하기

4 분 소요

NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...

NVIDIA NIM(2): NVIDIA NIM 이란?

2 분 소요

NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...

NVIDIA NIM(1): NVIDIA NIM 탄생의 배경

2 분 소요

2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...

맨 위로 이동 ↑

AWS

아마존 노바 프리미어 발표

1 분 소요

아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

Google Cloud

새로운 Agent2Agent 프로토콜인 Google A2A 시작하기

1 분 소요

지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!

맨 위로 이동 ↑

PCIe

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

맨 위로 이동 ↑

NVSwitch

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

맨 위로 이동 ↑

FSDP

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

맨 위로 이동 ↑

vGPU

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

맨 위로 이동 ↑

TensorRT

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM**은 **어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에...

NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

맨 위로 이동 ↑

LLama 3

LLaMA 3 모델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT-LLM을 사용하는 LLaMa3 모델로 추론하기

최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

맨 위로 이동 ↑

AI

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

맨 위로 이동 ↑

LLM

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

맨 위로 이동 ↑

Lllma

라마콘: AI가 개발자를 대체할 듯

1 분 소요

오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...

[논문] AI 슈퍼컴퓨터 동향

4 분 소요

AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...

맨 위로 이동 ↑

Cloud Computing

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

Database

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

BigQuery

맨 위로 이동 ↑

BigData

맨 위로 이동 ↑

SQL

맨 위로 이동 ↑

NVMe

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

맨 위로 이동 ↑

Visual Studio

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

NVIDIA Nsight Visual Studio

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

GPUDirect

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

맨 위로 이동 ↑

DPU

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

맨 위로 이동 ↑

FPGA

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

맨 위로 이동 ↑

HPE Cray

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

HPE Apollo

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

HPE Greenlake

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

Base Commnad Platform

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

맨 위로 이동 ↑

Base Command Manager

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

맨 위로 이동 ↑

Multi GPU

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

맨 위로 이동 ↑

Multi Node

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

맨 위로 이동 ↑

OpenSource

오픈 소스와 오픈 모델의 차이점

2 분 소요

메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

맨 위로 이동 ↑

Deep Learning

NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

맨 위로 이동 ↑

Tensor Parallelism

trtllm-build로 생성한 engine.plan을 멀티 GPU에서 실행

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 engine.plan`을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallelism)...

맨 위로 이동 ↑

Training

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

맨 위로 이동 ↑

Lllma 3

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

맨 위로 이동 ↑

Model Parellinism

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

맨 위로 이동 ↑

Hugging Face

LLaMA 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

맨 위로 이동 ↑

CES2025

맨 위로 이동 ↑

DeepSeek

DeepSeek 모델 심층 분석

5 분 소요

중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...

맨 위로 이동 ↑

GTC2025

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

AgenticAI

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

PhysicalAI

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

Blackwell

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

GPT 4.5

GPT-4.5 사전 학습 과정 통찰

5 분 소요

OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...

맨 위로 이동 ↑

Google ADK

새로운 Agent2Agent 프로토콜인 Google A2A 시작하기

1 분 소요

지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!

맨 위로 이동 ↑

Kubernetes

초거대 언어 모델(LLM)을 Kubernetes로 확장하기

5 분 소요

챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...

맨 위로 이동 ↑

GPT 4.1

OpenAI GPT 4.1 API 공개

4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...

맨 위로 이동 ↑

GPT o3

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

맨 위로 이동 ↑

GPT o4-mini

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

맨 위로 이동 ↑

BITNET

CPU만으로 동작하는 초경량 1비트 LLM, 비트넷(BitNet)

1 분 소요

마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.

맨 위로 이동 ↑

Llama

라마API를 신청하면서

최대 1 분 소요

일단 Llama API 프리뷰를 한번 신청해 보았다. 물론 몇 주 후에 아마 전체적으로 공개할 것이라고 한다.

맨 위로 이동 ↑

Phi-4

Phi-4 Reasoning Plus: 작은 모델, 강력한 추론 능력

1 분 소요

마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.

맨 위로 이동 ↑

Amazon

아마존 노바 프리미어 발표

1 분 소요

아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...

맨 위로 이동 ↑

DeepLearning

퍼셉트론 탄생이야기

1 분 소요

오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.

맨 위로 이동 ↑

Paper

[논문] 병렬로 LLM을 추론하는 APR

5 분 소요

지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...

맨 위로 이동 ↑

Windsurf

오픈AI가 Windsurf를 합병한 이유

최대 1 분 소요

오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.

맨 위로 이동 ↑

AI Hypercomputer

구글, AI Hypercomputer의 추론 업데이트

2 분 소요

지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.

맨 위로 이동 ↑

DeepMind

맨 위로 이동 ↑

Gemini

맨 위로 이동 ↑

COMPUTEX

맨 위로 이동 ↑