Category

NVIDIA

컴퓨텍스2025에서 NVIDIA 키노트

2025년 05월 20일 4 분 소요

오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2025년 03월 18일 2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

AI 추론의 미래

2025년 02월 24일 1 분 소요

AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.

더 똑똑하고 강력한 AI를 만드는 스케일 법칙

2025년 02월 23일 2 분 소요

스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.

NVIDIA 풀스택 솔루션으로 AI 추론 성능 최적화

2025년 01월 28일 5 분 소요

AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.

새로운 AI 추론인 Reasoning AI 추론에 대해

2025년 01월 27일 3 분 소요

작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?

NVIDIA NIM(3): NVIDIA API 카탈로그 탐험하기

2025년 01월 26일 4 분 소요

NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...

NVIDIA NIM(2): NVIDIA NIM 이란?

2025년 01월 25일 2 분 소요

NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...

NVIDIA NIM(1): NVIDIA NIM 탄생의 배경

2025년 01월 24일 2 분 소요

2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...

CES 2025 에서 발표한 NVIDIA 키노트 주요 정리

2025년 01월 13일 1 분 소요

CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.

AI 추론이란 무엇인가?

2024년 04월 08일 3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

[실습] 멀티 GPU 환경에서 TensorRT-LLM Runtime API로 추론하기

2024년 04월 07일 1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...

[실습] Lllama 3 델을 TensorRT-LLM 변환

2024년 04월 06일 1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

[실습] TensorRT-LLM을 사용하는 LlaMa3 모델로 추론하기

2024년 04월 05일 최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2024년 04월 04일 2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...

[실습] NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

2024년 04월 03일 1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

NVIDIA vGPU(2)-vGPU 설정 예시

2024년 02월 02일 1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2024년 02월 01일 2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

UVA는 무엇인가?

2023년 12월 27일 최대 1 분 소요

NVIDIA DGX H100

2023년 12월 27일 최대 1 분 소요

6U란 무엇인가?

2023년 12월 23일 최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2023년 12월 22일 2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

2023년 12월 20일 1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

2023년 12월 20일 1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

2023년 12월 19일 1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

모델 학습 구조

2023년 12월 10일 4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

2023년 12월 09일 3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

2023년 12월 08일 1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

2023년 12월 07일 1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

2023년 12월 06일 1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

2023년 12월 05일 1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

2023년 12월 04일 1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

2023년 12월 03일 1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

2023년 12월 02일 3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

2023년 12월 01일 1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

2023년 11월 30일 1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2023년 11월 29일 2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2023년 11월 28일 2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

2023년 11월 27일 3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

2023년 11월 26일 1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2023년 11월 25일 2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

2023년 11월 24일 1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

2023년 11월 23일 1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

2023년 11월 22일 1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2023년 11월 21일 2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

2023년 11월 20일 3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

Category

NVIDIA

Microsoft

Azure

GPU