Category

NVIDIA

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

AI 추론의 미래

1 분 소요

AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.

더 똑똑하고 강력한 AI를 만드는 스케일 법칙

2 분 소요

스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.

NVIDIA 풀스택 솔루션으로 AI 추론 성능 최적화

5 분 소요

AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.

새로운 AI 추론인 Reasoning AI 추론에 대해

3 분 소요

작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?

NVIDIA NIM(3): NVIDIA API 카탈로그 탐험하기

4 분 소요

NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...

NVIDIA NIM(2): NVIDIA NIM 이란?

2 분 소요

NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...

NVIDIA NIM(1): NVIDIA NIM 탄생의 배경

2 분 소요

2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

[실습] 멀티 GPU 환경에서 TensorRT-LLM Runtime API로 추론하기

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...

[실습] Lllama 3 델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...

[실습] NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

Microsoft

Azure AI Foundry Agent Service(2)-지능형 에이전트 구축 환경 설정

3 분 소요

Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...

Azure AI Foundry Agent Service(1)-지능형 에이전트 구축을 위한 통합 플랫폼 개요

4 분 소요

대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...

MS 에이전틱 데브옵스(Agentic DevOps)

5 분 소요

Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...

[실습] AI Toolkit for Visual Studio Code 사용하기

5 분 소요

이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.

[실습] 파운드리 로컬에서 OpenAI SDK 사용하기

4 분 소요

이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...

[실습] 파운드리 로컬 시작하기

1 분 소요

지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...

윈도우 AI 파운드리 세계

4 분 소요

Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.

Azure AI Foundry(5)-[실습] Azure OpenAI 리소스 생성

3 분 소요

지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...

Azure AI Foundry(4)-Azure AI Foundry 소개

3 분 소요

Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...

Azure AI Foundry(3)-프로젝트와 허브

1 분 소요

Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.

Azure AI Foundry(2)-Azure AI Foundry 아키텍처

1 분 소요

Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.

Azure AI Foundry(1)-OpenAI Studio와 Azure AI Studio 차이점

1 분 소요

오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.

MS Build 2025 키노트(3)-중첩 S자 곡선

1 분 소요

마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!

MS Build 2025 키노트(2)-Azure AI Foundry 및 차세대 AI 인프라

6 분 소요

이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...

MS Build 2025 키노트(1)-에이전틱 웹 개발 시대 중흥

6 분 소요

Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.

작지만 강력한 추론 능력을 가진 MS Phi-4 Reasoning Plus

1 분 소요

마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.

CPU만으로 동작하는 초경량 1비트 LLM, MS BitNet

1 분 소요

마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.

Azure Apps 전략

2 분 소요

Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...

Azure AI Studio

1 분 소요

Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...

Azure에서의 AI 워크로드

2 분 소요

기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...

Azure OpenAI 종단간 챗봇 사례 분석(3)-배포가이드

2 분 소요

자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.

Azure OpenAI 종단간 챗봇 사례 분석(1)-솔루션 아키텍처 개요

2 분 소요

Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...

Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석(3)-보안

2 분 소요

보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.

MS AI 아키텍처 디자인(1)-AI 개념과 기본 가이드

2 분 소요

마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.

[실습] PDF 문서 기반 챗봇

9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

[실습] 부동산 데이터를 Chroma에 임베딩 저장하기

4 분 소요

간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

머신러닝 용어와 개념

1 분 소요

머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.

맨 위로 이동 ↑

Azure

Azure AI Foundry Agent Service(2)-지능형 에이전트 구축 환경 설정

3 분 소요

Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...

Azure AI Foundry Agent Service(1)-지능형 에이전트 구축을 위한 통합 플랫폼 개요

4 분 소요

대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...

MS 에이전틱 데브옵스(Agentic DevOps)

5 분 소요

Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...

[실습] AI Toolkit for Visual Studio Code 사용하기

5 분 소요

이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.

[실습] 파운드리 로컬에서 OpenAI SDK 사용하기

4 분 소요

이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...

[실습] 파운드리 로컬 시작하기

1 분 소요

지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...

윈도우 AI 파운드리 세계

4 분 소요

Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.

Azure AI Foundry(5)-[실습] Azure OpenAI 리소스 생성

3 분 소요

지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...

Azure AI Foundry(4)-Azure AI Foundry 소개

3 분 소요

Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...

Azure AI Foundry(3)-프로젝트와 허브

1 분 소요

Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.

Azure AI Foundry(2)-Azure AI Foundry 아키텍처

1 분 소요

Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.

Azure AI Foundry(1)-OpenAI Studio와 Azure AI Studio 차이점

1 분 소요

오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.

Azure Apps 전략

2 분 소요

Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...

Azure AI Studio

1 분 소요

Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...

Azure에서의 AI 워크로드

2 분 소요

기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...

Azure OpenAI 종단간 챗봇 사례 분석(3)-배포가이드

2 분 소요

자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.

Azure OpenAI 종단간 챗봇 사례 분석(1)-솔루션 아키텍처 개요

2 분 소요

Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...

Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석(3)-보안

2 분 소요

보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.

MS AI 아키텍처 디자인(1)-AI 개념과 기본 가이드

2 분 소요

마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.

맨 위로 이동 ↑

GPU

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

Accelerated Computing

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

HPC

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

OpenAI

국내 기업이 Agentic AI 도입에 실패하는 이유

1 분 소요

국내 기업이 Agentic AI 도입에 실패하는 이유는 해외 기업 사례와 좀 다르다. 너무 일찍 Agentic AI를 도입해서 인원이 부족이나 운영의 문제점 등 그런 것 보다는 결론적으로 말하자면 한국만의 독특한 기업의 구조(?) 때문이다. 그렇다면, 좀 더 구체적으로 국내 기업...

테크노 자본주의

2 분 소요

미국 독립 기념 주일을 맞이하여 샘 알트먼이 X에 올린 글이 많이 화제가 되고 있다. 특히, 문장 속의 테크노 자본주의(Techno Capitalism) 이라는 다소 철학적인 용어가 나와서 이에 한번 정의해 보겠다.

OpenAI Agents 패턴(6)-도구들로서의 멀티 에이전트

1 분 소요

에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...

OpenAI Agents 패턴(5)-멀티 에이전트로 핸드오프

1 분 소요

멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...

OpenAI Agents 패턴(4)-에이전트 기반 핸드오프

1 분 소요

에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...

OpenAI Agents 패턴(3)-프로그래밍 방식의 핸드오프

1 분 소요

많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....

OpenAI Agents 패턴(2)-Tool Use Agent

1 분 소요

에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!

OpenAI Agents 패턴(1)-간단한 에이전트 호출

최대 1 분 소요

OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.

OpenAI Agents SDK를 이용한 멀티 에이전트 개발

4 분 소요

OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...

안드레 카파시 - 인공지능 시대의 소프트웨어 변화

3 분 소요

이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...

OpenAI, 최고 성능 추론 모델 o3-pro 발표

2 분 소요

지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.

[실습] Codex 로 파이썬 웹 앱 만들기

2 분 소요

Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.

[실습] 오픈 AI의 Codex CLI 설치

3 분 소요

이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.

오픈AI가 Windsurf를 합병한 이유

최대 1 분 소요

오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

OpenAI GPT 4.1 API 공개

4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...

GPT-4.5 사전 학습 과정 통찰

5 분 소요

OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...

[실습] PDF 문서 기반 챗봇

9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

[실습] 부동산 데이터를 Chroma에 임베딩 저장하기

4 분 소요

간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...

맨 위로 이동 ↑

Distributed Training

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

맨 위로 이동 ↑

PyTorch

[실습] Llama 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

맨 위로 이동 ↑

AWS

Amazon Bedrock: Strands Agent에 즉시 Guardrails 추가하기

2 분 소요

AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.

Amazon Nova Canvas: Virtual Try-on & Style Options 출시

3 분 소요

아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...

Amazon Titan vs Nova

4 분 소요

아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...

아마존 노바 프리미어 발표

1 분 소요

아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...

Amazon Bedrock: AWS 서버리스 생성형 AI 플랫폼

2 분 소요

AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...

드디어 AWS 기반 데이터 과학 책이 나왔다!

2 분 소요

드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.

AWS, 머신러닝 채택과 혁신의 6가지 트랜드

2 분 소요

맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

RDMA

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

GPU에서 Inter-node와 Intra-node 차이점

1 분 소요

NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

CUDA

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

OpenSource

LangChain과 LlamaIndex 차이

1 분 소요

그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.

vLLM(5)-GPU 성능 최적화 해 주는 Fused Kernel

1 분 소요

vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...

vLLM(4)-FlashAttention에 대해

5 분 소요

vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...

vLLM(3)-MS Phi-2 모델 실행 소스 분석

최대 1 분 소요

현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.

vLLM(2)-윈도우11 WSL환경에서 vLLM 설치

1 분 소요

지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.

vLLM(1)-LLM 추론과 서비스의 효율성 향상

2 분 소요

LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...

오픈 소스와 오픈 모델의 차이점

2 분 소요

메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

[실습] Slurm 설치 및 구성

1 분 소요

지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.

Slurm이란 무엇인가

1 분 소요

슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.

맨 위로 이동 ↑

Infiniband

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

맨 위로 이동 ↑

DGX

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

맨 위로 이동 ↑

Meta

메타의 Scale AI 투자

최대 1 분 소요

이번 주 IT 업계에서는 아주 흥미로운 소식이 또 전해졌다. 메타는 데이터 라벨링 전문 기업인 Scale AI에 49% 지분을 확보하기 위해 143억 달러(약 19조 7천억 원)를 투자한 것으로 전해졌다. 이번 투자로 Scale AI의 기업 가치는 290억 달러(약 40조 원)로 ...

라마콘: AI가 개발자를 대체할 듯

1 분 소요

오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...

[논문] AI 슈퍼컴퓨터 동향

4 분 소요

AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...

[실습] Llama 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

[실습] Lllama 3 델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

맨 위로 이동 ↑

HPE

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

NCCL

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

NVIDIA DGX

1 분 소요

NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

맨 위로 이동 ↑

InfiniBand

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

NVIDIA DGX SuperPOD

1 분 소요

NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...

NVIDIA DGX POD

1 분 소요

NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...

맨 위로 이동 ↑

Google

렉스 프리드먼의 구글 ceo 순다 피차이 인터뷰

4 분 소요

지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...

AI 혁신의 현재와 미래를 얘기하는 구글IO’25

9 분 소요

구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!

구글, AI Hypercomputer의 추론 업데이트

2 분 소요

지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.

맨 위로 이동 ↑

Transformer

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

모델 학습 구조

4 분 소요

모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.

단일 GPU에서 효율적인 학습

3 분 소요

모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

맨 위로 이동 ↑

DeepSpeed

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DeepSpeed Zero Optimizer

1 분 소요

ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...

DeepSpeed

1 분 소요

DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.

맨 위로 이동 ↑

Anthropic

새로운 MCP 소식

1 분 소요

2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.

Anthropic의 효율적인 에이전트 개발(4)-실전에서의 에이전트 활용

2 분 소요

고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...

Anthropic의 효율적인 에이전트 개발(3)-에이전트

1 분 소요

에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...

Anthropic의 효율적인 에이전트 개발(2)-워크플로우

3 분 소요

이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.

Anthropic의 효율적인 에이전트 개발(1)-에이전트 정의 및 활용

1 분 소요

다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...

맨 위로 이동 ↑

MCP

새로운 MCP 소식

1 분 소요

2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.

Anthropic의 효율적인 에이전트 개발(4)-실전에서의 에이전트 활용

2 분 소요

고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...

Anthropic의 효율적인 에이전트 개발(3)-에이전트

1 분 소요

에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...

Anthropic의 효율적인 에이전트 개발(2)-워크플로우

3 분 소요

이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.

Anthropic의 효율적인 에이전트 개발(1)-에이전트 정의 및 활용

1 분 소요

다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...

맨 위로 이동 ↑

vLLM

vLLM(5)-GPU 성능 최적화 해 주는 Fused Kernel

1 분 소요

vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...

vLLM(4)-FlashAttention에 대해

5 분 소요

vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...

vLLM(3)-MS Phi-2 모델 실행 소스 분석

최대 1 분 소요

현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.

vLLM(2)-윈도우11 WSL환경에서 vLLM 설치

1 분 소요

지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.

vLLM(1)-LLM 추론과 서비스의 효율성 향상

2 분 소요

LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...

맨 위로 이동 ↑

RoCE

Infiniband vs. RoCE 비교

1 분 소요

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

스파인-리프 네트워크

1 분 소요

스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.

지연(Latency)

2 분 소요

앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...

RDMA에 대하여

3 분 소요

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...

맨 위로 이동 ↑

CPU

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

맨 위로 이동 ↑

HPE Compute

초거대 언어 모델에서의 분산 학습

1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

MLDE

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

Determined AI는 무엇인가

1 분 소요

지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...

NCCL이란 무엇인가?

1 분 소요

NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...

HPE MLDE에 대해

1 분 소요

HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...

맨 위로 이동 ↑

DDP

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

DDP 개념과 MLDE 지원여부

1 분 소요

DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.

맨 위로 이동 ↑

TensorRT

[실습] 멀티 GPU 환경에서 TensorRT-LLM Runtime API로 추론하기

1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...

[실습] Lllama 3 델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

TensorRT와 TensorRT-LLM의 둘다 알아보기

2 분 소요

어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...

[실습] NVIDIA 고성능 딥러닝 추론 최적화 및 실행 엔진, TensorRT

1 분 소요

TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?

맨 위로 이동 ↑

AI Factory

혼잡 제어

1 분 소요

InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...

적응형 라우팅

2 분 소요

퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...

AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션

2 분 소요

NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...

맨 위로 이동 ↑

DataCenter

6U란 무엇인가?

최대 1 분 소요

“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...

맨 위로 이동 ↑

DeepSpeed ZeRO

ZeRO 와 FSDP 차이점

1 분 소요

ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...

DeepSpeed 와 ZeRO는 다른 기술인가

최대 1 분 소요

DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.

DeepSpeed ZeRO 방식은 DDP 확장 개념인가

1 분 소요

DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.

맨 위로 이동 ↑

Inference

[논문] 병렬로 LLM을 추론하는 APR

5 분 소요

지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

AI 추론이란 무엇인가?

3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

맨 위로 이동 ↑

NIM

NVIDIA NIM(3): NVIDIA API 카탈로그 탐험하기

4 분 소요

NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...

NVIDIA NIM(2): NVIDIA NIM 이란?

2 분 소요

NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...

NVIDIA NIM(1): NVIDIA NIM 탄생의 배경

2 분 소요

2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...

맨 위로 이동 ↑

Build

MS Build 2025 키노트(3)-중첩 S자 곡선

1 분 소요

마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!

MS Build 2025 키노트(2)-Azure AI Foundry 및 차세대 AI 인프라

6 분 소요

이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...

MS Build 2025 키노트(1)-에이전틱 웹 개발 시대 중흥

6 분 소요

Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.

맨 위로 이동 ↑

Amazon

아마존 노바 프리미어 발표

1 분 소요

아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...

맨 위로 이동 ↑

Google Cloud

새로운 Agent2Agent 프로토콜인 Google A2A 시작하기

1 분 소요

지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!

맨 위로 이동 ↑

PCIe

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

PCIe란 무엇인가

1 분 소요

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...

맨 위로 이동 ↑

NVSwitch

NVLink 와 NVLInk 스위치

1 분 소요

NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.

NVLink 아키텍처

1 분 소요

NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...

맨 위로 이동 ↑

FSDP

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

FSDP란 무엇인가

1 분 소요

FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.

맨 위로 이동 ↑

vGPU

NVIDIA vGPU(2)-vGPU 설정 예시

1 분 소요

NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...

NVIDIA vGPU(1)-vGPU 개념과 아키텍처

2 분 소요

NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...

맨 위로 이동 ↑

Slurm

[실습] Slurm 설치 및 구성

1 분 소요

지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.

Slurm이란 무엇인가

1 분 소요

슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.

맨 위로 이동 ↑

LangChain

LangChain과 LlamaIndex 차이

1 분 소요

그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.

[실습] PDF 문서 기반 챗봇

9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

맨 위로 이동 ↑

DeepSeek

DeepSeek 모델 심층 분석

5 분 소요

중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...

DeepSeek, 분산 학습의 새로운 지평을 열다

1 분 소요

최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...

맨 위로 이동 ↑

Lllma

라마콘: AI가 개발자를 대체할 듯

1 분 소요

오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...

[논문] AI 슈퍼컴퓨터 동향

4 분 소요

AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...

맨 위로 이동 ↑

Machine Learning

머신러닝 용어와 개념

1 분 소요

머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.

맨 위로 이동 ↑

TensorFlow

벡터와 텐서의 차이

1 분 소요

지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...

맨 위로 이동 ↑

MachineLearning

벡터와 텐서의 차이

1 분 소요

지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...

맨 위로 이동 ↑

Cloud Computing

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

Database

[강의] 대학생을 위한 AWS

1 분 소요

대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.

맨 위로 이동 ↑

NVMe

NVMe 스토리지는?

2 분 소요

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

맨 위로 이동 ↑

Visual Studio

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

NVIDIA Nsight Visual Studio

NVIDIA CUDA Toolkit

3 분 소요

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...

맨 위로 이동 ↑

GPUDirect

메모리 패브릭 솔루션

1 분 소요

메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!

맨 위로 이동 ↑

DPU

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

맨 위로 이동 ↑

FPGA

가속 컴퓨팅과 NVLink의 관계

3 분 소요

가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...

맨 위로 이동 ↑

HPE Cray

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

HPE Apollo

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

HPE Greenlake

HPC Compute에 대하여

1 분 소요

저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...

맨 위로 이동 ↑

Base Commnad Platform

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

맨 위로 이동 ↑

Base Command Manager

NVIDIA Base Command

2 분 소요

NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...

맨 위로 이동 ↑

Multi GPU

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

맨 위로 이동 ↑

Multi Node

DDP와 FSDP 비교

최대 1 분 소요

DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!

맨 위로 이동 ↑

TensorRT-LLM

맨 위로 이동 ↑

LLama 3

맨 위로 이동 ↑

Llama3

[실습] Lllama 3 델을 TensorRT-LLM 변환

1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

맨 위로 이동 ↑

LLM

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

맨 위로 이동 ↑

Training

LLM 추론 시 메모리 크기 측정

3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

맨 위로 이동 ↑

Llama

[실습] Llama 3 모델로 FSDP 학습하기

1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

맨 위로 이동 ↑

Chroma

[실습] 부동산 데이터를 Chroma에 임베딩 저장하기

4 분 소요

간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...

맨 위로 이동 ↑

FAISS

[실습] PDF 문서 기반 챗봇

9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

맨 위로 이동 ↑

RAG

[실습] PDF 문서 기반 챗봇

9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

맨 위로 이동 ↑

CES2025

맨 위로 이동 ↑

GTC2025

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

AgenticAI

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

PhysicalAI

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

Blackwell

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

맨 위로 이동 ↑

GPT 4.5

GPT-4.5 사전 학습 과정 통찰

5 분 소요

OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...

맨 위로 이동 ↑

Google ADK

새로운 Agent2Agent 프로토콜인 Google A2A 시작하기

1 분 소요

지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!

맨 위로 이동 ↑

Kubernetes

[실습] 초거대 언어 모델(LLM)을 Kubernetes로 확장하기

5 분 소요

챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...

맨 위로 이동 ↑

GPT 4.1

OpenAI GPT 4.1 API 공개

4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...

맨 위로 이동 ↑

GPT o3

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

맨 위로 이동 ↑

GPT o4-mini

OpenAI, 역대 최고 지능형 추론 모델 o3와 o4-mini 공개

1 분 소요

OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.

맨 위로 이동 ↑

LlamaIndex

LangChain과 LlamaIndex 차이

1 분 소요

그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.

맨 위로 이동 ↑

Phi-4

작지만 강력한 추론 능력을 가진 MS Phi-4 Reasoning Plus

1 분 소요

마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.

맨 위로 이동 ↑

DeepLearning

퍼셉트론 탄생이야기

1 분 소요

오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.

맨 위로 이동 ↑

Paper

[논문] 병렬로 LLM을 추론하는 APR

5 분 소요

지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...

맨 위로 이동 ↑

Windsurf

오픈AI가 Windsurf를 합병한 이유

최대 1 분 소요

오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.

맨 위로 이동 ↑

mcp

MCP는 무엇이며 왜 중요한가?

5 분 소요

AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...

맨 위로 이동 ↑

anthropic

MCP는 무엇이며 왜 중요한가?

5 분 소요

AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...

맨 위로 이동 ↑

openai

MCP는 무엇이며 왜 중요한가?

5 분 소요

AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...

맨 위로 이동 ↑

chatgpt

MCP는 무엇이며 왜 중요한가?

5 분 소요

AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...

맨 위로 이동 ↑

AI Hypercomputer

구글, AI Hypercomputer의 추론 업데이트

2 분 소요

지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.

맨 위로 이동 ↑

DeepMind

맨 위로 이동 ↑

Gemini

맨 위로 이동 ↑

COMPUTEX

맨 위로 이동 ↑

Python

[실습] Codex 로 파이썬 웹 앱 만들기

2 분 소요

Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.

맨 위로 이동 ↑

Windows

윈도우 AI 파운드리 세계

4 분 소요

Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.

맨 위로 이동 ↑

Apple

AI 기술보다 경험을 앞세운 애플 WWDC25

3 분 소요

애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...

맨 위로 이동 ↑

BookOpenAI

하워드 가드너의 다중 지능 이론에 대하여

1 분 소요

오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...

맨 위로 이동 ↑

Hugging Face

허깅페이스 스페이스의 초대규모 훈련 가이드

3 분 소요

허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...

맨 위로 이동 ↑

AX

[AX] 회계와 재무 분야의 에이전틱 AI로 구현한 인튜이트

4 분 소요

에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...

맨 위로 이동 ↑

Intuit

[AX] 회계와 재무 분야의 에이전틱 AI로 구현한 인튜이트

4 분 소요

에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...

맨 위로 이동 ↑