Azure AI Foundry Agent Service(4)-[실습] Visual Studio Code 에서 새 에이전트 개발
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
해마다 7월은 장마로 많은 비가 전국 쏟아지고 있습니다. 모두들 비 피해 없으시기를!
국내 기업이 Agentic AI 도입에 실패하는 이유는 해외 기업 사례와 좀 다르다. 너무 일찍 Agentic AI를 도입해서 인원이 부족이나 운영의 문제점 등 그런 것 보다는 결론적으로 말하자면 한국만의 독특한 기업의 구조(?) 때문이다. 그렇다면, 좀 더 구체적으로 국내 기업...
미국 독립 기념 주일을 맞이하여 샘 알트먼이 X에 올린 글이 많이 화제가 되고 있다. 특히, 문장 속의 테크노 자본주의(Techno Capitalism) 이라는 다소 철학적인 용어가 나와서 이에 한번 정의해 보겠다.
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
해마다 7월은 장마로 많은 비가 전국 쏟아지고 있습니다. 모두들 비 피해 없으시기를!
국내 기업이 Agentic AI 도입에 실패하는 이유는 해외 기업 사례와 좀 다르다. 너무 일찍 Agentic AI를 도입해서 인원이 부족이나 운영의 문제점 등 그런 것 보다는 결론적으로 말하자면 한국만의 독특한 기업의 구조(?) 때문이다. 그렇다면, 좀 더 구체적으로 국내 기업...
미국 독립 기념 주일을 맞이하여 샘 알트먼이 X에 올린 글이 많이 화제가 되고 있다. 특히, 문장 속의 테크노 자본주의(Techno Capitalism) 이라는 다소 철학적인 용어가 나와서 이에 한번 정의해 보겠다.
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난번 Azure AI Foundry 에서 Azure OpenAI 를 사용해서 gpt-35-turbo 모델을 배포할 때, 소스 코드를 볼 수 있는[View code]부분에서 [Open in VS Code] 버튼을 누르면 Visual Studio Code 온라인으로 연결해서 소스 ...
Azure OpenAI 에서 리소스 생성을 완료 했다면, Azure AI Foundry를 통해 GPT 모델을 배포하는 방법을 노트에 정리해 본다.
지난 달에 Azure AI Foundry 챗봇 베이직 아키텍처와 종단간 챗봇 사례 분석들을 했다. 그렇다면, 이제 실제로 애저 포털에서 Azure OpenAI 리소스를 만드는 실습을 노트에 정리하고자 한다. 그렇게 하기 위해서는 먼저 애저 계정과 구독(subscription)을 생...
Azure AI Foundry를 한마디로 말하자면, 엔터프라이즈 AI 운영, 모델 개발자, 애플리케이션 개발을 위한 통합 Azure 플랫폼 서비스(PaaS)이다. 따라서, 프로덕션 수준의 인프라와 사용자 친화적인 인터페이스를 결합해서 개발자가 인프라 관리보다 애플리케이션 구축에 집...
자! 이제 Azure OpenAI 종단 간 챗봇 사례 분석으로 Azure 구독에 배포하고,배포한 내용을 직접 테스트해보며, 마지막으로 사용한 리소스를 정리(clean up)하는 방법을 노트에 정리해 보겠다.
해당 GitHub 리포지토리 Azure-Samples/openai-end-to-end-basic 를 기반으로 각 구성 요소별 분석해서 노트를 작성했다.
Azure OpenAI 종단간 챗봇 사례 분석은 챗 애플리케이션과 AI 오케스트레이션 계층을 단일 리전에서 실행하는 접근 방식을 보여준다. 구현에서는 Azure OpenAI 기반 모델과 Azure AI Foundry Agent 서비스를 오케스트레이터로 사용하고, 깃허브에 있는 리포...
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 기초 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
비용 최적화는 불필요한 지출을 줄이고 운영 효율성을 개선하는 방법에 중점을 둔다. Azure AI Foundry 기반 챗봇 베이직 아키텍처 분석 중 비용 최적화에 대한 노트를 정리해 보자.
보안은 고의적인 공격과 귀중한 데이터 및 시스템의 오용으로부터 보호해 주는 보장을 제공한다. Azure AI Foundry 서비스에서 챗봇 베이직 아키텍처 디자인에서 고려사항들 중에 아키텍처가 구현하는 주요 보안 권장 사항에 대해 노트에 정리한다.
Basic Azure AI Foundry 서비스에서 챗봇 아키텍처 디자인에서 고려사항들 중에 신뢰성에 대해 좀 더 상세히 알아보자!
Azure AI Foundry와 Azure OpenAI 언어 모델을 활용하여 챗 애플리케이션을 실행하는 방법을 학습할 수 있도록 돕는 기본 아키텍처에 대해 노트를 한번 정리해 보았다.
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
HPE MLDE(Hewlett Packard Enterprise Machine Learning Development Environment)는 AI 모델의 학습 및 개발을 위한 통합 소프트웨어 플랫폼이다. HPE가 제공하는 HPC(High Performance Computing) 및...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...
vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...
현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.
지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.
LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
ZeRO (Zero Redundancy Optimizer)는 DeepSpeed 의 핵심 기술로서, 초대규모 모델 학습을 GPU 여러 개로 확장할 수 있게 해주는 기술이다. 기존의 DataParallel 방식은 각 GPU가 전체 모델과 옵티마이저 상태를 복사해서 쓰기 때문에 메모리 ...
DeepSpeed는 Microsoft에서 개발한 딥러닝 최적화 라이브러리로, 특히 대규모 모델 훈련을 효율적이고 확장성 있게 수행할 수 있도록 설계된 도구이다. DeepSpeed 에 대해 알아보고, 테스트한 코드를 정리해 보도록 하겠다.
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
DDP(DistributedDataParallel)와 FSDP(FullyShardedDataParallel)는 둘 다 PyTorch에서 멀티 GPU 분산 학습을 위한 기법이지만, 메모리 사용 방식과 모델 분할 전략에서 차이가 있다. 그래서 다음과 같이 비교를 해보자!
ZeRO(Zero Redundancy Optimizer)와 FSDP(Fully Sharded Data Parallel)는 모두 PyTorch 기반의 분산 학습을 위한 메모리 효율 최적화 기법이다. 두 기법은 유사한 목표를 가지고 있지만, 설계 철학과 구현 방식에서 다음과 같은 중요...
FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 고성능 분산 학습 기법으로, 모델의 파라미터, gradient, optimizer state를 GPU 간에 완전히(sharded) 나눠서 메모리 효율적으로 학습하는 방식이다.
DeepSpeed와 ZeRO는 별개의 기술이 아니며, ZeRO는 DeepSpeed 프레임워크 안에 포함된 핵심 기술 중 하나이다. 좀 더 알아보면 다음과 같다.
DeepSpeed ZeRO는 DDP의 확장 개념으로 볼 수 있다. 그러나 단순한 확장이라기보다는 DDP의 구조적 한계를 근본적으로 개선한 방식이다. DDP와 Zero 와의 비교를 하자면 다음과 같다.
DDP(Distributed Data Parallel)는 PyTorch에서 제공하는 분산 학습(Distributed Training) 방식 중 하나로, 여러 개의 GPU 혹은 여러 노드에서 데이터를 병렬로 처리하며 모델을 학습하는 방법이다.
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...
vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...
현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.
지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.
LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
에이전트를 실행하는 것은 함수를 호출하는 것과 같이 도구(tool)를 호출하는 것이다. 그렇다면 왜 에이전트를 지능적인 도구처럼 사용하지 않는 걸까? 전체 제어권을 새로운 에이전트에게 넘기는 대신, 우리는 그것을 정보를 전달하고 결과를 받는 함수처럼 사용할 수 있다. 도구들로서의 ...
멀티 에이진트로 핸드오프 방식은 세 가지 대상층, 즉 성인, 청소년, 어린이를 위한 텍스트를 생성하는 것이다. Research Agent는 정보를 수집한 다음 세 개의 에이전트 중 하나에게 이를 넘긴다. 각 에이전트는 LLM과 통신하지만, 이는 에이전트의 내부 기능으로 간주할 수 ...
에이전트는 이전에 어떤 일이 있었는지를 알아야 할 필요가 있다. 이럴 때 OpenAI의 에이전트 기반 핸드오프(Agentic Handoff)를 사용하는 데, 에이전트 기반 핸드오프(Agentic Handoff)는 프로그래밍 방식의 핸드오프(Programmatic Handoff)와...
많은 에이전트 애플리케이션은 단일 에이전트만 필요하며, 이러한 것들만으로도 ChatGPT와 같은 LLM 채팅 인터페이스에서 제공되는 단순한 채팅 응답 생성보다 한 단계 발전한 것이다. 에이전트는 루프를 돌며 실행되고 도구를 사용할 수 있어서, 단일 에이전트만으로도 상당히 강력하다....
에이전트는 도구를 사용할 수 있으며, 에이전트는 LLM과 협력해 어떤 도구를 사용할지(또는 사용할 필요가 없는지)를 결정한다. 이번 노트에서는 단일 도구를 사용한 단일 에이전트 패턴에 대해 알아보자!
OpenAI의 에이전트는 다른 프레임워크과는 확연히 다른 방식으로 접근한다. OpenAI의 오픈소스 SDK를 사용해 간단한 단일 에이전트 앱을 구성하는 방법을 살펴보겠다.
OpenAI Agents SDK는 이전에 실험적으로 개발했던 Swarm에서 업그레이드 버전으로 에이전트 기반 AI 애플리케이션을 가볍고 사용하기 쉬운 패키지로 구축할 수 있도록 해 준다. 특히, 불필요한 추상화를 최소화한 구조로 Agents, Handoffs, Guardrails ...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
이번 주 IT 업계에서는 아주 흥미로운 소식이 또 전해졌다. 메타는 데이터 라벨링 전문 기업인 Scale AI에 49% 지분을 확보하기 위해 143억 달러(약 19조 7천억 원)를 투자한 것으로 전해졌다. 이번 투자로 Scale AI의 기업 가치는 290억 달러(약 40조 원)로 ...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
Azure AI Foundry를 공부할 때 꼭 알아야 할 또 하나의 핵심 개념이 바로 프로젝트(Project)와 허브(Hub)이다. 왜냐하면, 허브(Hub)와 프로젝트(Project)는 Azure AI Foundry에서 매우 중요한 개념이다.
Azure AI Foundry 서비스는 2024년 12월, Microsoft Ignite 행사에서 샤티야 회장이 처음 소개했다. 이 노트에서는 Azure AI Foundry 서비스에 대해 좀더 깊게 파고들기 위해 아키텍처에 대해 노트를 한번 정리해 보도록 하겠다.
오늘은 Azure AI Foundry의 흥미로운 탄생의 비밀(?)을 밝히고자 한다. Azure AI Foundry에 대해 이야기하려면, 그 배경부터 살펴보는 것이 이 서비스를 이해하기 쉽기 때문이다.
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
지난 주 오픈 AI에서 최고 성능 추론 모델인 o3-pro를 발표하고, o3 가격도 80%로 인하해 개발자에게 더 저렴한 옵션을 제공했는 데, 이에 대해 간단히 정리해 보겠다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
지난 노트에서 마이크로소프트 파운드리 로컬 서비스가 어떠한 것인지 이론적으로 알았을 것이다. 기존의 Ollama 와 비슷한 부분도 있고, LM Studio 기능도 일부 포함이 되었다. 그러나 확실히 마이크로소프트의 강력한 Visual Studio Code 와의 통합은 여러므로 개발...
지난 마이크로소프트 빌드 2025에서 발표한 마이크로소프트 파운드리 로컬(Microsoft Foundry Local)의 개념과 주요 특징, 서비스 아키텍처, 그리고 개발자 도구 지원에 정리해 보았다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...
vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...
현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.
지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.
LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...
vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...
현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.
지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.
LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
NVLink는 NVIDIA가 개발한 고속 인터커넥트 기술로, GPU 간 또는 GPU와 CPU 간의 직접적인 고속 데이터 전송을 가능하게 한다. 기존의 PCIe(Peripheral Component Interconnect Express)보다 훨씬 높은 대역폭과 낮은 지연 시간을 제공...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
지난 실습에서 Azure AI Foundry Agent Service 의 Foundry Portal 을 이용하여 새 에이전트 생성할 수 있도록 환경 설정과 Agents Playground 에서 테스트를 했다. 그렇다면, 이번 노트는 윈도우11 운영체제에서 Visual Studio ...
Azure AI Foundry Agent Service는 사용자 요구에 맞게 맞춤형 지침을 설정하고, 코드 인터프리터나 사용자 정의 함수와 같은 고급 도구를 활용하여 AI 에이전트를 구성할 수 있도록 지원한다. 이번 실습은 Azure AI Foundry Agent Service의 ...
Azure AI Foundry Agent Service로 첫 번째 에이전트를 생성하는 과정은 에이전트 환경 설정과 여러분이 선택하는 언어별 SDK 또는 Azure Foundry 포털을 사용하여 에이전트를 생성하고 구성 등 두 단계로 이루어진다. 이번 노트에서는 Azure AI Fo...
대부분의 기업은 단순한 챗봇이 아닌 더 빠르고 오류가 적은 자동화를 원한다. 문서 요약, 인보이스 처리, 고객 지원 티켓 관리, 블로그 게시물 발행 등 다양한 업무에서 이러한 자동화가 활용된다. 궁극적인 목표는 반복적이고 예측 가능한 작업을 자동화함으로써 사람과 자원을 더 가치 있...
Microsoft의 50 주년을 기념하면서 처음 가졌던 비전이 ‘소프트웨어 공장(Software Factory)’ 라고 한다. Microsoft는 처음부터 개발자에 의해, 개발자를 위해 만들어진 회사다. 이제 51 번 째 해를 맞이하며 마이크로소프트는 그 소프트웨어 공장이 어떤 모...
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
스파인-리프(Spine-Leaf) 네트워크는 데이터 센터나 고성능 컴퓨팅(HPC), 클라우드 환경에서 고속, 확장성 높은 네트워크 아키텍처를 구현하기 위해 사용되는 계층형 네트워크 토폴로지이다.
NCCL(NVIDIA Collective Communications Library)에서 intra-node와 inter-node는 비슷한 발음으로 헤깔리기 쉬운 데, 다음과 같이 정리해본다.
앞서 RDMA에 대한 글을 적으며, 한 가지 ‘지연(latency)’에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다. 왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(...
RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이...
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
지난번 HPE MLDE에 대해 간략하게 알아보았다. 사실 HPE MLDE의 핵심 엔진은 바로 Determined AI이다. HPE는 2021년 AI 스타트업 Determined AI를 인수하면서, 이 플랫폼을 MLDE의 기반 기술로 삼았다. 따라서 MLDE의 내부 아키텍처는 사실상...
NVLink 와 NVLink Switch 는 대규모 데이터셋을 모델에 더 빠르게 공급하고, GPU 간 데이터를 신속하게 교환하기 위한 고속 멀티-GPU 통신의 기본 구성 요소이다.
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA DGX POD는 여러 대의 DGX 시스템 (A100 또는 H100) 을 고속 스토리지, 스파인-리프 네트워크, 그리고 AI 소프트웨어 스택과 함께 구성한 AI 슈퍼컴퓨팅 인프라 유닛을 말한다. 실제 구성 컴포넌트는 DGX 서버인 Computer Layer, 고속 네트...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
이번 주 IT 업계에서는 아주 흥미로운 소식이 또 전해졌다. 메타는 데이터 라벨링 전문 기업인 Scale AI에 49% 지분을 확보하기 위해 143억 달러(약 19조 7천억 원)를 투자한 것으로 전해졌다. 이번 투자로 Scale AI의 기업 가치는 290억 달러(약 40조 원)로 ...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
어제 알아본 TensorRT와 TensorRT-LLM은 어떠한 차이점이 있을까? TensorRT는 모든 모델에 적용 가능한 범용 스포츠카 엔진이라면, TensorRT-LLM은 GPT·LLaMA만을 위한 F1 머신 엔진이라고 할 수 있다. Transformer 기반 LLM에 최적화...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
다양한 산업 분야의 수십 개 팀과 함께 LLM 에이전트를 개발하기 위해, 복잡한 프레임워크보다는 단순하고 조합 가능한 패턴을 사용하는 것이 모범 사례로 꼽히고 있다. 다시 말해, 가장 성공적인 구현 사례들이 복잡한 프레임워크나 특수 라이브러리를 사용하지 않고, 단순하고 조합 가능...
2025년 6월 18일 공개된 MCP 최신 사양은 단순한 기술 업데이트를 넘어, AI 시스템의 응답 정확도, 사용자 경험, 보안, 운영 효율성 전반에 직결되는 핵심 변화 3가지를 포함하고 있다. 이번 노트에서는 MCP의 새소식을 정리해 보겠다.
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
NVIDIA DGX SuperPOD는 DGX POD의 확장형 버전으로, 대규모 LLM 훈련, 시뮬레이션, HPC, GenAI 등에 사용되는 엔터프라이즈급 AI 슈퍼컴퓨터 아키텍처이다. 따라서, 수십~수백 대의 DGX 시스템을 초고속 스토리지, InfiniBand 기반 스파인-리프...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
고객들과 협업한 결과, 앞서 소개한 패턴들이 실제로 AI 에이전트의 실용적인 가치를 잘 보여주는 두 가지 유망한 활용 사례를 확인할 수 있었다. Coding Agent 와 Computer Use 사례는 대화와 실행이 모두 필요한 과업, 명확한 성공 기준, 피드백 루프의 가능성, 그...
에이전트는 일반적으로 사용자의 명령이나 대화식 상호작용으로 작업을 시작한다. 작업 목표가 명확해지면, 에이전트는 스스로 계획을 세우고 독립적으로 작업을 수행하며, 필요할 경우 추가 정보나 판단을 얻기 위해 사용자와 다시 상호작용할 수 있다. 오늘의 노트는 에이전트에 좀 더 상세히 ...
이번 노트에서는 실제 프로덕션 환경에서 관찰된 에이전트형 시스템의 일반적인 패턴들을 살펴보자! 가장 기본이 되는 구성 요소인 확장된 LLM(augmented LLM)부터 시작하여, 점차 복잡도를 높여가며 단순한 조합형 워크플로우에서 자율적인 에이전트에 이르는 구조를 설명한다.
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...
vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...
현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
이번 마이크로소프트 빌드 2025 행사는 AI 개발자들에게 좀 더 모델과 에이전트, 앱 개발을 사용하기 쉽게 하기 위해 촛점을 맞추었다. VS Code 내에서 생성형 AI 앱 개발을 전방위 지원하기 위해 AI Toolkit for Visual Studio Code를 출시했다.
이번 실습에서는 LangChain 과 통합하는 방법과 Open Web UI와 함께 사용하는 방법에 대해 사용자들이 쉽게 사용하기 위해 단계별로 자습서 노트를 정리해보자!
이제 파운드리 로컬을 사용해서 본격적으로 파이썬 프로그래밍을 한 번 해보자! 내 노트북에서 phi-3-mini-4k 모델을 다운로드했기 때문에 기본적인 OpenAI SDK를 사용해서 모델 추론하는 예와, Stream Response 과 Requests 라이브러리를 사용하는 방법에 ...
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
InfiniBand 또는 고속 네트워크에서의 혼잡 제어(Congestion Control)는 네트워크 상의 혼잡 상황(과도한 트래픽으로 인한 지연, 손실, 성능 저하 등)을 감지하고 이를 완화하기 위해 송신 측과 수신 측이 협력하여 트래픽을 조절하는 메커니즘이다. 따라서, Infi...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
모델 훈련 속도와 메모리 사용 효율성을 향상시키기 위한 성능 최적화 기법을 이해하려면, 훈련 중 GPU가 어떻게 활용되는지와 연산 종류에 따라 계산 집약도가 어떻게 달라지는지를 이해하는 것이 도움이 된다. GPU 활용 예시와 모델 훈련 과정을 통해 동기를 부여하는 사례를 살펴보겠다.
모델 메모리 활용을 최적화하고 학습 속도를 높이거나 둘 다 향상 시켜 모델 학습의 효율성을 높이는 실용적인 방법은 무엇일까?
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
NVIDIA DGX는 단일 서버으로써 고성능 AI 모델 훈련과 추론을 위한 All-in-One GPU 컴퓨팅 시스템이다. 기업이나 연구기관이 멀티-GPU 학습 환경을 손쉽게 구축할 수 있도록 NVIDIA가 직접 설계한 서버 제품군이며, 대표적으로는 DGX A100과 DGX H100...
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
NVIDIA의 vGPU에 대해 어떻게 구성하는 지 다양한 시나리오를 작성해 보겠다. NVIDIA H100 GPU 4장을 사용하는 환경에서 vGPU를 할당하는 방식은 워크로드의 특성과 요구사항에 따라 다양하게 구성할 수 있다. H100은 고성능 컴퓨팅 및 AI 워크로드에 최적화된 G...
NVIDIA의 vGPU (Virtual GPU)는 물리적인 GPU 리소스를 여러 가상 머신(VM)이나 컨테이너에서 동시에 사용할 수 있도록 해주는 가상화 기술을 말한다. NVIDIA의 vGPU 소프트웨어 스택을 통해 구현되며, 주로 가상 데스크톱 인프라(VDI), AI, HPC, ...
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
지난 번 슬럼(Slurm) 노트에서 슬럼이 무엇인지, 어떻게 구성되는 지 간단하게 알아보았다. 그렇다면, 이번에는 Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 정리해보겠다.
슬럼(Slurm)은 HPC 클러스터에서 자원 할당 및 작업 스케줄링을 관리하는 대표적인 오픈소스 도구이다. Ubuntu 22.04에서 Slurm Workload Manager를 설치하고 구성하는 방법에 대해 단계별 자습서 형식으로 노트로 정리해보겠다.
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
TensorRT는 NVIDIA가 개발한 고성능 딥러닝 추론 최적화 및 실행 엔진이다. 주로 GPU를 활용한 딥러닝 모델의 추론 속도를 높이기 위해 사용되며, 실시간 추론과 같은 지연 시간이 중요한 환경에서 강력한 성능을 발휘한다. TensorRT에 대해 다음과 같이 정리해 보자면?
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
AI 추론 환경은 혁신적인 기술 발전과 새로운 패러다임의 등장에 힘입어 빠르게 진화하고 있다. 데이터센터급 연산 자원의 확대로 사전 훈련(pretraining)이 가능한 모델의 크기가 점점 더 커지면서, 모델은 계속해서 더 똑똑해지고 있다.
AI 기반 애플리케이션의 폭발적인 증가로 인해, 개발자와 AI 인프라 모두에게 전에 없던 수준의 부담이 가해지고 있다는 것을 누구나 잘 알 것이다. 더욱이 개발자는 최첨단 성능을 제공하는 동시에, 운영 복잡성과 비용을 관리해야 하는 과제를 안고 있다.
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...
지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!
오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
이번 마이크로소프트 Build 2025가 너무 길어서 파트2로 나누어서 요약하겠다. 특히, AI 중심 앱 개발을 위한 풀스택 플랫폼인 Azure AI Foundry 와 다양한 AI 모델과 RAG, 에이전트 오케스트레이션, 보안, 컴퓨팅 유연성, 운영 가시성을 통합하여,기업이 Cop...
Microsoft의 CEO 사티아 나델라는 현재를 “또 하나의 플랫폼 전환”로 정의하며, 개발자들이 전 계층에서 애플리케이션과 오픈 에이전틱 웹을 구축할 수 있도록 지원하는 것이 Microsoft의 핵심 목표라고 밝힐 만큼 이번 MS 빌드의 핵심이었다.
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
Codex CLI 관련 설정은 모두 끝났다. 그렇다면, 본격적으로 Codex를 사용해 파이썬 웹 앱들을 직접 만들어 보겠다. 먼저 간단하게 Hello, World 를 만들어 보고, 좀 더 확장한 ToDoList 웹사이트를 만들어 보겠다.
이번 주 오픈AI에서 Codex에 관련 주요 업데이트가 있었다. Codex CLI의 첫 릴리즈는 지난 4월 16일에 이루어졌는 데, 개인적으로 바빠서 정식 릴리즈 기념으로 한번 정리해 보고자 한다.
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존에서 오랜만에 흥미로운 기술이 나왔다. Amazon은 Nova Canvas를 통해 AI 이미지 생성 경험을 크게 향상시키는 Virtual Try-on 과 Style Options 등 두 가지 신기능을 공개했다. 특히, GenAI Startup 들에게 많은 영감을 줄 수 있는 ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
해마다 7월은 장마로 많은 비가 전국 쏟아지고 있습니다. 모두들 비 피해 없으시기를!
국내 기업이 Agentic AI 도입에 실패하는 이유는 해외 기업 사례와 좀 다르다. 너무 일찍 Agentic AI를 도입해서 인원이 부족이나 운영의 문제점 등 그런 것 보다는 결론적으로 말하자면 한국만의 독특한 기업의 구조(?) 때문이다. 그렇다면, 좀 더 구체적으로 국내 기업...
해마다 7월은 장마로 많은 비가 전국 쏟아지고 있습니다. 모두들 비 피해 없으시기를!
국내 기업이 Agentic AI 도입에 실패하는 이유는 해외 기업 사례와 좀 다르다. 너무 일찍 Agentic AI를 도입해서 인원이 부족이나 운영의 문제점 등 그런 것 보다는 결론적으로 말하자면 한국만의 독특한 기업의 구조(?) 때문이다. 그렇다면, 좀 더 구체적으로 국내 기업...
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
머신러닝의 기본적인 개념과 모델의 정의, 모델 학습, 평가 및 배포에 대해 노트를 정리한다.
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
아마존 16 가지 리더쉽 원칙에 대해 숙지하기 위해 다음과 같이 서술한다.
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
지난 강의 중에 벡터와 텐서의 차이점을 물어본 분들이 있어서 좀 더 정확하게 정의를 한다. 왜냐하면, 인공지능 모델은 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들 끼리 연산하기 때문이다. 그래서, 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에...
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
대학생을 위한 AWS 강의 자료는 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 강의한 자료를 공유합니다.
맥킨지의 최근 보고서는 ML 산업화와 AI 적용할 때 올해의 최고 트렌드 중 하나로 확인했다고 주장했다. 지난 주 AWS re:Invent 컨퍼런스 세션에서 아마존의 AI 및 머신러닝 부사장이자 GM인 브라틴 사하는 클라우드 대기업이 2022년 이후에 혁신과 채택을 주도하는 데 도...
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
드디어 저의 번역 책이 출판 된다. 2021년 코로나 시절에 시작해 무려 2년 동안 번역했다. 이 책은 AWS 데이터 과학과 인공지능, 세이지메이커를 이용한 BERT 다루는 내용과 MLOps 가 총망라에 되어 있다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
스타트업 유니버시티 DX Challenge로 고용노동부와 EBS, 메가존 클라우드와 함께 스타트업 및 대학생, 취업생을 위한 ‘스타트업유니버시티’의 일환으로 진행한 구글 클라우드와 빅쿼리를 활용한 빅데이터 분석 강의이다.
HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 ...
CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아...
NVIDIA는 Quantum Infiniband 및 Spectrum-X Ethernet을 통해 세계에서 가장 높은 성능의 AI 네트워크 솔루션을 제공하고, 메모리 패브릭 네트워크 인프라 구축 시 적극 고려해야 하는 데, AI 데이터센터 관점에서 NVIDIA의 네트워킹 솔루션에 대해...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
퀀텀 인피니티밴드(Quantum InfiniBand) 혹은 일반적인 InfiniBand 구조에서의 적응형 라우팅(Adaptive Routing)은 고성능 컴퓨팅(HPC)이나 AI 클러스터와 같은 환경에서 데이터 패킷이 네트워크를 통해 이동할 때, 가장 적절한 경로를 동적으로 선택하...
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
메모리 패브릭 솔루션은 HPC 및 AI 환경에서 데이터 이동을 최소화하고, GPU 및 CPU의 성능을 극대화하기 위한 필수 기술로 서버 간 또는 GPU 액셀레이터 간 고속 데이터 공유 및 액세스를 가능하게 하는 것을 말한다. 그렇다면, 구체적으로 어떤 기술인지 알아보자!
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
가속 컴퓨팅을 위한 인터커넥트의 금본위 기준은 바로 NVLink 이다. GPU와 CPU는 그 여정 중간에 위치한 자원들이며, 이들로 향하는 진입로는 고속 인터커넥트를 NVLink라고 부르는 데, 가속 컴퓨팅(Accelerated Computing)이란, 전통적인 CPU 중심의 컴퓨...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
저희 회사인 Hewlett Packard Enterprise의 서버 제품군인 HPE Compute에 대해 그동안 스터디한 내용을 한 번 정리보겠다. 덧붙여, HPE Compute는 일반 컴퓨팅, 가상화, 데이터 분석, AI, HPC 등과 같은 기업의 다양한 워크로드를 지원하기 위해...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
NCCL(NVIDIA Collective Communications Library)은 HPE MLDE(Machine Learning Development Environment)의 기본 컴포넌트는 아니지만, MLDE에서 PyTorch, TensorFlow와 같은 프레임워크를 통한 분...
NVIDIA Base Command Platform (BCP)는 NVIDIA가 제공하는 클라우드 기반의 AI 인프라 운영 및 워크로드 관리 플랫폼이다. DGX POD, DGX SuperPOD, 또는 기타 GPU 클러스터를 다중 사용자 환경에서 효율적으로 운영하고, 모델 훈련 워크플...
“6U”는 랙마운트 서버의 높이를 나타내는 단위를 말한다. 데이터센터나 서버실에서 서버를 수직으로 적재하는 표준화된 방식인데, 보통 1U = 1.75인치 (약 4.45cm) 로 정의한다. 따라서, 6U = 6 × 1.75인치 = 10.5인치 ≒ 약 26.7cm 를 차지 한다. 따라...
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
메타 라마2 모델이 공개되면서 오픈소스에 대한 개념 논쟁이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
AWS에서 제공하는 서버리스(serverless) 생성형 AI 플랫폼으로, 다양한 최신 대규모 언어 모델(LLM)을 API 형태로 손쉽게 사용할 수 있도록 해준다. 사용자는 인프라를 직접 관리하지 않고도 챗봇, 요약, 분류, 검색, RAG 등 생성형 AI 애플리케이션을 신속하게 개...
기업은 애저(Azure) 서비스를 통해 AI 작업을 안정적이고 확장 가능한 방식으로 수행할 수 있다. 비결정론적 기능, 데이터 및 애플리케이션 설계, 운영 측면에 중점을 두고 AI 워크로드를 설계한다. 따라서, 이 노트는 애저 솔루션 아키텍처 관점에서 Azure Well-Archi...
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
스케일링 법칙은 AI 시스템의 성능이 훈련 데이터의 양, 모델 파라미터 수, 또는 계산 자원의 크기가 증가함에 따라 어떻게 향상되는지를 보여 준다. 그동안 더 많은 연산 자원, 더 많은 훈련 데이터, 더 많은 파라미터가 더 나은 AI 모델을 만든다는 것이 스케일링 법칙의 정설이었다.
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
개인적으로 이번 GTC 2025에 눈길을 끄는 것은 엔비디아 다이나모(Dynamo) 였다. 그동안 NVIDIA Triton Inference 라고 부르는 서비스가 이제 NVIDIA Dynamo 에 하나의 기능으로 변경 확장되었다.
Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
OpenAI가 지금까지 등장한 모델 중 가장 지능적인 추론 모델 o3와 경량 고효율 모델 o4-mini를 새롭게 공개했다. 이번 모델들은 단순한 언어 처리 능력을 넘어서, 도구 사용 능력과 시각적 추론 기능까지 통합하며 AI의 새로운 진화를 보여주고 있다. 요약하자면 다음과 같다.
마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.
마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.
마이크로소프트가 아주 흥미로운 모델을 하나 공개했네요 🙂 지금까지 개발된 LLM들중 가장 작은 1비트 AI 모델인 ‘비트넷(BitNet)’을 개발했다고 해서 어떤 특징이 있는지 궁금해서 남겨 본다.
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
AI 개발은 점점 더 강력해지는 AI 슈퍼컴퓨터에 의존하고 있다. 2019년부터 2025년까지의 데이터를 분석한 결과, AI 슈퍼컴퓨터의 계산 성능은 9개월마다 두 배씩 증가했으며, 하드웨어 구매 비용과 전력 수요는 매년 두 배씩 증가했다. AI 슈퍼컴퓨터가 과학 도구에서 산업 기...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
오늘 Meta의 첫 AI 개발자 컨퍼런스인 LlamaCon 키노트 내용을 보면서 느낀 점은 메타 뿐만 아니라 MS 등 미국 IT 기업들이 점점 더 AI가 개발자를 대체할 것으로 예상한다. 왜냐하면, 오늘 행사에서 마크 저커버그는 2026년까지 Meta 코딩의 절반을 AI가 담당하기...
그동안 LLM RAG나 Agent 를 구축할 때, LangChain과 LlamaIndex 프레임워크를 많이 사용했다. 하지만 이 두개의 프레임워크가 어떠한 차이점이 궁금했는 데, 이를 한번 정리해 보겠다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
마이크로소프트도 OpenAI 외에 Phi-4 파운데이션 모델도 계속해서 업그레이드 시키고 있다. 이번에 새롭게 업그레이드된 Phi-4 Reasoning Plus는 작은 모델이지만, 강력한 추론 능력을 가진다. Phi-4 Reasoning Plus에 대해 다음과 같이 요약을 해본다.
아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...
아마존 웹서비스(AWS)는 계속해서 아마존 노바라는 이름으로 파운데이션 모델 시리즈를 발표하고 있다. 최근에 최신 인공지능(AI) 모델인 Amazon Nova Premier의 출시를 공식 블로그를 통해 발표했다. 아마존 노바 프리미어 모델은 복잡한 작업 수행과 모델 증류(knowl...
오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.
오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.
오늘날의 챗GPT 시조인 퍼셉트론을 발견한 프랭크 로젠블랫(왼쪽)은 퍼셉트론(오른쪽)을 “독창적인 아이디어를 가질 수 있는 최초의 기계”라고 홍보했고, 여러분들도 아시다시피 이것은 최초의 인공지능 신경망이 되었다.
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
지난 주 블로글에서 셀러브래스(Cerebras)와 그록(Groq) 회사가 Llama API를 통해 더 빠른 추론 속도를 서비스를 제공하겠다는 라마콘 소식을 올렸는 데, 오늘은 UC 버클리와 UCSF 연구진이 공동으로 발표한 병렬로 LLM 추론하는 APR에 대한 논문을 읽고 흥미로워...
오늘 저의 페이스북에 한 분이 그동안 소문만 무성하던 오픈AI가 Windsurf를 30억 달러에 인수한다는 소식을 게재했다. 그래서 저는 왜 오픈AI가 Windsurf 를 인수했는 지 개인적인 생각을 남기고자 한다.
AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...
AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...
AI 모델이 외부 시스템, API, 또는 도구와 직접 상호작용할 수 있도록 연결해주는 인터페이스를 우리는 MCP (Model Context Protocol)라고 부른다. 예를 들어, AI가 웹사이트를 탐색하거나, 이메일을 전송하거나, 클라우드 리소스를 제어하는 등의 행위를 수행할...
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
지난 구글 클라우드 넥스트25에서 소개한 AI Hypercomputer가 이번에는 구글 클라우드 TPU와 더불어 추론에 대해 업데이트를 한 블로그 글이 올라와서 이를 요약해 보았다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
이번 주 구글 딥마인드에서 아주 흥미로운 논문이 올라와서 내용을 한 번 정리해보겠다. 바로 대형 언어 모델의 창의력과 자동 평가 시스템을 결합해, 수학 및 컴퓨팅의 실제 응용에 사용할 알고리즘을 발전시키는 새로운 에이전트인 AlphaEvolve 이다.
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
오늘 컴퓨덱스 2025 키노트에서 엔비디아의 젠슨 황 CEO가 발표한 내용을 한마디로 말하자면,
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!
마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!
마이크로소프트 Build 2025 키노트 발표 중 샤티아 나델라가 차세대 Azure AI 인프라를 발표 중, 중첩 S자 곡선(Compounding S Curves)에 대해 잠깐 설명했는 데 이 부분을 좀더 상세히 알아보도록 하자!
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
Windows에서 지능형 AI 경험을 구축할 수 있는 기능이 빠르게 발전하고 있습니다. Windows AI Foundry는 Windows 11 PC에서 AI 기반 기능과 API를 제공하며, 이러한 기능은 활성 개발 중이며 항상 로컬에서 백그라운드로 실행됩니다.
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
애플은 이번 WWDC 발표에서 AI를 ‘기술’로 강조하기보다는, 일상 속에서 자연스럽게 작동하며 사용자 경험을 향상시키는 ‘지능적인 기능’으로 소개한 것을 전체적으로 느낌을 받았다. 별도의 AI 앱을 만들기보다, 전화, 메시지, 사진 및 운동 등 기존 핵심 앱 안에 AI 기능을 자...
지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...
지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...
지난 주 구글IO’25 개발자 행사에서 모든 방면에서 최고의 성능을 보여주는 Gemini 2.5 프로의 최신 버전을 구글 CEO인 순다 피차이가 공개했다. 오늘은 유투브 포드캐스트로 유명한 렉스 피리드먼 쇼에서 구글 CEO 순다 피차이가 나와서 어린 시절 부터 최근 구글 인공지능 ...
이번 주 IT 업계에서는 아주 흥미로운 소식이 또 전해졌다. 메타는 데이터 라벨링 전문 기업인 Scale AI에 49% 지분을 확보하기 위해 143억 달러(약 19조 7천억 원)를 투자한 것으로 전해졌다. 이번 투자로 Scale AI의 기업 가치는 290억 달러(약 40조 원)로 ...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
이번 주 저의 페이스북 타임라인에 안드레 카파시가 Y콤비네이터의 AI 스쿨에서 발표한 유투브 동영상에 대해 많은 공유가 있었다. 그래서 저도 호기심으로 '’인공지능 시대의 소프트웨어 변화(Software is Chaning, Again)” 대해 아주 재미있게 잘 보았다. 그래서 이...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
아마존 타이탄(Amazon Titan)은 간단하고 경제적인 텍스트 중심 작업에 적합하고, Nova는 멀티모달/고성능/에이전트형 AI가 필요한 기업용 차세대 모델이다. Amazon Bedrock에서는 이 두 모델을 서로 보완적으로 사용할 수 있으며, Titan으로 문서 임베딩 후, ...
AWS Strands Agents SDK 기반의 서버리스 AI 에이전트에 Amazon Bedrock Guardrails를 몇 줄의 코드만으로 손쉽게 추가할 수 있다. 그렇다면, 왜 Guardrails가 필요한지 이유에 노트를 정리해 본다.
미국 독립 기념 주일을 맞이하여 샘 알트먼이 X에 올린 글이 많이 화제가 되고 있다. 특히, 문장 속의 테크노 자본주의(Techno Capitalism) 이라는 다소 철학적인 용어가 나와서 이에 한번 정의해 보겠다.
미국 독립 기념 주일을 맞이하여 샘 알트먼이 X에 올린 글이 많이 화제가 되고 있다. 특히, 문장 속의 테크노 자본주의(Techno Capitalism) 이라는 다소 철학적인 용어가 나와서 이에 한번 정의해 보겠다.
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
오랜 만에 시간이 좀 나서 주말 하루 종일 하워드 가드너가 쓴 다중지능이론 책을 읽었다. 하워드 가드너(Howard Gardner)의 다중지능이론(Multiple Intelligences Theory)은 1983년 그의 저서 《Frames of Mind》에서 처음 소개된 이론으로...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
허깅페이스 스페이스의 초대규모 훈련 가이드 플레이북은 대규모 언어 모델을 수천 개의 GPU에 걸쳐 효율적이고 확장 가능하게 훈련하기 위한 종합적인 가이드이다. 이 플레이북은 분산 훈련 기법의 전반적인 프레임워크와 각 기법의 trade-off, 그리고 이를 실제 GPU 클러스터 환경...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...
에이전틱 AI는 1세대처럼 콘텐츠를 생성하는 단순한 생성형 AI에서 진화하여, 사용자의 명시적 요청 없이 목표를 인식하고 작업을 수행하는 자율적 에이전트 시스템을 말한다. 인튜이트(Intuit)는 국내에서는 잘 모르겠지만 미국에서는 회계와 재무 관리 관련 소프트웨어 회사로 크게 알...