최근 포스트

Azure AI Studio

1 분 소요

Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

vLLM(5)-GPU 성능 최적화 해 주는 Fused Kernel

1 분 소요

vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...

vLLM(4)-FlashAttention에 대해

5 분 소요

vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...

vLLM(3)-MS Phi-2 모델 실행 소스 분석

최대 1 분 소요

현재 제 노트북은 GPU 용량이 8GB 밖에 되지 않으므로 vLLM은 그 한도 내에서 실행할 수 밖에 없다. 그래서 SLM(Small Language Model) 들 중 하나인 마이크로소프트 Phi2 모델을 실행하는 소스로 vLLM이 어떻게 동작하는 지 한 번 알아보도록 하겠다.

vLLM(2)-윈도우11 WSL환경에서 vLLM 설치

1 분 소요

지난 노트에서는 vLLM 추론에 대해 간단히 알아 보았다. 이번 노트에서는 윈도우11 운영체제에서 WSL용 Ubuntu 22.04 운영체제를 설치하고, Visual Studio Code에서 원격으로 이 Ubuntu 22.04 운영체제를 접속하도록 하는 내용을 정리해보겠다.

vLLM(1)-LLM 추론과 서비스의 효율성 향상

2 분 소요

LLaMA, Mistral, GPT와 같은 대형 언어 모델(LLM)은 인간과 유사한 텍스트 생성, 챗봇 구동, 코드 생성 및 콘텐츠 제작 보조 등 다양한 산업에서 혁신을 일으키고 있다. 하지만 이러한 모델을 실제 환경에 배포하는 데는 막대한 연산 및 메모리 자원이 필요하다는 도전 ...

DeepSeek 모델 심층 분석

5 분 소요

중국의 인공지능 연구 기업인 DeepSeek 에서 세계 최첨단 AI 모델과 기술을 개발하며 오픈 소스 대형 언어 모델을 공개했다. 특히, DeepSeek V3는 대규모 언어 모델로 자연어 처리와 텍스트 기반 작업에 특화되어 있으며, DeepSeek R1은 논리적 추론과 문제 해결 ...

DeepSeek, 분산 학습의 새로운 지평을 열다

1 분 소요

최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...