최근 포스트

OpenAI GPT 4.1 API 공개

4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 ...

[실습] 초거대 언어 모델(LLM)을 Kubernetes로 확장하기

5 분 소요

챗봇과 가상 비서의 구동, 문서 분석 자동화, 고객 참여 향상 등 다양한 분야에서 생성형 AI와 오픈 소스가 산업 전반에 걸쳐 커다란 영향을 끼치고 있다고 생각한다. 예를 들어, GPT-4와 같은 대형 언어 모델(LLM)은 자연어 처리, 대화형 AI, 콘텐츠 생성 분야에서 인공지능...

새로운 Agent2Agent 프로토콜인 Google A2A 시작하기

1 분 소요

지난 구글 클라우드 넥스트 25에서 많은 개발자들이 앤트로픽이 주장한 MCP에 이어 구글의 ADK인 Agent-To-Agent 방식에 대해 크게 환영했다. 그래서 오늘은 Google A2A가 무엇인지 알아보자!

GPT-4.5 사전 학습 과정 통찰

5 분 소요

OpenAI의 핵심 팀 멤버인 알렉스(Alex), 아민 치안(Amin Chian), 단(Dan)과의 인터뷰를 바탕으로 GPT-4.5 모델의 사전 학습 과정에 대한 심층적인 내용을 다뤘다. GPT 4.5 모델 출시 후 예상보다 뜨거웠던 사용자 반응에 대한 감회를 시작으로, 거대 모델...

Azure Apps 전략

2 분 소요

Microsoft 전략에서 Azure Apps는 애플리케이션 현대화 및 클라우드 네이티브 개발을 지원하는 핵심 구성 요소이다. 특히, Azure Apps는 Azure에서 실행되는 모든 애플리케이션 서비스와 도구를 포괄하는 개념이다. 그렇다면 좀더 구체적인 Azure Apps 전략에...

Azure AI Studio

1 분 소요

Azure AI Studio는 Microsoft Azure에서 제공하는 생성형 AI 기반 애플리케이션을 개발, 테스트, 배포할 수 있는 통합 개발 환경(IDE)이다. 특히 OpenAI, Hugging Face, Meta 등의 최신 LLM 모델을 활용한 애플리케이션을 코드 작성 없이...

NVIDIA GTC 2025 키노트: AI 공장 시대의 개막

2 분 소요

NVIDIA GTC(GPU Technology Conference)는 NVIDIA가 매년 주최하는 세계 최대 규모의 AI 및 GPU 기술 컨퍼런스이다. 최신 GPU 아키텍처, 생성형 AI, 자율주행, 로보틱스, HPC, 디지털 트윈 등 GPU 기반의 첨단 기술을 소개하고 논의하는 ...

vLLM(5)-GPU 성능 최적화 해 주는 Fused Kernel

1 분 소요

vLLM 를 공부하면서 꼬리에 꼬리를 묻는 용어와 개념들이 많다. 그만큼 어느 날 톡 튀어나온 것은 아니고 기존의 프레임워크를 바탕으로 나왔다. “Fused kernel”은 GPU 프로그래밍에서 성능 최적화의 핵심 기법 중 하나로, 여러 개의 연산을 하나의 GPU 커널로 묶어 실행...

vLLM(4)-FlashAttention에 대해

5 분 소요

vLLM 의 핵심 중 하나인 FlashAttention에 대해 알아보겠다. FlashAttention 레이어는 추론에서 내부 동작 원리도 중요하지만 인공지능 개발자가 코딩할 때 옵션을 어떻게 주는 가에 대해 이해할 필요가 있다. FlashAttention에 대해 한 번 노트를 정리...