DeepSeek, 분산 학습의 새로운 지평을 열다
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
최근 DeepSeek 사가 자사의 대규모 언어 모델 개발에 사용된 핵심 기술들을 오픈소스로 하나씩 공개하고 있어 업계의 큰 주목을 받고 있다. 단순히 하드웨어 자원 절감에 그치지 않고, 소프트웨어 스택과 알고리즘까지도 혁신적으로 최적화했다는 점은 이미 공개된 여러 논문을 통해 확인...
참고: https://blogs.nvidia.com/blog/ai-scaling-laws/
작년 오픈AI가 GPT-4o 부터 시작해서 Reasoning AI 추론에 대해 선을 보인 후, 많은 연구소와 기업들이 Reasoning AI 추론을 각 모델마다 적용시키고 평가해왔다. 그렇다면, Reasoning AI 추론이란 무엇일까?
참고: https://developer.nvidia.com/blog/optimize-ai-inference-performance-with-nvidia-full-stack-solutions/
NVIDIA NIM은 NVIDIA API 카탈로그에서 마우스 몇 번만 클릭하면 GPU 기반 LLM을 테스트할 수 있는 NVIDIA의 클라우드 API 서비스이다. 현재 LLaMA, Mixtral, Gemma, DeepSeek 등 다양한 최신 모델 사용 가능하며, 개발자 친화적인 인...
NVIDIA NIM 이란 풀어서 적으면 ‘NVIDIA Inference Microservice’ 이다. 한마디로 말해서, 온-프레미스, 데이터 센터나 퍼블릭 클라우드에서 파운데이션 모델의 배포를 가속화하고 데이터를 안전하게 유지할 수 있도록 지원하는 사용하기 쉬운 마이크로서비스 집...
2022년 11월, 오픈AI의 챗GPT가 공개되고 난 이후로 부터, 오픈AI, 구글, 마이크로소프트, 페이스북과 같은 대기업부터 미스트랄, xAI 과 같은 스타트업까지 기업 자체 연구소에서 초거대 언어 모델을 파운데이션 모델로 만들어 공개하는 것이 지난 2년 동안 전세계적 유행이 ...
CES 2025에서 NVIDIA 키노트 관련 내용을 다음과 같이 정리한다.
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...