MS AI 아키텍처 디자인(2)-AI를 위한 데이터 플랫폼
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.
마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.
이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.
간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...
메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...
이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...
지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.
계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...
HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.
NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.