시나브로 AI 노트

MS AI 아키텍처 디자인(2)-AI를 위한 데이터 플랫폼

2024년 11월 02일 최대 1 분 소요

이번 노트는 AI를 위한 데이터 플랫폼으로써 데이터 이동, 처리, 수집, 변환, 실시간 분석 및 보고를 위한 종합적인 솔루션 개요에 대한 내용을 정리해봤다.

MS AI 아키텍처 디자인(1)-AI 개념과 기본 가이드

2024년 11월 01일 2 분 소요

마이크로소프트 애저 상에서 AI 아키텍처 디자인을 솔루션 아키텍트들이 무엇을 고려하고, 어떻게 하는 지에 대한 스터디를 위한 가이드가 업데이트 되어서 이를 노트에 정리한다.

[실습] PDF 문서 기반 챗봇

2024년 06월 08일 9 분 소요

이번 실습은 사용자가 문서를 업로드하면 문서 내용을 임베딩하고, 그 내용을 바탕으로 질문에 응답하는 간단한 PDF 문서 기반 챗봇 시스템을 만들어 본 것을 Python 소스 코드와 함께 내용을 정리해보겠다.

[실습] 부동산 데이터를 Chroma에 임베딩 저장하기

2024년 06월 05일 4 분 소요

간단한 부동산 정보 데이터를 크로마(Chroma) 벡터 데이터베이스에 임베딩해서 저장하고 유사성을 검색하는 핸즈 온 실습을 한번 정리해 보자! 참고로 프로그램 기본 환경은 Python 3.10.10 버전과 크로마 벡터 데이터베이스 0.6.3 버전을 사용했으며, Embedding ...

[실습] Llama 3 모델로 FSDP 학습하기

2024년 04월 26일 1 분 소요

메타 라마3가 출시되가 되어서 meta-llama/Llama-3-8B 모델을 가지고 FSDP 방식으로 학습하는 전체 과정을 단계별로 정리해보았다. 이 튜토리얼은 PyTorch 기반이며, 주로 Hugging Face Transformers와 🤗 Accelerate 없이 직접 FSD...

LLM 추론 시 메모리 크기 측정

2024년 04월 20일 3 분 소요

이틀 전 4월 18일에 메타에서 대규모 언어 모델 Llama 3를 업그레이드 발표했다. Meta의 Llama 3 시리즈는 다양한 규모의 대규모 언어 모델(LLM)로 구성되어 있으며, 각 모델은 특정 용도와 성능 요구에 맞게 설계되었다. 따라서, 간단하게 Llama 3 발표한 내용을...

AI 추론이란 무엇인가?

2024년 04월 08일 3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

[실습] 멀티 GPU 환경에서 TensorRT-LLM Runtime API로 추론하기

2024년 04월 07일 1 분 소요

계속해서 TensorRT-LLM에 대해 알아보고 있는 데, trtllm-build로 생성한 ` engine.plan `을 멀티 GPU에서 병렬로 실행하는 방법에 대해 좀 더 알아보자! 참고로 이 방법은 NVIDIA TensorRT-LLM의 텐서 병렬 (Tensor Parallel...

[실습] Lllama 3 델을 TensorRT-LLM 변환

2024년 04월 06일 1 분 소요

HuggingFace에서 받은 LLaMA 3 모델을 TensorRT-LLM에서 사용할 수 있도록 변환하는 코드에 대해 좀더 알아보자. 이 코드는 NVIDIA의 TensorRT-LLM에서는 제공된 convert_checkpoint.py를 사용하여 모델 가중치를 변환한다.

[실습] TensorRT-LLM을 사용하는 LlaMa3 모델로 추론하기

2024년 04월 05일 최대 1 분 소요

NVIDIA의 TensorRT-LLM을 사용하여 LLaMA 3 모델을 추론하는 Python 예제 코드를 작성해 보자! 이 코드는 TensorRT-LLM Python API 기반이며, LLM 구조에 최적화된 방식으로 작성했다.

최근 포스트