1 분 소요

트랜스포머 기반의 대규모 언어 모델을 학습하고 이를 프로덕션 환경에 배포하는 과정에는 여러 가지 도전 과제가 존재한다. 흔히 초거대 언어 모델에서는 대규모 텍스트 데이터를 기반으로 단어와 문장의 패턴을 학습하여 언어를 이해하고 생성할 수 있도록 모델의 파라미터를 조정하는 과정인 훈련(학습)과 훈련된 모델이 입력에 따라 가장 그럴듯한 다음 단어나 문장을 예측하여 생성하는 과정인 추론으로 나눈다.

학습 단계에서는 모델이 사용 가능한 GPU 메모리보다 많은 메모리를 요구하거나 학습 속도가 느릴 수 있다. 반면, 배포 단계에서는 프로덕션 환경에서 요구되는 처리량을 모델이 감당하지 못하는 문제가 발생할 수 있다.

이러한 문제들을 극복하고 사용 사례에 최적화된 설정을 찾는 데, 학습 시 단일 GPU을 사용할 떄와 다중 GPU 사용할 때, 또한 이러한 GPU를 하나의 노드에서 사용할 때와 여러 개의 노드를 사용할 때 각각 솔루션이 다르다. 추론 시 CPU와 GPU 등 다양한 하드웨어 구성에 따라 마찬가지이다. 그렇다면, 간단하게 한번 정리해보자!

1. 훈련

2. 추론

댓글남기기