AI 추론이란 무엇인가?

2024년 04월 08일 3 분 소요

지금까지 TensorRT-LLM 에 대해 알아보았다. 그렇다면, 이제는 좀 더 근본적인 AI 추론이 무엇인지에 대해 알아보자.

AI 추론(Inference)은 학습된 AI 모델이 새로운 데이터를 기반으로 예측을 수행하고, 실시간으로 분류하거나 학습된 지식을 적용하여 결과를 생성하는 과정을 뜻한다. 참고로 AI 추론은 머신러닝과 인공지능 기술을 실제 세계에 적용함으로써 복잡한 애플리케이션 배포 문제를 해결하는 데 도움을 준다. 음성 인식 AI 비서, 개인화된 쇼핑 추천, 강력한 이상 거래 탐지 시스템 등 다양한 분야에서 추론은 AI 워크로드를 실시간으로 구동하는 핵심 역할을 한다.

2. AI 추론의 장점

단순한 응답을 하는 다음 문장을 추론을 벗어나 Chain-of-Thought, Tool 사용, Planning 등을 지원
- Chain-of-Thought (CoT): 복잡한 문제를 해결할 때, AI가 중간 사고 과정을 명시적으로 표현하면서 답을 도출하도록 유도하는 기술. AI가 “단계별로 사고의 흐름을 적으며” 추론하게 만드는 기법으로 마치 사람이 문제를 풀 때 중간 계산식이나 논리 단계를 써가며 푸는 것과 비슷
사용자 경험 향상
- 고성능 AI 추론은 빠르고 정확한 응답을 제공하여 실시간 상호작용에서 사용자 경험을 향상시킴
- 동시에 토큰 당 비용과 전체 시스템 지연 시간의 균형을 유지하면서 높은 품질의 사용자 경험을 보장함.
안전성과 신뢰성
- 로봇, 자율주행차와 같은 안전이 중요한 애플리케이션에서는 정확하고 실시간으로 작동하는 추론이 필수
- 낮은 지연 시간의 추론은 이러한 시스템이 주변 환경을 인식하고 해석하며 즉시 반응할 수 있게 하여, 반응 시간을 줄이고 정밀도와 안전성을 높임
- AI 추론은 반복적인 작업을 자동화하여 생산성을 높이고 오류를 줄이며, 사람의 리소스를 더 복잡한 작업에 집중함

3. AI 학습과 추론의 차이

항목	AI 학습 (Training)	AI 추론 (Inference)
정의	모델이 훈련 데이터셋을 통해 가중치를 조정하며 특정 작업을 학습하는 과정	학습된 모델을 실제 데이터에 적용하여 예측 또는 분류 결과를 생성하는 과정
목적	높은 정확도를 위한 모델 최적화	빠르고 효율적인 예측 결과 생성
입력 데이터	대규모 라벨링된 데이터셋	실제 사용자 또는 시스템의 입력
출력	최적화된 가중치가 적용된 학습된 모델	예측 값, 분류 결과, 생성된 텍스트 등
연산량	매우 크고 반복적이며 시간 소모가 큼	상대적으로 적지만 실시간 처리를 요구함
하드웨어 요구	주로 여러 GPU 또는 분산 클러스터 환경 필요	실시간 응답을 위한 고성능 GPU 또는 최적화된 추론 하드웨어 필요
최적화 기법	학습률 조정, 데이터 증강, 정규화, 옵티마이저 사용 등	양자화(Quantization), 가지치기(Pruning), 레이어 융합(Layer Fusion), 추측 디코딩 등
시간 소요	수 시간에서 수 주 이상 (모델 및 데이터 크기에 따라 다름)	밀리초~수 초 단위 (응답 시간 중요)
대표 사용 예	GPT, BERT, LLaMA 등의 모델 사전 학습	챗봇 응답, 이미지 분류, 추천 시스템, 음성 인식 등

4. AI 추론은 어떻게 작동하는가?

AI 추론, 특히 대규모 언어 모델(LLM)의 경우, AI 토큰을 생성하는 과정을 통해 동작
이 토큰 생성 속도가 추론의 속도, 비용, 그리고 사용자 경험을 결정짓는 핵심 요소
방대한 연산을 처리하기 위해서는 고성능 GPU 및 고속 네트워크 인프라와 같은 특수 하드웨어가 사용
하드웨어는 가속 컴퓨팅에 최적화된 풀스택 소프트웨어와 함께 작동하여 효율성과 성능을 극대화
AI 추론은 하드웨어와 소프트웨어의 통합 최적화를 통해 빠르고 정밀한 결과를 실시간으로 제공하는 구조로 이루어짐

5. 모델 추론

입력 처리(Input Processing): 사용자가 텍스트 쿼리와 같은 입력 데이터를 제공하면, AI 모델은 이를 처리하여 토큰(token)으로 분해함. 토큰은 모델이 이해하고 처리할 수 있는 가장 작은 텍스트 단위로, 문장은 토크나이징 전략에 따라 단어, 하위 단어, 또는 문자 수준으로 분해될 수 있음.
토큰 생성(Token Generation): 모델은 입력된 토큰을 기반으로 응답을 생성함. 이 과정에서 토큰은 임베딩되어 여러 층(layer)을 거치며 문맥에 적합한 출력을 생성함. 이 연산은 복잡하고 병렬 처리가 가능해야 하기 때문에 일반적으로 GPU를 사용하여 속도를 높임.
출력 디코딩(Output Decoding): 생성된 토큰은 사용자에게 반환될 완전한 문장 형태의 응답으로 조립됨.

6. AI 토큰 비용(AI Token Cost)

토큰당 비용(Cost per Token): AI 추론의 비용은 주로 토큰당 처리 비용으로 측정됨. 이는 특히 멀티모달 대규모 언어 모델에서 토큰을 처리하고 생성하는 데 필요한 계산 자원이 매우 크기 때문
지연 시간(Latency): 지연 시간은 하나의 토큰을 생성하는 데 걸리는 시간을 말함. 실시간 AI 애플리케이션에서는 낮은 지연 시간이 매우 중요하지만, 이를 달성하기 위해서는 고성능 하드웨어와 실시간 처리 시스템이 필요하므로 비용이 증가하고 계산 부하도 커질 수 있음.
처리량(Throughput): 일정 시간 동안 얼마나 많은 토큰을 처리할 수 있는가도 비용에 영향을 미침. 처리량을 높이기 위해서는 모델 최적화와 동적 배치(dynamic batching)와 같은 기술이 활용됨

7. AI 추론 배포 방식

추론 배포 방식	설명
배치 추론 (Batch Inference)	여러 사용자의 요청을 하나로 묶어 처리하여 GPU 활용률을 극대화하고, 다수 사용자에 대한 고처리량을 제공합니다.
실시간 추론 (Real-Time Inference)	데이터가 도착하자마자 즉시 처리하며, 자율주행이나 영상 분석처럼 즉각적인 판단이 필요한 애플리케이션에 필수적입니다.

8. LLM 추론 평가 핵심 지표

최초 토큰 생성 시간 (Time to First Token, TTFT):
- 정의: 시스템이 첫 번째 토큰을 생성하는 데 걸리는 시간.
- 중요성: 짧은 TTFT는 사용자에게 즉각적인 응답을 제공하여 만족도와 몰입도를 높임
- 예: 챗봇에서 질문을 입력한 후 반응이 빠를수록 사용자 경험이 좋아짐.
출력 토큰당 시간 (Time Per Output Token, TPOT):
- 정의: 이후 각 토큰을 생성하는 데 걸리는 평균 시간.
- 중요성: 전체 응답 속도와 효율성에 직접적인 영향을 미치며, 실시간 챗봇, 통역 서비스 등에서 중요

Twitter Facebook LinkedIn