3 분 소요

오늘 노트는 모델링과 관련된 모델링 수명 주기인 CRISP-DM 방법론에 대해 정리하고자 합니다.

1.3 CRISP-DM 모델링 수명 주기

모델링(modeling)은 특정 문제를 해결하기 위해 취한 단계를 지정하려는 경우 ML에서 사용되는 매우 일반적인 용어입니다. 예를 들어, 앞써 [그림 1.2]의 거래가 사기인지 아닌지 예측하기 위해 이진 분류 모델을 만들 수 있습니다.

이 컨텍스트에서 모델은 알고리즘을 포함하지만 이에 국한되지 않는 솔루션을 생성하기 위한 모든 단계를 전체적으로 나타냅니다. 더 일반적으로 CRISP-DM이라고 알려진 데이터 마이닝을 위한 산업 간 표준 프로세스(Cross-Industry Standard Process for Data Mining)는 모델을 생성하기 위해 따라야 하는 일반적인 단계에 대한 지침을 제공하는 방법론 중 하나입니다.

[그림]

첫째, 모든 것은 성공 기준을 포함한 비즈니스 목표, 상황 평가, 데이터 마이닝 목표 및 도구 및 기술에 대한 초기 평가 포함한 프로젝트 계획을 생성하는 비즈니스 이해로 시작됩니다. 상황 평가 중에 리소스, 요구 사항, 가정 및 제약 조건, 위험, 용어, 비용 및 이점의 목록도 조사해야 합니다. 모델링할 때 모든 단일 가정과 성공 기준이 중요합니다.

그런 다음 두번째로, 원시 데이터를 수집하고, 설명하고, 탐색하고, 품질을 확인하는 데이터 이해로 넘어갑니다. 이것은 모델을 만드는 데 사용할 데이터의 초기 평가입니다. 다시 말하지만, 데이터 과학자들은 의심이 있어야 합니다. 데이터와 그 출처의 모든 뉘앙스를 이해하고 있는지 확인해야 합니다.

셋째, 데이터 준비 단계는 실제로 모델링 중에 대부분의 시간을 소비하는 단계입니다. 이 단계에서는 데이터를 선택 및 필터링하고, 수행해야 하는 작업에 따라 정리하고, 새로운 속성을 제시하고, 데이터를 다른 데이터 소스와 통합하고, 응용 알고리즘에서 예상한 대로 형식을 지정해야 합니다. 이러한 작업을 종종 피처 엔지니어링(Feature Engineering)이라고 합니다.

넷째, 데이터가 준비되면 마침내 모델링 단계를 시작할 수 있습니다. 여기에서 알고리즘이 필요합니다. 올바른 기술을 선택하는 것부터 시작해야 합니다. 대상 변수 및 해당 데이터 유형의 존재 여부에 따라 선택할 수 있는 알고리즘이 다르다는 것을 명심하십시오. 각 모델링 기술에는 우리가 알아야 할 몇 가지 암시적 가정이 포함될 수 있습니다. 예를 들어, 주택 가격을 예측하기 위해 다중 선형 회귀 알고리즘을 선택하는 경우 이러한 유형의 모델은 데이터 변수 간의 선형 관계를 예상한다는 점에 유의해야 합니다.

수백 개의 알고리즘이 있으며 각각 고유한 가정이 있을 수 있습니다. 프로젝트에서 테스트할 항목을 선택한 후에는 세부 사항을 확인하는 데 시간을 할애해야 합니다. 일부 알고리즘은 피처 선택이라고 하는 논리를 통합합니다. 최고의 모델을 구축하기 위해 가장 중요한 피처를 선택하는 단계입니다. 의사 결정 트리는 피처 선택을 자동으로 수행하는 알고리즘의 예입니다. 모델에 가장 적합한 변수를 선택하는 다양한 방법이 있기 때문에 나중에 피처 선택에 대해 더 자세히 다룰 것입니다.

모델링 단계에서 모델에 대한 테스트 접근 방식을 설계하여 사용할 평가 지표와 데이터 분할 방법을 정의해야 합니다. 이를 통해 알고리즘의 하이퍼파라미터를 설정하고 모델에 데이터를 제공하여 마침내 모델을 구축할 수 있습니다. 좋은 추정치를 찾기 위해 알고리즘에 데이터를 제공하는 이 프로세스를 학습 프로세스(training process)라고 합니다. 모델을 제공하는 데 사용되는 데이터를 훈련 데이터(training data)라고 합니다. 이 장에서 다룰 훈련 및 테스트 데이터(testing data)를 구성하는 다양한 방법이 있습니다.

머신러닝 알고리즘은 파라미터와 하이퍼파라미터로 구축됩니다. 이것들은 데이터에서 학습됩니다. 예를 들어, 의사결정 트리 기반 알고리즘은 특정 피처가 정보 획득 평가를 기반으로 루트 수준을 구성해야 한다는 학습 데이터를 학습할 수 있습니다. 반면에 하이퍼파라미터는 학습 프로세스를 제어하는 데 사용됩니다. 의사결정 트리에 대한 동일한 예를 사용하여 의사결정 트리 알고리즘의 사전 정의된 하이퍼파라미터를 지정하여 기초 훈련 데이터에 관계없이 트리의 최대 허용 깊이를 지정할 수 있습니다.

다섯째, 만일 모델이 학습되면 다음 단계를 제안하기 위해 결과를 평가하고 검토할 수 있습니다. 비즈니스 성공 기준에 따라 결과가 허용되지 않는 경우 이전 단계로 돌아가서 모델 결과를 개선하기 위해 수행할 수 있는 다른 작업을 확인해야 합니다. 알고리즘의 하이퍼파라미터에 대한 작은 조정, 새로운 데이터 준비 단계 또는 비즈니스 조종자의 재정의일 수 있습니다. 반면에 모델 품질이 허용 가능한 경우 배포 단계로 이동할 수 있습니다.

여섯째, CRISP-DM 방법론의 이 마지막 단계에서 모델의 배포 계획, 모니터링 및 유지 관리에 대해 생각해야 합니다. 일반적으로 훈련과 추론이라는 두 가지 관점에서 이 단계를 봅니다. 훈련 파이프라인(training pipeline)은 데이터 준비, 하이퍼파라미터 정의, 데이터 분할 및 모델 훈련 자체를 포함하여 모델을 훈련하는 데 필요한 단계로 구성됩니다. 어떻게든 모든 모델 아티팩트를 어딘가에 저장해야 합니다. 왜냐하면 그것들은 개발해야 하는 다음 파이프라인인 추론 파이프라인(inference pipeline)에서 사용될 것이기 때문입니다.

추론 파이프라인은 모델 아티팩트를 사용하여 훈련 단계 동안 모델에서 본 적이 없는 데이터 로 완전히 새로운 관측치에 대해 모델을 실행합니다. 예를 들어, 모델이 사기 거래를 식별하도록 훈련된 경우 새로운 거래가 분류될 모델을 통과하는 시간입니다. 일반적으로 모델은 훈련 파이프라인을 통해 한 번 훈련되고 추론 파이프라인을 통해 여러 번 실행됩니다. 그러나 얼마 후 모델 드리프트(Model Drift) 라고도 하는 일부 모델 저하가 발생할 것으로 예상됩니다. 이 현상은 모델이 일반적으로 주어진 시점에서 비즈니스 시나리오를 나타내는 것을 목표로 하는 정적 훈련 세트에서 훈련되기 때문에 발생합니다. 그러나 비즈니스는 진화하고 있으며 새로운 비즈니스 측면을 포착하기 위해 최신 데이터로 모델을 재훈련해야 할 수도 있습니다. 그렇기 때문에 모델 배포 후에도 모델 성능을 계속 추적하는 것이 중요합니다.

CRISP-DM 방법론은 아마존 웹 서비스(AWS)에서 다루는 데이터 엔지니어링, 탐색적 데이터 분석, 모델링, ML 구현 및 운영와 같은 4가지 도메인 단계로 나누었다는 것을 알 수 있습니다.

이제 모델링 파이프라인의 모든 핵심 단계를 이해하고 알고리즘 자체가 광범위한 프로세스의 일부일 뿐이라는 것을 깨달았습니다. 다음으로 데이터를 분할하여 머신러닝 모델을 만들고 검증하는 방법을 살펴보겠습니다.

업데이트: