3 분 소요

인공지능에서 학습(learning) 이란 인간이 어떠한 것을 배우는 것처럼 머신도 학습을 한다는 뜻으로 사용합니다. 오늘 노트에서는 학습에 따른 분류가 어떠한 것이 있는지 알아보고, 그러한 용어와 개념에 대해 알아보도록 하겠습니다.

1.2 학습에 따른 분류

머신러닝은 매우 광범위한 연구 분야입니다. 그렇기 때문에 하위 부문을 명확하게 정의하는 것이 매우 중요합니다. 매우 광범위한 관점에서 머신러닝 알고리즘을 지도 학습(supervised learning)비지도 학습(unsupervised learning)의 두 가지 주요 클래스로 나눌 수 있습니다.

지도 알고리즘은 최적의 솔루션을 찾고 검증하기 위한 지원으로 클래스 또는 입력 데이터에서 사용하는 레이블을 사용합니다. [그림 1.2] 에는 은행의 사기 거래를 분류하기 위한 데이터 세트가 있습니다.

[그림 1.2] 지도 학습을 위한 데이터셋 표본

처음 4개의 열은 피처(Feature) 또는 독립 변수(independent variable)로 알려져 있으며 지도 알고리즘에서 사기 패턴을 찾는 데 사용할 수 있습니다. 예를 들어, 요일, 동부 표준 시간(EST), 거래 금액 및 판매자 유형과 같은 4가지 피처와 각 행은 기술적으로 하나의 관측치로 총 6개의 관측치을 결합하여 $5,000보다 큰 값을 가진 전자 상거래 거래를 추론할 수 있습니다. 야간에 처리되는 것은 잠재적인 사기 사례입니다.

여기서 중요한 사실은 실제 시나리오에서 이러한 유형의 추론을 수행하기 위한 통계적 지원을 위해서는 더 많은 관측치이 있어야 합니다. 참고로 머신러닝에서 관측치(observation) 이라고 부르는 것은 종종 인스턴스(Instance)로 알려져 있고 설명 변수는 피처 벡터로 그룹화 되어 있는 피처(Feature)라고 하며 예측할 수 있는 범주를 클래스(Class) 라고 부릅니다.

핵심은 무엇이 사기이고 무엇이 사기가 아닌지 우선순위를 매겨 알고 있기 때문에 잠재적인 사기 패턴을 유추할 수 있다는 것입니다. 이 정보는 [그림 1.2]의 마지막 열에 있으며 일반적으로 레이블(Label), 목표 변수(Target Variable), 응답 변수(Response Variable) 또는 종속 변수(Dependent Variable) 라고 부릅니다. 입력 데이터 세트에 대상 변수가 있는 경우 지도 학습을 적용할 수 있어야 합니다.

1.2.1 지도 학습

지도 학습에서 대상 변수는 다른 유형의 데이터를 저장할 수 있습니다. 예를 들어, 이진 열(예 또는 아니요), 다중 클래스 열(클래스 A, B 또는 C) 또는 숫자 열(거래 금액과 같은 실수)일 수 있습니다. 대상 변수의 데이터 유형에 따라 문제가 참조하는 지도 학습 유형을 찾을 수 있습니다. [그림 1.3]은 지도 학습을 분류(classification)회귀(regression)**알고리즘의 두 가지 주요 그룹으로 분류하는 방법을 보여줍니다.

[그림 1.3] 목표 변수가 주어졌을 때 올바른 지도 학습 유형 선택

분류 알고리즘은 이진(binary) 또는 다중(multiple) 클래스 유형과 같은 클래스를 예측하는 반면, 회귀 알고리즘은 연속(continuous) 또는 이산(discrete) 유형으로 실수를 예측합니다. 머신러닝 프로젝트에서 올바른 결정을 내리려면 데이터 유형을 이해하는 것이 중요합니다. 데이터 유형을 숫자 데이터와 범주 데이터의 두 가지 주요 범주로 나눌 수 있습니다. 그런 다음 숫자 데이터는 연속 또는 이산 하위 클래스로 분할할 수 있는 반면 범주 데이터는 순서 또는 명목 데이터를 참조할 수 있습니다.

· 수치/이산 데이터: 개별 및 셀 수 있는 항목을 나타냅니다. 예를 들어, 교실의 학생 수 또는 온라인 장바구니의 항목 수를 말합니다.

· 수치/연속 데이터: 가능한 측정의 무한한 수를 말하며 종종 소수점을 포함합니다(예: 온도).

· 범주형/명목형(nominal) 데이터: 이름 또는 성별과 같은 양적 값이 없는 레이블이 지정된 변수를 나타냅니다.

· 범주형/서수형(ordinal) 데이터: 교육 수준 또는 직원 직함 수준과 같은 레이블이 지정된 변수에 순서를 추가합니다.

즉, 프로젝트에 대한 알고리즘을 선택할 때 다음과 같이 자문해야 합니다. 대상 변수가 있습니까? 범주형 또는 숫자 데이터를 저장합니까? 이러한 질문에 답하면 문제를 해결할 잠재적 알고리즘을 선택할 수 있는 더 나은 위치에 놓이게 됩니다.

1.2.2 비지도 학습

그러나 대상 변수가 없으면 어떻게 될까요? 이 경우 비지도 학습으로 향합니다. 비지도 학습은 레이블이 지정된 데이터를 제공하지 않습니다. 추가적으로 말해서, 비지도 알고리즘은 데이터에서 패턴을 찾을 수 있도록 하는 모든 독립 변수 또는 피처를 제공합니다. 비지도 학습의 가장 일반적인 유형은 순전히 피처를 기반으로 데이터셋의 관측치을 다른 클러스터로 그룹화하는 것을 목표로 하는 클러스터링(clustering)입니다. 참고로 동일한 군집의 관측치는 서로 유사할 것으로 예상되지만 다른 군집의 관측치와는 매우 다릅니다.

반지도 학습(Semi-supervised learning)은 머신러닝 문헌에도 있습니다. 이 유형의 알고리즘은 부분적으로 레이블이 지정된 데이터에서 학습할 수 있습니다. 참고로 일부 관측치에는 레이블이 포함되고 다른 관측치에는 포함되지 않습니다. 끝으로 다른 클래스의 ML 알고리즘에서 채택한 또 다른 학습 접근 방식은 강화 학습(reinforce learning)입니다. 이 접근 방식은 시스템이 자율적으로 내린 좋은 결정에 따라 시스템에 보상을 제공합니다. 즉, 시스템은 경험을 통해 학습합니다.

지금까지 학습 접근 방식과 알고리즘 클래스에 대해 매우 광범위한 수준에서 논의했습니다. 그러나 이제는 구체적으로 모델(model)이라는 용어를 소개해야 할 때가 되었습니다. 다음 글에서는 모델링과 CRISP-DM 모델링 수명 주기에 대해 알아보도록 하겠습니다.

업데이트: