머신러닝으로 가장 유명한 학습방법은 지도학습(supervised learning)과 비지도학습(unsupervised learning)이 있습니다.
지도학습은 관측치 하나마다 정답 레이블이 달려 있는 데이터셋을 가지고 모델을 학습시킵니다. 대표적인 모델로는 다중회귀분석, 로지스틱 회귀분석, 인공신경망 등등이 있습니다. 반면 비지도학습은 정답 레이블이 달려 있지 않은 데이터를 대상으로도 사용할 수 있으며, 모델 스스로 학습한다는 특징을 가지고 있습니다. 클러스터링이 비지도학습 방법론 중에서는 가장 유명합니다.
학습 데이터로 모델을 생성한 뒤에 중간과정 없이 테스트 데이터로 모델을 평가하면 과적합이나 과소적합이 발생할 수 있습니다.
학습모델이 모든 데이터를 테스트 했기 때문에 개선 후 다시 테스트할 수 없습니다. 과적합이나 과소적합이 발생하지 않은 모델이라 하더라도 이 모델이 최선인지 더 나은 모델이 있는지 알 수 없습니다. 따라서 테스트 데이터 전에 자신을 점검해 볼 수 있는 모의고사 같은 과정이 필요합니다.
머신러닝에서는 이를 검증(Validation)이라고 하고 검증에 사용하는 데이터셋을 검증 데이터셋(Validation dataset)이라고 합니다. 검증 데이터는 학습 데이터의 일부를 사용합니다. CV(Cross Validation) 기법을 사용해서 여러 번 검증을 거치고 모델을 평가합니다.