본문으로 바로가기

[DeepLearning] 훈련 데이터와 테스트 데이터

category 인공지능/DeepLearning 2020. 12. 6. 23:03
반응형

최근에 머신 러닝에 대해 공부하고 있고, 제품화를 목적으로 하고 있습니다.

머신 러닝은 참 어려운 종목(?)이네요. 하다보면 되겠지 하는 마음으로 공부하고 있습니다.

머신 러닝은 데이터를 학습 시켜 모델을 만드는 것입니다.

궁극적으로는 정확한 모델을 만들어 성능을 향상시키는 것입니다.

여기서의 성능은 정확도 등을 나타냅니다.

훈련 데이터란 머신 러닝에서 학습을 할 데이터입니다. 훈련 데이터는 훈련 데이터셋이라고도 불립니다.

사람으로 비유 하자면, 공부할 때의 푸는 문제들입니다.

이런 훈련 데이터를 학습하여 모델을 만들고, 훈련 데이터에 따라서 만들어지는 모델이 달라집니다.

사람과 마찬가지로 문제들을 많이 푼다고해서 즉, 훈련 데이터를 많이 학습한다고 해서 결과가 잘 나오지는 않습니다.

그 과정과 결과도 중요합니다.

이 결과를 내기 위해 시험이 필요한데, 이 시험에 필요한 데이터가 테스트 데이터입니다. 테스트 데이터셋이라고도 불립니다.

결과에 대한 테스트 단계라고 보면 됩니다.

머신 러닝 관점에서 기계는 이 테스트 데이터를 알 수 없어야 합니다.

사람에 비유하자면, 문제를 통째로 외워버릴 수도 있기 때문입니다.

그렇기 때문에 훈련 데이터와 테스트 데이터는 겹치지 않게 해야됩니다.

반응형

댓글을 달아 주세요