2023-07-15

무작위 샘플링으로 테스트 세트 만들기

방법1) data를 무작위로 섞은 다음 앞에서부터 test_ratio의 비율만큼 테스트 세트로 만든다.

방법2) 각 샘플마다 고유한 식별자(id)를 가지고 이를 사용하기

방법3) sklearn의 train_test_split()을 사용하기

위 무작위 샘플링들의 문제점

계층적 샘플링 도입

계층적 샘플링

소득 카테고리를 잘 대표하는 샘플 뽑기