1 minute read

목표

  • 모델 만들기가 최종 목적은 아닐 것이다. 이것을 사용해 어떤 이익을 얻으려고 하는가?

비즈니스 목적을 알아야 결정할 수 있는 것들

  1. 문제를 구성할 수 있다.
  2. 문제를 해결할 수 있는 알고리즘을 선택.
  3. 모델 평가를 위한 성능 지표 결정
  4. 모델 튜닝을 위해 어떤 노력을 얼마나 투입할지 결정.

현재 상황

  1. 구역의 중위 주택 가격이 레이블된 샘플이 있다
  2. 구역의 중위 주택 가격을 예측해야 한다.
  3. 구역의 인구, 중간소득 등 인구통계 정보를 활용 가능하다

문제 정의

  1. 레이블된 훈련 샘플이 있는 전형적인 지도학습 문제이다.
  2. 값을 예측해야 하는 전형적인 회귀 문제다.
  3. 예측에 사용할 특성이 구역의 인구, 중간 소득 등 여러가지 이므로 다중 회귀 문제다.
  4. 예측된 결과값은 하나이므로 단변량 회귀 문제다.
  5. 인구나 중간소득이 실시간으로 변하는 것이 아니므로 빠르게 변하는 데이터에 적응하지 않아도 되고, 데이터가 작으므로 일반적인 배치 학습이 적절하다. (매우 크다면 맵리듀스 기술을 사용해 배치 학습을 여러 서버로 분할하거나 온라인 학습 시스템으로 바꿀 수 있다.)

성능 측정 지표 선택

  1. 회귀문제의 전형적인 성능 지표는 RMSE(평균 제곱근 오차) - 예측된 값이 실제값과 얼마나 다른지를 측정하는 방법
  2. 이상치로 보이는 구역이 많다면 평균 절대 오차(평균 절대 편차라고도 함 - mean absolute error, MAE)를 사용할 수 있긴 하다.

Leave a comment