분산과 바이어스

분산 (Variance)
분산은 예측값들끼리의 차이

정의

: 분산은 모델이 훈련 데이터에 얼마나 민감하게 반응하는지를 나타냅니다.

의미

높은 분산
모델이 훈련 데이터의 작은 변화나 노이즈까지도 과도하게 학습합니다.
결과적으로 새로운 데이터에 대한 예측이 불안정하고, 과적합(overfitting)의 위험이 있습니다.

낮은 분산
모델이 훈련 데이터의 노이즈에 덜 민감합니다.

이로 인해, 새로운 데이터에 대해서는 더 일반적으로 동작할 가능성이 높습니다.

바이어스 (Bias)
예측값이 정답과 얼마나 멀리 떨어져 있는지

정의
: 바이어스는 모델이 훈련 데이터와 실제 현실 세계의 데이터를 얼마나 일반화할 수 있는지에 대한 척도입니다.
의미

높은 바이어스
: 모델이 너무 단순하여 데이터의 복잡한 패턴을 학습하지 못합니다.

이로 인해, 모델은 훈련 데이터와 테스트 데이터 모두에 대해 부정확한 예측을 할 가능성이 높습니다.

이를 과소적합(underfitting)이라고 부릅니다.

낮은 바이어스
: 모델이 복잡하며, 훈련 데이터에 있는 복잡한 패턴까지도 잘 학습할 수 있습니다.

그러나 이 경우에는 분산이 높아져 과적합의 위험이 있을 수 있습니다.

분산과 바이어스의 관계

높은 분산과 낮은 바이어스, 또는 높은 바이어스와 낮은 분산을 동시에 가진 모델은 드뭅니다.

이 둘은 대체로 트레이드오프 관계에 있어서, 하나를 개선하면 다른 하나가 악화될 가능성이 높습니다.

따라서 모델을 튜닝하면서 이 두 척도 사이의 균형을 잘 맞춰야 좋은 일반화 성능을 얻을 수 있습니다.

"집 가격 예측"으로 분산과 바이어스 알아보기

고분산, 낮은 바이어스 (Overfitting)

예시
: 다항 회귀 모델을 사용하여 집의 크기, 방 개수, 욕실 개수, 지역, 주변 학교의 평가 등을 고려해서 집 가격을 예측 합니다.

모델은 매우 복잡하며, 훈련 데이터에 대한 오차는 거의 없습니다.

문제

: 새로운 데이터에 대해서는 예측이 매우 부정확합니다. 왜냐하면 모델이 훈련 데이터의 노이즈까지 학습해버렸기 때문입니다.

분석

: 이 경우 모델의 분산은 매우 높고 바이어스는 낮습니다.

고바이어스, 낮은 분산 (Underfitting)

예시

: 선형 회귀 모델을 사용하여 오직 집의 크기만을 고려해서 집 가격을 예측합니다.

문제

: 훈련 데이터에 대해서도, 그리고 새로운 데이터에 대해서도 예측이 부정확합니다.

왜냐하면 집 가격은 방 개수, 지역, 주변 학교의 평가 등 다양한 요소에 영향을 받기 때문입니다.

분석

: 이 경우 모델의 바이어스는 매우 높고 분산은 낮습니다.

균형잡힌 모델 (Good Trade-off)

예시

: 랜덤 포레스트나 그래디언트 부스팅과 같은 알고리즘을 사용하여 집의 크기, 방 개수, 욕실 개수, 지역, 주변 학교의 평가 등을 적절히 고려하여 집 가격을 예측합니다.

결과

: 훈련 데이터에 대한 예측은 높은 정확도를 보이며, 새로운 데이터에 대해서도 상당히 정확한 예측을 제공합니다.

분석

: 이 경우 모델의 바이어스와 분산이 적절한 수준으로 균형이 잡혀 있습니다.

꼬질꼬질두부