편향-분산 트레이드오프 (Bias-Variance Tradeoff)

2024. 7. 15. 18:52학습/머신러닝

 

2024-07-25 업데이트 완료

 

편향-분산 트레이드오프 (Bias-Variance Tradeoff)란?


편향(Bias)과 분산(Variance)은 모델이 데이터를 학습하는 과정에서 발생할 수 있는 두 가지 주요 오류를 설명하기 위해 사용된다.

 

01 한 줄 요약


편향 : 실제값과 예측값 사이 차이를 나타내는 지표
분산 : 예측값들이 평균을 중심으로 얼마나 퍼져 있는 지에 대한 지표

 

02 개념 설명


편향 (Bias)

1. 정의: 편향은 모델의 예측값의 평균이 실제 값과 얼마나 차이나는지를 나타내는 지표이다. 즉, 모델이 실제 값을 얼마나 정확하게 예측하는지를 보여준다. 편향이 높으면 모델의 예측이 실제 값에서 멀리 떨어져 있다는 뜻다.

2. 수식: "실제 값 - 모델의 예측값의 평균"으로 계산된다. 이는 모델이 여러 번 학습한 후 예측한 값들의 평균과 실제 값의 사이의 차이를 의미한다.

3. 고편향: 모델이 실제 데이터의 복잡한 패턴을 잘 반영하지 못한다. 예를 들어, 복잡한 곡선 데이터를 단순한 직선으로 예측하려고 할 때, 편향이 높아진다.

4. 결과: 고편향 모델은 학습 데이터와 테스트 데이터 모두에서 높은 오류를 보인다. 이를 과소적합(Underfitting)이라고도 한다.

5. 비유: 사격 경기에서 모든 화살이 과녁의 한쪽으로 몰리는 경우를 생각해보자. 이것은 모델이 시스템적인 오류를 가지고 있다는 것을 의미한다. 즉, 잘못된 가정을 하고 있다는 뜻이다.

 

분산 (Variance)

1. 정의: 분산은 모델의 예측값들이 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 지표이다. 즉, 모델이 학습 데이터의 작은 변화에 얼마나 민감하게 반응하는지를 보여준다. (= 모델의 예측값이 얼마나 변동성이 큰지를 보여준다.) 분산이 높으면 모델의 예측값들이 평균 값 주변에서 많이 흩어져 있다는 뜻이다. (= 작은 변화에도 데이터가 이리저리 튄다?)

2. 수식: "모델의 예측값 - 모델의 예측값의 평균"의 차이의 제곱을 평균한 값으로 계산된다. 이는 모델이 여러 번 학습한 후 각 예측값들이 얼마나 변동하는지를 의미한다.

3. 고분산: 모델이 학습 데이터의 작은 변동성까지 과도하게 학습해, 새로운 데이터에 대한 예측이 불안정해진다. 예를 들어, 단순한 선형 데이터를 고차원 다항식으로 학습하려고 할 때, 분산이 높아진다.

4. 결과: 고분산 모델은 학습 데이터에서는 낮은 오류를 보이지만, 새로운 테스트 데이터에서는 높은 오류를 보인다. 이를 과적합(Overfitting)이라고도 한다.

 

편향-분산 트레이드오프 (Bias-Variance Tradeoff)

1. 정의: 편향과 분산은 서로 상충관계에 있다. 즉, 한쪽을 줄이면 다른 쪽이 증가하는 경향이 있다.

2. 이상향: 모델을 설계할 때, 이 두 가지 오류 사이에서 균형을 맞추는 것이 중요하다.

2. 해결법: 모델의 복잡성을 조절하거나, 규제를 도입하거나, 더 많은 데이터를 사용하는 등의 방법을 사용할 수 있다.

3. 수식: 모델의 전체 예측 오류(Mean Squared Error, MSE)는 편향의 제곱과 분산의 합으로 나타낼 수 있다.

- MSE = Bias2+Variance+Noise

- 여기서 잡음은 데이터 자체의 변동성을 의미하며, 모델의 성능과는 직접적인 관련이 없다.

 

03 모델 예측값의 "변동성", 여러 번 학습한다의 의미


앞서 분산은 모델이 학습 데이터의 작은 변화에 얼마나 민감하게 반응하는지를 나타낸다고 했다. 이는 모델이 얼마나 예측을 안정하게 하는지 불안정하게 하는지를 보여주는 지표가 된다.

 

'(동일한) 모델을 여러 번 학습시킨다는 것'은 같은 데이터 셋을 사용하지만 데이터의 일부가 조금씩 다른 경우를 의미한다. 데이터셋을 조금씩 다르게 변형(예: 샘플을 무작위로 섞거나 일부 샘플을 빼고 넣는 등)하여 여러 번 학습시켜 보면, 모델이 얼마나 일관된 예측을 내놓는지 알 수 있다. 이렇게 하면 학습 데이터의 작은 변화에 어떻게 반응하는지 평가할 수 있기 때문에 모델의 분산을 평가할 수 있다.

 

해당 과정을 통해 모델이 특정 데이터셋에 과도하게 맞춰지는 과적합(overfitting)을 방지하고, 일반화 성능을 높일 수 있다. 여러 번 학습시키면서 데이터셋의 일부를 다르게 구성하면, 모델이 특정 데이터셋에만 최적화되지 않고 다양한 데이터에 대해 잘 작동하는지 확인할 수 있다.

 

💡같은 데이터 세트로 학습 훈련을 시키더라도 파라미터에 따라 다른 정확도가 나옴을 떠올린다.

 

 

1. 만약 모델이 학습 데이터의 작은 변화에 따라 예측값이 크게 달라진다면? 이는 높은 분산을 의미한다.

- 예를 들어, 첫 번째 학습에서는 모델이 10이라는 예측값을 내놓았고, 두 번째 학습에서는 50이라는 예측값을 내놓았다면, 이 모델은 분산이 높은 것이다.

- 마치 바람이 불 때마다 방향을 크게 바꾸는 깃발처럼, 모델이 데이터의 작은 변화에도 예측값을 크게 바꾸는 경우와 같다. = 고분산일 때 모델의 예측값 변동성이 크다고 해석할 수 있다.

 

2. 반대로, 모델이 학습 데이터의 작은 변화에도 예측값이 거의 변하지 않는다면? 이는 낮은 분산을 의미한다.

- 예를 들어, 첫 번째 학습에서는 모델이 10이라는 예측값을 내놓았고, 두 번째 학습에서는 12라는 예측값을 내놓았다면, 이 모델은 분산이 낮은 것이다.

 - 바람이 불어도 방향을 거의 바꾸지 않는 나무처럼, 모델이 데이터의 작은 변화에도 예측값을 거의 바꾸지 않는 경우와 같다.

 

04 깨달은 점


편향은 실제 데이터와 예측 데이터 평균이 얼마나 차이나는지고, 실제 예측해야 하는 값과 얼마나 차이가 있는지 알아보는 지표라서 어렵지 않은 개념이었다.

 

분산을 통계적으로 보자면 데이터가 평균에서 흩어진 정도이다. 값이 높을수록 평균에서 흩어진 정도가 많다는 것이고, 데이터에 튀는 값들이 많음을 의미한다. 고분산 모델은 데이터의 미세한 변화에도 결괏값이 이리저리 튀기 때문에 변동성이 크다고 하는 것임을 이해했다. 이렇게 '과'적합된 모델은 훈련 데이터에서는 성능이 좋지만, 테스트 데이터나 실제 데이터에서는 성능이 떨어지게 된다는 점을 알아둔다.

 

결정 트리 알고리즘의 단점이 성능 향상시키려다 불러오는 과적합이라고 배웠다. 앙상블 학습에서는 결정 트리 알고리즘의 단점을 수십~수천 개의 매우 많은 분류기를 결합해 다양한 상황을 학습하게 함으로써 극복하고 있다. 결정 트리 알고리즘의 장점은 그대로 취하고 단점은 보완하면서 편향-분산 트레이드오프의 효과를 극대화할 수 있다는 의미이다.