데이터 분석
윈저화 평균 (winsorized mean)
UnHa Kim
2023. 4. 28. 22:34
데이터 분석 관련 책을 읽다가 윈저화 평균(winsorized mean)이라는 평활화 기법을 접했다.
극한값(가장 큰 값/가장 작은 값)을 인접한 값으로 대체해서 극소수의 '이상치'(outlier)로 인해서 평균값이 왜곡되는 것을 완화하는 평활화 기법이다.
예를 들면, [1,2,3,4,5,6,7,8]이 있고, 2차 윈저화 평균을 구한다면 가장 작은 값 2개 [1,2]를 인접값 3으로 대체하고, 가장 큰 [7,8]을 인접값 6으로 대체해서 [3,3,3,4,5,6,6,6]의 평균을 구하는 것이다.
이렇게 이상치로 인한 평균값의 왜곡이 많이 줄어들어서, 평균값과 중간값의 차이가 줄어든다는 것을 알 수 있다.