데이터 분석 관련 책을 읽다가 윈저화 평균(winsorized mean)이라는 평활화 기법을 접했다.
극한값(가장 큰 값/가장 작은 값)을 인접한 값으로 대체해서 극소수의 '이상치'(outlier)로 인해서 평균값이 왜곡되는 것을 완화하는 평활화 기법이다.
예를 들면, [1,2,3,4,5,6,7,8]이 있고, 2차 윈저화 평균을 구한다면 가장 작은 값 2개 [1,2]를 인접값 3으로 대체하고, 가장 큰 [7,8]을 인접값 6으로 대체해서 [3,3,3,4,5,6,6,6]의 평균을 구하는 것이다.
이렇게 이상치로 인한 평균값의 왜곡이 많이 줄어들어서, 평균값과 중간값의 차이가 줄어든다는 것을 알 수 있다.
'데이터 분석' 카테고리의 다른 글
R언어 무료 IDE (0) | 2023.06.28 |
---|---|
무료 R언어 강의 영상 (0) | 2023.06.26 |
Julia 전용 Pluto 노트북 설치 (0) | 2022.07.21 |
Go언어로 작성된 백테스트 프레임워크 (0) | 2021.12.18 |
Julia용 JupyterLab 설치 (0) | 2021.12.06 |