무료 R언어 강의 영상

데이터 분석 2023. 6. 26. 11:18 Posted by UnHa Kim

국가 평생 교육원에서 대학 기관에서 강의 동영상을 공급받아서 무료로 배포하는 K-MOOC라는 사이트에 R언어 강의가 무료로 공개되어 있다.

 

http://www.kmooc.kr/courses/course-v1:DKUK+DKUK0003+2019_T1/video 

 

video | K-MOOC

Video 시청

www.kmooc.kr

 

회원 가입 후 청강을 선택하면 강의 동영상을 무료로 시청할 수 있다.

'데이터 분석' 카테고리의 다른 글

R언어 절사 평균 mean trim  (0) 2023.06.28
R언어 무료 IDE  (0) 2023.06.28
윈저화 평균 (winsorized mean)  (0) 2023.04.28
Julia 전용 Pluto 노트북 설치  (0) 2022.07.21
Julia용 Jupyter Notebook 설치  (0) 2021.12.06

Julia for Data Analysis

책 리뷰 2023. 5. 5. 20:25 Posted by UnHa Kim

 

https://www.amazon.com/dp/B0BPTK9Z37

파이썬, R과 더불어서 데이터 분석에 많이 사용되는 줄리아(Julia) 언어로 하는 데이터 분석 관련 서적이다.

 

이 책의 저자는 DataFrames.jl의 메인 개발자이다.

이 분야의 진정한 실력자 중 한 명이라는 의미이다.

 

파트 1은 Julia언어에 대한 소개이고, 

파트 2의 DataFrames.jl을 이용한 데이터 분석에 대한 내용이다.

 

이 책의 장점은 Julia언어로 하는 데이터 분석에 대한 거의 모든 내용이 다 포함되어 있다는 점이다.

이 책의 단점은 사소한 디테일, 잘 안 쓰는 편의 문법들, 실제 데이터 분석 작업에 불필요한 내용등이 혼재되어 있어서 실제 데이터 분석 작업에 많이 쓰고, 중요한 내용에 대한 초점이 흐려지는 부작용이 있다는 점이다.

이 문제는 특히, 파트 2에서 심각하다. (어쩌면 가장 중요한 게 파트 2인데...)

 

저자의 의도는 제한된 분량 안에 최대한 많은 내용을 집어넣어서, 독자에게 최대 효용을 선사하려는 의도였던 것 같은 데, 읽고 있노라면 빽빽하게 나열된 온갖 디테일과 과도한 곁가지들 때문에 정작 중요한 내용은 기억이 안 난다.

(챕터 말미마다 요약 정리해 주는 데, 이런 단점을 보완하는 데 어느 정도 도움이 되기는 한다.)

 

예를 들면, 12장에서 가장 중요한 내용은 DataFrame의 내용을 수정/변경하는 방법인데,  챕터 초반에 Zip압축파일 해제법, SHA256해쉬 함수 사용법, Graph.jl사용법, 함수 쪼개기를 이용한 성능 최적화 기법, 그래프 예쁘게 만드는 기법등이 뒤섞여 있어서, 챕터 끝날 때 즈음에야 DataFrame 수정/변경에 대한 내용이 정리되어 있다.

12장 DataFrame 수정/변경에 대한 정리된 내용에 도달하기 전에 이미 멘탈이 탈탈 털려서 책을 덮기 쉽상이다.

 

많이 쓰고 중요한 내용과 잘 안 쓰는 사소한 디테일을 구분하는 판단력을 가지고,  우선 다른 입문서로 Julia언어와 데이터 분석에 대해서 어느 정도 익숙해 진 이후에 읽는 게 좋은 것 같다.

기본적인 것은 익숙해 진 후, 좀 더 깊이, 좀 더 디테일하게, 속속들이 모든 것을 알아보고 싶을 때는 이만한 책이 없을 것 같다.

또한, DataFrame 기본 사용법에 익숙해 진 이후, 데이터 분석 작업에서 어떻게 사용되는지 실제 사례를 알고 싶을 때 좋을 것 같다.

 

Julia언어 자체 입문서로는 '줄리아 프로그래밍'이 좋은 것 같고,

Julia언어로 하는 데이터 분석 입문서는 'Julia Data Science'가 괜찮은 것 같다.

(다만, Julia Data Science는 한글 번역이 안 되어 있으며,  한글로 된 Julia언어 데이터 분석 입문서는 아직 마땅한 게 없다.)

 

결론적으로, 이 책은 입문서로 추천하지는 않는다.

하지만, Julia언어 데이터 분석에 어느 정도 익숙해진 후 언젠가 한 번은 읽어볼 만한 책이다.

'책 리뷰' 카테고리의 다른 글

가치투자는 옳다. 장-마리 에베이야르  (0) 2023.11.29
숙향  (0) 2023.11.28
장단기 투자의 비밀 (래리 윌리엄스)  (0) 2023.02.11
Successful Algorithm Trading  (0) 2022.12.19
가상화폐 투자마법 공식  (0) 2022.11.05

윈저화 평균 (winsorized mean)

데이터 분석 2023. 4. 28. 22:34 Posted by UnHa Kim

데이터 분석 관련 책을 읽다가 윈저화 평균(winsorized mean)이라는 평활화 기법을 접했다.

 

극한값(가장 큰 값/가장 작은 값)을 인접한 값으로 대체해서 극소수의 '이상치'(outlier)로 인해서 평균값이 왜곡되는 것을 완화하는 평활화 기법이다.

 

예를 들면, [1,2,3,4,5,6,7,8]이 있고, 2차 윈저화 평균을 구한다면 가장 작은 값 2개 [1,2]를 인접값 3으로 대체하고, 가장 큰 [7,8]을 인접값 6으로 대체해서 [3,3,3,4,5,6,6,6]의 평균을 구하는 것이다.

이렇게 이상치로 인한 평균값의 왜곡이 많이 줄어들어서, 평균값과 중간값의 차이가 줄어든다는 것을 알 수 있다.

 

'데이터 분석' 카테고리의 다른 글

R언어 무료 IDE  (0) 2023.06.28
무료 R언어 강의 영상  (0) 2023.06.26
Julia 전용 Pluto 노트북 설치  (0) 2022.07.21
Julia용 Jupyter Notebook 설치  (0) 2021.12.06
과거 기업 재무정보  (0) 2019.08.28