R언어 데이터 프레임으로 필터, 정렬, 랭킹, 계산 결과값 칼럼 추가, 조인등 기본 사용법 예제를 메모해 둔다.
코드 가독성을 높이기 위해서 dplyr 패키지를 사용한다.
# 경고 메세지 없이 dplyr 패키지 불러오기
library(dplyr, warn.conflicts = FALSE)
필터링
필터된_PER <- filter(PER데이터, PER > 0)
정렬
정렬된_PER <- arrange(필터된_PER, PER)
순위값 칼럼 'PER랭킹' 추가
정렬된_PER <- mutate(정렬된_PER, PER랭킹 = rank(정렬된_PER$PER))
조인 (데이터 프레임 합치기)
전체_데이터 <- inner_join(정렬된_PER,정렬된_ROA,by='회사명')
이 모든 것을 파이프로 합치기
library(dplyr, warn.conflicts = FALSE)
library(readxl)
파일_경로 <- r"(엑셀파일명.xls)" # raw 문자열 r"(...)"
PER_데이터 <- read_excel(파일_경로, sheet = "PER") |>
filter(PER > 0) |>
mutate(PER랭킹 = rank(PER)) |>
arrange(PER랭킹)
ROA_데이터 <- read_excel(파일_경로, sheet = "ROA") |>
rename(ROA = 'ROA(영업이익)(%)') |>
filter(!is.na(ROA)) |>
mutate(ROA랭킹 = rank(-ROA)) |>
arrange(ROA랭킹)
전체_데이터 <- inner_join(PER_데이터,ROA_데이터,by='회사명') |>
mutate(종합_랭킹 = rank(PER랭킹 + ROA랭킹)) |>
arrange(종합_랭킹)
print(전체_데이터)
R언어 4.0부터 파이프 기호가 '%>%'에서 '|>'로 바뀌었다.
호환성을 위해서 예전 기호 '%>%'도 여전히 지원되지만, 새로운 파이프 기호 '|>'가 가독성이 더 좋아보인다.
파이썬 pandas, R언어 dplyr, Julia 데이터 프레임을 비교 검토한 후, 코드 가독성 면에서 R언어 dplyr패키지가 가장 우수하다고 생각된다.
'데이터 분석' 카테고리의 다른 글
R언어 데이터 프레임 사용법 예제 1. (0) | 2024.05.30 |
---|---|
R언어 절사 평균 mean trim (0) | 2023.06.28 |
R언어 무료 IDE (0) | 2023.06.28 |
무료 R언어 강의 영상 (0) | 2023.06.26 |
윈저화 평균 (winsorized mean) (0) | 2023.04.28 |