Search

'데이터 분석'에 해당되는 글 6건

  1. 2019.08.28 과거 기업 재무정보
  2. 2019.08.01 R언어 POSIXct 형의 변환 코드
  3. 2019.08.01 Jupyter Notebook 셀 분할/병합 단축키
  4. 2019.07.27 R용 Jupyter NoteBook 설치
  5. 2018.12.11 Tensorflow 설치
  6. 2015.10.01 R 언어 첫 인상

과거 기업 재무정보

데이터 분석 2019. 8. 28. 11:49 Posted by 정직한 UnHa Kim

매매전략의 백테스트를 위해서 과거 재무정보가 필요할 경우에

 

데이터 가공 판매 업체를 이용하면 편리하다.

 

비록, 유료이긴 하지만,

 

전자공시 사이트에 들어가서 재무정보를 수집하는 데 필요한 노력을 감안하면,

 

어느 정도 수긍이 가는 가격이다.

 

 

fnguide는 굉장히 까다로운 조건을 내걸어서 포기.

 

(fnguide 데이터는 엑셀에서만 써야 한다!?. R이나 파이썬으로 보낼 수가 없다.)

 

세종데이터에서 데이터를 구매했다.

 

https://sejongdata.co.kr/

 

세종기업데이터 - Sejong Data

기업정보 제공 서비스, 대한민국 모든 상장 기업의 20년간의 재무정보를 확인하세요.

sejongdata.co.kr

 

단점은 제공되는 데이터의 종류가 적으며(상장주식수/매출액/영업이익/순이익 단 4가지(!)),

 

특히, 영업현금흐름 데이터가 제공되지 않는다는 점은 많이 아쉽다.

 

그리고, 금융회사의 재무정보는 제공되지 않는다는 점도 유의해야 한다.

 

 

그러나, 연도별 데이터는 20년치 데이터가 제공되고,

 

분기별 데이터는 6년치가 제공되는 데다가,

 

이메일로 문의를 하면 아주 빠르게 대응을 해 줘서 일반적인 백테스트 용도로는 상당히 쓸만하다.

'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요

R언어 POSIXct 형의 변환 코드

데이터 분석 2019. 8. 1. 13:27 Posted by 정직한 UnHa Kim

R에서 시간을 나타내는 자료형 몇 가지 중 자주 사용되는 POSIXct의 경우

 

세부 정보를 추출할 때 사용되는 코드는 다음과 같다.

 

Code Meaning Code Meaning
%a Abbreviated weekday %A Full weekday
%b Abbreviated month %B Full month
%c Locale-specific date and time %d Decimal date
%H Decimal hours (24 hour) %I Decimal hours (12 hour)
%j Decimal day of the year %m Decimal month
%M Decimal minute %p Locale-specific AM/PM
%S Decimal second %U Decimal week of the year (starting on Sunday)
%w Decimal Weekday (0=Sunday) %W Decimal week of the year (starting on Monday)
%x Locale-specific Date %X Locale-specific Time
%y 2-digit year %Y 4-digit year
%z Offset from GMT %Z Time zone (character)

 

사용법

format(POSIXct값 , format='<변환코드>')

 

출처 : https://www.stat.berkeley.edu/~s133/dates.html

'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요

Jupyter Notebook 셀 분할/병합 단축키

데이터 분석 2019. 8. 1. 11:55 Posted by 정직한 UnHa Kim

셀 분할 : <Ctrl+Shift+'-'>

 

셀 병합

- 병합할 셀 다중선택 : <Shift+(화살표 위아래)>

- 선택된 셀 병합 : <Shift+M>

 

Jupyter는 1줄을 따로 실행하는 게 귀찮은 문제가 있는 반면,

RStudio는 코드 블록을 실행할 때마다 해당 코드 블록을 선택해줘야 하는 게 귀찮은 문제가 있다.

 

Jupyter로 1줄씩 별도의 셀로 분할한 후, 필요하면 병합하는 방법이 해결책이 될까??

'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요

R용 Jupyter NoteBook 설치

데이터 분석 2019. 7. 27. 09:56 Posted by 정직한 UnHa Kim

Go언어로 한참 프로그래밍 하다가

데이터 분석작업을 하기 위해서 R언어를 사용하려 할 때,

기본적인 개발환경 사용법부터 다 잊어버리고 헤매는 경우가 많아서,

R언어 개발툴인 Jupyter Notebook의 설치법을 기록해 둔다.

 

R 설치

https://www.r-project.org/

 

Rtools 설치

https://cran.r-project.org/bin/windows/Rtools/

 

Python 설치

https://www.python.org/

 

Jupyter 설치

<cmd 창에서 실행>

python -m pip install --upgrade pip

python -m pip install jupyter

 

Jupyter용 R 패키지 설치

<R 커맨드 창에서 실행>

install.packages('devtools')

devtools::install_github('IRkernel/IRkernel')

IRkernel::installspec()

 

Jupyter 노트북 실행

<cmd 창에서 실행>

jupyter notebook

홈페이지 New 버튼으로 생성가능한 Notebook 항목에 R이 있는 지 확인.

'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요

Tensorflow 설치

데이터 분석 2018. 12. 11. 17:42 Posted by 정직한 UnHa Kim

Tensorflow 및 Keras 설치는 무척 간단하다


1. 다음 URL에서 'Mcrosoft Visual C++ 2015 Redistributable Update 3'을 설치한다.
   - https://www.microsoft.com/ko-KR/download/details.aspx?id=53587


2 다음 URL에서 지원되는 Python 버전을 확인한다.
   - https://www.tensorflow.org/install/pip


3 위에서 찾은 Python 버전의 설치파일을 다음 URL에서 다운로드 받는다.
   - https://www.python.org/downloads/


4. Python 설치파일 실행.
   - Next 버튼 몇 번 누르면 된다.


5. pip 패키지 설치


   ㄱ. CPU전용

       > python -m pip install --upgrade pip   (우선 pip부터 업그레이드)
       > python -m pip install tensorflow
       > python -m pip install keras jupyter matplotlib (기타 자주 쓰는 패키지들)


   ㄴ. GPU전용 : (tensorflow 대신) tensorflow-gpu 패키지를 설치한 후
        > python -m pip install tensorflow-gpu


        GPU 지원을 위해서 아래에 나온 모듈을 추가로 설치해줘야 한다.
         - CUDA 툴킷 (지원되는 버전에 주의. https://developer.nvidia.com/cuda-zone)
         - cuDNN SDK (지원되는 버전에 주의. https://developer.nvidia.com/cudnn)


6. tensorflow 설치 확인

   > python -c "import tensorflow as tf; tf.enable_eager_execution(); print(tf.reduce_sum(tf.random_normal([1000, 1000])))"


에러 메시지가 없으면 제대로 설치된 것이다.

(GPU버전의 경우 첫 실행할 때 2분 가량 걸리므로, 응답이 없어도 당황하지 말고 잠시 기다린다.)


7. 쥬피터 노트북에서 데이터 분석 시작.

   > jupyter notebook



직접 경험한 설치 에러.
CPU에서 AVX 명령어를 지원하지 않는 경우에  'DLL 초기화 구동에 실패'했다는 오류가 발생함.
인텔 CPU 식별유틸리티에서 AVX 명령어 지원되지 않는 것이 확인된 경우에는 다음 명령어로 강제로 이전 버전(1.6 미만)을 설치한다.

> pip install 'tensorflow<1.6' (CPU 전용)
> pip install 'tensorflow-gpu<1.6' (GPU 전용)



'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요

R 언어 첫 인상

데이터 분석 2015. 10. 1. 12:37 Posted by 정직한 UnHa Kim

매매전략 수립을 위한 데이터 분석을 위해서 R언어를 선택했다.

최근 Python언어도 데이터 분석 관련 서적도 제법 나오고,

예전에 Python을 사용해 본 경험도 있기에

Python과 R 사이에서 고민을 했지만,

통계 관련 기능이 풍부하다는 점에서 R을 선택했다.


책을 읽어보면서 조금씩 따라해 보니 다음과 같은 특징이 눈에 띈다.

 

1. 무료이다.

    - https://www.r-project.org/  에 가면 무료로 다운로드 받을 수 있다.


2 스칼라 자료형이 없다.

    - 최소한 벡터이다.

    - 처음에는 무척 낯설게 느껴지고, 진입장벽으로 작용한다.

    - 익숙해지면 반복문이 확연히 줄어들고, 소스코드도 깔끔하고, 굉장히 간편하다.


3. 데이터 프레임 자료형

    -  다른 언어에서 보기 쉽지 않은 독특한 자료형인데,

          R언어에는 기본 자료형으로 포함되어 있다.

    - GUI가 빠진 엑셀 시트처럼 느껴지지만,

       스크립트 언어로 VBA 대신에 R언어를 사용하고,

       무료 기능 확장 패키지가 수천개가 있고,

       사용가능한 통계 관련 함수가 무지무지하게 많다는 점이 다르다.

    - GUI 기능까지 있었으면 엑셀은 벌써 망했지 싶다.

 

3. 그래프 작성 기능 내장.

    - 데이터 분석을 할 때, 데이터를 그래프(특히, 산점도)로 그려보면서

       변수 사이의 관계를 파악해 보는 작업(탐색)이 필수적이다.

      그래프 그리는 기능이 내장되어 있어서 이런 작업에 아주 편리하다.


4. 아주 많은 추가 기능 패키지.

    - R언어를 선택한 가장 중요한 이유

    - 통계학 관련 '무료'로 사용할 수 있는 추가 패키지가 아주 아주 많다.

    - 예를 들면, cointegration 확인에 사용되는 UnitRoot기법만 4가지가 넘게 있다.

    - 다중 선형 시계열 관련 패키지는 알고 있는 것만 3가지 이다.

        ARMA, ARIMA?? 그 정도는 기본에 속할 정도이다.

    - 시계열 분석을 위한 시간(time)자료형 패키지(zoo, xts등)이 별도로 존재한다.


5. 모든 개발도구를 기본적으로 포함하고 있다.

    - 도움말. (?<함수명>, ??<키워드>로 도움말 즉시 볼 수 있다.)

    - 외부 패키지 관리. (install.packages("패키지명")으로 추가 기능을 간편하게 설치할 수 있다.

    - 개개의 도구는 그 자체로 기능이 부족한 면이 있지만, 여러 곳을 돌아다닐 필요없이 

       R언어를 설치하는 즉시 모든 작업을 시작할 수 있다는 데 의의가 있다.

       즉, 초기 개발환경 구축의 진입장벽이 낮다.


6. 무료로 사용가능한 'Jupyter 노트북'을 사용하면 웹브라우저에서 간편하게 작업할 수 있다.

    - Jupyter 노트북은 원래 python용으로 나왔지만,

      지금은 R, Julia등 데이터 분석 언어의 공통 개발 환경으로 발전했다.


 

내가 느낀 단점


1. 인터프리터 언어답게 느리다.

    - 속도가 느리다고 알려진 Python보다도 더 느리다고 한다.

    - 그래서, 매매전략을 수립한 이후, 실제 매매에 적용할 때는

        속도가 빠른 언어로 다시 구현해야 할 필요성이 생길 수도 있다.


2. 스칼라 자료형이 없고 모든 게 최소한 벡터이고, 행렬, 데이터 프레임 같은 자료형만 있다.

   - 처음에는 무지하게 낯설다.


3. 관련 서적이 프로그래밍과 통계학이 뒤섞여 있다.

    - R이 통계학에 특화된 언어이다 보니,

      관련 서적을 읽고 있노라면 통계학 책을 읽고 있는 지,

      R언어 책을 읽고 있는 지 헷갈릴 정도이다.

   - 통계학에 익숙하지 않으면, R언어 초기 진입장벽이 높다고 느껴진다.

 

첫 인상은 상당히 괜찮다.

앞으로 사용해 보면서 더 알아가야할 듯 하다.

'데이터 분석' 카테고리의 다른 글

과거 기업 재무정보  (0) 2019.08.28
R언어 POSIXct 형의 변환 코드  (0) 2019.08.01
Jupyter Notebook 셀 분할/병합 단축키  (0) 2019.08.01
R용 Jupyter NoteBook 설치  (0) 2019.07.27
Tensorflow 설치  (0) 2018.12.11
R 언어 첫 인상  (0) 2015.10.01

댓글을 달아 주세요