본문 바로가기
DigiMiner 투자 전략/Data Innovation

[논문읽기] 비선형성 모델이 주식시장을 더 잘 예측할 수 있다.

by 가치를 만드는 지식 혁신가 2022. 4. 19.
728x90

Forecasting Stock Market Return with Nonlinearity: A Genetic Programming Approach 

by Ding, Shusheng, Tianxiang Cui, Xihan Xiong and Ruibin Bai.

 

[내용 요약]

주식 시장에서 수익률 예측 가능한지 여부는 어려운 문제이다. 논문은 이 문제를 해결하는 데 기여하기 위해 새로운 수익 예측 모델을 제시하고 있다. 기존 문헌과는 달리, 먼저 새로운 변수를 추가하지 않고도 더 나은 모델 사양을 통해 모델 예측 정확도를 향상시킬 수 있을 가능성을 확인하고 있다. 국가별 통합된 수익률 예측 모델 대신에 선진국과 신흥국은 다른 예측모델을 가질것으로 주장하고 있다. 이를 분석하기 위해서 Genetic Programming을 활용한다. 비선형성이라는 관점에서 전통적인 AR 분석모델보다 더 정확성이 높다는 점을 확인하고 있다.

[논문 속으로]

Data : 4개국 데이터 사용, WIND database with daily frequency, from January 1, 2006 to December 31 2017. 선진국국은  S&P 500 index of US and Nikkei 225 index of Japan. 신흥국 Sensex 30 index of India and CSI 300 index of China. 모델 테스트를 위해서 the sample from 2006-2011 and 2012-2017로 나눠서 학습과 테스트를 진행함. 

BM 모델은 선형모델인 AR(Autoregressive)모델을 사용, 비교분석이 비선형모델이기 때문에 AR모델을 확장한 SETAR (Self-Exciting Threshold Autoregression) model and the STAR (Smooth Transition Autoregressive) model 사용. 여기에 추가해서 수익율 예측에 많이 활용되는 선형모델인 ARMA도 BM으로 추가했다.

제안모델 개발은 GP 방식으로 변수를 선정하고, 그에 따른 모델을 선정했다. 

선진국과 신흥국모델을 설정할때 r = return값이고, r t-n은 lag값이다. 즉, 기존 수익율을 변수로 산정한 모델이기 때문에 단순하게 변수처리가 되었다고 볼수도 있다. 선진국 모델은 Nonlinear Return Forecasting Mode 1 (NRFM1), 신흥국모델은 Nonlinear Return Forecasting Mode 2(NRFM 2)로 명칭했다. 

jump-diffusion stochastic differential equationd(점프 확산 확률 미적분 방정식)을 고려해서 log-normal distribution을 계산하는데 사용한다. 

µd is the log-diffusion drift, σd is the volatility of the stock return and ln(1+J(Q)) is the log-return jump-amplitude with the a simple Poisson jump process dP(t) with jump rate λ and the process ensures that J(Q) > −1

결론은 누적수익율을 산출해보니 NRFM 1(선진국)과 NRFM 2(신흥국)전부가 다른 모델들보다 우수한 누적수익율을 보여준다. 

누적수익율(모델별)

뿐만 아니라, 거래 전략에 대한 예측 적중률은 다른 모델에 비해서 높은 수준을 유지한다. 

[WarrenPak의 생각]

주식시장에 대한 예측 연구를 진행하는 다양한 방법을 볼때마다, 시장을 접근하는 기본 전제가 중요하다는 점을 알게된다. 실제 시장데이터의 움직임이 Random Walk이라면, 그 데이터를 가지고 예측을 한다는 접근 자체가 매우 어리석을수 있다. 그 것은 확률적으로 어쩌다 맞을 정도를 예측하려는 노력에 불과하기 때문이다.

그렇다면, 주식 시장데이터는 어떨까? 기본전제는 Random Walk다. 그래서 예측이 어려운 것이다. 하지만, 특정기간에서는 Linearlity가 존재하기도 한다. 그런 선형성이 특정하게 반복되어 발생하거나, 특정 변수에 따라서 일정한 기간에는 Non-Linerlity가 존재하는 경우가 더 많은것도 사실인것으로 보인다.

본 연구는 그런점에서, 시장 데이터가 Nonlinerlity하기 때문에 그 관점에서 시장예측을 더 잘할수 있는 방법을 찾으려는 시도라는 점에서 의미있어 보인다, 특별히 GP방법론을 활용한 시도도 좋다. 최적화 기법으로 lag timing만읗 활용했다는 점에서 시장 변화의 핵심이 결국 시장 자체에서 찾아야 한다는 시도도 좋아보인다. 

GP 알고리즘 개발에 활용할 만한 아이디어를 주는 논문이다.

[Reference]

Ding, Shusheng, Tianxiang Cui, Xihan Xiong and Ruibin Bai. “Forecasting Stock Market Return with Nonlinearity: A Genetic Programming Approach”. Journal of Ambient Intelligence and Humanized Computing 11, 11 (2020 11): 4927–39. https://doi.org/10.1007/s12652-020-01762-0.

<SETAR Model>

 

SETAR (model) - Wikipedia

In statistics, Self-Exciting Threshold AutoRegressive (SETAR) models are typically applied to time series data as an extension of autoregressive models, in order to allow for higher degree of flexibility in model parameters through a regime switching behav

en.wikipedia.org

<STAR Model>

 

STAR model - Wikipedia

In statistics, Smooth Transition Autoregressive (STAR) models are typically applied to time series data as an extension of autoregressive models, in order to allow for higher degree of flexibility in model parameters through a smooth transition. Given a ti

en.wikipedia.org

<SETAR 모델 R에서 진행하기>

 

SETAR function - RDocumentation

autoregressive order for ‘low’ (mL) ‘middle’ (mM, only useful if nthresh=2) and ‘high’ (mH)regime (default values: m). Must be <=m. Alternatively, you can specify ML

www.rdocumentation.org

<정규분포와 로그정규분포>

 

정규 분포 / 중심 극한 정리 / 다변량 정규분포 / 로그정규 분포

정규분포 (Normal Distribution / Gaussian Distribution) 아래와 같은 밀도 함수를 가지는 연속확률분...

blog.naver.com

 

728x90

댓글