[논문 읽기] 기회가 왔을때 거래하라. 가격 변동 예측 방법

Trade When Opportunity Comes: Price Movement Forecasting via Locality-Aware Attention and Adaptive Refined Labeling

Liang Zeng et al (IIIS, Tsinghua University, China)

[내용 요약]

가격 변동 예측은 현재 시장 상황 및 기타 관련 정보를 바탕으로 금융 자산의 미래 추세를 예측하는 것을 목표로 한다. 최근 머신 러닝(ML) 방법이 점점 더 인기를 얻고 있으며 학계와 산업계 모두에서 가격 이동 예측에 유망한 결과를 달성했다. 대부분의 기존 ML 솔루션은 전체 훈련 데이터 세트에서 예측 문제를 분류(방향 예측) 또는 회귀(반환 예측) 문제로 공식화한다. 그러나 금융 데이터의 신호 대 잡음 비율과 확률적 특성으로 인해 좋은 거래 기회는 극히 드물다.

결과적으로, 잠재적으로 수익성이 있는 샘플을 신중하게 선택하지 않으면, 그러한 ML 방법은 실제 신호 대신 노이즈 패턴을 포착하는 경향이 있다. 위의 문제를 해결하기 위해, 우리는 새로운 프레임워크를 제안한다. LARA(Locality-Aware Attention and Adaptive Refined Labeling)는 다음과 같은 세 가지 구성 요소를 포함하고 있다. 1) Locality aware attention은 선택한 샘플에 대해 보다 정확한 분류기를 구성하기 위해 라벨 정보에 집중화를 함으로써 잠재적으로 이익이 되는 샘플을 자동으로 추출한다. 2) 적응형 정제 라벨링은 라벨을 반복적으로 정제하여 샘플의 노이즈를 완화한다. 3) 메트릭 학습 기술을 갖춘 장소 인지 집중화는 작업별 거리 메트릭을 줄이고 잠재적으로 수익성이 높은 샘플에 더 효과적인 방법으로 집중하게 만든다. 검증을 위해, ETF, 중국의 A 주식 시장, 그리고 암호화폐 시장의 세 가지 실제 금융 시장에 대한 포괄적인 실험을 실시했다. LARA는 기존 기준선 모델을 크게 능가한다. 또한 LARA는 Qlib 플랫폼에서 전통적인 시계열 분석 방법 및 일련의 머신 러닝 기반 경쟁자와 비교하여 우수한 성능을 보여주고 있다.

[논문 속으로]

투자 수익을 높이기 위해서 현상을 분석하는데 두가지 핵심적인 고려사항이 있다.
첫번째는 이익을 낼수 있는 집단을 어떻게 하면 추출할수 있을지다.
두번째는 상대적으로 노이즈(noisy)를 만드는 집단을 최소화 시키는 방법은 무엇일지이다.
그렇다면, 첫번째 고려사항을 충족시키기 위해서 LA (Locality aware-Attention, 장소 인지 집중화)방법을 사용하고,
두번째를 충족하려는 방법으로 적응형정재라벨링(RL, adaptive Refined Labeling)방법을 고려하고있다.
이 2가지를 합쳐서 LARA (Locality-Aware Attention and Adaptive Refined Labeling) 프레임워크로 정리했다.
가격 변동에 대한 확률 모형은 베르누이 분포를 활용했다.

전체 LARA구조를 보면 아래 그림과 같다. 뭔가 복잡해 보이지만, 결국은 수익이 남을만한 샘플을 찾아서 그것을 가지고 예측모델을 돌리겠다는 심플한 전략이다.

위의 내용중에 (c)를 살펴보면 특정 범위를 구분화(Localization)하는 걸 볼수 있다. 즉, 좋은 샘플을 찾기 위한 방법으로 활용되는 것이 구분화 모듈(Localization Modelue)이다. 이경우에는 거리측정을 위한 방법으로 유클리안 거리측정방법(Euclidean distance)을 사용한다. 그이후에 사용되는 구분화방법으로 k-nearest neighbors 방법을 사용하고 있다. 머신러닝을 활용해서 데이터 포인트의 거리들을 학습하는 방법은 SDML(Sparse High-Dimensional Metric Learning) 기법을 적용한다.

적응형정재라벨링을 구성하는 방법은 학습을 통해서 긍정적인 샘플들을 증가시키고, 부정적인 샘플링도 식별해서 구분해 가는 것을 반복하는 것이다.

실험을 위해서 차이나 EFT, 차이나A주식, 그리고 가상화폐 시장을 대상으로 했다. 대표적인 기존 기법들을 활용한 모델들과 성과분석을 실시해 본다. 대상ETF는 512480.SH (GTJA Allianz CSI All-share Semi-conductor Product and Equipment) 이다.

살펴보면. 전통적인 시계열 분석인 OLS나 ARIMA와 ML기법들을 활용한 경우보다. LARA 프레임워크가 월등한 성과를 보여준다.

[Warrenpak의 생각]

머신러닝과 AI를 너무 쉽게만, 혹은 너무 어렵게만 생각하는 경향이 있습니다. 퀀트투자자에게 이런 복잡한 모델을 어떻게 이해하고 적용할 수 있을까? 고민할 수도 있죠.. 실제로 일반 투자자들이 적용하기 어려운 방법은 맞습니다. 트레이딩 서버에 거의 100분 ~ 1000분의 1초로 움직이는 거래에서 수익을 창출하는 경우에 다양한 투자모델 적용이 가능하죠.

본 논문에 나와있는 기법들은 기본적으로 hyper Investing상황에서나 글로벌 관점의 대규모 퀀트 투자에서 적용되는 기법에 활용해보려는 시도중에 하나입니다. 그러니, 이런것도 있구나 생각하시면 되는거죠.

개인적으로 알고리즘을 만들고 다양한 아이디어를 구성해 보는 시스템학자 입장에서 LARA프레임워크의 접근이 매우 이해하기 쉬우면서도 효율적이라는 생각이 들었습니다. 예를 들면 특정기간에 성과를 잘 내주는 주식종목이 있다고 가정하면, 그런 종목들을 골라서 거래하고, 수익율이 좋지 않은 종목들은 걸려내면 됩니다. 그것을 구분하는 방법이 장소인지 집중화 방법이고, 정응형 정재라벨을 통해서 종목의 품질을 더 높이는 것입니다. 그렇게 되면 수익이 높아질수 있는 종목을 찾아서 그것을 일정기간동안 매매할수 있겠죠?말은 쉽지만, 구현은 생각보다 어렵긴 합니다. 실제로는 코딩과 데이터 검증이 거의 노가다이고. 매우 많은 변수들로 인해서 모델이 실패하겠지만, 그래도 접근방법은 매우 효과적인것 같습니다. 재미있는 논문입니다.

[Reference]

Zeng, Liang, Lei Wang, Hui Niu, Jian Li, Ruchen Zhang, Zhonghao Dai, Dewei Zhu와/과Ling Wang. “Trade When Opportunity Comes: Price Movement Forecasting via Locality-Aware Attention and Adaptive Refined Labeling”. ArXiv:2107.11972 [Cs, q-Fin], 2021년 7월 26일. http://arxiv.org/abs/2107.11972.

<베르누이분포>

8.2 베르누이분포와 이항분포 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

저작자표시 (새창열림)

'생각과 의견들' 카테고리의 다른 글

[논문읽기] 주식 수익율, 시장 트랜드 그리고 정보이론 (0)	2022.05.03
[논문읽기] 주식 투자 예측을 위한 진화론적 시장접근 (0)	2022.04.24
[논문읽기] 비선형성 모델이 주식시장을 더 잘 예측할 수 있다. (0)	2022.04.19
[책읽기]낯선사람 효과 - 약한 연결이 삶을 바꾼다 3.0/4.0 (0)	2017.08.14
[책읽기]기술의 충격 - 기술, 네트워크, 테크늄. 4.0/4.0 (0)	2017.05.20