사이트 내 전체검색

Q&A  (Q&A)

궁금하신 점을 문의해 주세요

Colitis Model 준비 : DSS & AOM- induced Colitis

페이지 정보

작성자 Mana 댓글 0건 조회 58회 작성일 24-03-04 18:38

본문

이번 https://i-model-h0use.com 페이퍼는 예~~전에 만났었던 페이퍼인데, 이것보다는.......​​구현을 이미 해 놓고 깃헙으로 공유를 해놨다는여기로 가서 차라리 그냥 이미 구현되어있는 것을 사용하기로 했던거지근데, 코드에 오류도 있고 여러 난항이 있었는데 암튼,.. 결과는 별로였었음사실 디테일도 잘 기억나지 않는다 너무 무지성으로 돌렸었던 거니까​​근데 이제 쫌 논문도 읽어봤겠다, 구현도 좀 해봤겠다 해서 이 노무라 자산운용 사람이 1저자인 이 논문을 한 번 제대로 읽어보자 했는데​​재밌음ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ오????? 해볼만 하겠는데?????쉬운 표현에 쉬운 모델이어서 구현까지 쓱싹 쫘라라라락 하루만에 다 해버림​단, 이 페이퍼는 디테일을 너무 많이 말하지 않았음팩터 익스포져를 뭐로 정의해서 집어 넣었다든지,재무제표 데이터는 어떻게 래깅처리 했는지, 결측치는 어떻게 처리했는지...(일단 NaN값을 그냥 Network에 넣으면 계산은 당연히 안될테니까.. NaN값은 없을리 없었을거고ㅋㅋ)배치사이즈는?? 설마 배치로 돌리지 않고 한 방에 메모리에 올렸나???????????? 가능한가??? 니네 나라가 상장 종목이 더 많을텐데???학습은 어떻게 종료시켰는지.. Early stopping을 했는지.. 휴리스티클리 결정했는지.....​​​암튼 그래서 이런 부분은 알아서 그냥 대~~충 걍 2의 배수를 쓰든, 8의 배수를 쓰든 해서 대강 집어넣고,대~~~~강 하루만에 만들어서 학습시켜서 test해봤는데, BM을 아웃퍼폼하는 정도가 나왔지만, 무지막지하게 아웃퍼폼하는 것은 아니라 맘에 들진 않음.....​​​오히려 좋아 ㅎㅎㅎㅎㅎㅎㅎㅎ~~~~~~가보자고~~~Deep Factor ModelKei Nakagawa, Takumi Uchida, and Tomohisa AoshimaWe propose to represent a return model and risk model in a unified manner with deep learning, which is a representative model that can express a nonlinear relationship. Although deep learning performs quite well, it has significant disadvantages such as a lack of transparency and limitations to the ...arxiv.org​​AbstractWe propose to represent a return model and risk model in a unified manner with deep learning, which is a representative model that can express a nonlinear relationship. Although deep learning performs quite well, it has significant disadvantages such as a lack of transparency and limitations to the interpretability of the prediction. This is prone to practical problems in terms of accountability. Thus, we construct a multifactor model by using interpretable deep learning. We implement deep learning as a return model to predict stock returns with various factors. Then, we present the application of layer-wise relevance propagation (LRP) to decompose attributes of the predicted return as a risk model. By applying LRP to an individual stock or a portfolio basis, we can determine which factor contributes to prediction. We call this model a deep factor model. We then perform an empirical analysis on the Japanese stock market and show that our deep factor model has better predictive capability than the traditional linear model or other machine learning methods. In addition, we illustrate which factor contributes to prediction.저희는 비선형 관계를 표현할 수 있는 딥러닝 기법을 활용한 통합적인 방식으로 수익률 모델과 리스크 모델을 제안합니다. 딥러닝 기법이 성능은 좋지만, 투명성과 예측에 대한 해석이 어렵다는 치명적인 단점이 존재합니다. 이는 책임의 관점에서는 실질적으로 사용하기 어렵게 하기도 합니다. 따라서 저희는 해석가능한 딥러닝 기법을 사용해 멀티 팩터 모델을 구축합니다. 우선 저희는 여러 팩터를 사용해 주가 수익률을 예측하는 수익률 모델을 구축하고, layer-wise relevance propagation (LRP)라는 기법을 적용해 예측된 수익률에 대한 기여를 분해하는 모델을 리스크 모델로써 만들었습니다. LRP를 개별 주식 혹은 포트폴리오에 적용시킴으로써 어떤 팩터가 예측에 얼마나 기여했는지를 확인할 수 있습니다. 저희는 이러한 모델을 “딥 팩터 모델”이라 부릅니다. 이 모델을 사용해 일본 주식시장에 대한 실증 분석을 진행하였고, 저희 모델이 기존의 선형을 기반으로한 전통 모델과 머신러닝을 기반으로한 모델의 예측보다 얼마나 더 좋은지를 보여드리겠습니다. 아울러서 예측에 어떤 팩터가 어떻게 기여했는지도 보여드리겠습니다.​​1 IntroductionAn essential tool of quantitative portfolio management is the multifactor model. The model explains the stock returns through multiple factors. A general multifactor model in the academic finance field is sometimes used synonymously with the arbitrage pricing theory (APT) advocated by Ross [20]. The APT multifactor model includes a method of providing macroeconomic indicators a priori to explain stock returns and a method of extracting factors by factor analysis from past stock returns.퀀트 포트폴리오 운용에 있어서 본직적인 도구는 멀티팩터모델입니다. 이 모델은 여러 팩터들을 통해 주가 수익률을 설명하는 모델입니다. 학계에서 일반적인 멀티팩터 모델은 때때로 Ross가 제창한 APT 이론과 동의어로 사용되기도 합니다. APT 멀티팩터 모델은 거시경제 지표를 활용해 주가수익률을 설명하는 방법과, 과거 주가 수익률을 팩터 분석을 통해 팩터를 추출하는 방법 모두를 포괄합니다.​However, in practice, the Fama-French approach and the BARRA approach based on ICAPM [16] are widely used. The Fama-French or Barra multifactor models correspond to a method of finding stock returns using the attributes of individual companies such as investment valuation ratios represented by PER and PBR.하지만 금융 업계에서는 ICAPM을 기반으로 한 Fama-French 접근 방식과 BARRA 점근 방식이 더 널리 사용되고 있습니다. Fama-French와 Barra 멀티팩터 모델 모두 PER과 PBR과 같은 https://i-model-h0use.com 개별 기업의 밸류에이션 비율을 사용해 주가 수익률을 설명하는 모델입니다.​The Fama-French approach was introduced for the first time by Fama and French [7]. The Barra approach was introduced by Rosenberg [19] and was extended by Grinold and Kahn [10]. It is calculated through cross-section regression analysis since it assumes that stock returns are explained by common factors. In addition, there are two uses of the multifactor model. It can be employed both to enhance returns and to control risk. In the first case, if one is able to predict the likely future value of a factor, a higher return can be achieved by constructing a portfolio that tilts toward “good&quotfactors and away from “bad&quotones. In this situation, the multifactor model is called a return model or an alpha model.Fama-French 접근 방식은 Fama와 French의 연구로 도입되었습니다. BARRA 접근 방식은 Rosenberg의 연구로부터 도입되었고 Grinold과 Kahn에 의해 확장되었습니다. 이는 주가 수익률이 공통 팩터로부터 설명된다고 가정하고 있기에 횡단면 회귀분석으로 통해 주가수익률을 계산합니다. 아울러서, 멀티팩터 모델의 쓰임은 두 가지로 나뉩니다. 두 가지 방법 모두 수익률을 증진하고 리스크를 제어하는데 사용됩니다. 수익률을 증진시키고자 한다면, 향후 팩터가 어떻게 될지 예측할 수 있다면, 좋은 팩터를 많이 갖고 가도록, 그리고 안 좋은 팩터를 많이 갖고 가지 않도록 포트폴리오를 구축해 높은 수익률을 추구하게 할 수 있습니다. 이러한 경우에서 멀티 팩터 모델을 수익률 모델 혹은 알파 모델이라 부릅니다.​On the other hand, by capturing the major sources of correlation among stock returns, one can construct a well-balanced portfolio that diversifies specific risk away. This is called a risk model. There are cases where these models are confused when being discussed in the academic finance field.반면, 주가 수익률들간의 상관관계를 파악해 특정 위험을 분산해 균형잡인 포트폴리오를 구축하게끔 사용할 수도 있습니다. 이때에는 리스크 모델이라 부릅니다. 학계에서 이런거에 대해 논의할 때 두 모델의 쓰임을 혼돈하는 경우가 있습니다.​For both the return model and the risk model, the relationship between the stock returns and the factors is linear in the traditional multifactor model mentioned above. By contrast, linear multifactor models have proven to be very useful tools for portfolio analysis and investment management. The assumption of a linear relationship is quite restrictive. Considering the complexity of the financial markets, it is more appropriate to assume a nonlinear relationship between the stock returns and the factors.수익률 모델과 리스크 모델 두 가지 경우 모두, 위에서 언급된 파마프렌치든 바라모델이든, 주가 수익률과 팩터 사이의 관계는 선형입니다. 반면(?) 선형 멀티팩터 모델은 포트폴리오 분석과 투자 운용에 있어서 상당히 유용한 도구하는 것이 입증되어 왔습니다. 하지만, 선형 관계에 있다는 이 가정은 상당히 제한적입니다. 금융 시장의 복잡성을 생각해봤을 때, 주가 수익률과 팩터 사이의 관계는 비선형이라 가정하는 것이 더 적절할 것입니다.​Therefore, in this paper, we propose to represent a return model and risk model in a unified manner with deep learning, which is a representative model that can express a nonlinear relationship. Deep learning is a state-of-the-art method for solving various challenging machine learning problems [9], e.g., image classification, natural language processing, or human action recognition. Although deep learning performs quite well, it has a significant disadvantage: a lack of transparency and limitations to the interpretability of the solution. This is prone to practical problems in terms of accountability. Thus, we construct a multifactor model by using interpretable deep learning.따라서 저희 연구에서는 비선형 관계를 표현할 수 있는 대표적인 모델인 딥러닝 모델을 활용해 수익률 모델과 리스크 모델을 통합적으로 표현할 것은 제안합니다. 딥러닝 기법은 이미지 분류나 자연어 처림, 사람의 행동 인식 등과 같은 많은 어려운 문제들을 푸는데 있어서 SOTA(state-of-the-art) 방법론입니다. 딥러닝 기법을 사용하면 성능은 좋지만, 투명성과 해석에 대한 제한 등과 같은 지명적인 단점이 존재합니다. 이는 책임의 관점에서 봤을 땐 상당한 문제가 될 수 있습니다. 따라서 저희는 해석가능한 딥러닝 기법을 사용해 멀티팩터 모델을 만들었습니다.​We implement deep learning to predict stock returns with various factors as a return model. Then, we present the application of layer-wise relevance propagation (LRP [3]) to decompose attributes of the predicted return as a risk model. LRP is an inverse method that calculates the contribution of inputs to the prediction made by deep learning. LRP was originally a method for computing scores for image pixels and image regions to denote the impact of a particular image region on the prediction of a classier for a particular test image. By applying LRP to an individual stock or a quantile portfolio, we can determine which factor https://i-model-h0use.com contributes to prediction. We call the model a deep factor model.저희는 다양한 팩터를 사용해 주가수익률을 예측하는 모델을 수익률 모델로써 만들었습니다. 그리고나서 LRP라 불리는 기법을 통해 예측된 주가 수익률에 어떻게 기여했는지를 분해하는 모델을 리스크 모델로써 만들었습니다. LRP는 딥러닝이 예측한 경과에 대한 input의 기여도를 역으로 계산하는 방법입니다. LRP는 원래 test 단계에서 이미지의 특정 영역이나 픽셀이 모델의 예측에 얼마나 영향을 미쳤는지를 나타내는 스코어를 계산하기 위한 방법론입니다. 이러한 LRP를 개별 주식이나 분위수 포트폴리오에 적용하여, 어떤 팩터가 예측에 얼만큼 영향을 미쳤는지 확인할 수 있습니다. 이 일련의 과정을 통하는 모델을 저희는 ‘딥 팩터 모델’이라 칭합니다.​We then perform an empirical analysis on the Japanese stock market and show that our deep factor model has better predictive power than the traditional linear model or other machine learning methods. In addition, we illustrate which factor contributes to prediction.저희는 일본 주가 시장에 대한 실증 분석을 진행했으며, 딥 팩터 모델이 전통적인 선형모델이나 머신러닝 모델들보다 더 성능이 좋은 것을 확인했습니다. 아울러서 예측에 대해 어떤 팩터가 어떻게 영향을 미쳤는지도 서술할 수 있습니다.​​2 Related Works​Stock return predictability is one of the most important issues for investors. Hundreds of papers and factors have attempted to explain the cross section of expected returns [21,15,11]. Academic research has uncovered a large number of such factors, 314 according to Harvey et al. [11], with the majority being identified during the last 15 years.주가 수익률 예측은 투자자에 있어서 가장 중요한 것 중에 하나입니다. 수 많은 연구와 수 많은 팩터들이 기대수익률의 횡단면을 설명하기 위해 연구되어 왔습니다. 학계에서는 수 많은 팩터들을 발견해 왔으며, 이 중 대부분은 최근 15년 사이 발견되었습니다.​The most popular factors of today (Value, Size, and Momentum) have been studied for decades as part of the academic asset pricing literature and practitioner risk factor modeling research. One of the best-known efforts in this field came from Fama and French in the early 1990s. Fama and French [7] put forward a model explaining US equity market returns with three factors: the market (based on the traditional CAPM model), the size factor (large vs. small capitalization stocks), and the value factor (low vs. high book to market). The Fama-French three-factor model, which today includes Carhart's momentum factor [5], has become a canon within the finance literature. More recently, the low risk [4] and quality factors [17] have become increasingly well accepted in the academic literature. In total, five factors are studied the most widely [12].오늘날에 있어서 가장 유명한 팩터들(밸류, 사이즈, 모멘텀)은 asset pricing의 한 분야로 학계와 업계에서 수십년간 연구된 것입니다. 이 영역에 가장 큰 기여를 했다고 잘 알려진 것은 1990년대 초반 파마 프렌치의 연구일 것입니다. 파마와 프렌치는 시장팩터(기존의 CAPM 모델을 기반으로 한)와 사이즈팩터(시가총액을 기준으로 하는 대형주vs소형주), 그리고 PBR의 역수인 밸류 팩터 3개로 미국 주식시장 수익률을 설명했습니다. 이 Fama-French 3-factor 모델에 Carhart의 모멘텀 팩터를 포함한 모델이 모늘달의 거의 표준이 되는 모델로 자리를 잡았습니다. 더 최근에는 저위험팩터(low risk)와 퀄리티 팩터가 널리 적용되고 있습니다. 총 5개의 팩터가 최근에 있어서 가장 널리 사용되는 팩터라 할 수 있습니다.​Conversely, the investors themselves must decide how to process and predict returns, including the selection and weighting of such factors. One way to make investment decisions is to rely upon the use of machine learning. This is a supervised learning approach that uses multiple factors to explain stock returns as input values and future stock returns as output values. Many studies on stock return predictability using machine learning. have been reported. Cavalcante et al. [6] presented a review of the application of several machine learning methods in financial applications. In their survey, most of these were forecasts of stock market returnshowever, forecasts of individual stock returns using the neural networks dealt with in this paper were also conducted.이와 반대로 투자자들은 수익률을 처리하고 예측하는 방식을 결정해야합니다. 여기에는 어떤 팩터를 선택하고 어떻게 가중치를 매겨하는지도 포함이 되죠. 투자 의사 결정을 내리는 한가지 방법으로는 머신러닝에 의존하는 것도 가능합니다. 이는 지도학습의 방법이며, 입력 값으로 주가 수익률을 설명하는 다량의 팩터를 넣고, 미래 수익률을 출력값으로 받게하는 것입니다. 많은 연구에서도 이러한 머신러닝 기법을 사용하기도 합니다(오타가 있는데, 그냥 이런 의미로 쓴거겠지). Cavalcante et al의 연구에서는 금융의 영역에서 사용되는 몇 가지 머신러닝 기법을 리뷰했습니다. 여기 서베이에서의 대부분은 주식 시장의 수익률을 예측하는 것이었습니다만, 저희는 여기 연구에서 개별 종목의 주가 수익률을 신경망을 사용해 예측하는 것도 포함되어 있습니다.​In addition, Levin [14] discussed the use of multilayer feed forward neural networks for predicting a stock return with the https://i-model-h0use.com framework of the multifactor model. To demonstrate the effectiveness of the approach, a hedged portfolio consisting of equally capitalized long and short positions was constructed, and its historical returns were benchmarked against T-bill returns and the S&P500 index. Levin achieved persistent returns with very favorable risk characteristics.아울러서 Levin [14]의 연구에서는 멀티팩터 모델의 프레임워크 하에서 MLP를 사용해 주가 수익률을 예측하는 방법을 논하였습니다. 이 방법론의 효과를 입증하기 위해서 롱숏 포트폴리오를 구축하여, BM으로 T-bill과 S&P500을 놓고 과거 수익률을 비교했습니다. 이 연구에서의 결과는 지속적인 리스크 대비 수익률을 달성했다는 것이었습니다.​Abe and Nakayama [2] extended this model to deep learning and investigated the performance of the method in the Japanese stock market. They showed that deep neural networks generally outperform shallow neural networks, and the best networks also outperform representative machine learning models. These results indicate that deep learning has promise as a skillful machine learning method to predict stock returns in the cross section. However, these related works are only for use as a return model, and the problem is that the viewpoint as a risk model is lacking.Abe and Nakayama[2]의 연구에서는 위의 모델을 딥러닝으로 더 확장하였고, 일본 주식시장에서 투자 가능한 포트폴리오의 성과를 확인했습니다. 여기에서는 일반적으로 얕은 신경망보다 깊은 신경망이 아웃퍼폼한다는 것을 보였고, 최고성과를 비교해보았을 때 머신러닝 기법을 아웃퍼폼한다는 것을 보였습니다. 이러한 결과들은 딥러닝이 횡단면에서 주가 수익률을 예측하는데 유망한 방법이 될 수 있다는 것을 보였습니다. 하지만, 여기 관련 연구에서는 수익률 모델로써만 딥러닝을 사용했을 뿐, 리스크 모델로써의 사용의 관점은 부족하다는 것이 문제로 남아있습니다.​​​3 Methodology - Deep Factor Model3.1 Deep LearningThe fundamental machine learning problem is to find a predictor f(x) of an output Y given an input X. As a form of machine learning, deep learning trains a model on data to make predictions, but it is distinguished by passing learned features of data through different layers of abstraction. Raw data is entered at the bottom level, and the desired output is produced at the top level, which is the result of learning through many levels of transformed data. Deep learning is hierarchical in the sense that in every layer, the algorithm extracts features into factors, and a deeper level's factors become the next level's features. A deep learning architecture can be described as follows. We use l ∈ 1, … , L to index the layers from 1 to L, which are called hidden layers. The number of layers L represents the depth of our architecture. We let z(l) denote the l-th layer, and so X =z(0). The final output is the response Y , which can be numeric or categorical.머신러닝은 기본적으로 input X가 주어져있을 때, output Y를 예측해주는 함수 f(x)를 찾아내는 문제를 푸는 것입니다. 머신러닝의 한 형태인 딥러닝은 예측을 하기 위해 데이터를 갖고 모델을 학습시키는데, 학습할 데이터의 특징을 여러 단계의 추상화 계층을 거쳐 전달한다는 점에서 구별됩니다. 최초의 데이터가 입력되었을 때, 초기 단계에서부터 하위 단계까지 전달되어 마지막엔 output을 내뱉는 구조이며, 단계를 거쳐가며 데이터가 변형되어가며 여기에서 여러 특징을 학습합니다. 딥러닝은 모든 레이어 마다에서 알고리즘이 feature에서 factor를 추출하고, 추출된 feature를 다음 레이어에 넘겨 여기에서 factor를 추출하는 것을 반복합니다. 딥러닝 아키텍쳐는 다음과 같이 서술할 수 있습니다. 1부터 L까지의 레이어를 거치는데, 이것은 은닉층(hidden layer)라 부릅니다. 레이어의 갯수 L은 아키텍쳐의 깊이를 나타냅니다. 그리고 z(l)은 l번째 레이터를 나타낸다고 합니다. 그러면, X=z(0)입니다. 그리고 최종적인 output은 Y에 해당하며, Y는 수치적인 값일 수도 있고, 카테고리를 나타내는 것일 수도 있습니다.​The explicit structure of a deep prediction rule is then명시적으로는 이런식으로 나타낼 수 있습니다.Here, W(l) are weight matrices, and b(l) are the threshold or activation levels. z(l) are hidden features that the algorithm extracts. Designing a good predictor depends crucially on the choice of univariate activation functions f(l). Commonly used activation functions are sigmoidal(e.g., sigmoid(x), cosh(x), or tanh(x) or rectified linear units (ReLU))여기에서 W(l)은 가중치 행렬을 나타내고 b(l)은 threshold 혹은 activation level을 나타냅니다. z(l)은 l번째 층에서 알고리즘이 추출한 feature입니다. 좋은 예측 머신을 만드는 것을 univatiate 활성화 함수 f(l)을 어떻게 정하느냐에 결정되어 있습니다. 보통은 signmoidal 형태의 함수를 활성화함수로 사용합니다(시그모이드함수나, 하이퍼볼릭 삼각함수 혹은 ReLU등이 해당합니다).​​3.2 Layer-Wise Relevance PropagationLRP is an inverse method that calculates the contribution of the prediction made by the network. The overall idea of decomposition is explained in [3]. Here, we briefly reiterate some basic concepts of LRP with a toy example (Fig. 1). Given input data x, a predicted value f(x) is returned by the model denoted as function https://i-model-h0use.com f. Suppose the network has L layers, each of which is treated as a vector with dimensionality V(l), where l represents the index of layers. Then, according to the conservation principle, LRP aims to find a relevance score Rd for each vector element in layer l such that the following equation holds:LRP는 네크워트로 부터 만들어진 예측에 대해 각각의 기여를 역으로 계산하는 방법을 말합니다. 전반적인 분해의 아이디어는 [3]에서 설명되어 있습니다. 여기에서는 간략한 예시인 그림1의 자료로 LRP의 기본 개념만을 살펴보겠습니다. 주어진 입력 데이터 x가 있고, 모델(함수 f)로부터 예측된 값 f(x)가 주어져 있습니다. 신경망의 레이터는 L개 있었다고 하고, 각각의 레이어는 V(l)로 나타낼 수 있다고 해봅시다. 여기서 l은 레이어의 번호를 말하는 것입니다. 그러면, conservation principle에 의해, LRP는 레이어에서 각각의 벡터의 원소가 다음의 방정식이 유지되도록하는 relavance score인 R_d를 찾는 것을 목표로 합니다.As we can see in the above formula (4), LRP uses the prediction score as the sum of relevance scores for the last layer of the network, and maintains this sum throughout all layers.위의 식(4)에서 볼 수 있듯이 LRP는 마지막 레이어의 releavance score의 합으로 하고, 모든 레이어에서 합이 유지되도록 합니다.Fig. 1 shows a simple network with six neurons. wij are weights, zi are outputs from activation, and R(l)_i are relevance scores to be calculated. Then, we have the following equation:그림1을 보시면, 여섯개의 뉴런으로 이루어진 간단한 네트워크를 볼 수 있습니다. w_ij는 가중치이고, z_i는 activation function을 통과한 후 나온 값입니다. R(l)_i는 계산되어야 할 relevance score를 의미합니다. 그럼 아래와 같은 식을 만들 수 있습니다.Furthermore, the conservation principle also guarantees that the inflow of relevance scores to one neuron equals the outflow of relevance scores from the same neuron. z(l,l+1)_ij is the message sent from neuron j at layer l+1 to neuron i at layer l. In addition, R(l)_d is computed using network weights according to the equation below:또한, conservation principle으로 인해 한 뉴런으로 입력된 relevance score는 출력된 relevance score와 같아야 합니다. z(l, l+1)_ij는 l+1의 j뉴런으로부터 l레이터의 i의 뉴런으로 보낸 값입니다. 또한, R(l)_d는 아래의 식에서와 같이 가중치를 사용해 계산되는 값입니다.Therefore, LRP is a technique for determining which features in a particular input vector contribute most strongly to a neural network's output.따라서, LRP는 특정 input 벡터에서의 어떤 feature가 신경망의 출력에 가장 강하게 영향 미치는지를 파악하는 것입니다.​​​​3.3 Deep Factor ModelIn this paper, we propose to represent a return model and risk model in a unified manner with deep learning, which is a representative model that can express a nonlinear relationship. We call the model a deep factor model. First, we formulate a nonlinear multifactor model with deep learning as a return model.이번 연구에서는 비선형 관계를 표현할 수 있는 대표적인 모델인 딥러닝을 통해 수익률 모델과 리스크 모델을 통합적으로 표현할 수 있는 방법을 제안합니다. 이 모델을 저흰 딥 팩터 모델이라 부릅니다. 첫 번째로 수익률 모델로써의 딥러닝을 활용한 비선형 팩터 모델에 대한 식을 써보겠습니다.​The traditional fundamental multifactor model assumes that the stock return ri can be described by a linear model:전통적인 펀더멘털 팩터 모델에서는 주가수익률 r_i가 다음과 같은 선형 모델로 표현될 수 있다고 가정합니다.​where Fi are a set of factor values for stock i, Xin denotes the exposure to factor n, i is an intercept term that is assumed to be equal to a risk-free rate of return under the APT framework, and i is a random term with mean zero and is assumed to be uncorrelated across other stock returns. Usually, the factor exposure Xin is defined by the linearity of several descriptors.여기서 주식i에 대한 F_i들은 팩터 값들의 set이며, X_in은 팩터 익스포져를, α_i는 APT 프레임워크 하에선 무위험 수익률과 같다고 가정합니다. 그리고 ε_i는 평균이 0이고, 다른 주식 수익률과 상관적이지 않은 랜덤항으로 간주합니다. 보통은 팩터 익스포져 X_in은 여러 설명변수의 선형성으로 정의합니다.​While linear multifactor factor models have proven to be very effective tools for portfolio analysis and investment management, the assumption of a linear relationship is quite restrictive. Specifically, the use of linear models assumes that each factor affects the return independently. Hence, they ignore the possible interaction between different factors. Furthermore, with a linear model, the expected return of a security can grow without bound as its exposure to a factor increases.선형 멀티팩터 모델은 포트폴리오 분석과 운용 관리에 있어서 효율적인 도구라는것이 밝혀져 왔지만, 선형이란 관계를 가정하는 것은 상당히 제한적입니다. 특히, 각각의 팩터가 수익률에 독립적이라는 것이 이에 해당합니다. 즉, 서로 다른 팩터간의 상호작용이 있을 수 있는데 그것을 무시하는 꼴입니다. 더군다나, https://i-model-h0use.com 선형모델은 팩터 익스포져가 크면 클수록 유가증권의 기대수익률은 상한선 없이 그냥 무한히 커진다는 구조를 갖기도 합니다.​Considering the complexity of the financial markets, it is more appropriate to assume a nonlinear relationship between the stock returns and the factors. Generalizing (7), maintaining the basic premise that the state of the world can be described by a vector of factor values and that the expected stock return is determined through its coordinates in this factor world leads to the nonlinear model:금융 시장의 복잡성을 생각해보았을 때, 주가수익률과 팩터 사이의 관계를 비선형이란 것을 가정하는게 더 적절합니다. 팩터 밸류 값이 세상을 설명할 수 있다는 가정과 기대수익률은 이 팩터값에 의해 결정된다는 가정을 유지하되, 식(7)을 일반화 하면 비선형 모델을 도출할 수 있습니다.where tilde\{f} is a nonlinear function.​여기서 틸다f는 비선형 함수입니다.​The prediction task for the nonlinear model (8) is substantially more complex than that in the linear case since it requires both the estimation of future factor values as well as a determination of the unknown function tilde{f}. As in a previous study[14], the task can be somewhat simplified if factor estimates are replaced with their historical means Fn. Since the factor values are no longer variables, they are constants. For the nonlinear model (8), the expression can be transformed as follows:비선형 모델(8)로의 예측하는 작업은 미리 팩터 값을 추정하는 것은 물론이고, known함수인 tilde{f}또한 결정해야하기 때문에 선형 모델로 하는 것보다 더 복잡한 작업입니다. 선행 연구[14]에서와 같이 팩터 추정치를 과거 평균으로 대체하는 식으로하면 어느정도 간단화할 수는 있습니다. 이렇게되면 팩터 값을 더이상 변수가 아닌 상수항이 되기 때문입니다. 그럼 비선형모델(8)의 표현은 다음과 같이 표현할 수 있습니다.​where Xin is now the security's factor exposure at the beginning of the period over which we wish to predict. To estimate the unknown function f, a family of models needs to be selected, from which a model is to be identified. In the following, we propose modeling the relationship between factor exposures and future stock returns using a class of deep learning.X_i_n은 예측하고자하는 기간의 맨 첫째날 관측된 유가증권의 팩터 익스포져입니다. 이제 unknown 함수 f를 추정하기 위해 모델군을 선택하고, 이중에서 한 가지를 골라내야 합니다. 이 다음에서는 딥러닝을 이용해 주가수익률과 팩터 익스포져 사이의 관계를 모델링하는 것을 제안하도록 하겠습니다.​However, deep learning has significant disadvantages such as a lack of transparency and limitations to the interpretability of the solution. This is prone to practical problems in terms of accountability. Then, we present the application of LRP to decompose attributes of the predicted return as a risk model. By applying LRP to an individual stock or a quantile portfolio, we can determine which factor contributes to prediction. If you want to show the basis of the prediction for a stock return, you can calculate LRP using the inputs and outputs of the stock. In addition, in order to obtain the basis of prediction for a portfolio, calculate LRPs of the stocks included in that portfolio and take their average. Then, by aggregating the factors, you can see which factor contributed to the prediction. Fig. 2 shows an overall diagram of the deep factor model.딥러닝은 투명성의 부족과 해석하는데에 한계가 있다는 등의 치명적인 단점이 존재하긴 합니다. 따라서 저희는 LRP를 이용해 예측된 수익률에 어떻게 기여했는지를 파악하는 리스크 모델을 제시했었습니다. 개별 종목이나 분위수 포트폴리오에 LRP를 적용함으로써, 어떤 팩터가 얼만큼 예측에 기여했는지를 파악할 수 있습니다. 주가 수익률에 예측에 대한 근거를 보여주고 싶다면, LRP를 사용해 계산하면 되죠. 또한, 포트폴리오 예측의 근거를 계산하고자 한다면, 포트폴리오에 담겨있는 주식에 LRP를 계산하고 이를 평균내면 됩니다. 그런 다음 팩터를 합산하면 어떤 팩터가 예측에 기여했는지를 확인할 수 있습니다. 그림2는 딥 팩터 모델 전반을 그림으로 표현했습니다.​​​​4 Experiment on Japanese Stock Markets4.1 DataWe prepare a dataset for TOPIX index constituents. TOPIX is a well-accepted stock market index for the Tokyo Stock Exchange (TSE) in Japan, tracking all domestic companies of the exchange's First Section. It is calculated and published by the TSE. As of March 2016, the index is composed of 1,948 constituents. The index is also often used as a benchmark for overseas institutional investors who are investing in Japanese stocks.저희는 TOPIX 지수에 포함된 종목에 대한 데이터를 이용합니다. TOPIX는 일본 도쿄거래소(TSE)의 잘 알려진 주식 시장 지수이며, 거래소의 First Section에 해당하는 기업이 여기에 해당합니다. TOPIX는 TSE에서 계산하고 공표합니다. 2016년 3월 현재 지수에는 1948개의 종목이 포함되어 있습니다. 이 지수는 일본 주식에 투자하는 투자자들에게 종종 벤치마크로 사용되곤 합니다.​We use the 5 factors and https://i-model-h0use.com 17 factor exposures listed in Table 1. These are used relatively often in practice and are studied the most widely in academia [12].저희는 표1에 나열된 5개의 팩터와 17개의 팩터 익스포져를 사용했습니다. 이것들은 실무적으로도 사용되는 것이며, 학계에서도 널리 연구되어온 것들이기도 합니다.​In calculating these factors, we acquire necessary data from the Nikkei Portfolio Master and Bloomberg. Factor exposures are calculated on a monthly basis (at the end of month) from December 1990 to March 2016 as input data. Stock returns with dividends are acquired on a monthly basis (at the end of month) as output data.이 팩터들을 계산하기 위해 필요한 데이터를 Nikkei Portfolio Master와 블벅을 사용해 받아왔습니다. 팩터 익스포져는 각 월말마다 계산했으며 1990월 12월부터 2016년 3월까지의 데이터를 input으로 했습니다. 그리고 배당을 포함한 주가 수익률(Total Return)을 output으로 사용했습니다.​​4.2 ModelOur problem is to find a predictor f(x) of an output Y, next month's stock returns given an input X, and various factors. One set of training data is shown in Table 3. In addition to the proposed deep factor model, we use a linear regression model as a baseline, and support vector regression(SVR) and random forest as comparison methods. The deep factor model is implemented with TensorFlow [1], and the comparison methods are implemented with scikit-learn [18]. Table 2 lists the details of each model.Y를 뱉는 함수 f(x)를 찾아내는데에 문제는 여러 팩터를 input X값으로 주어 다음달의 주가 수익률을 예측하는 문제입니다. 표3에는 저희의 학습데이터를 나타내었습니다. 제안하는 딥 팩터 모델과 함떼, 저희는 baseline으로 선형 회귀 모델과 SVR, 그리고 랜덤 포레스트를 두어 함께 비교했습니다. 딥 팩터 모델은 텐서플로우로 구현했으며, 비교하는데 방법론은 scikit-learn에 구현되어있는 방법을 사용했습니다. 표2에는 각 모델의 세부사항을 나타내었습니다.We train all models by using the latest 60 sets of training data from the past 5 years. The models are updated by sliding one month ahead and carrying out a monthly forecast. The prediction period is 10 years, from April 2006 to March 2016 (120 months). In order to verify the effectiveness of each method, we compare the prediction accuracy of these models and the profitability of the quintile portfolio. We construct a long/short portfolio strategy for a net-zero investment to buy top stocks and to sell bottom stocks with equal weighting in quintile portfolios. For the quintile portfolio performance, we calculate the annualized average return, risk, and Sharpe ratio. In addition, we calculate the average mean absolute error (MAE) and root mean squared error (RMSE) for the prediction period as the prediction accuracy.모든 모델은 저희는 과거 5년 동안의 데이터중 최신의 60 세트를 사용해 학습됩니다. 모델들은 한달씩 업데이트가 진행되며 월별 예측을 계속해서 진행합니다. 예측 기간은 2006년 4월부터 2016년 3월까지 총 10년(120개월)입니다. 각 모델의 효율성을 입증하기 위해 모델들의 예측 정확도와 분위수 포트폴리오의 수익성을 비교했습니다. 저희는 상위 분위수 포트폴리오에 롱 포지션 취하고, 하위 분위수 포트폴리오에 숏 포지션을 취하는 동일가능 포트폴리오를 구축했습니다. 분위수 포트폴리오의 성과의 경우 수익률과 리스크, 샤프비율을 모두 연율화 하여 계산했습니다. 또한, MAE와 RMSE를 계산함으로써 예측 정확도를 표현했습니다.​​​​4.3 ResultsTable 4 lists the average MAE and RMSE of all years and the annualized return, volatility, and Sharpe ratio for each method. In the rows of the table, the best number appears in bold. Deep factor model 1 (shallow) has the best prediction accuracy in terms of MAE and RMSE as in the previous study [14,2]. On the other hand, deep factor model 2 (deep) is the most profitable in terms of the Sharpe Ratio. The shallow model is superior in accuracy, while the deep one is more profitable. In any case, we find that both models 1 and 2 exceed the baseline linear model, SVR, and random forest in terms of accuracy and profitability. These facts imply that the relationship between the stock returns in the financial market and the factor is nonlinear, rather than linear. In addition, a model that can capture such a nonlinear relationship is thought to be superior.표4에는 모든 연도마다 각 모델의 MAE와 RMSE를 평균을 취한 값을 나타내었고, 연율화 수익률/변동성/샤프비율을 나타내었습니다. 표의 행마다 가장 최고의 수치를 가진 값에 굵은글씨체 표시를 해두었습니다. 얕은 버젼의 딥팩터모델1은 선행연구[14,2]에서와 마찬가지로 MAE와 RMSE 기준으로 최고의 예측 정확도를 갖습니다. 반면 깊은 버젼의 딥팩터모델2는 샤프비율의 관점으로 보았을 때 최고의 수익성을 가졌습니다. 얕은 모델은 정확도에 있어서 우월하고, 깊은 버젼의 모델은 수익성에 있어서 우월했습니다. 어떤 경우에서라도 두 모델 모두 baseline모델이었던 SVR, 랜덤 포레스트 보다 정확도와 수익성 측면에서 우월했습니다. 이러한 https://i-model-h0use.com 사실이 의미하는 것은 주가 수익률과 팩터 사이의 관계는 선형이라기 보다는 비선형이란 것을 의미합니다. 또한, 이러한 비선형 관계를 잡아낼 수 있는 모델이 더 우수할 것입니다.​​​4.4 InterpretationHere, we try to interpret the stock of the highest predicted stock return and the top quintile portfolio based on the factor using deep factor model 2 as of the last time point of February 2016.여기에서는 2016년 2월 마지막 시점으로 기준으로 하여 딥팩터모델2에 의해 가장 높은 예측 수익률을 갖는 상위 5%의 주식 포트폴리오를 분석해보고자 합니다.​Fig. 3 shows which factor contributed to the prediction in percentages using LRP. The contributions of each descriptor calculated by LRP are summed for each factor and are displayed as a percentile. We observe that the quality and value factors account for more than half of the contribution to both the stock return and quintile portfolio. In general, the momentum factor is not very effective, but the value factor is effective in the Japanese stock markets [8]. On the other hand, there is a significant trend in Japan to evaluate companies that will increase ROE over the long term because of the appearance of the Corporate Governance Code5. In response to this trend, the quality factor including ROE is gaining attention. Moreover, the contribution of the size factor is small, and it turns out that there is a widely profitable opportunity regardless of whether the stock is large or small.그림3에는 LRP를 사용해 팩터들 마다의 예측에 기여한 만큼을 퍼센티지로 나타내었습니다. 각 세부 팩터마다의 기여는 LRP를 통해 각 팩터별로 합산되었고, 퍼센티지로 표현한 것입니다. 저희가 관특한 바로는 퀄리티와 밸류 팩터가 주가 수익률과 포트폴리오 수익률 예측 모두에 절반 이상을 설명합니다. 일반적으로 일본 주식시장에서는 모멘텀 팩터가 매우 효율적이지 않고, 밸류 팩터가 효율적이라고 알려져 있습니다[8]. 반면 일본에는 Corporate Governance Code[5]의 등장으로 인해 장기적으로 ROE를 증가시키려는 기업의 경향성이 두드러지게 나타나고 있는데, 이러한 경향에 일치하는 ROE를 포함한 퀄리티 팩터가 주목을 받고 있다 볼 수 있습니다. 게다가 사이즈 팩터의 기여자 작다는 사실이 기업의 크기가 크든 작든 수익을 볼 수 있는 기회가 널리 분포하여있다는 것을 볼 수 있습니다.​[5] The Corporate Governance Code is designed to encourage companies to set ROE targets, increase the number of external directors, and unwind cross-shareholdings. This went live on 1st June 2015. Before years end, each listed company will publish a corporate governance document outlining its policy, which will become an annual publication going forward.Corporate Governance Code는 목표 ROE를 설정하고, 사외이사 수를 증가시키며, 교차 보유를 완화하는 등의 거버넌스를 증진시키고자 제정되었습니다. 2015년 6월 1일에 시행된 이것은 연말이 되기 전 상장된 기업들은 모두 정책을 요약한 기업 거버넌스에 대해 발표할 예정이며, 향후적으로는 연간 단위로 공시될 것입니다.Next, we quantitatively verify the risk model by LRP. Table 5 shows the correlation coefficients between each factor and the predicted return in the top quintile portfolio. The correlation coefficients are calculated by averaging the correlation coefficients between each descriptor and the predicted return by each factor. The influence of the value and size factor differs when looking at LRP and correlation. The value factor has a large contribution to LRP and a small contribution to the correlation coefficients. The size factor has the opposite contributions. Therefore, without LRP, we could misinterpret the return factors.다음으로 LRP를 통해 리스크 모델을 정량적으로 검정해보고자 합니다. 표5에는 각 팩터와 상위 분위수 포트폴리오의 예측된 수익률 사이의 상관관계를 나타내었습니다. 여기서 상관계수는 팩터와 각 팩터로부터 예측된 수익률 사이의 상관계수를 평균하여 계산했습니다. LRP와 상관계수를 보았을 때, 밸류와 사이즈 팩터의 영향이 다르다는 것을 볼 수 있습니다. 밸류 팩터는 LRP에 큰 기여를 갖고, 상관계수에는 작은 기여를 갖는 반면, 사이즈팩터는 반대되는 기여를 보입니다. 따라서, LRP 없으면 수익률에 대한 팩터를 잘못 해석하는 일이 발생할 수도 있습니다.​5 ConclusionWe presented a method by which deep-learning-based models can be used for stock selection and risk decomposition. Our conclusions are as follows:The deep factor model outperforms the linear model. This implies that the relationship between the stock returns in the financial market and the factors is nonlinear, rather than linear. The deep factor model also outperforms other machine learning methods including SVR and random forest.The shallow model is superior in accuracy, while the deep model is more profitable.Using LRP, it is possible to intuitively determine which factor contributed to prediction.For further study, we would like to expand our deep factor model to a model that exhibits dynamic temporal behavior for a time sequence such as RNN.별거 https://i-model-h0use.com 없는데?ㅋ

댓글목록

등록된 댓글이 없습니다.