今回から、この連載ではデータサイエンスやAI(人工知能)、金融工学、統計数理など、投資を行ううえで知っておくと役立つクオンツ(定量)に関するテーマを幅広く取り上げていきます。といっても、専門家向けの難しい話をするのではなく、読者の皆さんが実際の投資判断に活かしやすいよう、できるだけ数式や専門用語を避けながら解説していくつもりです。AIを投資にどのように応用できるのか、その考え方を中心に紹介していきますが、実際のAIモデルを使った株価やリターン予測も取り上げていきます。
今回はその第一歩として、業種別リターンの予測モデルを題材にします。
AIのコモディティ化が進む中で何が変わるのか
ChatGPT や Gemini など、AIはここ数年で一気に皆さんの身近な道具になりました。こうした状況は「AIのコモディティ化」と呼ばれ、かつては専門家しか扱えなかった高度な技術が、誰でも簡単に使えるインフラのような存在になってきたことを表します。
実際、皆さんも ChatGPT を使ってみると、調べものから料理のレシピ、旅行のプラン作成、写真の加工、文章の下書きまで、驚くほど手軽にこなしてくれることに気づきます。自分では思いつかなかったアイデアを提示してくれることもあり、「AIってすごいな」と感じる一方、技術のさらなる進化を思うと、鉄腕アトムやターミネーターのような世界観が頭をよぎる人もいるかもしれません。
「人がAIに使われる時代が来るのでは」といった議論も高まっています。ただし現在の主流の見方は、「AIが人間を支配するような世界は来ないが、人間の働き方や判断の仕方が『AI前提』へと変わっていく」というものです。これは哲学的な論点にもなるものです。
私自身も、これからAIの指示を参考にしながら人が作業を進める場面は確実に増えるだろうと考えています。しかし、それによって人間がAIに従属するような未来が訪れるとは思っていません。その根拠となる例として、AIの言語モデルの発展過程を見てみましょう。
もともとAI研究では、文章の係り受けや文法構造をどのように理解させるかが重要視されてきました。しかし現在主流となっているモデルは、こうした「人間のように理解させる」試みをいったん脇に置き、「次に来る単語の確率を予測する」という極めてシンプルな仕組みに徹したことで大きく進化したのです。
つまり、AIは人間のように意味を理解しているわけではなく、あくまで「 理解しているかのように見える振る舞い」をしているにすぎません。こうした性質を踏まえると、AIが人間そのものに置き換わる未来は、現時点では想像しにくいと言えるでしょう。
投資に使うAIはどう作られるのか──予測モデルの学習という仕組み
以前のChatGPT(GPT-3)は、3桁×3桁の掛け算でさえ間違えることがあり、計算には強くないと言われていました。しかし、皆さんが使える最新のGPT-5では、内部に電卓のような計算エンジンが組み込まれ、精度が飛躍的に向上しています。とはいえ、単純な計算は電卓やExcelの方が速くて確実です。
また、投資リターンのように「予測」を扱う場合は、そもそも計算問題とは異なり、どんなモデルをどのように設計するかが重要になります。予測誤差が最も小さくなるようにパラメータを選ぶという性質は、ChatGPTのような汎用AIよりも、従来から使われてきたニューラルネットをはじめとする機械学習モデルの方が適しています。
自動車の自動運転で ChatGPT を使わないのと同じように、資産リターンを予測するなら、その目的に特化したAIモデルを使うべきなのです。何でもこなせるAIは「強いAI」と呼ばれますが、株価やリターンの予測のように特定目的のために作るAIは「弱いAI」に分類されます。
では、業種リターンを予測するAIモデルはどのように作られるのでしょうか。まず必要なのは、モデルそのものを育てる「学習」のプロセスです。過去のデータを読み込み、パターンを覚えさせることで予測モデルを構築します。学習が終わったモデルに最新データを入力すると、これまでに習得した知識にもとづいて将来のリターンを予測してくれます。
どのAIモデルも、「モデルを学習して作る」→「作ったモデルを使って予測する」という二段構えになっています。普段使っている ChatGPT も例外ではなく、内部には巨大なモデルがあり、それは OpenAI が事前に膨大なデータで学習させた“完成済みモデル”です。私たちはその完成品を使って会話しているだけです。
AIモデルの基礎にあるのが「ニューラルネット」と呼ばれる仕組みで、人間の脳の神経回路をヒントに作られた計算モデルです。多数の「層」と「つながり」を通じて複雑なパターンを学習できます。過去の業種リターンや各種指標の膨大なデータの中から、「どの業種がどう動くと翌月どうなるのか」「どんな組み合わせが上昇につながりやすいのか」といった特徴を自ら見つけ出し、未来の予測に利用します。ChatGPT のような大規模AIも、業種リターン予測のような専門モデルも、この「“パターンを学び未来を推測する」というニューラルネットの仕組みの延長線上にあります。
今回のAIモデル──過去リターンのみを使って翌月を予測する仕組み
今回構築したモデルでは、過去の業種リターンだけを入力し、予測対象は翌月の業種リターンとしました。これは市場に見られるリターンリバーサルやモメンタムの特性を活かしたモデルです。たとえば「過去1ヶ月で大きく下落した業種が翌月戻りやすい」といった傾向があるなら、それを学習データで確認し、モデル化していきます。具体的には、1ヶ月、3ヶ月、6ヶ月、12ヶ月、36ヶ月、60ヶ月の6種類のリターンサイクルを入力に使いました。モデルの目的は「翌月どの業種が相対的に強いか」を予想することなので、出力データは業種ごとの順位(パーセンタイル)に加工して学習させました。入力も同じように順位化しています。
図表1で示すニューラルネットモデルを用い、学習期間は20年間の月次データ(240ヶ月サンプル)としました。これを「 過去20年間の情報だけに基づく予測モデル」として毎月作り直し、直近データを入力して翌月を予測するという方式を採用しています。
学習データ240サンプルのうち、最後の40サンプルを検証用データに回し、残り200サンプルでモデルを学習させます。学習データに過剰にフィットしすぎると、検証データで性能が落ちる過学習が起きるため、検証データでの誤差(val_loss)が改善しなくなったところで学習を打ち切る「アーリーストッピング」という仕組みも取り入れました。
予測モデルの検証結果──LSTMとLightGBMの実力
実際に毎月予測した業種の順位のうち上位5業種に等金額投資をしたパフォーマンス結果が図表3です。AIモデルの比較のために、LSTM(エルエスティーエム)とLightGBM(ライトジービーエム)という更に発展したモデルでも同様に検証を行いました。LSTMは「過去の流れを記憶しながら未来を予測できる」時系列データ向けのAIモデルです。業種循環など“時間のパターン”をつかむのが得意です。
LightGBMは、データを細かくグループ分けしながら“どんな条件のときにどうなるか”という法則を高速に見つけるAIモデルです。数学的に時系列を記憶するLSTMとは違い、入力変数から最適な判断ルールを素早く作るのが得意です。大量のデータを効率よく処理できるため、近年はスピードと精度の高さから特に注目されている手法です。
毎月この手順で予測した業種順位のうち、上位5業種に等金額投資した場合のパフォーマンスが図表3です。また、比較のために LSTM と LightGBM という発展的な手法でも同様に検証を行いました。LSTM は「過去の流れを記憶しながら将来を予測する」時系列向きのAIで、業種循環のような時間パターンの把握に強みがあります。LightGBM は、データを細かく分類しながら「どんな条件でどう動くか」というルールを高速に見つけるAIで、大量データを効率よく処理し、高い精度を短時間で出せる点が注目されています。
注2:AIモデルのパフォーマンスは、各AIモデルが予測した翌月の東証33業種のリターン(実際には%点)の上位5業種に等金額投資した場合のパフォーマンスを算出。2020年12月以降を累積している
出所:QUICK Workstation Astra Managerを用いて、マネックス証券作成
図表3の結果を見ると、ニューラルネットよりも LSTM や LightGBM の方が良好なパフォーマンスを示しており、とくにLSTMは最も安定した結果となりました。今回は過去の業種リターンを入力変数にしたモデルなので、過去の流れを記憶して未来につなげるLSTMが特に効果的に働いたと考えられます。
また図表4では、LSTMを使ったポートフォリオがTOPIXを上回ったことも確認できます。
注2:AIモデル戦略のパフォーマンスは、AIモデル(LSTM)が予測した翌月の東証33業種のリターン(実際には%点)の上位5業種に等金額投資した場合のパフォーマンスを算出。2020年12月以降を累積している
出所:QUICK Workstation Astra Managerを用いて、マネックス証券作成
最新予測にもとづく注目の5業種
最後に、最も効果的であったLSTMモデルの最新の予測にもとづく今後の日本株で注目の5業種ですが、魅力度の高い順に、空運業、卸売業、水産・農林業、その他製品、電気機器となりました。投資の参考にしてみてください。
今回紹介したモデルは、やや高性能のGPUを積んだPCにPythonとPyTorchを組み合わせて構築しました(LightGBMは lightgbm ライブラリを使用)。とはいえ、今回の規模であればCPUだけでも十分計算可能です。AIのコモディティ化が進む今、皆さんも自分でAIモデルを試してみるという選択肢は、これまでよりずっと現実的になっています。
