金融データサイエンスが一般的なMLと違う7つのこと

私はこの分野に長く勤めてきたベテランではありません。製造業のエンジニアから金融業界に移り、今は与信審査まわりのデータサイエンティストとして働いているくらいです。なのでこの記事も「これが正解です」というより、この分野に移り私自身が迷ったこと、「あれ、本のとおりにやったのに、なぜか何度も外れる」と感じたことを整理したもの、と受け取っていただければうれしいです。

おもしろいのは、それが私だけの話ではなかったことです。一般的な ML のモデル構築から評価まで一通りこなせる人でも、与信審査に移ると同じように一度はつまずきます。評価指標は良いのに本番では性能を出せず、精度は99%なのに誰も喜ばず、性能を0.01上げたのにリスク部署がリリースを止める…

これは実力の問題というより、金融（特に与信審査）が「ML を金融データに当てはめる仕事」ではなく、少しルールの違う分野だからです。そして、この連載でこれから扱うほとんど、つまり reject inference、因果推論、キャリブレーション、検証、公平性などは、結局このルールに基づいています。

1. 選択バイアスがデフォルトです

私たちが持つ学習データには、実は大きな穴があります。承認した顧客に対しての返済結果しか見えない、というところです。否決した顧客が実際に返したのか、貸し倒れたのかは永遠にわかりません。その方々には、そもそもカードが発行されていないからです。

一般的な ML は普通「データが母集団を代表する」と仮定します。ところが与信審査では、この仮定が最初から崩れています。学習データは過去にすでに承認された顧客なのに、モデルが判断すべき相手はまだ承認されていない申込者全体です。両者は別の母集団です。

このひとつが、思った以上に多くの問題を引き起こします。「否決した顧客」の否決後のデータがないので、モデルは自分が否決した領域を学べず、過去の審査ポリシーのバイアスをそのまま受け継ぎます。だからこの分野では、reject inference（拒絶推論）と因果推論が、特別な技法ではなく基本になります。（この2つは後で一編ずつ、詳しく扱います。）

2. 時間は一方向に流れ、モデルは老化します

データをランダムにシャッフルして K-fold を回したなら、実は少し未来を覗き見たことになります。検証データに過去と未来のデータが混在するからです。

与信データは時間に沿って流れます。2024年の入会者データで学習したモデルが2026年の顧客を評価します。その間に景気も変わり、金利も上がり、顧客の行動も商品も変わります。分布が*移動（drift）*するわけです。ランダムな K-fold は過去と未来を混ぜてしまい、本番では決して使えない情報を、こっそり検証に混ぜ込みます。

なので、金融の基本的な検証は OOT（out-of-time）、つまり学習より未来の期間で評価する方法です。リリース後は、分布がどれだけ動いたか、時間が経つにつれて顧客がどう変わるかを、ずっとモニタリングし続けなければなりません。モデルはリリースした瞬間から老化が始まります。

3. 「誰がより危険か」では足りず、「正確に何%か」が要ります

一般的な分類問題は、たいてい順位さえ合っていれば十分です。誰がより危険かをきれいに並べられればよく、AUC がその力を測ります。

でも与信はそこで止まれません。**絶対確率、つまりキャリブレーションされた PD（calibrated PD）**が必要です。「この顧客の貸し倒れ確率は正確に3.2%」という数字があってはじめて、価格をつけ（risk-based pricing）、引当金を積み（provisioning）、期待損失を計算できます。順位だけでは何もできません。

なので与信では、こんなことが地味によく起きます。AUC は素晴らしいのに PD は間違っているモデルです。判別力（discrimination）とキャリブレーション（calibration）は別の軸なので、両方を見ないといけません。（キャリブレーションだけを扱う回を別に用意しました。意外とこれが欠けていることが多いです。）

4. コストは非対称で、ずっと遅れて届いて、金額単位です

精度（accuracy）はすべての誤りを同じように数えます。ところが与信では、誤りの重さはまったく同じではありません。

優良顧客を1人承認して得られるお金はマージン（数千円）、貸し倒れ1件のコストは LGD × EAD（数十万円）です。片方が数十倍重いのです。なので私たちが最適化すべきは精度ではなく、期待収益と期待損失です。

期待収益 = (1 − PD) × マージン − PD × LGD × EAD

しかも答えがずっとあとに届きます。今日承認した顧客が貸し倒れたかどうかは、12〜24か月後にようやく確定します。ラベルがこれほど遅れて来るというのは、速いフィードバックに慣れた ML 的な思考とかなり反します。結果を知らないまま、決定を積み重ね続けないといけないからです。

5. 安定性が限界性能に勝ちます

ML コンペなら AUC を0.001でも向上させるのが最優先です。Kaggle のようなコンペのように。でも現場の与信モデルでは、それが損になることが多いです。

性能をもう一滴得ようとして不安定になったモデルは、運用ではすぐにコストになります。入力が少し揺れただけでスコアがぶれ、再現できず、「所得が高いほどスコアが下がる」という変な区間が生じるモデルのことです。**運用の安定性、再現性、単調性（monotonicity）**が、小数点の性能よりも大事なことがよくあります。ロジスティック回帰が GBM の時代でもスコアリングの標準として生き残ってきたのには、こういう理由もあります。

6. 解釈可能性は選択ではなく義務です

他の分野では「なぜこの予測結果になったのか」を説明できれば嬉しいボーナスです。でも与信では、それがないと違法だったり、リリースできなかったりすることが多いです。

否決理由の通知（adverse action / 否決理由）、監督当局への説明、社内ガバナンス、すべて「なぜこのスコアなのか」の説明を求められます。だからブラックボックスはかっこいいものではなく、それ自体がリスクです。現場で WOE やスコアカードのように理由が自然に解釈できる構造を好み、ブースティングを使うときも SHAP で理由を取り出す仕組みを一緒に仕込んでおくのは、こういう理由です。

7. 規制・ガバナンスのオーバーヘッドが常に下に敷かれています

最後に、モデルは自由にリリースできません。

モデルを作り終えたら終わり、ではありません。モデルリスク管理（MRM）、独立した検証、文書化、監査証跡が開発プロセスの一部です。開発者と検証者が分離され、新しいモデルは普通 shadow mode でしばらく並行観察したあとで、ようやく実際の意思決定に入ります。「いいモデルを早くリリースしよう」というスタートアップ的な直感は、ここではあまり通用しません。遅いのには理由があります。モデルひとつが引当金や資本の計算にまで流れていくからです。

（日本で働いていると、これがいっそう肌で感じられます。カードの発行・限度額に割賦販売法の「支払可能見込額」の算定義務がかかっていて、モデルがそのまま法的な根拠になるからです。この話は規制の回で別に扱います。）

これは AI が全部やってくれるのでは

最近、こんな質問をよく受けます。生成 AI やAIエージェントがこれだけのスピードで進化しているのに、こういうモデリングの知識をわざわざ学ぶ必要があるのか、という質問です。正直な答えは、むしろもっと必要になる、という方です（少なくとも今のところは）。

ここまで見た7つのルールは、特定のアルゴリズムなどではなく、この分野の問題の構造です。観測されない反事実、時間に沿って流れるデータ、非対称なコスト、絶対確率、安定性、説明義務、規制。ここに LLM を持ち込んでも、こうした問題は解消できません。むしろ、そういう問題があると知っている人がいてはじめて、自動でつくられたモデルが自信満々に間違えるのを防げます。

特に6番と7番が核心です。否決理由を説明しなければならず、モデルを独立して検証しなければならず、その結果が引当金や資本計算の根拠になります。ブラックボックスモデルは、これらの要件で構造的に行き詰まります。だから生成 AI が与信審査をまるごと持っていくことはできず、代わりに「なぜ説明可能でなければならず、どう検証するのか」を知っている人が、その AI が出した結果を判定する立場に残ります。

もちろん変わることもあります。繰り返しになるコードの記述や基礎的な分析は、だんだん AI の役割になっていきます。だから実務の重心は、手でモデルを組む力から、問題を正しく立て、検証し、監理する判断力へと移っていきます。この連載が扱おうとしているのは、まさにその後者です。

だから、この分野の実力とは

7つを一行でまとめると、こうなります。

金融データサイエンスは「予測精度の競争」ではなく、観測されない反事実（counterfactual）を、時間が流れコストが非対称な環境で、説明可能かつ安定して推定する仕事です。

評価指標とスコアカードは、入場券のようなものです。本当の実力差は、選択バイアス、因果、検証、ガバナンスで分かれていきます。

この連載では、この7つをひとつずつゆっくり掘っていきます。reject inference はどう解くのか、キャリブレーションはなぜ皆つまずくのか、因果推論がなぜ審査の核心なのか、検証はどうすれば本番で生き残るのか。次回から一緒に見て行きましょう。