基礎 公開 2026年6月15日

金融データサイエンスが一般的なMLと違う7つのこと

一般的な ML のモデル構築から評価まで一通りこなせる人でも、与信審査では一度はつまずきます。実力ではなく、ルールが違う分野だからです。選択バイアスから規制まで、金融データサイエンスが一般的なMLと構造的に違う7つを整理しました。

私はこの分野に長く勤めてきたベテランではありません。製造業のエンジニアから金融業界に移り、今は与信審査まわりのデータサイエンティストとして働いているくらいです。なのでこの記事も「これが正解です」というより、この分野に移り私自身が迷ったこと、「あれ、本のとおりにやったのに、なぜか何度も外れる」と感じたことを整理したもの、と受け取っていただければうれしいです。

おもしろいのは、それが私だけの話ではなかったことです。一般的な ML のモデル構築から評価まで一通りこなせる人でも、与信審査に移ると同じように一度はつまずきます。評価指標は良いのに本番では性能を出せず、精度は99%なのに誰も喜ばず、性能を0.01上げたのにリスク部署がリリースを止める…

これは実力の問題というより、金融(特に与信審査)が「ML を金融データに当てはめる仕事」ではなく、少しルールの違う分野だからです。そして、この連載でこれから扱うほとんど、つまり reject inference、因果推論、キャリブレーション、検証、公平性などは、結局このルールに基づいています。

1. 選択バイアスがデフォルトです

私たちが持つ学習データには、実は大きな穴があります。承認した顧客に対しての返済結果しか見えない、というところです。否決した顧客が実際に返したのか、貸し倒れたのかは永遠にわかりません。その方々には、そもそもカードが発行されていないからです。

一般的な ML は普通「データが母集団を代表する」と仮定します。ところが与信審査では、この仮定が最初から崩れています。学習データは過去にすでに承認された顧客なのに、モデルが判断すべき相手はまだ承認されていない申込者全体です。両者は別の母集団です。

申込者全体 承認・観測あり 返済 正常返済 貸し倒れ 延滞・貸し倒れ 否決・観測なし ? ? ? 結果は不明 モデルは「承認した顧客」だけを学習します。 否決した顧客の実際の結果は、データに残りません。

このひとつが、思った以上に多くの問題を引き起こします。「否決した顧客」の否決後のデータがないので、モデルは自分が否決した領域を学べず、過去の審査ポリシーのバイアスをそのまま受け継ぎます。だからこの分野では、reject inference(拒絶推論)と因果推論が、特別な技法ではなく基本になります。(この2つは後で一編ずつ、詳しく扱います。)

2. 時間は一方向に流れ、モデルは老化します

データをランダムにシャッフルして K-fold を回したなら、実は少し未来を覗き見たことになります。検証データに過去と未来のデータが混在するからです。

与信データは時間に沿って流れます。2024年の入会者データで学習したモデルが2026年の顧客を評価します。その間に景気も変わり、金利も上がり、顧客の行動も商品も変わります。分布が*移動(drift)*するわけです。ランダムな K-fold は過去と未来を混ぜてしまい、本番では決して使えない情報を、こっそり検証に混ぜ込みます。

なので、金融の基本的な検証は OOT(out-of-time)、つまり学習より未来の期間で評価する方法です。リリース後は、分布がどれだけ動いたか、時間が経つにつれて顧客がどう変わるかを、ずっとモニタリングし続けなければなりません。モデルはリリースした瞬間から老化が始まります。

3. 「誰がより危険か」では足りず、「正確に何%か」が要ります

一般的な分類問題は、たいてい順位さえ合っていれば十分です。誰がより危険かをきれいに並べられればよく、AUC がその力を測ります。

でも与信はそこで止まれません。**絶対確率、つまりキャリブレーションされた PD(calibrated PD)**が必要です。「この顧客の貸し倒れ確率は正確に3.2%」という数字があってはじめて、価格をつけ(risk-based pricing)、引当金を積み(provisioning)、期待損失を計算できます。順位だけでは何もできません。

なので与信では、こんなことが地味によく起きます。AUC は素晴らしいのに PD は間違っているモデルです。判別力(discrimination)とキャリブレーション(calibration)は別の軸なので、両方を見ないといけません。(キャリブレーションだけを扱う回を別に用意しました。意外とこれが欠けていることが多いです。)

4. コストは非対称で、ずっと遅れて届いて、金額単位です

精度(accuracy)はすべての誤りを同じように数えます。ところが与信では、誤りの重さはまったく同じではありません。

優良顧客を1人承認して得られるお金はマージン(数千円)、貸し倒れ1件のコストは LGD × EAD(数十万円)です。片方が数十倍重いのです。なので私たちが最適化すべきは精度ではなく、期待収益と期待損失です。

期待収益 = (1 − PD) × マージン − PD × LGD × EAD
EL = PD 貸し倒れ確率 × LGD 貸し倒れ時の損失率 × EAD 貸し倒れ時の残高 3つの要素はそれぞれ別のモデリング問題です。スコアリングの核心は PD です。

しかも答えがずっとあとに届きます。今日承認した顧客が貸し倒れたかどうかは、12〜24か月後にようやく確定します。ラベルがこれほど遅れて来るというのは、速いフィードバックに慣れた ML 的な思考とかなり反します。結果を知らないまま、決定を積み重ね続けないといけないからです。

5. 安定性が限界性能に勝ちます

ML コンペなら AUC を0.001でも向上させるのが最優先です。Kaggle のようなコンペのように。でも現場の与信モデルでは、それが損になることが多いです。

性能をもう一滴得ようとして不安定になったモデルは、運用ではすぐにコストになります。入力が少し揺れただけでスコアがぶれ、再現できず、「所得が高いほどスコアが下がる」という変な区間が生じるモデルのことです。**運用の安定性、再現性、単調性(monotonicity)**が、小数点の性能よりも大事なことがよくあります。ロジスティック回帰が GBM の時代でもスコアリングの標準として生き残ってきたのには、こういう理由もあります。

6. 解釈可能性は選択ではなく義務です

他の分野では「なぜこの予測結果になったのか」を説明できれば嬉しいボーナスです。でも与信では、それがないと違法だったり、リリースできなかったりすることが多いです。

否決理由の通知(adverse action / 否決理由)、監督当局への説明、社内ガバナンス、すべて「なぜこのスコアなのか」の説明を求められます。だからブラックボックスはかっこいいものではなく、それ自体がリスクです。現場で WOE やスコアカードのように理由が自然に解釈できる構造を好み、ブースティングを使うときも SHAP で理由を取り出す仕組みを一緒に仕込んでおくのは、こういう理由です。

7. 規制・ガバナンスのオーバーヘッドが常に下に敷かれています

最後に、モデルは自由にリリースできません。

モデルを作り終えたら終わり、ではありません。モデルリスク管理(MRM)、独立した検証、文書化、監査証跡が開発プロセスの一部です。開発者と検証者が分離され、新しいモデルは普通 shadow mode でしばらく並行観察したあとで、ようやく実際の意思決定に入ります。「いいモデルを早くリリースしよう」というスタートアップ的な直感は、ここではあまり通用しません。遅いのには理由があります。モデルひとつが引当金や資本の計算にまで流れていくからです。

(日本で働いていると、これがいっそう肌で感じられます。カードの発行・限度額に割賦販売法の「支払可能見込額」の算定義務がかかっていて、モデルがそのまま法的な根拠になるからです。この話は規制の回で別に扱います。)

これは AI が全部やってくれるのでは

最近、こんな質問をよく受けます。生成 AI やAIエージェントがこれだけのスピードで進化しているのに、こういうモデリングの知識をわざわざ学ぶ必要があるのか、という質問です。正直な答えは、むしろもっと必要になる、という方です(少なくとも今のところは)。

ここまで見た7つのルールは、特定のアルゴリズムなどではなく、この分野の問題の構造です。観測されない反事実、時間に沿って流れるデータ、非対称なコスト、絶対確率、安定性、説明義務、規制。ここに LLM を持ち込んでも、こうした問題は解消できません。むしろ、そういう問題があると知っている人がいてはじめて、自動でつくられたモデルが自信満々に間違えるのを防げます。

特に6番と7番が核心です。否決理由を説明しなければならず、モデルを独立して検証しなければならず、その結果が引当金や資本計算の根拠になります。ブラックボックスモデルは、これらの要件で構造的に行き詰まります。だから生成 AI が与信審査をまるごと持っていくことはできず、代わりに「なぜ説明可能でなければならず、どう検証するのか」を知っている人が、その AI が出した結果を判定する立場に残ります。

もちろん変わることもあります。繰り返しになるコードの記述や基礎的な分析は、だんだん AI の役割になっていきます。だから実務の重心は、手でモデルを組む力から、問題を正しく立て、検証し、監理する判断力へと移っていきます。この連載が扱おうとしているのは、まさにその後者です。

だから、この分野の実力とは

7つを一行でまとめると、こうなります。

金融データサイエンスは「予測精度の競争」ではなく、観測されない反事実(counterfactual)を、時間が流れコストが非対称な環境で、説明可能かつ安定して推定する仕事です。

評価指標とスコアカードは、入場券のようなものです。本当の実力差は、選択バイアス、因果、検証、ガバナンスで分かれていきます。

この連載では、この7つをひとつずつゆっくり掘っていきます。reject inference はどう解くのか、キャリブレーションはなぜ皆つまずくのか、因果推論がなぜ審査の核心なのか、検証はどうすれば本番で生き残るのか。次回から一緒に見て行きましょう。

← 記事一覧

新着記事をメールで

連載が公開されたらメールでお知らせします。スパムはなし、いつでも解除できます。

スパムなし · いつでも解除