[基礎] Part 4. 信用モデルを作る：スコアカードと決定木

Part 3では、モデルを何で選ぶかを見ました。信用では性能で見ると決定木が先んじますが、説明が法的に求められる場ではロジスティック回帰が好まれると述べました。この記事は、その二つを実際に作る工程です。Part 3が「何を選ぶか」だったなら、この記事は「どう作るか」です。

まず核心から言うと、二つの道は思ったより多く重なります。ターゲットを定め、否決者を反映し、確率を補正する段階は、モデルが何であっても同じです。分かれるのは真ん中のひと区切り、変数をどう加工し結果をどう説明するかだけです。その共通点と違いを順に見ていきます。

同じ出発点

どのモデルへ行っても、最初は同じです。

何を貸し倒れと見なすか、どれだけ見守ってから判断するかを先に決めます。Part 1で見た観察期間の話です。60日延滞を貸し倒れと見るか90日と見るか、12か月見守るか24か月見守るかによって、正解ラベルそのものが変わり、ラベルが変わればモデルも変わります。そしてPart 2で見たリークを点検します。意思決定の時点にはなかった未来の情報が変数に漏れ込むと、検証スコアは良くても本番で崩れます。

ここまではロジスティック回帰を使おうと決定木を使おうと同じです。モデルが分かれるのはその次です。

ロジスティック回帰で：スコアカード

説明が法的に求められるコアの審査では、ロジスティック回帰でスコアカードを作ります。スコアカードは一言で言えば点数表です。顧客の各特性に点数を付けて全部足すと信用スコアが出る、紙一枚でも説明できるモデルです。

スコアカードの出発点は、変数をそのまま使わないところにあります。収入や限度額のような変数をいくつかの区間に分けたうえで、各区間をWOE(Weight of Evidence)という値に変えます。WOEは各区間で正常顧客と貸し倒れ顧客の比率を対数オッズで表した値です。ある区間に正常が偏ればWOEが一方へ、貸し倒れが偏れば反対側へ動きます。こう変えると、ばらついていた元の変数が貸し倒れリスクと単調な関係を持つようになります。

WOEが信用で好まれる理由はいくつもあります。欠損や外れ値を別区間として自然に吸収し、カテゴリ変数も同じように扱え、何よりロジスティック回帰と相性が良いです。変数がすでに対数オッズの言葉に変わっているので、回帰係数がそのままその変数の影響力になります。変数がどれだけ役立つかはIV(Information Value)で要約します。おおよそ0.1未満なら弱く、0.3あたりなら使えて、0.5を大きく超えるとむしろリークを疑います。よく当たりすぎる変数は、未来の情報が漏れ込んだのではないかとまず疑うのが正しいです。

回帰を当てはめると出力は対数オッズです。人が読むには不便ですね。そこでビジネス上の点数に移します。信用スコアが600だ700だという、あの点数です。

点数 = オフセット + ファクター × 対数オッズ

ここで核心はPDO(Points to Double the Odds)です。オッズが2倍良くなるとき点数が何点上がるかを定める値で、PDOを20とすればオッズが2倍になるたびに点数が20点ずつ上がります。結果として、点数が高いほどリスクが低いという直感的な尺度ができあがります。そしてこの点数は変数ごとの点数の和に分解できるので、ある顧客の点数がなぜ低いのかを項目ごとにそのまま説明できます。スコアカードが否決理由の告知に強いのは、ここに理由があります。

決定木で：GBM

事後の説明で十分な場では、決定木を最終モデルに使います。Part 3で見たあの選択です。決定木へ行くと、真ん中の二つが変わります。

まず変数の加工が軽くなります。決定木は非線形や交互作用、欠損を自分で扱うので、WOEのビニングを必ず通す必要はありません。Part 3で見たドメイン特徴量をそのまま入れる側に近いです。限度額に対する利用額の比率や、直近の延滞の推移のような変数を作ってそのまま入れる形です。

次に説明を事後に付け加えます。スコアカードは点数表そのものが説明ですが、決定木はそうではありません。代わりにSHAPや特徴量重要度で、どの変数がこの予測をどれだけ押し上げたかを事後に計算し、否決理由に移します。「収入が高いほどリスクが低い」のような単調性も、スコアカードがWOEで強制したのに対し、決定木では単調制約(monotone constraints)をかけて同じように強制します。データが一時おかしな動きをしても、モデルが非常識な方向へ動かないようにです。

では何が違うのか

二つの道を並べると、違いがはっきりします。

スコアカードは説明がモデルの中に埋め込まれています。点数表をそのまま見せれば理由が出て、監督当局も係数の一つひとつを覗き込めます。代わりに表現力に限界があり、性能を少し譲ります。

決定木は逆です。性能を得る代わりに説明を外から付け、その事後の説明が本物かを別に点検する負担を負います。変数には手がかかりませんが、モデルガバナンスはより重くなります。

だから選択は結局、目的が決めます。理由の告知が法的に強制され監督当局が係数を見るコアの審査はスコアカードの側へ、事後の説明が受け入れられ性能が重要な場は決定木の側へ傾きます。Part 3で述べたあの分かれ目です。

どちらでも必ず通ること

ここまでがモデルによって分かれる部分でした。ところがどちらを選んでも、最後に必ず通らなければならない二つが残ります。リジェクト推論とキャリブレーションです。どちらもモデルが決定木であれロジスティックであれ同じように必要です。

リジェクト推論。 Part 0から付いてきた宿題です。選択バイアスですね。モデルは過去に承認した顧客の結果で学習します。ところが実際に適用する相手は、新しく入ってくる申込者全体です。否決した顧客は返したか返せなかったか、結果そのものがありません。承認した人だけを見て作ったモデルを、申込母集団全体にそのまま当てると偏ります。

この空白を埋めようとする手法がリジェクト推論(reject inference)です。否決顧客の点数で結果を推定して入れたり、承認確率の逆数で重みを付けたり(Part 2で見たバイアス補正と同じ論理です)、否決顧客が他社でどうなったかを信用情報から持ってきたりします。正直なところ、リジェクト推論は万能ではありません。見えないものを仮定で埋める仕事なので、仮定が外れれば結果も一緒に外れます。

だから信じて使う前に、この補正が自分のデータで本当に役立つのかをまず測るのが正しいです。私はリジェクト推論の手法をいくつか一つのAPIにまとめ、何よりその効果を先に測ってみるベンチマークまで付けたPythonライブラリ rejectkit を作って公開してあります。詳しい使い方と実データの結果はリジェクト推論とrejectkit の記事で別に扱いました。

最も信頼できる解法は別にあります。少数をあえてランダムに承認して本当の結果を確保する、統制された実験です。推定ではなく事実をくれるからです。この話はPart 6で因果推論と実験へと続きます。

キャリブレーション。 一つ区別しなければなりません。誰がより危険かの順位をうまく付けること(判別)と、その人の貸し倒れ確率が正確に何パーセントかを当てること(補正)は、別の問題です。信用では補正が必須です。Part 1で見たEL = PD × LGD × EADを思い出してください。引当金を積み、リスクに応じて金利を付け、期待損失を計算するには、確率そのものが正しくなければなりません。順位だけ合っても価格は付けられません。決定木を使うとさらに重要です。決定木が出した点数は、そのままでは貸し倒れ確率ではないからです。

だからモデルが出した確率を実際の貸し倒れ率に合わせて補正します。Plattスケーリングやisotonic回帰のような方法を使い、サンプルを不均衡に取ったなら、その比率もここで戻します。もう一つ、同じPDでも、今の時点のリスクをそのまま反映するPIT(point-in-time)と、景気サイクルを平らに見たTTC(through-the-cycle)に分かれます。会計基準(IFRS9)はPITを、自己資本規制(Basel)はTTCを主に見ます。同じ顧客の貸し倒れ確率も、どこに使うかによって違う数字になります。

まとめ

信用モデルを作る仕事は、よく見るとモデルの種類より、その前後のほうが重要です。

始まりは同じです。ターゲットと観察期間を定め、リークを点検します。
ロジスティック回帰へ行けば、WOEで変数を変えてPDOで点数表を作ります。説明がモデルの中にあります。
決定木へ行けば、ドメイン特徴量をそのまま入れてSHAPなどで説明を事後に作ります。性能を得る代わりに説明を事後に付け加えます。
終わりも同じです。リジェクト推論で偏りを減らし、確率を補正します。この二つはモデルに関わらず必ず通ります。

モデルを選ぶ仕事(Part 3)とモデルを作る仕事(この記事)を過ぎてきました。次のPart 5では、こうして作ったモデルをどう評価するかを見ます。信用で最も好まれる指標KSから、GiniとAUC、そして補正をどう確認するかまでです。