カードビジネスと信用リスク：与信モデルの出発点

Part 0では、金融データサイエンスが一般的なMLと違う7つを説明しました。今回は一歩引いて、その違いがどこから来るのかという背景を見ていきます。ドメインです。

少し地味に聞こえるかもしれません。モデルの話を期待していたのに、急にビジネスの話か、と。でも私がこの分野に来て比較的早く気づいたのがこれでした。モデルの目的関数は、コードではなくビジネスから決まります。カード会社がどこで稼ぎどこで失うのかを知らないと、自分が作ったモデルが何を最適化すべきかも、ぼんやりしてしまいます。だからPart 1はドメインです。

カード会社はどこで稼ぎ、どこで失うのか

まず、カード決済には2種類の会社が関わっています。カードを発行し顧客に限度額を与える発行会社(イシュアー)と、加盟店を開拓して決済を買い取る会社(アクワイアラー)です。顧客が返せないときに損失を引き受けるのは発行会社です。だから信用リスクの話はそのまま発行会社の話であり、この連載が立っている場所も発行会社の側です。

その発行会社の収益は、だいたいこう入ってきます。

金利収益：リボ、分割、キャッシングから生じる利息です。信用リスクが最も直接的に働く領域で、リボの比率が大きいポートフォリオでは収益の最も大きな部分を占めることもあります。
加盟店手数料：決済1件ごとに加盟店が払う手数料のうち、発行会社が受け取る分(インターチェンジ)です。決済取扱高そのものが収益源なので、一括払いだけで使う顧客が多い市場では、こちらの比率が大きくなります。
年会費とその他の手数料：年会費、延滞料、外貨手数料といったものです。

逆にコストは、資金調達コスト、貸倒コスト(返ってこないお金)、運営費、不正(fraud)による損失、そしてリワード・ポイントのコストとして出ていきます。

ここで、与信部門のデータサイエンティストの目的関数が見えてきます。私たちは精度を上げる人ではなく、損失を抑えながら優良な取扱高を最大化する人です。厳しく断りすぎれば稼ぐ機会を失い、緩く承認しすぎれば貸し倒れが出ます。この綱渡りが与信審査の本質です。Part 0で「精度ではなく期待収益と期待損失を最適化する」と言ったのは、ここから来ています。

信用損失を3つに分ける

その損失の扱い方からして、一般的なMLと違います。信用では、期待損失を3つの要素の積で見ます。

EL = PD × LGD × EAD

PD(貸し倒れ確率)：一定期間内に貸し倒れる確率です。スコアリングが扱う核心です。
LGD(貸し倒れ時の損失率)：貸し倒れたときに回収できない比率です。
EAD(貸し倒れ時の残高)：貸し倒れ時点で残っているエクスポージャーです。

Part 0でこの式をちらっと見ましたが、ここでもう一つ押さえておきたいことがあります。これらすべての出発点は「貸し倒れ(default)を何と定義するか」です。

スコアリングモデルが当てようとするターゲットは、たいていこういう形です。「申込時点から12か月以内に貸し倒れに至るか」。ここで12か月が成績を見るウィンドー(観察期間)で、その中の『貸し倒れ』は通常90日以上の延滞と定義します(Basel基準)。なので「12か月以内の90日延滞」がひとかたまりでラベルになることが多いです。さきほど見た「損失を抑えながら取扱高を最大化する」が私たちの最適化する目的なら、こちらはモデルが予測する対象です。両者は別の層です。

延滞日数だけで貸し倒れが決まるわけではありません。90日に達する前でも、債務者が弁護士を通じて債務整理に入れば(弁護士介入)、正常な回収が事実上終わるので貸し倒れと見なします。「返せる見込みが低い」という事象は、日数と関係なく貸し倒れになるのです。

そして、この基準を60日に早めるか90日に置くか、観察期間を12か月にするか24か月にするかで、ラベルが丸ごと変わり、ラベルが変わればモデルも変わります。延滞(delinquency)、貸し倒れ(default)、償却(write-off)は、すべて別の段階です。一般的なMLではターゲットが与えられますが、信用ではターゲットを定義することからが仕事です。

信用ライフサイクルとデータサイエンス

顧客一人の信用ライフサイクルは、だいたい4つの段階を通ります。

獲得：誰にマーケティングするかを決めます。応答モデルが付きます。
審査：新しい申込者を承認するか、限度額と金利をいくらにするかを決めます。
管理：既存顧客の限度額を上げるか下げるか、更新するかを決めます。行動スコアが付きます。
回収：延滞が始まった顧客をどう回収するかを決めます。

段階ごとに付くモデルが違い、使えるデータも違います。この連載は主に与信審査、なかでも新規与信審査を中心に置きます。最も難しく、その分だけ価値のあるデータの問題がそこにあるからです。

新規与信審査と行動評価

同じ「リスクを点数にする仕事」でも、2つの場は事情がかなり違います。

	新規与信審査	行動評価
時点	新規申込時	既存顧客の運用中
データ	申込情報と外部信用情報	自社の取引、決済、延滞履歴
観測の限界	否決した顧客は見えない	比較的豊富
用途	承認と限度額	限度額の増減、更新、早期警戒

行動評価は、すでに自社の顧客になった人の豊富な取引履歴を見ます。一方で新規与信審査は、初めて見る人を、しかも自分たちが承認した人の結果だけで判断しなければなりません。Part 0で述べた選択バイアスが最も鋭く働く場です。この問題に正面から取り組むreject inferenceはPart 4で、その根本的な解法である実験はPart 6で、別に見ていきます。

自社データの外にある履歴：信用情報機関

私たちが初めて申込者の情報を受け取っても、その人の金融履歴が白紙なわけではありません。信用情報機関が外部の履歴を提供します。日本なら、カード・割賦系のCIC、消費者金融系のJICC、銀行系の全国銀行個人信用情報センターがあり、事故や延滞の情報は機関のあいだで一部共有されます。韓国ならKCBやNICEが似た役割を担います。

ここで実務感覚を一つ添えておきます。短い期間に照会履歴(inquiry)が多すぎると、それ自体がリスクのサインです。複数のところに同時に手を伸ばしている、という意味かもしれないからです。そして信用情報には報告のタイムラグがあり、後から訂正されることもあるので、データ品質は常に疑うべきです。

カードゆえに生じること

カードにはカード特有のテーマがあります。リボは残高に利息が付く仕組みなので、収益源であると同時に、過剰債務が積み上がる危険信号でもあります。取引履歴の浅い顧客のところでリボが静かに積み上がっていく流れを捉えるのは、典型的な特徴量エンジニアリングの課題です。枠消化率(限度額をどれだけ使っているか)は行動を読む強力な変数で、口座を開いてから何か月たったか(MOB)は、後で見るコホート分析の時間軸になります。

規制がモデルの一部です

最後に、この分野で外せないのが規制です。他の分野では規制はモデルの外の制約ですが、与信審査では規制がモデルの中に入ってきます。

日本のカード与信の法的な骨格は割賦販売法です。カードを発行し限度額を決めるとき、「支払可能見込額」を算定する義務があります。年収から生活維持費と既存の債務を引いて計算するのですが、これがまさに与信(アンダーライティング)の法的根拠です。モデルが出す数字が単なる予測ではなく、法律が求める算定の一部になるのです。そして、この算定額は限度額の上限になります。モデルがリスクと収益だけを見てもっと大きな限度額が良いと判断しても、法律が定めた支払可能見込額を超えて与えることはできません。モデルの出力の上に、規制が定めたキャップがもう一枚かぶさるわけです。キャッシングのような貸付には貸金業法の総量規制(年収の3分の1を超える貸付の制限)がかかり、データ活用そのものは個人情報保護法が規定します。

そして、モデルが出したPDはそこで終わりません。貸倒引当金(IFRS 9の予想信用損失)と資本の計算へと流れていきます。私のモデルの確率ひとつが、会社の財務諸表につながるということです。Part 0で「遅いのには理由がある」と言ったガバナンスの重みは、ここから来ます。

まとめ

ドメインを知って初めて、モデルの話が意味を持ちます。目的関数はビジネスから来て(損失を抑えながら取扱高を最大化すること)、ターゲットは貸し倒れの定義から来て、最も難しいデータの問題は新規与信審査の選択バイアスから来て、出力は引当金と資本の計算にまでつながります。

次のPart 2では、もう一段下りて、このデータを読む統計の目を見ます。モデルを回す前に、信用データの分布と「この違いは本物か」を問う方法から見ていきます。