카드 비즈니스와 신용 리스크: 심사 모델의 출발점

Part 0에서는 금융 데이터 사이언스가 일반 ML과 다른 7가지를 설명했습니다. 이번 파트에서는 한 걸음 물러서서, 그 차이들의 배경을 보려고 합니다. 바로 도메인입니다.

조금 시시하게 들릴 수도 있습니다. 모델 이야기를 기대했는데 갑자기 비즈니스 이야기냐고요. 그런데 제가 이 분야에 와서 비교적 빨리 깨달은 게 이것이었습니다. 모델의 목적함수는 코드가 아니라 비즈니스에서 나옵니다. 카드사가 어디서 돈을 벌고 어디서 잃는지를 모르면, 내가 만든 모델이 무엇을 최적화해야 하는지도 흐릿해집니다. 그래서 Part 1은 도메인입니다.

카드사는 어디서 벌고, 어디서 잃는가

먼저 카드 결제에는 두 종류의 회사가 끼어 있습니다. 카드를 발급하고 고객에게 한도를 주는 발급사(이슈어, イシュアー)와, 가맹점을 모집해 결제를 매입하는 매입사(어콰이어러, アクワイアラー)입니다. 고객이 못 갚을 때 손실을 떠안는 쪽은 발급사입니다. 그래서 신용 리스크 이야기는 곧 발급사 이야기이고, 이 연재의 영역도 발급사 쪽입니다.

그 발급사의 수익은 대략 이렇게 들어옵니다.

이자 수익: 리볼빙, 할부, 캐싱에서 나오는 이자입니다. 신용 리스크가 가장 직접적으로 작동하는 영역이고, 리볼빙 비중이 큰 포트폴리오에서는 수익의 가장 큰 몫을 차지하기도 합니다.
가맹점 수수료: 결제 한 건마다 가맹점이 내는 수수료에서 발급사가 받는 몫(인터체인지)입니다. 결제 거래액 자체가 수익원이라, 일시불로만 쓰는 고객이 많은 시장에서는 이쪽 비중이 큽니다.
연회비와 기타 수수료: 연회비, 연체료, 외화 수수료 같은 것들입니다.

반대로 비용은 자금조달 비용, 대손비용(못 갚은 돈), 운영비, 사기 손실, 그리고 리워드와 포인트 비용으로 나갑니다.

여기서 심사 부문 데이터 사이언티스트의 목적함수가 보입니다. 우리는 정확도를 높이는 사람이 아니라, 손실을 통제하면서 우량한 거래량을 최대화하는 사람입니다. 너무 깐깐하게 거절하면 벌 기회를 잃고, 너무 헐겁게 승인하면 대손이 납니다. 이 줄타기가 심사의 본질입니다. Part 0에서 “정확도가 아니라 기대수익과 기대손실을 최적화한다”고 했던 말이 여기서 나옵니다.

신용 손실을 셋으로 쪼갭니다

그 손실을 다루는 방식부터가 일반 ML과 다릅니다. 신용에서는 기대손실을 세 조각의 곱으로 봅니다.

EL = PD × LGD × EAD

PD(부도 확률): 일정 기간 안에 부도가 날 확률입니다. 스코어링이 다루는 핵심입니다.
LGD(부도 시 손실률): 부도가 났을 때 회수하지 못하는 비율입니다.
EAD(부도 시 잔액): 부도 시점에 남아 있는 익스포저입니다.

Part 0에서 이 식을 잠깐 봤는데, 여기서 한 가지를 더 짚고 싶습니다. 이 모든 것의 출발점은 “부도(default)를 무엇으로 정의하는가”입니다.

스코어링 모델이 맞히려는 타깃은 보통 이런 모양입니다. “신청 시점부터 12개월 안에 부도에 이르는가.” 여기서 12개월이 성능을 지켜보는 창(성능창)이고, 그 안의 ‘부도’는 보통 90일 이상 연체로 정의합니다(Basel 기준). 그래서 흔히 “12개월 안의 90일 연체”가 한 덩어리로 라벨이 됩니다. 앞에서 본 “손실을 통제하며 거래량을 최대화”가 우리가 최적화하는 목적이라면, 이건 모델이 예측하는 대상입니다. 둘은 다른 층입니다.

연체일수만으로 부도가 정해지는 것은 아닙니다. 90일에 이르기 전이라도, 채무자가 변호사를 통해 채무정리에 들어가면(법적 개입) 정상적인 회수가 사실상 끝나므로 부도로 봅니다. “갚을 가능성이 낮다”는 사건은 날짜와 상관없이 부도가 되는 것입니다.

그리고 이 기준을 60일로 당기느냐 90일로 두느냐, 성능창을 12개월로 두느냐 24개월로 두느냐에 따라 라벨이 통째로 바뀌고, 라벨이 바뀌면 모델도 바뀝니다. 연체(delinquency), 부도(default), 상각(write-off)은 모두 다른 단계입니다. 일반 ML에서는 타깃이 주어지지만, 신용에서는 타깃을 정의하는 것부터가 일입니다.

신용 라이프사이클과 데이터 사이언스

고객 한 명의 신용 라이프사이클은 대략 네 단계를 지납니다.

획득: 누구에게 마케팅할지 정합니다. 응답 모델이 붙습니다.
심사: 새 신청자를 승인할지, 한도와 금리를 얼마로 줄지 정합니다.
관리: 기존 고객의 한도를 올릴지 내릴지, 갱신할지 정합니다. 행동 스코어가 붙습니다.
회수: 연체가 시작된 고객을 어떻게 회수할지 정합니다.

단계마다 붙는 모델이 다르고, 쓸 수 있는 데이터도 다릅니다. 이 연재는 주로 심사, 그중에서도 신규 심사를 중심에 둡니다. 가장 어렵고, 그만큼 가치 있는 데이터 문제가 거기 있기 때문입니다.

신규 심사와 행동 평가

같은 “위험을 점수로 매기는 일”이지만, 두 자리는 사정이 꽤 다릅니다.

	신규 심사	행동 평가
시점	신규 신청 시	기존 고객 운영 중
데이터	신청 정보와 외부 신용정보	자사 거래, 결제, 연체 이력
관측의 한계	거절한 고객은 안 보임	비교적 풍부함
용도	승인과 한도	한도 증감, 갱신, 조기 경보

행동 평가는 이미 우리 고객이 된 사람의 풍부한 거래 이력을 봅니다. 반면 신규 심사는 처음 보는 사람을, 그것도 우리가 승인한 사람의 결과만 가지고 판단해야 합니다. Part 0에서 말한 선택편향이 가장 날카롭게 작동하는 자리입니다. 이 문제를 정면으로 다루는 reject inference는 Part 4에서, 그 근본 해법인 실험은 Part 6에서 따로 보겠습니다.

우리 데이터 밖의 이력: 신용정보기관

우리가 처음 신청자의 정보를 받아도, 그 사람의 금융 이력이 백지인 것은 아닙니다. 신용정보기관이 외부 이력을 제공합니다. 일본이라면 카드와 할부 계열의 CIC, 소비자금융 계열의 JICC, 은행 계열의 전국은행개인신용정보센터가 있고, 사고나 연체 정보는 기관 사이에 일부 공유됩니다. 한국이라면 KCB나 NICE가 비슷한 역할을 합니다.

여기서 실무 감각 하나를 보태겠습니다. 짧은 기간에 조회 이력(inquiry)이 너무 많으면, 그 자체가 위험 신호입니다. 여러 곳에 동시에 손을 벌리고 있다는 뜻일 수 있으니까요. 그리고 신용정보는 보고에 시차가 있고 나중에 정정될 수도 있어서, 데이터 품질을 늘 의심해야 합니다.

카드라서 생기는 것들

카드에는 카드 특유의 주제가 있습니다. 리볼빙은 잔액에 이자가 붙는 구조라, 수익원이면서 동시에 과다채무가 쌓이는 위험 신호이기도 합니다. 거래 이력이 얕은 고객에게서 리볼빙이 조용히 누적되는 흐름을 잡아내는 것은 전형적인 피처 엔지니어링 과제입니다. 한도소진율(한도를 얼마나 당겨 쓰는가)은 행동을 읽는 강력한 변수이고, 계좌를 연 뒤 몇 개월이 지났는지(MOB)는 뒤에서 볼 vintage 분석의 시간축이 됩니다.

규제가 모델의 일부입니다

마지막으로, 이 분야에서 빼놓을 수 없는 것이 규제입니다. 다른 분야에서는 규제가 모델 바깥의 제약이지만, 신용 심사에서는 규제가 모델 안으로 들어옵니다.

일본 카드 심사의 법적 뼈대는 할부판매법(割賦販売法)입니다. 카드를 발급하고 한도를 정할 때 “지불 가능 추정액(支払可能見込額)“을 산정할 의무가 있습니다. 연수입에서 생활유지비와 기존 채무를 빼서 계산하는데, 이것이 바로 언더라이팅의 법적 근거입니다. 모델이 내놓는 숫자가 단순한 예측이 아니라, 법이 요구하는 산정의 일부가 되는 것입니다. 그리고 이 산정액은 한도의 상한 역할을 합니다. 모델이 위험과 수익만 보고 더 큰 한도가 낫다고 판단해도, 법이 정한 지불 가능 추정액을 넘겨 줄 수는 없습니다. 모델의 출력 위에 규제가 정한 캡이 한 겹 더 씌워지는 셈입니다. 캐싱 같은 대출에는 대금업법(貸金業法)의 총량규제(연수입의 3분의 1을 넘는 대출 제한)가 걸리고, 데이터 활용 자체는 개인정보보호법이 규정합니다.

그리고 모델이 내놓은 PD는 거기서 끝나지 않습니다. 대손충당금(IFRS 9의 예상신용손실)과 자본 계산으로 흘러갑니다. 내 모델의 확률 하나가 회사의 재무제표로 이어진다는 뜻입니다. Part 0에서 “느린 데는 이유가 있다”고 했던 거버넌스의 무게가 여기서 옵니다.

정리

도메인을 알고 나면 그제서야 모델 이야기가 의미를 가집니다. 목적함수는 비즈니스에서 오고(손실을 통제하면서 거래량을 최대화하는 일), 타깃은 부도의 정의에서 오고, 가장 어려운 데이터 문제는 신규 심사의 선택편향에서 오고, 산출물은 충당금과 자본 계산까지 이어집니다.

다음 Part 2에서는 한 단계 아래로 내려가, 이 데이터를 읽는 통계의 눈을 봅니다. 모델을 돌리기 전에, 신용 데이터의 분포와 “이 차이가 진짜인가”를 묻는 법부터 보겠습니다.