[리뷰] 구글에서 6/30 공개한 테이블 데이터용 파운데이션 모델 TabFM은 신용에서 GBM을 이길까. 공개 데이터로 직접 테스트했습니다
구글이 공개한 제로샷 테이블 파운데이션 모델 TabFM은 학습도 튜닝도 없이 '잘 튜닝한 GBM도 이긴다'고 합니다. 신용 대손에 실제로 쓸 수 있을까요. 공개 신용카드 데이터로 잘 만든 GBM과 겨뤄본 실무자 리뷰입니다.
이번 글은 연재 “리뷰” 첫 편입니다. 새로 나온 도구가 신용 실무에 진짜 쓸모 있는지, 실무자 눈으로 재보는 자리입니다.
구글이 최근 TabFM을 공개했습니다. 표 데이터를 그냥 넣으면 학습도 튜닝도 없이 예측하고, “제로샷으로 잘 튜닝한 GBM도 이긴다”고 주장하는 모델입니다. GBM이 오래 지배해온 신용 리스크에서 이게 진짜 통한다면 큰 이야기입니다. 그래서 공개 대손 데이터로 잘 만든 GBM과 직접 겨뤄봤습니다. 결론부터 말하면, 제가 돌려본 이 조건에서는 잘 튜닝한 GBM이 근소하게 앞섰습니다. 다만 이건 논문이 이겼다고 말한 것과 같은 조건의 정면승부가 아니라 우열을 단정할 수는 없고, 무엇보다 TabFM이 피처 엔지니어링도 튜닝도 없이 그 최선에 바짝 붙었다는 게 핵심입니다.
TabFM이 뭔가
TabFM은 구글이 2026년 6월 말 공개한 표 데이터용 파운데이션 모델입니다. 핵심은 제로샷입니다. 데이터셋마다 새로 학습하거나, 하이퍼파라미터를 맞추거나, 피처를 만들지 않습니다. 대신 학습 데이터를 하나의 컨텍스트로 읽어들이고, 예측은 한 번의 forward pass로 끝냅니다. 이걸 in-context learning이라고 합니다. GPT가 예시 몇 개를 프롬프트로 받아 답하는 것과 비슷하게, TabFM은 표 전체를 프롬프트처럼 받아 그 자리에서 답합니다.
이게 가능한 건 미리 어마어마하게 학습해 뒀기 때문입니다. 그런데 이미지나 텍스트와 달리 공개된 표 데이터는 그만큼 많지 않아서, 구글은 구조적 인과모형(SCM)으로 표 데이터를 수억 개 합성해 그걸로 사전학습했습니다. 학습한 구조는 세 부분입니다. 행과 열에 번갈아 어텐션을 줘서 피처 사이의 관계를 잡고, 각 행을 촘촘한 벡터로 압축한 다음, 그 위에서 in-context 학습으로 예측합니다. 표 데이터 파운데이션 모델의 앞선 시도인 TabPFN 계열의 발전형이라고 보면 됩니다.
셀링포인트는 분명합니다. 피처 엔지니어링도, 하이퍼파라미터 튜닝도 필요 없다는 것. 즉 실무에서 GBM에 쏟는 노력을 0으로 만들 수 있다는 겁니다. 그리고 구글은 TabArena 벤치마크에서 이 제로샷 모델이 공들여 튜닝한 지도학습 모델, 특히 GBM 계열을 ELO 순위에서 앞선다고 보고했습니다. 분류 38개와 회귀 13개, 표본 700개에서 15만 개 사이의 데이터셋을 모은 벤치마크입니다. 모델은 지금 Hugging Face와 GitHub에 공개돼 있고, BigQuery에는 몇 주 안에 SQL 한 줄(AI.PREDICT)로 부를 수 있게 들어온다고 합니다.
실험 목적: 신용 대손에 쓸 수 있을까
궁금한 건 하나였습니다. 일반 벤치마크에서 GBM을 이긴다는 이 모델이, 신용 대손에서도 그럴까요.
Part 3에서 저는 표 형태의 신용 데이터에서는 딥러닝이 아니라 트리 기반 부스팅이 이긴다고 정리했습니다. TabFM은 정확히 그 결론을 뒤집겠다는 주장이라 재검증할 가치가 있었습니다. 게다가 신용은 일반 벤치마크와 다릅니다. 부도는 드문 사건이고, 순위뿐 아니라 확률이 정확해야 하며(Part 5), 심사 사유를 설명할 수 있어야 합니다(Part 4). 일반 데이터에서 이겨도 신용에선 다를 수 있다는 뜻입니다. 그래서 제로샷 TabFM이 잘 튜닝한 GBM을 신용에서도 이기는지 공개 데이터로 직접 확인해봤습니다.
데이터와 모델
데이터는 UCI의 대만 신용카드 대손 데이터입니다. 3만 명, 23개 피처, 부도율 22%. 최근 6개월 연체 상태와 청구·납부액이 주요 피처이고, 문헌상 표준 모델들이 대략 AUC 0.77에서 0.78 사이에서 막히는, 신호가 제한된 데이터로 알려져 있습니다.
공정한 비교의 핵심은 모델과 피처를 분리하는 것입니다. “피처 엔지니어링한 GBM”과 “날것의 TabFM”을 바로 비교하면, 차이가 나도 그게 모델 덕분인지 피처 덕분인지 알 수 없습니다. 그래서 여러 기준선을 나란히 놓았습니다.
| 이름 | 정체 |
|---|---|
| GBM 날것 | LightGBM, 피처·튜닝 없음 (노력의 바닥선) |
| GBM 튜닝 | LightGBM + 엔지니어링 피처 + Optuna 튜닝 |
| CatBoost / XGBoost | 피처 + 튜닝한 강한 기준선 |
| TabFM 제로샷 | 아웃오브박스, 단일 forward pass (본 게임) |
| TabFM 앙상블 | 논문 프리셋 (파생 피처 + 캘리브레이션) |
GBM 계열은 연체 동태 같은 피처를 더하고 Optuna로 튜닝했습니다. TabFM은 아웃오브박스 그대로, 튜닝은 0입니다. 확률이 실제 부도율과 맞도록 모든 모델을 자연 비율로 학습했고요. 지표는 신용에 맞게 판별(ROC-AUC, PR-AUC, KS)과 캘리브레이션(Brier, ECE)을 함께 봤습니다. Part 5에서 본 그 두 축입니다. 부도가 22%라 아주 심한 불균형은 아니지만, 드문 부도를 얼마나 잡는지는 PR-AUC로도 확인했습니다. 층화 5-fold로 검증했습니다.
검증 결과
| Arm | ROC-AUC | PR-AUC | KS | ECE ↓ | 소요시간 |
|---|---|---|---|---|---|
| GBM 튜닝 (LightGBM) | 0.789 | 0.566 | 0.443 | 0.010 | 548초 |
| XGBoost | 0.789 | 0.565 | 0.439 | 0.009 | 102초 |
| CatBoost | 0.788 | 0.566 | 0.444 | 0.011 | 1179초 |
| TabFM 제로샷 | 0.785 | 0.558 | 0.441 | 0.022 | 503초 |
| GBM 날것 | 0.779 | 0.554 | 0.429 | 0.013 | 0.5초 |
| TabFM 앙상블 | 0.774 | 0.540 | 0.418 | 0.018 | 268초 |
읽어낼 것은 세 가지입니다.
첫째, 잘 튜닝한 GBM(0.789)이 TabFM 제로샷(0.785)보다 근소하게 앞섭니다. 트리 셋이 모두 TabFM 위에 있고, PR-AUC로 봐도 순서는 같습니다(TabFM 0.558, 튜닝 GBM 0.566). 격차는 0.4%p로 폴드 표준편차(0.006) 안이라 통계적으론 무승부에 가깝지만, 방향은 일관되게 GBM이 위입니다. “제로샷이 튜닝 GBM을 이긴다”는 이 데이터에선 성립하지 않았습니다.
둘째, 무노력끼리 비교하면 이야기가 다릅니다. TabFM 제로샷(0.785)은 날것 GBM(0.779)을 넘습니다. 피처도 튜닝도 없이요. 빠른 베이스라인으로는 확실히 매력적입니다.
셋째, 캘리브레이션도 대등합니다. 자연 비율로 학습하면 트리도 확률이 잘 맞고(ECE 0.010), TabFM은 0.022로 근소하게 뒤집니다. 어느 쪽도 확률이 크게 어긋나지 않습니다.
그리고 세 부스팅이 0.7885에서 0.7891 사이로 수렴합니다. 모델을 바꾸고 피처와 튜닝을 더해도 안 올라가는 이 데이터의 천장이 0.79쯤이라는 뜻입니다. 어느 쪽도 그 위로 못 올라갔습니다.
정리하면, 적어도 이 실험에서는 TabFM이 잘 만든 GBM을 제친 게 아니라, 노력 없이 거기 근접했습니다. 같은 조건이 아니었다는 점을 고려해야 합니다.
이 실험의 한계
이 검증 결과는 몇 가지 조건 안에서만 유효합니다.
- 데이터가 하나입니다. 대만 신용카드 한 데이터셋이라 일반화는 보장하지 못합니다. 다른 대손 데이터에선 순위가 달라질 수 있습니다.
- 신호가 제한적입니다. 23개 피처에 천장이 0.79라, 애초에 모델이 벌릴 수 있는 폭이 좁았습니다. 피처가 많고 신호가 풍부한 데이터에선 다르게 나올 수 있습니다.
- 시드 하나에 out-of-time 검증은 못 했습니다. 신뢰할 시간 컬럼이 없어 랜덤 층화로 나눴는데, Part 3에서 강조했듯 실제 신용 모델은 시간으로 나눠 검증하는 게 더 엄격합니다.
- TabFM은 8GB GPU에서 돌렸습니다. 그래서 아래 모델 한계에 적은 앙상블 구성을 제대로 밟지 못했고, 위 표의 TabFM 수치는 하한선으로 읽어야 합니다.
모델 자체의 한계
실험을 떠나, TabFM을 실무에 들일 때 걸리는 것들입니다.
- 블랙박스입니다. 파운데이션 모델이라 계수도, 명확한 규칙도 없습니다. 심사 사유를 고지하고 감독당국에 설명해야 하는 신용 심사(Part 4)에는 그대로 쓰기 어렵습니다. SHAP 같은 사후 설명을 붙일 수는 있지만, 스코어카드처럼 모델 자체가 설명이 되진 않습니다.
- 고성능 GPU가 필요합니다. 모델 가중치만 6.5GB라 GPU 없이는 추론이 열 배 넘게 느리고, 논문 프리셋(앙상블·큰 컨텍스트)은 16GB 이상 GPU가 있어야 제대로 돕니다. CPU 한 대로도 잘 도는 GBM과 대비되는 지점입니다.
- 데이터와 피처 규모에 상한이 있습니다. in-context 학습은 학습 데이터를 통째로 프롬프트처럼 읽는데, 어텐션이 컨텍스트의 제곱으로 커집니다. 그래서 수백만 행짜리 대규모 신용 데이터나 피처가 아주 많은 데이터는 그대로 태우기 어렵습니다. 이 계열 모델이 애초에 중소 규모 표를 겨냥해 만들어진 이유입니다.
- 추론이 무겁습니다. 저장해 둔 GBM은 한 줄로 점수를 내지만, TabFM은 예측할 때마다 학습 데이터를 다시 읽습니다. 대량 실시간 스코어링에서는 이 비용이 부담이 됩니다.
- 아직 신생입니다. 막 나온 모델이라 실무 검증 이력도, 규제 수용 사례도 없습니다.
앞으로, 그리고 여러분도
TabFM은 지금 Hugging Face로 받아 쓸 수 있고, 몇 주 안에는 BigQuery에서 SQL 한 줄로도 부를 수 있게 된다고 합니다. 진입장벽이 그만큼 낮아지니, 큰 GPU가 있거나 BigQuery 통합이 열리면 앙상블 프리셋까지 제대로 돌려서 더 큰 데이터로 다시 재봐도 좋겠습니다. 특히 소표본 데이터, 피처가 풍부한 데이터, 그리고 시간으로 나눈 검증에서 어떻게 나오는지가 궁금합니다. 이 글의 결론은 대만 카드 한 판의 이야기일 뿐이니까요.
제 결론은 이렇습니다. 이 한 번의 실험에서는 GBM이 근소하게 앞섰지만, 논문이 이겼다고 한 조건(대규모·다양 데이터·앙상블 프리셋·충분한 GPU)으로 겨룬 게 아니기 때문에 “못 이긴다”고 단정할 수는 없습니다. 확실한 건 이겁니다. 피처도 튜닝도 없이 그 최선에 0.4%p 이내로 붙는, 대단히 빠른 베이스라인이라는 것. 프로토타이핑이나 첫 기준선으로는 지금 당장 매력적이고, 마지막 성능과 정확한 확률, 설명까지 필요한 프로덕션 신용 모델이라면 아직은 잘 튜닝한 GBM이 무난한 선택입니다. Part 3의 결론이 무너졌다고 보긴 이르지만, 이제 노력 없이 근접하는 후보가 하나 생겼습니다.
부록: 코드와 데이터
- 데이터: UCI Default of Credit Card Clients (대만), 공개 데이터
- TabFM 원문: 구글 리서치 블로그 · Hugging Face · GitHub (모델 구조 그림과 벤치마크는 원문에서 볼 수 있습니다)
- 코드: github.com/HangilKim11/blog-research/tree/main/tabfm-credit (한국어·일본어 노트북)
- 재현: 층화 5-fold