レビュー 公開 2026年7月2日

[レビュー] Googleが6/30に公開したテーブルデータ用の基盤モデルTabFMは、信用でGBMに勝てるか。公開データで直接テストしました

Googleが公開したゼロショットのテーブル基盤モデルTabFMは、学習もチューニングもなしで「よくチューニングしたGBMにも勝つ」と言います。信用の貸し倒れに実際に使えるでしょうか。公開クレジットカードデータで、よく作ったGBMと競わせた実務者レビューです。

この記事は連載「レビュー」の第1回です。新しく出たツールが信用の実務に本当に役立つのかを、実務者の目線で試す場です。

Googleが最近TabFMを公開しました。テーブルデータをそのまま入れれば、学習もチューニングもなしで予測し、「ゼロショットでよくチューニングしたGBMにも勝つ」と主張するモデルです。GBMが長く支配してきた信用リスクでこれが本当に通用するなら、大きな話です。そこで公開の貸し倒れデータで、よく作ったGBMと直接競わせてみました。先に結論を言うと、私が回したこの条件では、よくチューニングしたGBMがわずかに上でした。ただしこれは論文が勝ったと述べたのと同じ条件での正面対決ではなく、優劣を断定できるものではありません。何よりTabFMが特徴量エンジニアリングもチューニングもなしに、その最善へぴたりと迫ったことが肝心です。

TabFMとは

TabFMはGoogleが2026年6月末に公開したテーブルデータ用の基盤モデルです。核心はゼロショットです。データセットごとに学習し直したり、ハイパーパラメータを合わせたり、特徴量を作ったりしません。代わりに学習データを一つのコンテキストとして読み込み、予測は一度のforward passで終えます。これをin-context learningと呼びます。GPTが例をいくつかプロンプトで受け取って答えるのに似て、TabFMはテーブル全体をプロンプトのように受け取り、その場で答えます。

これができるのは、あらかじめ途方もなく学習してあるからです。ところが画像やテキストと違って公開のテーブルデータはそれほど多くないので、Googleは構造的因果モデル(SCM)でテーブルデータを数億個合成し、それで事前学習しました。学習した構造は三つの部分です。行と列に交互にアテンションを与えて特徴量どうしの関係をとらえ、各行を密なベクトルに圧縮し、その上でin-context学習によって予測します。テーブルデータ基盤モデルの先行した試みであるTabPFN系の発展形と見ればよいでしょう。

ゼロショット: データごとに学習しません 従来の方式 (GBM) データ 学習 + チューニング 予測 TabFM (ゼロショット) データ 予測 forward pass 一度 (学習なし) TabFMは事前学習を終えた状態で来て、データはただ読んですぐ予測します。

セリングポイントは明確です。特徴量エンジニアリングも、ハイパーパラメータのチューニングも要らない、ということ。つまり実務でGBMに注ぐ労力を0にできるという主張です。そしてGoogleはTabArenaベンチマークで、このゼロショットモデルが手間をかけてチューニングした教師あり学習モデル、とりわけGBM系をELO順位で上回ったと報告しています。分類38個と回帰13個、標本700個から15万個の間のデータセットを集めたベンチマークです。モデルは今Hugging FaceとGitHubに公開されており、BigQueryには数週間のうちにSQL一行(AI.PREDICT)で呼べる形で入ってくるとのことです。

実験の目的: 信用の貸し倒れに使えるか

気になったのは一つでした。一般のベンチマークでGBMに勝つというこのモデルが、信用の貸し倒れでもそうなのか。

Part 3で私は、テーブル形式の信用データではディープラーニングではなく決定木ベースのブースティングが勝つと整理しました。TabFMはまさにその結論を覆すという主張なので、再検証する価値がありました。しかも信用は一般のベンチマークと違います。貸し倒れは稀な事象で、順位だけでなく確率が正確でなければならず(Part 5)、否決理由を説明できなければなりません(Part 4)。一般のデータで勝っても信用では違いうる、ということです。そこでゼロショットのTabFMがよくチューニングしたGBMに信用でも勝つのかを、公開データで直接確かめてみました。

データとモデル

データはUCIの台湾クレジットカード貸し倒れデータです。3万人、23個の特徴量、貸し倒れ率22%。直近6か月の延滞状態と請求・支払額が主な特徴量で、文献上は標準的なモデルがおおよそAUC 0.77から0.78あたりで頭打ちになる、信号の限られたデータとして知られています。

公平な比較の核心は、モデルと特徴量を分けることです。「特徴量エンジニアリングしたGBM」と「素のTabFM」をそのまま比べると、差が出てもそれがモデルのおかげか特徴量のおかげか分かりません。そこで複数のベースラインを並べました。

名前正体
GBM 素LightGBM、特徴量・チューニングなし (労力の下限)
GBM チューニングLightGBM + エンジニアリング特徴量 + Optuna チューニング
CatBoost / XGBoost特徴量 + チューニングした強いベースライン
TabFM ゼロショット素のまま、単一の forward pass (本命)
TabFM アンサンブル論文プリセット (派生特徴量 + キャリブレーション)

GBM系は延滞の動態のような特徴量を足してOptunaでチューニングしました。TabFMは素のまま、チューニングは0です。確率が実際の貸し倒れ率と合うよう、すべてのモデルを自然な比率で学習しました。指標は信用に合わせて判別(ROC-AUC、PR-AUC、KS)とキャリブレーション(Brier、ECE)を一緒に見ました。Part 5で見たあの二つの軸です。貸し倒れが22%なのでごく激しい不均衡ではありませんが、稀な貸し倒れをどれだけ捉えるかはPR-AUCでも確認しました。層化5-foldで検証しました。

検証結果

ArmROC-AUCPR-AUCKSECE ↓所要時間
GBM チューニング (LightGBM)0.7890.5660.4430.010548秒
XGBoost0.7890.5650.4390.009102秒
CatBoost0.7880.5660.4440.0111179秒
TabFM ゼロショット0.7850.5580.4410.022503秒
GBM 素0.7790.5540.4290.0130.5秒
TabFM アンサンブル0.7740.5400.4180.018268秒
ROC-AUC — チューニングするとGBMが再び上 データの天井 ~0.79 0.779 0.785 0.789 GBM 素 TabFM ゼロショット GBM チューニング このデータではゼロショットTabFMが素のGBMは超え、チューニングしたGBMにはわずかに届きません。3種とも天井付近。

読み取れるのは三つです。

一つ目、よくチューニングしたGBM(0.789)がTabFMゼロショット(0.785)をわずかに上回ります。木3種がすべてTabFMの上にあり、PR-AUCで見ても順序は同じです(TabFM 0.558、チューニングGBM 0.566)。差は0.4%pでfoldの標準偏差(0.006)の中なので統計的には引き分けに近いですが、方向は一貫してGBMが上です。「ゼロショットがチューニングGBMに勝つ」はこのデータでは成り立ちませんでした。

二つ目、労力なし同士で比べると話が違います。TabFMゼロショット(0.785)は素のGBM(0.779)を超えます。特徴量もチューニングもなしで、です。速いベースラインとしては確かに魅力的です。

三つ目、キャリブレーションも互角です。自然な比率で学習すれば木も確率がよく合い(ECE 0.010)、TabFMは0.022でわずかに劣ります。どちらも確率が大きく外れてはいません。

そして三つのブースティングが0.7885から0.7891の間に収束します。モデルを変えて特徴量とチューニングを足しても上がらない、このデータの天井が0.79ほどだということです。どちらもその上には行けませんでした。

まとめると、少なくともこの実験ではTabFMがよく作ったGBMを退けたのではなく、労力なしでそこへ迫りました。同じ条件ではなかった点を踏まえる必要があります。

この実験の限界

この検証結果は、いくつかの条件の中でのみ有効です。

  • データが一つです。台湾クレジットカードの一データセットなので一般化は保証できません。他の貸し倒れデータでは順位が変わりうります。
  • 信号が限られています。23個の特徴量に天井が0.79なので、そもそもモデルが広げられる幅が狭かったです。特徴量が多く信号の豊かなデータでは違って出るかもしれません。
  • シード一つで、out-of-time検証はできませんでした。信頼できる時間列がなくランダム層化で分けましたが、Part 3で強調したように実際の信用モデルは時間で分けて検証するほうが厳格です。
  • TabFMは8GB GPUで回しました。そのため下の「モデル自体の限界」に挙げたアンサンブル構成をきちんと踏めておらず、上の表のTabFMの数値は下限として読むべきです。

モデル自体の限界

実験を離れて、TabFMを実務に入れるときに引っかかることです。

  • ブラックボックスです。基盤モデルなので係数も、明確なルールもありません。否決理由を告知し監督当局に説明しなければならない信用審査(Part 4)には、そのまま使いにくいです。SHAPのような事後の説明を付けることはできますが、スコアカードのようにモデル自体が説明になるわけではありません。
  • 高性能なGPUが要ります。モデルの重みだけで6.5GBあり、GPUなしでは推論が十倍以上遅く、論文プリセット(アンサンブル・大きなコンテキスト)は16GB以上のGPUがないときちんと回りません。CPU一台でもよく回るGBMと対照的な点です。
  • データと特徴量の規模に上限があります。in-context学習は学習データをまるごとプロンプトのように読みますが、アテンションがコンテキストの二乗で膨らみます。そのため数百万行の大規模な信用データや特徴量が非常に多いデータは、そのまま載せにくいです。この系列のモデルがそもそも中小規模のテーブルを狙って作られた理由です。
  • 推論が重いです。保存しておいたGBMは一行でスコアを出しますが、TabFMは予測のたびに学習データを読み直します。大量のリアルタイムスコアリングでは、このコストが負担になります。
  • まだ新しいです。出たばかりのモデルなので、実務の検証実績も、規制の受容事例もありません。

これから、そしてあなたも

TabFMは今Hugging Faceで受け取って使え、数週間のうちにはBigQueryでSQL一行でも呼べるようになるとのことです。参入障壁がそれだけ下がるので、大きなGPUがあるか、BigQueryの統合が開いたら、アンサンブルのプリセットまできちんと回して、より大きなデータで再び試してみるのもよいでしょう。とりわけ小標本のデータ、特徴量の豊かなデータ、そして時間で分けた検証でどう出るかが気になります。この記事の結論は台湾カード一勝負の話にすぎないのですから。

私の結論はこうです。この一度の実験ではGBMがわずかに上でしたが、論文が勝ったと述べた条件(大規模で多様なデータ・アンサンブルプリセット・十分なGPU)で競ったわけではないので、「勝てない」と断定はできません。確かなのはこうです。特徴量もチューニングもなしにその最善へ0.4%p以内で迫る、たいへん速いベースラインだということ。プロトタイピングや最初のベースラインとしては今すぐ魅力的で、最終的な性能と正確な確率、説明まで要るプロダクションの信用モデルなら、まだよくチューニングしたGBMが無難な選択です。Part 3の結論が崩れたと見るのは早いですが、いまや労力なしで肉薄する候補が一つできました。

付録: コードとデータ

関連記事

← 記事一覧

新着記事をメールで

連載が公開されたらメールでお知らせします。スパムはなし、いつでも解除できます。

スパムなし · いつでも解除