ポアソン分布とサッカーにおけるゴールモデリング
試合プレビュー番組で司会者が「この試合は2.3の期待ゴールラインで、これはオーバー2.5の確率61%を意味します」と言うのを見たことがあるなら、それはポアソン算術が動いているのを見ていたのです。どこから出てきたか分からないように見える確率の三つ組(ホーム勝58%、引き分け25%、アウェイ勝17%)を見たなら、それを生み出した計算はほぼ間違いなくポアソンシミュレーションでした。
ポアソンは多くのサッカーゴールモデルの背後にある統計エンジンです。50年間そこにあり、後により流行の語彙で説明される確率の数字を静かに生み出してきました。仕組みを理解することは、「AIサッカー予測」が裏側で実際にしていることの多くを解き明かします。
この記事はポアソンを平易な言葉で説明し、それがサッカーに具体的にどう適用されるか、どこで機能し、どこで機能しないか、そして現代の洗練が上に何を加えるかを示します。
ポアソンが実際に何であるか
ポアソン分布は、平均発生率が与えられたとき、ある時間窓に一定数の事象が起きる確率を記述します。
形式的には:事象が単位時間あたり一定の平均発生率λ(ラムダ)で起き、互いに独立に発生する場合、その窓内でちょうどk回の事象が起きる確率は:
P(k) = (λ^k × e^(-λ)) / k!
数学を愛する必要はありません。実用的な意味は:
- λ = 1 は事象が窓あたり平均1回起きることを意味します。P(0) ≈ 37%、P(1) ≈ 37%、P(2) ≈ 18%、P(3) ≈ 6%、P(4+) ≈ 2%。
- λ = 2 は窓あたり2回。P(0) ≈ 14%、P(1) ≈ 27%、P(2) ≈ 27%、P(3) ≈ 18%、P(4) ≈ 9%、P(5+) ≈ 5%。
- λ = 3 は窓あたり3回。P(0) ≈ 5%、P(1) ≈ 15%、P(2) ≈ 22%、P(3) ≈ 22%、P(4) ≈ 17%、P(5+) ≈ 19%。
分布は、平均は1つのことだが、特定の結果は既知の確率でその平均の周りにクラスタリングすることを捉えます。λ = 2のとき、2を期待しますが、0や3や4も意味のある割合で起きます。
なぜポアソンがサッカーのゴール得点にフィットするのか
仮定がサッカーに対しておおよそ成立する3つの理由。
ゴールはまれです。 ほとんどの試合は0から5ゴールを記録します。ポアソンは0から5の範囲をきれいに扱います。非常に高いカウントでは崩れますが、サッカーがそこを試すことはまれです。
ゴールはほぼ独立した時刻に起きます。 試合状態の効果(後で議論します)を取り除けば、試合内のゴールはほぼ一定の発生率で起きます。10分のゴールは、思うほど鋭く40分のゴールの確率を変えません。
発生率はチームの質から導けます。 チームAの平均得点率が1.5ゴール毎試合で、チームBの守備率が1.2ゴール毎試合許すなら、この試合のチームAの期待ゴールはある重み付けブレンド(1.5 × 1.2 / リーグ平均、ホームアドバンテージのスケーリング付き)です。ポアソンはそのλを取り、完全な分布を生み出します。
これらを組み合わせると、動作するモデルが得られます:各試合について両者の期待発生率を導き、それぞれにポアソンを適用してゴール数分布を生み出し、それらを結果行列(ホーム勝/引き分け/アウェイ勝/オーバー2.5/BTSSなど)に組み合わせます。
ポアソンが確率の三つ組をどう構築するか
チームA(期待ゴール1.8)とチームB(期待ゴール1.2)の試合について、シミュレーションは:
- チームAについてλ=1.8のポアソンを使い、P(チームAが0得点)、P(1)、P(2)、P(3)、P(4)、P(5+)を計算。
- チームBについてλ=1.2のポアソンを使い、同じものを計算。
- 独立性を仮定(最初のポアソン仮定)して掛ける:P(チームA=N かつ チームB=M) = P(A=N) × P(B=M)。
- ホーム勝についてN > Mで合計、引き分けについてN = M、アウェイ勝についてN < M。
- 必要なら正規化。
結果:2つの期待ゴール数だけから完全に導かれた、その試合の確率の三つ組。ほとんどの試合に対するまずまずのフィット。
これが「xG駆動の予測モデル」が最も単純な形で通常そうであるものです:2つの数字が入り、確率分布が出る、エンジンとしてのポアソン。
ポアソンが崩れる場所
現代のモデリングが補正しようとする、4つの実際の失敗モード。
試合状態依存性。 終盤20分に0-1のビハインドを追うチームは違うプレーをします。彼らのゴール率は試合前の期待を上回り、相手の率は似たままだが守備のミスが許すチャンスを引き起こします。独立、一定発生率のポアソンは逆転頻度を過小予測し、定常状態の支配を過大予測します。
引き分けインフレーション。 低得点試合(片側でλが1.5未満)では、ポアソンは1-1と0-0を同時に過大予測しつつ、引き分け全体を過小予測します。Dixon-Colesは1997年に結果行列の低得点セルを調整する補正を提案しました。ほとんどの実用モデルはDixon-Colesまたは類似のものを使います。
チーム間の相関。 一方のチームのゴールはもう一方のものから完全に独立ではありません。早い段階で失点したチームは試合が進むにつれてしばしば質を落とします。二変量ポアソンモデルは小さな相関パラメータを加えます。それなしでは、結合結果は独立すぎる扱いを受けます。
極端なスコア。 ポアソン分布の右の裾(5-0、6-0、7-0)は生のポアソンでは薄いですが、実際のミスマッチでより頻繁に観察されます。現代モデルは裾補正を適用するか、平均はポアソンと同じだがより大きな分散を許す負の二項分布を使います。
使えるルール:生のポアソンは有用なベースラインだが、実用モデルは常に洗練を加える。洗練は解釈(確率の三つ組、オーバー/アンダー、BTTS)を変えませんが、現実に対して数字を引き締めます。
結果確率を超えたポアソン
ポアソン算術はいくつかの下流メトリクスを可能にします:
期待勝点(xPts)。 各試合についてポアソンで結果分布をシミュレートし、各サイドの期待勝点を計算。シーズンを通して合計すれば、xPtsが得られます。
期待ゴール得失差(窓内)。 チームのxG履歴とポアソンを組み合わせると、シーズン総得点の確率分布が生み出されます。
アジアンハンディキャップのフェアライン。 xGをアジアンハンディキャップの数値に変換するには、得失差分布のためのポアソンシミュレーションを使います。
オーバー/アンダーとBTTS確率。 すべてポアソンシミュレーションが構築する結果行列から導けます。
実質的には、チームごとのxG(または期待得点率)があれば、ポアソンは試合の確率表面全体を与えてくれます。勝/分/敗の三つ組だけではありません。
Tactiqがポアソン式ゴールモデリングをどう扱うか
Tactiqの分析は、試合カードに表示される確率の三つ組を生み出すパイプラインの一部としてシミュレーションベースの確率推定を使います。具体的なアプローチ、基本ポアソンの上に適用される洗練、シミュレーションが試合状態と相手の質の相互作用をどう扱うかは、製品内に留めます。
ユーザーにとっての効果は、試合カード上の3つの確率が、手書きヒューリスティックではなく、期待ゴール推定とチームの強さの信号に根ざしたシミュレートされた結果分布を反映している、ということです。確信度指標は、その特定の試合について入力信号の小さな変化に分布がどれくらい敏感かを反映します。
ユーザーが試合カードで見るもの:
- 結果の確率の三つ組、シミュレーションを通して生成。
- 各サイドの期待ゴール、最近のトレンド付き。
- 結果を平易な言葉で名指しする書かれた分析:「ホームサイドは期待ゴールでわずかな優位を持って入り、これはおよそ52-25-23の確率分割に翻訳される。」
- 外部市場データはどこにもなし。第三者プラットフォームへのリダイレクトなし。仮想通貨なし。統計分析のみ。
結論
ポアソンは多くのサッカーゴールモデリングの基盤にある統計的主力です。すばやく計算できるほど単純で、ほとんどの試合をフィットするのに十分よく、より洗練された改良(Dixon-Coles、二変量、負の二項)が積み上がる土台です。
ポアソンを理解することは、すべてのアナリティクスダッシュボードで見る確率の三つ組を解き明かします。それらは魔法ではありません。期待ゴール入力からのシミュレーションです。良いモデルを悪いモデルから分けるのは、ポアソンの既知の弱点を補正する洗練です。
Tactiqは、実試合の複雑さを扱うために洗練を適用したシミュレーションベースの確率推定を使います。分析はすべての試合カードで校正された確率の三つ組を表示します。1,200以上の大会、32言語ローカライゼーション、1日8回の分析の無料層、カード不要。
シリーズに従ってきたなら、メトリクス語彙は今やAIがサッカー試合を予測する方法、xG、xA、npxG、PPDA、Field Tilt、プログレッシブアクション、SCA/GCA、xPts、Eloレーティング、Brierスコア校正に及びます。ポアソンは、予測を生み出さなければならないとき、これまでのほとんどのメトリクスを結びつける確率エンジンです。