ワールドカップでは統計的予測より賭け屋の予想のほうが役に立つ

 スポーツ便乗企画第二弾、今回はサッカーです。(前回はセイバーメトリクスと成果主義


 2014ワールドカップが近付いており、それについて様々な予想が行われている。最近はゴールドマンサックスまで予想に参戦しており(pdf)、注目度の高さがうかがえる。こういった順位付けの中で、公式のものとしてFIFAランキングがある。しかしながら、このFIFAランキングはあまり評判が良くない。

 「FIFAランキングは本当の強さを正しく反映していない」ということはよく聞かれるし、皆さんの多くも感じていることだろう。この「感じ」は決して間違っていない。このことを確かめるために、2010年W杯の最終順位(トーナメント同着を勝ち点・得失点差で順位付けしたもの)と、W杯直前のFIFAランキング(2010/5/26)・Eloレーティング(2010/5/26)・賭け屋(今回はWilliam hills)の優勝オッズの相関係数を比較してみることにしよう。

ピアソンの積率相関 スピアマンの順位相関 ケンドールの順位相関
直前の優勝オッズの対数 0.56 0.56 0.39
FIFAランキング 0.40 0.42 0.29
Elo rating順位 0.48 0.52 0.39
Elo ratingポイント 0.56 0.52 0.39

 いずれの相関係数の計算法でも、FIFAランキングよりも賭け屋のオッズのほうが最終成績をよりよく予想できていたことを示しており、FIFAランキングより一般人の勘のほうが当たるということを示している。

統計による予測の精度は何で決まるか

 上記の結果を見ると、なぜFIFAランキングはこんなに質が低いのかと疑問を持つところだが、それについて具体的に考える前に、統計的予測の精度がどのように決まるか簡単に復習しておこう。

モデルの妥当性

 統計を道具として予測を行う場合には、最も重要なのは統計的モデルの妥当性である。確率を論じる場合にはどうしても「試行」という単位で区切りたくなるが、野球の場合には、打席というルールが試行の独立性を担保するカギになっており、そのために統計的モデルが作りやすい一方で、サッカーでは試合中の「独立試行」を定義しづらいのでモデルが作りにくいことは[セイバーメトリクスと成果主義)において説明したところである。サッカーで「独立した試行」を考える場合、一番分かりやすい切れ目は90分間(延長したら120分間)の試合そのものである。FIFAランキングやElo ratingの手法、過去の対戦結果の統計から次の対戦結果を予測する方法は、試合単位で区切りをつけて母比率の推定をやっていることになるので、様々な場面で妥当な無難な部類と言えるだろう。

 単純な母比率の推定以外の方法で試合の結果を予測をするのであれば、結果につながる数字を選んで正しく組み合わせる必要がある。例えば普通のプロスポーツであれば、球団の予算から結果を推定することはまあまあの予測をすることができるが、代表同士の試合の場合、協会が移籍金や賃金を払って選手を集めているわけではないので、協会の予算から結果を予測する手法は、プロ球団の場合と異なりあまり意味がない多変量解析を行う場合に要素の一つとして導入する価値はある。

 また、統計値を計算する元の指標が妥当だとしても、数学的に正しく使っていなければ意味がない。「さいころを振ったとき、1の目は出るか、または出ないかのいずれかだ。つまり1の目が出るかどうかは半々、50%だ」などというモデルを立てたら意味がないのは明らかである。この例は馬鹿馬鹿しいように思われるかもしれないが、現実世界でやってしまっている実例には事欠かない。例えば、上述の2010年W杯のランキングと結果の相関を見ると、Elo Ratingについて、順位よりもポイントで見たほうが予測精度が高くなっている。これは、順序尺度である順位が比尺度であるポイント(“強さ”そのものの指標)から比率情報を捨て去って作られているものであり、順位はポイントより情報が劣化しているという事情による。せっかく量が表現できる比尺度があるのに、それを劣化させて順序尺度や名義尺度として使ってしまうということは、「さいころの1の目が出る確率は1/6」という量的情報を捨て去って「1の目は出るか、出ないかだ」としてしまうのと同じことである。にもかかわらず、私が調べた範囲では、Elo ratingの順位を元に話を進めている例がかなり多くあった(ゴールドマンサックスはちゃんとポイントのほうを使っている)。

データの量

 統計的な予測と呼ばれる技法は、基本的には過去の(既知の)情報から母比率を推定することである。このような技法であるから、過去のデータが十分量に達していない場合、母比率の推定ができないことがある。スポーツの予測の場合、「対戦がない組み合わせの結果を予測することはできない」と言いかえることができる。例えば、柔道の大会で3位決定戦が行われる場合、決勝進出者にしか負けていない選手だけを集めたノックアウトラウンド(敗者復活戦)が行われるが、これは「決勝進出者に負けた人は決勝進出者より弱いことは確定しているが、決勝進出者に負けた人どうしの比較は行われておらず、その中で誰が最強かは分からない」という理由による。

 とはいえ、世の中には対戦歴のない初顔合わせであってもある程度は間接比較で予測できることもある。例えば将棋やチェスではそのようなことがよくある。しかしこういった間接比較ができるのは、それができるほど大量の他の対戦データがあるからである。一般論として、間接比較は直接比較に比べずっと多い量のデータを必要とする(どの程度多く必要になるかは比較される対象によりまちまちであるが)。

モデルの中のばらつき

 モデルとしては妥当で十分なデータがあったとしても、そもそもモデルの中にばらつきが含まれている場合もある。例えば、同じ2人が対決するものとして、10回対戦して必ず10勝0敗になるものもあれば、2勝6分2敗になるようなものもある。後者の場合、試合結果の統計をもとに予測するモデルではどうあがいても予測精度は上げられない。試合の“質”に立ち入って予測精度を上げようという試みはどこでも行われるものだが、じゃんけんの勝敗予想のように予想精度の改善自体が不可能な(論理上可能であったとしても実質意味がない)ケースもあり、その場合はそこが限界である。

なぜFIFAランクはまともな予想に使えないのか

 FIFAランキングが信用できない理由として、よく「計算法がおかしいからだ」と言われることがあるが、本質的にはそんなに悪いものではない。計算法はいろいろ細かく決められているが、その特性を一言で表せば「勝ち数に応じてポイントが手に入る」という仕組みである。リーグなら勝率(勝ち点)、ノックアウトラウンドなら勝ち進み数に比例して増えていくわけだから、その計算法自体が特別問題があるわけではない。

 サッカー代表戦でどのような統計手法も上手くいかない理由は、それが実際の試合結果に基づいた指標であり、それゆえに試合数が少ない大陸間の比較は元データの質が低く、統計的手法を施してもしょうがない、というのが原因である。実際に試合をしないとまともな強さ比較ができないことは、例えば「Jリーグと欧州リーグはどちらが強いのか」といったケースと相同である。これらは、実際に試合をしてみなければわからないに決まっている。そこを大陸係数なるものでエイヤッと処理しているのがFIFAランキングの現状である。Eloレーティングにしても、大陸間の試合は公式戦ではないことが多く、そもそも特定の選手が現役であるうちに行われる国際試合の絶対数が少なすぎるため、4年に1度のワールドカップの結果を予測するにはいかんせん元データが不足している。結果として、代表以外の試合を見て選手を評価し、代表戦の試合内容から強さを判断するというアナログな勘が、生半可な統計的手法よりよい精度を達成することになる。

 大陸内のチームの力関係について言えば、アジアカップやW杯予選など比較的多く試合が組まれているため、大陸間での比較に比べればFIFAランキングも頼りになる指標となる。ただし、組み分け次第では比較が十分でなくなるため、別組の強さ比較についは精度は下がる。例えば2014年W杯の予選では、日本-豪州の組とイラン-韓国の組は5位決定戦以外直接対決していないため、強さ比較は原則論として不可能である。また組内に強い相手が多ければFIFAの計算方式では順位が必要以上に下がり、逆に楽な組では必要以上に挙がる。2014年のスイスはそれが現実に起き、FIFA会長の出身国と合わせて物議をかもしている。

 FIFAランキングの計算法の仔細に立ちいれば、もう少し問題が見つかる。FIFAランキングは公式戦の比重を高める方式のため、何がしかの理由で予選免除になっている国は、公式戦の少なさゆえにランキングが下がってしまう。例えば2013年にW杯予選を免除されたブラジルは2ケタ順位まで落ちてしまっているし、イランは2011年アジアカップで成績が悪かったので次大会予選を免除されなかったのだが、予選をやって勝ち数が増えたことで順位が上がってしまう、といった問題も生じている。これらの問題を鑑みれば、ワールドカップなどの大会を予測・運営する上で信頼できるものとして使っていい指標ではないだろう。

まとめ

(2014/06/08)