日本代表の決勝トーナメント進出はギリギリだったのか?データサイエンスの観点で考える

ワールドカップの一次リーグが終わりました。
日本は二大会ぶりの決勝トーナメント進出で、めでたい限りです。

その日本代表ですが、フェアプレーポイントの差で辛くもグループリーグ二位通過でしたので、ギリギリだったという意見も多いように感じます。
本記事では、データサイエンスの観点から「そうでもないぞ」と訴えたいと思います。

散布図

使うのは、32チームの予選での成績のうち

  • フェアプレーポイント
  • ファールの数
  • 得点数

です(いずれも3試合の合計)。勝ち点を含めると影響が大きいのは当たり前なのであえて外しました。

まず、3つの変数のうち2つを選んで、予選通過チーム(青色)と敗退チーム(赤色)で色分けをして散布図を描いてみました。

横軸:ファールの数 縦軸:フェアプレーポイント

横軸:ファールの数、縦軸:フェアプレーポイントだとこうなります。

青い線の方がやや上にあるので、予選通過チームはファールを貰ってもイエローやレッドカードになる手前で止める技術が高いのかもしれません。

横軸:ファールの数 縦軸:得点数

横軸:ファールの数、縦軸:得点数だとこうなります。

得点と予選通過には明確に関係が有りそうです。デンマークの点の位置から線形分離は難しそうです。

横軸:フェアプレーポイント 縦軸:得点数

横軸:フェアプレーポイント、縦軸:得点数だとこうなります。

やや二色の点が入り混じっていて示唆が少なそうです。

予測モデル

さて、予選通過したか否かのフラグを目的変数として、予測モデルを作ります。件数が32件と少ないので精度と説明可能性のバランスを踏まえてC5.0という分岐木モデルを採用しました。

結果から申しますと、以下のようになりました。

つまり、

  • 合計得点が2点以下だとほぼ敗退
  • 合計得点が2点超で、ファール数の合計が43以下だと決勝進出
  • ファール数の合計が43超で、合計得点が6点以下だと敗退
  • ファール数の合計が43超で、合計得点が6点超だと決勝進出

という結果です。
つまり、あえて単純化すると

  • ファールを気にせずバンバン点を取るチーム
  • ファールを極小化しつつ、少ない得点でチャンスをものにするチーム

が決勝に進出した、ということです。
改めて日本のファールの数を見てみると、28と全チームで最も少ないことに気づきます。

さて、この分岐木で32チーム中31チームの結果は説明が出来ますが、1チームだけ上手く分類できない国がありました。
散布図でも目立っていたデンマークです。
デンマークのいたグループCは4チームとも少ない得点だったので、結果として例外的な決勝進出になったと見えます。

まとめ

日本はファールの数を可能な限り減らして、少ない得点のチャンスを活かして予選を突破しました。
ベスト16で当たるベルギーは、今回使った統計量で見るとコロンビアと近いチームです。
日本はコロンビアに勝っているので、同じように試合が進めばベルギーに勝つチャンスもあります。

来週のベルギー戦は、寝不足覚悟で応援します!

AWS移行支援キャンペーン

あなたにおすすめの記事