『実質試合支配指数(SMCI)の提案と概要』の投稿で実質試合支配指数(SMCI指数)という、ある選手の試合における実質的な支配度を表す指標を発表しましたが、その指数と実際の試合における勝敗の関係性と相関性を調べてみました。 実質試合支配指数(SMCI指数)を用いてテニスの試合を分析しても、指数自体が勝敗と関連性が無ければ分析結果の意味がありません。私自身、SMCI指数は個人的にテニスの試合を分析するために発案したものですから、どの程度スタッツ分析のデータとして実用的なのかを調べたいという思いがありました。余りにも相関性が低ければ、現時点では試合分析のツールとしてまだ実用的ではない(指数に修正が必要)ということになります。 そのような思いから、試合の勝敗とSMCI指数の関係性と相関性を調べてみましたが、考えていた以上に良い結果が得られました。 実質試合支配指数(SMCI指数)の詳細については、『実質試合支配指数(SMCI)の提案と概要』と『実質試合支配指数(SMCI)の使い方と実例』の記事にありますので、どうぞご覧ください。
今回、SMCI指数を用いて分析・集計した試合はグランドスラムに限定しました。その理由は後述いたします。 グランドスラム2004~2016年の中から男子シングルスの試合を無作為抽出した過去1000試合でSMCI指数と勝敗の相関性を調べました。 *SMCI指数は実質試合支配率(SMCR)と ポイント実質支配レーティング(SCRP)という2つの指標から構成されています。
1.グランドスラム過去1000試合の勝敗と実質試合支配率(SMCR)とポイント実質支配レーティング(SCRP)の合致率
勝敗とSMCRの合致率 95.7% (勝者のSMCRの値の方が敗者より大きく、敗者の値の方が勝者より小さいということが合致した率)
勝敗とSCRPの合致率 96.6% (勝者のSCRPの値の方が敗者より大きく、敗者の値の方が勝者より小さいということが合致した率)
以上の結果から「テニスの試合の勝敗」と「SMCI指数(SMCRとSCRP)がより高い値の選手の方が勝ち、より低い値の選手の方が負ける」の関係は極めて矛盾が少ないということが分かります。 つまり、実質試合支配指数(SMCI指数)が高い選手(=実質的に試合を支配している選手)が勝利するという確率は極めて高いといえるでしょう。ただし、相手の棄権による勝利(またはその逆)の場合や双方の実力が極めて拮抗している場合(大接戦)はSMCI指数の値が高くても敗北することがあります。
2.ピアソンの積率相関係数を用いた獲得セット数とSMCRとSCRPの分析
ピアソンの積率相関係数とは2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標のことです。 勝利と敗北という区分は名義尺度ですので、勝敗を各選手の獲得セット数に変換してピアソンの積率相関係数による分析をしました。 (勝者の獲得セット数は常に敗者よりも多くなる。つまり獲得セット数の大小が実質的に勝敗の区別になることを利用した) ちなみに相関係数の値の見方は以下の表の通りです。 (http://www1.tcue.ac.jp/home1/abek/htdocs/stat/corre.html から引用)
分析結果です。
勝敗とSMCRの相関 0.61 :かなり高い相関がある 勝敗とSCRPの相関 0.68 :かなり高い相関がある SMCRとSCRPの相関 0.96 :極めて高い相関がある 以上の結果が得られました。
勝敗とSMCRとSCRPの相関性は共に高い値であると認められます。相関性とは2つのデータ間の類似性のことですから、勝敗とSMCRとSCRPとの間には高い相関があると言えます。つまり、ある選手の試合における実質的な支配度が高いレベルで勝敗に何らかの影響を与えているということです。 ただし誤解の無いように強調しますと、上記の結果はあくまで勝敗とSMCI指数の間に相関があると言っているだけです。決して因果関係ではありません。試合の実質的な支配度という「原因」が勝敗という「結果」に繋がっているのではありません。 そして、実質試合支配率(SMCI)とポイント実質支配レーティング(SCRP)という2つの指標の間には極めて高い相関があることが認められます。 SMCRは試合全体というマクロ的視点で評価する指標であり、SCRPは1ポイントというミクロ的視点を評価する指標です。この分析の結果から、2つの指標はマクロとミクロという視点の違いはありますが、どちらも試合の実質的な支配性を評価する上で極めて高い相関性があることが分かります。
上記の2つの分析(勝敗とSMCI指数の合致性と相関性)から、実質試合支配指数(SMCI指数)がテニスの試合の勝敗や内容を分析するのに実用レベルで有効な指標であるということができます。 また、上記の結果から以下のことも言えます。 「ある選手の試合における実質的な支配度」が高いレベルで試合の勝敗に影響を与える、少なくとも試合の趨勢に強い影響を与えるということです。
以下は周辺的な話です。
3.グランドスラムのスタッツのみを対象とした理由
SMCI指数を計算するには基本となる5つの要素が必要です。それは総点数(試合でプレーされた全てのポイント)、総得点(ある選手が獲得した全てのポイント)、ウィナー数、アンフォーストエラー数、フォーストエラー数です。そして、少なくとも総得点(TPW)、ウィナー数(W)、アンフォーストエラー数(UE)という3つのデータがあれば上記の5要素を準備できます。つまり、TPW、W、UEの3つのデータがあればSMCI指数を導き出せるということになります。 SMCI指数を計算するにはたった3つのデータがあれば十分です。そして、テニスの膨大なデータを提供してくれるフリーソフト「OnCourt」(宣伝ではありません)には、各試合のスタッツも載っています。しかし、意外にも上記の3つのデータを確実に発表している大会はグランドスラムのみです(少なくともOnCourtのデータベース上では)。 故に、SMCI指数を用いて確実に分析できる試合は、グランドスラムに限定されてしまいます。ただし、Liveや録画で試合を観戦できる場合は、ATPマスターズ1000やATPツアーファイナルでは各セットの終わりに発表されるサマリーにTPW、W、UEが載っていますので、それをもとにSMCI指数を導き出すことは可能です。それ以外のツアーもLiveや録画で試合を観戦できれば、上記の3つのデータを手集計することができます。 残念ながらATPの公式スタッツでは、WやUEのデータは載っていません。 上記の理由から、今回私がSMCI指数を用いて分析・集計した試合はグランドスラムに限定させて頂きました。