2017-05-07

トップ選手のランクと年齢の関係をプロットしてみました

きっかけ

早川遠藤ペアが解散して新たに遠藤渡辺ペアが結成されたが、個々の能力は高いもののあまり結果が出ていなくて寂しい…。やっぱりダブルスは年が離れていると色々難しいんだろうか。

そうだ、トップ選手のランクと年齢の関係を調べよう。ついでにシングルスも調べよう。

調査内容

tournamentsoftware.comには、2009/10/8以降の世界ランキングが週ごとに掲載されています。

BWF - BWF World Rankings - Overview

これとは別に、選手のプロフィールをまとめたページには、誕生日の情報が公開されています。

BWF

この二つを紐付けると、2009/10/8以降の各週において、何歳の選手が世界何位だったかが分かります。2009/10/8～2016/12/22までの計377週のデータを使って、（m歳, n位）の組み合わせが何回登場するかを数え上げて、横軸を年齢、縦軸を年としたヒートマップをプロットして眺めてみます。

結果その1（年齢の分布）

横軸は1000位まで、縦軸も適当な値で打ち切っています。青→赤となるにつれてデータ数が多かったことを表します。

男子シングルス

f:id:tenjin7:20170507130323p:plain

世界ランク上位ほど（横軸で左側ほど）、赤い領域が高年齢の領域まで広がっています。つまり、上位になるほど高年齢の選手が多いということです。この傾向は別の種目にも表れます。強い人は年齢を重ねても強いのと、上位に食い込めない選手は早いうちに見切りをつけて引退するのが理由だと思っています。

時々いる60歳ぐらいの選手のことがとても気になります。何者なんだ。

女子シングルス

f:id:tenjin7:20170507131254p:plain

女子シングルスは他の種目に比べてトップ選手の年齢層が若いです。そう言われると、トップ選手の引退が早い気がしなくもない。結婚や出産を考えてのことなのでしょうか。最高齢は40歳程度です。

男子ダブルス

f:id:tenjin7:20170507131656p:plain

トップ選手ほど高年齢である傾向はどの種目も変わりませんが、男子ダブルスはよりその傾向が強いです。50代後半で100位以内に入った選手がいるのが恐ろしい。

女子ダブルス

f:id:tenjin7:20170507132000p:plain

男子ダブルスに比べると若め。

混合ダブルス

f:id:tenjin7:20170507132009p:plain

男子シングルス、男子ダブルスに比べると最高齢が40代後半と若いです。やっぱりおじさんと組みたい女子選手は少ないのでしょうか…。

結果その2（ペアの年齢差の分布）

今度はダブルスに絞って、年齢差とランクの関係をプロットしています。全種目まとめて。

f:id:tenjin7:20170507151619p:plain f:id:tenjin7:20170507151626p:plain f:id:tenjin7:20170507151629p:plain

どの種目も、年齢差の小さいペアが上位に多い気もしますが、単に年齢差の小さいペアの数が多いだけかもしれません。ランクに関係なくグラフの下の領域（年齢差が小さい領域）が全体的に赤いですからね。

混合ダブルスは年の差カップルが多いようです。

混合ダブルスその2

先程のプロットは年齢差の絶対値でしたが、混合ダブルスのみ、（男子の年齢－女子の年齢）を計算してプロットしてみました。

f:id:tenjin7:20170507151638p:plain

年齢差が正の領域と負の領域で傾向に大きな差は見られません。てっきり男が年上のが多いのだと思っていましたが、そうでもないようです。

結果その3（ペアの年齢差の分布）

今度は、年齢差が0～4歳、5～9歳、10～14歳である三つのグループに分けて、それぞれのグループの総数に対する各ランクの割合をプロットしてみます。これによって、年齢差が小さいペアと大きいペアでそもそも母数が異なって比較できない問題が解消されることを期待します。これも全種目まとめて。

縦軸がpercentageとなっていますが、100倍していません。ごめんなさい。

f:id:tenjin7:20170507151642p:plain f:id:tenjin7:20170507151645p:plain f:id:tenjin7:20170507151648p:plain

混合ダブルスは5～9歳差が最も上位に集中しています。他の2種目は年齢差が小さいほど良さそうです。遠藤渡辺ペアの年齢差は11歳です。これは…しんどい？

混合ダブルスは5～9歳差が良い現象が気になります。そもそもそのぐらいの差があるということは、片方は高齢までプレーを続けているベテランなので、生存バイアスがかかっているかもしれませんが…。

結論

遠藤渡辺ペア頑張れ！！！

2016-08-23

ホームだとアウェーより勝率にして10%程度有利のようです

　リオオリンピックで、高橋松友ペアと奥原がメダルを獲得しました（しかも高橋松友は金！）。こうなると、当然東京オリンピックに期待が膨らみます。

　スポーツ全般に渡って、ホームとアウェーではホームが有利と良く言われます。これが正しければ、東京オリンピックはリオオリンピックよりも更に期待度が上がるわけですが、果たして本当なのでしょうか。個人的な話をしますと、私は極度のチキンなので、ホームの方が緊張で勝てないような気がしてしまいます。

　というわけで、調べてみました。

調べ方

　過去のスーパーシリーズのうち、対戦当時の両者の世界ランクが判明している試合（12958試合）を対象とします。

　ホームかアウェーかで勝率に影響があるかを調べたいわけですが、両者の実力差を考慮しないで平均をとっても意味のある結果になるとは思えません。そこで、世界ランクから両者の実力差を大雑把にグループ分けし、グループごとにホームかアウェーかによる勝率の違いを調べてみました。

実力差の定義

　スーパーシリーズはトーナメント方式で行われるため、それに基いて決まる世界ランクは、そのまま扱わずに、log2を取った方が良いと思われます。（1位と2位、20位と21位では、1位と2位の実力差の方が大きいはずです。）

　今回は、両選手の世界ランクをr1, r2としたときに、log2(r2) - log2(r1)の切り捨て値を実力差と定義しました。この値が大きい程、世界ランクr1のプレーヤーの方が強いことになります。

結果

　こちらを御覧ください。

f:id:tenjin7:20160823175223p:plain

　横軸が実力差、縦軸が各実力差での勝率を表します。そして、ホームの場合とアウェーの場合、２パターンの折れ線をプロットしました。（ホームとアウェーの折れ線は、互いに点対称となります。）

また、次の図は、上の図に信頼区間95%のエラーバーをつけたものです。エラーバーが入ると見づらいと思ったので、図を分けました。

f:id:tenjin7:20160823175622p:plain

　信頼区間を考慮しても、ホームの方が有利と言って良さそうです！こんなにはっきりした結果が出るとは思いませんでした。

　定量的な読み方は色々あると思いますが、ホームかアウェーかで、勝率が10%程度変わりそうです。あるいは、ホームだと自分に対して世界ランクが半分程度の相手と対等に戦えそうです。

結果2 - 日本人に限ってみる

　次に、先ほどのプロットを日本人に限ってみます。二つの図をまとめてどうぞ。

f:id:tenjin7:20160823180105p:plain

f:id:tenjin7:20160823180110p:plain

　日本人に限ると、そもそもサンプル数が少ないためにあまりはっきりしたことは言えなさそうです。点推定の結果を盲信するなら、日本人はホームだと強い選手に勝ちやすい（横軸-5～-1程度参照）が、同時に弱い選手にも負けやすい（横軸2～4程度参照）といった感じでしょうか。

まとめ

　何はともあれ、ホームだと有利のようです！東京オリンピックも安心して見れるかも？

2016-07-10

先に11点取ることには意味がありそうです（続）

（前回の記事を先に御覧ください） badiary.hatenablog.com

前回の記事で、互いの実力が同じ（＝その後の全てのラリーの勝率は五分五分）という仮定を置いて分析していたのですが、よくよく考えると、分析の対象を第3ゲームに限定すれば、その仮定がより担保されそうです。（ファイナルゲームまでもつれる試合なので、実力の拮抗度合いは高まるでしょう）

というわけで、同じ分析をさっくり行ってみました。

結果

結果は下記の通りです。

sample_num   : サンプル数。多い程結果の信頼性が高いと思われます
importance   : 実際の重要性（その場面でのラリーの勝敗によるその後のゲーム取得率の差）
importance_T : 理論的な重要性。
diff         : 実際の重要性 - 理論的な重要性。

（diffの絶対値が大きい順にソート）

    scores sample_num  importance importance_T         diff
 1:  27-27          9 -0.55555556    0.5000000 -1.055555556
 2:  26-26         11  0.09090909    0.5000000 -0.409090909
 3:  28-28          8  0.75000000    0.5000000  0.250000000
 4:  10-10        994  0.26156942    0.1761971  0.085372364
 5:  25-25         24  0.58333333    0.5000000  0.083333333
 6:  24-24         40  0.45000000    0.5000000 -0.050000000
 7:    7-7       1224  0.20261438    0.1549810  0.047633362
 8:    8-8       1112  0.20863309    0.1611803  0.047452836
 9:  21-21        278  0.54676259    0.5000000  0.046762590
10:  22-22        150  0.54666667    0.5000000  0.046666667
11:  12-12        921  0.23995657    0.1963806  0.043575954
12:    2-2       2308  0.16724437    0.1320606  0.035183768
13:    9-9       1051  0.20266413    0.1681881  0.034476034
14:  19-19        599  0.53255426    0.5000000  0.032554257
15:  18-18        661  0.40695915    0.3750000  0.031959153
16:  11-11        934  0.21413276    0.1854706  0.028662181
17:  13-13        839  0.23718713    0.2094727  0.027714471
18:  16-16        732  0.30054645    0.2734375  0.027108948
19:  15-15        750  0.27200000    0.2460938  0.025906250
20:    0-0       6006  0.14785215    0.1253707  0.022481460
21:    4-4       1661  0.12221553    0.1399499 -0.017734401
22:    3-3       1935  0.15348837    0.1358338  0.017654613
23:  23-23         66  0.48484848    0.5000000 -0.015151515
24:    1-1       3074  0.14313598    0.1285853  0.014550659
25:  14-14        811  0.21578298    0.2255859 -0.009802954
26:    5-5       1491  0.15358820    0.1444644  0.009123748
27:  17-17        691  0.30535456    0.3125000 -0.007145441
28:  20-20        572  0.50349650    0.5000000  0.003496503
29:    6-6       1347  0.14773571    0.1494460 -0.001710272
30:  29-29          4  1.00000000    1.0000000  0.000000000

考察

前回の分析よりも、10-10の特異性が際立つ結果となりました。ばんざーい。

グラフにしてみるとよく分かります（前回の記事でも載せるべきでした）。こちらが第3ゲームに絞った場合のグラフです。10-10が特別な局面であることが伺えます。 f:id:tenjin7:20160710212737p:plain

こちらは第1ゲーム～第3ゲームをまとめたものです（前回の記事と同じ分析結果）。ちょっと分かりづらいですね。 f:id:tenjin7:20160710213009p:plain

母集団って大事だなあ。

2016-07-10

先に11点取ることには意味がありそうです

以前の記事で、先に11点取ることには意味がなさそうだと書きました。 badiary.hatenablog.com

ただし、解析が随分あっさりしていたので、もう少し詳細に調べてみたところ、先に11点を取ることには意味がありそうだという結果が出ました。

調査方法

まず、過去のスーパーシリーズ全ての試合について、tournamentsoftware.comで以下のように公開されている、スコアの途中経過のデータを入手します。 f:id:tenjin7:20160710182951p:plain

そして、同点の場面で、ラリーに勝った場合と負けた場合のその後の勝率の差を計算してみました。

例えば、10-10の場面で、ラリーに勝った場合（11-10となった場合）と負けた場合（10-11となった場合）の、その後のゲームの取得率を調べます。そして、その取得率の差を見ることで、先に11点取ることの重要性が分かるのではないか、と考えました。（以降、この取得率の差を「重要性」と呼びます。）

評価方法

同点の場面に限っているので、思い切って互いの実力が同じ（＝その後の全てのラリーの勝率は五分五分）だと仮定します。この仮定の下で、先にn点取ることの理論的な重要性を計算できます。理論的な重要性と実際の重要性を比べて、考察をします。

結果

結果は下記の通りです。

sample_num   : サンプル数。多い程結果の信頼性が高いと思われます
importance   : 実際の重要性（その場面でのラリーの勝敗によるその後のゲーム取得率の差）
importance_T : 理論的な重要性。
diff         : 実際の重要性 - 理論的な重要性。

（diffの絶対値が大きい順にソート）

    scores sample_num importance importance_T          diff
 1:  28-28         29  0.7931034    0.5000000  0.2931034483
 2:  25-25        150  0.4266667    0.5000000 -0.0733333333
 3:  26-26         83  0.4457831    0.5000000 -0.0542168675
 4:    2-2      17214  0.1826420    0.1320606  0.0505814360
 5:    3-3      13878  0.1828794    0.1358338  0.0470456179
 6:  10-10       6918  0.2231859    0.1761971  0.0469888399
 7:    0-0      44284  0.1682775    0.1253707  0.0429067941
 8:    1-1      22968  0.1700627    0.1285853  0.0414773753
 9:    7-7       8566  0.1949568    0.1549810  0.0399757889
10:    8-8       8004  0.1996502    0.1611803  0.0384699171
11:    4-4      11906  0.1770536    0.1399499  0.0371036523
12:  12-12       5982  0.2290204    0.1963806  0.0326397793
13:  11-11       6384  0.2149123    0.1854706  0.0294416996
14:    5-5      10403  0.1717774    0.1444644  0.0273129238
15:    6-6       9480  0.1755274    0.1494460  0.0260814454
16:    9-9       7360  0.1923913    0.1681881  0.0242032093
17:  24-24        277  0.5234657    0.5000000  0.0234657040
18:  14-14       5328  0.2477477    0.2255859  0.0221618102
19:  17-17       4687  0.3330489    0.3125000  0.0205488585
20:  13-13       5597  0.2252993    0.2094727  0.0158266112
21:  16-16       4892  0.2869992    0.2734375  0.0135616823
22:  18-18       4418  0.3870530    0.3750000  0.0120529651
23:  21-21       1989  0.5113122    0.5000000  0.0113122172
24:  27-27         49  0.5102041    0.5000000  0.0102040816
25:  20-20       3907  0.5080625    0.5000000  0.0080624520
26:  22-22       1035  0.5072464    0.5000000  0.0072463768
27:  23-23        522  0.5057471    0.5000000  0.0057471264
28:  15-15       5034  0.2499007    0.2460938  0.0038069254
29:  19-19       4108  0.5004869    0.5000000  0.0004868549
30:  29-29         15  1.0000000    1.0000000  0.

考察

上３つ（28-28, 25-25, 26-26）は、サンプル数が少ないので無視します。

また、全体を通して正の値が多いですが、これは実力が同じという仮定からのずれによるものと思われます。同点の場面からラリーに勝った母集団とラリーに負けた母集団では、前者の方がそもそも（そのラリーに勝つ分だけ）強い選手の視点に立っているからです。

そして、この仮定からのずれは、序盤であるほど大きいと予想されます。これが、序盤であるほどdiffが大きい傾向となっている理由でしょう。

これらを考慮すると、10-10の場面での一点の重要性が6番目に高い結果となっているのは、特別な意味があるように思えます。（10-10が他に比べて「浮いている」ように見えます。）それは、やはり11点でインターバルに入るからではないでしょうか。

まとめ

同点の場面に限ると、特に10-10の場面でラリーに勝つかどうかは、その後のゲーム取得率への影響が大きいようです（3～4%程度？）。リードしつつインターバルを迎えることが、選手にとってプラスに作用するのでしょう。

2016-06-12

ペアの組み換え回数を調べてみた

　前回の記事で、「MDやWDに比べてXDはペアの組み換えが少ない」という予想を立てていました。男女のペアなので、人間関係やらなんやらを考えると同姓同士よりも組み換えがし辛いと思ったからです。なので、調べてみました。

　今回は、ダブルスで過去にスーパーシリーズに対戦したことのある選手と、その選手と過去に（スーパーシリーズに限らず）ダブルスで戦ったことのある選手を対象として、過去にその選手が何人とペアを組んだことがあるかをカウントしました。

結果

　プロットを二つ用意しました。まずはこちら。

f:id:tenjin7:20160612164107p:plain

　横軸は、今までにペアを組んだことのある選手の数を表します。そして、縦軸は、その正規化された累積分布を表します。

　これを見るとXDの累積分布が常に最も高いです。つまり、XDが最もペアの組み換えが少ない種目だということです（パートナーの数が少ない選手の割合が高いので）。

　どうやら予想は正しかった。

　と喜んだのも束の間、二つ目のプロットです。

f:id:tenjin7:20160612164421p:plain

　これは、先ほどのように正規化せず、累積もさせず、単に今までにn人の人とペアを組んだことのある選手の数を棒グラフでプロットしたものです。

　これを見ると、そもそもXDのペアの数がとても多いことが分かります。大会の数は全種目で共通なので、XDは新しいペアが生まれては消える種目のようです。

　パートナーの人数が10人を超えた辺りからはMD,WDとあまり変わらないので、パートナーの人数が10人以下の選手が他二種目に比べて多く、それが一つ目のプロットの累積分布関数を押し上げていたようです。

考察

　XDは、あまりペアの組み換えは多くないが、そもそもXDに挑戦しようとする選手が多く、また挑戦後にXDを諦める選手も多い、というのが事実のようです。確かに、XDを本業とする選手は少ないので、このような結果も納得できます。

　しかし、本来調べたかったのはそういうことではなく、XDを本業としている人のペアの組み換えが少ないかどうか、でした。これを調べるには、XDのペアの中でも、ある程度世界ランクが上のペアのみを対象として調べた方が良さそうです。

　現状持っているデータではそれが難しそうなので、今後の課題とします。

番外編　パートナーの組み合え回数ランキング

　過去最も多くの人とペアを組んだ選手は誰なのか、気になりますよね。調べました。

                   name Doubles XD total
 1:       Dharma GUNAWI      40  9    49
 2:      Charmaine REID      28 15    43
 3:        Robert BLAIR      29 12    41
 4:      Roman ZIRNWALD      25 15    40
 5:  Anastasia RUSSKIKH      16 23    39
 6:        Natalie MUNT      21 17    38
 7:        Vita MARISSA      20 17    37
 8:   Kate WILSON-SMITH      16 21    37
 9:         Jurgen KOCH      19 18    37
10:        Jan FROHLICH      21 15    36
11:          Tina RIEDL      19 16    35
12:      Simone PRUTSCH      18 17    35
13:      Michal MATEJKA      24 10    34
14:   Halim Haryanto HO      26  8    34
15:      Birgit MICHELS      17 16    33
16: Johanna GOLISZEWSKI      23 10    33
17:       Heather OLVER      21 12    33
18:       Julie HOUMANN      17 15    32
19:              Joe WU      18 14    32
20:        Tim DETTMANN      15 17    32

　なんだか、知らない選手が多いです。有名どころは、Vita MARISSA（7位）、Halim Haryanto HO （14位）、Birgit MICHELS（15位）ぐらいでしょうか…。

　ペアを組み替えるということは、相方の引退を除けば、そのペアが上手くいっていないということなので、あまり成功していない選手が多いのかもしれません。

2016-05-08

優勝者とシードの関係を調べてみた

　そこにトーナメントがあれば、誰でも優勝者の属性を分析したいと思うはずです。私もそうです。　良い指標として、シードと世界ランクが考えられますが、まずは簡単なことからということで、過去のスーパーシリーズの優勝者をシードごとに集計してみました。

　今回対象としたのは、2007年から現在までのスーパーシリーズ全112大会のうち、第8シードまでの情報がはっきりしている108大会です。

集計結果

　プロットを二つ用意しました。一つ目は単純にシードごとに優勝者を集計したものです。 f:id:tenjin7:20160508172436p:plain

　二つ目は、それらを累積値に変更したものです。つまり、第nシードまでが優勝する割合をプロットしています。 f:id:tenjin7:20160508172443p:plain

考察

　種目別に考察してみます。

MS（男子シングルス）

　第1シードの優勝者が多いですね。このことから、MSは番狂わせが少ない種目であると言いたくなりますし、自分の直感でもそうです。しかし、第1シードの優勝者の内訳を調べると、

Lee Chong Wei ：　31回
Chen Long　：　7回
Lin Dan　：　5回

となっているので、Lee Chong Weiがおかしいだけかもしれません。

WS（女子シングルス）

　第1シードが最も優勝できていません。シードは前年度の結果を考慮して決められているので、第1シードが優勝するということは、1年以上に渡って支配的な選手がいるということになると思います。思えば、WSは支配的な選手の入れ替わりが激しいかもしれません。（中国一強の時代はありましたが、Li Xuerui、Wang Yihang, Wan Shixianなど、中国の中でも強さが分散していました。）

　第6シードの優勝者が多いですね。何でだろう。

MD（男子ダブルス）

　最も番狂わせが起こる種目だと思っていたのですが、意外にもMSに次いで第1シードの優勝率が高いです。（No Seedが優勝する割合は最も高いのですが…。）Lee Yong DaeやHendra Setiawanを中心として8ペアが第1シードで優勝していて、MSのように異常なペアが数を稼いでいるわけでもありません。

　優勝者だけ調べても番狂わせ度合いを捉えることはできないのでしょうか…。

WD（女子ダブルス）

　女子ダブルスというと、（最近はともかく）中国が安定して強い種目ではありますが、中国の強い選手がペアをころころ組み替えるので、シードや世界ランクがあてにならない種目でもあります。

　その結果…なのかは分かりませんが、第5シードの優勝者が異様に多いです。なんだこれ。

XD（混合ダブルス）

　第一印象：Zhang Nan, Zhao Yunleiが強い（第1シード優勝28回中16回）。　XDはMDやWDと比べてペアの組み換えが少ないはずなので、シードや世界ランクが強さをしっかり表している傾向があるはずです。

　…特に考察することが思い浮かばない。本当にMDやWDと比べてペアの組み換えが少ないか調べてみたいですね。

得られた知見

　女子ダブルスで第5シードに賭けると儲かるかもしれません。賭博はダメですけど。　

2016-04-02

スーパーシリーズで誕生日に優勝したのは奥原が（たぶん）三人目

先月のALL ENGLAND OPENで、奥原が誕生日に見事優勝を果たしました。優勝インタビューでもそのことが触れられていますし、ニュースにもなっています。 youtu.be（1:44:18頃から）
www.japantimes.co.jp

スーパーシリーズは2007年から行われていますが、同じように誕生日に優勝した選手が過去にいるのか、とっても気になります。

使用データ

tournament softwareには、登録されている選手のプロフィールページがあります。
bwf.tournamentsoftware.com
ここに誕生日も書いてあるので、過去のスーパーシリーズ（2007年～）の大会結果とこのプロフィールページの情報を紐付けて、誕生日の優勝者がいるか調べてみます。
ただし、誕生日の情報がない選手もいます。過去のスーパーシリーズ参加者（2590名）のうち、誕生日の情報があるのは1880名（約73%）です。（優勝経験者になるとプロフィールが充実している割合も高く、約91%に誕生日の情報がありました。が、100%ではないです。）

結果

タイトルの通り、奥原より前に二人発見できました。ただし、誕生日の情報がない選手もいる以上、三人目とは断定できません。

Lee Chong Wei

彼の誕生日は10/21。YONEX DENMARK OPEN 2012にて、2012/10/21に優勝しています。めでてえ。
bwf.tournamentsoftware.com
誕生日の優勝であることが、記事にもなっています。
Denmark Open: Day 6 - Chong Wei ‘Ce-Lee-brates’ Birthday with Denmark Open Win - Badminton World Federation

Candra Wijaya

彼の誕生日は9/16。YONEX OPEN JAPAN 2007にて、2007/9/16に、Tony Gunawanと組んで優勝しています。
bwf.tournamentsoftware.com
当時はCandra / Tony 全盛期でしたね。誕生日に触れた記事は見つかりませんでした。

番外編：誕生日に決勝で負けた人

いました。

Tai Tzu Ying

彼女の誕生日は6/20。SINGAPORE OPEN 2010にて、2010/6/20に、Saina Nehwalに負けて準優勝しています。つらい…。
bwf.tournamentsoftware.com

おわりに

選手が誕生日に優勝したということは、誰が発見するものなのでしょうか。Lee Chong Weiはあまりにも有名なので気づきそうなものですが、今回の奥原に関しては、自分で予め話しておいたのでしょうか。あるいは、世界のどこかにバースデーおじさんがいるのでしょうか。気になります。