防守數據到底怎麼衡量?

    毫無疑問的,比起投球表現、比起打擊表現,防守是棒球場上最難被衡量的一環。在運動視界你可以找到很多有關評論投球成績的文章、或是分析球員打擊的文章,但你可能很難找到專門分析防守數據的文章,原因無它:防守難衡量、難懂、艱澀,尤其是進階數據,就算是有深度、對棒球了解夠多的球迷也許都對進階防守數據到底是怎麼算出來的、防守到底要怎麼衡量一籌莫展。 之前,我在運動視界看到了這篇由Todd大撰寫的好文,如果你還沒看過,在這裡非常推薦將其讀過一遍。這篇的概念相當易懂:防守很難衡量、進階防守數據很不可靠,它有限制。這篇整體來說點出了就連數據派也無法否認的點:防守數據能做的事情有限。然而,事實上大聯盟球團在實際運作的時候,不能否認的是每一支球隊的目標都是同一個-『找出可以幫球隊贏球的球員』。這個概念很簡單,球隊要用有限的資源盡量找出最好的投手、最好的打擊者、以及最好的防守者。這是球隊高層的工作,他們要找出能在任何地方幫助球隊的地方,投手端是這樣,打擊端是這樣,球隊也得找出能替球隊守下最多分數的球員。 因此,即使如上一篇Todd大的撰文提到,防守的確是很難衡量,事實上就連開發進階防守數據的發明者也認為數據無法盡善盡美,但以現階段來說,進階防守數據已經是衡量防守最好的工具,沒有之一。球隊需要可以減低失分的投手、需要可以幫忙爭取分數的打擊手,當然,不可避免的,球隊也要在投手身後放八個防守者。因此進階防守數據勢必還是有其利用的價值,Todd的好文點出了一些進階防守數據的缺陷,那篇是非常棒的觀點,也很有參考價值。但我認為一般讀者在熟悉進階防守數據到底有什麼問題之前,要先把一個問題搞懂,要是這個問題沒有搞懂,又怎麼能探討防守數據的問題?這個問題就是:進階數據到底是怎麼算的?到底有什麼優缺點?今天我打算講的是目前一般讀者能取得的、免費的、最進階的防守數據UZR,你在Fangraphs可以免費得到每個球員的進階防守數據UZR。什麼是UZR?UZR的概念其實非常簡單-比起同一個防守位置、聯盟平均的球員,某球員能比平均替球隊多防守下幾分、或是他的防守比起平均反而讓球隊丟了多少分數。一個+8UZR的三壘手代表他比一個防守平均的三壘手替球隊多守下8分的失分。 那麼UZR實際上到底是什麼運作、怎麼算出來的?大部分的人對UZR的感覺,

百家樂

都有一種這數據是劃分固定責任區域給各個野手,然而這是錯誤的印象。話不多說,來看看UZR一些的基本算法以及一些元素精神。以下是組成UZR的元素,列出14條如下: (1)UZR是記載了所有打進場內的球、以及被守備與否的數據。 (2)UZR不會依據場上的時刻不同給予相同的事件不一樣的分數價值。在第一局和第九局關鍵時刻守下一樣的球,能獲得的分數一樣。 (3)UZR採用的樣本都是依靠過去六個賽季來給分。比如說有一顆條件相同的飛球過去六年被接的機率是90%,那麼那顆飛球今年被接的預期機率也應該是90%。 (4)UZR分數計算實例:假設一顆飛球被打到中左外野,過去六年同速度、同落點的這種飛球有15%會被中外野手接殺、10%會被左外野手接殺,75%機會落地形成安打。假設這個落點的安打長期下來平均會讓球隊多得0.56分、被接殺出局球隊會少得0.27分。 結果有一個中外野手把這顆飛球接殺了,他能得到多少分數?接殺/沒接殺的差距一來一往的分數價值是0.83分,所以這個中外野手接殺的play的價值就是0.83分。不過聯盟內總共有25%的球員(15%中外野、10%左外野)可以接到這顆球,所以接殺這顆球的中外野手只擊敗了另外75%的球員,因此0.83要乘上0.75,

色碟

這個中外野手總共獲得0.6255分的UZR。 至於沒有接到球的左外野手沒有加分、也沒有扣分,由上可見,UZR並沒有劃定一個責任區要求野手一定要涵蓋哪個區域,而是看球有沒有落地形成安打。球沒有形成安打,就沒有野手會被扣分。另外這個球如果是左外野手接到,則由他獲得0.6255分、中外野手不加/扣分,所以誰接到就能獲得加分。 UZR還有一個有趣的設計,就是跑到別人管區接球的野手不能因為守備範圍大而獲得大量加分。假設有一顆價值0.83分的飛球,被左外野手接到的機率為80%、中外野手接到的機率只有10%、落地形成安打的機率也是10%,那麼中外野手奮勇接了這顆球,得到的分數只有0.83乘上10%、總共只能獲得0.083分的加分。雖然他接了中外野手通常接不到的球,但這顆球落地的機率本來就只有10%。如果今天是左外野手接了這顆球,得到的分數一樣是0.083分。 所以Todd大的文章之前提到了一個問題:以外野為例,假設三個防守範圍超大的外野手擺在一起的數據效率會互相影響;一大二小陣容的話,範圍大的野手則會有更多extra play沒錯,而且接球的人能有加更多分的機會,但事實上是飛到別人管區接球可以獲得的額外加分幾乎很有限。試問:一大二小陣容,如果中外野手可以飛到別人管區接到球,能獲得一點的加分本身其實很合理吧?如果改擺三個防守範圍大的外野手,各自縮小一點平常的防區,雖然的確損失了一些接extra play的機會,

BINGOBINGO

但事實上少接一些extra play、縮小一點防區、少一些『多管閒事』並不會影響防守分數太多才是。 (5)罰則:接住球代表守下分數,那麼沒接住球就代表讓球隊丟掉分數,所以當然要扣分。 舉剛才的『15%會被中外野手接殺、10%會被左外野手接殺,75%機會落地形成安打』這顆飛球繼續來當例子。假設這顆球被打到中左外野然後落地形成安打,罰則誰歸屬?答案是兩人一起負責。由於這顆球如果被守下來,由60%的機率會歸屬中外野手、40%的機率會歸屬左外野手,所以如果球沒被接到,責任歸屬也依據這個比例分配。前面提到這顆球被接的比例有25%,因此假設兩個外野手沒有接到這顆球,等於是低於聯盟內其他25%球員的表現。一樣,這顆飛球價值0.83分,所以負40%責任、低於其他25%球員的左外野手會被扣0.25×0.83×0.4=0.083分,中外野手則是扣0.25×0.83×0.6=0.123分。 所以老實說,Todd的理論也在這邊獲得了彌補。怎麼說呢?假設三個防守範圍大的人,他們衝去別人管區接球賺額外分數的機會的確可能少一些,但相對的,理論上三個防守範圍大的外野手讓球落地的機會也會遠比一大二小的陣容還要少很多,這三人被扣分的機率都會比一大二小的時候還要低。一大二小的陣容,範圍大的人同樣能到別人管區幫忙接球賺分數,但萬一他沒有接到,他身旁的隊友也因為範圍小被限制,那麼球落地的機會增多、那個範圍大的野手被扣分的機會也會增高。 當然,離自己管區越遠的球可以扣越少分,但這就相對的跟接離自己管區越遠的球一樣會得越少分的意思。沒錯,三個範圍大的人一起防守的確會讓你少接一些extra play,但事實上你也會少一點被扣分的機會,所以這是打平的。也就是說,在大家範圍都很大的時候,某個野手希望保護自己而不用100%的力量去接管區外的球,他的確會少賺一些play,但大家範圍都很大的好處就是球被接住的機會就越大,前面有提,只要球被接住,不管誰接的,就沒有任何野手會被UZR扣分。 看完了UZR主要算法,我知道防守數據還是有很多缺陷,比如說環境的差異問題,別擔心,防守數據針對環境變異多有校正,就讓我們繼續往下看。 (6)打出去的球依據落點、速度來區分,

5298線上娛樂

因為守備不同類型的來球難度大有不同。防守上的分類有:觸擊短打、滾地球、外野平飛球和外野高飛球,依據四種分類來將野手真正對不同類型的來球守備能力區分開來。 (7)雙殺的計分方式:純粹只看在雙殺的守備機會中達成的比例高於或是低於聯盟平均。 臂力計分方式:看野手在接到球的時候,壘上的跑者會進壘、停在壘包還是被助殺來給分。給分方式是和過去六年的資料相比,找出速度、落點相符的球,並觀察這些球過去雙殺、助殺、跑者進壘/停留在壘包上的機率,再算出野手的Play替球隊守下了多少分。 臂力計分球場校正:球場的環境不同會影響到球員臂力得分的多寡,所以應該給予校正。比如相同的飛球打到擁有綠色怪物的紅襪芬威球場,很容易就因為打到距離短小的牆上反彈,打者本來就很難進壘;相同的飛球在廣大的落磯球場卻很可能造成重傷害、打者進壘容易,所以臂力計分會考慮球場因素做校正。 (8)場上有三種情況的防守會被獨立開來計算,因為這時候守備員的站位會跟一般不一樣,所以就不能用一般情況來計分:1.出局數小於兩出局、一壘或二壘有跑者的時候(這時候的站位很可能會防觸擊)2.一壘有跑者、二壘空的時候(這時候一壘手會站位靠近一壘顧跑者) (9)左打者上場打擊和右打者上場打擊的時候守備員的站位會不同,因此UZR有區分是哪一手的打者上場打擊,以免因為守備員不同的站位而漏記一些東西。 另外,跑者速度越快、擊出的球速度越快的守備難度比速度慢的跑者、擊出慢球還要難守,因此這兩項一樣有做區分。再來,之前Todd有提到防守數據無法排除守備佈陣影響,然而UZR顯然選擇了相當明確的做法-任何有佈陣的防守,UZR一概忽略,這樣一來就不會因為佈陣而錯估球員真正的防守能力。 (10)打者打出去的球力量越強越難守,加上防守者對於大棒子和小水槍的防守站位一定會不同,所以UZR又依據平均飛球距離區分了打者類型來分開計算防守分數。(11)直接被打到牆上無法防守的球,UZR也是直接忽視不給計分,所以沒辦法接的球打到牆上並不會扣防守者分數。 (12)180呎內的內野高飛球、內野平飛球的play一概忽略不計,理由是接住內野強襲球通常靠的都是站位剛好站對的運氣,並非他能判斷去哪裡接平飛球,平飛球太快以致於沒人能掌握他的第一時間動向以及將其攔住。 (13)球場校正:每個球場的環境大不相同,有利防守的程度也不同。UZR系統將大聯盟每個球場的外野劃分成六塊區域,芬威球場的左外野深處區域因為綠色怪物影響很難接飛球,飛球被接的機率只有平均球場的50%;相對的,寒冷潮濕外野又寬廣的水手外野,球被接的機率就比平均球場高上100%左右,在兩個不同球場接到同樣的球機率條件不盡相同,這就是為什麼要有球場校正的原因。 (14)根據Todd在文章所提,防守數據的缺點是年與年的相關比起攻擊數據低很多,這是真的嗎?UZR的發明人也的確說明了下列這點:攻擊指數年與年的相關指數為0.7、防守數據年年相關的指數只有0.5,所以看起來防守數據年與年真的很差勁。但事實上,這數字的意思代表一個球季的攻擊數據其實和一個半季的防守數據是等價的,其實差距也沒有想像中的那麼大。 老實說很多Todd上一篇文章對於防守數據的疑問,UZR大致上都有一定的解答-舉凡站位問題,UZR在計算中也有依據場上不同的情況可能造成的不同站位分開來計算;三個防守範圍大的球員的確沒辦法衝到別人管區接球賺分數,但相對的球落地形成安打害他們扣分的機會也變小了;另外諸如球場、左右打者可能造成的不同站位UZR也都有考慮在內;還有打者是否為是強力型打者造成的防守站位差異,UZR同樣也有做分類。或者說,Todd大曾經在上一篇提過佈陣的疑問,

娛樂城推薦

事實上是UZR會忽略掉球隊執行佈陣的play不列入計算,這樣球員真正的防守能力數據才不會含括太多雜訊當然,不管怎麼說,UZR的確已經竭盡所能的處理掉很多問題,不過就連發明人都認為防守本來就是相當相當難量化的東西。然而就跟我們沒有親眼看過恐龍依然能推敲他們大概的年代、大概的座落年代一樣,有進階防守數據我們也有參考的依據,至少大樣本來看,防守數據其實是相當不錯的依賴工具。 對於防守數據UZR,開發他的人Mitchel Lichtman對於UZR是這樣的說法: there is no guarantee that our UZR number reflects what the player actually did or his true defensive talent over that time period. But, it is the best we can do (not knowing anything else about that player)! 沒錯,防守的確是很難衡量的東西,沒有數據可以真的抓到衡量防守的每一部分,但如同文章最一開始講的,我們找出好投手、找出好打者,也要找出好防守者,而進階防守數據是所有不完美的衡量工具中最完美的,當然,是沒有之一。事實上我也不認為防守數據有那麼不堪,如上,我這篇已經列出所有的細節以及算法,你可以發現UZR已經可以解決了問題、校正了很多站位/環境的問題。 然而,在Todd的文章中有一句提到了非常關鍵的點:UZR不管場上的情況如何,只依據長期下來的平均數據來計算球員守下/失去多少分數。舉例來說,一顆飛球落地形成安打理論上長期下來平均會比球被接殺能讓球隊得0.83分,但事實上同樣的飛球在第一局無人在壘、以及第九局下半滿壘的影響力是絕對不同的。假設關鍵守備是一種能力,UZR顯然不會記載進去,因為不管何時接到這顆球,UZR都會認為這顆球長期下來是值同等的分數。 這樣聽起來或許有失公允,但實際上這樣的算法真的是那麼重大的錯誤嗎?假設關鍵守備是一種能力,關鍵時刻的守備應該給予更重的加權價值,問題來了,這也會連帶的牽涉其他環節的數據-比如說打擊成績,是不是也得依據場上時機加權?假設我們攤開紀錄簿,看到的是一個打者整季下來平均的成績.300/.400/.500的打擊三圍,但跟防守數據一樣,我們同樣不知道他在關鍵時刻/非關鍵時刻表現的如何,那麼這份數據就不客觀了嗎?很顯然的,看打擊數據我們多半使用的也都是線性的、等價的打擊數據,比如說wOBA和wRC+都是不分時機點的給予相同事件相同的價值。當然,這很可能會讓我們低估了某些子常在關鍵時刻或後段局數上來守備的球員,也許某些球員都會在特定的時間上來去接更有價值意義的飛球,但一樣的,一些專職的代打者打出的三成打擊率的價值就比一般打者的三成打擊率價值還要高了嗎?我們平常看數據表的時候也似乎都沒有特別的這樣區分認定。 我承認防守數據的確不是盡善盡美,而且也有相當的限制-比如說給予同個事件相同價值、不分時機關鍵與否或許是個瑕疵,但事實上很多棒球數據本來就是這樣設計而來。 另外,既然都特地寫了一篇防守數據,我認為也可以順便談談UZR非常不穩的固定性、以及要怎麼用這個數據。事實上我剛才提到的UZR年與年的相關性是0.5,但這是2009年Litchman給的數字,現在已經是2015年,這數字真的都沒有進步嗎?我個人是不太相信,假設有進步,也許比起攻擊指數年與年的相關性0.7,UZR並不是一項預測能力差到超乎你我想像的數據。 不過,看UZR還是偶爾會看到像是下列兩種案例:A防守者過去三年分別守下+0、-1、+1分,;B防守者過去三年分別守下-7、+11、-5分,你的解讀很可能是A防守者是很平均的防守者,B則是時好時壞、很不穩定的防守者,事實上這個觀念是錯的,比較好的做法是認定兩個人都是接近聯盟平均的防守者才是比較正確看待UZR數據的用法。UZR當然還是充滿雜訊的數據,所以對一季的樣本過度反應都是大忌的事情-B防守者突然從-7分的防守者變成+11分,比較安全的做法是假設他的防守是在聯盟平均左右、而不是他的防守突然變好或變差。UZR終究是個不完美產品,前述有提,防守數據是一種參考、一個量尺,事實上本來就不是絕對。但這已經是我們衡量防守最佳的方法,沒有之一。但,萬一我們手上擁有的樣本少的可憐,該怎麼使用防守數據?Litchmam的建議是,UZR本來就不是絕對真理的數據,所以以一年的樣本來說,

高登棋牌

他建議用『折半迴歸法』,也就是說一個在一年內守下10分的選手,只有一年樣本可以參考的他最好被假設為一個未來可以守下5分的選手。如果是只有一個月的樣本則是建議迴歸85%,一個在一個月內被UZR認為守下10分的球員,你最好先假設他過去一個月是個+1.5分的防守者。當然,越多樣本之後就不用再做那麼重的迴歸。 另外,根據防守數據UZR統計結果發現,聯盟內絕大多數的球員防守巔峰期都是在20歲到20歲中段之間,進入20中段以後的年紀,防守數據就會開始退化,比起進攻數據,防守數據是衰退的非常早的。這似乎不難令人理解-在20初頭的年紀才是球員生理上最強壯的時期,聯盟最高的三壘安打率也都是屬這個年紀的球員最高,因為這時候他們的身體素質最好。等到20尾段的時候這些身上已經有不少里程數、傷痛的球員就會受到身體上的限制而造成數據端的下滑。所以防守是巔峰相當早、衰退也來的相當早的數據,和進攻甚至投球大有不同。 防守數據的確沒辦法盡善盡美,但我認為Litchman說的沒錯:UZR已經盡可能的校正變因,力求更貼近事實一些。但這就像我們只能推估暴龍生存的年代而無法準確透知精確年份一樣-這個世界上縱是存在些不完美。防守數據的確是不完美,但他已經是夠不賴的參考依據。  歡迎讀者討論( ^ω^) 歡迎光臨MLB Corner收看更多棒球文章!! 如果希望看到更多其他運動的好文,也歡迎找Kal El Sports粉絲團!       ,