Está en la página 1de 238

TEOREMA DE BÉ ISBOL SPYTHAGOREANTE

Cuantas má s carreras anote un equipo de béisbol, má s juegos


debería ganar el equipo. Por el contrario, cuantas menos carreras
abandone el equipo, má s juegos debería ganar el equipo .

rics), estudió muchos añ os en la clasificació n de Major League Baseball


(MLB) y

encontró que el porcentaje de juegos ganados por el equipo de béisbol


puede ser bien aproximado por la fó rmula

carreras anotadas 2
estimació ndeporcentaje
(1)
=
carreras anotadas 2 + carreras permitidas 2 de juegos ganados.

Esta fó rmula tiene varias propiedades deseables.

El porcentaje de ganancias previsto siempre está entre 0 y 1.

Un aumento en las carreras marcó un aumento en el porcentaje de victoria previsto.

Una disminució n en las carreras permitió aumentar el porcentaje de ganancias


previsto.

Considere un triá ngulo rectá ngulo con una hipotenusa (el lado má s
largo) de longitud c y otros dos lados de longitud ayb. Recuerde de la
geometría de la escuela secundaria que el teorema de Pitá goras establece
que un triá ngulo es un triá ngulo rectángulo si y solo si a 2 + b 2 = c 2 . Por
ejemplo, un triá ngulo con lados de longitudes 3, 4 y 5 es un triá ngulo
rectá ngulo triá ngulo porque 3 2 + 4 2 = 5 2 . El hecho de que la ecuació n (1)
sume los cuadrados de dos nú meros llevó a Bill James a llamar a la relació n
descrita en (1) Teorema de Pitá goras de Baseball.

Vamos a definir
carreras anotadas
R= como proporció n de puntuació n del equipo. Si
dividimos
carreras permitidas

el numerador y el denominador de (1) por (ejecuciones permitidas) 2 ,


luego el valor de la fracció n permanece sin cambios y podemos reescribir
(1) una ecuació n (1) ' .
R2
= estimació n del porcentaje de juegos ganados.
R 2+ 1

(1) '

La figura 1.1showshowwell(1) ' predice los porcentajes ganadores de los


equipos de la MLB para las temporadas 1980–2006.

Por ejemplo, los Detroit Tigers (DET) de 2006 anotaron 822 carreras y se
rindieron.
822
675 carreras. Su relació n de puntuació n fue R = = 1.218.
Suganadorpredicho

675

porcentaje del teorema de Pitá goras del béisbol fue


1.218 2
=
(1.218) 2 + 1

.597.

Los Tigres de 2006 realmente ganaron una fracció n de sus juegos, o


95
= .586.

162

Por lo tanto (1) ' se equivocó un 1,1% al predecir el porcentaje de juegos


ganados por los Tigres en 2006.

el porcentaje de victorias real menos el porcentaje de victorias


pronosticado. Por ejemplo, para los Diamondbacks de Arizona (ARI) de
2006, error = 0,469 — 0,490 = — 0,021 y para los Medias Rojas de
Boston (BOS) de 2006, error = 0,531 — 0,497 = .034.Apositivo
A B C D mi F GRAMO H yo j

1 DAM=0.020

Carrer Carrer Puntuac Predicho Actual Absoluto


as as ión
victorioso Victorioso Error
Año Equipo victo Pérdid anotó permiti relació % %
3
rias as ó n

4 2006 Diamantes 76 86 773 788 0.981 0.490 0.469 0.021

5 2006 Bravos 79 83 849 805 1.055 0.527 0.488 0.039

6 2006 oropéndolas 70 92 768 899 0.854 0.422 0.432 0.010

7 2006 Medias Rojas 86 76 820 825 0.994 0.497 0.531 0.034

8 2006 Calcetín 90 72 868 794 1.093 0.544 0.556 0.011


blanco

9 2006 cachorros 66 96 716 834 0.859 0.424 0.407 0.017

10 2006 Rojos 80 82 749 801 0.935 0.466 0.494 0.027

11 2006 indios 78 84 870 782 1.113 0.553 0.481 0.072

12 2006 Montañas 76 86 813 812 1.001 0.501 0.469 0.031


Rocosas

13 2006 tigres 95 67 822 675 1.218 0.597 0.586 0.011

14 2006 Marlins 78 84 758 772 0.982 0.491 0.481 0.009

15 2006 astros 82 80 735 719 1.022 0.511 0.506 0.005

die 2006 realeza 62 100 757 971 0.780 0.378 0.383 0.005
cis
éis

17 2006 ángeles 89 73 766 732 1.046 0.523 0.549 0.027

18 2006 Dodgers 88 74 820 751 1.092 0.544 0.543 0.001

19 2006 cerveceros 75 87 730 833 0.876 0.434 0.463 0.029

20 2006 Mellizos 96 66 801 683 1.173 0.579 0.593 0.014

21 2006 yanquis 97 sesent 930 767 1.213 0.595 0.599 0.004


ay
cinco

Figura 1.1. Teorema de Pitá goras del béisbol, 1980 — 2006. SeefileStandings.xls.
error significa que el equipo ganó má s juegos de los previstos, mientras que
un error negativo significa que el equipo ganó menos juegos de los
previstos. Columna Jinfigura

1.1 calcula el valor absoluto del error de predicció n de cada equipo.


Recuerde que el valor absoluto de un nú mero es simplemente la
distancia del nú mero a 0. Es decir, I 5 I= I— 5 I= 5. Los errores de
predicció n absolutos de cada equipo se promediaron para obtener una
medida de qué tan bien los porcentajes de ganancias pronosticados se
ajustan a los porcentajes de ganancias reales del equipo.

La edad de los errores de pronó stico absolutos se llama MAD (Mean


Absolute Deviation). 1 Para este conjunto de datos, los porcentajes
ganadores pronosticados del Teorema de Pitá goras estaban equivocados
en un promedio del 2 % por equipo (celda J1).

En lugar de asumir ciegamente que el porcentaje de victorias se puede


aproximar usando el cuadrado de la proporció n de puntuació n, tal vez
deberíamos probar una fó rmula para predecir el porcentaje de victorias,
como

Exp Exp.
R+ 1
.R
(2)

Si variamos exp (exponente) en (2) podemos hacer que (2) se ajuste


mejor a la dependencia real del porcentaje de victorias en la proporció n
de puntuació n para diferentes deportes. Para el béisbol, permitiremos
que exp en (2) varíe entre 1 y 3. Por supuesto, exp = 2 se reduce al
Teorema de Pitá goras.

La figura 1.2 muestra los cambios de MAD a medida que varía exp entre 1
y 3. 2 nosotros

vea que, de hecho, exp = 1.9 produce la MAD más pequeñ a (1.96%). Un
valor de exp de 2 es casi tan bueno (MAD de 1,97%), por lo que, por
simplicidad, nos quedaremos con la opinió n de Bill James de que exp = 2.
Por lo tanto, exp = 2 (o 1,9) produce los mejores pronó sticos si usamos una
ecuació n de la forma (2). Por supuesto, puede haber otra ecuació n que
prediga el porcentaje de victorias mejor que el Teorema de Pitá goras a partir
de las carreras anotadas y permitidas. El teorema de Pitá goras es simple
e intuitivo, sin embargo, y funciona muy bien. Después de todo, estamos
prediciendo las victorias del equipo por un promedio de 162 × 0,02, que es
aproximadamente tres victorias por equipo. Por lo tanto, veo una razó n
para buscar un modelo má s complicado (aunque un poco má s preciso).

1 Los errores reales no se promediaron simplemente


porque promediar errores positivos y negativos daría
como resultado la cancelació n de errores positivos y negativos . el error absoluto es del
5%. Por supuesto, en esta situació n simple estimar el error promedio como 5% es correcto
mientras que estimar el error promedio como 0% no tiene sentido.

2
Consulte el apéndice del capítulo para obtener una explicació n de có mo se usó la
excelente funció n Tabla de datos de Excel para determinar có mo MAD cambia segú n
variaba entre 1 y 3.
norte O

2 Exp

3 2

4 Variación de MADasExchanges

5 ENOJADO

6 Exp 0.0197

7 1.0 0.0318

8 1.1 0.0297

9 1.2 0.0277

10 1.3 0.0259

11 1.4 0.0243

12 1.5 0.0228

13 1.6 0.0216

14 1.7 0.0206

15 1.8 0.0200

die 1.9 0.0196


cis
éis

17 2.0 0.0197

18 2.1 0.0200

19 2.2 0.0207

20 2.3 0.0216

21 2.4 0.0228

22 2.5 0.0243

23 2.6 0.0260

24 2.7 0.0278

25 2.8 0.0298

26 2.9 0.0318

27 3.0 0.0339
Figura 1.2. Dependencia de la precisió n del Teorema de Pitá goras en
exponente.SeefileStandings.xls.

¿Qué tan bien pronostica el


Teorema de Pitágoras?

Para probar la utilidad del teorema de Pitá goras (o cualquier modelo de


predicció n), debemos comprobar qué tan bien pronostica el futuro.
Comparé el pronó stico del Teorema de Pitá goras para cada serie de
playoffs de la MLB (1980–2007) con una predicció n basada solo en
juegos ganados. Para cada serie de playoffs, el método de Pitá goras
prediría que el ganador sería el equipo con la mayor proporció n de
anotaciones, mientras que el enfoque de “juegos ganados” simplemente
predice que el ganador de una serie de playoffs sería el equipo que ganó
má s juegos. Descubrimos que el enfoque pitagó rico predijo
correctamente 57 de 106 series de playoffs (53,8 %), mientras que el
enfoque de “juegos ganados” predijo correctamente el ganador de solo el 50
% (50 de 100) de las series de playoffs. 3 El lector es prob-

3
En seis series de playoffs, los equipos contrarios tuvieron registros idénticos de victorias y
derrotas, por lo que el enfoque de “Juegos ganados” no pudo hacer una predicció n.
Probablemente me decepcionó que incluso el método de Pitá goras solo
pronosticara correctamente el resultado de menos del 54% de las series
de playoffs de béisbol. Creo que la temporada regular es un predictor
relativamente pobre de los playoffs en el béisbol porque el récord de
temporada regular de un equipo depende en gran medida del desempeñ o de
cinco lanzadores abridores. Durante los playoffs, los equipos solo usan
tres o cuatro lanzadores abridores, muchos de los datos de la temporada
regular (juegos que involucran al cuarto y quinto lanzador abridor) no
son relevantes para predecir el resultado de los playoffs.

Para evidencia anecdó tica de có mo el Teorema de Pitá goras pronostica


el desempeñ o futuro de un equipo mejor que el récord de victorias y
derrotas de un equipo, considere el caso de los Washington Nationals de
2005. El 4 de julio de 2005, los Nacionales ocupaban el primer lugar con
un récord de 50-32. Si extrapolamos este porcentaje ganador, habríamos
pronosticado un récord final de 99–63. El 4 de julio de 2005, la
proporció n de anotaciones de los Nacionales fue de .991. El 4 de julio de
2005, (1) ' habría pronosticado un récord final de 80–82. Efectivamente,
los pobres nacionales terminaron 81-81.

La Importancia del Teorema de Pitágoras

El teorema de Pitá goras del béisbol también es importante porque nos


permite determinar cuá ntas ganancias extra (o pérdidas) resultarán de un
intercambio. Suponga que un equipo ha anotado 850 carreras durante una
temporada y ha cedido 800 carreras. en el mismo nú mero de apariciones en
el plato. Este intercambio hará que el equipo (todas las demá s cosas sean
iguales) marque 20 carreras má s

(170 — 150 = 20). Antes del intercambio,


850
R= = 1.0625, y lo haríamos

800

predecir el equipo que ha ganado

162(1.0625) 2
1 + (1.0625) 2

= 85.9 juegos.Después de la

comercio,
870
R= = 1,0875,

800

y pronosticaríamos que el equipo ganaría


162(1.0875) 2
= 87.8 juegos. Por lo tanto, estimamos que el intercambio
hace nuestro

1 + (1.0875) 2

equipo1.9juegosmejor(87.8 — 85.9 = 1.9). En el capítulo 9, veremos có mo


se puede usar el Teorema de Pitá goras para ayudar a determinar salarios
justos para los jugadores de la MLB.

4
En los capítulos 2 a 4 explicaremos en detalle có mo determinar cuántas carreras crea un
bateador.
Fútbol y baloncesto “Teoremas de Pitágoras”

¿Se cumple el teorema de Pitá goras para el fú tbol y el baloncesto?


DarylMorey, el gerente general de los Houston Rockets, ha demostrado
que para la NFL, la ecuació n (2) con exp = 2.37 brinda las predicciones má s
precisas para el porcentaje de victorias, mientras que para la NBA, la
ecuació n (2) con exp = 13.91 brinda las predicciones má s precisas para
el porcentaje de victorias. La figura 1.3 proporciona los porcentajes de
victorias previstos y reales de la NFL para la temporada 2006, mientras
que la figura 1.4 proporciona los porcentajes de victorias previstos y
reales de la NBA para la temporada 2006–7 .

Para las temporadas 2005–7NFL, MAD fue minimizado por exp = 2.7.
Exp = 2,7 rindió un MAD de 5,9 %, mientras que Morey 's exp = 2,37
rindió un MAD de 6,1 % . Dado que los valores de exp de Morey tienen una
precisió n muy cercana a los valores que encontramos en temporadas
recientes, nos quedaremos con los valores de exp de Morey. Estos
porcentajes ganadores pronosticados se basan en datos de la temporada
regular.

Por lo tanto, podríamos observar equipos que se desempeñ aron mucho mejor
de lo esperado durante la temporada regular y predecir que “la suerte los
alcanzaría”.

B C D mi F GRA H yo j k L ME nort
MO TR e
O

3 exp=2.4 MAD=0.061497

Punto puntos % % de
s en ganador ganancia
par contra previsto anual
5 Año Equipo victo Pérdid a Relació Absorr Exp ENOJA
rias as n DO

6 2007 NEPatriotas dieci 0 589 274 2.149635 0.859815262 1 0.140185 0.061497


séis

7 2007 B. Facturas 7 9 252 354 0.711864 0.308853076 0.4375 0.128647 1.5 0.08419
8 2007 Jets de Nueva 4 12 268 355 0.75493 0.339330307 0.25 0.08933 1.6 0.080449
York

9 2007 M. delfines 1 15 267 437 0.610984 0.237277785 0.625 0.174778 1.7 0.077006

10 2007 C.marrones 10 6 402 382 1.052356 0.530199349 0.625 0.094801 1.8 0.073795

11 2007 P. Steelers 10 6 393 269 1.460967 0.710633507 0.625 0.085634 1.9 0.070675

12 2007 C.Bengalas 7 9 380 385 0.987013 0.492255411 0.4375 0.054755 2 0.068155

13 2007 B.Cuervos 5 11 275 384 0.716146 0.311894893 0.3125 0.000605 2.1 0.06588

14 2007 I. Potros 13 3 450 262 1.717557 0.782779877 0.8125 0.02972 2.2 0.064002

15 2007 J.Jaguares 11 5 411 304 1.351974 0.67144112 0.6875 0.016059 2.3 0.062394

die 2007 titanes 10 6 301 297 1.013468 0.507925876 0.625 0.117074 2.4 0.061216
cis
éis

17 2007 H.Texanos 8 8 379 384 0.986979 0.492235113 0.5 0.007765 2.5 0.060312

18 2007 Cargadores SD 11 5 412 284 1.450704 0.707186057 0.6875 0.019686 2.6 0.059554

19 2007 D.Broncos 7 9 320 409 0.782396 0.35856816 0.4375 0.078932 ¡mej 2.7 0.059456
or!

20 2007 O.Raiders 4 12 283 398 0.711055 0.308278013 0.25 0.058278 2.8 0.059828

21 2007 KCCjefes 4 12 226 335 0.674627 0.282352662 0.25 0.032353 2.9 0.060934

22 2007 D.Cowboys 13 3 455 325 1.4 0.689426435 0.8125 0.123074 3 0.062411

23 2007 Gigantes de 10 6 373 351 1.062678 0.535957197 0.625 0.089043 3.4 0.063891
Nueva York

Figura 1.3. Porcentajes de ganadores previstos de la NFL. Exp = 2.4.


SeefileSportshw1.xls.
mi F GRAMO H yo j k

37 2006–2007NBA DAM=0.05

38

39 Equip FP Pen Relaci % de victoria % de Abs.Error


o silv ón prevista ganancia real
ani
a

40 PhoenixSuns 110.2 102.9 1.07 0.722 0.744 0.022

41 Guerreros del Estado 106.5 106.9 1.00 0.487 0.512 0.025


Dorado

42 DenverNuggets 105.4 103.7 1.02 0.556 0.549 0.008

43 Washington Wizards 104.3 104.9 0.99 0.480 0.500 0.020

44 LALakers 103.3 103.4 1.00 0.497 0.512 0.016

45 Memphis Grizzlies 101.6 106.7 0,95 0.336 0.268 0.068

46 UtahJazz 101.5 98.6 1.03 0.599 0.622 0.022

47 SacramentoReyes 101.3 103.1 0.98 0.439 0.395 0.044

48 Dallas Mavericks 100 92.8 1.08 0.739 0.817 0.078

49 milwaukeebucks 99.7 104 0.96 0.357 0.341 0.016

50 torontoraptors 99.5 98.5 1.01 0.535 0.573 0.038

51 SeattleSupersónicos 99.1 102 0.97 0.401 0.378 0.023

52 Los Toros de Chicago 98.8 93.8 1.05 0.673 0.598 0.076

53 Espuelas de San Antonio 98.5 90.1 1.09 0.776 0.707 0.068

54 NewJerseyRedes 97.6 98.3 0.99 0.475 0.500 0.025

55 Los Knicks de Nueva York 97.5 100.3 0.97 0.403 0.402 0.000

56 cohetes de houston 97 92.1 1.05 0.673 0.634 0.039

57 CharlotteBobcats 96,9 100.6 0.96 0.373 0.402 0.030

58 Caballeros de Cleveland 96.8 92,9 1.04 0.639 0.610 0.029

59 MinnesotaTimberwolves 96.1 99.7 0.96 0.375 0.395 0.020

60 DetroitPistons 96 91.8 1.05 0.651 0.646 0.004

61 Celtas de Boston 95.8 99.2 0.97 0.381 0.293 0.088

62 Indiana Pacers 95.6 98 0.98 0.415 0.427 0.012


63 Clippers de Los Ángeles 95.6 96.1 0.99 0.482 0.952 0.471

64 Avispones de Nueva 95.5 97.1 0.98 0.442 0.476 0.033


Orleans

ses Philadelphia76ers 94,9 98 0.97 0.390 0.427 0.037


ent
ay
cin
co

66 orlandomagia 94.8 94 1.01 0.529 0.488 0.042

67 Miami Heat 94.6 95.5 0.99 0.467 0.537 0.069

68 PortlandTrailBlazers 94.1 98.4 0.96 0.349 0.390 0.041

69 Halcones de Atlanta 93.7 98.4 0,95 0.336 0.366 0.030

Figura 1.4. Porcentajes de victoria previstos en la NBA. Exp = 13,91. Ver


archivo Footballbasketballpythagoras.xls.

con ellos.” Esta línea de pensamiento llevaría a creer que estos equipos
se desempeñ arían peor durante los playoffs. Tenga en cuenta que el
Miami Heat y los Dallas Mavericks ganaron aproximadamente un 8% má s
de juegos de lo esperado durante la temporada regular . Por el contrario,
durante la temporada regular, los San Antonio Spurs y los Chicago Bulls
ganaron alrededor de un 8 % menos de juegos de lo que predice el
Teorema de Pitágoras , lo que indica que estos equipos se desempeñ arían
mejor de lo esperado en los playoffs. Efectivamente, los Bulls derrotaron
al Heat y le dieron un tiempo difícil a los Detroit Pistons. Por supuesto,
los Spurs ganaron el título de la NBA en 2007. Ademá s, el Teorema de
Pitá goras tenía a los Spurs como, por mucho, el mejor equipo de la liga
(78% del porcentaje de victorias previsto). Tenga en cuenta que el
equipo que menos logró má s fue el Boston Celtics, que con casi un 9%
menos (o 7)
juegos de lo previsto. Muchas personas sugirieron que los juegos de los
Celtics "se hundieron" durante la temporada regular para mejorar sus
posibilidades de obtener futuras superestrellas potenciales como Greg
Oden y Kevin Durant en la lotería del draft de 2007. El hecho de que los
Celtics ganaran siete juegos menos de lo esperado no prueba esta
conjetura, pero sin duda es consistente con la opinió n de que los Celtics
no lograron ganar todos los juegos cerrados.

APÉNDICE

tablas de datos

La funció n Tabla de datos de Excel nos permite ver có mo cambia una


fó rmula a medida que se modifican los valores de una o dos celdas en
una hoja de cá lculo.

(2) para predecir el porcentaje de victorias del equipo depende del valor
de exp. Para ilustrar, vamos a mostrar có mo usar una tabla de datos
unidireccional para determinar có mo la variació n de exp de 1 a 3 cambia
el error promedio al predecir el porcentaje de victorias de un equipo de
la MLB (consulte la figura 1.2) .

Paso 1. Comenzamos ingresando los posibles valores de exp (1, 1.1, . . .


3) en el rango de celdas N7:N27. Para ingresar estos valores,
simplemente ingrese 1 en N7, 1.1 en N8 y seleccione el rango de celdas
N8. Ahora arrastre la cruz en la esquina inferior derecha de N8 hasta
N27.

Paso 2. En la celda O6 ingresamos la fó rmula que queremos recorrer y


calculamos para diferentes valores de exp ingresando la fó rmula = J1.

Paso 3. En Excel 2003 o anterior, seleccione Tabla en el Menú de


datos. En Excel 2007, seleccione Tabla de datos de la parte Qué pasaría
si de la pestañ a Datos de la cinta (figura 1-a).
Figura 1-a.WhatIficonforExcel2007.

Paso 4. No seleccione una celda de entrada de fila, seleccione la celda


L2 (que contiene el valor de exp) como la celda de entrada de columna.
Después de seleccionar Aceptar, vemos los resultados que se muestran
en la figura 1.2. En efecto Excel ha colocado los valores 1, 1.1, . . . 3 en la
celda M2 y calculó nuestro MAD para cada valor enumerado de exp.
QUIÉ N TUVO MEJOR AÑ O,
NOMARGARCIAPARRAORICHIROSUZUKI?

El enfoque creado por TheRuns

E n 2004, el jardinero de los Marineros de Seattle, Ichiro Suzuki,


estableció el récord de las ligas mayores de má s de un hit en una
temporada. Sus estadísticas clave se presentan en la tabla 2.1. (En aras de
la simplicidad, por lo tanto:

A continuació n, se hará referencia a Suzuki como "Ichiro" o "Ichiro 2004"


y García-

parra se denominará “Nomar” o “Nomar1997”).

Recuerde que el porcentaje de slugging del bateador es Bases totales


(TB)/Al bate (AB) donde

TB = Sencillos + 2 × Dobles (2B) + 3 × Triples (3B)

+ 4 × jonrones (HR).

Vemos que Ichiro tenía un promedio de bateo más alto que Nomar, pero
debido a que bateó muchos má s dobles, triples y jonrones, Nomar tenía
un porcentaje de slugging mucho má s alto. Ichiro caminó un par de veces
má s que Nomar. Entonces, ¿qué jugador tuvo mejor añ o de bateo?

Whenabatterishitting,hecancausegoodthings(likehitsorwalks)tohappe
norcausebadthings(outs)tohappen.Tocomparehitterswemustdevelopam
etricthatmeasureshowtherelativefrequencyofabatter'sgoodeventsandba
deventsinfluencethenumberofrunstheteamscores.In1979BillJamesdevelo
pedthefirstversionofhisfamousRunsCre-
atedFormulainanattempttocomputethenumberofruns“created”byahitter
duringthecourseofaseason.Themosteasilyobtaineddatawehaveavailablet
odeterminehowbattingeventsinfluenceRunsScoredareseason-
longteambattingstatistics.Asampleofthisdataisshownin

figura 2.1.
TABLA 2.1

EstadísticasparaIchiroSuzukiyNomarGarciaparra

Evento Ichiro2004 Nomar1997

AB 704 684

Promedio de bateo .372 .306

SLG .455 .534

Golpes 262 209

Individual 225 124

2B 24 44

3B 5 11

HORA 8 30

BB + HTA 53 41

A B C D mi F GRA H j S
MO

3 Año Carre al bate Golpe Individ 2B 3B HOR BB+HTA Equip


ras s ual A o

4 2000 864 5628 1574 995 309 34 236 655 A.Ángeles

5 2000 794 5549 1508 992 310 22 184 607 B.Orioles

6 2000 792 5630 1503 988 316 32 167 653 B. Medias Rojas

7 2000 978 5646 1615 1041 325 33 216 644 C. Medias Blancas

8 2000 950 5683 1639 1078 310 30 221 736 C.Indios

9 2000 823 5644 1553 1028 307 41 177 605 D.Tigres

10 2000 879 5709 1644 1186 281 27 150 559 KCRoyals


11 2000 748 5615 1516 1026 325 49 116 591 M. Gemelos

12 2000 871 5556 1541 1017 294 25 205 688 Yankees de Nueva
York

13 2000 947 5560 1501 958 281 23 239 802 O.Atletismo

14 2000 907 5497 1481 957 300 26 198 823 Marineros del S.

15 2000 733 5505 1414 977 253 22 162 607 TBDevilRays

die 2000 848 5648 1601 1063 330 35 173 619 T.Rangers
cis
éis

17 2000 861 5677 1562 969 328 21 244 586 Azulejos T.

18 2000 792 5527 1466 961 282 44 179 594 A.Diamondbacks

Figura 2.1. Datos de bateo de equipos para la temporada 2000. Ver archivo
equipos.xls.

James se dio cuenta de que debería haber una forma de predecir las
carreras de cada equipo a partir de hits, sencillos, 2B, 3B, HR, outs y BB +
HBP. 1 Usando su gran intuició n, James ideó la siguiente fó rmula
relativamente simple.

1
Por supuesto, estamos omitiendo cosas como Sacrifice Hits, Sacrifice Flies, Stolen Bases
y Caught Stealing. Las versiones posteriores de Ejecuciones creadas utilizan estos eventos
para calcular las Ejecuciones creadas. Consulte
http://danagonistes.blogspot.com/2004/10/brief-history-of-run-estimation-runs.html para
obtener un excelente resumen de la evolució n de las ejecuciones creadas.
(hits + BB + HBP) × (TB)
carreras creadas = .
(AB + BB + HTA)

(1)

Como pronto veremos, (1) hace un trabajo sorprendentemente bueno


al predecir cuá ntas carreras anota un equipo en una temporada a partir
de hits, BB, HBP, AB, 2B, 3B y HR. ¿Cuá l es la razó n de (1)? Para anotar
carreras, debe tener corredores en base, y luego debe hacerlos avanzar
hacia el plato: (Hits + Walks + HBP) es bá sicamente el nú mero de
corredores de base del equipo.

tendrá unatemporada.Laotrapartedelaecuació n,

TB (AB + BB + HTA)
,
mide la velocidad a la que los corredores avanzan por aparició n en el
plato. Por lo tanto (1) está multiplicando el nú mero de corredores de
base por la velocidad a la que avanzaron. Utilizando la informació n de la
figura 2.1 podemos calcular las carreras creadas para los Anaheim
Angels de 2000.

(1574 + 655) × (995 + 2(309) + 3(34) + 4(236))


carreras creadas = =
943.

(5628 + 655)

En realidad, los Angelinos de Anaheim del 2000 anotaron 864 carreras,


por lo que las Carreras creadas sobreestimaron el nú mero real de
carreras en alrededor del 9%. El fileams.xls calcula las Carreras creadas
para cada equipo durante las temporadas 2000–2006 2 y compara las
Carreras creadas con las Carreras anotadas reales. Encontramos que las
carreras creadas se desviaron por un promedio de 28 carreras por
equipo. Dado que el equipo promedio anotó 775 carreras, encontramos
un error promedio de menos del 4 % cuando intentamos usar (1) para
predecir las carreras anotadas por el equipo. Es sorprendente que esta
fó rmula simple e intuitivamente atractiva haga tan buen trabajo al
predecir las carreras anotadas por un equipo. Aunque las versiones má s
complejas de Carreras creadas predicen con mayor precisió n las
Carreras anotadas reales, la simplicidad de (1) ha provocado que esta
fó rmula siga siendo ampliamente utilizada por la comunidad del béisbol.

ciega !

El problema con cualquier versió n de Runs Created es que la fó rmula se


basa en las estadísticas del equipo. Un equipo típico tiene un promedio
de bateo de .265, conecta jonrones en el 3 % de todas las apariciones en
el plato y tiene una base por bolas o HBP en alrededor del 10 % de todas
las apariciones en el plato. Compare estos nú meros con los de Barry
Bonds

2
Los datos provienen de la fabulosa base de datos de béisbol de Sean Lahman,
http://baseball1.com/statistics/ .
gran temporada de 2004 en la que tuvo un promedio de bateo de .362,
alcanzó un HR en el 7% de todas las apariciones en el plato y recibió una
base por bolas o HBP durante aproximadamente el 39% de sus
apariciones en el plato. muy diferente de los datos utilizados para ajustar
la relació n. Siguiendo esta ló gica, no debemos esperar que una fó rmula
de carreras creadas basada en datos del equipo prediga con precisió n las
carreras creadas por una superestrella como Barry Bonds o por un
jugador muy pobre. En el capítulo 4 solucionaremos este problema.

Ichirovs.Nomar

A pesar de esta advertencia, avancemos y usemos (1) para comparar la


temporada 2004 de Ichiro Suzuki con la temporada 1997 de Nomar
Garcíaparra . Comparemos también las carreras creadas para la temporada
2004 de Barry Bonds para comparar sus estadísticas con las de los otros
dos jugadores. (Consulte la Figura 2.2.)

A C D mi F GRA H j S T tu
MO

Ejecu Juego Runscreated


ciones superado
creadas /juego
225 Año al bate Golp Individ 2B 3B HOR BB+HTA
es ual A

226 Bonos2004 373 135 60 27 3 45 242 185.74 240.29 20.65

227 Ichiro2004 704 262 225 24 5 8 53 133.16 451.33 7.88

228 Nomar1997 684 209 124 44 11 30 41 125.86 500.69 6.72

Figura 2.2. Carreras creadas para Bonds, Suzuki y Garcíaparra. Ver archivo
teams.xls.

Vemos que Ichiro creó 133 carreras y Nomar creó 126 carreras. Los bonos
crearon 186 carreras. Esto indica que Ichiro 2004 tuvo un añ o de bateo
ligeramente mejor que Nomar 1997. Por supuesto, el desempeñ o de
Bonds en 2004 fue muy superior al de los otros dos jugadores.
Carreras creadas por juego

Un problema importante con cualquier métrica de carreras creadas es


que un mal bateador con 700 apariciones en el plato podría crear má s
carreras que una superestrella con 400 apariciones en el plato. En la
figura 2.3 comparamos las estadísticas de dos hipó tesis:

3
Dado que el equipo de casa no batea en la novena entrada cuando está adelante y
algunos juegos van a entradas extra, el promedio de outs por juego no es exactamente 27. Para
los añ os 2001–6, el promedio de outs por juego fue de 26.72.
A C D mi F GRA H j S T tu
MO

Ejecuc Juego Ejecucion


iones superado es
creadas creadas/juego
218 Año al bate Golp Individ 2B 3B HO BB+HTA
es ual RA

222 cristiano 700 190 150 10 1 9 20 60.96 497.40 3.27

223 Gregorio 400 120 90 15 0 15 20 60.00 272.80 5.88

Figura 2.3. Estadísticas ficticias de Christian y Gregory.

jugadores ical: Christian y Gregory. Christian tenía un promedio de bateo


de .257 mientras que Gregory tenía un promedio de bateo de .300.
Gregory recibió má s bases por bolas por aparició n en el plato y tuvo má s
extrabases . Sin embargo, Runs Created dice que Christian era un mejor
jugador. Para solucionar este problema necesitamos entender que los
bateadores consumen un recurso escaso: los outs. Durante la mayoría de
los juegos, un equipo batea durante nueve entradas y obtiene 27 outs (3
outs × 9 entradas = 27). 3 Ahora podemos calcular las carreras creadas por
juego. Para ver có mo funciona esto, veamos los datos de Ichiro 2004
(figura 2.2).

¿Có mo calculamos las salidas? Esencialmente, todos los AB excepto los


aciertos y los errores dan como resultado un out. Aproximadamente el 1,8
% de todos los AB resultan en errores. Por lo tanto, calculamos los outs
en la columna IasAB — Aciertos — .018(AB) = .982(AB) — Aciertos.
(SF), toques de sacrificio (SAC), pillado robando (CS) y rodado en dobles
matanzas (GIDP). En 2004, Ichiro creó 22 de estos extras. Como se
muestra en la celda T219, él

“utilizó ” hasta 451.3 outs para los Marineros.

451,3
= 16,9
26.72
133.16
juegos. Por lo tanto, Ichiro creó = 7.88 carreras por juego. Má s

formalmente, carreras creadas por juego


16.9

ejecució n creada
= .
.982(AB) — aciertos + GIDP + SF + SAC + CS

26.72

(2)

La ecuació n (2) simplemente establece que las carreras creadas por


juego son las carreras creadas por el bateador divididas por el nú mero
de outs utilizados por el bateador en los juegos. La figura 2.2 muestra
que Barry Bonds creó la increíble cifra de 20,65 carreras por juego. La
Figura 2.2 también deja en claro que Ichiro en 2004 fue un bateador
mucho má s valioso que Nomarin en 1997. Después de todo, Ichiro creó
7.88 carreras por juego mientras que Nomar creó 1.16 carreras menos
por juego (6.72 carreras). También vemos que las carreras creadas por
juego califican a Gregorya como 2,61 carreras
(5.88 — 3.27) mejor por juego que Christian. Esto resuelve el problema de
que las Carreras Creadas ordinarias permitían a Christian estar
clasificado por delante de Gregory.

creemos que un equipo compuesto por nueve Ichiros anotaría un


promedio de 7.88 carreras por juego. Dado que Noteam consta de nueve
jugadores como Ichiro, una pregunta más relevante podría ser, ¿cuá ntas
carreras crearía al batear con ocho “bateadores promedio”? En su libro Win
Shares (2002), Bill James presentó una versió n má s compleja de Runs
Created que responde a esta pregunta. Abordaré esta pregunta en los
capítulos 3 y 4.
EVALUACIÓ N DE GOLPEADORES MEDIANTE
PESOS LINEALES

En el capítulo 2 vimos có mo el conocimiento de AB, BB + HBP,


sencillos, 2B, 3B y HR de un bateador nos permite comparar bateadores a
través de la métrica de carreras creadas. Como veremos en este capítulo, el
enfoque de pesos lineales también se puede usar para comparar
bateadores.

variable (llamada
Yoolavariabledependiente)desdeunconjuntoaunavariableindependiente

variables (x 1 , x 2 , . . . x n ). Por lo general, tratamos de encontrar los


pesos B1, B2, . . . Bn y una constante que hacen la cantidad

Constante + B1x 1 + B2x 2 + ...

Bnx n un buen predictor de la variable dependiente.

Los estadísticos llaman a la bú squeda de los pesos y constantes que mejor


predicen la ejecució n de una regresió n lineal mú ltiple .

Datos de bateo de nuestro equipo para los añ os 2000–2006

Y = variable dependiente = puntuació n de carreras en una temporada.


Para las variables independientes usaremos BB + HBP, solteros, 2B,
3B, HR, SB [Bases robadas]) y CS (Atrapado robando) . Por lo tanto,
nuestra ecuació n de predicció n se verá así.

previstas para la temporada = constante + B1 (BB + HBP)

+ B2(individuales) + B3(2B) + B4(3B)

+ B5 (HR) + B6 (SB) + B7 (CS). (1)

Veamos si podemos usar la aritmética bá sica para llegar a una


estimació n bruta del valor de un HR. Para los añ os 2000–2006, un equipo
promedio de la MLB tiene 38 bateadores en el plato y anota 4.8 carreras
en un juego o aproximadamente 1 de 8
puntuaciones de los bateadores. Durante un juego, el equipo promedio de la
MLB tiene alrededor de 13 bateadores que alcanzan la base. Por lo tanto,
4.8/13 o alrededor del 37% de todos los corredores puntú an. Si
asumimos un promedio de un corredor en base cuando un HR falla,
entonces un HR crea “carreras” de la siguiente manera:

El bateador anota todo el tiempo en lugar de 1/8 del tiempo, lo que crea
7/8 de una carrera.

Un promedio de un corredor de base anotará el 100% del tiempo en lugar


del 37% del tiempo. Esto crea 0.63 carreras.

Esto lleva a una estimació n aproximada de que un HR vale alrededor de 0,87


+ 0,63 = 1,5 carreras. Pronto veremos que nuestro modelo de regresió n
proporciona una estimació n similar para el valor de un HR.

Podemos usar la herramienta Regresió n en Excel para buscar el


conjunto de pesos y constantes que permiten (1) dar el mejor pronó stico
para las carreras anotadas. (Consulte el apéndice de este capítulo para
obtener una explicació n de có mo usar la herramienta Regresió n).
Bá sicamente, la herramienta Regresió n de Excel encuentra la constante y
el conjunto de pesos que minimizan la suma total de equipos de

(carreras reales anotadas — carreras pronosticadas anotadas por


(1)) 2 .

En la figura 3.1, las celdas B17:B24 (enumeradas bajo Coeficientes)


muestran que el mejor conjunto de pesos lineales y constantes (la celda
de intersecció n da constantes) para predecir la puntuació n de carreras
en una temporada está dado por

corridaspredichas =— 563.03 + 0.63(simples) + 0.72(2B)

+ 1,24 (3B) + 1,50 (HR) + 0,35 (BB + HTA)

+ 0,06 (SB) + 0,02 (CS). (1)

El valor de R Cuadrado en la celda B5 indica que las variables independientes


(sencillos , 2B, 3B, HR, BB + HBP, SB y CS) explican el 91% de la
variació n en el nú mero de carreras que un equipo realmente anota
durante una temporada. 1

La ecuació n (2) indica que un sencillo “crea” 0.63 carreras, un doble


crea 0.72 carreras, un triple crea 1.24 carreras, un jonró n crea 1.50
carreras, un paseo o ser golpeado por el lanzamiento crea 0.35 carreras,
y una base robada crea

0.06 carreras, mientras que ser atrapado robando causa 0.02 carreras.
Vemos que el peso de HR está de acuerdo con nuestro cá lculo simple.
También el hecho de que el doble

1
Si no elevamos al cuadrado el error de predicció n de cada equipo, encontraríamos que
los errores de los equipos que anotaron más carreras de las previstas serían anulados por los
errores de los equipos que anotaron menos carreras de las previstas.
A B C D mi F GRAMO

SALIDA DE
RESUMEN
1

3 Estadísticas de regresión

4 MúltipleR 0.954033

5 R Plaza 0.910179

Ajustado
Rcuadrad
o
6 0.907066

Error
estándar
7 24.48612

8 Observacione 210
s

10 ANOVA

11 d.f SS EM F SignificadoF
.

12 Regresión 7 1227267 175323.912 292.4162 4.9885E−102

13 Residual 202 121113.1 599.569857

14 Total 209 1348380

15

error
estánd
ar
die Coeficientes tEstad valor p Inferior 95% 95% superior
cis
éis
Intercep
ciones _
17 −563.029 37.21595 −15.128695 4.52E-35 −636.4104075 −489.647257

18 Individual 0.625452 0.031354 19.9479691 1.23E–49 0.563628474 0.687275336

19 Dobles 0.720178 0.069181 10.4099998 1.36E–20 0.583767923 0.856588501

20 triples 1.235803 0.203831 6.06288716 6.47E–09 0.833894343 1.637712396

21 Jonrones 1.495572 0.061438 24.3426548 5.48E-62 1.374428861 1.616714188

Bases por
bolas+Golpe
ado
22 0.346469 0.025734 13.4633465 6.55E–30 0.295726467 0.397210735
porLanzador

23 bases robadas 0.05881 0.07493 0.78485776 0.433456 −0.088936408 0.206555885

pillado
robando

24 0.015257 0.189734 0.08040989 0.935991 −0.358857643 0.389370703

Figura 3.1. Resultados de la regresió n con CS y SB incluidos.

vale má s que uno, pero menos de dos es razonable. El hecho de que un


sencillo valga má s que una base por bolas tiene sentido porque los
sencillos suelen hacer avanzar a los corredores dos bases. También es
razonable que un triple valga má s que un doble pero menos que un
jonró n. Por supuesto, el coeficiente positivo para CS no es razonable
porque indica que cada vez que se atrapa a un corredor de bases
robando, crea carreras. Esta anomalía se explicará en breve.
El significado de los valores P

Cuando no se trata de una regresió n, siempre debemos verificar si cada


variable dependiente tiene o no un efecto significativo sobre la variable
dependiente. Hacemos esto observando el valor p de cada variable
independiente. Estos se muestran en la columna E de la figura 3.1. Cada
variable independiente tiene un valor de p entre 0 y 1. Cualquier variable
independiente con un valor de p < 0,05 se considera un predictor ú til de la
variable dependiente (después de ajustar por las otras variables
independientes). Esencialmente, el valor p de una variable independiente da
la probabilidad de que (en presencia de todas las demá s variables
independientes utilizadas para ajustar la regresió n) la variable
independiente no mejore nuestra capacidad predictiva. Por ejemplo, solo
hay alrededor de una posibilidad en 10 20 de que los dobles no mejoren
nuestra capacidad para predecir el puntaje de carreras, incluso después
de conocer los sencillos, 3B, HR, BB + HBP, CS y SB. La figura 3.1
muestra que todas las variables independientes, excepto SB y CS, tienen
valores de p muy cercanos a 0. Por ejemplo, los sencillos tienen un valor de
p de 1,23 × 10 — 49. Esto significa que es casi seguro que los sencillos ayudan
a predecir las carreras del equipo incluso después de ajustar todas las
demá s variables independientes. Sin embargo, hay un 43 % de
posibilidades de que no se necesite SB para predecir carreras anotadas y
casi un 94 % de posibilidades de que no se necesite CS para predecir
carreras anotadas. Los altos valores de p para estas variables
independientes indican que debemos eliminarlas de la regresió n y volver
a ejecutar el aná lisis. Por ejemplo, esto significa que el coeficiente
sorprendentemente positivo de .02 para CS en nuestra ecuació n fue solo
una fluctuació n aleatoria de un coeficiente de 0. La regresió n resultante
se muestra en la figura 3.2.

Todas las variables independientes tienen valores de p < .05, por lo que
todas pasan la prueba de significació n estadística. Usemos la siguiente
ecuació n (derivada de las celdas B17:B22 de la figura 3.2) para predecir
las carreras anotadas por un equipo en una temporada.

carreras previstas para una temporada =— 560 + .63 (sencillos)

+ 0,71 (2B) + 1,26 (3B)

+ 1,49 (FC) + 0,35 (BB + HTA).

Tenga en cuenta que nuestro R cuadrado sigue siendo del 91 %, incluso


después de descartar CS y SB como variables independientes. Esto no
sorprende porque los altos valores de p para estas variables
independientes indicaron que no ayudarían a predecir RunsScored
después de conocer las otras variables independientes. También tenga en
cuenta que nuestra ponderació n de recursos humanos de 1,49 coincide
casi exactamente con nuestra estimació n bruta de 1,5.
A B C D mi F GRAMO

SALIDA DE
RESUMEN
1

3 Estadísticas de regresión

4 MúltipleR 0.953776

5 R Plaza 0.909688

Ajustado
Rcuadrad
o
6 0.907475

Error
estándar
7 24.48223

8 Observacione 210
s

10 ANOVA

11 d.f. SS EM F SignificadoF

12 Regresión 5 1226606 245321.1319 410.9687 2.0992E−104

13 Residual 204 121774.5 596.9340126

14 Total 209 1348380

15

error
estánd
ar
die Coeficiente tEstad valor p Inferior 95% 95% superior
cis s
éis
Intercep
ciones _
17 −559.997 35.52184 −15.76486473 3.81E–37 −630.0341104 −489.9600492

18 Individual 0.632786 0.030209 20.94664121 9.77E-53 0.573222833 0.692348228

19 Dobles 0.705947 0.067574 10.44707819 9.74E–21 0.572714992 0.839179681

20 triples 1.263721 0.200532 6.301838725 1.78E–09 0.868340029 1.65910294

21 Jonrones 1.490741 0.060848 24.49945673 1.1E–62 1.370769861 1.610712843

Bases por
bolas+Golpe
ado
22 0.346563 0.025509 13.58610506 2.3E–30 0.296268954 0.396857822
porLanzador

Figura 3.2. Valores P para la regresió n de pesos lineales. Consulte la hoja


Nooutscssbofworkbookteamsnocssbouts.xls.

Precisión de los pesos lineales frente a las ejecuciones creadas

¿Los pesos lineales pronostican mejor las carreras anotadas que la


fó rmula original de carreras creadas de Bill James? Vemos en la celda D2
de la figura 3.3 que para los datos de aciertos del equipo (añ os 2000–
2006), los pesos lineales se desviaron en un promedio de 18,63 carreras
(un promedio del 2 % por equipo) mientras que, como se señ aló
anteriormente, las carreras creadas se desviaron por 28 carreras por
juego. Por lo tanto, LinearWeights hace un mejor trabajo de predicció n
de carreras de equipo que RunsCreated bá sico.
A B C D mi F GRAMO H yo j k L

1 Pesos
lineales
ENOJA
DO
2
18.63392992 0.632785531 0.705947 1.2637 1.49074135 0.346563388

Año Carr Carreras Error al Gol Individu 2B 3B HORA BB+HTA Equipo


eras pronosti absolu bate pes al
cadas to

4 2000 864 909.5427592 45.54275916 5628 1574 995 309 34 236 655 A. Ángeles

5 2000 794 799.0320991 5.032099146 5549 1508 992 310 22 184 607 B.Orioles

6 2000 792 803.9731688 11.97316875 5630 1503 988 316 32 167 653 B. Medias Rojas

7 2000 978 915.0553052 62.94469483 5646 1615 1041 325 33 216 644 C. Medias Blancas

8 2000 950 963.4255338 13.42553378 5683 1639 1078 310 30 221 736 C.Indios

9 2000 823 832.5769282 9.576928216 5644 1553 1028 307 41 177 605 D.Tigres

10 2000 879 840.3183782 38.6816218 5709 1644 1186 281 27 150 559 KCRoyals

11 2000 748 758.3410712 10.34107117 5615 1516 1026 325 49 116 591 M. Gemelos

12 2000 871 866.7249473 4.275052678 5556 1541 1017 294 25 205 688 Yankees de Nueva
York

13 2000 947 907.8792749 39.12072513 5560 1501 958 281 23 239 802 O.Atletismo

14 2000 907 870.6080889 36.3919111 5497 1481 957 300 26 198 823 Marineros del S.

15 2000 733 716.5050083 16.49499174 5505 1414 977 253 22 162 607 Rayos del diablo TB

die 2000 848 862.2678037 14.26780365 5648 1601 1063 330 35 173 619 T.Rangers
cis
éis

17 2000 861 878.0880125 17.08801249 5677 1562 969 328 21 244 586 T.BlueJays

18 2000 792 775.4920641 16.50793587 5527 1466 961 282 44 179 594 A.Diamondbacks

Figura 3.3. Medició n de la precisió n de los pesos lineales. Consulte la hoja de


precisió n de los pesos lineales del archivo teamsnocssbouts.xls.
La historia de los pesos
lineales

de los pesos lineales. En 1916, F.C. Lane, el editor de Baseball Magazine ,


usó los registros de có mo 1,000 hits dieron como resultado corredores
que avanzaban alrededor de las bases para obtener una estimació n de los
pesos lineales. Luego, en 1978, el estadístico Pete Palmer usó un modelo
de simulació n de Monte Carlos (consulte el capítulo 4) para estimar el
valor de cada tipo de evento de béisbol . Durante 1989, el reportero del
Washington Post , Thomas Boswell, también presentó un conjunto de
pesos lineales. 2 Los pesos obtenidos por estos pioneros se resumen en la
tabla 3.1.

Por las razones que discutiré en el capítulo 4, creo que la simulació n de


Montecarlo (implementada por Palmer) es la mejor manera de
determinar los pesos lineales.

2 Consulte el excelente
resumen de DanAgonistes, http://danagonistes.blogspot.com/2004/10/brief-
history-of-run-estimation.html;Schwarz , TheNumbersGame ;Palmer,
TheHiddenGameofBaseball ;yBoswell, TotalBaseball .
TABLA 3.1

La evolució n histó rica de las estimaciones de pesos lineales

Evento carril lindsay Palmero Boswell NuestraRegresi


ón

BB + HTA 0.164 — 0.33 1.0 0.35

Individual 0.457 0.41 0,46 1.0 0,63

2B 0.786 0.82 0.8 2.0 0.71

3B 1.15 1.06 1.02 3.0 1.26

HORA 1.55 1.42 1.4 4.0 1.49

salidas — — — 0,25 —1.0 —

SB — — 0.3 1.0 —

CS — — — 0,6 —1.0 —

Nota : Los campos vacíos indican eventos que los autores no han utilizado en un modelo específico.

A B C D mi F GRA H j S T
MO

Factor Pesos carreras


de linealesRun por
escala juego
233 Año al bate Golp Individ 2B 3B HORA BB+HTA
es ual

234 Bonos2004 18.016031 6719.98 2432 1081 486.4 54 810.72139 4359.879477 3259.26522574 20.11892114

235 Ichiro2004 9.5916938 6752.55 2513 2158 230.2 48 76.733551 508.3597738 1323.318592 8.168633281

236 Nomar1997 8.646103 5913.93 1807 1072 380.4 95.1 259.38309 354.4902215 1020.697841 6.300603957
Figura 3.4. Estimaciones de pesos lineales de carreras por juego creadas por
Bonds, Suzuki y Garcíaparra.

A pesar de esto, usemos nuestra regresió n para evaluar a los bateadores.


Recuerde que (2) carreras predichas anotadas dadas las estadísticas de
un equipo durante toda una temporada. ¿Có mo podemos usar (2) para
predecir cuá ntas carreras podrían anotarse si un equipo estuviera
compuesto en su totalidad por, digamos, Barry Bonds (2004), Ichiro
Suzuki (2004) o Nomar Garcíaparra (1997)? Miremos primero a Bonds
2004 (figura 3.4) .

Bonds2004 hizo 240.29 outs. Como se explica en el capítulo 2,


calculamos los outs hechos por un bateador como .982 (AB) + SF + SAC
+ CS + GIDP. Dado un promedio de 26,72 outs por partido , la
temporada del equipo tiene 26,72 × 162 = 4329 outs. Los bonos
alcanzaron los 45 HR. Así que por cada out acertó 45/240.29 = .187 HR.
Por lo tanto, durante toda una temporada predeciríamos que un equipo
de nueve Barry Bonds acertará 4329 × (45/240,29) = 811HR. Ahora
vemos có mo usar (2) para predecir
carreras anotadas por un equipo compuesto enteramente por ese
jugador. 3 Simplemente “aumente la escala” de cada una de las
estadísticas de Bonds de la siguiente manera:

4.329/240,29 = 18,02 = bajas por temporada/bajas de jugador.

En las filas 233 a 35, las estadísticas de cada jugador (de las filas 226 a
28) se multiplicaron por 4329/(outs del jugador). Este es el “factor de
escala” del jugador. Luego, en la columna S, se aplicó el modelo de
regresió n de pesos lineales (ecuació n 2) a las filas de datos 233: 35 para
predecir las carreras totales de la temporada para un equipo formado
por un solo jugador (consulte las celdas S233: S235). En las celdas
T233:T235, las carreras pronosticadas para una temporada se dividen
entre 162 para crear carreras pronosticadas por juego. Predecimos un
equipo de Bonds 2004 para anotar 20,12 carreras por juego, un equipo
de Ichiro 2004 para anotar 8,17 carreras por juego y un equipo de
Nomar1997 para anotar 6,30 carreras por juego. Tenga en cuenta que el
uso de carreras creadas da estimaciones de 20,65, 7,88 y 6,72 carreras,
respectivamente, para los tres jugadores. Por lo tanto, para los tres
jugadores, las Carreras Creadas y los Pesos Lineales dan predicciones muy
similares para el nú mero de carreras de las que un jugador es responsable
durante un juego .

OBP, SLG, OBP + SLG y ejecuciones creadas

Como explica brillantemente Michael Lewis en su best-seller Moneyball ,


durante las décadas de 1980 y 1990, los directivos de la MLB se dieron
cuenta de la importancia del Porcentaje en base (OBP) como medida de
la efectividad de un bateador .

0.33. OBP es una mejor medida de efectividad de bateo que el promedio


de bateo ordinario porque un jugador con un OBP alto usa menos
recursos escasos del equipo (outs). Desafortunadamente, muchos
jugadores con un OBP alto (como TyCob y Willie Keeler) no hacen
muchos jonrones, por lo que su valor está sobreestimado simplemente
confiando en el OBP. Por lo tanto, los expertos en béisbol crearon una
nueva estadística: On-Base Plus Slugging (OPS), que es el porcentaje de
slugging, o SLG (TB/AB), má s OBP. “llegó ” cuando se incluyó en las
tarjetas de béisbol Topps.
3
Puede ser ú til tener en cuenta que

 playerHRs   playerHRs   totalouts 

  =   
 temporada   jugadores outs  

temporada

 .

Tenga en cuenta que ambos lados de esta ecuació n tienen las mismas unidades.
A B C D mi F GRAMO

SALIDA DE
RESUMEN
1

3 Estadísticas de regresión

4 MúltipleR 0.9520351

5 R Plaza 0.9063709

Ajustado
Rcuadrad
o
6 0.9053129

Error
estándar
7 25.70605

8 Observacione 180
s

10 ANOVA

11 d.f. SS EM F SignificadoF

12 Regresión 2 1132241 566120.6 856.7187 9.32975E−92

13 Residual 177 116961.8 660.801

14 Total 179 1249203

15

error
estánd
ar
die Coeficientes tEstad valor p Inferior 95% 95% superior
cis
éis

17 Interceptar −1003.647 49.63353 −20.2211 7.05E–48 −1101.596424 −905.6971482


18 % de golpe 1700.8005 121.8842 13.95424 2.49E–30 1460.267357 1941.333699

19 En base% 3156.7146 232.9325 13.55206 3.67E–29 2697.032329 3616.39681

Figura 3.5. Equipo de predicció n de regresió n corre desde OBP y SLG. Consulte el
archivo teamhittingobsslug.xls.

Por supuesto, OPS otorga el mismo peso a SLG y OBP. ¿Es esto
razonable? Para determinar el peso relativo adecuado para dar SLG y
OBPI, se utilizaron datos del equipo de 2000–2006 y se realizó una regresió n
para predecir las carreras anotadas por el equipo usando OBP y SLG como
variables independientes.

La figura 3.5 muestra que tanto OBP como SLG son altamente
significativos (cada uno tiene un valor p cercano a 0). El R cuadrado en la
celda B5 indica que explicamos el 90,6 % de la variació n en las carreras
anotadas. Esto se compara muy favorablemente con el mejor modelo de
pesos lineales, que tenía un R cuadrado de 0,91. Dado que este modelo
parece má s fá cil de entender, es fá cil ver por qué OBP y SLG son muy
valorados por las oficinas centrales del béisbol. Tenga en cuenta, sin
embargo, que predecimos la puntuació n de carreras del equipo como:
1003,65 + 1700,8 × (SLG) + 3157 × (OBP). Esto indica que el OBP es
aproximadamente el doble de importante (3157/1700 es cerca de 2) que
SLG. Tal vez las tarjetas de béisbol deberían incluir una nueva estadística: 2
× OBP + SLG.
Ejecuciones creadas por encima del promedio

Una forma de evaluar a un jugador como Ichiro 2004 es preguntar


cuá ntas carreras má s anotaría un equipo promedio de la MLB si se
agregara Ichiro 2004 al equipo (ver figura 3.6). Después de ingresar las
estadísticas de bateo de un jugador en la fila 7, la celda E11 calcula el
nú mero de carreras que el jugador agregaría a un equipo promedio de la
MLB. Examinemos la ló gica subyacente a esta hoja de cá lculo.

La fila 7 muestra el nú mero de sencillos, 2B, 3B, HR, BB + HBP y el total

outs realizados por Ichiro 2004. Vemos que Ichiro creó 451 outs. La fila 6
muestra las mismas estadísticas para un equipo promedio de la MLB
(basado en las temporadas 2000–2006).

Si agregamos a Ichiro a un equipo promedio, el resto de los “jugadores


promedio” crearán 4328.64 — 451 = 3877.64 outs. Sea 3877.64/
4328.64 = .896

definido como teammult. Luego, las apariciones en el plato que no sean


Ichiro de los miembros restantes de nuestro jugador promedio má s el
equipo Ichiro 2004 creará n teammult × 972.08 sencillos, teammult ×
296 dobles, y así sucesivamente. Por lo tanto, nuestroIchiro2004 + equipo
de jugadores promedio creará 225 + equipo mult ×

972,08 = 1095,7 sencillos, 24 + teammult × 296 = 289,13 dobles, y así


sucesivamente. Esto implica que nuestro equipo de jugadores promedio de
Ichiro 2004 o más está predicho por Pesos lineales para anotar el
siguiente nú mero de carreras.

A C D mi F GRAMO H yo j k

1 OutsUsed

2 451.328

4 equipomult Intercept Individu 2B 3B HO BB+HTA


ar al RA
Pesos Carreras
lineales Predichas
Anotadas
5 0.8957345 −556 0.63279 0.7059 1.2637215 1.49074135 0.34656339 salida
s

Equipo
Promedio

6 972.081 296 30.82381 177.480952 599.87619 4329 779.5018417

7 Ichiro 225 24 5 8 60 451

IchiroAña
dido
aAverage
Team

8 1095.73 289.13 32.609948 166.975805 597.329774 0.034

IchiroRu
nsOver
Average

10

11 59.111

Figura 3.6. Cá lculo de cuá ntas carreras agregaría Ichiro a un equipo promedio.
Ver archivo Ichiro por encima del promedio.xls.
— 556 + .633 × (1095.7) + (.706) × 289.13

+ (1,264) × 32,61 + (1,491) × (166,98)

+ (.3466) × 597.33 = 838.61.

Dado que Linear Weights predijo que un equipo promedio anotaría


779.50 carreras, la adició n de Ichiro 2004 a un equipo promedio
agregaría

838,61 — 779,50 = 59,11 carreras. Por lo tanto, estimamos que agregar


Ichiro 2004 a un equipo promedio agregaría alrededor de 59 carreras.
Esta estimació n de la capacidad de bateo de Ichiro pone su contribució n
en el contexto de un equipo típico de la MLB y, por lo tanto, parece má s
ú til que una estimació n de cuá ntas carreras anotó un equipo formado
enteramente por Ichiro en 2004.

La figura 3.7 enumera las mejores veinticinco carreras por encima del
desempeñ o promedio (para jugadores con al menos 350 AB) durante las
temporadas 2001–6. Nó tese el dominio creíble de Barry Bonds; él tuvo
las cuatro mejores actuaciones. Albert Pujols tuvo cuatro de las
veinticinco mejores actuaciones, mientras que Todd Helton tuvo tres de
las doce mejores actuaciones.

A B C D

2 Rango Año Jugad Corre por encima del


or promedio

3 1 2004 B. Bonos 178.72

4 2 2002 B. Bonos 153.8278451

5 3 2001 B. Bonos 142.2021593

6 4 2003 B. Bonos 120.84

7 5 2001 S.Sosa 112.4092099

8 6 2001 L.González 99.30956815


9 7 2006 R. Howard 96.70402992

10 8 2001 J. Giambi 96.64777824

11 9 2003 T.Helton 92.16893785

12 10 2004 T.Helton 91.33935918

13 11 2003 A.Pujols 90.72817498

14 12 2001 T.Helton 87.85495932

15 13 2002 J.Thome 85.33958204

die 14 2006 A.Pujols 84.69690329


cis
éis

17 15 2005 D.Lee 84.5746433

18 diecis 2000 B. Bonds 83.66


éis

19 17 2005 A.Pujols 82.23517954

20 18 2001 L.Walker 78.65841316

21 19 2002 B.Giles 78.07581834

22 20 2005 A.Rodriguez 77.69034834

23 21 2006 D.Ortiz 76.44267022

24 22 2003 C.Delgado 75.87692757

25 23 2001 c. jones 75.55723654

26 24 2004 A.Pujols 74.32012661

27 25 2003 M.Ramírez 74.04277236

Figura 3.7. Las carreras superiores por encima del rendimiento medio,
2001 — 6.
En el capítulo 4 utilizaremos la simulació n de Monte Carlo para
obtener otra estimació n de cuá ntos jugadores se suman a un equipo
particular.

APÉNDICE

Ejecución de regresiones en Excel

Para ejecutar regresiones en Excel, es ú til instalar el complemento


Analysis Toolpak.

Instalación del paquete de herramientas de análisis

Para instalar el complemento Analysis Toolpak en Excel 2003 o una


versió n anterior de Excel, seleccione Complementos en el menú
Herramientas y marque la opció n Analysis Tool-pak. Al marcar Aceptar,
se completa la instalació n.

Para instalar Analysis Toolpak en Excel 2007, primero seleccione el


botó n Office (el botó n ovalado en la esquina izquierda de la cinta).
Luego elija Opciones de Excel seguido de Complementos. Ahora presione
Ir y verifique el paquete de herramientas de aná lisis y elija Aceptar.

Figura 3-a.Botó n de Office.

Ejecutando una regresión


La regresió n que se muestra en la figura 3.1 predice las carreras
anotadas por el equipo a partir de los sencillos, 2B, 3B, HR, BB + HBP,
SB y CS de un equipo. Para ejecutar la regresió n, primero vaya a la hoja
Equipo del libro de trabajo teamsnocsouts.xls. En Excel 2003 o anterior,
abra el paquete de herramientas de aná lisis eligiendo Herramientas y, a
continuació n, Aná lisis de datos. En Excel 2007 abra el paquete de
herramientas de aná lisis seleccionando la pestañ a Datos y luego
eligiendo Aná lisis de datos en la parte derecha de la pestañ a .

Ahora seleccione la opció n de regresió n y complete el cuadro de


diá logo como se muestra en la figura 3-b. Esto le dice a Excel que
queremos predecir las carreras del equipo anotadas (en la celda).
Aporte

Rango Y de entrada: Rango X de entrada :

B2:b212 e2:k212

Etiquetas Nivel de confianza:

ConstantisZero

Opciones de entrada

Y de salida: NewWorksheet Ply RangoY de salida:

Derechos residuales de autor

Residuales Residuales Estandarizados

Probabilidad Normal

Gráficos de probabilidad normal

Notas

Gráficos de residuosLineFitplots
Figura 3-b. Cuadro de diá logo Regresió n.

rango B3:B212) utilizando las variables independientes en el rango de


celdas E3:K212(individuales, 2B, 3B, FC, BB + HBP, SB y CS). Marcamos
la casilla Etiquetas para que las etiquetas de nuestra columna que se
muestran en la fila 2 se incluyan en la salida de la regresió n.
EVALUACIÓ N DE
BATEADORES POR
SIMULACIÓ N DE
MONTECARLOS

En los capítulos 2 y 3 mostramos có mo usar las carreras creadas y los


pesos lineales para evaluar la efectividad de un bateador. Estas métricas
se desarrollaron principalmente para “ajustar” la relació n entre las
carreras anotadas por el equipo durante una temporada y las estadísticas
del equipo, como bases por bolas, individuales, dobles, triples y locales.

carreras. Señ alamos que para los jugadores que ven las frecuencias de los
eventos

en gran medida de las frecuencias típicas del equipo, estas métricas


podrían hacer un mal trabajo al evaluar la efectividad de un bateador.

Un ejemplo simple mostrará có mo las Ejecuciones creadas y los Pesos


lineales pueden ser muy imprecisos. 1 Piense en un jugador (llamémoslo
Joe Hardy por el héroe de la maravillosa película y obra Damn Yankees ) que
conecta un jonró n en el 50% de sus apariciones en el plato y logra un out en
el otro 50% de sus apariciones en el plato . ” para alternar HR, OUT, HR,
OUT, HR, OUT, para un promedio de 3 carreras . En el apéndice del
capítulo 6 usaremos el principio de expectativa condicional para dar una
prueba matemá tica de este resultado.

En 162 juegos de nueve entradas, Joe Hardy hará , en promedio, 4.374


outs (162 × 27 = 4.374) y conectará 4.374 jonrones. Como se muestra
en la figura 4.1, encontramos que RunsCreated predice que Joe Hardy
generaría 54 carreras por juego (o 6 carreras) y LinearWeights predice
que Joe Hardy generaría
36,77 carreras por juego (o 4,08 carreras por entrada). Ambas estimaciones
está n lejos del valor real de 27 carreras por juego.

Introducción a la simulación de Montecarlo

¿Có mo podemos mostrar que nuestro jugador genera 3 carreras por


entrada o 27 carreras por juego?

1
Esto me lo describió Jeff Sagarin, estadístico deportivo de USAToday .
k L MET norte O PAGS
RO

Ejecu Carreras
ciones creadas /
creadas Juego
3 Método al bate HOR salida
A s

4 billjames 8748 4374 4374 8748 54

5 Pesos lineales 8748 4374 4374 5957.26 36.77321

Figura 4.1. Carreras creadas y pesos lineales previstos carreras por juego para Joe
Hardy. Ver archivosimulationmotivator.xls.

entradas y promediar el nú mero de carreras anotadas por carrera. El


desarrollo de un modelo de computadora para reproducir repetidamente
una situació n incierta se llama simulació n de Montecarlo.

Físicos y astró nomos utilizan este modelo para simular la evolució n


del universo. Los bió logos utilizan el modelo para simular la evolució n de
la vida en la Tierra. Los analistas financieros corporativos utilizan la
simulació n Monte Carlo para evaluar la probabilidad de que un nuevo
vehículo GM o un nuevo champú Procter & Gambles sean rentables. Los
científicos especializados en cohetes de Wall Street utilizan la simulació n
de Monte Carlos para fijar el precio de derivados financieros exó ticos o
complejos. A la simulació n de Ulam se le dio el nombre en có digo militar
Monte Carlo, y el nombre de simulació n de Monte Carlo se ha utilizado
desde entonces.

¿Có mo podemos jugar una entrada? Simplemente arroje una moneda y


asigne un lanzamiento de cara a un out y una tirada de cruz a un jonró n.
O podríamos sacar de una baraja y asignar una tarjeta roja a un out y una
tarjeta negra a un jonró n. Tanto el método de tirar la moneda como el de
sacar la carta asignará n una probabilidad de 0,5 a un jonró n y una
probabilidad de 0,5 a un out. Seguimos tirando la moneda o sacando una
carta (con reposició n) hasta obtener 3 outs. Luego registramos el
nú mero de jonrones. Repetimos este procedimiento unas 1000 veces y
promediamos el nú mero de carreras anotadas por entrada. Este
promedio debe aproximarse mucho a las carreras promedio por entrada
anotadas por nuestro jugador hipotético. Nos acercaremos mucho a las
3000 carreras en total, lo que arroja una estimació n de 3 carreras por
entrada. Implementé la simulació n simple de MonteCarlo utilizando
Microsoft Excel. (Consulte la figura 4.2.) Excel contiene una funció n
RAND (). Si escribe = ALEATORIO() en cualquier celda y pulsa la tecla
F9, el nú mero de la celda cambiará . La funció n RAND() produce cualquier
nú mero entre 0 y 1 con la misma probabilidad. Esto significa, por
ejemplo, que la mitad del tiempo RAND() produce un nú mero entre 0 y
0,5, y
B C D mi F GRAMO H

2 masa Número aleatorio Result salid Carre ¿Sobr Ejecucione


ado as ras e? s totales

3 1 0.31683256 HORA 0 1 no 2

4 2 0.51244762 afuera 1 1 no

5 3 0.45037806 HORA 1 2 no

6 4 0.634642925 afuera 2 2 no

7 5 0.785525468 afuera 3 2 sí

Figura 4.2. Simulació n de una entrada para Joe Hardy. Ver archivo motivació n de
simulació n.xls.

la mitad de las veces RAND() arroja un nú mero entre 0,5 y 1. Los


resultados generados por la funció n RAND() se denominan nú meros
aleatorios. Por lo tanto, podemos simular un juego para nuestro jugador
asignando el resultado de un jonró n a un nú mero aleatorio menor o igual
a 0,5 y asignando el resultado de un out a un nú mero aleatorio entre 0,5
y 1. Al presionar F9 en la hoja de cá lculo de simulació n motivador.xls,
puede ver los resultados de un entrada simulada (ver figura 4.2). Para
nuestra entrada simulada, cada nú mero aleatorio menor o igual a 0.5
arrojó un jonró n y cualquier otro nú mero aleatorio arrojó un out. Para
nuestra entrada simulada, se anotaron 2 carreras.

Las celdas J6:J1005 contienen los resultados de 1000 entradas


simuladas, mientras que la celda J3 contiene las carreras promedio
generadas durante nuestras 1000 entradas hipotéticas. El apéndice del
capítulo explica có mo se usó la funció n Tabla de datos de Excel para
realizar la simulació n 1000 veces. Cada vez que presiona F9, verá que la
celda J3 está muy cerca de 3 , lo que indica que nuestro jugador generará
alrededor de 3 carreras por entrada o 27 carreras por juego (no 54
carreras por juego como predice RunsCreated).

Simulación de carreras anotadas por un equipo de nueve Ichiros


Impulsados por el éxito de nuestro modelo de simulació n simple, ahora
podemos simular el nú mero de carreras que serían anotadas por un
equipo de, digamos, nueve Ichiro 2004. Necesitamos seguir el progreso
de una entrada y realizar un seguimiento de los corredores en base,
carreras anotadas y nú mero de outs. En nuestro modelo, los eventos que
pueden ocurrir en cada aparició n de plato se muestran en la figura 4.3.

Suponemos que cada error avanza a todos los corredores de base en una sola base.

A lo largo de un solo líder, cada corredor avanza dos bases.

Un sencillo medio anota un corredor desde la segunda base, pero avanza un


corredor en primera só lo una base.

Una ventaja individual corta avanza a todos los corredores en una base.
C D

13 Evento

14 1 Tachar

15 2 Caminar

die 3 hitbypitch
cis
éis

17 4 Error

18 5 Longsingle (avance2bases)

19 6 Medio único (puntuación de


2nd)

20 7 Shortsingle (avanzado en una


base)

21 8 cortodoble

22 9 largodoble

23 10 Triple

24 11 Carrera

25 12 suelo en doble juego

26 13 pelota normal

27 14 Linedriveorinfieldfly

28 15 mosca larga

29 dieciséis Mediana mosca

30 17 vuelo corto

Figura 4.3. Có digos de eventos para simulaciones de béisbol. Ver archivo


Ichiro04may28.xls.

Un corto doble avanza cada corredor dos bases.

Junto a puntos dobles un corredor desde el primero.


GIDP es una doble jugada si hay un corredor en primera, primera y
segunda, o primera y tercera, o si las bases está n llenas. En otras
situaciones, el bateador sale y los otros corredores se quedan donde
está n.

El GO normal es un out que resulta en un out forzado con un corredor en


primera, primera y segunda, o primera y tercera, o si las bases está n
llenas. Suponemos que con corredores en segundo y tercero, los
corredores se quedan; con un corredor en tercero, el corredor anota; y
con un corredor en segunda, el corredor avanza a tercera.

A lo largo de flyball avanza (si hay menos de dos outs) un corredor en un


segundo o tercero en una base.

Una bola de elevado medio (si hay menos de dos outs) anota un corredor
de tercera.

Un vuelo corto o una línea directa en la mosca de campo no hace avanzar a


ningú n corredor.

A continuació n, debemos asignar probabilidades a cada uno de estos


eventos. Durante las ú ltimas temporadas, aproximadamente el 1,8% de
todos los AB han dado como resultado un error. La informació n de cada
jugador se ingresa en las celdas E3 y E6: E12. Ingresemos las
estadísticas de Ichiro de 2004. (Consulte la figura 4.4 ) .
D mi F

1 Número Probabilida
d

2 Apariciones en placa 762

3 At Bats+Sac.Hits+Sac.Bunts 709

4 errores 13 0.0170604

5 Outs (en juego) 371 0.4868766

6 ponches 63 0.0826772

7 cama y desayuno 49 0.0643045

8 HTA 4 0.0052493

9 Individual 225 0.2952756

10 2B 24 0.0314961

11 3B 5 0.0065617

12 HORA 8 0.0104987

Figura 4.4. Entradas a la simulació n de Ichiro. La simulació n omite eventos de


béisbol relativamente infrecuentes, como robos, atrapados robando, pases de
pelota, lanzamientos descontrolados, balks, etc.

Los outs (en juego) son apariciones en el plato que resultan en outs sin
ponches: outs (en juego) = (AB + SF + SB) - hits - errores - ponches.

Histó ricamente, los errores son el 1,8 % de AB + SB + SF, por lo que calculamos
los errores = 0,018 ×

(AB + SB + SF).

Ademá s, apariciones totales en placa = BB + HBP + (AB + SB + SF), o 709 +


49 +

4 = 762.

Ahora podemos calcular la probabilidad de varios eventos como


(frecuencia del evento)/(total de apariciones en platos). Por ejemplo,
estimamos la probabilidad de un Ichirosing como 225/762 = .295.
También necesitamos estimar las probabilidades para todos los tipos
posibles de sencillos, dobles y outs en juego. Por ejemplo, ¿qué fracció n
de outs en juego son GIDP? Usando datos de Percentage Baseball de
Earnshaw Cook (1966) y discusiones con Jeff Sagarin (quien ha construido
muchos modelos precisos de simulació n de béisbol), estimamos estas
fracciones de la siguiente manera:

El 30% de los singles son singles largos, el 50% son singles medianos y el 20%
son singles cortos.

El 80 % de los dobles son dobles cortos y el 20 % son dobles largos.

El 53,8 % de los outs en juego son bolas bajas, el 15,3 % son moscas de
campo o líneas, y el 30,9 % son bolas voladoras.

El 50 % de las salidas a tierra son GIDP y el 50 % son GO normales.

El 20% de todos los fly balls son fly balls largos, el 50% son fly balls medianos
y el 30% son fly balls cortos.

Para verificar que estos parámetros sean precisos, simulé 50,000


entradas usando las estadísticas compuestas de MLB para la temporada
2006 de los equipos.xls
archivo Los resultados mostraron que las carreras simuladas por juego
estaban dentro del 1% de las carreras reales por juego.

Usemos el complemento de simulació n de Excel @RISK para


"reproducir" una entrada de miles (o millones) de veces. Bá sicamente,
@Risk genera el evento para cada aparició n en el plato en funció n de las
probabilidades que se ingresan (por supuesto, estas probabilidades se
basan en el jugador que deseamos evaluar). Para cada aparició n en el
plato, @RISK genera un nú mero aleatorio entre 0 y 1. Por ejemplo, para
Ichiro, un nú mero aleatorio menor o igual a 0,295 produciría un solo.
Esto hará que el 29.5% de las apariciones en el plato de Ichiro (como
ocurrió durante la temporada real de 2004) resulte en una sola .

Dos entradas de muestra de nuestra simulació n Ichiro 2004 se muestran


en la figura 4.5. LacolumnaEstadoEntrante rastrea los corredores en la
base; por ejemplo, 101 significa corredor en el primer puesto tercero
mientras que 100 significa corredor en el primero. Por ejemplo, el có digo
de evento 6 representa un sencillo medio.
Inthefirstinningshowninfigure4.5,ourteamofnineIchirosscoredthreeruns.
Inthesecondinningshown,theteamscorednoruns.Playingoutthousandsofi
nningswith@RISKenablesustoestimatetheaveragenumberofrunsscoredp
erinningbyateamofnineIchiros.Thenwemul-
tiplytheaveragenumberofinningsateambatsduring agame(26.72/3)to
estimatethenumberofRunsCreatedpergamebyIchiro.Sinceweareplayingo
uteachinningusingtheactualprobabilitiescorrespondingtoagivenplayer,ou
rMonteCarloestimateoftherunsperinningproducedbynineIchiros(ornineo
fanyotherplayer)shouldbeafarbetterestimatethanRunsCreatedorLinear
Weights.TheMonteCarloestimateofruns pergameshouldbeaccuratefor
anyplayer,nomatterhowgoodorbad .Aswe
haveshownwithourJoeHardyexample,theaccuracy
ofRunsCreatedandLinearWeightsasmeasuresofhittingeffectivenessbreak
sdownforex-

tremecasos.

Resultados de la simulación para Ichiro, Nomar y Bonds

Para Ichiro 2004, Nomar 1997 y Bonds 2004, nuestra simulació n arroja
las siguientes estimaciones para las carreras creadas por juego.

Ichiro 2004: 6,92 carreras por partido


Nomar1997:5.91corredores por juego

Bonds2004:21.02corredores por juego


(a)

(b)
Figura 4.5. Dos entradas de muestra de la simulació n de Ichiro 2004.

Sin embargo, hay un problema con nuestro resultado de Bonds 2004.


Barry Bonds recibió 232 bases por bolas durante 2004. Sin embargo, 120
de ellas fueron intencionales porque los lanzadores preferían lanzar a los
otros jugadores, que no eran tan buenos bateando como Bonds. Para un
equipo formado por nueve Bonds 2004, no tendría sentido dar una base
por bolas intencional. Por lo tanto, volvimos a ejecutar nuestra
simulació n después de eliminar las bases por bolas intencionales de las
estadísticas de Bonds y encontramos que Bonds creó 15.98 carreras por
juego.

¿Cuántas carreras añadió Albert Pujols a


los cardenales de San Luis en 2006?

Por supuesto, nunca habrá un equipo de nueve Ichiros, nueve Bonds o


nueve Nomars. Lo que realmente queremos saber es cuá ntas carreras
agrega un jugador a su equipo. Probemos y determinemos cuá ntas
carreras agregó Albert Pujol a los Cardenales de San Luis de 2006
(llamémoslo Pujols 2006).
H yo

2 Salir Número

3 PlacaApariciones 5591

4 At Bats+Sac.Hits+Sac.Bunts 5095

5 errores 92

6 Salidas (en juego) 2824

7 ponches 872

8 cama y desayuno 439

9 HPB 57

10 Individual 887

11 2B 259

12 3B 26

13 HORA 135

Figura 4.6. Estadísticas del Cardenal de San Luis (sin Pujols),


2006. Ver archivo Pujols de mayo de 26.xls.

B mi D

2 Salir Número Probabilidad

3 Apariciones en placa 634

4 At Bats+Sac.Hits+Sac.Bunts 538

5 errores 10 0.015773

6 Outs (en juego) 301 0.474763

7 ponches 50 0.078864

8 cama y desayuno 92 0.14511

9 HTA 4 0.006309
10 Individual 94 0.148265

11 2B 33 0.05205

12 3B 1 0.001577

13 HORA 49 0.077287

Figura 4.7. Estadísticas de Albert Pujols 2006. Ver archivo Pujols may 26.xls.

las estadísticas de los cardenales de 2006 (excluyendo a Pujols) se


muestran en la figura 4.6 y las de Pujols se muestran en la figura 4.7.

Usando ambas cifras, tenga en cuenta que el 7.7% de las apariciones en


el plato de Pujols resultaron en jonrones, pero para los Cardinals de 2006
sin Pujols, solo el 2.4% de todas las apariciones en el plato resultaron en
jonrones. Ahora podemos estimar cuá ntas carreras añ adió Pujols a los St.
Louis Cardinals. Sin Pujols asumimos que las probabilidades de cada
bateador se rigen por la figura de datos 4.6. Jugando 25,000 entradas
(basadas en las carreras por entrada de nuestra simulació n ), se proyectó
que los Cardenales anotarían un promedio de 706 carreras sin Pujols. Con
Pujols, los Cardenales en realidad anotaron 781 carreras. ¿Cuá ntas
victorias podemos estimar que agregó Pujols, en comparació n con lo que
agrega un bateador cardinal promedio? Usemos el teorema de Pitá goras
del capítulo 1. Durante 2006, los cardenales abandonaron 762 carreras.
de 781/762 = 1,025. Dado que los Cardenales jugaron só lo 161 partidas
durante 2006, el Teorema de Pitá goras predice que deberían haber
ganado
161 × 1,025 2

1.025 2 + 1

= 82,48 juegos.

Sin Pujol, nuestra simulació n arrojó una proporció n de puntuació n de


706/762 = .927. Por lo tanto, con Pujol, el Teorema de Pitá goras predice que
los cardenales
161 × 0,927 2

habría ganado

.927 2 + 1

= 74,36 juegos. Por lo tanto, nuestro modelo estima

que Pujol agregó 82.48 — 74.36 = 8.12 victorias para los Cardenales
(asumiendo

que las apariciones en el plato de Pujols fueron reemplazadas por un


cardenal bateador promedio que no era Pujols).

Pujols contra el promedio de las grandes ligas

En su Resumen histórico de béisbol , Bill James aboga por comparar a un


jugador con un “jugador promedio de grandes ligas”. Tratemos de
determinar cuá ntas carreras adicionales anotaría un equipo “promedio
de 2006” si reemplazá ramos 634 de las apariciones en el plato del equipo
promedio con las estadísticas de Pujols (que se muestran en la figura
4.7). El archivo Pujolsoveraverage.xls nos permite para ingresar dos
conjuntos de estadísticas del jugador. Ingresamos las estadísticas de Pujols
de 2006 en las celdas B2:B12. Luego ingresamos las estadísticas
promedio de los equipos de la MLB de 2006 en H2:I12. Vea la figura 4.8.

Podemos ver que Pujol conectó muchos má s jonrones, tuvo muchas


má s bases por bolas y tuvo menos ponches por aparició n en el plato que el
bateador promedio de 2006. Al simular una entrada, las probabilidades de
cada bateador se generará n usando los datos del jugador de la columna D
o los datos del equipo en la columna J. Dado que Pujols tuvo 634
apariciones en el plato y el equipo promedio tuvo 6,236 apariciones en el
plato, elegimos que cada bateador sea Pujols (datos de la columna D) con
probabilidad 634/6,236 = .102, y elija a cada bateador para que sea un
“bateador promedio ” (datos de la columna J) con una probabilidad de 1 —
.102 = .898 . Después de correr 50,000 entradas para el equipo promedio
y el equipo reemplazó el 10.2% de los turnos al bate del equipo promedio
por Pujols, encontramos que el impacto marginal es que Pujols aumentaría
el nú mero de carreras anotadas para un equipo promedio. equipo promedio
de 783 a 853. ¿Cuá ntas victorias vale eso? Con Pujols nuestro ratio de
puntuació n es 853/783 = 1,089. Utilizando el teorema de Pitá goras del
capítulo 2, predecimos que el equipo

con Pujols ganaría

162 × (1.089) 2

(1 + 1.089 2 )

= 87,38

juegos. Por lo tanto,

estimaríamos que agregar a Pujols a un equipo promedio llevaría a

87,38 — 81 = 6,38 victorias. Veremos en el capítulo 9 un análisis alternativo


H yo j

2 Salir Número Probabilidad

3 Apariciones en placa 6236.27

4 At Bats+Sac.Hits+Sac.Bunts 5658.03

5 errores 102 0.01635593

6 Outs (en juego) 3027.23 0.48542318

7 ponches 1026.37 0.16458075

8 cama y desayuno 528.23 0.08470288

9 HTA 50 0.00801761

10 Individual 986.67 0.15821477

11 2B 304.5 0.04882726

12 3B 31.73 0.00508798

13 HORA 179.53 0.02878804

Figura 4.8. Estadísticas promedio de equipos de la MLB, 2006. Ver


archivo Pujolsoveraveraver.xls.

del récord de bateo de Pujols en 2006 indica que agregó alrededor de 9.5
victorias má s de lo que tendría un jugador promedio.

APÉNDICE

Uso de una tabla de datos para realizar una simulación en Excel

En el rango de celdas B2:H22 del archivo simulatormotivator.xls, hemos


programado Excel para “reproducir” una jugada para un equipo en el que
cada bateador tiene un 50% de posibilidades de poncharse o conectar un
jonró n. Pulse F9 y el nú mero de carreras anotadas por el equipo se
registra en la celda H3. Tenga en cuenta que cada vez que la funció n
Excel RAND() devuelve un valor inferior a 0,5, el bateador conecta un
jonró n; de lo contrario, el bateador se poncha. Para registrar el nú mero
de carreras anotadas durante muchas (digamos, 1000) entradas,
ingresamos los nú meros del 1 al 1000 en el rango de celdas I6:I1005. A
continuació n, ingresamos en la celda J3 la fó rmula ( = H3) que queremos
reproducir o simular 1,000 veces. Ahora seleccionamos el rango de
celdas I5: J1005 (esto se llama Table Range). En Excel2003 o anterior,
seleccione Tabla de datos. En Excel 2007, seleccione Datos y luego elija el
ícono What-If (el que tiene un signo de interrogació n) y elija DataTable.

A continuació n, deje la celda de entrada de fila en blanco y elija


cualquier celda en blanco como su celda de entrada de columna. Luego
Excel pone los nú meros 1, 2, . . . 1,000 sucesivamente en su celda en
blanco seleccionada. Cada vez que la celda H3 (corre en la entrada) es
yo j

2 Corredor
PromedioEntrada

3 3.00

5 4

6 1 0

7 2 2

8 3 0

9 4 3

10 5 0

11 6 4

12 7 4

13 8 6

14 9 0

15 10 0

dieci 11 3
séis

1003 998 2

1004 999 2

1005 1000 7

Figura 4.9. Simulació n de 1000 entradas de Joe Hardy bateando.

recalculado como las funciones RAND() en la columna C recalculan. Al


ingresar la fó rmula = PROMEDIO (I6:I1005) en la celda J3, se calcula
el nú mero promedio de carreras anotadas por entrada durante nuestras
1000 entradas simuladas. Para las 1000 entradas simuladas en la figura
4.9, la cantidad media de carreras anotadas por entrada fue de 3 .
EVALUACIÓ N DE LOS LANZADORES DE
BÉ ISBOL Y PRONÓ STICO DEL DESEMPEÑ O
FUTURO

En los capítulos 2 a 4 analizamos tres métodos que se pueden usar


para evaluar el desempeñ o de un bateador de béisbol: carreras creadas,
pesos lineales y simulació n Monte Carlo. Volvamos nuestra atenció n a
evaluar el desempeñ o de los lanzadores de béisbol . Como veremos,
evaluar su desempeñ o es

no importa

Hasta hace poco, la técnica utilizada con má s frecuencia para evaluar el


desempeñ o de los lanzadores era el promedio de carreras ganadas (ERA).
Consideremos un lanzador, nuevamente llamado Joe Hardy. Considere
todos los corredores a los que Joe permite llegar a la base. Cualquiera de
los corredores de base que anotan o habrían anotado si el equipo de Joe no
cometió errores de campo (como un error, pasó la pelota, etc.) hace que
Joe sea cargado con una carrera limpia. Si el corredor anota, se trata de una
carrera sucia porque sin el error, el corredor no habría anotado .

cede20 carreras ganadas en 45 entradas, se ha rendido


20 × 9
= 4 carreras
45

por nueve entradas y por lo tanto su ERA es 4. En general, la ERA de un


lanzador es

calculadas (carreras ganadas permitidas) × 9 .


entradas lanzadas

Problemas con ERA

Hay varios problemas con la evaluació n de los lanzadores por su ERA.

Los errores son subjetivos. Algunos anotadores oficiales son má s reacios


que otros a señ alar un error de bola bateada. David Kalist y David Spurr
tienen
encontró ligera evidencia de que los anotadores oficiales está n sesgados a
favor del equipo local. 1

Cuando un lanzador abridor es retirado del juego y hay al menos un


corredor de base, el nú mero de carreras limpias que concede depende en
gran medida del desempeñ o del lanzador de relevo. Por ejemplo, suponga
que Joe sale del juego con dos outs y las bases llenas. Si el lanzador de
relevo obtiene el siguiente out, a Joe se le imputan tres carreras limpias,
pero si el lanzador de relevo entrega un grand slam, entonces a Joe se le
imputan tres carreras limpias.

Un lanzador con buenos fildeadores detrá s de él claramente permitirá


menos carreras limpias que un lanzador con una defensa con fugas.
(Discutiremos la evaluació n de los campos en el capítulo 7.)

Los lanzadores abridores a menudo se evalú an sobre la base de su


récord de victorias y derrotas. Esto claramente depende del apoyo de
bateo que recibe el lanzador. Por ejemplo, en 2006, el gran Roger
Clemens tuvo una efectividad de 2.30 (aproximadamente la mitad del
promedio de la liga), pero tuvo un récord de 7-6 porque recibió un pobre
apoyo de bateo de los Astros de Houston.

Los lanzadores de relevo a menudo se evalú an sobre la base de cuántas


salvadas tienen en una temporada determinada. La mayoría de las salvadas
acreditadas a los lanzadores de relevo se otorgan a un lanzador de relevo
que se enfrenta a un bateador que representa la carrera del empate. El
siguiente extracto proporciona la definició n oficial de una salvada.

El anotador oficial acreditará a un lanzador con una salva cuando dicho


lanzador cumpla con las cuatro condiciones siguientes:

Es el lanzador final de un juego ganado por su equipo;

É l no es el lanzador ganador;

Se le atribuye al menos un tercio de un lanzamiento lanzado; y

Cumple una de las siguientes condiciones:

Entra al juego con una lectura de no má s de tres carreras y lanza al


menos una entrada;

Entra en el juego, independientemente de la cuenta, con el potencial de


entrada en la base, o en un mazo de boro; o
Lanza durante al menos tres entradas. 2

Parafraseando a George Orwell, “Todas las salvadas son iguales, pero


algunas salvadas son má s iguales que otras”.

1
KalistandSpurr, “Errores de bé isbol”.

2
La definició n oficial de salvamento ha sido reimpresa con permiso especial de la Oficina
del Comisionado de Bé isbol de las Reglas Oficiales de Béisbol . Los derechos de autor de las
Reglas Oficiales de Béisbol son propiedad y han sido registrados por el Comisionado de
Bé isbol.
estadísticas, todo lo que vemos es el nú mero de guardados, por lo que todos
los guardados parecen iguales. Sin embargo, considere un lanzador de
relevo que entra con su equipo por delante 3-2 durante la parte superior de
la ventaja de 4-2 y otro equipo tiene las bases llenas y ninguno fuera. Si este
lanzador mantiene la ventaja, ha hecho un trabajo fabuloso . En el capítulo
8, mostraremos có mo los promedios de victorias de los jugadores
resuelven muchos de los problemas relacionados con la evaluació n del
desempeñ o de los lanzadores.

también nos permite comparar el valor de los lanzadores de relevo y los


lanzadores abridores.

Uso del ERA pasado para predecir el


ERA futuroNo funciona bien

A pesar de los problemas con la efectividad, parece importante poder


predecir la futura efectividad de un lanzador a partir de su desempeñ o
anterior. Esto ayudaría a la gerencia del béisbol en su bú squeda por
mejorar el desempeñ o futuro de los lanzadores de su equipo.

Parece ló gico tratar de predecir la efectividad de un lanzador para la


pró xima temporada a partir de la efectividad de la temporada anterior.
Durante mucho tiempo, la comunidad del béisbol pensó que este enfoque
arrojaría buenas predicciones de la efectividad del añ o siguiente.
Revisemos esta hipó tesis. Para todos los lanzadores que lanzaron al
menos 100 entradas durante dos temporadas consecutivas en 2002–6, la
figura 5.1 representa en el eje x la efectividad del lanzador durante una
temporada determinada. y en el eje y la efectividad del lanzador durante
la temporada siguiente. Utilicé la funció n TrendCurve de Excel para
trazar la línea (consulte el apéndice del capítulo para obtener detalles
sobre có mo usar la funció n Trend Curve) que mejor se ajusta a estos
datos.
recta
de mejor ajuste que se puede usar para predecir la ERA del añ o
siguiente usando la ERA del añ o anterior es la ecuació n

(ERA del pró ximo añ o) = 2.8484 + .353 (ERA del añ o pasado).


(1)

+ .353(4) = 4.26 el añ o siguiente. Podemos ver en la figura 5.1 que la


línea que mejor se ajusta no se ajusta muy bien a los datos. Muchos
lanzadores con efectividad pronosticada de alrededor de 4.0 en realidad
tienen efectividad al añ o siguiente de má s de 6.0 o menos de 2.0. Los
estadísticos cuantifican

3
Excel elige la línea que mejor se ajusta, lo que minimiza la suma de las distancias
verticales al cuadrado de los puntos a la línea ajustada. Esto se llama línea de mínimos
cuadrados.
r = 0,34

y  0.353x  2.8484

R 2  0,1158

0 5 10

ERA del año pasado

Figura 5.1. Predicció n de la ERA de un añ o determinado a partir de la ERA del


añ o anterior.

qué tan bien se ajusta una línea a un conjunto de datos utilizando el valor
R cuadrado (RSQ) y la correlació n, así como la desviació n media absoluta
de los pronó sticos de regresió n.

R 2 y correlación
De la figura 5.1 encontramos que el RSQ para predecir la efectividad del
añ o siguiente a partir de la efectividad del añ o anterior es .116. Esto
indica que la ERA del añ o anterior explica só lo el 11.6% de la variació n
en la ERA del añ o siguiente. En otras palabras, el 88% de la variació n en
la ERA del añ o siguiente no se explica por la ERA del añ o anterior. Los
estadísticos también miden la asociació n lineal observando la raíz
cuadrada de RSQ, que a menudo se llama coeficiente de correlació n.

ERA de añ os es .116 = .34 .

La correlació n (generalmente denotada por r) entre dos variables (X e


Y) es una medida libre de unidades de la fuerza de la relació n lineal entre
X e Y. La correlació n entre dos variables siempre está entre — 1 y + 1.
La fó rmula exacta utilizada para calcular la correlació n entre dos
variables no es muy importante. 4 Sin embargo, es importante poder
interpretar la correlació n entre X e Y.

Una correlació n cercana a +1 significa que existe una fuerte relació n


lineal positiva entre X e Y. Es decir, cuando X es mayor que el promedio Y
tiende a

4 Sin embargo,
si lo desea, puede utilizar Excel para calcular las correlaciones entre dos
columnas de nú meros con la funció n = CORREL . Vea el capítulo apé ndice para má s
detalles.
mayor que el promedio, y cuando X es menor que el promedio, Y tiende a
ser menor que el promedio. Alternativamente, cuando se ajusta una
línea recta a los datos, habrá una línea recta con pendiente positiva que
hace un buen trabajo al ajustar los puntos .

Una correlació n cercana a — 1 significa que existe una fuerte relació n


lineal negativa entre X e Y. Es decir, cuando X es mayor que el promedio,
Y tiende a ser menor que el promedio, y cuando X es menor que el
promedio, Y tiende a ser mayor que el promedio. Alternativamente, cuando
una línea recta se ajusta a los datos, habrá una línea recta con pendiente
negativa que hace un buen trabajo ajustando los puntos. Para los datos
que se muestran en la figura 5.3 (X = precio e Y = demanda), X e Y tienen
una correlació n de — 0,94.

Una correlació n cercana a 0 significa que existe una relació n lineal débil
entre X e Y. Es decir, saber si X es má s grande o má s pequeñ o de lo que
significa

3,000

2,000

1,000

0 500

Unidades producidas

Figura 5.2. Relació n lineal positiva fuerte.

1000
6,000

4,000

2,000

Correlación=  0.94

0 5 10

Precio

Figura 5.3. Relació n lineal negativa fuerte.


Correlación  0

400

300

200

100

Ventas

Lineal (Ventas)

0 10 20

Años de experiencia

Figura 5.4. Relació n lineal débil.

no sabe si Y será mayor o menor que su media. La figura 5.4 muestra la


dependencia de Y (ventas) de X (añ os de experiencia). Los añ os de
experiencia y las ventas de unidades tienen una correlació n de .003. En
nuestro conjunto de datos, la experiencia promedio es de 10 añ os. Vemos
que cuando una persona tiene má s de 10 añ os de experiencia en ventas, sus
ventas pueden ser bajas o altas. También vemos que cuando una persona
tiene menos de 10 añ os de experiencia en ventas, las ventas pueden ser bajas
o altas. Aunque hay poca o ninguna relació n lineal entre la experiencia y las
ventas, vemos que hay una fuerte relació n no lineal (ver la curva ajustada)
entre los añ os de experiencia y las ventas. La correlació n no mide la
fuerza de las relaciones no lineales.
Desviación absoluta media de los pronósticos

La desviació n absoluta promedio (MAD para abreviar) de los errores de


pronó stico es una medida de precisió n de pronó stico comú nmente
utilizada. Para cada lanzador calculamos la efectividad pronosticada a
partir de (1) y tomamos el valor absoluto de (efectividad pronosticada)
— (efectividad real). Encontramos que la MAD para predecir la
efectividad del añ o siguiente a partir de la efectividad del añ o anterior es
0.68 carreras. En otras palabras, nuestro error en promedio al predecir
la efectividad del añ o siguiente a partir de la efectividad del añ o anterior
es de 0,68 carreras.

VorosMcCrackenStunstheBaseballWorld

Voros McCracken parece ser la primera persona en explicar con éxito por
qué las ERA futuras son difíciles de predecir a partir de las ERA pasadas. 5
McCracken observó que la eficacia de un lanzador se basa
principalmente en lo siguiente:

5
Vé ase Voros McCracken, “Pitching and Defense: HowMuchControlDoHurlersHave?” 23
de enero de 2001, http://www.baseballprospectus.com/article.php?articleid=878 .
La fracció n de BFP (bateadores enfrentados por lanzadores) que resulta en
bolas en juego (una bola en juego es una aparició n en el plato que resulta
en un roletazo, error, sencillo, doble, triple, elevado o lineout).

La fracció n de bolas en juego que resultan en hits (referido como BABIP, o


BattingAverageonBallsinPlay).

El resultado de BFP que no da como resultado bolas en juego. ¿Qué fracció n


de BFP que no produce una bola en juego da como resultado ponches, bases
por bolas, HBP o jonrones?

La visió n brillante de McCracken fue que el desempeñ o futuro de un


lanzador con respecto a las situaciones descritas en (1) y (3) se puede
predecir bastante bien a partir del desempeño pasado, pero es muy difícil
predecir (2) a partir del desempeñ o pasado . temporada. Encontramos r =
.78. Para BB, r = .66 y para HR, r = .34. McCracken llamó SO, BB, HBP y
HR Defense Independent Pitching Statistics (DIPS para abreviar)
porque estos resultados son independientes de la capacidad de fildeo del
equipo. Los DIPS parecen ser bastante predecibles de una temporada a otra.
Sin embargo , la fracció n de pelotas en juego que resulta en un autorahit
parece ser muy difícil de predecir. 6 Por ejemplo, el BABIP de un lanzador
tiene solo una correlació n de .24 con el BABIP de un lanzador en su
temporada anterior. La imprevisibilidad de BABIPis es lo que hace que
sea difícil predecir la efectividad de un lanzador en una temporada dada
usando su efectividad del añ o anterior. McCracken resume las cosas de la
siguiente manera: "Los lanzadores que son los mejores en prevenir hitson
balls en juego un añ o son a menudo los peores en el siguiente. En 1998,
Greg Maddux tuvo uno de los mejores estrategas en el béisbol, luego en
1999 tuvo uno de los peores. En 2000, tuvo uno de los mejores
nuevamente . En 1999, Pedro Martine tuvo uno de los peores; 7

Creo que la suerte y las diferencias de temporada en temporada en la


calidad del campo del equipo son factores importantes en la falta de
previsibilidad de BABIP. Sin embargo, es necesario realizar muchas
investigaciones en esta á rea.

DICE: Un modelo mejor para predecir


el rendimiento futuro de un
lanzador
có mo podemos usar la perspicacia de McCracken para predecir mejor la
efectividad futura de un lanzador? McCracken ideó un método muy
complejo para predecir el futuro

6
Investigadores posteriores encontraron que para ciertos tipos de lanzadores
(particularmente los lanzadores de nudillos ) el resultado de las bolas en juego es mucho
má s fá cil de predecir.

7
McCracken, “Lanzamiento y defensa”.
ERA. Dado que los DIPS son bastante predecibles de un añ o a otro,
parece razonable que debería haber alguna combinació n simple de DIPS
(BB, SO, HTA y FC) que se pueda usar para predecir la ERA con mayor
precisió n que nuestro enfoque anterior. En 2000, Clay Dreslogh ideó una
fó rmula má s simple, conocida como ERA de componentes
independientes de la defensa (DICE), para predecir la ERA. 8

13HR + 3(BB + HBP) — 2K


DADOS = 3.00 +
1P

(2)

Como podemos ver en la ecuació n (2), DICE predice la efectividad


conectando la HR, K, BB, HBP y las entradas lanzadas (IP) de un
lanzador del añ o anterior. Por ejemplo, en 1997, Roger Clemens tenía
las siguientes estadísticas :

68BB

7 HTA

292K

9 horas

264 IP

Usando estas estadísticas en la ecuació n (2), predecimos que la


efectividad de Clemens para 1998 será

DADOS = 3,00 + (3(68 + 7) + (13 × 9) — (2 × 292)/264) = 2,08.

La efectividad real de Clemens en 1998 fue de 2.05.

Para los añ os 2001–6 para todos los lanzadores que completaron 100
entradas o má s en temporadas consecutivas, calculé el DICE de cada
lanzador para el añ o x y lo usé para intentar predecir la efectividad para el
añ o x + 1. Por ejemplo, para un lanzador que lanzó má s de 100 entradas
en 2003 y 2004 ,usaríamos el DICE de 2003 del lanzador para predecir la
efectividad de 2004 del lanzador. Los resultados se muestran en la figura
5.5.
Por lo tanto, predecimos la efectividad del añ o dado como .56 (DICE de
la temporada pasada) + 1.975. El DICE del añ o anterior explica el 19%
de la variació n en la ERA del añ o siguiente (en comparació n con la ERA
del añ o anterior, que explicaba só lo el 11% de la ERA del añ o siguiente).
La correlació n entre el DICE del añ o anterior y el ERA del añ o siguiente
es .44 (el ERA del añ o anterior tenía solo una correlació n de .34 con el
añ o siguiente).

8
ClayDreslogh, “DICE:ANewPitchingStat”, 19 de julio de 2000, http://www.sportsmogul

.com/content/dice.htm.
y  0,5598x 
1,9751R 2  0,1915

0 5 10

DIPSPronóstico

Figura 5.5. Predicció n de efectividad futura usando DICE.

ERA). En promedio, nuestras predicciones de la efectividad de un añ o


determinado con respecto a DICE del añ o anterior se desviaron por solo
0,51 carreras (las predicciones basadas en la efectividad del añ o
pasado se desviaron por 0,68 carreras).

Para resumir, podemos predecir con mayor precisió n la efectividad de


un añ o determinado a partir de HR, BB, HBP y K que de la efectividad de
un añ o anterior.
Un Santo Grial de las Matemáticas

En este capítulo hemos discutido brevemente los problemas involucrados en


el desarrollo de un modelo para predecir el desempeñ o futuro de un
lanzador de béisbol. Hay muchos otros problemas deportivos
importantes que implican predecir el desempeñ o futuro de un jugador o
equipo a partir del desempeñ o pasado. Estos incluyen predecir

el desempeñ o de una selecció n de draft de la NBA, NFL o MLB de su escuela


secundaria, universidad o desempeñ o internacional;

las ejecuciones futuras de un bateador se crearon;

el desempeñ o futuro de un corredor, mariscal de campo o receptor abierto de


su desempeñ o profesional anterior;

el récord de un equipo para una temporada determinada basado en el


rendimiento de la temporada pasada y los intercambios de jugadores.
Mucha gente ha desarrollado este tipo de modelos de pronó stico. Por
ejemplo, cada temporada, el Baseball Forecaster de Ron Shandler , el
Baseball Handbook anual de Bill James y el Baseball Prospectus's Baseball
Annual emiten proyecciones para cada equipo de la MLB con respecto a su
desempeñ o en la siguiente temporada . temporada siguiente. Cada añ o, John
Hollinger de ESPN.com predice el desempeñ o del equipo y del jugador de
la NBA para la siguiente temporada.

Aunque estos pronó sticos son fascinantes, lo que realmente se necesita


es una comparació n de la precisió n de pronó stico de varios métodos.
Luego podemos juzgar qué pronó sticos usar en nuestras ligas de fantasía,
decisiones de draft o decisiones de personal de jugadores. Por ejemplo,
¿quién predice mejor el desempeñ o futuro del béisbol: Ron Shandler o
Bill James? Quizá en el futuro las bases de datos de precisió n de
pronó sticos deportivos (y selectores de acciones) sean un lugar comú n
en Internet.

APÉNDICE

Uso de la curva de tendencia de Excel

La funció n ExcelTrendCurve nos permite trazar la línea que mejor se


ajusta a un conjunto de datos. Luego queremos graficar la recta (y
obtener la ecuació n de la recta) que mejor se ajuste a esta relació n.

Excel2003 o anterior

Seleccione los datos a graficar (rango de celdas D4:E98). A continuació n,


seleccione el icono Asistente para grá ficos (parece un grá fico) y elija
Dispersió n XY y seleccione la primera parada. A continuació n, haga clic
en los puntos del grá fico hasta que se vuelvan amarillos. Después de
hacer clic con el botó n derecho en cualquiera de los puntos, seleccione
Añ adir línea de tendencia y elija la opció n Lineal. Luego marque las
opciones Mostrar ecuació n y Mostrar R Sq. Luego verá el grá fico que se
muestra en la figura 5.6.
Encontramos que la relació n de línea recta que mejor predice la
efectividad de un lanzador durante 2006 es efectividad de 2006 = .3802
(efectividad de 2005) + 2.75.

ció n explica el 11,1% de la variació n en la ERA de 2006.


y  0,3802x 
2,7502R 2  0,1119

0 2 4 6 8

ERAÚltimoAño

Figura 5.6. Ejemplo de creació n de una línea de tendencia.

excel2007

Seleccione los datos que se van a graficar (rango de celdas D4: E98). Luego
seleccione Insertar y elija la primera opció n de Dispersió n. Luego haga clic
en los puntos graficados hasta que se vuelvan azules. Después de hacer
clic derecho en cualquiera de los puntos, seleccione Agregar línea de
tendencia y elija la opció n Lineal. Luego verifique las opciones Mostrar
ecuació n y Mostrar R Sq. Luego verá el grá fico que se muestra en la figura
5.6. Encontramos que la relació n lineal que mejor predice la efectividad de
un lanzador durante 2006 es 2006 ERA = .3802 (2005 ERA) + 2.75. Esta
ecuació n
ció n explica el 11,1% de la variació n en la ERA de 2006.
TOMA DE DECISIONES DE BÉ ISBOL

D urante el transcurso de una temporada, los gerentes toman muchas


decisiones cruciales, incluidas las que se enumeran a continuació n.

Con un hombre en primera y nadie eliminado, ¿debemos intentar un toque


de sacrificio para avanzar al corredor a la segunda base?

¿Con un hombre en primera, uno debería intentar robar la segunda base?

Somos el equipo local y el marcador está empatado en la parte alta de la


novena entrada. El equipo contrario tiene un hombre en la tercera base y
ningú n out. ¿Deberíamos jugar el infieldin ?

La toma de decisiones en el béisbol, como en todos los aspectos de la vida


y los negocios, implica hacer concesiones. Analicemos la decisió n con
respecto a intentar tocar con un corredor en primera y ninguno out. Si el
toque tiene éxito, el corredor avanzará a segunda y estará una base más
cerca de anotar, pero se habrá concedido un precioso out. ¿Vale la pena
ceder el out por el beneficio de la base extra? Pronto veremos que, en la
mayoría de las situaciones, el beneficio obtenido al avanzar el corredor a
la segunda base no justifica ceder un out.

Posibles estados durante un juego de béisbol

La clave para desarrollar un marco para la toma de decisiones en el béisbol


es darse cuenta de que durante una reunió n de equipo se encuentra en
una de las veinticuatro situaciones (de diez llamados estados)
enumeradas en la tabla 6.1.
Cada estado se denota con cuatro nú meros. El primer nú mero es el
nú mero de salidas (0, 1 o 2). El segundo nú mero nos permite saber si la
primera base está ocupada (1 = base ocupada, 0 = base no ocupada). De
manera similar, los nú meros tercero y cuarto nos dicen si la segunda o la
tercera base, respectivamente, está n ocupadas. Por ejemplo, 1010
significa que hay un out y un corredor en segunda.
TABLA 6.1

Posibles estados durante una entrada

Runneron ¿Corredor ¿Corredor


First? en en
Estado salid segundo? Tercero
as ?

0000 0 No No No

1000 1 No No No

2000 2 No No No

0001 0 No No Sí

1001 1 No No Sí

2001 2 No No Sí

0010 0 No Sí No

1010 1 No Sí No

2010 2 No Sí No

0011 0 No Sí Sí

1011 1 No Sí Sí

2011 2 No Sí Sí

0100 0 Sí No No

1100 1 Sí No No

2100 2 Sí No No

0101 0 Sí No Sí

1101 1 Sí No Sí

2101 2 Sí No Sí
0110 0 Sí Sí No

1110 1 Sí Sí No

2110 2 Sí Sí No

0111 0 Sí Sí Sí

1111 1 Sí Sí Sí

2111 2 Sí Sí Sí
base,and2001meanstherearetwooutsandarunneronthirdbase.Intu-itively
we know the best state is 0111 (bases loaded nobody out) and
theworststateis2000(twooutsnobodyon).Howcanweexplicitlymeasureho
wmuchbetteronestateisthananother?
Wesimplylookattheaveragenumberofrunsscoredineachsituationoverthec
ourseofmanygames.In Baseball Hacks , Joseph Adler has tabulated (see
table 6.2) the average num-
berofrunsscoredineachsituationbasedondatafromthe2004season.

Por ejemplo, con un corredor en primer lugar, segundo y eliminado


(estado 1110), los equipos anotaron un promedio de .97 carreras. Esta
situació n ocurrió 4,978 veces. La informació n en la tabla 6.2 es vital para
la toma de decisiones apropiadas en el béisbol. Para ver por qué, veamos
el estado 0100 (un corredor en primer lugar, ninguno fuera). Dado que
nuestra tabla agrega datos sobre todos los equipos y bateadores,
asumiremos que los nú meros en la tabla 6.2 se refieren a la esperada.
nú mero de carreras anotadas dado que un bateador “promedio” está al
bate. En el estado 0100 vemos que se espera que un equipo “promedio”
anote .93 carreras. Ahora bien, si se intenta un toque de sacrificio, podría
tener éxito en hacer avanzar al corredor de primera a segunda, lo que
resultaría en que el bateador fuera eliminado (lo que nos llevaría al
estado 1010), o fallaría si el corredor líder fuera eliminado y el bateador
alcanzara primero (estado 1100) . ). Estos son, con mucho, los resultados
má s comunes cuando se intenta un toque. Si, en promedio, se anotan má s
carreras con un toque que sin un toque, entonces el toque es una buena
idea. ¿Có mo calculamos el nú mero promedio de carreras que anotará un
equipo después de un toque? Antes de seguir adelante, es necesaria una
breve introducció n a algunos conceptos importantes en la teoría
matemá tica de la probabilidad.

Experimentos y Variables Aleatorias

Primero definamos los conceptos importantes de experimento y variable


aleatoria. Un experimento es cualquier situació n cuyo resultado es
incierto. Los ejemplos de experimentos incluyen

un lanzamiento de dados (los resultados de 1, 2, 3, 4, 5 o 6 son posibles para


cada dado)

en el plato del bateador (los muchos resultados posibles incluyen un


jonró n, un sencillo, un ponche, etc.)

un tiro libre (los resultados incluyen un tiro libre exitoso o fallido; rebote
por cualquier equipo)
un pase lanzado por un mariscal de campo (los resultados incluyen pase
incompleto, intercepció n, finalizació n para 10 yardas, finalizació n para
15 yardas, etc.)

un intento de gol de campo (el resultado es un gol de campo logrado o perdido)

Se pueden asociar variables aleatorias con experimentos . He aquí algunos


ejemplos:
TABLA 6.2

Ejecuciones esperadas

Nú mero de
apariciones de
placas
Estado Promedio de para esta
carreras situació n

0000 .54 46,180

1000 .29 32,821

2000 .11 26,009

0001 1.46 512

1001 .98 2,069

2001 .38 3,129

0010 1.17 3,590

1010 .71 6,168

2010 .34 7,709

0011 2.14 688

1011 1.47 1,770

2011 .63 1,902

0100 .93 11,644

1100 .55 13,483

2100 .25 13,588

0101 1.86 1,053

1101 1.24 2,283

2101 .54 3,117


0110 1.49 2,786

1110 .97 4,978

2110 .46 6,545

0111 2.27 805

1111 1.6 1,926

2111 .82 2,380

Fuente : Joseph Adler, Baseball Hacks (O'Reilly Media,


2006), 313.
la suma del total en dos dados (los valores posibles incluyen 2, 3, .. . 10,
11, 12)

el nú mero de corredores bateados durante la aparició n en el plato del


bateador (0, 1, 2, 3 o 4)

el nú mero de puntos anotados en un tiro libre (los valores posibles son 0 y 1)

el nú mero de puntos anotados en jugadas de pase (0 y 6 son posibles)

el nú mero de puntos obtenidos en un gol de campo (0 y 3 son posibles)

Valor esperado

En nuestro aná lisis de béisbol, baloncesto y fú tbol, a menudo


necesitaremos determinar el valor esperado de una variable aleatoria. El
valor esperado de una variable aleatoria es el valor promedio de la variable
aleatoria que podemos esperar si un experimento se realiza muchas
veces. En general, encontramos el valor esperado de la variable aleatoria
de la siguiente manera:


todos los resultados

(probabilidad de resultado)

× (valor de la variable aleatoria para el resultado).

Por ejemplo, si lanzamos un dado, cada resultado posible tiene una


probabilidad de 1/6. Por lo tanto, si definimos la variable aleatoria X =
Nú mero de puntos que aparecen cuando se lanza el dado, entonces
1 1 1
E(X) = valor esperado de X = (1) + (2) + (3)

6 6 6
1 1 1
+ (4) + (5) + (6) = 3,5.

6 6 6
Por lo tanto, si tuviéramos que tirar muchas veces y promediar el
nú mero total de puntos, esperaríamos obtener un nú mero cercano a 3,5.

En béisbol, compararemos varias decisiones basadas en las carreras


anotadas esperadas. Por ejemplo , si las carreras anotadas esperadas son
má s altas si el equipo toca que si no lo hace, entonces el equipo no debe
tocar. En fú tbol o baloncesto, normalmente compararemos decisiones
basadas en el nú mero esperado de puntos por los que un equipo vence a
un oponente. Por ejemplo, supongamos que en el fú tbol un equipo se
enfrenta al cuarto y al 3 en la yarda 35 de su oponente. Si un gol de
campo significa que el equipo vence a la oposició n en promedio por 0.5
puntos durante el resto del juego y va por el primer intento significa que
el equipo gana por un promedio de
1.5 puntos durante el resto del juego, luego el equipo debe evitar el gol de
campo e ir por el primer down. 1

Al calcular los valores esperados de variables aleatorias, a menudo


usaremos la ley de la expectativa condicional.

valor esperado de la variable aleatoria

= 
todos los resultados

(probabilidad de resultado) × (valor esperado de

variable aleatoria dada como resultado).

Por ejemplo, suponga que en el fú tbol una jugada de carrera gana un


promedio de cinco yardas si un oponente juega una defensa de pase y un
promedio de tres yardas si un oponente juega una defensa de carrera.
Suponga también que el oponente juega una defensa de carrera el 40 % del
tiempo y una defensa de pase el 60% del tiempo.

(probabilidad de defensa del pase)

× (las yardas ganadas previstas se juegan en defensa del pase)

+ (probabilidad de mala defensa)

× (las yardas ganadas esperadas se juegan en defensa)

= (.6)(5) + (.4) × (3) = 4.2 yardas por juego.

ToBuntoNottoBunt—EsaEsLaPregunta

Ahora estamos listos para determinar si tocar con un hombre en primera


y nadie fuera es una buena jugada. Adler tabuló (para la temporada 2004)
los resultados de toques con un corredor en primera y encontró los
resultados que se muestran en la tabla 6.3.

De la tabla de datos 6.2 sabemos que en el estado actual (0100), el


equipo anotará en promedio .93 carreras. Dado que esto se basa en datos
de todos los equipos y jugadores, este nú mero supone esencialmente que
hay un bateador promedio en el plato. Si hay un gran golpe, las carreras
esperadas serían má s de .93 carreras , mientras que si hay un mal golpe,
las carreras esperadas serían menos de .93 carreras.

si está cerca del final del juego, el equipo debe maximizar la probabilidad de
1 Sin embargo,

ganar el juego. Si no está cerca del final del juego, maximizar las decisiones de elecció n
basadas en maximizar el nú mero esperado de puntos por los que un equipo vence a un
oponente es virtualmente equivalente a maximizar la probabilidad de victoria. Usaremos
este enfoque en el capítulo 22 para estudiar la base para tomar decisiones importantes en
el fú tbol, como si el equipo debe buscar un gol de campo en el cuarto down.
TABLA 6.3

Posibles resultados de un Buntwith Runner en


primera

Resultado Estado Probabilida Ejecuciones


resultante d esperadas*

El bateador es
seguro y el
corredor avanza
a la segunda
base 0110 .10 1.49

El corredor
avanza a la
segunda base y
el bateador está
a salvo 1010 .70 .71

Ambos corredores 2000 .02 .11


está n fuera

El corredor es
eliminado en la
segunda base y el
bateador llega a la
primera base .

1100 .08 .55

El bateador sale
y el corredor
permanece en
primera base
1100 .10 .55

*Las ejecuciones esperadas se derivan de la tabla de


datos 6.2.
Aplicando la ley de las expectativas condicionales a los datos de la tabla
6.3, encontramos el nú mero esperado de carreras anotadas después de
que el bun es

.10(1.49) + .70(.71) + .02(.11) + .08(.55) + .10(.55) = .75 carreras.

Por lo tanto, tocar hace que el equipo, en promedio, .18 carreras (.75 — .93
= — .18) esté peor que si no toca. Por lo tanto, el toque no es una buena
idea si un bateador promedio está arriba y el objetivo es maximizar el
nú mero esperado de carreras en una carrera.

¿Qué pasa si el bateador es un mal bateador?

¿Qué pasa si un bateador realmente malo está arriba? Supongamos que


un lanzador de bateo débil, Joe Hardy, está arriba. Joe se poncha el 85%
de las veces, golpea un solo 10% de las veces y camina el 5% de las veces.
Supondremos que el sencillo siempre avanza un corredor en primera a
tercera base .

0,85 × E(1100) + 0,10 × E(0101) + 0,05E(0110),


donde E(estado) se esperan carreras anotadas en ese estado. Usando las
carreras esperadas para cada estado de la tabla 6.2, encontramos que
con nuestro golpe débil podemos esperar anotar

.85(.55) + .10(1.86) + .05(1.49) = .73 carreras.

Por lo tanto, para Joe Hardy, el toque en realidad aumentaría el nú mero de


carreras esperadas.

¿Es Bunting una buena idea con la puntuación empatada?

¿Es una buena idea tocar cuando un equipo necesita anotar solo una
carrera? Por ejemplo, suponga que el marcador está empatado en la
parte baja de la novena entrada y un equipo tiene un corredor en
primera sin ningú n out. Si el equipo anota una carrera, gana el juego.
¿Deberían tocar? Sabemos que a menos que haya un bateador muy débil, el
toque disminuirá el nú mero esperado de carreras anotadas. En esta
situació n , sin embargo, queremos observar la probabilidad de anotar al
menos una carrera . En el excelente libro Baseball between the Numbers , los
autores tabulan la probabilidad de anotar al menos una carrera para los
veinticuatro estados. Con un corredor en primera y ninguno eliminado, la
probabilidad de anotar al menos una carrera es

.417.Lasotrasprobabilidadesalemanasanuestroejemplo se resumen en la
tabla 6.4.

La Ley de Expectativa Condicional nos dice que el empavesado


producirá una probabilidad

.10(.625) + .70(.41) + .02(.071) + .08(.272) + .10(.272) = .40

de anotar al menos una carrera. Por lo tanto, tocar y no tocar nos da casi
la misma probabilidad de anotar al menos una carrera. Por lo tanto, si un
bateador promedio está al bate, un equipo debe ser indiferente con
respecto a toques y no toques.

Para robar o no para robar (una base)

Examinemos ahora la decisió n de base robada. Supongamos que tenemos un


corredor en primera base y ninguno eliminado. Sea p = probabilidad de un
robo exitoso de segunda base. ¿ Para qué valores de p debemos robar? En
nuestro estado actual (0100) esperamos obtener una puntuació n de 0,93
carreras. Si el robo tiene éxito, el nuevo estado es 0010, en el que
esperamos obtener 1,17 carreras. Si robar no tiene éxito, el nuevo estado
es 1000, en el que esperamos anotar 0.29 carreras. Por lo tanto, si
robamos, la Ley de expectativas condicionales nos dice que nuestras
carreras esperadas anotadas son 1.17p + .29 (1 - p). Siempre que 1.17p +
.29 (1 - p) ) > .93deberíamosrobar
TABLA 6.4

Probabilidades de LeastOneRun
puntuar en

Probabilidad
de anotar al
menos una
carrera
Resultado Estado Probabilida
resultante d

El bateador es
seguro y el
corredor avanza
a la segunda
base 0110 .10 .625

El corredor
avanza a la
segunda base y el
bateador está a
salvo 1010 .70 .41

Ambos corredores está n 2000 .02 .071


fuera

El corredor es
out en la
segunda base y
el bateador
llega a la
primera base.
1100 .08 .272

El bateador sale
y el corredor
permanece en
primera base
1100 .10 .272

Fuente : Equipo de expertos de Baseball Prospectus, Jonah Keri y James Click, Baseball between
the Numbers: Why Everything You Know about the Game Is Wrong (Perseus Publishing, 2006), 129.

segunda base. Resolviendo esta desigualdad, encontramos que debemos


robar si .88p > .64orp > .64/.88 = .727. Por lo tanto, si nuestra posibilidad
de robar la segunda base supera el 72,7%, entonces intentar robar la
segunda base es una buena idea. Durante los ú ltimos siete añ os, el 70 %
de todos los intentos de base robada han tenido éxito, lo que indica que los
equipos intentan robar má s a menudo de lo que deberían.

De manera similar, encontramos que tratar de robar la segunda base


sin un out aumenta las carreras esperadas si la probabilidad de éxito es
de al menos el 75%. De manera similar, encontramos que tratar de robar
la segunda base con dos outs aumenta las carreras esperadas si la
probabilidad de éxito es de al menos 73.5%. superar el 69,2%. Con dos
outs, la probabilidad de un robo exitoso de la tercera base debe ser al
menos del 89,4% para que valga la pena.
¿Son los corredores de base demasiado
conservadores cuando intentan avanzar
en un sencillo o en un doble?

Si hay un corredor en la primera base, los entrenadores y el corredor


deben decidir si intentan avanzar a la tercera base o a la segunda base. Si
un corredor es segundo y ú nico golpea, el corredor y los entrenadores
deben decidir si detenerse en la tercera base o tratar de anotar. Si un
corredor está en primera y se conecta un doble, el corredor y los
entrenadores deben decidir si intentan anotar o detenerse en la tercera
base. Como verá a continuació n, la mayoría de los equipos de las Grandes
Ligas son demasiado conservadores cuando deciden si el corredor de
base debe intentar “ir a la extrabase”.

Supongamos que el equipo tiene un corredor en primer lugar y nadie


fuera. Si el pró ximo bateador conecta un sencillo y el corredor llega a la
tercera base, sabemos por la tabla 6.2 que el equipo está en una situació n
(primero y tercero, nadie fuera) que vale la pena en promedio

1.86 carreras. Si el corredor es eliminado, habrá un corredor en primera sin


uno (asumiendo que el bateador no toma el segundo en el tiro). En esta
situació n, el equipo promedia 0.55 carreras. Si el corredor se detiene en
segundo, habrá corredores en primero y segundo sin ningú n out, lo que da
un promedio de 1.49 carreras. Sea p = la probabilidad de que el corredor
pase del primero al tercero. El equipo maximizará sus carreras esperadas
tratando de avanzar si y solo si p(1.86) + (1 — p).55 ≥ 1.49. Encontramos
que esta desigualdad se satisface para p ≥ .72. Esto implica que un corredor
en primer lugar sin nadie debe intentar ir por el tercero si su probabilidad de
éxito es al menos del 72%. De acuerdo con los datos de la temporada
2005 de la MLB, 2 corredores de base que intentan pasar de primero a
tercero son expulsados solo el 3% de las veces. Esto significa que
probablemente hay muchas situaciones en las que los corredores de bases
tenían un 80-90% de posibilidades de pasar de primero a tercero en las
que no intentaron avanzar (y deberían haberlo hecho) .

La probabilidad de ser expulsado cuando se trata de anotar en un


sencillo desde la segunda base es de alrededor del 5 %, por lo que, sin
ninguno, los corredores se comportan casi de manera ó ptima porque
deben avanzar siempre que su probabilidad de ser eliminado sea inferior
al 5 %. Sin embargo, en todas las demá s situaciones, los corredores no
intentan avanzar en muchas situaciones en las que deberían hacerlo. Por
ejemplo, un corredor en segundo con dos outs debe intentar anotar
siempre que tenga al menos un 43% de posibilidades de anotar.

2
Vé ase Jeff Angus, “¿Puede el funcionamiento de bases ser el nuevo enfoque Moneyball?”
http://base ballanalysts.com/archives/2005/10/can_baserunning.php.
TABLA 6.5

Probabilidad de equilibrio necesaria para justificar


el intento de la base adicional

Punto de Equilibrio
Probabilidad de É xito
Necesario de una
Sola
Corredor Nú mero de
salidas

Primero 0 .72

Primero 1 .73

Primero 2 .85

Segundo 0 .95

Segundo 1 .76

Segundo 2 .43

Nota : Consulte el archivo baserunners.xls para los cálculos.

Insummary,whendeciding betweenstrategicoptionssuchasbuntingor
notbuntingwechoosethestrategythatyieldsthelargestnumberofexpected
runsor(ifthegameistiedlate)maximizestheprobabilityofscoring atleast
onerun.Asageneralrulewecouldchoosethedecision thatmaximizestheex-
pectedprobabilityofwinningthe game.Inmostsituations,adecisionthat
maximizesexpectedruns scoredwillalsomaximizethechanceofwinningthe
game.Thedetermination oftheprobabilityofwinningagameinanygame
situation is discussed in chapter 8 and after reading this chapter the reader
can, if she desires, make decisions based en maximizar la probabilidad de
ganar el juego. Este enfoque siempre producirá la decisió n correcta, pero es
mucho más difícil de implementar que maximizar las ejecuciones
esperadas. Por lo tanto, en este capítulo hemos optado por describir có mo
maximizar las ejecuciones esperadas.

APÉNDICE
carreras por entrada

Recuerde que en el capítulo 4 establecimos (sin pruebas) y verificamos


mediante simulació n que un equipo en el que cada bateador tenía un 50%
de posibilidades de batear un jonró n y un 50% de posibilidades de
poncharse promediaría 3 carreras por entrada. Ahora usamos la
expectativa condicional para probar este resultado.
Sea R i = carreras esperadas anotadas por este equipo en una entrada en
la que se permiten i outs. Entonces R 1 = .5(0) + .5(1 + R 1 ). Esto se sigue
porque con probabilidad .5 el primer bateador hace un out. y la entrada
termina con el equipo anotando 0 carreras. También con probabilidad. 5 el
primer bateador conecta un jonró n y el equipo puede esperar anotar 1 + R
1 carreras, porque todavía queda una. Resolviendo esta ecuació n
encontramos R 1 = 1.

Ahora podemos resolver para R 2 a partir de la siguiente ecuació n:

R 2 = .5 (R 1 ) + .5 (1 + R 2 ).

Esta ecuació n sigue porque con probabilidad .5 el bateador hace un out y


el equipo puede esperar anotar R 1 carreras. También con probabilidad .5
él conecta un jonró n y el equipo puede esperar anotar un total de 1 + R 2
carreras porque quedan 2 outs. Después de sustituir R 1 = 1 encontramos
que R 2 = 2.

Ahora podemos resolver para R 3 usando la ecuació n

R 3 = .5 (R 2 ) + .5 (1 + R 3 ).

Después de sustituir R 2 = 2, encontramos que R 3 = 3, como afirmamos.


Generalizando esta ló gica podemos mostrar fá cilmente que R n = n.
EVALUANDO CAMPOS

La ú ltima frontera de Sabermetrics

Sorprendentemente , hasta finales de 1990 se logró


un pequeñ o progreso en la determinació n de có mo evaluar la eficacia de
los campos y la importancia relativa de fildear (en comparació n con
batear y golpear).

(buen fildeo en la segunda base, campocorto, receptor y jardín central) para


tener un

buen equipo. Veremos que, en la mayoría de los casos, las diferencias en las
habilidades de fildeo de los jugadores no son lo suficientemente
significativas como para ser un factor importante en el desempeñ o del
equipo. Como dice el refrá n, la excepció n confirma la regla y veremos que
los Yankees de 2005 eran un equipo de fildeo muy pobre, y podemos estimar
que su fildeo deficiente le costó aproximadamente once victorias.

de fildeo : la métrica tradicional,


fatalmente defectuosa

En nuestra discusió n sobre el fildeo, nos centraremos principalmente en


la importante posició n del campocorto (SS). Hasta hace poco, la ú nica
medida disponible de efectividad de campo era el porcentaje de campo.
PO + A
porcentaje de campo = .

PO + A + E
PO = outs realizados por el fildeador. Por ejemplo, un SS obtiene crédito por
un out cuando atrapa una bola elevada o un drive de línea, toca a un
corredor o recibe la bola y pisa la segunda base para completar un out
forzado.

A = asistencias hechas por el fildeador. Por ejemplo, un SS obtiene crédito por


una asistencia cuando tira a primera base y el bateador es eliminado.

E = errores cometidos por el jugador de campo. De nuevo, si la bola bateada se


anota como un error es una decisió n subjetiva del anotador oficial.
C D mi F GRAMO H yo

13 Año Entradas apagado asisten errores RangoFactor % de fildeo


Salidas s cias

14 2000 3836 236 349 24 0.908110132 0.960591133

15 2001 3937 211 344 15 0.83943838 0.973684211

die 2002 4150 219 367 14 0.8480834984 0.976666667


cis
éis

17 2003 3101 160 271 14 0.827631015 0.968539326

18 2004 4025 273 392 13 0.983823097 0.980825959

19 2005 4058 262 454 15 1.050660084 0.979480164

20 2006 3877 214 381 15 0.913865786 0.975409836

Figura 7.1. Estadísticas de fildeo de Derek Jeter, 2000 — 2006. InnOuts = el


nú mero de outs defensivos por los cuales Jeter estuvo en el campo; PO = outs
hechos por el fildeador; A = asistencias hechas por el fildeador; E = errores
hechos por el fildeador;

RF = Factor de rango; FP = Porcentaje de campo.

D mi F GRAM H yo j
O

die Año Entradas apagado asisten errore RangoFactor % de fildeo


cis Salidas s cias s
éis

17 2000 2518 147 289 23 1.031079179 0.949891068

18 2001 2083 126 224 11 1.000552837 0.969529086

19 2002 3943 245 466 27 1.073752226 0.963414634

20 2003 4050 237 481 31 1.055676064 0.958611482

21 2004 3402 192 411 24 1.055466021 0.961722488

22 2005 3919 255 504 15 1.153261426 0.980620155


23 2006 4113 269 492 27 1.101760507 0.965736041

Figura 7.2. Estadísticas de fildeo de Rafael Furcal, 2000 — 2006. InnOuts = el


nú mero de outs defensivos por los cuales Furcal estuvo en el campo; PO = outs
hechos por el fildeador; A = asistencias hechas por el fildeador; E = errores hechos
por el fildeador;

RF = Factor de rango; FP = Porcentaje de campo.

Esencialmente, el porcentaje de fildeo calcula el porcentaje de pelotas en


juego que maneja un fildeador sin cometer un error. Las figuras 7.1 y 7.2
brindan datos de campo para dos campocortos: Derek Jeter y Rafael
Furcal durante las temporadas 2000–2006. La mayoría de los faná ticos
ocasionales del béisbol piensan que Jeter es un gran fildeador. Como
pronto veremos, este no es el caso.

Para ilustrar el cá lculo del porcentaje de fildeo (enumerado en la


columna FP), calculemos el porcentaje de fildeo de 2004 de Jeter:
273 + 392
FP = = .981. Por lo tanto, Jeter manejó adecuadamente el
98,1% de

273 + 392 + 13

sus posibilidades de fildeo. Durante los añ os 2000–2006, el porcentaje de


fildeo promedio para un SS fue de .974, por lo que el desempeñ o de Jeter
en 2004 parece bastante bueno.
tuvo un porcentaje de fildeo superior al promedio solo durante 2005. Por
lo tanto, este aná lisis superficial indica que Jeter es un campocorto
mucho mejor que Furcal. ¡No tan rá pido! El problema con el porcentaje
de fildeo es que no tiene en cuenta las bolas a las que no llega un jugador;
un jugador no puede hacer un er-ro en una bola a la que no llega. Si un SS
no se mueve, fildeará bolas fá ciles y cometerá pocos errores. Un
campocorto inmó vil permitirá muchos má s golpes de base que un
campocorto con gran alcance.

El Factor de Alcance: Una Medida


Mejorada de la Eficacia de
Campo

¿Có mo podemos medir si un campo corto tiene un rango alto o bajo? Bill
James desarrolló una medida ingeniosa pero simple de la efectividad del
campo, que él llama Factor de rango (RF). James define el RF de un
fildeador como la suma de los outs y las asistencias que recibe un
fildeador por partido jugado. Luego, James normaliza esta estadística en
relació n con todos los jugadores en una posició n determinada. Resulta
que los paradores cortos durante 2000–2006 promediaron 4,483 PO + A
por juego. Por lo tanto, un SS que tenía 5 PO + A por juego tendría un
RF de 5/4,48 = 1,11. Este SS coloca un 11 % má s de balones que un SS
típico. Los shortstops con un RF mayor que 1 tienen un rango por encima del
promedio y los shortstops con factores de rango menores que 1 tienen un
rango por debajo del promedio. Calculemos el RF de 2006 de Derek Jeter.
Asumimos 8.9 entradas por juego. La columna InnOuts indica que en
2006 Jeter estuvo en el campo durante 3.877/(8,9 × 3) = 145,2 juegos.

PO + A = 214 + 381 = 595. Así Jeter manejado con éxito


595
= 4.098

145.2

posibilidades por juego. Esto está muy por debajo del promedio SS, que
manejó con éxito

4.48 oportunidades por juego. Por lo tanto, el RFis normalizado de Jeter


4.098
= .91. Este
4.483
implica que en 2006 Jeter manejó con éxito un 9 % menos de
oportunidades que un SS promedio. Por el contrario, Furcalin 2006
manejó un 10 % má s de oportunidades que un SS promedio. En aras de
la comparació n, Ozzie Smith (quien jugó como campocorto para los
Padres y Cardenales de 1978 a 1996) generalmente se considera el
mejor campocorto de campo de la caída. Ozzie tenía un promedio de
campo de por vida de .978 (ligeramente por encima del promedio), pero tuvo
varios añ os en los que su RF excedió 1.3. Para Ozzie Smith, la métrica
Range Factor muestra su verdadera grandeza.

Má s adelante en el capítulo discutiremos cuá nto cuestan a los Yankees


los balones que Jeter no lanza.
Problemas con el factor de rango

Hay varios problemas con RF. Suponga que SS1 juega para un equipo
donde los lanzadores ponchan un promedio de 8 bateadores por juego y SS2
juega para un equipo cuyos lanzadores ponchan solo a 5 bateadores por
juego. El equipo de SS2 enfrentará en promedio tres pelotas má s en juego
que el equipo de SS1, así que incluso si ambos parados cortos tienen la
misma habilidad, SS2 tendrá un RF má s alto. Suponga que el equipo de
SS1 tiene principalmente lanzadores zurdos y el equipo de SS2 tiene
principalmente lanzadores diestros. Luego, la mayoría de los
entrenadores apilará n sus alineaciones contra el equipo de SS1 con
bateadores diestros para aprovechar el efecto de pelotó n (vea el capítulo
12). Se cree que los bateadores diestros conectan má s rodados al
campocorto que los bateadores zurdos. Los oponentes de SS2 usará n
principalmente bateadores zurdos (quienes se cree que golpean al
campocorto con menos frecuencia que los bateadores diestros). En tal
situació n, SS1 tendría má s bolas golpeadas cerca de él y tendería a tener
un RF má s grande que SS2.

Al evaluar el RF de los jardineros, debemos darnos cuenta de que las


dimensiones del parque tienen un efecto significativo en el nú mero de
oportunidades que tendrá un jardinero para fildear con éxito. Por
ejemplo, en el espacioso DodgerStadium, el jardinero izquierdo podrá
hacer muchos má s outs que el jardinero izquierdo en Fenway Park (cuyo
Monstruo Verde evita que se atrapen muchos elevados ). Baste decir que
los sabermetristas entienden estos problemas y han creado FR ajustados
para dar cuenta de estos y otros problemas.

TheFieldingBible :UNGranSaltoAdelante

Creo que John Dewan (autor de The Fielding Bible ) ha desarrollado una
excelente forma de evaluar la efectividad de los fildeos. Dewan y sus
colegas de Baseball Info Solutions miran cintas de video de cada jugada
de la MLB y determinan qué tan fuerte golpea cada pelota y en qué “zona”
del campo la pelota llega . Por ejemplo, podrían encontrar que el 20% de
todas las pelotas golpeadas suavemente sobre la segunda base son
fildeadas con éxito por los torpederos. Un campocorto que fildea con éxito
una pelota de este tipo ha evitado un hit. Un fildeador promedio habría
fildeado con éxito esta pelota el 20% de las veces, por lo que nuestro
SHas ha prevenido 1 — .2 = .8 hits má s que un jugador promedio. En este
caso, nuestro SS recibe una puntuació n de + 0.8 en la bola bateada.
ha impedido 0 — .2 = — .2 hits y recibe una puntuació n de — 0.2 en la bola
bateada . Note si cuatro SS fildea con éxito 1 en 5 oportunidades en esta
zona, su puntuació n neta es .8 — 4(.2) = 0, como sería de esperar. Si en el
transcurso de una temporada un SS tiene una puntuació n neta de - 20,
entonces efectivamente ha concedido 20 hits má s que un fildeador
promedio. Un SS con una puntuació n de +30 ha evitado efectivamente 30
hits má s que un fildeador promedio.

Conversión de puntajes de campo en carreras

¿ Podemos convertir la anotació n de un fildeador en carreras (y


posiblemente juegos ganados o perdidos debido al fildeo)? Suponga que
un SS no logra fildear una pelota sin 0 y las bases está n vacías. Antes de
que esta bola se lavara, el estado era 0000 y se esperaba que un equipo
promedio anotara 0.54 carreras. Si el SS convierte un hit potencial en un
out, entonces el nuevo estado es 1000 y se espera que el equipo de bateo
promedio anote solo 0.29 carreras. Por lo tanto, en esta situació n, el
fracaso de las SS para prevenir un acierto le cuesta a este equipo 0,93 —
0,29 = 0,64 carreras.

Conversión de carreras guardadas por un campo en victorias

¿Có mo convertimos en victorias las carreras salvadas por un buen


fildeador o las carreras extra permitidas por un mal fildeador? Miremos
de nuevo el teorema de Pitá goras del capítulo 1. Un equipo promedio
anota 775 carreras y abandona 775 carreras (para los añ os 2000–2006)
durante una temporada. Por supuesto, un equipo promedio gana 81
juegos. Si un campo salva 10 carreras, nuestro equipo promedio ahora
supera a su oponente 775–765, lo que da como resultado una proporció n de
anotaciones de 775/765 = 1.013. Usando el Teorema de Pitá goras esto
se traduce en el equipo ahora
162(1.013 2 )

ganando = 82.05 juegos. Por lo tanto, 10 carreras se traduce


1.013 2 + 1
en

alrededor de 1 juego ganado. Esto implica que un fildeador cuya


calificació n de la Biblia del fildeo fuera - 12.5 le costaría a su equipo
alrededor de 1 juego al añ o. La mayoría de los jugadores de primera línea
tienen una calificació n de la Biblia de fildeo entre + 20 y - 20. Por lo
tanto, pocos fildeadores de alto calibre le cuestan a su equipo o le salvan 2
victorias má s que los fildeadores promedio. En el capítulo 8 aprenderemos
có mo combinar las habilidades de fildeo y bateo de un bateador para
obtener una medida de la efectividad general del jugador.
B C D

3 Total del −139


equipo

4 Posición Jugador FieldingBiblerating

5 1B Giambi −8

6 2B cano −27

7 SS Jeter −34

8 3B Rodríguez 2

9 LF Matsui 3

10 FC Williams −37

11 RF Sheffield −38

Figura 7.3. Calificaciones de la Biblia de Fielding de los Yankees , 2005. Véase


John Dewan, The FieldingBible (ActaSports, 2006).

¿Por qué los Yankees tienen un “rendimiento inferior”?

La mayoría de los faná ticos del béisbol está n sorprendidos de que los
Yankees, con su enorme nó mina, no ganen la Serie Mundial todos los
añ os.

la Biblia de Fielding de Dewan . Vemos que los jardineros de los


Yankees le costaron al equipo 139 hits en el transcurso de la temporada.
Esto se traduce en 139 × (.8) = 111.2 carreras. Esto significa que el campo
de los Yankees fue 111.2/10 =

11.2 gana peor que el promedio de campo de un equipo. 1

DerekJetervs.AdamEverettyRafaelFurcal

Para cerrar el capítulo, comparemos a Derek Jeter y Rafael Furcal con el


mejor campocorto de las Grandes Ligas , Adam Everett. La tabla 7.1
compara las calificaciones de la Biblia de fildeo para Jeter, Furcal y el mejor
campocorto de fildeo, Adam Everett de los Astros de Houston, durante las
temporadas 2003–5.

Las calificaciones de Fielding Bible muestran (al igual que RF) que
Furcali es mucho mejor parador en corto que Jeter, y Everett es por
mucho el mejor de los tres paradores en corto. - Hijos, los Yankees
habrían ganado 11.2 juegos má s (o alrededor de 4 juegos por
temporada).

Durante las temporadas 2003–7, Adam Everett promedió + 29 Fielding


Bible

calificació n. Esto significa que en promedio (en comparació n con un campo


promedio

1
Durante su serie de playoffs de 2005 contra los Tigres, los Yankees cometieron cinco errores
y fueron eliminados en cuatro juegos.
TABLA 7.1

bíblicas de campo para Derek Jeter, Rafael Furcal y


Adam Everett

Añ o Clasificació Clasificació n Calificació n de


n Jeter Furcal Everett

2003 — 14 + 10 + 21

2004 — 16 +2 + 22

2005 — 34 + 26 + 33

Fuente :JohnDewan, TheFieldingBible (ActaSports,2006),119–20.

campocorto), el campo de Everett generó 29 (.8)/10 = 2.3 victorias por


temporada para los Astros de Houston.

SAFE:Evaluación de campos agregados espaciales

Suponga que dos zonas (digamos, 1 y 2) son adyacentes y se espera que un


fildeador promedio filde el 20% de las pelotas golpeadas en la zona 1 y el
40% de las pelotas golpeadas en la zona 2. ¿Qué probabilidad de ser
fildeado debe usarse para un golpe de pelota entre las dos zonas? Esta es
una pregunta difícil de responder. Idealmente, la probabilidad de que un
fildeador promedio filtre una pelota debe depender continuamente de dó nde
golpea la pelota y la velocidad a la que golpea . Varios estadísticos de
Wharton han realizado un aná lisis de este tipo (llamado Evaluació n de
fildeo agregado espacial [SAFE]).

~stjensen/research/safe.html.
PROMEDIOS DE GANANCIAS DEL JUGADOR

Cualquiera que esté relacionado con un equipo de béisbol,


fú tbol o baloncesto probablemente diría que el objetivo de un jugador es
ayudar a su equipo a jugar. Por lo tanto, parece razonable medir cuánto
ayudan los esfuerzos de un atleta profesional a su equipo a ganar o hacen
que su equipo pierda juegos. Como veremos má s adelante

capítulos, para el baloncesto y el fú tbol esta es una tarea muy difícil.

sin embargo, Eldon Mills y Harlan Mills ( Player Win Averages )


propusieron una manera simple y elegante de medir có mo un jugador de
béisbol cambia la probabilidad de que su equipo gane un juego. Para ilustrar
el método, considere quizá s el hit má s famoso en la historia del béisbol: el
jonró n de Bobby Thompson en los playoffs de 1951. Thompson llegó a
batear para los New York Giants en la parte baja de la novena entrada del
juego decisivo de la postemporada de 1951 contra los Brooklyn Dodgers.
Los Giants estaban abajo 4-2 y tenían corredores en el segundo y tercero
sin uno fuera . los Giants tenían un 30,1% de posibilidades de ganar.
Thompson conectó este jonró n histó rico y los Giants ganaron. Por
supuesto, los Giants ahora tenían un 100% de posibilidades de ganar.
Entonces, ¿có mo podemos medir el crédito que se le debe dar a
Thompson por esta interacció n entre el bateador y el lanzador? Al comienzo
del juego asumimos que cada equipo tiene un 50% de posibilidades de
ganar. La métrica que rastreamos en todos los puntos en el tiempo es

(oportunidad de ganar de mi equipo) — (oportunidad de ganar del oponente).


Llamemos a esta métrica Diferencia de Probabilidad de Ganar
(WINDIFF). Al comienzo de un juego, WINDIFF = 50 — 50 = 0. Después
de cada evento del juego (resultado del bateador, base robada, pick-off,
etc.) el bateador y el lanzador reciben un crédito igual a có mo cambian el
valor de WINDIFF.

1
La lista má s completa de probabilidades de ganar un juego segú n el margen del juego, la
entrada, la situació n y los corredores en base se encuentra en Tango, Lichtman y Dolphin,
TheBook , capítulo 1.
Antes del jonró n de Thompson, el Gigante tenía un 30,1 % de
posibilidades de ganar (má s adelante, có mo calculamos esta
probabilidad). Por lo tanto, WIN-DIFF = 30,1 — 69,9 =— 39,8. Después
de que Thompson conectó este jonró n, WIN- DIFF = 100 — 0 = 100. Por
lo tanto, el jonró n histó rico de Thompson le otorga 100 — ( — 39,8) =
139 puntos.8 WINDIFF y le cuesta al lanzador (¡pobre
RalphBranca!)139.8WINDIFFpuntos.

Promedios ganados por el jugador de Jeff Sagarin

Usaré el aná lisis Player Win Average de Jeff Sagarin para las temporadas
1957–2006 en esta secció n. 2 Sus ampliamente respetados aná lisis
estadísticos de béisbol, baloncesto y fú tbol se han publicado en USA
Today durante má s de veinte añ os. 3

Para evitar feos decimales, Sagarin multiplicó las puntuaciones de


WINDIFF por 10. Así, para Sagarin, antes del jonró n WINDIFF =— 398 y
después del jonró n WINDIFF = 1000, de modo que Thompson recibe
1398 puntos WINDIFF por su jonró n. Usaremos SAGWINDIFF para
denotar los puntos de Sagarin WINDIFF para una situació n dada .

Aquí hay otro ejemplo. El primer bate del equipo visitante conecta un
doble . ¿Cuá ntos puntos SAGWINDIFF gana? Antes de acertar el doble
SAGWINDIFF = 10(50 — 50) = 0. Después de acertar el doble, la
posibilidad de ganar el juego es del 55,6 %, por lo que SAGWINDIFF =
10(55,6 — 44,4) = 112 puntos SAGWINDIFF. En este caso, el bateador
gana 112 puntos SAGWINDIFF y el lanzador pierde 112 puntos WINDIFF.

Aquí hay un ú ltimo ejemplo. El equipo local está perdiendo por dos
carreras en la parte baja de la novena entrada con las bases llenas y sin
outs. Mariano Rivera entra en un lanzamiento y el bateador logra una
doble jugada, anotando el corredor desde tercera. Antes de la doble
jugada, el equipo local tenía un 52,3% de posibilidades de ganar. Después
de la doble jugada, el equipo de casa tiene corredor en tercera y dos outs
y está una carrera abajo. En esta situació n, el equipo local tiene un 17,2
% de posibilidades de ganar. Así, antes de la doble jugada, SAG-WINDIFF
= 10 × (52,3 — 47,7) = 46. Después de la doble jugada, SAGWIN- DIFF
= 10 × (17,2 — 82,8) =— 656. El bateador gana — 656 — 46 =— 702

puntos (o pierde 702 puntos), mientras que River gana 702 puntos.
2
Benjamin Polak y Brian Lonergan de la Universidad de Yale tambié n tienen un sistema
Player Win Average . Consulte “Cuánto vale un jugador de pelota”,
http://www.businessweek.com/bwdaily/dnflash/nov2003/nf2003115_2313_db016.htm .

3
El aná lisis de Player Win Average de Sagarin está disponible en
http://www.kiva.net/~jsagarin/mills/ seasons.htm.
Win Averages resuelve un problema importante con ERA. El lanzador
reemplazado por Rivera habrá perdido puntos por llenar las bases
(debería ser ceniza), pero Rivera gana, como debe ser, muchos puntos
por obligar al bateador a batear en la doble matanza. Con efectividad, el
lanzador reemplazado por Rivera no sufre penalidad por llenar las bases.

AKeyFact:2,000SAGWINDIFFPuntos = 1Ganancia

Con SAGWINDIFF, 2000 puntos equivalen a un juego ganado. Una vez


que entiendas esto, puedes obtener muchas ideas. Para ver có mo una
victoria equivale a 2.000 puntos, supongamos que un juego consiste
simplemente en tres eventos. Veamos un juego que ganamos y uno que
pierde (véanse las tablas 8.1 y 8.2). Consideremos un equipo que tiene un
gameover y un porcentaje de victorias del 0%. Su récord es 82-80.
Tendrá n 82(1000) — 80(1000) = 2000 puntos por temporada. Por lo
tanto, el total de puntos SAG-WINDIFF para el equipo = 2000 ×
(nú mero de juegos sobre 0,500).

Miremos a los líderes en SAGWINDIFF para lanzadores y bateadores


durante las ú ltimas tres temporadas (ver tabla 8.3). La columna de
Situaciones da apariciones en el plato para un bateador o bateadores
enfrentados para un lanzador. Recuerde que 2000 puntos equivalen a
una victoria. Así, en 2006, Albert Pujols generó alrededor de nueve
victorias más con sus apariciones en el plato de las que habría generado
un jugador promedio de la MLB. El lanzador de relevo Francisco
Rodríguez generó alrededor de cinco victorias má s con su lanzamiento de
lo que hubiera generado un lanzador promedio de la MLB.

Incorporación de índices de
fildeo en promedios de
victorias de jugadores

Usando las estadísticas de la Biblia de fildeo de John Dewan que


analizamos en el capítulo 7, podemos ajustar fá cilmente un Promedio de
victorias del jugador para incluir la capacidad de fildeo de un jugador.
Recuerde que en 2005 Derek Jeter tenía un índice de la Biblia de fildeo de
-34 y Adam Everett tenía un índice de + 33. Recuerde que un hit vale
0,8 carreras. Por lo tanto, el fildeo de Jeter (en relació n con el fildeador
promedio) le costó a los Yankees 27,2 carreras = 2,72 victorias = 5440
Puntos Ganados por el Jugador. El campo de Everett ayudó a las defensas de
los Astros a salvar 26,4 carreras = 2,64 victorias = 5280 puntos .
Después de ajustar sus Puntos Ganados de Jugador por habilidad de
fildeo, encontramos que Jeter tenía 4,140 — 5,440 =— 1,300 puntos en
2005 y Everett tenía

— 4,297 + 5,280 =+ 983 puntos en 2005. Después de ajustar por campo


TABLA 8.1

SAGWINDIFFAná lisis de una victoria

Adversario SAGWINDIFF

Evento Nuestra Oportunida Puntaje


Oportunidad de d de ganar
Ganar

Comienzo del 50% 50%


juego

Evento 1 20% 80% — 600

Evento2 40% 60% + 400

Fin del juego 100% 0% + 1200

TABLA 8.2

SAGWINDIFFAná lisis de una pérdida

Adversario SAGWINDIFF

Evento Nuestra Oportunida Puntaje


Oportunidad de d de ganar
Ganar

Comienzo del 50% 50%


juego

Evento 1 20% 80% — 600

Evento2 40% 60% + 400

Fin del juego 0% 100% — 800


TABLA 8.3

SagarinWinAverageLíderes, 2004–6

Añ o Jugador Posició n Puntos Situacion


totales es

2006 albertpujols bateador + 18,950 653


(outfield)

2006 FranciscoRodríguez lanzador de relevo + 10,562 312

2005 david ortiz jardinero/


bateador
designado + 18,145 718

2005 Roger Clemens lanzador abridor + 12,590 852

2004 BarryBonds jardinero + 25,398 637

2004 bradlidge lanzador de relevo + 11,906 382


Everett ayudó a los Astros má s de lo que Jeter ayudó a los Yankees en
2005.

Recallthatinchapter7wementionedthattheimportanceoffieldingis
overratedbymanybaseballanalysts.PlayerWinAveragesmakethis clear.De-
wan's2005 FieldingBible ratings showthatonlysevenplayershavearating
thatwouldresultinatleasttwowinsmorethanwouldbegeneratedbyanav-
eragefielder.FromSagarin's2005PlayerWinRatingswefindthat44batters
and46pitchers havePlayerWinRatingsthatgeneratetwomorewinsthan are
generated by an average hitter or pitcher, respectively. Esto implica que hay
muchos lanzadores y bateadores que tienen un gran impacto positivo en el
desempeñ o del equipo, pero muy pocos fildeadores tienen tal impacto.

También podemos ajustar los promedios de victorias de los lanzadores


para tener en cuenta la calidad de fildeo del equipo. Recuerde del
capítulo 7 que el fildeo de los Yankees de 2005 le costó al equipo 11
juegos. Esto es equivalente a 22,000 Puntos Ganados. Por lo tanto,
deberíamos aumentar las calificaciones de Win Point de los lanzadores
de los Yankees de 2005 en 22,000 puntos. Por ejemplo, Mariano Rivera
enfrentó al 5% de todos los bateadores enfrentados por los lanzadores
yanquis en 2005. Por lo tanto, podríamos sumar .05(22,000) = 1,100 Win
Pointstohistotal.

Cómo se tiene en cuenta la capacidad


de carrera base en los promedios
de victorias de los jugadores

Un buen corredor de base ciertamente puede ayudar a su equipo a ganar


algunos juegos. La mayoría de los buenos corredores ayudan a su equipo

robar bases a menudo y rara vez son atrapados cuando intentan robar;

raramente aterrizando en jugadas dobles;

tomar la base extra cuando el bateador consigue un hit (por ejemplo, un


corredor de base rápido anotará desde la segunda base en un porcentaje
más alto de sencillos que un corredor promedio).

Player Win Averages recompensa a un corredor que roba una base y


penaliza a un corredor que es sorprendido robando. Por lo tanto, Player
Win Averages incorpora la capacidad de robo de base de un jugador.
Dado que conectar un doble play reduce en gran medida las posibilidades
de ganar de un equipo, los promedios de victorias del jugador penalizan a un
jugador que conecta un doble play. Por lo tanto, el promedio de victorias
del jugador aprovecha la capacidad del bateador para evitar dobles
jugadas.

Un corredor de base veloz que a menudo anota desde el segundo en un


sencillo o desde el primero en un doble, o que a menudo pasa del primero al
tercero en un sencillo, no es recompensado por Player Win Proverages .
Dan Fox ha analizado cuá ntas carreras tiene una buena base.
un corredor puede agregar a un equipo tomando la base extra con má s
frecuencia de lo que agregaría un corredor de base promedio. 4 Fox encontró
que durante las temporadas 2000–2004 Luis Castillo agregó la mayor
cantidad de carreras (13.7 o 2.7 carreras por temporada) mientras que
Edgar Martínez le costó a su equipo la mayor cantidad de carreras (12.6 o
2.5 carreras por temporada). Dado que 10 carreras equivalen a una
victoria, un corredor que es bueno (o malo) tomando la base extra casi no
hace ninguna diferencia en términos del costo de carreras de su equipo (esto
equivale a menos de 600 Puntos SAGWIN, que es muy poco).

¿Ganaron los Mets de 1969 con lanzamiento o bateo?

Podemos usar los promedios de victorias de los jugadores para determinar


cuá nto del éxito (o fracaso) de un equipo se puede atribuir al bateo y
lanzamiento del equipo. Veamos los promedios de victorias de los
jugadores para el campeó n mundial Mets de 1969. Vea la figura 8.1.

A B C D mi

2 Total de lanzadorestot total del


bateadores al equipo

3 −9319 41057 31738

4 masa Puntos de Lanzador Puntos de


victoria victoria

5 Grote −1960 Seaver 13471

6 Kranepool −765 Koosman 13218

7 Boswell −42 Cardwell 761

8 Garrett −3819 McAndrew 1332

9 Harrelson −131 Ryan 23

10 Edade 5410 McGraw 10902


11 jones 6334 Koonce 185

12 Swoboda 6278 dilauro 890

13 shamsky 4998 taylor 1625

14 blanco −2054 frisella −605

15 Gaspar −1772 jackson −745

die Flecha −3629


cis
éis

17 Clendenon 240

18 Martín −2196

19 Charles −1021

20 Otis −1789

21 Pintor −290

Figura 8.1. Promedios de victorias de jugadores de Mets, 1969.

Los bateadores de los Mets (incluido el lanzador) generaron — 9,319


puntos, lo que indica que los bateadores de los Mets se desempeñ aron
peor que los bateadores promedio (una pérdida de 4.6 juegos). Por otro
lado, los lanzadores de los Mets (incluyendo la defensa de los Mets)
acumularon 41,057 puntos, lo que indica que los Mets

4
Dan Fox, “Circle theWagons: Runningthe BasesPart III”, 11 de agosto de 2005,
http://www.

.hardballtimes.com/main/article/circle-the-wagons-running-the-bases-part-iii.
los lanzadores se desempeñ aron mejor que un grupo de lanzadores
promedio (nuevamente de 20.5 juegos). Esto confirma la opinió n de que
Tom Seaver, Jerry Koosman y Tug McGraw fueron la razó n clave por la
que los Mets se desempeñ aron tan bien durante la temporada regular de
1969. El lector astuto podría observar que los Mets fueron 100-62, lo que
debería rendir para los Mets (100 - 81)

× 2000 = 38 000 WinPoints. Los Mets acumularon 31 738 puntos

porque varios Mets fueron canjeados durante la temporada y los totales de


Sagarin se basan en el récord de un jugador durante toda la temporada .

En el capítulo 9, veremos có mo se pueden usar los promedios de


ganancias de los jugadores para evaluar los intercambios y determinar
un salario justo para un jugador.

Estimación de las probabilidades


de ganar para diferentes
situaciones de juego

Analicemos brevemente có mo estimar la probabilidad de ganar dados


varios má rgenes de carrera, en qué entrada está un juego, cuá ntos outs hay
en una entrada determinada y la situació n de embase en una entrada
determinada. Una manera de hacer esto es simplemente usando una
muestra grande de juegos de ligas mayores y observando el porcentaje de
tiempo que gana el equipo. El fantá stico sitio web WinExpectancyFinder de
Christopher Shea hace justamente eso. 5 La figura 8.2 utiliza la situació n
dada anteriormente en la que Bobby Thompson desempeñ ó un papel
clave como ejemplo de có mo usar el sitio web. El Win Expectancy Finder
brinda (basado en las temporadas 1977–2006) el porcentaje de tiempo que
el equipo local ha ganado un juego dada la entrada , el nú mero de outs, la
situació n en base y el diferencial de puntuació n actual.

Durante los añ os 1977–2006, el equipo de casa perdió dos carreras y


tuvo corredores en segunda y tercera y un out en la parte baja de la
novena un total de 203 veces. El equipo local ganó 62/203 = 30,5% de
estos juegos. Tenga en cuenta que The Book estimó la posibilidad de ganar
en esta situació n en un 30,1 %, lo que está muy cerca de la probabilidad
implícita en los resultados reales del juego durante las ú ltimas treinta
temporadas. El Libro usa el análisis de la cadena de Markov (que es equivalente
a nuestro modelo de simulació n del capítulo 4) para estimar la probabilidad
de que el equipo local gane en todas las situaciones posibles (hay miles de
situaciones posibles). 6 por

5
Consulte http://winexp.walkoffbalk.com/expectancy/search.

6
Si asumimos que el margen de corrida siempre está entre — 10 y + 10 corridas, entonces
hay 24 × 18 × 21 = 9,072 situaciones posibles. Obtuve este resultado al multiplicar el nú mero
de estados durante una carrera (24) por el nú mero de medias carreras posibles (9 × 2), y luego
lo multipliqué por los 21 posibles diferenciales de carrera.
Figura 8.2. Ejemplo de WinExpectancyFinder.

utilizando el aná lisis de cadena de Markov o nuestro modelo de


simulació n, puede reproducir cualquier situació n miles o incluso
millones de veces. Por ejemplo, no hay muchos juegos en los que el
equipo local esté abajo, digamos, doce carreras después de una entrada,
por lo que es difícil estimar con precisió n la probabilidad de que el equipo
local gane en esta situació n. Usando la simulació n o el análisis de la cadena
de Markov, podemos reproducir esta situació n millones de veces y obtener
una estimació n má s precisa de la probabilidad de victoria del equipo
local.

Una vez que tengamos una estimació n precisa de la posibilidad de que un


equipo gane en cada situació n posible de margen de carrera, entrada, out o
corredor de bases, es sencillo calcular las calificaciones de victorias de
los jugadores .

7
Está n disponibles en http://www.retrosheet.com.
EL VALOR DE LOS JUGADORES DE REEMPLAZO

Evaluació n de oficios y salario justo

En este capítulo, aprenderemos có mo usar los promedios de


ganancias de los jugadores discutidos en el capítulo 8 para evaluar las
ofertas comerciales y calcular el salario justo de un jugador (basado en el
desempeñ o del añ o anterior).

VORPP:ValorofaReplacementPlayerPoints

La herramienta clave involucrada en nuestro aná lisis será el Valor de los


puntos de un jugador de reemplazo (VORPP), que fue desarrollado por
Keith Woolner, anteriormente del Baseball Prospectus y ahora ejecutivo
de los Indios de Cleveland. Tal vez recuerde que en varios capítulos
anteriores comparamos el desempeñ o de bateo, lanzamiento y/o fildeo
de un jugador con el de un jugador promedio. Aunque tales
comparaciones son interesantes , en realidad no nos ayudan a determinar
el verdadero valor de un jugador. Sabemos que los jugadores crean valor
haciendo cosas buenas. Woolner parece ser la primera persona en darse
cuenta de que los jugadores también crean valor al mantener a los malos
jugadores fuera de la alineació n . Woolner preguntó qué haría el equipo si
un jugador se lesionara. El equipo a menudo saca de las ligas menores a un
jugador cuyo salario es muy bajo (digamos 0). En teoría, existe un
suministro casi inagotable de tales jugadores (llamados jugadores de
reemplazo). Para definir un jugador de reemplazo para, digamos,
segunda base, Woolner colocaría a los segunda base en orden
descendente de apariciones en el plato y definiría a los segunda base de
reemplazo como aquellos que se ubican en el 20% inferior de esta lista.
Woolner calculó que una alineació n compuesta totalmente por jugadores
de reemplazo generaría un récord de temporada de 44 a 118 (ganando
cuatro juegos má s que los New York Mets de 1962).

Recuerde del capítulo 8 que por cada juego que un equipo termine por
debajo de .500 ganará : 2000 puntos SAGWIN. Por lo tanto, un equipo de
jugadores de reemplazo debería terminar la temporada con — 74,000
puntos.
pequeñ o impacto de fildear, 1 parece razonable suponer que los
lanzadores y bateadores de reemplazo deben compartir por igual la
“culpa” por el mal desempeñ o de un equipo. Esto implica que un equipo
de bateadores de reemplazo generaría : 37,000 puntos para la
temporada al igual que un equipo de lanzadores de reemplazo. Un equipo
promedio de Grandes Ligas tiene alrededor de 6200 apariciones en el plato
durante una temporada. Esto significa que por aparició n en el plato un
bateador de reemplazo promedia - 37,000/6,200 = - 5.97 puntos por
aparició n en el plato. De manera similar, un lanzador de reemplazo tiene
un promedio de 5.97 puntos por bateador enfrentado (BFP). Ahora
vemos có mo un bateador o lanzador “promedio” tiene valor. Considere un
bateador promedio, Joe Hardy, con 500 apariciones en el plato. A través
de sus 500 apariciones en el plato , sin embargo, Joe salvó 5.97 (500) =
2,985 puntos, o casi 1.5 juegos. Se aplica un aná lisis similar a cada
lanzador. Para cada bateador, ahora podemos definir el VORP de la
siguiente manera:

VORPP = SAGWINpuntos + 5,97 × (apariciones en placa).


(1)ParacadalanzadorpodemosdefinirVORPPas

Puntos SAGWIN + 5,97 × (BFP).

Por ejemplo, durante 2006, Albert Pujol obtuvo 18.950 puntos en 653
apariciones en el plato. Por lo tanto, el VORPP de Pujols = 18.950 + 653
(5,97) = 22.848 . Por lo tanto, la actuació n de Pujols en 2006 le valió a
los Cardenales alrededor de 11,4 victorias má s que un jugador de
reemplazo.

UsandoVORPPparaEvaluarOperaciones

En 2006, el lanzador de relevo de los Padres de San Diego, Trevor


Hoffman, obtuvo 7963 puntos en 255 BFP, y el lanzador abridor de los
Padres, Chris Young, obtuvo 6117 puntos en 781 BFP. Sus á reas de VORP
son las siguientes.

HoffmanVORPP = 7963 + 5,97(255) = 9485.

YoungVORPP = 6.117 + 5,97 (781) = 10.780.

Por lo tanto, Hoffman y Yonge agregaron cada uno alrededor de cinco


victorias má s de las que habría agregado un lanzador de reemplazo.
Supongamos que Pujols gana el mismo salario que Young y Hoffman
juntos. Con base en nuestra informació n VORPP, los Cardenales
estarían haciendo un mal trato si cambiaran a Pujols por Hoffman y
Young.

1
De acuerdo con The Fielding Bible , en 2005, los jugadores suplentes tenían casi la misma
calificació n promedio que los jugadores titulares.
Dinals estaría renunciando a má s de 11 victorias por 10 victorias. Esto
supone, por supuesto, que el desempeñ o pasado del jugador es un
predictor perfecto del desempeñ o futuro. La belleza de este enfoque es
que tenemos una ú nica métrica que nos permite comparar el valor de los
lanzadores de relevo y los lanzadores abridores con el valor de los
bateadores.

Uso de VORPP para determinar un salario justo para los jugadores

También podemos usar el VORPP para establecer un valor de salario justo


para un jugador. En 2006, la nó mina promedio del equipo fue de $77
millones . Por lo tanto, 74,000 VORPP llevarían a nuestro equipo de
reemplazo a un nivel de juego de .500. Esto implica que $77 millones
“compran” 74,000 VORPP. Por lo tanto, 1 VORPP vale $77 millones/74
000 = $1040. Por lo tanto, estimamos que el “valor” generado durante 2006
por estos jugadores es el siguiente:

Valor de Pujols2006 = 22.848 × 1.040 = 23,8


millones de dó lares . Valor de Hoffman2006 = 9.485
× 1.040 = 9,9 millones de dólares. Valor de
Young2006 = 10.780 × 1.040 = 11,1 millones de
dó lares.

¿Alex Rodríguez (A-Rod) está pagado en exceso?

En noviembre de 2007, Alex Rodríguez firmó un nuevo contrato con los


Yankees de Nueva York que le pagará aproximadamente $275 millones
por diez añ os. Dada la productividad anterior de A-Rod, ¿fue este un
buen negocio para los Yankees? Podemos usar las estadísticas SAGWIN
2003–6 de A-Rod y el hecho de que cada VORPP es “ vale”$1,040 para
determinar cuá l hubiera sido un salario justo para A-Rod (en dó lares de
2006) por su rendimiento de bateo durante las temporadas 2003–7.

La Figura 9.1 indica que A-Rod generó alrededor de $14 millones por
añ o en valor. En 2007, su nuevo contrato equivale a $202 millones

C D mi F GRAMO

Salario justo
en dólares de
2006
(millones)
PlacaApar SAGWIN
iciones
Puntos
5 Año VORPPuntos

6 2003 741 10593 15016.77 $ 15,62

7 2004 734 6575 10956.98 $ 11.40

8 2005 752 12521 17010.44 $ 17.69

9 2006 695 2205 6354.15 $ 6.61

10 2007 736 14193 18586.92 $ 19.33

Figura 9.1. ¿Qué es A-Rodworth? Ver archivoArod.xls.


(suponiendo que los salarios aumenten un 5% anual). Por lo tanto, para que
A-Rod genere un valor justo durante los pró ximos diez añ os, necesitaría
continuar produciendo al nivel de su fenomenal temporada 2007 para
las temporadas 2008–16.

En nuestro cá lculo de un salario justo para A-Rod, estamos asumiendo


que cada victoria generada por un equipo de la liga principal tiene un
valor igual. Como se señ ala en el libro DiamondDollars de Vince Gennaro ,
esto probablemente no sea cierto por dos razones.

Un premio extra genera má s ingresos para un gran equipo de mercado


como los Yan-kees que los que generaría para un pequeñ o equipo de
mercado como los Kansas City Royals.

Incluso para dos equipos en un mercado de tamañ o idéntico, una victoria


adicional genera mucho má s valor para un equipo que tiene buenas
posibilidades de llegar a los playoffs que para un equipo que tiene pocas
posibilidades de llegar a los playoffs. Esto se debe a que una aparició n en
los playoffs genera un valor de $14 millones para un equipo de las Grandes
Ligas. 2 Por lo tanto, A-Rod tiene mucho má s valor para un equipo como
los Yankees, que tiene buenas posibilidades de llegar a los playoffs cada
añ o, que para un equipo que está asegurado en los playoffs o tiene pocas
posibilidades de llegar a los playoffs. 3

ExtraPlateAparienciasCrear Valor

Un jugador que se desempeñ a relativamente mal en muchas apariciones


al plato puede tener un mejor VORPP que un jugador que se desempeñ a
muy bien en pocas apariciones al plato. Por ejemplo, en 2006, el tercera
base de los Tigres de Detroit, Brandon Inge, ganó solo 15 puntos en 617
apariciones en el plato, mientras que el campocorto de los Cachorros,
Ryan Therriot, generó la friolera de 2,480 puntos en solo 174 apariciones
en el plato. Por aparició n en el plato, Inge generó aproximadamente 0
puntos, mientras que Therriot generó 14 puntos por aparició n en el
plato. A pesar de este hecho, Inge sale mejor en VORPP porque
reemplaza 617 apariciones de placas potencialmente “malas”.

IngeVORPP = 15 + 5,97(617) = 3699.

TherriotVORPP = 2480 + 5,97(174) = 3519.


Como hemos visto, un jugador promedio crea valor impidiendo que los
jugadores malos jueguen.

Un buen ejemplo de có mo funciona VORPP se presenta en Mind Game


por Steven Goldman, que detalla có mo los Medias Rojas de Boston,
dirigidos por un gerente general experto

2
Equipo de expertos de Baseball Prospectus, Keri y Click, Baseball between the Numbers , 186.

3
Consulte Diamond Dollars de Gennaro para obtener má s detalles sobre có mo incorporar
la probabilidad de carrera por banderines y el tamañ o del mercado en la determinació n de
salarios.
Theo Epstein, usó VORPP para evaluar muchas de las transacciones de
jugadores que llevaron al título de la Serie Mundial 2004 de los Red Sox.
Por ejemplo, Goldman describe có mo el alto VORPP de Keith Foulke para
las temporadas 1999-2003 llevó a los Medias Rojas a firmar a Foulke (un
lanzador de relevo) para 2004. Foulke registró 32 salvamentos durante
la temporada 2004 . Por ejemplo, en 2003, Foulke tenía un VORPP de
10,998, mientras que el relevista yanqui Mariano Riverah, má s
promocionado, tenía un VORPP de solo 9,021.
FACTORES DEL PARQUE

Durante la temporada 2006, el jardinero derecho Brad Hawpe


de los Rockies de Colorado tuvo una calificació n bá sica de carreras
creadas de 5.04 carreras por juego.

indican que Hawpe tuvo una mejor temporada de bateo que Barfield.

La mayoría de los faná ticos del béisbol, sin embargo, se dan cuenta de
que los Rockies juegan en Coors Field, que es conocido por ser un parque
de bateadores porque el aire es delgado (la pelota llega má s lejos) y el
parque no es tan grande. Por otro lado, los Padres juegan en el espacioso
Petco Park, y los Padres participan habitualmente en juegos de bajo
puntaje. ¿Significa el hecho de que Hawpe jugó en un parque de
bateadores y Barfield en un parque de lanzadores que Barfield realmente
tuvo una mejor temporada de bateo que Hawpe? Como pronto veremos,
Barfield y Hawpe tuvieron temporadas de bateo prá cticamente idénticas.

Bill James fue el primero en desarrollar el concepto de Park Factors. En


todos los estadios de la NBA, la cancha es del mismo tamañ o y las
canastas miden diez pies de alto. En todos los estadios de la NFL, los
campos tienen las mismas dimensiones (aunque el aire enrarecido de
Denver, los estadios abovedados y las inclemencias del tiempo pueden
afectar el rendimiento). En el béisbol, sin embargo, cada estadio tiene
diferentes dimensiones, lo que sin duda influye en las carreras anotadas en
el parque.

Discutiremos la versió n má s simple de ParkFactors. ¿Cuá nto má s fá cil es


anotar carreras o conectar un jonró n en Coors Field que en un parque
típico de la Liga Nacional? Simplemente calcule las carreras anotadas por
juego en Coors Field divididas por carreras anotadas por juego fuera de
casa. Como se muestra en la figura 10.1, durante la temporada 2006 se
anotaron 10.73 carreras por juego en Coors Park, y durante los juegos
fuera de casa, los Rockies anotaron 9.33 carreras por juego. Tanto en los
partidos fuera de casa como en casa, las carreras se ven afectadas por
igual por la ofensiva y la defensa de los Rockies, la ofensiva promedio del
equipo de la Liga Nacional y la promedio de la Liga Nacional.
FACTORES DEL PARQUE 85

B C D mi F

2006

ParqueFacto
2 res

3 CoorsField Montañas
Rocosas

4 Jonrones Carrer al bate correr por


as juego

5 Hogar 168 869 5653 10.72839506

6 La carretera 144 756 5509 9.333333333

7 Factor 1.136947933 1.1494709

9 Parque padres
PETCO

10 Jonrones Carrer al bate correr por


as juego

11 Hogar 167 652 5542 8.049382716

12 La carretera 170 758 5591 9.358024691

13 Factor 0.991038487 0.8601583

Carreras
ajustada
s al
parque

Creado
Ejecucion
es sin
procesar
14 Equipo creadas

15 bradhawpe Montañas 5.04 4.6895262


Rocosas

die josebarfield padres 4.21 4.5264965


cis
éis

Figura10.1.EjemplosdeParkFactors.VerarchivoParkfactors.xls.
defensa. 1 Por lo tanto, la ú nica diferencia entre las carreras anotadas en
Coors Field y durante los partidos fuera de casa debe ser el resultado de
la influencia de Coors Field . Por lo tanto, 10,73/9,33 = 1,15 veces tantas
carreras anotadas en Coors Field como anotadas en un parque promedio
de la Liga Nacional. 2 A esto lo llamamos el Factor de Coors Field Park.
Aproximadamente un 15% má s de carreras se anotan en el Coors Field
que en un parque promedio de la Liga Nacional. De manera similar,
encontramos que el factor de parque para el parque Petco de los Padres es
8.05/9.35 = .86. Esto indica que en Petco Field se anotan un 14% menos
de carreras que en un parque de la National League promedio.

Ahora podemos ajustar las carreras creadas por juego de Hawpe y


Barfield para tener en cuenta la diferencia en los factores de parque. En
la mitad de los juegos, Hawpe tuvo una ventaja del 15 % en las carreras
anotadas. En general, esto significa que debemos desinflar sus Carreras
creadas dividiendo sus Carreras creadas reales: (1 + 1,15)/2 = 1,075. De
manera similar, Barfield tuvo una desventaja del 14 % en la mitad de sus
juegos, por lo que deberíamos inflar su Carreras reales creadas: (1 +
.86)/2 = .93. Ahora encontramos las siguientes carreras ajustadas
creadas para cada jugador.

Hawpeadjustedrunscreated = 5.04/1.075 = 4.69runscreatedpergame

1
Ignoro el juego entre ligas en este aná lisis,

2
Por supuesto, esto ignora el hecho de que Coors Field es parte del promedio de la Liga
Nacional, pero Coors Field no está incluido en ningú n juego fuera de casa de los Rockies.
Este hecho tiene un pequeñ o efecto en el Factor Parque y vamos a ignorar este problema.
Barfieldjustedrunscreated = 4.21/.93 = 4.53runscreatedpergame

Por lo tanto, después de ajustar las carreras creadas por juego de


Barfield y Hawpe para tener en cuenta los efectos del parque, encontramos
que sus actuaciones ofensivas eran virtualmente idénticas.

De manera similar, podemos calcular un ajuste de cuadrangular para


cada parque:

HRperABinteam'shomegames
HRadjustmentforpark = .
Partidos fuera de casa de
HRperABinteam

Por lo tanto, para CoorsField, el factor de ajuste de HR es


168/5653
= 1,14. Para
144/5509

Petco Park el factor de ajuste de HR es .99. Esto indica que no es la falta


de jonrones lo que provocó que se anotaran menos carreras en Petco. Sin
embargo, encontramos que hubo un 23 % menos de dobles en Petco que
durante los juegos de Padre Road. Esto indica que es má s difícil
conseguir una extrabase en Petco que en el parque promedio de la Liga
Nacional. 3

Por supuesto, podemos ajustar el pronó stico DIPS de efectividad de un


lanzador para tener en cuenta su Park Factor. Por ejemplo, deberíamos
aumentar el DIPS de un lanzador de San Diego Padre en 1/.93, o alrededor
del 8%. Reconociendo que alrededor de 10 carreras = 1 victoria =
2,000 puntos SAGWINDIFF , podemos ajustar la calificació n SAG-
WINDIFF de un bateador o lanzador en funció n de su Park Factor. Por
ejemplo, el ajuste del parque indica que Barfield realmente creó 0.32
carreras má s por juego que las indicadas por su calificació n bá sica de
Carreras Creadas. Barfield provocó 14,37 juegos de outs, por lo que
realmente creó (14,37) × 0,32 = 4,60 carreras má s de lo que indica nuestra
calificació n básica. Esto vale 0.460 victorias o 920 puntos. La calificació n
inicial de victorias del jugador de Barfield fue : 606 puntos. Por lo tanto,
debemos agregar 920 puntos a la clasificació n de victorias de jugadores
de Barfield en 2006, lo que lleva a una clasificació n final de
— 606 + 920 = 314 puntos.

3
En el Fenway Park de Boston, se logran un 37 % má s de dobles que en un parque
promedio de la liga estadounidense.
STREAKINESSINSPORTS

hemos escuchado a Marv Albert decirnos que Dirk Nowitzki está


“en llamas” o a Jack Buck decirnos que Albert Pujols está “al rojo vivo” y
nadie puede sacarlo.

rachas, o son los patrones observados de rendimiento del jugador y del


equipo

aleatoriedad en el trabajo?

¿Qué aspecto tiene una secuencia aleatoria?

Primero examinemos có mo aparece una secuencia aleatoria de 162


ganancias y pérdidas. Supongamos que un equipo gana el 60% de sus
juegos. Para generar una secuencia aleatoria de 162 juegos, debemos
asegurarnos de que en cada juego el equipo tenga una probabilidad de
ganar de 0,60 y que la probabilidad de ganar un juego no dependa de la
historia reciente del equipo. Por ejemplo, si el equipo perdió sus ú ltimos
cinco juegos o ganó sus ú ltimos cinco juegos, su probabilidad de ganar el
pró ximo juego aú n debe ser de 0.60. La figura 11.1 muestra tres
secuencias generadas aleatoriamente de 162 juegos. Al examinar estos
datos, la mayoría de la gente pensaría que está viendo un “equipo con
rayas”, aunque estas secuencias se generaron mediante suposiciones que
implican que no hay rayas.

Estas secuencias se generaron básicamente lanzando una moneda 162


veces con una probabilidad de ganar de 0,60. A1 indica una ganancia y
una pérdida de 0. En primer lugar, tenga en cuenta que, en promedio,
esperaríamos 162 (0,6) = 97,2 ganancias y en ninguna de nuestras
secuencias aleatorias se produjo esta cantidad de ganancias. Esto se debe a
la aleatoriedad inherente al proceso de lanzamiento de la moneda.
También tenga en cuenta que en cada secuencia el equipo experimenta
varias rachas ganadoras prolongadas. Por ejemplo, en la segunda
secuencia el equipo tuvo rachas ganadoras de diez, nueve, siete y seis
juegos. La mayoría de la gente piensa que la ocurrencia de rachas ganadoras
indica impulso o un efecto de “equipo caliente”, pero nosotros vemos que las
rachas ganadoras prolongadas son simplemente aleatorias.
A B C D mi F

Dos rachas Una racha


de 7 juegos de 5 juegos

Secuencia
aleatoria1

3 Juego Salir Juego Salir Juego Salir

4 1 1 55 0 109 1

5 2 0 56 1 110 0

6 3 1 57 0 111 1

7 4 1 58 0 112 0

8 5 1 59 0 113 0

9 6 1 60 1 114 0

10 7 0 61 0 115 1

11 8 0 62 0 116 1

12 9 1 63 1 117 1

13 10 1 64 0 118 1

14 11 0 sesent 0 119 1
ay
cinco

15 12 0 66 1 120 1

diec 13 1 67 0 121 1
iséi
s

17 14 1 68 1 122 0

18 15 0 69 1 123 1

19 diecisé 1 70 1 124 1
is

20 17 0 71 0 125 1

21 18 1 72 1 126 1

22 19 0 73 0 127 0

23 20 1 74 1 128 0

24 21 0 75 0 129 0

25 22 0 76 0 130 1

26 23 0 77 0 131 1
27 24 1 78 1 132 0

28 25 0 79 1 133 0

29 26 0 80 0 134 0

30 27 0 81 0 135 1

31 28 1 82 1 136 0

32 29 0 83 0 137 1

33 30 1 84 0 138 0

34 31 1 85 1 139 1

35 32 0 86 1 140 0

36 33 1 87 1 141 0

37 34 1 88 0 142 1

38 35 1 89 1 143 1

39 36 1 90 0 144 1

40 37 1 91 1 145 1

41 38 1 92 0 146 1

42 39 0 93 0 147 1

43 40 1 94 0 148 1

44 41 1 95 0 149 0

45 42 0 96 0 150 1

46 43 1 97 1 151 1

47 44 1 98 1 152 0

48 45 1 99 0 153 1

49 46 0 100 0 154 1

50 47 0 101 1 155 1

51 48 1 102 0 156 1

52 49 1 103 1 157 1

53 50 1 104 1 158 0

54 51 1 105 1 159 0

55 52 1 106 1 160 1

56 53 1 107 1 161 0

57 54 0 108 0 162 0
Figura 11.1. Ejemplos de secuencias aleatorias.
H yo j k L METRO

10,8,7 y

6 rachas de
1 juego

Secuencia
aleatoria2

3 Juego Salir Juego Salir Juego Salir

4 1 0 55 0 109 1

5 2 0 56 1 110 1

6 3 1 57 0 111 0

7 4 0 58 0 112 1

8 5 0 59 1 113 0

9 6 0 60 0 114 0

10 7 0 61 0 115 1

11 8 1 62 0 116 1

12 9 1 63 0 117 1

13 10 0 64 1 118 1

14 11 1 sesent 0 119 1
ay
cinco

15 12 0 66 1 120 1

die 13 0 67 0 121 1
cis
éis

17 14 0 68 0 122 1

18 15 0 69 1 123 1

19 diecis 0 70 0 124 1
éis

20 17 1 71 1 125 0

21 18 1 72 1 126 0

22 19 0 73 1 127 0

23 20 0 74 1 128 0

24 21 0 75 1 129 1

25 22 0 76 0 130 1

26 23 1 77 0 131 1
27 24 1 78 0 132 0

28 25 1 79 1 133 0

29 26 0 80 1 134 0

30 27 1 81 0 135 0

31 28 1 82 1 136 0

32 29 1 83 0 137 1

33 30 0 84 0 138 1

34 31 1 85 0 139 1

35 32 0 86 0 140 1

36 33 0 87 1 141 0

37 34 1 88 1 142 0

38 35 1 89 1 143 1

39 36 0 90 1 144 1

40 37 0 91 1 145 1

41 38 1 92 1 146 0

42 39 0 93 1 147 1

43 40 1 94 0 148 1

44 41 1 95 1 149 1

45 42 1 96 0 150 1

46 43 1 97 1 151 1

47 44 0 98 1 152 1

48 45 1 99 1 153 1

49 46 1 100 1 154 1

50 47 1 101 1 155 1

51 48 1 102 1 156 0

52 49 0 103 0 157 0

53 50 0 104 1 158 1

54 51 0 105 1 159 1

55 52 1 106 0 160 0

56 53 1 107 1 161 0

57 54 0 108 0 162 1
Figura 11.1.( continuación )
A B C D mi F

Aleatorio Dos5,6,8 y

Secuencia3 9juegos
58

59 Juego Salir Juego Salir Juego Salir

60 1 1 55 0 109 1

61 2 1 56 0 110 1

62 3 1 57 1 111 1

63 4 1 58 0 112 1

64 5 1 59 1 113 1

sese 6 1 60 1 114 0
nta
y
cinc
o

66 7 1 61 1 115 1

67 8 1 62 0 116 1

68 9 1 63 1 117 1

69 10 0 64 1 118 1

70 11 1 sesent 0 119 0
ay
cinco

71 12 0 66 0 120 1

72 13 0 67 1 121 1

73 14 1 68 1 122 1

74 15 1 69 0 123 0

75 diecisé 1 70 0 124 1
is

76 17 0 71 0 125 1

77 18 0 72 1 126 0

78 19 1 73 1 127 0

79 20 1 74 1 128 1

80 21 0 75 0 129 1

81 22 1 76 1 130 1

82 23 1 77 1 131 0

83 24 1 78 1 132 0

84 25 0 79 1 133 1
85 26 1 80 1 134 1

86 27 1 81 1 135 1

87 28 1 82 1 136 0

88 29 1 83 1 137 1

89 30 1 84 0 138 0

90 31 1 85 1 139 1

91 32 1 86 0 140 1

92 33 1 87 0 141 1

93 34 1 88 1 142 1

94 35 0 89 1 143 1

95 36 0 90 1 144 0

96 37 0 91 1 145 1

97 38 0 92 0 146 0

98 39 1 93 0 147 1

99 40 0 94 1 148 1

100 41 1 95 1 149 0

101 42 0 96 1 150 1

102 43 1 97 0 151 1

103 44 1 98 0 152 0

104 45 0 99 1 153 1

105 46 1 100 1 154 0

106 47 1 101 1 155 1

107 48 0 102 0 156 0

108 49 1 103 1 157 0

109 50 1 104 0 158 1

110 51 1 105 1 159 1

111 52 1 106 1 160 1

112 53 0 107 1 161 1

113 54 0 108 1 162 1


Figura 11.1.( continuación )
F GRAMO H

Probabilidad
de la racha
más larga

>
12 Racha más Probabilidad
larga

13 1 0,0% 100,0%

14 2 0,0% 100,0%

15 3 0,0% 100,0%

die 4 0,2% 99,8%


cis
éis

17 5 3,0% 96,8%

18 6 11,5% 85,3%

19 7 17,4% 67,9%

20 8 19,7% 48,2%

21 9 16,5% 31,7%

22 10 11,5% 20,2%

23 11 7,8% 12,4%

24 12 4,7% 7,7%

25 13 2,9% 4,7%

26 14 2,0% 2,7%

27 15 1,0% 1,8%

28 dieciséis 0,7% 1,1%

29 17 0,4% 0,7%

30 18 0,2% 0,5%

31 19 0,1% 0,4%

32 20 0,1% 0,2%

33 21 0,2% 0,1%

34 22 0,0% 0,0%
35 23 0,0% 0,0%

36 24 0,0% 0,0%

37 25 0,0% 0,0%

38 26 0,0% 0,0%

Figura 11.2. Distribució n de las rachas ganadoras má s largas en una secuencia


aleatoria.

Suponga que el equipo tiene una probabilidad de 0.60 de ganar cada


juego y el desempeñ o anterior no tiene influencia en la probabilidad de
ganar un juego . La Figura 11.2 muestra la distribució n de la racha
ganadora má s larga del equipo para una temporada de 162 juegos. Por
ejemplo, hay un 20% de probabilidad de que un equipo con una probabilidad
de .60 de ganar cada juego tenga una racha ganadora de má s de diez
juegos durante la temporada.

¿Existe la Mano Caliente?

La mayoría de la gente cree en la “mano caliente” o el bateador de rachas.


En apoyo de esta opinió n, Gilovich, Vallone y Tversky encontré que el 91% de
todos los encuestados bas-

1
Gilovich, Vallone y Tversky, “The Hot Handin Basketball”.
Los faná ticos del ketball sintieron que los jugadores de baloncesto eran
má s propensos a hacer un tiro si el ú ltimo tiro era bueno que si el ú ltimo
tiro fallaba.

Ahora podemos ver si la evidencia respalda la existencia del tirador


caliente, el bateador de rachas o el equipo de rachas. La técnica má s
comú n que se utiliza para probar la fuga es la prueba de rachas de Wald-
Wolfowitz (WWRT). Sin embargo, antes de hablar de WWRT, repasemos
rá pidamente algunos conceptos de probabilidad bá sica y estadística.

Introducir la variable aleatoria normal

Una cantidad como el promedio de bateo de un jugador seleccionado al


azar o el coeficiente intelectual de una persona seleccionada al azar es
incierta. Nos referimos a una cantidad incierta como variable aleatoria.
Dado el valor de una variable aleatoria , como el promedio de bateo de un
jugador o el coeficiente intelectual de una persona, ¿podemos determinar
cuá n inusual es la observació n? Por ejemplo, ¿qué es má s inusual: un
bateador de las Grandes Ligas de 1980 que batea .360 o una persona con
un coeficiente intelectual de 140? Para determinar si una observació n es
“inusual”, generalmente suponemos que los datos provienen de una
distribució n normal. Por ejemplo, se sabe que los coeficientes
intelectuales siguen una distribució n normal que se ilustra mediante la
funció n de densidad de probabilidad (pdf) que se muestra en la figura
11.3.

La altura de la funció n de densidad de probabilidad del CI para un


valor de CI x es proporcional a la probabilidad de que el CI de una
persona elegida al azar asuma un valor cercano a x. Por ejemplo, la altura
del pdf en 82 es aproximadamente la mitad de la altura del pdf en 100.
Esto indica que aproximadamente la mitad de las personas tienen un
coeficiente intelectual cercano a 82 que cercano a 100. Una densidad
normal se caracteriza por dos nú meros.

0.030
0.025

0.020

0.015

0.010

0.005

0 50 100 150 200

CI

Figura 11.3.Densidad de distribució n normal para IQ.


themedia µ ovalor medio

la desviació n está ndar σ , que mide la dispersió n de una variable aleatoria


sobre su media.

Se sabe que los coeficientes intelectuales tienen µ= 100 y σ= 15. Si


una variable aleatoria sigue un pdf normal, entonces

el valor má s probable de la variable aleatoria;

el 68 % del tiempo la variable aleatoria asumirá un valor dentro de σ de su


media (el área bajo un pdf representa probabilidad, por lo que el á rea total
bajo el pdf es igual a 1, y el área bajo el pdf entre 85 y 115 para IQ es 68 %);

El 95 % de las veces la variable aleatoria asumirá un valor dentro de los 2 σ de


su media (por lo tanto, el 95 % de todas las personas tienen un CI entre
70 y 130 y el á rea bajo el CI pdf entre 70 y 130 es 0,95);

la pdf es simétrica (es decir, es tan probable que una variable aleatoria
normal asuma un valor cercano a µ+ x como cercano a µ— x); por lo tanto,
aproximadamente el mismo nú mero de personas tiene coeficientes
intelectuales cercanos a 120 que cerca de 80, y así sucesivamente.

Puntuaciones Z

Suponiendo que un histograma o grá fico de barras de nuestros datos nos


dice que la suposició n de simetría se ajusta a nuestros datos, entonces los
estadísticos miden qué tan inusual es un punto de datos observando
cuá ntas desviaciones está ndar por encima o por debajo del promedio
tiene el punto de datos. Esto se llama puntaje az.

punto de datos — media


zscore = .
Desviació n Está ndar

Cuando se promedian todos los puntos de datos, las puntuaciones z


tienen un promedio de 0 y una desviació n está ndar de 1. Esta es la razó n
por la cual calcular la puntuació n z a menudo se denomina estandarizar
una observació n. Una puntuació n z de 2 en valor absoluto indica que una
observació n má s extrema que nuestro punto de datos tiene
aproximadamente un 5 % de probabilidad de ocurrir. Una puntuació n z
de 3 en valor absoluto indica que una observació n má s extrema que
nuestro punto de datos tiene aproximadamente 3 posibilidades en 1000
de que ocurra. la calle. Nos dan la siguiente informació n:

rendimiento medio diario de las


acciones = 0 % sigma del
rendimiento diario de las acciones =
1,5 %
altura media del varó n americano = 69 pulgadas
sigma de la altura del varó n americano = 4
pulgadas

— 22 — 0
, la puntuació n z para el ejemplo del mercado de valores = =—
14.67,

1.5

mientras que la puntuació n z para el ejemplo de persona corta es


30 — 69
=— 9,75.

Por lo tanto, una caída del 22% del mercado en un día es mucho má s
inusual que ver a una persona de treinta pulgadas de alto caminando por
la calle.

Veamos el promedio de bateo de .424 de Rogers Hornsby en 1924 y el


promedio de bateo de .390 de George Brett en 1980 usando puntajes z.
Dado que el lanzamiento y el fildeo en ambos añ os fueron de igual
calidad, ¿cuá l jugador tuvo el desempeñ o má s sobresaliente? La figura 11.4
muestra que la suposició n de simetría es razonable para los promedios de
bateo.

Para 1980, el promedio de bateo = .274 y la desviació n está ndar de los


promedios de bateo = .0286. 2 Por lo tanto, la puntuació n de George Brett
.390 — .274
= = 4.06. En 1924 promedio promedio de bateo = .299 y
está ndar

.0286

desviació n de los promedios de bateo = .0334. Por lo tanto, Hornsby'szscore


=

.424 — .299
= 3.74.
.0334

Por lo tanto, aunque el promedio de bateo de Brett fue


34 puntos menos que Hornsby, en relació n con el desempeñ o general
durante sus respectivas temporadas, el desempeñ o de Brett fue má s
sobresaliente.

80

60

40

20

Promedios de bateo

Figura 11.4. Histograma de promedios de bateo de 1980.

2
Esto tiene en cuenta solo a los jugadores que tenían al menos 300 AB durante la
temporada.
La prueba de carreras de Wald Wolfowitz (WWRT)

Ahora volvemos a nuestra discusió n sobre el WWRT. Motivar al equipo


considerado del WWRT que es 5–5. La forma “más rayada” de ir de 5 a 5
sería tener una secuencia de victorias y derrotas de la siguiente manera:
WWWWWLLLLL. La forma “menos rayada” de ir 5–5 sería tener esta
secuencia WLWLWLWLWL. Defina “ejecutar” como una secuencia
ininterrumpida de Ws o Ls. Por lo tanto , WWWWWLLLLL tiene dos
ejecuciones (WWWWW y LLLLL) mientras que la secuencia
WLWLWLWLWL tiene 10 ejecuciones. La pregunta clave es, dada una
secuencia aleatoria (una secuencia en la que el hecho de que una
observació n sea real o no depende de los eventos anteriores en la
secuencia), ¿cuá ntas corridas podemos esperar y qué dispersió n hay
sobre este nú mero promedio de corridas? Wald y Wolfowitz
determinaron que para una secuencia aleatoria que consta de éxitos (S) y
fracasos (F), la media y la desviació n está ndar del nú mero de ejecuciones
son las siguientes. En estas fó rmulas, N = S + F es la longitud total de la
secuencia.
2FS
µ= nú mero medio de ejecuciones = + 1.

norte

σ= desviació n está ndar del nú mero de carreras =

( µ— 1)( µ— 2)
.
n— 1

Por ejemplo, si el equipo va de 5 a 5 en promedio, esperaríamos ver


2(5)(5)

(si Ws y L se secuencian aleatoriamente) + 1 = 6 ejecuciones


10
con un

desviació n está ndar de

(6 — 1)(6 — 2)
= 1,49.
10 — 1

Por lo tanto, esta secuencia

WWWWWLLLLLtiene un puntaje azde

2— 6
=— 2.68 mientras que la secuencia
1.49

WLWLWLWLWL tiene una puntuació n de 10 — 6 = 2,68.

1.49

Una introducción a la prueba de hipótesis

Los estadísticos suelen establecer hipó tesis nulas y alternativas. La


hipó tesis nula debe aceptarse a menos que observemos una gran
cantidad de evidencia a favor de la hipó tesis alternativa (similar al
sistema de justicia de los EE. UU., en el que la hipó tesis nula es “inocente”
hasta que se pruebe su culpabilidad). 3 Lo que es genial
¿Hay mucha evidencia en contra de la hipó tesis nula? La mayoría de los
estadísticos creen que si los datos indican (bajo el supuesto de que la
hipó tesis nula es cierta) que un resultado al menos tan extremo como el
que hemos observado tiene menos del 5 % de posibilidades de ocurrir,
entonces debemos rechazar la hipó tesis nula . exacto) en valor absoluto.
Por lo tanto, si definimos el estadístico de prueba más preciso basado en
nuestros datos (dado que la hipó tesis nula es verdadera) que sigue una
distribució n normal, entonces hay solo un 5% de probabilidad de que el
puntaje z del estadístico de prueba exceda 2 en valor absoluto. Por lo
tanto, si el puntaje z del estadístico de prueba excede 2 en valor absoluto,
debemos rechazar la hipó tesis nula. porque si la hipó tesis nula es verdadera,
entonces la probabilidad de ver una estadística de prueba al menos tan
extrema como lo que observamos es menor que .05.

ennuestrasituacion

Hipótesis nula: las W y las L se distribuyen aleatoriamente dentro de la


secuencia.

Hipótesis alternativa: la historia pasada de la secuencia tiene algú n efecto


sobre si el pró ximo evento es un trabajo.

Cuando se trata de determinar si una secuencia de Ws y Ls es aleatoria,


el estadístico de prueba apropiado es el nú mero de ejecuciones.
Supongamos que observamos WWWWWLLLLLorWLWLWLWLWL. En
cualquier caso, cada puntaje z excede 2 en valor absoluto, por lo que
cualquiera de las secuencias indicaría que hay menos del 5% de
probabilidad de que las victorias y derrotas del equipo provengan de una
secuencia aleatoria. Rechazaríamos la hipó tesis nula y concluiríamos que
la secuencia no es aleatoria.

De vuelta a la mano caliente

de Gilovich, Vallone y Tversky (GVT para abreviar) de si los tiros de los


jugadores de baloncesto exhiben la “mano caliente” o el “ tiro en rachas”.
GVT analizó para cada partido en casa de la temporada 1980–81
Philadel-phia76ers los resultados de intentos de gol de campo (FG)
sucesivos.
3
En muchos casos judiciales (como Castaneda vs. Partida [1977]), la Corte Suprema de los
EE. UU. ha aceptado el nivel de significancia del 5% o la regla de dos desviaciones está ndar
como el nivel de evidencia necesario para trasladar la carga de la prueba del demandante al
demandado o viceversa.

TABLA 11.1

Determinar si existió la mano caliente para los Philadelphia 76ers de 1980–81

Nú mer Nú mero
o real esperad
de o de
ejecucio ejecucio
Jugador buenosfg FG nes nes Puntuac
s perdidos ió n Z

ChrisRichardson 124 124 128 125 — 0,38

JuliusErving 459 425 431 442.4 0.76

Lionel Hollins 194 225 203 209.4 0,62

mocheeks 189 150 172 168.3 — 0,41

CaldwellJones 129 143 134 136.6 0.32

AndrewToney 208 243 245 225.1 — 1.88

bobby jones 233 200 227 216.2 — 1.04

stevemix 181 170 176 176.3 0.04

darryl dawkins 250 153 220 190.8 — 3.09

Por ejemplo, GGGMMG significaría que el jugador encestó sus


primeros tres tiros, falló los dos siguientes y encestó el sexto. Realizaron
un WWRT en la secuencia de intentos de FG de cada jugador. Los
resultados se muestran en la tabla 11.1.
Dado que solo Darryl Dawkins tiene una puntuació n z para carreras
superiores a 2 en valor absoluto, es el ú nico jugador que exhibió una racha
significativa. Quizá s el hecho de que la mayoría de las canastas de
Dawkins fueran volcadas (su apodo era “Chocolate Thunder”) y que
hiciera su ú ltimo tiro indica que estaba siendo defendido por un jugador
al que podía dominar. Esto indicaría que el siguiente intento tendría má s
probabilidades de éxito.

¿Có mo podemos ver la racha agregada en todos los 76ers? Simplemente


promediamos sus puntajes z. Luego, usando el resultado de que la
desviació n está ndar de

puntajes z independientes 4 es 1/ N , encontramos que el promedio z

4
Un conjunto de variables aleatorias es independiente si el conocimiento del valor de
cualquier subconjunto de las variables aleatorias no nos dice nada acerca de la distribució n
de los valores de las otras variables aleatorias . para exhibir un comportamiento de tiro con
la mano caliente , por lo que es apropiado suponer que las puntuaciones z de los jugadores
individuales son variables aleatorias independientes.
la puntuació n de nueve jugadores es — 0.56. La desviació n está ndar del
promedio de las puntuaciones de nueve es 9 — .5 = 1/3 = .333.
— 0.56 — 0
ofzscores”es =— 1.68, que no es estadísticamente significativo
en el

.333

.05 nivel. Por lo tanto, concluimos que, en su conjunto, los 76ers no


exhiben

fugas notorias o comportamiento de disparo a mano caliente.

¿Existe la racha de golpes en el béisbol?

SC Albright 5 ha analizado la racha de bateo de los jugadores de la MLB.


Observó las secuencias de hits y outs de los jugadores durante una
temporada. Calculó el nú mero esperado de carreras de aciertos (H) o
outs (O) para cada jugador y lo comparó con el nú mero real de
carreras (por ejemplo, la secuencia HHOOHO tiene cuatro carreras).
Luego calculó la puntuació n z con base en el nú mero real de carreras. La
figura 11.5 usa los datos de jugador de Cal Ripken de 1987 para ilustrar
el mé todo de Albright.

La puntuació n z positiva de Ripken indica que se produjeron más


carreras de las esperadas por casualidad. Por lo tanto, en 1987, Ripken
exhibió un comportamiento ligeramente menos rayado de lo esperado .
Para los 501 jugadores durante la temporada de 1987, el puntaje z promedio
fue — 0.256 . La desviació n está ndar del promedio de puntajes z 501 es
501 — .5 = .045.
— .256 — 0
es =— 5.68,
.045

lo cual es una evidencia significativa de que los jugadores está n

má s rayado que el promedio. Albright luego usó una técnica más


sofisticada,
H yo j

2 Carrera Golpe salida


s s s

3 233 150 446

4 Signific 225.497
ar

5 Sigma 9.18294

7 puntuaci
ón z

8 0.8171

9 pvalor

10 0.41387

Figura 11.5.CalRipkennoesunastreakhitter.Seefile87ripc1.xls.

5
Albright, “Un aná lisis estadístico de las rachas de golpes en el bé isbol”.
regresió n logística, para predecir la probabilidad de que un jugador
obtenga un hit en un AB en funció n de su historial reciente, así como de
otras variables, incluidas las siguientes:

¿El lanzador es zurdo o diestro?

¿Cuá l es la efectividad del lanzador?

¿Está el juego en casa o fuera?

¿El juego es césped o césped artificial?

Después de ajustar por estas variables, la evidencia de rayas


desaparece . Albright también encontró que los jugadores que exhibieron un
comportamiento de rachas significativas durante una temporada
determinada no tenían má s probabilidades que un jugador elegido al
azar de tener una racha de bateadores durante la pró xima temporada.
Esto indica que el comportamiento de rachas no persiste de un añ o a
otro.

“ Equipos Calientes”

Los equipos exhiben impulso? Analicé la temporada 2002–3 de la NBA


para determinar si los equipos exhiben un comportamiento irregular. No
podemos simplemente observar la secuencia de victorias y derrotas. A
menudo, durante la temporada de la NBA , el equipo jugará seis partidos
consecutivos fuera de casa contra equipos difíciles, lo que puede resultar en
una larga racha de derrotas. Por lo tanto, para cada juego creé una
“diferencia de puntos” al incluir la fuerza del equipo, la fuerza del
oponente y la ventaja de la cancha local. Para ilustrar la idea, suponga
que los Sacramento Kings está n jugando contra los Chicago Bulls en
Chicago. Los Kings jugaron 7,8 puntos mejor que el promedio durante la
temporada 2002–3 y los Bulls jugaron 8,5 puntos peor que el promedio.
La ventaja de local de la NBA es de alrededor de 3 puntos. Dado que los
Kings son 16,3 puntos (7,8 — ( — 8,5) = 16,3) mejores que los Bulls y los
Bulls obtienen 3 puntos por tener la ventaja de local, predeciríamos que
los Kings ganarían por 13,3 puntos . nivel de juego mientras que una L
indica que el equipo jugó peor que su nivel de juego habitual. La figura
11.6 muestra los resultados de usar el WWRT para analizar la
rayabilidad de la secuencia de Ws y Ls para cada equipo. Vemos que solo
Portland exhibió una rayadura significativa. Tenga en cuenta, sin
embargo, que con 29 equipos esperaríamos (incluso si no hubiera
rachas) por casualidad,

.05(29) = 1.45 equipos en promedio para tener zscores superiores a 2 en


absoluto

valor. El promedio de la puntuació n de los 29 equipos es — .197. La


desviació n estándar
D mi F GRAMO H yo j

14 Equipo puntuaci medias Sigma Realruns victor Pérdida


ón z ias s

15 atlanta 0.888957 42 4.499657 46 41 41

die Bostón 0.45017 41.97561 4.496947 44 40 42


cis
éis

17 charlotte 1.562035 41.97561 4.496947 49 42 40

18 chicago 0.467286 41.902439 4.488816 44 43 39

19 cleveland 0.672543 41.97561 4.496947 45 40 42

dallas −1.02608 40.439024 4.326202 36 49 33

20

denver 0.005424 41.97561 4.496947 42 42 40

21

detroit −0.39785 41.780488 4.475265 40 44 38

22

estado Dorado 0.222239 42 4.499657 43 41 41

23

24 houston 0.27368 40.804878 4.366855 42 48 34

25 Indiana −1.55567 42 4.499657 35 41 41

26 Clippers de Los 0.044682 40.804878 4.366855 41 34 48


Ángeles

27 Lakers de Los −1.10644 41.97561 4.496947 37 40 42


Ángeles

28 Menfis −0,66672 42 4.499657 39 41 41

29 miami −0,64659 41.902439 4.488816 39 43 39

30 milwaukee 0.467286 41.902439 4.488816 44 39 43


31 Minnesota −1.03444 41.609756 4.456293 37 37 45

32 New Jersey −0.39785 41.780488 4.475265 40 44 38

33 Nueva York 0.888957 42 4.499657 46 41 41

34 orlando 0.495951 41.780488 4.475265 44 38 44

35 Filadelfia −0.20104 41.902439 4.488816 41 39 43

36 Fénix −0,31369 41.390244 4.431901 40 36 46

37 Pórtland −2.21831 41.97561 4.496947 32 42 40

38 sacramento −0.1744 41.780488 4.475265 41 44 38

39 San Antonio −0.13683 41.609756 4.456293 41 45 37

40 Seattle −0.21695 41.97561 4.496947 41 42 40

41 toronto −0.39785 41.780488 4.475265 40 38 44

42 Utah −0.13683 41.609756 4.456293 41 37 45

43 Washington −1,5151 41.780488 4.475265 35 38 44

Figura11.6.MomentumparaNBATeams.VerarchivoTeammomentum.xls.
es 1
del promedio de 29 puntajes z = .186, por lo que el puntaje z para el
promedio

29

ofall29teamzscoresis
— .197 — 0
=— 1.05, que no es significativo

.186

en el nivel .05. Por lo tanto, concluimos que la variació n en el desempeñ o


del equipo durante la temporada 2002-3 de la NBA está bien explicada
por la variació n aleatoria. Este pequeñ o estudio no respalda la opinió n
de que los equipos tienen impulso o encuentran má s buenas rachas de
las que se indicarían en una secuencia aleatoria.
EL EFECTO DEL PLATOÓ N

Para la mayoría de los lanzadores diestros, la bola curva es una


parte importante de su repertorio de lanzamiento. La bola curva de un
lanzador diestro se curva hacia un bateador zurdo y se aleja de un
bateador diestro. En teoría, cuando se enfrenta a un lanzador diestro, un
bateador zurdo tiene una curva

bateador diestro. Del mismo modo, cuando un lanzador zurdo está en el


montículo,

el bateador diestro parece tener ventaja. Los má nagers se aprovechan de


este supuesto resultado agrupando a los bateadores. Es decir, los
má nagers tienden a iniciar a los bateadores diestros con más frecuencia
contra los lanzadores zurdos y a los bateadores zurdos con má s frecuencia
contra los lanzadores diestros. Ignorando a los bateadores ambidiestros,
Joseph Adler descubrió que el 29% de los bateadores que se enfrentan a
lanzadores zurdos son zurdos y el 51% de los bateadores que se
enfrentan a lanzadores diestros son zurdos. 1 Esto demuestra que el
pelotó n sí existe. Como dijo el gran estadístico estadounidense y gurú de
la calidad W. Edwards Deming: “En Dios confiamos; todos los demá s
deben traer datos”. ¿Confirman los datos reales del juego que el bateador
tiene una ventaja sobre un lanzador que lanza con una mano diferente a
la que golpea? Adler tabuló el OBP para cada posible combinació n de "mano"
de lanzador y bateador para las temporadas 2000-2004. Los resultados se
muestran en la figura 12.1, que indica lo siguiente:

Los bateadores zurdos en promedio tienen un OBPa 22 puntos má s alto


contra los lanzadores diestros que contra los lanzadores zurdos.
Los bateadores diestros en promedio tienen un OBPa 13 puntos má s alto
contra los lanzadores zurdos que contra los lanzadores derechos.

Los lanzadores zurdos tienen un rendimiento promedio de 12 puntos


mayor que los bateadores diestros que los zurdos.

Los lanzadores diestros rinden en promedio un OBP 23 puntos mayor a los


bateadores zurdos que a los bateadores diestros.

1
Adler, BaseballHacks , 330.
C D mi F

PlacaApa
riciones
3 masa Lanzad OBP
or

4 L L 35258 0.327

5 L R 169180 0.349

6 R L 86645 0.339

7 R R 163214 0.326

Figura 12.1. Resultados del pelotó n. Seefile Pelotó n.xls. Fuente: Joseph Adler,

Baseball Hacks (O'Reilly Media, 2006), 331.

La mayoría de los sabermetristas se refieren a estas diferencias como


divisiones de pelotó n. La figura 12.1 muestra que definitivamente existen
divisiones de pelotones.

Dado que la mayoría de los lanzadores de las Grandes Ligas son


diestros (76%), un bateador zurdo tiene una ventaja sobre un bateador
diestro porque se enfrentará en su mayoría a lanzadores diestros. Esto
ayuda a explicar el hecho aparentemente asombroso de que el 37 % de
los bateadores de las grandes ligas batean como zurdos, cuando solo
alrededor del 10 % de la població n estadounidense es zurda.

Predicción del futuro de un jugadorDivisiones de


pelotón

Durante las temporadas 2005–7, Jim Thome (un bateador zurdo) tuvo
una divisió n de pelotó n de 0.121, o 121 puntos OBP. ¿Es razonable
esperar que en 2008 tenga una divisió n de pelotó n de 121 puntos
cuando el bateador zurdo promedio tiene una divisió n de pelotó n de 22
puntos? De acuerdo con la teoría de la regresió n hacia la media,
esperaríamos que las futuras divisiones de pelotones de Thome fueran
má s cercanas al promedio que sus divisiones pasadas. La idea de la
regresió n hacia la media se le atribuyó por primera vez a Francis Galton
en 1886. Galton observó que los padres altos tenían padres que eran má s
altos que el promedio pero estaban má s cerca de la altura promedio que
sus padres. . De manera similar, los padres con hijos má s bajos que el
promedio tienden a tener hijos que son má s altos que ellos pero aú n está n
por debajo del promedio. La regresió n hacia la media explica muchos hechos
en los deportes. Considere lo siguiente:

Los equipos de la NFL altamente exitosos tienden a tener menos éxito el


pró ximo añ o. Véase el capítulo 18.

Los famosos maleficios de portada de Madden NFL y Sports Illustrated : Si


un jugador está en la portada de MaddenNFL o Sports Illustrated , debe
haber hecho algo extraordinario. Por lo tanto, la regresió n hacia la media
predice que el jugador aú n lo hará bien, pero no tanto como lo hizo en el
pasado.
104 CAPÍTULO 12

En The Book: Playing the Percentages in Baseball , Tango, Lichtman y


Dolphin (en adelante, TLD) encontraron que la mejor manera de predecir
las futuras divisiones de pelotones de un jugador era tomar un promedio
ponderado de las divisiones de pelotones anteriores del jugador y el
promedio de las ligas mayores. Sus reglas se resumen en la tabla 12.1.

Tenga en cuenta que cuantos má s datos tengamos, má s cerca estará


nuestra predicció n de la divisió n futura de un jugador de su divisió n de
pelotó n anterior. También tenga en cuenta que se da má s peso a las
divisiones de pelotó n anteriores para los lanzadores que para los
bateadores.

Como ejemplo, predigamos la futura divisió n del pelotó n para el


bateador zurdo Jim Thome con base en sus divisiones del pelotó n
durante las temporadas 2005–7. Durante estas temporadas, Thome tuvo
una divisió n de pelotó n de 0.121 y se enfrentó a 897 lanzadores diestros.
897 1000
(.121) + (.022) = .069.

897 + 1000 897 + 1000

nuestra mejor conjetura es que la pró xima temporada Thome tendrá un


OBP de 69 puntos mejor de nuevo como lanzador diestro que de nuevo como
lanzador zurdo.

TABLA 12.1

Predicció nFuturoPelotó nSplits

Tipo de jugador Estimació n futura de la divisió n del

pelotó n

bateador diestro
PAL 2200
PS + (.013)
Amigo + 2200 Amigo + 2200
bateador zurdo

PAR 1000
PS + (.022)
PAR + 1000 PAR + 1000

lanzador diestro

LHBFP 700
PS + (.023)
LHBFP + 700 LHBFP + 700

lanzador zurdo

RHBFP 450
PS + (.012)
RHBFP + 450 RHBFP + 450

Nota : PS = divisió n del pelotó n anterior del jugador; PAL = apariciones en el plato del

bateador contra el lanzador zurdo; PAR = apariciones en el plato del bateador contra el
lanzador diestro; RHBFP = bateadores diestros enfrentados al lanzador; LHBFP =
bateadores zurdos enfrentados al lanzador.

Fuente : Tom Tango, Mitchell Lichtman y Andrew Dolphin, The Book: Playing the Per-
centagesinBaseball (PotomacBooks, 2007), 377–80.
¿Cuánto puede ayudar el pelotón al equipo?

TLD muestra que si un equipo completa un pelotó n en una posició n en la


alineació n de bateo durante toda la temporada (es decir, un equipo
siempre tiene un bateador zurdo golpeado contra un lanzador diestro y
un bateador zurdo golpeado contra un lanzador diestro), en promedio
ganarían un juego má s que lo harían si jugaran con un solo jugador de
habilidad general comparable durante toda la temporada. El problema es,
por supuesto, que el pelotó n en este asunto usa un lugar en la lista que
podría ser mejor gastado en un lanzador o un buen jardinero suplente.
¿WASTONYPEREZAGRAN CLUTCHHITTER?

T ony Pérez jugó como primera base en la “Gran Má quina Roja”


durante las décadas de 1960 y 1970 y tuvo un promedio de bateo de por
vida de .279. Tal promedio no suele conducir a una selecció n para el
Saló n de la Fama, pero en 2000 Pérez fue elegido para el Saló n de la
Fama mientras algunos de sus contemporá neos que tienen similares

estadísticas (como Andre Dawson y Dave Parker) aú n no han sido

elegido. Una de las razones por las que Pérez llegó al Saló n de la Fama
fue que su má nager, Sparky Anderson, dijo que Pérez era el mejor
bateador clave que jamá s había visto. ¿Hay alguna manera objetiva de
determinar si Pérez fue un gran “golpeador de embrague”?

Definamos que un bateador es un gran bateador crucial si su


desempeñ o en situaciones importantes tiende a ser mejor que su
desempeñ o general de la temporada. má s tarde y su equipo va rezagado
por una, dos o tres carreras. Luego, Adler comparó el OBP del bateador
en estas situaciones con su OBP general de la temporada. Si el bateador
lo hizo significativamente mejor durante las situaciones de embrague,
entonces podríamos decir que el bateador exhibió habilidad para golpear
en el embrague. El problema con este enfoque es que el bateador
promedio solo se encuentra con diez situaciones de embrague por
temporada, lo que no proporciona suficientes datos para estimar de
manera confiable la capacidad de embrague de un bateador. 1

Creación de un punto de referencia


para
ExpectedClutchPerformanc
e

En realidad, cada aspecto de placa tiene un nivel diferente de


importancia de "embrague". Cuando un jugador va al plato a batear
cuando su equipo está abajo por una carrera con dos outs en la parte baja
de la novena entrada, esto es obviamente una aparició n en el plato de
embrague, mientras batea en la parte superior de la novena cuando su

1
Adler, BaseballHacks , 345.
el equipo está adelante por siete carreras prá cticamente no tiene
importancia de "embrague". Recuerde que las clasificaciones
SAGWINDIFF discutidas en el capítulo 8 se basan en la importancia
relativa de cada aparició n en el plato para ganar o perder un juego.
Definamos la clasificació n SAGDIFF normalizada como el nú mero de
puntos por aparició n en el plato por el cual un bateador excede la
clasificació n promedio de 0.

Có mo podemos determinar si el rendimiento de embrague de un


jugador durante una temporada o carrera fue significativamente mejor o
peor de lo que indicaría su habilidad general ? Usemos la capacidad de
bateo general del jugador (segú n lo definido por OBP y SLG) para crear
una predicció n o punto de referencia para la calificació n SAGDIFF
normalizada por aparició n en el plato con base en las estadísticas
generales del bateador . Entonces podemos decir que el jugador exhibe
capacidad de embrague si su índice SAG DIF normalizado real es
significativamente má s alto de lo que predijimos.

Restringiremos nuestros datos a jugadores con al menos 500 AB


durante una temporada. Nuestra variable dependiente para cada jugador
es su calificació n SAGDIFF normalizada. Por ejemplo, en 2001, la
calificació n SAGDIFF de MoVaughn estuvo tres puntos por debajo del
promedio por aparició n en el plato. Esta es nuestra variable dependiente.
Su OBP = .377 y SLG = .498. Estos son los valores de nuestras variables
independientes . Obtuvimos el siguiente resultado de regresió n:

normalizedSAGDIFrating =— 42.85

+ 74,12 (OBP) + 38,61 (SLG). (1)

Como en el capítulo 3, vemos que OBP es aproximadamente el doble de


importante que SLG. Esta regresió n explica el 81 % de la variació n del
jugador en la clasificació n SAGDIFF. El error está ndar de esta regresió n
es 3,02. Esta regresió n muestra que la mayor parte de la clasificació n
SAGDIFF normalizada se explica por la capacidad general de bateo de un
jugador. El error está ndar de la regresió n indica que existe un 95% de
probabilidad de que la clasificació n SAGDIFF normalizada real de un
jugador esté dentro de dos errores está ndar, o 6,04 puntos, de nuestra
predicció n. Si la clasificació n SAGDIFF normalizada de un jugador es al
menos 6 puntos mayor que la predicha en (1), entonces exhibe una
habilidad significativa para golpear con el embrague; si la clasificació n
SAGDIFF normalizada de un jugador es má s de 6.04 puntos peor que
nuestra predicció n de (1), entonces el jugador exhibió una habilidad para
golpear con el embrague significativamente pobre.

TonyPerez

La figura 13.1 muestra el OBP, SLG, la calificació n SAGDIFF prevista de


(1) y la calificació n SAGDIFF real de Tony Pérez durante los añ os 1967–
75. Durante los nueve añ os , el SAGDIFF real normalizado de Pérez fue
mayor que su promedio de bateo.
108 CAPÍTULO 13

GRAM H yo j k
O

Sagdif PrevistoNor
normalizad malizadoSa
o real gdif

Año OBP SLG

7 1967 328 490 11 0.38

8 1968 338 430 10 −1,19

9 1969 357 526 14 3.92

10 1970 401 589 13 9.62

11 1971 325 438 10 −1,84

12 1972 349 497 13 2.21

13 1973 393 527 13 6.63

14 1974 331 460 8 −0,55

15 1975 350 466 4 1.09

Figura 13.1. Tony Pérez fue un gran bateador de embrague.

la calificació n SAGDIF normalizada de Pérez fue má s de dos errores


está ndar mejor de lo esperado de (1). Los hechos ciertamente respaldan la
afirmació n de Sparky Anderson de que Pérez era un gran bateador.

Durante 1967–74, Pérez promedió una calificació n SAGDIFF


normalizada de 11,5 por temporada. Por el contrario, durante los
mejores añ os de su carrera (1965-1972), el miembro del Saló n de la
Fama Lou Brock promedió una calificació n SAGDIF normalizada de solo

5.75. Durante los ocho mejores añ os de su carrera (1975–82), el


miembro del Saló n de la Fama George Brett promedió una calificació n
SAGDIFF normalizada de 11,8 por temporada, comparable a la
calificació n de Pérez. Durante sus mejores añ os de 1984 a 1992,
AndreDawson (que aú n no ha llegado al Saló n de la Fama) promedió una
calificació n SAGDIFF normalizada de solo 6,5.

Durante sus carreras, Dawson y Pérez tuvieron estadísticas muy similares


( OBP de Pérez = .341 y SLG = .463; OBP de Dawson = .323 y SLG =
.482).

El hecho de que durante sus añ os pico, Pérez promedió 5 puntos


SAGDIFF normalizados má s por apariciones en el plato que Dawson es
una fuerte evidencia de que Pérez era un bateador clave mucho mejor
que Dawson y brinda apoyo a los votantes que eligieron a Pérez y no a
Dawson para el Saló n de la Fama.

Los Mets de 1969 revisados

Los Mets de 1969 superaron todas las expectativas de pretemporada. En


1968, los Mets ganaron solo 73 juegos y en 1969 ganaron 102 juegos.
Parte de este sorprendente éxito se debió al increíble golpe decisivo de
Art Shamsky y RonSwoboda. Como se muestra en la figura 13.2, tanto
Shamsky como Swoboda golpean el embrague mucho mejor de lo
esperado.
L ME norte O PAGS q
TR
O

PrevistoNor RealNormal
malizadoSa izadoSagdif
gdif

6 Jugador OBP SLG Año

7 Shamsky 375 488 3.79 14 1969

8 Swoboda 326 361 −4,75 17 1969

Figura 13.2. El golpe de embrague de Shamsky y Swoboda en 1969.

Shamsky generó 11,2 puntos má s por aparició n en el plato de lo esperado


(más de 3,7 errores está ndar má s de lo esperado), mientras que
Swoboda generó

21.75 puntos má s por aparició n en el plato de lo esperado (má s de 7 errores


está ndar má s de lo esperado). Esto demuestra que durante la temporada
de 1969, Sham-sky y Swoboda exhibieron un golpe de embrague
fantá stico.

¿Persiste la capacidad de golpeo del


embrague de temporada en
temporada?

En el transcurso de su carrera, ¿tienden la mayoría de los jugadores a ser


destacados o pobres bateadores de embrague? Vamos a definir el
rendimiento de embrague de un bateador durante una temporada .

medida del embrague = normalizadoSAGDIFF

— SAGDIFF previsto desde (1)

Si un bateador exhibe tendencias de embrague relativamente


consistentes a lo largo de su carrera, se esperaría una correlació n
positiva entre el ClutchMeasure promediado durante las temporadas
pares de un jugador y su ClutchMeasure promediado durante sus
temporadas impares. Una correlació n positiva significativa entre los
promedios de añ os pares e impares implicaría que un jugador que
muestre un buen (mal) desempeñ o de embrague durante las temporadas
pares también tendería a exhibir un buen (mal) desempeñ o de embrague
durante las temporadas impares . . Los autores de Baseball between
theNumbers correlacionaron una medida similar del desempeñ o promedio
del embrague para las temporadas pares de un bateador con el
desempeñ o promedio del embrague del bateador durante las
temporadas impares. Encontraron una correlació n de .32. 2 Esto muestra
que hay un nivel moderado de consistencia entre las actuaciones de
embrague de un bateador en su temporada par e impar.

2
Equipo de expertos de Baseball Prospectus, Keri y Click, Baseball between the Numbers , 30.
RECUENTO DE PITCH Y EFECTIVIDAD DEL
PITCH

E n octubre de 2003, los Medias Rojas ganaban a los Yankees 5-2


después de siete entradas del séptimo y decisivo juego de la Serie de
Campeonato de la Liga Americana. El lanzador Pedro Martínez avanzaba y
había permitido solo dos carreras. Al comienzo de la octava entrada,
Martínez consiguió el primer bateador.

fuera, pero luego Derek Jeter golpeó dos veces. El gerente de los Medias
Rojas, Grady Little, se fue

al montículo y habló con Martínez, y luego lo dejó en el juego. Los


Yankees rá pidamente empataron el juego y fueron a ganar en el onceavo
tiempo con un jonró n espectacular de Aaron Boone. Grady Little fue
despedido más tarde esa semana. La mayoría de los analistas de béisbol
piensan que una de las razones por las que Little fue despedido fue que
ignoró la tendencia de Martínez a convertirse, después de lanzar 100
lanzamientos, en un lanzador mucho menos efectivo . Los bateadores que
enfrentaban a Martínez después de que éste había lanzado menos de 100
lanzamientos tenían un OBP de 0.256. 1 Esto significaba que antes de que
Martínez hubiera lanzado 100 lanzamientos, un bateador tenía un 26%
de probabilidad de llegar a la base.

0.364 OBP, o un 36% de posibilidades de llegar a la base. Dado que el


OBP promedio es del 34%, cuando Martinez lanza muchos lanzamientos,
se vuelve menos efectivo. Grady Little ignoró este récord, y con toda
probabilidad (ya que los Yankees tenían solo un 10% de posibilidades de
ganar el juego al comienzo de la octava entrada) su decisió n le costó a los
Medias Rojas el campeonato de la Liga Americana de 2003.
Los equipos cuya filosofía de la oficina central se basa en datos
mantienen registros de los cambios en la efectividad de un lanzador a
medida que hace más lanzamientos. En The Book , TLD analizó
inteligentemente có mo la efectividad de un lanzador varía con la cantidad de
lanzamientos realizados. Usando cada aparició n en el plato para las
temporadas 1999–2002, analizaron có mo se desempeñ ó cada bateador
(después de ajustar las habilidades individuales del bateador y el
lanzador) cada vez que un lanzador trabajó a través del orden de bateo
de nueve hombres. 2 Esta medida de desempeñ o de bateo

1
Adler, BaseballHacks , 358.
EFECTIVIDAD DEL LANZADOR 111

se identificó como promedio ponderado sobre la base (WOBA) y se definió


mediante el cá lculo

.72 × BB + .75 (HTA) + .9 (sencillos)

+ .92 (alcanzado por error) + 1.24 (2B)

+ 1,56 (3B) + 1,95 (FC)


.
apariciones en placa

WOBA es una forma de pesos lineales (consulte el capítulo 3) que se


escala para reflejar el WOBA del bateador promedio de 0.340 (que
coincide con el OBP promedio de MLB). La tabla 14.1 muestra la escala
de TLD resultante.

Por lo tanto, la primera vez que los bateadores del orden se


desempeñ aron ocho puntos por debajo del WOBA esperado, mientras
que la tercera vez los bateadores del orden se desempeñ aron ocho
puntos mejor de lo esperado. Un lanzador generalmente termina
pasando por el orden la tercera vez durante las entradas cinco a la
séptima. El hecho de que los lanzadores se desempeñ en mejor al
principio del juego puede atribuirse a varios factores, incluida la fatiga del
lanzador y el hecho de que los bateadores saben qué esperar de un lanzador
a medida que avanza el juego. La cuarta vez que los bateadores del orden de
bateo se desempeñ aron prá cticamente como se esperaba. Esto puede indicar
que cualquier lanzador que llegue a la séptima u octava entrada debe tener
muy buenas cosas, contrarrestando así el efecto de la fatiga.

En resumen, sería prudente que los equipos mantuvieran resultados


como los presentados en la tabla 14.1 para todos los bateadores que
enfrenta cada lanzador abridor, y de manera individual determinar si el
desempeñ o de un lanzador se deteriora cuando su conteo de lanzamientos
excede cierto nivel .

Recuento de lanzamientos y lesiones del lanzador

En 1999, Kerry Wood desarrolló un dolor en el codo, lo que rompió los


corazones de los faná ticos de los Cachorros. Durante su añ o de novato en
1998, Wood promedió 112 lanzamientos por juego, y durante una
apertura lanzó 137 lanzamientos. Parece razonable suponer que los
lanzadores abridores que lanzan muchos lanzamientos son más propensos
a desarrollar dolor en el brazo. En Mind Game , Steven Goldman describe el
vínculo entre el conteo de lanzamientos y la probabilidad de que un
lanzador desarrolle dolor en el brazo. Keith Woolner y Rany Jazayerli
definieron los Puntos de Abuso del Lanzador (PAP para abreviar) para
una sola salida como PAP = max(0,(nú mero de lanzamientos — 100) 3 ). 3
Por ejemplo, en cualquier comienzo

2
Tango, Lichtman y Dolphin, TheBook , 30.

3
Vé ase RanyJazayerli, “PitcherAbusePoints:ANewWaytoMeasurePitcherAbuse”, 19 de
junio de 1998, http://www.baseballprospectus.com/article.php?articleid = 148.
TABLA 14.1

WOBAvs.TimethroughBattingOrder

WOBA esperado

(Basado en Actual de
Hitters versus WOBA) Actual WOBA
Expected WOBA

1 .353 .345 — 8 puntos

2 .353 .354 + 1 punto

3 .354 .362 + 8 puntos

4 .353 .354 + 1 punto

Fuente : Tom Tango, Mitchell Lichtman y Andrew Dolphin, The Book: Playing
the Percentages in Baseball (PotomacBooks, 2007), 186.

140.000

120,000

100,000

80.000

60.000

40.000

20,000

0
0 50

100

Parcelas en el juego
150

200

Figura 14.1. Puntos de abuso del lanzador en funció n del conteo de


lanzamientos del juego. PAP no es una funció n lineal del conteo de tonos.
en el que un lanzador lanza 100 lanzamientos o menos, PAP = 0. Si un
lanzador lanza 110 lanzamientos, PAP = 1,000; si un lanzador lanza 130
lanzamientos, PAP = 30 3 = 27,000 (vea la figura 14.1).

Woolner y Jazayerli descubrieron que los lanzadores con un valor de


carrera de PAP/lanzamientos totales superior a 30 tienen casi el doble de
probabilidades de desarrollar un PAP/lanzamientos totales de carrera que
no supere los 30. Por ejemplo, un lanzador con cinco aperturas lanzando
100 lanzamientos en tres juegos y 120 y 130 lanzamientos en los otros
dos juegos sería un candidato para un antebrazo:

PAP/totalpitches = (20 3 + 30 3 )/550 = 63,6.

PAP/lanzamientos totales es una herramienta que los gerentes pueden


usar para monitorear el conteo de lanzamientos de su lanzador inicial y
reducir la probabilidad de lesió n del lanzador.
¿HOY MIERDA WILLIAMHIT.406?

I n1941 TedWilliamshit.406. Si estuviera en su mejor momento hoy


(digamos, la temporada 2006), ¿aú n podría batear alrededor de .400? En
todo Estados Unidos, todos los días ocurren argumentos similares a los
siguientes: ¿Podría Bill Russell dominar a Shaq? ¿Quién es mejor: Peyton
Manning o Joe Montana? por supuesto que no podemos

saber con certeza las respuestas a estas preguntas . Sin embargo, podemos
usar matemáticas

matics para determinar si los jugadores de hoy son superiores a los


jugadores de una época anterior.

Examinemos có mo se comparan los bateadores de 1940 a 1980 con los


bateadores de 1941. Definiremos el nivel de pitcheo + defensa (PD) en
1941 (PD1941 para abreviar) como promedio. Si, por ejemplo, PD1990
= .10, eso significaría que un bateador que golpea contra PD1990
golpearía 0.10 (o 100 puntos) má s que un bateador que golpea contra
PD1941. Si PD1990 = — .10, eso significaría que un bateador que golpea
contra PD1990 golpearía 0.10 (o 100 puntos) menos que un bateador
que golpea contra PD1941.

Dado que PD1941 = 0, el á lgebra simple muestra que

PD2005 — PD1941 = PD2005

= (PD1942 — PD1941) + (PD1943 — PD1942)

+ (PD1944 — PD1943)
+ ... + (PD2004 — PD2003)

+ (PD2005 — PD2004).

Có mo podemos estimar PD1942 — PD1941? Supongamos que la


habilidad de todos los bateadores de 1941 que todavía estaban jugando
en 1942 no cambió de 1941 a 1942. Dado que los jugadores jó venes
tienden a mejorar con la experiencia y los jugadores mayores tienden a
perder la habilidad con el tiempo, parece razonable suponer que la
habilidad de una determinada cohorte de jugadores no cambiará mucho
de un añ o a otro . . Dada esta suposició n, suponga que los jugadores de
1941 que jugaron en 1942 tenían un promedio de bateo (BA) de .260 en
1941 y .258 en 1942. Este
indicaría que PD1942 fue 0,002 puntos mejor que PD1941 (PD1942 —
PD1941 =— , 002). Por lo tanto, en general, PD1942 — PD1941 = BA

de la cohorte de estos bateadores en 1942 menos el BA de la cohorte de


1941 jugadores en 1941. Se mantiene una relació n similar al determinar los
méritos relativos de PD durante añ os sucesivos. de AB y aciertos en los
añ os x y x + 1 para todos los jugadores que jugaron en los añ os x y x + 1.
Por ejemplo, encontramos que los jugadores que jugaron tanto en 1941
como en 1942 tenían las estadísticas dadas en la tabla 15.1. Por lo tanto,
PD1942 — PD1941 = — 0,009, lo que indica que el PD de 1942 fue 9
puntos mejor que el PD de 1941.

Encontramos lo siguiente:

PD1950 — PD1941 =— .015

PD1960 — PD1941 =— .022

PD1970 — PD1941 =— .039

PD1980 — PD1941 =— .044

PD1990 — PD1941 =— .057

PD2005 — PD1941 =— .062

Esto indica que 1950 PD es 15 puntos mejor que 1941 PD; 1960 PD es 22
puntos mejor que 1941 PD; 1970 P es 39 puntos mejor que 1941

EP; 1980 PD es 44 puntos mejor que 1941 PD; 1990 PD es 57 puntos


mejor que PD1941; y 2005 PD es 62 puntos mejor que 1941 PD. En 2005,
Ted Williams se habría enfrentado a una PD que era 62 puntos BA mejor
que la PD de 1941; habría bateado .406 — .062, o .344 en 2005.
Esencialmente, hemos descubierto que la fuerza del pitcheo y la defensa
de la MLB ha mejorado en alrededor de un punto BA (62/64) por añ o. La
mayor mejora se produjo en la década de 1940 (probablemente porque
el lanzamiento fue peor de lo esperado durante la Segunda Guerra
Mundial porque muchos aspirantes a jugadores estaban sirviendo a sus
jugadores).

TABLA 15.1
Promedio de bateo para 1941 y 1942 Cohortes de
bateadores que jugaron ambos añ os

Añ o AB Golpes licencia
do en
Letras

1941 71,404 18,822 .264

1942 71,437 18,212 .255


¿HOY MIERDA WILLIAMHIT.406? 115

país) y la década de 1960 (probablemente porque la década de 1960 vio una


afluencia de grandes lanzadores negros y latinos como Bob Gibson y Juan
Marichal).

Nuestra metodología para comparar jugadores de diferentes borrados


se basa en las “Traducciones de Davenport”. 1 Se pueden usar cá lculos
similares para predecir có mo se desempeñ ará n los prospectos de las
ligas menores en las mayores. Discutiremos estas ideas en el capítulo 17,
y en el capítulo 50 utilizaremos un enfoque matemá tico má s sofisticado
para determinar si la calidad de los jugadores de la NBA ha mejorado o
disminuido durante la ú ltima década.

1
Véase Baseball Prospectus Team of Experts, Keri, and Click, Baseball between the Numbers ,
xxvii.
¿FUE EL 56-GAMEHITTINGSTREAK DE
JOEDIMAGGIO EL MAYOR RÉ CORD
DEPORTIVO DE TODOS LOS TIEMPOS?

En un artículo bellamente escrito, el difunto paleontó logo y faná tico del


béisbol de toda la vida, Stephen Jay Gould, argumenta que la racha de hits
consecutivos de 56 juegos de Joe DiMaggio es el mayor récord deportivo
de todos los tiempos. 1 En este capítulo usaremos la probabilidad bá sica y
las estadísticas para determinar la probabilidad de que un 56-

la racha de golpes del juego nunca ocurriría.

En junio de 1938, Johnny Vander Meer lanzó juegos sin hits consecutivos.
Esto nunca ha sido hecho por nadie má s. ¿Es este el mayor récord deportivo
de todos los tiempos? Después de hacer algunas suposiciones razonables, la
probabilidad y las estadísticas básicas pueden ayudarnos a determinar
que la ocurrencia de una racha de hits de 56 juegos fue menos probable
que la ocurrencia de juegos sin hits consecutivos.

Además, ¿ pueden las probabilidades bá sicas y las estadísticas ayudar a


explicar por qué solo ha habido diecisiete juegos perfectos en la temporada
regular desde 1900? Para abordar estos temas, necesitamos estudiar las
matemá ticas bá sicas de los eventos raros.

Cálculo de las probabilidades de eventos


raros: ThePoissonRandomVariable

Consideremos las variables aleatorias que siempre asumen un valor de 0,


1, 2, etc., y el valor de la variable aleatoria resulta de la ocurrencia de
eventos raros. A continuació n se muestran algunos ejemplos.
nú merodeaccidentesunconductorhasinaañ o _

nú mero de juegos perfectos durante la temporada de béisbol

nú merodedefectosenunteléfonocelular

1
Stephen Jay Gould, “The Streak of Streaks”, reseñ a de Streak: Joe DiMaggio and the Sum-
merof'41 de Michael Seidel, 18 de agosto de 1988, NewYorkReviewofBooks , disponible en
http://www.nybooks.com/articles/4337.
Tales variables aleatorias generalmente se rigen por la variable aleatoria de
Poisson. Dado que una variable aleatoria de Poisson tiene la misma media
h , entonces la probabilidad

que la variable aleatoria es igual a x dada por

h x mi —h x
.

¡X!

Aquí x! =

(x)(x - 1)x(x - 2) . . . x 1. Así 3! = 6, 4! = 24, y así sucesivamente. La


probabilidad de que una variable aleatoria de Poisson con media h asuma
un valor x se puede calcular en Excel con la fó rmula

= POISSON(x, h ,Falso).

La funció n Excel

= POISSON(x, h ,Verdadero)

da la probabilidad de que una variable aleatoria de Poisson con media h


sea menor que igual a tox.

Por ejemplo, si los conductores adolescentes tienen un promedio de 0.1


accidentes por añ o, la probabilidad de que un conductor adolescente
tenga exactamente 1 accidente durante un añ o es

.1 1 e — .1

1!

= .0904.

Esta probabilidad también se puede calcular en Excel con

lafó rmula = POISSON(1,.1,Falso).

Cálculo de la probabilidad de eventos independientes


Se dice que dos eventos son independientes si saber que uno de los
eventos ocurrió no le dice nada sobre la probabilidad de que ocurra el
otro evento. Por ejemplo, los Cachorros de Chicago ganando la Serie
Mundial y los Osos de Chicago ganando el Super Bowl durante la misma
temporada son eventos independientes porque si supiera que los
Cachorros ganaron la Serie Mundial ( ¡Podemos soñ ar!) usted no
cambiaría su punto de vista sobre la probabilidad de que los Bears ganen
el Super Bowl. Para calcular la probabilidad de que ocurran mú ltiples
eventos independientes al mismo tiempo, simplemente multiplicamos la
probabilidad de los eventos individuales.

Por ejemplo, si el jugador promedio de las grandes ligas tiene un OBP


de 0.34, ¿cuá l es la probabilidad de que un lanzador promedio lance un
juego perfecto? Un lanzador debe retirar a 27 bateadores consecutivos
para que se le acredite haber lanzado un juego perfecto. Suponiendo que
los eventos en los que el bateador llega a la base son independientes y
todos tienen una probabilidad de .34, entonces la probabilidad de que un
lanzador lance un juego perfecto sería (1 — .34) 27 = .0000134, o alrededor
de una posibilidad en

74.500.
¿Cuál es la probabilidad de los diecisiete
juegos perfectos lanzados desde 1900?

Ha habido diecisiete juegos perfectos de temporada regular desde 1900.


Dado que la probabilidad de que un lanzador abridor lance un juego
perfecto es

.0000134, ¿cuá l es la probabilidad de que diecisiete juegos perfectos de


la temporada regular hubieran ocurrido desde 1900?

Ha habido casi 173,000 juegos de temporada regular desde 1900. Cada


juego presenta dos oportunidades para un juego perfecto. Dado que la
salida de cada lanzador producirá 0 o 1 juego perfecto , la probabilidad de que un
lanzador lance un juego perfecto es igual al número esperado de juegos perfectos
. El juego es un lanzamiento de lanzador en un juego . Para cualquier conjunto
de variables aleatorias , el valor esperado de la suma de las variables
aleatorias es igual a la suma de los valores esperados de las variables
aleatorias individuales. Debido a que los juegos perfectos desde 1900 son
raros, deberían seguir una variable aleatoria de Poisson . Entonces, la
probabilidad de que ocurran al menos diecisiete juegos perfectos estaría
dada por 1 — POISSON(16,4.64,Verdadero) = .000008, u ocho
oportunidades en un milló n. Claramente, su modelo predice
significativamente menos juegos perfectos de los que ocurrieron. ¿Qué
podría estar mal con nuestras suposiciones?

Asumimos que todos los bateadores tenían un OBP de exactamente


0.34. Los bateadores como Barry Bonds tienen un OBP mucho má s alto
que 0.34, mientras que un bateador que bateó contra Sandy Koufax tenía
un OBP mucho menor que 0.34. Esto promedia nuestro OBP observado
de 0.34. Entonces, la probabilidad de que un lanzador abridor lance un
juego perfecto sería (segú n la ley de la expectativa condicional
presentada en el capítulo 6) igual a

(la probabilidad de que el lanzador inicial rinda OBP de .29)(1 — .29) 27

+ (probabilidad de lanzamiento inicial rinde un OBP de .39)

× (1 — 0,39) 27 = 0,5 × (1 — 0,29) 27 + 0,5(1 — 0,39) 0,27

= .0000489883.
nuestro nú mero esperado de juegos perfectos desde 1900 se convierte en
346 000 (0000489883) = 16,95, lo que es claramente consistente con el
nú mero real de 17 juegos perfectos.

Nuestro modelo también podría estar errado porque tratamos cada


aparició n en el plato como un evento separado, igualmente capaz de resultar
en que el jugador llegue a la base. Si a un lanzador le está yendo bien y
retira a los primeros, digamos, diez bateadores,
podría reducir nuestra estimació n de cuá ntos bateadores posteriores
llegan a la base, violando así nuestra suposició n de independencia.

¿Qué tan inusual fue la racha de golpes de 56 juegos?

Para determinar la probabilidad de que ocurra una racha de bateo de 56


juegos entre 1900 y 2006, hagamos las siguientes suposiciones.

Solo los bateadores con al menos 500 AB en una temporada pueden tener
una racha de hits de 56 juegos.

No incluiremos las rachas de bateo que se acumulan entre temporadas (en


teoría, estas cuentan rachas de bateo).

Los bateadores con má s de 500 AB durante una temporada promediaron


3.5 AB por juego, por lo que supondremos que cada bateador tuvo 3 AB
en la mitad de sus juegos y 4 AB en la otra mitad.

Ahora podemos estimar para cada bateador desde 1900 con al menos 500
AB durante una temporada la posibilidad de que haya tenido una racha de
hits de 56 juegos. Pronto veremos que, en general, hay aproximadamente un
2% de probabilidad de que haya ocurrido al menos una racha de hits de 56
juegos.

Para ilustrar, consideremos un bateador que bateó .316 en 1900 (una


temporada de 154 juegos ). Podemos calcular lo siguiente:

probabilidadbattergetsahitin3ABgame

= 1 — probabilidad de que falle en acertar en todos los 3AB

= 1 — (1 — .316) 3 = .678.

Similarmente,

probabilidadbattergetsahitin4ABgame

= 1 — (1 — .316) 4 = .781.
Supongamos que cada jugador tendrá 28 tres juegos AB y 28 cuatro
juegos AB durante una secuencia de 56 juegos (esta suposició n tiene
poco efecto en nuestro resultado final). Entonces la probabilidad de que un
bateador consiga un hit durante cada uno de 56 juegos consecutivos es

(probabilidad de que una materia obtenga un resultado de 3


AB) 28

× (probabilidad de que el bateador obtenga un resultado


de 4ABgame) 28

= .00000002 (aproximadamente 2 en 100 millones).

¿Cuá ntas oportunidades tiene un bateador de comenzar una racha de


56 juegos? Puede empezar la racha durante el primer partido de la
temporada, así como durante cualquiera de
los primeros 99 juegos de la temporada en los que estuvo sin hits durante el
juego anterior. Aproximamos la probabilidad de que batee sin hits en un
juego usando el promedio de la probabilidad de que no batee sin hits en
un juego 3 AB y la probabilidad de que no batee hits en un juego 4AB. Por
lo tanto,

probabilidad de juego sin éxito = .5 × (1 — .68)

+ .5(1 — .781) = .27.

Por lo tanto, el bateador tiene, en promedio, 1 + 98 × (.27) = 27.46


oportunidades para comenzar esta racha de bateo de 56 juegos. Esto
implica que el nú mero esperado de rachas de bateo de 56 juegos durante
la temporada es 27.46 (.00000002) = .0000055.

En el archivo Dimaggio.xlsx, se suma el nú mero esperado de rachas de


hits de 56 juegos sobre todos los bateadores con al menos 500 AB
durante las temporadas 1900–2006, lo que genera un total esperado de
rachas de hits de 0,02456 juegos. Usando la variable aleatoria de Poisson,
la probabilidad de que ocurra una racha de hits de al menos 56 juegos es

1 — VENENO(.0,.024,Verdadero) = .024.

Nuestros cá lculos muestran que dadas todas las oportunidades para que
ocurra una racha de hits de 56 juegos , tal racha es muy poco probable,
pero ciertamente no imposible. Otra forma de poner en perspectiva la
probabilidad de una racha de hits de 56 juegos es determinar cuá ntos
añ os tendría que jugar un bateador antes de tener un 50% de posibilidades
de tener una racha de hits de 56 juegos. La figura 16.1 muestra los
resultados de tales cá lculos, asumiendo que el bateador tenía 4 AB por
juego y un promedio de bateo de 300 a 500. Por ejemplo, encontramos
que un

El bateador de .400 tendría que jugar durante 120 temporadas para


tener un 50% de posibilidades de tener una racha de bateo de 56 juegos.

¿Qué tan inusual es lanzar


juegos sin hits consecutivos?

¿Cuá l es la probabilidad de que al menos un lanzador abridor (desde 1900)


haya lanzado juegos sin hits consecutivos? Para responder a esta pregunta
haremos las siguientes suposiciones:
Todos los juegos son iniciados por lanzadores que inician exactamente 35
juegos durante una temporada.

Desde 1900, 0.00062 de todos los lanzadores que comenzaron un juego


han lanzado un juego sin hits . Por lo tanto, asumimos la probabilidad de
que cada juego iniciado resulte en no-hitteris.00062.
yo j

10 promedio de Estaciones
bateo

11 0.3 134514.9521

12 0.31 53294.89576

13 0.32 22381.65641

14 0.33 9926.429104

15 0.34 4633.715654

die 0.35 2269.681638


cis
éis

17 0.36 1163.246945

18 0.37 622.1841078

19 0.38 346.4659034

20 0.39 200.4140313

21 0.4 120.1772114

22 0.41 74.55979981

23 0.42 47.77425381

24 0.43 31.56151664

25 0.44 21.46397597

26 0,45 15.00394473

27 0,46 10.76553103

28 0.47 7.91818304

29 0.48 5.962542423

30 0.49 4.59130992

31 0.5 3.611179813

Figura 16.1. Temporadas necesarias para tener


un 50 % de posibilidades de obtener una racha de
hits de 56 juegos.
Para determinar el nú mero esperado de veces que un lanzador lanzará
juegos perfectos consecutivos, primero determinamos la probabilidad de que
un lanzador que hace 35 aperturas consecutivas durante una temporada
lance juegos sin hits consecutivos. Esta probabilidad está dada por

(probabilidad de que el primero de los dos partidos sin hits sea el


juego 1)

+ (probabilidad de que el primero de los dos juegos sin hits sea el


juego 2)

+ ...(probabilidad de que el primero de los dos juegos sin hits sea


el juego 34).

Ahora, la probabilidad de que el lanzador lance juegos sin hit


consecutivos y que el primero de los dos juegos sin hits sea el juego 1 =
(.00062) 2 = .00000038. (Consulte el archivo Nohitters.xls). La
probabilidad de que el lanzador lance juegos sin hits consecutivos y el
primer juego sin hits sea el juego i = (1 — .00062) i — 1 (.00062) 2 , que es
aproximadamente .000000038. Por lo tanto , la probabilidad de que un
lanzador con 35 aperturas lance juegos sin hits consecutivos durante una
temporada es de aproximadamente 34 × (.000000038) = .0000128.
Nuestros cálculos suponen que si un lanzador lanza dos juegos sin hits
consecutivos, no ha lanzado juegos sin hits anteriores durante la
temporada. Realizamos una simulació n de Monte Carlo para confirmar
que esta suposició n tiene poco efecto en el resultado final de nuestros
cá lculos de probabilidad.
En 1900, se jugaron 1232 juegos y los lanzadores hicieron 1232 × 2 =
2464 aperturas. Con 35 aperturas por lanzador, esto implicaría que hubo
alrededor de 2464/35 (alrededor de 70) lanzadores abridores ese añ o.
Por lo tanto, encontramos que el nú mero esperado de veces que se
lanzarían juegos sin hits consecutivos durante 1900 sería 70 × (.0000128
) = .00089 .

Al sumar el nú mero esperado de ocurrencias consecutivas de juegos


sin hits para los añ os 1900–2007, encontramos que el nú mero esperado
de juegos sin hits consecutivos durante 1900–2007 es 0.126. Por lo tanto,
nuestro modelo implica que la probabilidad de que al menos un lanzador
abridor lance juegos sin hits consecutivos es 1 — POISSON(0, .126,
Verdadero) = 11.8 %.

Otra forma de demostrar cuá n raros son los juegos sin hits
consecutivos es determinar cuá ntos añ os (con 35 aperturas por añ o)
tendría que lanzar el mejor lanzador sin hits de todos los tiempos (Nolan
Ryan) antes de tener un 50% de posibilidades de lanzar juegos sin hits
consecutivos. -bateadores. Ryan lanzó 6 juegos sin hits en 773 aperturas,
por lo que la probabilidad de que cualquiera de sus aperturas resulte en
un juego sin hits es 6/773 = .00776. Esto produce una probabilidad
de .0018 de juegos sin hits consecutivos durante una temporada.

En resumen, encontramos que los juegos sin hits consecutivos y una


racha de hits de 56 juegos son eventos altamente improbables pero no
má s allá del á mbito de la posibilidad.

Un acertijo

Cerramos este capítulo con un acertijo. Un lanzador abridor lanza un


juego completo y el juego es de nueve entradas . ¿Cuá l es el nú mero
mínimo de lanzamientos que el lanzador abridor podría haber lanzado? La
respuesta es 25. El lanzador abridor está lanzando para el equipo
visitante y permite que solo un corredor alcance la base (en un jonró n) y
pierde 1–0. El lanzador abridor no necesita hacer un lanzamiento y luego
lanzar entrecortado, por lo que lanza 8 × 3 + 1 = 25 lanzamientos.
EQUIVALENTES DE LA LIGA MAYOR

L os gerentes generales de las ligas mayores deben decidir cada añ o


si un jugador prometedor de las ligas menores está listo para ser llevado
al equipo de las ligas mayores. Por supuesto, el jugador de ligas menores
se enfrenta a lanzadores inferiores en las menores , por lo que no se
espera que duplique sus estadísticas de ligas menores cuando

es llevado a las mayores. En 1985, Bill James desarrolló Major League

Equivalentes para ayudar al personal de la oficina principal de las grandes


ligas a determinar si una liga menor está lista para las mayores.

El archivo Excel.xls proporciona el OBP para un conjunto de


bateadores cuyo ú ltimo añ o de liga menor se jugó en el nivel AAA. Estos
bateadores jugaron en la Asociació n Americana (AA), la Liga
Internacional (INT) o la Liga de la Costa del Pacífico (PCL). El archivo
también da su OBP durante su primera temporada de Grandes Ligas.

Supongamos que conocemos a un bateador, Joe Hardy, que tuvo un


OBP de 0.360 en AAA. Si llevamos a Joe a las ligas mayores, ¿qué OBP
podemos esperar? Usando los datos disponibles para el INT, aprendimos
que los bateadores tenían un OBP que promedió el 90% de su ú ltimo
OBP de la liga menor durante su primer añ o en las mayores después de
su ú ltimo añ o (o parte del añ o) en el INT. Los bateadores que habían
jugado en la PCL promediaron el 88% de su ú ltimo OBP en ligas menores
durante su primer añ o en las mayores. Por lo tanto, el equivalente de
ligas mayores de un OBP de ligas menores AAA sería aproximadamente
0,89 veces el OBP de ligas menores. Por lo tanto, predeciríamos que Joe
alcanzaría un OBP “ equivalente de ligas mayores” de .89 × (.360) = .320
en las ligas mayores.
Los expertos en sabermetría saben que los equivalentes de las ligas
mayores deben ajustarse para el parque de las ligas menores, el parque
de las ligas mayores y la calidad de lanzamiento que se enfrenta en las
ligas menores. Por ejemplo, se sabe que Tucson y Albuquerque son
parques de bateadores, por lo que los bateadores que juegan para estos
equipos verían reducidos sus OBP equivalentes a las ligas mayores. 1 Del
mismo modo, ifa
1
Consulte http://www.baseballamerica.com/today/features/040408parkfactors.html.
bateadores estaban siendo llamados a un equipo como los Dodgers, que juegan en un parque en el que es
má s difícil que el promedio llegar a la base, su equivalente proyectado en las ligas mayores también
debería reducirse.

No recopilé datos sobre los porcentajes de slugging, pero supongamos que el porcentaje de slugging
también cae alrededor del 11% cuando un jugador pasa de AAA a las ligas mayores. Recuerde del capítulo
2 que la fó rmula original de carreras creadas de Bill James se calcula (para todos los efectos) multiplicando
OBP y SLG .

.89 2 = .78, o el 78% de su capacidad de creació n de carreras en ligas menores y pierden alrededor del 22%.

También podría gustarte