Está en la página 1de 47

Instituto Tecnológico Autónomo de México

COMPARACIÓN DE
MODELOS PREDICTIVOS
APLICADOS AL FUTBOL
MEXICANO

Tesina

que para obtener el tı́tulo de

LICENCIADO EN MATEMÁTICAS APLICADAS

presenta

JUAN PEDRO LUENGAS GARCÍA


Asesor: JUAN JOSÉ FERNÁNDEZ DURÁN

Ciudad de México 2017


“Con fundamento en los artı́culos 21 y 27 de la Ley Federal del De-
recho de Autor y como titular de los derechos moral y patrimonial de
la obra titulada “COMPARACIÓN DE MODELOS PREDIC-
TIVOS APLICADOS AL FUTBOL MEXICANO”, otorgo de
manera gratuita y permanente al Instituto Tecnológico Autónomo de
México y a la Biblioteca Raúl Bailléres Jr., autorización para que fijen
la obra en cualquier medio, incluido el electrónico, y la divulguen entre
sus usuarios, profesores, estudiantes o terceras personas, sin que pueda
percibir por tal divulgación una contraprestación”.

JUAN PEDRO LUENGAS GARCÍA

Fecha

Firma
DEDICATORIA

A mis papás por traerme hasta aquı́. A Pepe y Paty por el espacio.

A Luis de la Mora por la confianza. A D∴ L∴ por el silencio.

i
Agradecimientos

A Ella.

A mis hermanas, Marı́a Clara y Carmen Lucı́a, por el ejemplo. A Ma-


nuel. A Santiago y a Mariana por la motivación y por abrirme los brazos.

A mis QQ∴ HH∴ por caminar a mi lado, en especial a Óscar, Abi,


Edu, Xoco y Juan Salvador, que además me aconsejan.

A Impulso por el tiempo, las ganas y los grandes amigos. En especial


a Luis H. y Javier por la confianza y la incondicionalidad.

A Daniel porque siempre está, aunque no se vea, aunque no se escu-


che. A Abraham y a Julián porque, además de aguantarme, me consi-
deran.

A Mercurio por el ejemplo y al Chief Diego por tantas enseñanzas.

A Benja por tanto arte. A Vive por creer que mi locura tenı́a sentido,
en especial a Alex, Sebas, Zugasti y Rafa.

A los grandes amigos que me dio el ITAM, sin ustedes el viaje hu-
biera sido gris. (Si crees que este agradecimiento es para ti entonces lo
es, no quiero omitir a nadie)

A los grandes amigos que me ha dado la vida. Soy realmente afor-


tunado gracias a todos ustedes.

ii
Índice general

1. Introducción 1

2. Antecedentes 3
2.1. Modelo Poisson: La versión de Maher . . . . . . . . . . 3
2.2. ELO y la Liga Española: Tratando de Optimizar . . . . 5
2.3. Modelos Lineales Generalizados: Un brevı́simo resumen 7

3. Modelos Utilizados 9
3.1. Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . 9
3.2. La Clasificación de Elo . . . . . . . . . . . . . . . . . . . 11
3.3. Regresión Logı́stica Multinomial . . . . . . . . . . . . . 13

4. Resultados 16

5. Conclusiones 20

A. Tablas de Resultados 22

B. Regresión Logı́stica Multinomial 31

C. Códigos 34
C.1. Cálculo de Modelo Poisson y Clasificación de Elo . . . . 34
C.2. Cálculo e Impresión de Modelo Logı́stico . . . . . . . . . 39

Referencias 41

iii
Capı́tulo 1

Introducción

El objetivo del presente trabajo es comparar dos modelos (que pre-


tenden ser) predictivos (desde distintos enfoques) de resultados en el
futbol (Modelo Poisson y Clasificación de Elo), especı́ficamente enfoca-
do para futbol de la Liga MX (liga profesional de futbol en México).
Ası́ como utilizar la Regresión Logı́stica Multinomial tanto para evaluar
dichos modelos como para predecir resultados.

En los Antecedentes se presentan aplicaciones de modelos similares


a los que se pretende analizar. La primera consiste en el trabajo que
realizó M. J. Maher de un modelo Poisson (Maher, 1982,p.109-118) en
donde estima parámetros que modelan la “fortaleza” o “debilidad” de
los equipos de futbol en Inglaterra, tanto ofensivamente como defensi-
vamente.

La segunda aplicación presentada la llevaron a cabo Hernández-Dı́az,


Sala y Caballero (Hernández-Dı́az et al., 2010, p.1-19) quienes utilizaron
una variante de la Clasificación de Elo (Elo Rating) para analizar la Liga
Española y estimaron los parámetros óptimos del modelo numéricamen-
te. La tercera parte de los Antecedentes es un breve resumen de qué son
los Modelos Lineales Generalizados y sus componentes (McCullagh &
Nelder, 1989); la Regresión Logı́stica Multinomial es un caso particular
de estos.

1
CAPÍTULO 1. INTRODUCCIÓN 2

Posteriormente, el capı́tulo de Modelos presenta las versiones que se


aplicaron a los datos en el presente trabajo. Explicando en primer lugar
el modelo Poisson utilizado que se centra en el promedio de goles tanto
a favor como en contra en cada temporada, en segundo lugar la Clasifi-
cación de Elo en la versión utilizada por la página de internet Football-
Database.com (Footballdatabase.com, 2017) con ligeros cambios a los
parámetros de dicha página. Por último, se describe el Modelo Logı́stico
Multinomial con base en las notas de los Profs. Pando y San Martı́n de
Madrid (Pando Fernández et al., 2004, p.323-327 ), complementado con
los supuestos y caracterı́sticas con que se usaron los dos modelos previos
como variables explicativas.

En el capı́tulo Resultados se analizan los resultados obtenidos de


los tres modelos a través del software estadı́stico R, tomando como
principal medida la eficiencia en la predicción de cada modelo, es decir,
Predicción vs Observación, presentado de forma porcentual en las Tablas
de Resultados. Finalmente en Conclusiones se plantean posibles lı́neas
de mejora para los modelos utilizados.
Capı́tulo 2

Antecedentes

Las comparaciones entre los deportes y (casi) cualquier área de es-


tudio, desde biologı́a y comportamiento humano hasta transmisión de
información, han sido utilizadas para explicar y/o predecir resultados
deportivos, ya sea con fines lúdicos o meramente recreativos. A conti-
nuación se presentan algunos modelos a manera de ejemplo de dichas
aplicaciones.

2.1. Modelo Poisson: La versión de Maher


M. J. Maher, quien fuera profesor de estadı́stica en la Universidad
de Sheffield, Inglaterra, publicó en 1982 un artı́culo titulado “Modelling
association football scores” (Maher,1982, p.109-118), en el cual plantea-
ba un modelo Poisson para predecir resultados entre el equipo i y el
equipo j.

En particular, supone que el equipo i juega como local y la can-


tidad de goles que anota contra el equipo j es una variable aleatoria
Xij ∼ P oisson(αi βj ), donde αi es la “fortaleza” del ataque de i como
local y βj es la “debilidad” de la defensa de j como visitante. De forma
análoga, supone que los goles del equipo j son una variable aleatoria
Yij ∼ P oisson(γi δj ), con γi la “debilidad” defensiva de i como local y
δj la “fortaleza” ofensiva de j como visitante (Maher, 1982, p.110).

3
CAPÍTULO 2. ANTECEDENTES 4

Posteriormente, Maher plantea una función de máxima verosimilitud


con el objetivo de estimar sus parámetros αi , βj , γi , δj para cada equipo
de la liga analizada (Liga Premier Inglesa y 3 divisiones inferiores).
Dicha función la define él como
XX
log L(α, β) = (−αi βj + xij log(αi βj ) − log(xij !))
i j6=i

(Maher, 1982, p.110).


Al maximizar esta función obtiene los estimadores máximo verosı́mi-
les α̂i , βˆj de forma analı́tica como:

P P
xij xij
; βˆj =
j6=i i6=j
α̂i = P ˆ P
α̂i
βj
j6=i i6=j

(Maher, 1982, p.110).


Por último, calcula numéricamente los parámetros utilizando el méto-
do iterativo de Newton-Raphson (Maher, 1982, p.111).

Maher concluye que, para su base de datos (Resultados de la Liga


Premier Inglesa y 3 divisiones inferiores en las temporadas 1971-1972,
1972-1973, 1973-1974), los parámetros γ, δ no son significativos y que la
ventaja de jugar como local está bien representada por α y β, situación
por la cual plantea que δi = kαi y que γi = kβi para toda i (Maher,
1982, p.112). Dicho de otra forma, la capacidad de atacar y defender
de un equipo es siempre la misma y sólo se ve aumentada o disminuida
de forma proporcional cuando el equipo juega de local o de visitante,
respectivamente. Además, dicho artı́culo prueba que el modelo Poisson
que se plantea es significativo en la mayorı́a de los casos analizados (19
de 24) (Maher, 1982, p.113-117).
CAPÍTULO 2. ANTECEDENTES 5

2.2. ELO y la Liga Española: Tratando de Op-


timizar
En las XVIII Jornadas ASEPUMA (Asociación Española de Profe-
sores Universitarios de Matemáticas para la Economı́a y la Empresa)
celebradas en Santiago de Compostela en 2010, se presentó un artı́culo
con su respectiva ponencia respecto al uso de la Clasificación de Elo en
la Liga Española de futbol (Hernández-Dı́az et al., 2010, p.1-19). Sin
embargo, empecemos por el principio.

Arpad Elo fue un fı́sico, astrónomo y matemático húngaro fundador


de la Federación de Ajedrez de los Estados Unidos. Como aficionado al
ajedrez, para Elo era un tema sumamente relevante el poder medir y
comparar las habilidades de los jugadores y, con esto en mente, desa-
rrolló la Clasificación de Elo en la década de 1950 (Saxon, 1992).

Este modelo de clasificación, que posteriormente fue adoptado por la


Federación Internacional de Ajedrez como sistema oficial de medición,
se basa en la actualización periódica de la clasificación de un jugador
con base en los resultados obtenidos comparados con los resultados es-
perados, dada la clasificación previa.

Este modelo es el que utilizan Hernández-Dı́az et al. para su artı́culo


sobre la Liga Española (Hernández-Dı́az et al., 2010, p.1-19). Formal-
mente adaptan el modelo de Elo utilizando la siguiente fórmula para
actualizar la clasificación de cada equipo:

Rn = R0 + K · G · (W − We )

donde Rn es el valor de la clasificación Elo actualizada, R0 es el valor


de la clasificación inicial, K es una constante que depende del momen-
to del torneo en que se juega1 , G es el coeficiente correspondiente a
la diferencia de goles en el partido observado, W es el resultado del
juego (resultado observado) y We es el resultado esperado inicialmente
1
Considera menos relevantes los primeros juegos y va progresivamente dandoles
mayor importancia. Oscila entre 25 y 50 puntos.
CAPÍTULO 2. ANTECEDENTES 6

(Hernández-Dı́az et al., 2010, p.4-6).

Los parámetros K, G son particulares de esta aplicación, pues en el


modelo original únicamente se considera una constante k como ponde-
rador de la diferencia entre resultado esperado y observado, sin mayor
interpretación. Aunque el planteamiento de W y We son casi iguales al
modelo original:

 1 si el resultado fue victoria
W = 0.5 si el resultado fue empate
0 si el resultado fue derrota

1
We = L V
1+ 10−(R0 −R0 +h)/400

con R0L , R0V los valores de clasificación iniciales del equipo local y visitan-
te, respectivamente2 . Por su parte, el parámetro h representa la “ventaja
de local” (parámetro distinto al modelo original de Elo) (Hernández-
Dı́az et al., 2010, p.4-7).

Posteriormente, definen intervalos para We de victoria, empate y de-


rrota, considerando el empate como un intervalo (0.5 − I, 0.5 + S), con
I, S umbrales inferior y superior de empate, respectivamente (Hernández-
Dı́az et al., 2010, p.6).

Hernández-Dı́az et al. consideran el parámetro K distinto dependien-


do del momento de la temporada en que sucede cada juego (Hernández-
Dı́az et al., 2010, p.5-6). Además, toman el parámetro G = (1 + δ)λ , con
δ la diferencia de goles (en valor absoluto) y λ un parámetro para con-
trolar el impacto de la diferencia de goles en la actualización del valor
clasificatorio R0 (Hernández-Dı́az et al., 2010, p.5-6).

Posteriormente, utilizan un algoritmo de optimización para estimar


intervalos para los parámetros K, λ, I, S, h. Con los resultados obtenidos
2
Inicialmente Elo distribuyó We como una Normal. Sin embargo, pronto las ob-
servaciones mostraron tener colas más pesadas que las de esta distribución, por lo
que se utiliza la distribución logı́stica.
CAPÍTULO 2. ANTECEDENTES 7

comparan las predicciones del modelo dados los parámetros estimados


contra las predicciones del modelo con parámetros estáticos selecciona-
dos inicialmente (Hernández-Dı́az et al., 2010, p.7-16).

Por úlitmo, concluyen que la estimación de los parámetros ayuda


a aumentar el número de aciertos, pero la diferencia no es muy supe-
rior, situando ambos métodos con un margen de aciertos alrededor del
55-60 %. Proponen a raı́z de estos resultados el buscar nuevas formas
de optimizar los parámetros y complementar el valor de clasificación de
Elo con otras herramientas para la predicción de resultados (Hernández-
Dı́az et al., 2010, p.17).

2.3. Modelos Lineales Generalizados: Un brevı́si-


mo resumen
La necesidad de expresar de forma cuantitativa la relación entre un
conjunto de variables llevó a plantear modelos que hicieran esto. De
acuerdo con P. McCullagh y J. A. Nelder, el ajustar un modelo consta
de tres etapas: Selección del Modelo, Estimación de Parámetros, Pre-
dicción de Futuros Valores (McCullagh & Nelder, 1989, p. 21).

En el caso de los Modelos Lineales Generalizados es importante men-


cionar dos supuestos iniciales: que las observaciones son no-correlacionadas
(de preferencia independientes) (McCullagh & Nelder, 1989, p. 21). Y
en segundo lugar el supuesto de que existe un único término de error en
el modelo (McCullagh & Nelder, 1989, p.22)3 .

Iniciando con el planteamiento de los Modelos Lineales Generaliza-


dos, sea y la observación de una variable aleatoria Y con n componentes
independientes, tal que E(Y ) = µ. Además, sean X1 , . . . , Xp variables
explicativas y β0 , . . . , βp parámetros desconocidos. La especificación del
3
McCullagh y Nelder relajan este supuesto para algunos casos de los Modelos
Lineales Generalizados.
CAPÍTULO 2. ANTECEDENTES 8

p
P
Modelo Lineal Generalizado se plantea como g(µi ) = βj xj i para toda
j=1
i ∈ {1, . . . , n}. Observemos que este modelo consta de tres partes:

1. Una Componente Aleatoria denotada por Y cuya esperanza se


apunta como µ = E(Y ).

2. Un predictor lineal en parámetros (también llamado Componente


Sistémica), que se denota como η, vector de n componentes donde
Pp
cada componente es de la forma ηi = βj xji .
j=1

3. Una Función Liga g(·) que relaciona la esperanza µ de la Compo-


nente Aleatoria Y con el predictor lineal η de forma que ηi = g(µi )
para toda i ∈ {1, . . . , n} (McCullagh & Nelder, 1989, p. 26-27).

Un Modelo Lineal Generalizado debe cumplir, además, ciertas par-


ticularidades. En primer lugar, la distribución de la Componente Alea-
toria Y debe pertenecer a la familia exponencial. En segundo lugar la
Componente Sistémica debe ser lineal en parámetros, es decir que al de-
rivar g(µ) respecto de una βj en particular, la derivada no sea función de
dicha βj . Por último, la Función Liga debe ser monótona y diferenciable
(McCullagh & Nelder, 1989, p. 26-32).

La inferencia y el análisis que puede realizarse respecto tanto a los


parámetros estimados βˆ0 , . . . , βˆp como a los errores se basa en el supues-
to inicial de que la distribución de la Componente Aleatoria Y pertenece
a la familia exponencial. (McCullagh & Nelder, 1989, p. 126-128).

El modelo utilizado en el presente trabajo es un caso particular de los


Modelos Lineales Generalizados, llamado Modelo Logı́stico Multinomial
en el que la Componente Aleatoria Y se distribuye de forma multinomial,
las Componentes Sistemáticas son las probabilidades modeladas a partir
de los modelos Poisson de Goles a Favor y Goles en contra, además de la
Clasificación de Elo, y por último la función liga es g(µi ) = ln(µi /µk ) =
β0i + β1i X1 + · · · + βk−1,i Xk−1 4 .
4
Sobre la cual se profundizará en la Sección 3.3.
Capı́tulo 3

Modelos Utilizados

Las diferentes versiones de aplicación de modelos al futbol en general


hacen difı́cil la selección de las mejores herramientas para la tarea en
cuestión. Sin embargo, en función de la simplicidad que representan, se
utilizaron para el análisis tres modelos: un modelo Poisson para medir
la probabilidad de resultados dados los goles a favor y en contra de cada
equipo analizado (Sumpter, 2016, p.21-36), una versión de la Clasifica-
ción de Elo utilizada para predecir resultados en la pasada Copa del
Mundo (Silver, 2014) y por último un Modelo de Regresión Logı́stica
Multinomial para analizar la significancia de cada modelo al momento
de predecir resultados.

3.1. Modelo Poisson


El modelo predictivo con base en un Modelo Poisson que se utiliza
en el presente trabajo parte del supuesto de que FijL ∼ P oisson(λL ij ),
L
donde Fij es la cantidad de goles que anota el equipo i jugando de local
(Goles a Favor de Local) en la temporada j. El parámetro λL ij es el pro-
medio de Goles a Favor de Local del equipo i en la temporada j, como
sugiere David Sumpter (Sumpter, 2016, p.23-27).

De forma similar se modelan los goles recibidos de local (Goles en


Contra de Local), goles anotados de visita (Goles a Favor de Visita) y

9
CAPÍTULO 3. MODELOS UTILIZADOS 10

goles recibidos de visita (Goles en Contra de Visita), que denotaremos


por AL L V V V V
ij ∼ P oisson(δij ), Fij ∼ P oisson(λij ), Aij ∼ P oisson(δij ) respec-
tivamente. Un supuesto importante del modelo es que para toda i 6= k
se cumple que FijL y FkjV son variables aleatorias independientes. De for-
L V
ma análoga Aij y Akj también son variables aleatorias independientes,
con lo que la probabilidad conjunta es el producto de las probabilidades
marginales1 .

Una vez calculadas λL V L V


ij , λij , δij , δij para todas i, j se procede a calcu-
lar probabilidades para los posibles resultados. Por ejemplo, supongamos
que juegan el equipo i contra el equipo k siendo local i. Entonces las pro-
babilidades de cada resultado considerando solamente los goles a favor
son

P (Gana Local) = P (FijL > Fkj


V
);
P (Empate) = P (FijL = Fkj
V
);
P (Gana Visitante) = P (FijL < Fkj
V
).

Un planteamiento similar se utiliza para modelar los resultados da-


dos goles en contra.

Las probabilidades planteadas se calcularon de forma numérica cons-


truyendo una matriz de probabilidades R, donde cada componente de la
matriz representa la probabilidad de un resultado especı́fico. Por ejem-
plo, la entrada r20 = P (FijL = 2)P (Fkj
V = 0), es decir, la probabilidad de

que el equipo local i y el equipo visitante k terminen con marcador de


2 a 0 a favor de i. Claramente se observa la importancia del supuesto
de independencia en este punto.

1
Se calculó el Coeficiente de Correlación entre los Goles del Local y los Goles del
Visitante, encontrando un valor de 0.063, mismo que no sugiere que exista relación
lineal.
CAPÍTULO 3. MODELOS UTILIZADOS 11

Respecto a la matriz R, tenemos que

P (Gana Local) = Lower(R) − diag(R);


P (Empate) = diag(R);
P (Gana Visitante) = U pper(R) − diag(R).

Con fines didácticos del presente trabajo, se resumen los resultados


obtenidos con las predicciones hechas a través del Modelo Poisson con
λ estimada con Goles a Favor y δ estimada con Goles en Contra en los
Cuadros A.1 a A.4.

3.2. La Clasificación de Elo


La Clasificación de Elo busca modelar la “habilidad” de un jugador
respecto a sus contrincantes en un momento determinado, bajo el su-
puesto de que dicha “habilidad” no es constante a lo largo del tiempo
(el jugador puede mejorar o empeorar).

Una de las posibles aplicaciones de la Clasificación de Elo es en juegos


en los que se compita uno contra uno, desde ajedrez hasta basquetbol.
En este vasto espectro, Nate Silver2 lo ha utilizado tanto para analizar
futbol americano de la NFL (Silver, 2014) como para intentar predecir
Mundiales de Futbol (Silver, 2014).

En el presente trabajo se utilizó una versión de Elo en la que el valor


de clasificación inicial de todos es R0 = 1500 puntos3 . La actualización
se dio considerando la fórmula:

Rn = R0 + k · G · (W − We )
2
Experto en análisis de datos y fundador de la revista electrónica FiveThirtyEight.
La idea inicial de este trabajo surgió de uno de sus artı́culos (Silver, 2015).
3
Dado que los puntos que gana un equipo los pierde el contrario (juego suma cero),
el promedio de los valores de clasificación en cualquier momento dado es también
1500.
CAPÍTULO 3. MODELOS UTILIZADOS 12

con k = 15 y G = m · D, donde D es la diferencia de goles en valor


absoluto y m se comporta de la siguiente forma:

 1 si D ≤ 1
m= 1.5 si D = 2
 11+D
8 si D ≥ 3

(FootballDatabase.com, 2017). A diferencia del modelo de Hernández-


Dı́az et al.(Hernández-Dı́az et al., 2010, p.1-19), el factor k es fijo y G se
ajusta de forma lineal por tramos, siguiendo la metodologı́a propuesta
por la página de internet FootballDatabase.com(FootballDatabase.com,
2017).

El valor de W y We es de la misma forma que en Hernández-Dı́az


et al. (Hernández-Dı́az, 2010, p.5-6). Es decir:

 1 si el resultado fue victoria
W = 0.5 si el resultado fue empate
0 si el resultado fue derrota

1
We = L V .
1+ 10−(R0 −R0 +h)/400

Sin embargo, se tomó h = 65 de forma que P [Local] = 59.25 %, valor cer-


cano al promedio histórico de P [Local] + 0.5P [Empate] = 59.29 %(Ver
Cuadro A.8), esto considerando que la Clasificación de Elo no toma en
cuenta la probabilidad de empate (inicialmente)4 .

Es importante mencionar que, por construcción, la Clasificación de


Elo supone que el nivel o “habilidad” de un jugador o equipo (en el caso
del futbol) varı́a a lo largo del tiempo, esto se observa en la actualización
iterativa del modelo ante cada nueva observación, dándole mayor peso
a los partidos más recientes.

4
Hernández-Dı́az et al. consideran en su modelo estático h = 100, equivalente a
P [Local] = 64 %(Hernández-Dı́az et al., 2010, p. 6).
CAPÍTULO 3. MODELOS UTILIZADOS 13

3.3. Regresión Logı́stica Multinomial


La familia de Modelos Lineales Generalizados (como se comentó an-
teriormente) tiene entre sus miembros una herramienta para poder com-
parar los dos modelos antes planteados, además de poder mejorar (al
menos a priori ) las predicciones, esta es el Modelo Logı́stico Multino-
mial.

En este modelo se toma una variable dependiente Y de tipo categóri-


co, con categorı́as mutuamente excluyentes, de la cual se quiere analizar
el efecto de ciertas variables explicativas X1 , ..., Xn tienen sobre las pro-
babilidades de cada categorı́a (Pando Fernández, 2004, p.323).

Como plantea Pando Fernández (Pando Fernández, 2004, p.323), sea


S = Soporte(Y ) = {1, ..., k}. Observemos que para toda i ∈ S existe
pi = P [Y = i] y que
k−1
X
pk = 1 − pi .
i=1

Tomemos i ∈ S tal que i 6= k y definimos la siguiente ecuación:


exp(Zi )
pi (X1 , ..., Xk−1 ) = pi = E (Yi ) = k−1
P
1+ exp(Zj )
i=1

k−1
P
donde Zi = β0i + βji · Xj con β01 , ..., βk−1,k−1 los parámetros a es-
j=1
timar (Pando Fernández, 2004, p.324). Considerando el valor definido
previamente de pk vemos que exp(Zi ) = pi /pk , por lo tanto para toda
i ∈ S tal que i 6= k se cumple que
 
pi
ln = Zi = β0i + β1i X1 + · · · + βk−1,i Xk−1
pk
(Pando Fernández, 2004, p.324)5 .

5
A estas ecuaciones se les conoce como logits.
CAPÍTULO 3. MODELOS UTILIZADOS 14

Posteriormente se construye la función de verosimilitud para una


muestra de tamaño m como
m
Y k−1
Y  pil Yil
L= pkl
pkl
l=1 i=1

(Pando Fernández, 2004, p.325). La función auxiliar de la función de


verosimilitud queda como
m k−1  !
X X pil
Λ = −2 · ln (L) = −2 · ln(pkl + Yil · ln
pkl
l=1 i=1

(Pando Fernández, 2004, p.325). Ası́, es equivalente maximizar la fun-


ción de verosimilitud con minimizar la función auxiliar y se puede re-
solver por métodos numéricos (Pando Fernández, 2004, p.325).

Utilizando la función multinom del paquete nnet del software es-


tadı́stico R (Venables & Ripley, 2002)(Ver C.2), se estimaron los paráme-
tros de la Regresión Logı́stica Multinomial para la variable Y = Ganador,
utilizando las probabilidades obtenidas de los modelos Poisson (Goles a
Favor y Goles en Contra) y las probabilidades de la Clasificación de Elo
como variables “explicativas”.

Considerando que P [Local] + P [Empate] + P [V isitante] = 1 en los


modelos Poisson y P [Local] + P [V isitante] = 1 en la Clasificación de
Elo, la interpretación del modelo logı́stico no tenı́a sentido si se incluı́an
todas las probabilidades como variables explicativas, por lo que se optó
por dejar “libres” las probabilidades de empate de ambos modelos Pois-
son y la probabilidad de victoria del equipo visitante en el modelo de Elo.

Por ejemplo, si consideramos que aumenta en una unidad porcen-


L (probabilidad del Modelo Poisson con Goles a Favor
tual la variable PGF
de que gane Local) dejando constantes todas las demás variables expli-
cativas del modelo logı́stico, implı́citamente supusimos también que la
variable PGFE (probabilidad del Modelo Poisson con Goles a Favor de

empate) disminuye en una unidad porcentual.


CAPÍTULO 3. MODELOS UTILIZADOS 15

Ası́, el modelo logı́stico quedó planteado como


 
pi L L V V L
ln = β0 + β1 PGC + β2 PGF + β3 PGC + β4 PGF + β5 PElo
pLocal

con i ∈ {Empate, V isitante}. Los Momios y la Significancia de los


parámetros estimados se reportan en B.1 y se analizan en la siguien-
te sección.
Capı́tulo 4

Resultados

En términos generales, el modelo Poisson que utiliza los Goles en


Contra como parámetro es prácticamente idéntico al modelo Poisson
con Goles a Favor en cuanto a la efectividad de sus predicciones, como
se observa en los totales de A.2 y A.4, sin pasar por alto que el modelo
con Goles a Favor predijo correctamente 6 juegos más que el modelo
con Goles en Contra (0.12 % del total de juegos, lo cual no es particu-
larmente relevante).

Ambos superan al “Modelo Histórico” o Modal: tomar siempre el re-


sultado que más se ha repetido históricamente, es decir, “Gana Local”
como se observa en A.7. Respectivamente obtienen 224 y 218 aciertos
más (4.32 % y 4.21 %) los modelos Poisson que la moda (Ver A.4 y A.2).
Estas observaciones alientan en un primer momento respecto a los mo-
delos Poisson.

La clasificación de Elo es otra historia. Esta primera batalla la pier-


de al no poder superar el resultado histórico, alcanzando sólo el 43.40 %
de aciertos totales, 78 aciertos menos que la moda de resultados históri-
cos (Ver A.6). Sin embargo, ¿es realmente mala la Clasificación de Elo?
¿Acaso no importa nada la “racha”, es decir, los partidos más recientes?
No olvidemos que el objetivo principal de Elo, desde su planteamiento,
es el de “percibir” cambios en el desempeño de un equipo para estimar
resultados esperados en el corto plazo (juegos inmediatos).

16
CAPÍTULO 4. RESULTADOS 17

Si particularizamos un poco más el análisis, vemos que los modelos


Poisson pronostican “Empate” muy pocas veces. El Modelo Poisson con
Goles en Contra pronosticó 7 veces este resultado y sólo acertó en 2
ocasiones (28.57 %), mientras que el Modelo Poisson con Goles a Favor
auguró 62 empates de los cuales se cumplieron 28 (45.16 %) (Ver A.4 y
A.2).

Por su parte, Elo en este rubro vaticinó 1,229 veces igualdad en el


marcador, de los cuales 371 terminaron con el resultado esperado (Ver
A.6). Si bien no es un porcentaje muy alto (30.19 %), es más que lo que
lograron ambos modelos Poisson, sin considerar que no se optimizaron
parámetros para la Clasificación de Elo que, presumı́blemente, ayudarı́a
a mejorar sus resultados.

Sin embargo, el caso de “Empate” es el único en el que Elo parece


ser ligeramente mejor que los modelos Poisson. En particular para el
resultado “Gana Visitante”, Elo sólo pronosticó 72 juegos en los casi 16
años analizados. No hace falta saber de futbol para tener la certeza de
que este resultado es mucho más común de lo que Elo intuye (Ver A.6).

Los modelos Poisson por su parte se acercan más a la media histórica


de victoria para el equipo visitante, pues predicen 1,232 y 1,302 resul-
tados en favor de la visita respectivamente, de los cuales aciertan el
43.59 % y el 43.32 %. Es decir, pronostican más victorias para el visitan-
te aunque menos de la mitad de las veces se cumple el resultado (Ver
A.4 y A.2).

¿Qué sucede cuando los modelos predicen que gana el local? En este
caso, tanto los modelos Poisson como la Clasificación de Elo superan la
media histórica con sus aciertos. Poisson con Goles a Favor tiene 51.08 %
de efectividad, Poisson con Goles en Contra el 51.10 % y Elo el 47.62 %
(Ver A.6, A.4, A.2).

En resumen: los tres modelos predicen pocas veces “Empate” o “Ga-


na Visitante” y fallan rotundamente en estos casos. Sin embargo, pre-
CAPÍTULO 4. RESULTADOS 18

dicen “Gana Local” con mucha frecuencia y obtienen resultados que


rondan el 50 % de efectividad.

Por último, ¿qué observamos de la Regresión Logı́stica Multinomial?


En un primer momento notamos que logró predecir correctamente 2,779
juegos (53.63 % de efectividad), muy por encima de los tres modelos
previos. Punto para la regresión que, si bien no predice particularmente
bien los empates, lo compensa acertando en un 50.55 % (229 de 1,484)
las victorias de visitante y en un sorprendente 79.80 % (1,857 de 2,327)
las victorias de local1 . No obstante, recordemos que el planteamiento
viola uno de los supuestos básicos de un Modelo Lineal Generalizado:
la independencia en las observaciones. Considerando la “relajación” de
este supuesto en el presente trabajo, se recomienda tener cautela con las
predicciones que pudiera arrojar (en caso de que el lector sea aficionado
a las apuestas).

Sobre la relevancia de los tres modelos (dos de Poisson y Clasifica-


ción de Elo), la regresión logı́stica nos dice que son significativos (Ver
B.1)2 . Sin embargo, analizando con mayor detenimiento vemos que los
momios de victoria Local (variable de control) contra Empate y contra
victoria Visitante aumentan cuando aumenta la probabilidad de que ga-
ne Local estimada por Elo. En otras palabras, si aumenta un punto la
probabilidad estimada por Elo de que gane Local, aumentan aún más
las posibilidades de que haya empate (3.7 % más) o gane visitante (6.6 %
más) respecto a que gane local. Totalmente ilógico.

La regresión logı́stica plantea que al aumentar cualquiera de las pro-


babilidades estimadas por los modelos Poisson que se utilizaron como
variables explicativas (implı́citamente disminuir las probabilidades de
empate) se vuelve menos probable que los equipos terminen igualados.
También, aumentar las probabilidades de victoria local, sin modificar
las probabilidades de victoria visitante, aumenta la posibilidad de que
1
Para más detalles revisar B.2
2
Como ya se mencionó, un supuesto de la regresión es que las observaciones son
independientes, mismo que en este planteamiento no se cumple por construcción del
Modelo Poisson. Se recomienda tomar con cautela estos resultados.
CAPÍTULO 4. RESULTADOS 19

el local salga victorioso respecto a las posibilidades del visitante de lo-


grarlo. El caso contrario (aumentar probabilidades de victoria visitante)
es completamente análogo3 .

Si bien se realizó la Regresión Logı́stica Multinomial dejando “libre”


tanto la probabilidad de victoria local como la de victoria visitante (de
forma alternada), los resultados fueron prácticamente idénticos4 .

3
Para más detalles revisar B.1
4
Por lo que no se consideró necesario reportarlos.
Capı́tulo 5

Conclusiones

Los modelos planteados (Poisson y Elo), en su conjunto, logran su-


perar ligeramente el “Modelo Histórico” y con la Regresión Logı́stica
Multinomial se logran aún mayores aciertos.

Futuros esfuerzos deben ir encaminados a que los modelos planteados


en el presente trabajo se ajusten mejor para obtener mejores resultados.
En particular, respecto a los modelos Poisson no se hicieron comparacio-
nes cruzadas (Goles a Favor vs Goles en Contra). Esta lı́nea de trabajo
habrá de ser canalizada a análisis posteriores que comparen la “fortale-
za ofensiva” del equipo i como local contra la “debilidad defensiva” del
equipo k como visitante para poder determinar un parámetro de “Goles
anotados por el equipo i dado que juega de local contra el equipo j”.
Hacerlo de esta manera pudiera precisar mejor el resultado especı́fico
(marcador exacto) y no únicamente el ganador.

Respecto a la Clasificación de Elo, los resultados obtenidos en el pre-


sente documento se lograron sin una optimización de los parámetros del
modelo, como sugiere el trabajo de Hernández-Dı́az et al. (Hernández-
Dı́az et al., 2010, p.7-17). La optimización de todos los parámetros
(k, D, λ y h principalmente) son mejoras necesarias (dada la baja efec-
tividad observada) a realizar en futuros análisis.

Sin embargo, es muy rescatable el hecho de que modelos sencillos

20
CAPÍTULO 5. CONCLUSIONES 21

sin mayores ajustes (en particular las dos versiones Poisson planteadas)
logren resultados cercanos al 50 % de efectividad. Además, es de resal-
tar que la regresión logı́stica muestra ser una herramienta que puede
acercarnos a los resultados esperados, aun basándose en modelos no
particularmente efectivos.

También sobre la regresión logı́stica, la caracterı́stica de que no sea


necesaria la independencia entre variables, pues analiza únicamente aso-
ciación entre ellas (Medina Moral, 2003, p. 1) permite manipular con
cierta libertad las variables explicativas dentro de la regresión1 .

Incluir algunos otros datos (tanto cualitativos como cuantitativos)


pudiera ayudar a predecir mejores resultados. En el presente análisis
se pretendı́a inicialmente incluir al Director Técnico en turno como una
variable determinante, tarea que no se logró llevar a cabo debido a la can-
tidad de Directores que han participado en la Liga Mexicana (Liga MX)
durante el periodo analizado, haciendo que la capacidad computacional
utilizada fuera insuficiente. Dicho de otra forma, la “esquizofrenia” del
futbol mexicano ganó la batalla contra la capacidad computacional no
especializada.

Predecir un evento en el que interactúan 22 seres humanos al mis-


mo tiempo muestra ser elusivo. ¿Hasta dónde es impredecible el “factor
humano”? Modelos como los analizados en este trabajo, los cuales sin
mayores ajustes superaron considerablemente a modelos modales (“Mo-
delo Histórico”) y a Modelos Uniformes (un tercio de probabilidad a
cada resultado) invitan a ser optimistas en el análisis de datos.

Si bien se dice que “la casa nunca pierde”, el pasado pareciera es-
conder cierta información sobre el futuro. Un adecuado tratamiento y
análisis de los datos nos permiten soñar con que tal vez, y sólo tal vez,
algún dı́a la casa pierda.

1
Es importante recalcar que la independencia entre observaciones es un supuesto
que se relajó en el presente trabajo.
Apéndice A

Tablas de Resultados

En las siguientes tablas la columna “Efect.” muestra porcentual-


mente la efectividad que presentaron las predicciones del modelo co-
rrespondiente y “Juegos” indica la cantidad de partidos que tuvo cada
temporada. Las columnas “E. Local” y “Local” hacen referencia a las
predicciones “Gana Local” del modelo particular, donde la primera es
la efectividad de las predicciones y la segunda es la cantidad de juegos
para los cuales se predijo ese resultado. Los casos “E. Empate”, “Empa-
te”, “E. Visita”, “Visita” son análogos para las predicciones “Empate”
y “Gana Visitante” del modelo correspondiente.

22
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2002 Apertura 52.94 % 204 56.21 % 169 50.00 % 4 35.48 % 31
2003 Clausura 50.00 % 206 53.15 % 143 75.00 % 4 40.68 % 59
2003 Apertura 50.00 % 208 52.32 % 151 0.00 % - 43.86 % 57
2004 Clausura 45.15 % 206 49.03 % 155 0.00 % - 33.33 % 51
2004 Apertura 50.30 % 167 52.42 % 124 0.00 % - 44.19 % 43
2005 Clausura 53.89 % 167 55.56 % 144 0.00 % - 43.48 % 23
2005 Apertura 51.50 % 167 54.81 % 104 0.00 % - 46.03 % 63
2006 Clausura 42.51 % 167 44.34 % 106 0.00 % 2 40.68 % 59
2006 Apertura 49.71 % 171 52.70 % 148 0.00 % - 30.43 % 23
2007 Clausura 51.46 % 171 53.19 % 141 33.33 % 3 44.44 % 27
2007 Apertura 55.56 % 171 57.97 % 138 0.00 % - 45.45 % 33
2008 Clausura 42.11 % 171 42.42 % 132 0.00 % 1 42.11 % 38
2008 Apertura 41.32 % 167 43.94 % 132 50.00 % 2 30.30 % 33
2009 Clausura 47.90 % 167 48.39 % 124 100.00 % 2 43.90 % 41
2009 Apertura 55.69 % 167 55.47 % 128 60.00 % 5 55.88 % 34
APÉNDICE A. TABLAS DE RESULTADOS

Cuadro A.1: Resultados del Modelo Poisson con Goles a Favor.


23
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2010 Clausura 51.50 % 167 52.11 % 142 50.00 % 2 47.83 % 23
2010 Apertura 48.50 % 167 52.27 % 132 0.00 % 4 38.71 % 31
2011 Clausura 49.10 % 167 50.86 % 116 16.67 % 6 48.89 % 45
2011 Apertura 47.90 % 167 49.26 % 136 0.00 % - 41.94 % 31
2012 Clausura 53.29 % 167 51.09 % 92 71.43 % 7 54.41 % 68
2012 Apertura 48.50 % 167 46.88 % 128 0.00 % 2 56.76 % 37
2013 Clausura 50.30 % 167 49.62 % 131 0.00 % 3 57.58 % 33
2013 Apertura 50.30 % 167 53.28 % 122 100.00 % 2 39.53 % 43
2014 Clausura 46.71 % 167 47.32 % 112 100.00 % 4 41.18 % 51
2014 Apertura 43.11 % 167 45.63 % 103 40.00 % 5 38.98 % 59
2015 Clausura 47.90 % 167 50.00 % 146 0.00 % - 33.33 % 21
2015 Apertura 56.89 % 167 57.66 % 111 0.00 % 1 56.36 % 55
APÉNDICE A. TABLAS DE RESULTADOS

2016 Clausura 50.30 % 167 50.81 % 124 100.00 % 1 47.62 % 42


2016 Apertura 46.11 % 167 51.30 % 115 0.00 % - 34.62 % 52
2017 Clausura 46.11 % 167 48.92 % 139 0.00 % 2 34.62 % 26
Total 49.23 % 5,182 51.08 % 3,888 45.16 % 62 43.59 % 1,232

Cuadro A.2: Resultados del Modelo Poisson con Goles a Favor (cont.).
24
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2002 Apertura 52.94 % 204 53.63 % 179 0.00 % - 48.00 % 25
2003 Clausura 49.03 % 206 49.36 % 156 0.00 % - 48.00 % 50
2003 Apertura 54.81 % 208 54.55 % 154 0.00 % - 55.56 % 54
2004 Clausura 49.03 % 206 52.98 % 151 0.00 % - 38.18 % 55
2004 Apertura 54.49 % 167 52.10 % 119 0.00 % - 60.42 % 48
2005 Clausura 52.69 % 167 53.52 % 142 0.00 % - 48.00 % 25
2005 Apertura 53.29 % 167 54.47 % 123 0.00 % - 50.00 % 44
2006 Clausura 42.51 % 167 44.86 % 107 0.00 % - 38.33 % 60
2006 Apertura 49.71 % 171 53.90 % 141 28.57 % 7 30.43 % 23
2007 Clausura 51.46 % 171 53.15 % 143 0.00 % - 42.86 % 28
2007 Apertura 49.12 % 171 52.21 % 136 0.00 % - 37.14 % 35
2008 Clausura 42.11 % 171 44.85 % 136 0.00 % - 31.43 % 35
APÉNDICE A. TABLAS DE RESULTADOS

2008 Apertura 41.92 % 167 46.72 % 122 0.00 % - 28.89 % 45


2009 Clausura 46.71 % 167 47.73 % 132 0.00 % - 42.86 % 35
2009 Apertura 51.50 % 167 51.94 % 129 0.00 % - 50.00 % 38
2010 Clausura 51.50 % 167 53.49 % 129 0.00 % - 44.74 % 38
2010 Apertura 46.71 % 167 51.20 % 125 0.00 % - 33.33 % 42

Cuadro A.3: Resultados del Modelo Poisson con Goles en Contra.


25
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2011 Clausura 49.10 % 167 54.81 % 104 0.00 % - 39.68 % 63
2011 Apertura 47.90 % 167 50.79 % 126 0.00 % - 39.02 % 41
2012 Clausura 46.71 % 167 48.60 % 107 0.00 % - 43.33 % 60
2012 Apertura 47.31 % 167 46.15 % 130 0.00 % - 51.35 % 37
2013 Clausura 52.10 % 167 52.00 % 125 0.00 % - 52.38 % 42
2013 Apertura 46.71 % 167 50.43 % 115 0.00 % - 38.46 % 52
2014 Clausura 44.91 % 167 46.67 % 120 0.00 % - 40.43 % 47
2014 Apertura 39.52 % 167 42.97 % 128 0.00 % - 28.21 % 39
2015 Clausura 50.90 % 167 55.04 % 129 0.00 % - 36.84 % 38
2015 Apertura 55.09 % 167 56.19 % 105 0.00 % - 53.23 % 62
2016 Clausura 48.50 % 167 50.00 % 128 0.00 % - 43.59 % 39
APÉNDICE A. TABLAS DE RESULTADOS

2016 Apertura 55.09 % 167 58.49 % 106 0.00 % - 49.18 % 61


2017 Clausura 47.90 % 167 49.21 % 126 0.00 % - 43.90 % 41
Total 49.11 % 5,182 51.10 % 3,873 28.57 % 7 43.32 % 1,302

Cuadro A.4: Resultados del Modelo Poisson con Goles en Contra (cont.)
26
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2002 Apertura 45.10 % 204 49.07 % 161 30.95 % 42 0.00 % 1
2003 Clausura 42.72 % 206 46.15 % 156 31.11 % 45 40.00 % 5
2003 Apertura 46.63 % 208 50.32 % 155 31.25 % 48 80.00 % 5
2004 Clausura 44.66 % 206 47.74 % 155 34.04 % 47 50.00 % 4
2004 Apertura 41.32 % 167 46.15 % 130 24.32 % 37 0.00 % -
2005 Clausura 46.11 % 167 51.16 % 129 28.95 % 38 0.00 % -
2005 Apertura 44.31 % 167 51.18 % 127 16.67 % 36 75.00 % 4
2006 Clausura 35.93 % 167 39.17 % 120 28.26 % 46 0.00 % 1
2006 Apertura 52.05 % 171 54.07 % 135 45.71 % 35 0.00 % 1
2007 Clausura 43.27 % 171 50.41 % 121 23.91 % 46 50.00 % 4
2007 Apertura 48.54 % 171 54.84 % 124 30.95 % 42 40.00 % 5
APÉNDICE A. TABLAS DE RESULTADOS

2008 Clausura 38.60 % 171 41.94 % 124 28.57 % 42 40.00 % 5


2008 Apertura 37.72 % 167 40.15 % 132 29.41 % 34 0.00 % 1
2009 Clausura 39.52 % 167 41.67 % 132 31.43 % 35 0.00 % -
2009 Apertura 41.92 % 167 50.81 % 124 17.50 % 40 0.00 % 3

Cuadro A.5: Resultados del Modelo Clasificación de Elo.


27
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2010 Clausura 46.11 % 167 53.85 % 117 31.11 % 45 0.00 % 5
2010 Apertura 50.30 % 167 53.39 % 118 45.65 % 46 0.00 % 3
2011 Clausura 43.71 % 167 48.00 % 125 30.00 % 40 50.00 % 2
2011 Apertura 40.12 % 167 45.08 % 122 26.67 % 45 0.00 % -
2012 Clausura 40.12 % 167 42.74 % 124 31.71 % 41 50.00 % 2
2012 Apertura 41.32 % 167 46.61 % 118 26.09 % 46 66.67 % 3
2013 Clausura 41.32 % 167 47.83 % 115 24.00 % 50 100.00 % 2
2013 Apertura 48.50 % 167 49.57 % 115 45.45 % 44 50.00 % 8
2014 Clausura 41.92 % 167 45.97 % 124 29.27 % 41 50.00 % 2
2014 Apertura 42.51 % 167 42.31 % 130 44.44 % 36 0.00 % 1
2015 Clausura 46.11 % 167 50.77 % 130 30.56 % 36 0.00 % 1
2015 Apertura 41.92 % 167 47.45 % 137 16.67 % 30 0.00 % -
APÉNDICE A. TABLAS DE RESULTADOS

2016 Clausura 42.51 % 167 46.09 % 128 30.77 % 39 0.00 % -


2016 Apertura 42.51 % 167 47.58 % 124 26.83 % 41 50.00 % 2
2017 Clausura 43.11 % 167 46.51 % 129 30.56 % 36 50.00 % 2
Total 43.40 % 5,182 47.62 % 3,881 30.19 % 1,229 41.67 % 72

Cuadro A.6: Resultados del Modelo Clasificación de Elo (cont.).


28
Torneo Local Empate Visitante Total.general
2002 Apertura 49.51 % 27.45 % 23.04 % 100.00 %
2003 Clausura 43.69 % 29.61 % 26.70 % 100.00 %
2003 Apertura 46.15 % 25.48 % 28.37 % 100.00 %
2004 Clausura 45.63 % 31.07 % 23.30 % 100.00 %
2004 Apertura 46.11 % 23.35 % 30.54 % 100.00 %
2005 Clausura 50.90 % 26.95 % 22.16 % 100.00 %
2005 Apertura 47.31 % 24.55 % 28.14 % 100.00 %
2006 Clausura 40.72 % 28.74 % 30.54 % 100.00 %
2006 Apertura 49.71 % 29.82 % 20.47 % 100.00 %
2007 Clausura 47.95 % 29.24 % 22.81 % 100.00 %
2007 Apertura 50.29 % 26.32 % 23.39 % 100.00 %
APÉNDICE A. TABLAS DE RESULTADOS

2008 Clausura 39.77 % 33.92 % 26.32 % 100.00 %


2008 Apertura 41.92 % 33.53 % 24.55 % 100.00 %
2009 Clausura 41.92 % 34.13 % 23.95 % 100.00 %
2009 Apertura 47.90 % 25.15 % 26.95 % 100.00 %

Cuadro A.7: Resultados Históricos por Temporada.


29
Torneo Local Empate Visitante Total.general
2010 Clausura 47.31 % 26.35 % 26.35 % 100.00 %
2010 Apertura 46.11 % 29.34 % 24.55 % 100.00 %
2011 Clausura 44.31 % 27.54 % 28.14 % 100.00 %
2011 Apertura 44.91 % 28.14 % 26.95 % 100.00 %
2012 Clausura 37.72 % 29.94 % 32.34 % 100.00 %
2012 Apertura 40.12 % 31.14 % 28.74 % 100.00 %
2013 Clausura 45.51 % 25.75 % 28.74 % 100.00 %
2013 Apertura 41.92 % 36.53 % 21.56 % 100.00 %
2014 Clausura 41.92 % 27.54 % 30.54 % 100.00 %
2014 Apertura 38.32 % 35.33 % 26.35 % 100.00 %
2015 Clausura 49.70 % 24.55 % 25.75 % 100.00 %
2015 Apertura 46.11 % 17.96 % 35.93 % 100.00 %
APÉNDICE A. TABLAS DE RESULTADOS

2016 Clausura 43.11 % 31.14 % 25.75 % 100.00 %


2016 Apertura 44.31 % 31.14 % 24.55 % 100.00 %
2017 Clausura 44.91 % 27.54 % 27.54 % 100.00 %
Total 44.91 % 28.64 % 26.46 % 100.00 %

Cuadro A.8: Resultados Históricos por Temporada (cont.).


30
Apéndice B

Regresión Logı́stica
Multinomial

En el Cuadro B.1 se muestran los momios y significancias de las pro-


babilidades de empate y visitante (teniendo como variable de control al
local), tanto a través del Modelo Poisson de Goles en Contra, Goles a
Favor y la Clasificación de Elo. Es importante mencionar que se dejaron
fuera las probabilidades de visitante puesto que P [Local]+P [Empate]+
P [V isitante] = 1 en el caso Poisson y P [Local] + P [V isitante] = 1 en el
caso Elo, de forma que no es posible dejar constantes dos de las variables
mientras se mueve la tercera.

31
APÉNDICE B. REGRESIÓN LOGÍSTICA MULTINOMIAL 32

Cuadro B.1: Exponencial de los Coeficientes y Significancia (Local)

Variable Dependiente:
Empate Visitante
(1) (2)
Prob.Local.GC 0.940∗∗∗ 0.954∗∗∗

Prob.Local.GF 0.944∗∗∗ 0.951∗∗∗

Prob.Visit.GC 0.971∗∗∗ 1.025∗∗

Prob.Visit.GF 0.978∗∗ 1.027∗∗∗

Prob.Local.Elo 1.037∗∗∗ 1.066∗∗∗

Constant 94.852∗∗∗ 0.223

Akaike Inf. Crit. 9,866.240 9,866.240


Nota: ∗ p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
APÉNDICE B. REGRESIÓN LOGÍSTICA MULTINOMIAL 33

Observación
Empate Local Visitante Total
Empate 229 172 165 566
Predicción Local 865 1,857 513 3,235
Visitante 390 298 693 1,381
Total 1,484 2,327 1,371 5,182

Cuadro B.2: Predicciones Logit contra Observaciones


Apéndice C

Códigos

C.1. Cálculo de Modelo Poisson y Clasificación


de Elo
El siguiente código es un extracto del código original utilizado. Se
evita presentar la lectura y adecuación tanto de la base como de los
parámetros iniciales.

Modelo Poisson
1 # Las siguientes l ? neas buscan calcular las
probabilidades de los resultados desde 0 -0
2 # hasta 8 -8 con base en un modelo Poisson con lambda
= Promedio de goles
3 MatJuego <- matrix (0 ,9 ,9)
4 colnames ( MatJuego ) = (0:8)
5 row . names ( MatJuego ) = (0:8)
6
7 # Inicializa matriz para guardar todas las
probabilidades del modelo Poisson
8 ProbPois = c (0 ,0 ,0 ,0 ,0 ,0 ,0 ,0)
9 # Selecci ? n de equipos en juegos de la temporada j
10 for ( j in 1: length ( temp ) )
11 {
12 aux <- base $ Torneo == temp [ j ]
13 Partidos = base $ Local [ aux ]

34
APÉNDICE C. CÓDIGOS 35

14 # Matriz con n ? mero de los equipos que jugaron cada


juego regular
15 Partidos = cbind ( Partidos , base $ Visitante [ aux ])
16 # Agrega prob Poisson
17 Partidos = cbind ( Partidos ,0 ,0 ,0 ,0 ,0 ,0)
18 colnames ( Partidos ) <- c ( " Local " ," Visitante " ," Prob
Local GF " ," Prob Empate GF " ," Prob Visit GF " ," Prob
Local GC " ," Prob Empate GC " ," Prob Visit GC " )
19 for ( i in 1: sum ( aux ) )
20 {
21 Eq . Local <- Partidos [i ,1]
22 Eq . Visit <- Partidos [i ,2]
23 # Lambdas con Goles a favor
24 lmb . Local . GF = as . numeric ( MatGolesGeneral [ Eq .
Local , as . numeric (2+6 * (j -1) ) ])
25 lmb . Visit . GF = as . numeric ( MatGolesGeneral [ Eq .
Visit , as . numeric (5+6 * (j -1) ) ])
26
27 # Lambdas con Goles en contra
28 lmb . Local . GC = as . numeric ( MatGolesGeneral [ Eq .
Local , as . numeric (3+6 * (j -1) ) ])
29 lmb . Visit . GC = as . numeric ( MatGolesGeneral [ Eq .
Visit , as . numeric (6+6 * (j -1) ) ])
30
31 # Matrices con probabilidades Poisson seg ? n goles
a favor y en contra
32 # Goles del Local en columnas , Goles del
Visitante filas
33 MatPoisGF = as . matrix ( dpois ( x =(0:8) , lambda = lmb .
Visit . GF ) %* %t ( dpois ( x = (0:8) , lambda = lmb .
Local . GF ) ) )
34 MatPoisGC = as . matrix ( dpois ( x =(0:8) , lambda = lmb .
Visit . GC ) %* %t ( dpois ( x = (0:8) , lambda = lmb .
Local . GC ) ) )
35
36 # Probabilidades de Victoria Local , Empate y
Victoria Visita
37 Partidos [i ,3] = sum ( upper . tri ( MatPoisGF ) *
MatPoisGF )
38 Partidos [i ,4] = sum ( diag ( x = MatPoisGF ) )
39 Partidos [i ,5] = sum ( lower . tri ( MatPoisGF ) *
APÉNDICE C. CÓDIGOS 36

MatPoisGF )
40 Partidos [i ,6] = sum ( lower . tri ( MatPoisGC ) *
MatPoisGC )
41 Partidos [i ,7] = sum ( diag ( x = MatPoisGC ) )
42 Partidos [i ,8] = sum ( upper . tri ( MatPoisGC ) *
MatPoisGC )
43 }
44 ProbPois = rbind ( ProbPois , Partidos )
45 }
46 # Quitar vector inicial de ProbPois
47 ProbPois = ProbPois [ -1 ,]
48 # Pegar probabilidades Poisson a la base original
49 base = cbind ( base , ProbPois [ ,3:8])

Clasificación de Elo
1 equi <- levels ( baseElo $ Local )
2 R <- rep (1500 , length ( equi ) ) # Vector con los ratings ,
aqu ? se ir ? actualizando
3 names ( R ) <- equi
4 P <- rep (0 , length ( equi ) ) # Vector con la cantidad
de puntos , aqu ? se ir ? actualizando
5 names ( P ) <- equi
6 res <- levels ( baseElo $ Ganador )
7 n = dim ( baseElo )
8 Rmat <- matrix ( data = NA , nrow = n [1] , ncol = 9)
9 colnames ( Rmat ) <- c ( " RI . local " ," RI . visita " ," Prob .
local " ," RF . local " ," RF . visita " ," PI . local " ," PI .
visita " ," PF . local " ," PF . visita " )
10 temp <- unique ( baseElo $ Torneo )
11 m = length ( temp )
12 j = 1
13 i = 1
14
15 while ( i <= n [1])
16 {
17 if ( baseElo $ Torneo [ i ] == temp [ j ])
18 {
19 auxl <- which ( equi == baseElo $ Local [ i ])
20 Rl <- R [ auxl ]
APÉNDICE C. CÓDIGOS 37

21 auxv <- which ( equi == baseElo $ Visitante [ i ])


22 Rv <- R [ auxv ]
23
24 # Puntos antes del partido
25 Rmat [i ,6] = P [ auxl ]
26 Rmat [i ,7] = P [ auxv ]
27
28 # Determina el resultado y los puntos
acumulados
29 if ( baseElo $ Ganador [ i ] == res [2])
30 {
31 P [ auxl ] = P [ auxl ] + 3
32 wrl = 1
33 }
34 else
35 {
36 if ( baseElo $ Ganador [ i ] == res [1])
37 {
38 P [ auxl ] = P [ auxl ] + 1
39 P [ auxv ] = P [ auxv ] + 1
40 wrl = 0.5
41 }
42 else
43 {
44 P [ auxv ] = P [ auxv ] + 3
45 wrl = 0
46 }
47
48 }
49 wrv = 1 - wrl
50
51
52 # Ratings previos al partido
53 Rmat [i ,1] = Rl
54 Rmat [i ,2] = Rv
55
56 # Puntos despu ? s del partido
57 Rmat [i ,8] = P [ auxl ]
58 Rmat [i ,9] = P [ auxv ]
59
60 # C ? lculo del rating dado el resultado .
APÉNDICE C. CÓDIGOS 38

61
62 drl <- Rl - Rv + 65 # 65 pts . corresponden a P [
ganador = local ] = 0.4496 , P [ ganador =
emapte ] = .2867 = > P [ ganador = local ] +0.5 * P
[ ganador = empate ] = 0.5929 ( cercano al
0.5925 promedio de victorias de local +
mitad de empates )
63 wel <- (10^( - drl / 400) + 1) ^ -1
64 Rmat [i ,3] <- wel
65 wev <- 1 - wel
66 dif <- abs ( as . numeric ( baseElo $ Goles . local [ i ]) -
as . numeric ( baseElo $ Goles . visitante [ i ]) )
67
68 # C ? lculo del k - f
69 if ( dif <= 1)
70 { D = 1}
71 else
72 {
73 if ( dif == 2 )
74 { D = 1.5}
75 else
76 { D = (11+ dif ) / 8}
77 }
78 k = 15 * D
79
80
81 R [ auxl ] = R [ auxl ] + k * ( wrl - wel )
82 R [ auxv ] = R [ auxv ] + k * ( wrv - wev )
83
84 # Ratings posteriores al partido
85 Rmat [i ,4] = R [ auxl ]
86 Rmat [i ,5] = R [ auxv ]
87

88 i = i + 1
89 }
90
91 else
92 {
93 # Saca el promedio de ratings de los equipos
que jugaron la temporada j
94 auxT <- which ( baseElo $ Torneo == temp [ j ])
APÉNDICE C. CÓDIGOS 39

95 equiT <- baseElo $ Local [ auxT ]


96 equiT <- unique ( equiT )
97 p <- length ( equiT )
98 ranqc = 0
99 auxM = rep (F , length ( equi ) )
100 for ( k in 1: p )
101 {
102 auxT <- equi == equiT [ k ]
103 ranqc = ranqc + R [ auxT ]
104 auxM = auxM + auxT
105 }
106 auxM <- as . logical ( auxM )
107 ranqc = ranqc / p
108 R [ auxM ] = ( R [ auxM ] + ranqc ) / 2
109 P <- rep (0 , length ( equi ) ) # Reinicia los
puntos
110 names ( P ) <- equi
111 j = j + 1
112 }
113 }
114 # Pega resultados de Elo a baseElo de datos inicial
115 baseElo = cbind ( baseElo , Rmat )

C.2. Cálculo e Impresión de Modelo Logı́stico

1 require ( foreign )
2 require ( nnet )
3 require ( stargazer )
4
5 table ( BaseLog $ Ganador )
6 BaseLog $ Ganador = relevel ( BaseLog $ Ganador , ref = "
Local " )
7 BaseLog [ ,21:22] = BaseLog [ ,21:22] * 100
8 BaseLog [ ,31:36] = BaseLog [ ,31:36] * 100
9
10 RegLog3 <- multinom ( formula = Ganador ~ Prob . Local . GC
+ Prob . Local . GF + Prob . Visit . GC + Prob . Visit . GF +
Prob . Visita . Elo , data = BaseLog )
APÉNDICE C. CÓDIGOS 40

11 summary ( RegLog3 )
12 RegLog3coeff = exp ( coef ( RegLog3 ) )
13
14 stargazer ( RegLog3 , type = " latex " )
15 stargazer ( RegLog3 , type = " latex " , coef = list (
RegLog3coeff ) , p . auto = FALSE )
Referencias

FootballDatabase.com(2017). Methodology for Calculating FootballDa-


tabase’s World Football Clubs Ranking. [online] Disponible en:
http://footballdatabase.com/methodology.php [Consultado 31 de
agosto de 2017]
McCullagh, P.& Nelder, J. A. (1989).Generalized Linear Models. Segun-
da Edición. Chapman & Hall. Londres, Inglaterra.
Hernández-Dı́az, A. G., Sala Garrido, R., Caballero Fernández, R.
(2010). Estimación de parámetros del rating ELO para la liga de
fútbol española 2009/2010. En XVIII Jornadas ASEPUMA-VI En-
cuentro Internacional, Santiago, 2010. Anales de ASEPUMA, 18,
record 507 (p.1-19).
Kelly Jr., J.L. (1956).A New Interpretation of Information Rate. The
Bell System Technical Journal, Julio:917–926.
Maher, M.J. (1982). Modelling association football scores. Statistica
Neerlandica, 36(3): p.109–118.
Medina Moral, E.(2003).Modelos Log-Lineales para tablas de
Contingencia.Obtenido el 29 de agosto de 2017, de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/
Categor/Tema6Cate.pdf
Pando Fernández, V. San Martı́n Fernández, R. (2004).Regresión
Logı́stica Multinomial. Cuaderno Sociedad Española en Ciencias
Forestales: Vol. 18 (p.323-327). Sociedad Española en Ciencias Fo-
restales. Madrid, España.
Saxon, W. (1992, 14 de noviembre). Prof. Apad E. Elo Is Dead at 89;
Inventor of Chess Ratings System. The New York Times.
Silver, N. (2014, 12 de junio). How FiveThirtyEight’s Wolrd Cup Pre-

41
Referencias 42

dictions Compare to Other Ratings. FiveThirtyEight. Consultado


el 29 de agosto de 2017, https://fivethirtyeight.com/datalab/how-
fivethirtyeights-world-cup-predictions-compare-to-other-ratings/
Silver, N. (2014, 4 de septiembre). Introducing NFL Elo Ra-
tings. FiveThirtyEight. Consultado el 29 de agosto de 2017,
https://fivethirtyeight.com/datalab/introducing-nfl-elo-ratings/
Silver, N. Fischer-Baum, R. (2015, 21 de mayo). How We Calculate
NBA Elo Ratings. FiveThirtyEight. Consultado el 29 de agosto de
2017, https://fivethirtyeight.com/features/how-we-calculate-nba-
elo-ratings/
Sumpter, D. (2016). Fútbol y matemáticas. Editorial Ariel, Ciudad de
México, 1a edición.
R Core Team (2015). foreign: Read Data Stored by Minitab, S, SAS,
SPSS, Stata, Systat, Weka, dBase, .... R package version 0.8-66.
https://CRAN.R-project.org/package=foreign
Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with
S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
Hlavac, Marek (2015). stargazer: Well-Formatted Regression and Sum-
mary Statistics Tables. R package version 5.2. http://CRAN.R-
project.org/package=stargazer

También podría gustarte