Juan Pedro Luengas García Tesina para Impresión-1

Instituto Tecnológico Autónomo de México
COMPARACIÓN DE
MODELOS PREDICTIVOS
APLICADOS AL FUTBOL
MEXICANO
Tesina
que para obtener el tı́tulo de
LICENCIADO EN MATEMÁTICAS APLICADAS
presenta
JUAN PEDRO LUENGAS GARCÍA

Asesor: JUAN JOSÉ FERNÁNDEZ DURÁN
Ciudad de México 2017

“Con fundamento en los artı́culos 21 y 27 de la Ley Federal del De-
recho de Autor y como titular de los derechos moral y patrimonial de
la obra titulada “COMPARACIÓN DE MODELOS PREDIC-
TIVOS APLICADOS AL FUTBOL MEXICANO”, otorgo de
manera gratuita y permanente al Instituto Tecnológico Autónomo de
México y a la Biblioteca Raúl Bailléres Jr., autorización para que fijen
la obra en cualquier medio, incluido el electrónico, y la divulguen entre
sus usuarios, profesores, estudiantes o terceras personas, sin que pueda
percibir por tal divulgación una contraprestación”.
JUAN PEDRO LUENGAS GARCÍA
Fecha
Firma
DEDICATORIA
A mis papás por traerme hasta aquı́. A Pepe y Paty por el espacio.
A Luis de la Mora por la confianza. A D∴ L∴ por el silencio.
i
Agradecimientos
A Ella.
A mis hermanas, Marı́a Clara y Carmen Lucı́a, por el ejemplo. A Ma-

nuel. A Santiago y a Mariana por la motivación y por abrirme los brazos.
A mis QQ∴ HH∴ por caminar a mi lado, en especial a Óscar, Abi,

Edu, Xoco y Juan Salvador, que además me aconsejan.
A Impulso por el tiempo, las ganas y los grandes amigos. En especial

a Luis H. y Javier por la confianza y la incondicionalidad.
A Daniel porque siempre está, aunque no se vea, aunque no se escu-

che. A Abraham y a Julián porque, además de aguantarme, me consi-
deran.
A Mercurio por el ejemplo y al Chief Diego por tantas enseñanzas.
A Benja por tanto arte. A Vive por creer que mi locura tenı́a sentido,
en especial a Alex, Sebas, Zugasti y Rafa.
A los grandes amigos que me dio el ITAM, sin ustedes el viaje hu-
biera sido gris. (Si crees que este agradecimiento es para ti entonces lo
es, no quiero omitir a nadie)
A los grandes amigos que me ha dado la vida. Soy realmente afor-

tunado gracias a todos ustedes.
ii
Índice general
1. Introducción 1
2. Antecedentes 3
2.1. Modelo Poisson: La versión de Maher . . . . . . . . . . 3
2.2. ELO y la Liga Española: Tratando de Optimizar . . . . 5
2.3. Modelos Lineales Generalizados: Un brevı́simo resumen 7
3. Modelos Utilizados 9
3.1. Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . 9
3.2. La Clasificación de Elo . . . . . . . . . . . . . . . . . . . 11
3.3. Regresión Logı́stica Multinomial . . . . . . . . . . . . . 13
4. Resultados 16
5. Conclusiones 20
A. Tablas de Resultados 22
B. Regresión Logı́stica Multinomial 31
C. Códigos 34
C.1. Cálculo de Modelo Poisson y Clasificación de Elo . . . . 34
C.2. Cálculo e Impresión de Modelo Logı́stico . . . . . . . . . 39
Referencias 41
iii
Capı́tulo 1
Introducción
El objetivo del presente trabajo es comparar dos modelos (que pre-

tenden ser) predictivos (desde distintos enfoques) de resultados en el
futbol (Modelo Poisson y Clasificación de Elo), especı́ficamente enfoca-
do para futbol de la Liga MX (liga profesional de futbol en México).
Ası́ como utilizar la Regresión Logı́stica Multinomial tanto para evaluar
dichos modelos como para predecir resultados.
En los Antecedentes se presentan aplicaciones de modelos similares

a los que se pretende analizar. La primera consiste en el trabajo que
realizó M. J. Maher de un modelo Poisson (Maher, 1982,p.109-118) en
donde estima parámetros que modelan la “fortaleza” o “debilidad” de
los equipos de futbol en Inglaterra, tanto ofensivamente como defensi-
vamente.
La segunda aplicación presentada la llevaron a cabo Hernández-Dı́az,

Sala y Caballero (Hernández-Dı́az et al., 2010, p.1-19) quienes utilizaron
una variante de la Clasificación de Elo (Elo Rating) para analizar la Liga
Española y estimaron los parámetros óptimos del modelo numéricamen-
te. La tercera parte de los Antecedentes es un breve resumen de qué son
los Modelos Lineales Generalizados y sus componentes (McCullagh &
Nelder, 1989); la Regresión Logı́stica Multinomial es un caso particular
de estos.
1
CAPÍTULO 1. INTRODUCCIÓN 2
Posteriormente, el capı́tulo de Modelos presenta las versiones que se

aplicaron a los datos en el presente trabajo. Explicando en primer lugar
el modelo Poisson utilizado que se centra en el promedio de goles tanto
a favor como en contra en cada temporada, en segundo lugar la Clasifi-
cación de Elo en la versión utilizada por la página de internet Football-
Database.com (Footballdatabase.com, 2017) con ligeros cambios a los
parámetros de dicha página. Por último, se describe el Modelo Logı́stico
Multinomial con base en las notas de los Profs. Pando y San Martı́n de
Madrid (Pando Fernández et al., 2004, p.323-327 ), complementado con
los supuestos y caracterı́sticas con que se usaron los dos modelos previos
como variables explicativas.
En el capı́tulo Resultados se analizan los resultados obtenidos de

los tres modelos a través del software estadı́stico R, tomando como
principal medida la eficiencia en la predicción de cada modelo, es decir,
Predicción vs Observación, presentado de forma porcentual en las Tablas
de Resultados. Finalmente en Conclusiones se plantean posibles lı́neas
de mejora para los modelos utilizados.
Capı́tulo 2
Antecedentes
Las comparaciones entre los deportes y (casi) cualquier área de es-

tudio, desde biologı́a y comportamiento humano hasta transmisión de
información, han sido utilizadas para explicar y/o predecir resultados
deportivos, ya sea con fines lúdicos o meramente recreativos. A conti-
nuación se presentan algunos modelos a manera de ejemplo de dichas
aplicaciones.
2.1. Modelo Poisson: La versión de Maher

M. J. Maher, quien fuera profesor de estadı́stica en la Universidad
de Sheffield, Inglaterra, publicó en 1982 un artı́culo titulado “Modelling
association football scores” (Maher,1982, p.109-118), en el cual plantea-
ba un modelo Poisson para predecir resultados entre el equipo i y el
equipo j.
En particular, supone que el equipo i juega como local y la can-

tidad de goles que anota contra el equipo j es una variable aleatoria
Xij ∼ P oisson(αi βj ), donde αi es la “fortaleza” del ataque de i como
local y βj es la “debilidad” de la defensa de j como visitante. De forma
análoga, supone que los goles del equipo j son una variable aleatoria
Yij ∼ P oisson(γi δj ), con γi la “debilidad” defensiva de i como local y
δj la “fortaleza” ofensiva de j como visitante (Maher, 1982, p.110).
3
CAPÍTULO 2. ANTECEDENTES 4
Posteriormente, Maher plantea una función de máxima verosimilitud

con el objetivo de estimar sus parámetros αi , βj , γi , δj para cada equipo
de la liga analizada (Liga Premier Inglesa y 3 divisiones inferiores).
Dicha función la define él como
XX
log L(α, β) = (−αi βj + xij log(αi βj ) − log(xij !))
i j6=i
(Maher, 1982, p.110).

Al maximizar esta función obtiene los estimadores máximo verosı́mi-
les α̂i , βˆj de forma analı́tica como:
P P
xij xij
; βˆj =
j6=i i6=j
α̂i = P ˆ P
α̂i
βj
j6=i i6=j
(Maher, 1982, p.110).

Por último, calcula numéricamente los parámetros utilizando el méto-
do iterativo de Newton-Raphson (Maher, 1982, p.111).
Maher concluye que, para su base de datos (Resultados de la Liga

Premier Inglesa y 3 divisiones inferiores en las temporadas 1971-1972,
1972-1973, 1973-1974), los parámetros γ, δ no son significativos y que la
ventaja de jugar como local está bien representada por α y β, situación
por la cual plantea que δi = kαi y que γi = kβi para toda i (Maher,
1982, p.112). Dicho de otra forma, la capacidad de atacar y defender
de un equipo es siempre la misma y sólo se ve aumentada o disminuida
de forma proporcional cuando el equipo juega de local o de visitante,
respectivamente. Además, dicho artı́culo prueba que el modelo Poisson
que se plantea es significativo en la mayorı́a de los casos analizados (19
de 24) (Maher, 1982, p.113-117).
2.2. ELO y la Liga Española: Tratando de Op-

timizar
En las XVIII Jornadas ASEPUMA (Asociación Española de Profe-
sores Universitarios de Matemáticas para la Economı́a y la Empresa)
celebradas en Santiago de Compostela en 2010, se presentó un artı́culo
con su respectiva ponencia respecto al uso de la Clasificación de Elo en
la Liga Española de futbol (Hernández-Dı́az et al., 2010, p.1-19). Sin
embargo, empecemos por el principio.
Arpad Elo fue un fı́sico, astrónomo y matemático húngaro fundador

de la Federación de Ajedrez de los Estados Unidos. Como aficionado al
ajedrez, para Elo era un tema sumamente relevante el poder medir y
comparar las habilidades de los jugadores y, con esto en mente, desa-
rrolló la Clasificación de Elo en la década de 1950 (Saxon, 1992).
Este modelo de clasificación, que posteriormente fue adoptado por la

Federación Internacional de Ajedrez como sistema oficial de medición,
se basa en la actualización periódica de la clasificación de un jugador
con base en los resultados obtenidos comparados con los resultados es-
perados, dada la clasificación previa.
Este modelo es el que utilizan Hernández-Dı́az et al. para su artı́culo

sobre la Liga Española (Hernández-Dı́az et al., 2010, p.1-19). Formal-
mente adaptan el modelo de Elo utilizando la siguiente fórmula para
actualizar la clasificación de cada equipo:
Rn = R0 + K · G · (W − We )
donde Rn es el valor de la clasificación Elo actualizada, R0 es el valor

de la clasificación inicial, K es una constante que depende del momen-
to del torneo en que se juega1 , G es el coeficiente correspondiente a
la diferencia de goles en el partido observado, W es el resultado del
juego (resultado observado) y We es el resultado esperado inicialmente
1
Considera menos relevantes los primeros juegos y va progresivamente dandoles
mayor importancia. Oscila entre 25 y 50 puntos.
(Hernández-Dı́az et al., 2010, p.4-6).
Los parámetros K, G son particulares de esta aplicación, pues en el

modelo original únicamente se considera una constante k como ponde-
rador de la diferencia entre resultado esperado y observado, sin mayor
interpretación. Aunque el planteamiento de W y We son casi iguales al
modelo original:

 1 si el resultado fue victoria
W = 0.5 si el resultado fue empate
0 si el resultado fue derrota

1
We = L V
1+ 10−(R0 −R0 +h)/400
con R0L , R0V los valores de clasificación iniciales del equipo local y visitan-
te, respectivamente2 . Por su parte, el parámetro h representa la “ventaja
de local” (parámetro distinto al modelo original de Elo) (Hernández-
Dı́az et al., 2010, p.4-7).
Posteriormente, definen intervalos para We de victoria, empate y de-

rrota, considerando el empate como un intervalo (0.5 − I, 0.5 + S), con
I, S umbrales inferior y superior de empate, respectivamente (Hernández-
Dı́az et al., 2010, p.6).
Hernández-Dı́az et al. consideran el parámetro K distinto dependien-

do del momento de la temporada en que sucede cada juego (Hernández-
Dı́az et al., 2010, p.5-6). Además, toman el parámetro G = (1 + δ)λ , con
δ la diferencia de goles (en valor absoluto) y λ un parámetro para con-
trolar el impacto de la diferencia de goles en la actualización del valor
clasificatorio R0 (Hernández-Dı́az et al., 2010, p.5-6).
Posteriormente, utilizan un algoritmo de optimización para estimar

intervalos para los parámetros K, λ, I, S, h. Con los resultados obtenidos
2
Inicialmente Elo distribuyó We como una Normal. Sin embargo, pronto las ob-
servaciones mostraron tener colas más pesadas que las de esta distribución, por lo
que se utiliza la distribución logı́stica.
comparan las predicciones del modelo dados los parámetros estimados

contra las predicciones del modelo con parámetros estáticos selecciona-
dos inicialmente (Hernández-Dı́az et al., 2010, p.7-16).
Por úlitmo, concluyen que la estimación de los parámetros ayuda

a aumentar el número de aciertos, pero la diferencia no es muy supe-
rior, situando ambos métodos con un margen de aciertos alrededor del
55-60 %. Proponen a raı́z de estos resultados el buscar nuevas formas
de optimizar los parámetros y complementar el valor de clasificación de
Elo con otras herramientas para la predicción de resultados (Hernández-
Dı́az et al., 2010, p.17).
2.3. Modelos Lineales Generalizados: Un brevı́si-

mo resumen
La necesidad de expresar de forma cuantitativa la relación entre un
conjunto de variables llevó a plantear modelos que hicieran esto. De
acuerdo con P. McCullagh y J. A. Nelder, el ajustar un modelo consta
de tres etapas: Selección del Modelo, Estimación de Parámetros, Pre-
dicción de Futuros Valores (McCullagh & Nelder, 1989, p. 21).
En el caso de los Modelos Lineales Generalizados es importante men-

cionar dos supuestos iniciales: que las observaciones son no-correlacionadas
(de preferencia independientes) (McCullagh & Nelder, 1989, p. 21). Y
en segundo lugar el supuesto de que existe un único término de error en
el modelo (McCullagh & Nelder, 1989, p.22)3 .
Iniciando con el planteamiento de los Modelos Lineales Generaliza-

dos, sea y la observación de una variable aleatoria Y con n componentes
independientes, tal que E(Y ) = µ. Además, sean X1 , . . . , Xp variables
explicativas y β0 , . . . , βp parámetros desconocidos. La especificación del
3
McCullagh y Nelder relajan este supuesto para algunos casos de los Modelos
Lineales Generalizados.
p
P
Modelo Lineal Generalizado se plantea como g(µi ) = βj xj i para toda
j=1
i ∈ {1, . . . , n}. Observemos que este modelo consta de tres partes:
1. Una Componente Aleatoria denotada por Y cuya esperanza se

apunta como µ = E(Y ).
2. Un predictor lineal en parámetros (también llamado Componente

Sistémica), que se denota como η, vector de n componentes donde
Pp
cada componente es de la forma ηi = βj xji .
j=1
3. Una Función Liga g(·) que relaciona la esperanza µ de la Compo-

nente Aleatoria Y con el predictor lineal η de forma que ηi = g(µi )
para toda i ∈ {1, . . . , n} (McCullagh & Nelder, 1989, p. 26-27).
Un Modelo Lineal Generalizado debe cumplir, además, ciertas par-

ticularidades. En primer lugar, la distribución de la Componente Alea-
toria Y debe pertenecer a la familia exponencial. En segundo lugar la
Componente Sistémica debe ser lineal en parámetros, es decir que al de-
rivar g(µ) respecto de una βj en particular, la derivada no sea función de
dicha βj . Por último, la Función Liga debe ser monótona y diferenciable
(McCullagh & Nelder, 1989, p. 26-32).
La inferencia y el análisis que puede realizarse respecto tanto a los

parámetros estimados βˆ0 , . . . , βˆp como a los errores se basa en el supues-
to inicial de que la distribución de la Componente Aleatoria Y pertenece
a la familia exponencial. (McCullagh & Nelder, 1989, p. 126-128).
El modelo utilizado en el presente trabajo es un caso particular de los

Modelos Lineales Generalizados, llamado Modelo Logı́stico Multinomial
en el que la Componente Aleatoria Y se distribuye de forma multinomial,
las Componentes Sistemáticas son las probabilidades modeladas a partir
de los modelos Poisson de Goles a Favor y Goles en contra, además de la
Clasificación de Elo, y por último la función liga es g(µi ) = ln(µi /µk ) =
β0i + β1i X1 + · · · + βk−1,i Xk−1 4 .
4
Sobre la cual se profundizará en la Sección 3.3.
Capı́tulo 3
Modelos Utilizados
Las diferentes versiones de aplicación de modelos al futbol en general

hacen difı́cil la selección de las mejores herramientas para la tarea en
cuestión. Sin embargo, en función de la simplicidad que representan, se
utilizaron para el análisis tres modelos: un modelo Poisson para medir
la probabilidad de resultados dados los goles a favor y en contra de cada
equipo analizado (Sumpter, 2016, p.21-36), una versión de la Clasifica-
ción de Elo utilizada para predecir resultados en la pasada Copa del
Mundo (Silver, 2014) y por último un Modelo de Regresión Logı́stica
Multinomial para analizar la significancia de cada modelo al momento
de predecir resultados.
3.1. Modelo Poisson

El modelo predictivo con base en un Modelo Poisson que se utiliza
en el presente trabajo parte del supuesto de que FijL ∼ P oisson(λL ij ),
L
donde Fij es la cantidad de goles que anota el equipo i jugando de local
(Goles a Favor de Local) en la temporada j. El parámetro λL ij es el pro-
medio de Goles a Favor de Local del equipo i en la temporada j, como
sugiere David Sumpter (Sumpter, 2016, p.23-27).
De forma similar se modelan los goles recibidos de local (Goles en

Contra de Local), goles anotados de visita (Goles a Favor de Visita) y
9
CAPÍTULO 3. MODELOS UTILIZADOS 10
goles recibidos de visita (Goles en Contra de Visita), que denotaremos

por AL L V V V V
ij ∼ P oisson(δij ), Fij ∼ P oisson(λij ), Aij ∼ P oisson(δij ) respec-
tivamente. Un supuesto importante del modelo es que para toda i 6= k
se cumple que FijL y FkjV son variables aleatorias independientes. De for-
L V
ma análoga Aij y Akj también son variables aleatorias independientes,
con lo que la probabilidad conjunta es el producto de las probabilidades
marginales1 .
Una vez calculadas λL V L V

ij , λij , δij , δij para todas i, j se procede a calcu-
lar probabilidades para los posibles resultados. Por ejemplo, supongamos
que juegan el equipo i contra el equipo k siendo local i. Entonces las pro-
babilidades de cada resultado considerando solamente los goles a favor
son
P (Gana Local) = P (FijL > Fkj

V
);
P (Empate) = P (FijL = Fkj
V
);
P (Gana Visitante) = P (FijL < Fkj
V
).
Un planteamiento similar se utiliza para modelar los resultados da-

dos goles en contra.
Las probabilidades planteadas se calcularon de forma numérica cons-

truyendo una matriz de probabilidades R, donde cada componente de la
matriz representa la probabilidad de un resultado especı́fico. Por ejem-
plo, la entrada r20 = P (FijL = 2)P (Fkj
V = 0), es decir, la probabilidad de
que el equipo local i y el equipo visitante k terminen con marcador de

2 a 0 a favor de i. Claramente se observa la importancia del supuesto
de independencia en este punto.
1
Se calculó el Coeficiente de Correlación entre los Goles del Local y los Goles del
Visitante, encontrando un valor de 0.063, mismo que no sugiere que exista relación
lineal.
Respecto a la matriz R, tenemos que
P (Gana Local) = Lower(R) − diag(R);

P (Empate) = diag(R);
P (Gana Visitante) = U pper(R) − diag(R).
Con fines didácticos del presente trabajo, se resumen los resultados

obtenidos con las predicciones hechas a través del Modelo Poisson con
λ estimada con Goles a Favor y δ estimada con Goles en Contra en los
Cuadros A.1 a A.4.
3.2. La Clasificación de Elo

La Clasificación de Elo busca modelar la “habilidad” de un jugador
respecto a sus contrincantes en un momento determinado, bajo el su-
puesto de que dicha “habilidad” no es constante a lo largo del tiempo
(el jugador puede mejorar o empeorar).
Una de las posibles aplicaciones de la Clasificación de Elo es en juegos

en los que se compita uno contra uno, desde ajedrez hasta basquetbol.
En este vasto espectro, Nate Silver2 lo ha utilizado tanto para analizar
futbol americano de la NFL (Silver, 2014) como para intentar predecir
Mundiales de Futbol (Silver, 2014).
En el presente trabajo se utilizó una versión de Elo en la que el valor

de clasificación inicial de todos es R0 = 1500 puntos3 . La actualización
se dio considerando la fórmula:
Rn = R0 + k · G · (W − We )
2
Experto en análisis de datos y fundador de la revista electrónica FiveThirtyEight.
La idea inicial de este trabajo surgió de uno de sus artı́culos (Silver, 2015).
3
Dado que los puntos que gana un equipo los pierde el contrario (juego suma cero),
el promedio de los valores de clasificación en cualquier momento dado es también
1500.
con k = 15 y G = m · D, donde D es la diferencia de goles en valor

absoluto y m se comporta de la siguiente forma:

 1 si D ≤ 1
m= 1.5 si D = 2
 11+D
8 si D ≥ 3
(FootballDatabase.com, 2017). A diferencia del modelo de Hernández-

Dı́az et al.(Hernández-Dı́az et al., 2010, p.1-19), el factor k es fijo y G se
ajusta de forma lineal por tramos, siguiendo la metodologı́a propuesta
por la página de internet FootballDatabase.com(FootballDatabase.com,
2017).
El valor de W y We es de la misma forma que en Hernández-Dı́az

et al. (Hernández-Dı́az, 2010, p.5-6). Es decir:

 1 si el resultado fue victoria
W = 0.5 si el resultado fue empate
0 si el resultado fue derrota

1
We = L V .
1+ 10−(R0 −R0 +h)/400
Sin embargo, se tomó h = 65 de forma que P [Local] = 59.25 %, valor cer-

cano al promedio histórico de P [Local] + 0.5P [Empate] = 59.29 %(Ver
Cuadro A.8), esto considerando que la Clasificación de Elo no toma en
cuenta la probabilidad de empate (inicialmente)4 .
Es importante mencionar que, por construcción, la Clasificación de

Elo supone que el nivel o “habilidad” de un jugador o equipo (en el caso
del futbol) varı́a a lo largo del tiempo, esto se observa en la actualización
iterativa del modelo ante cada nueva observación, dándole mayor peso
a los partidos más recientes.
4
Hernández-Dı́az et al. consideran en su modelo estático h = 100, equivalente a
P [Local] = 64 %(Hernández-Dı́az et al., 2010, p. 6).
3.3. Regresión Logı́stica Multinomial

La familia de Modelos Lineales Generalizados (como se comentó an-
teriormente) tiene entre sus miembros una herramienta para poder com-
parar los dos modelos antes planteados, además de poder mejorar (al
menos a priori ) las predicciones, esta es el Modelo Logı́stico Multino-
mial.
En este modelo se toma una variable dependiente Y de tipo categóri-

co, con categorı́as mutuamente excluyentes, de la cual se quiere analizar
el efecto de ciertas variables explicativas X1 , ..., Xn tienen sobre las pro-
babilidades de cada categorı́a (Pando Fernández, 2004, p.323).
Como plantea Pando Fernández (Pando Fernández, 2004, p.323), sea

S = Soporte(Y ) = {1, ..., k}. Observemos que para toda i ∈ S existe
pi = P [Y = i] y que
k−1
X
pk = 1 − pi .
i=1
Tomemos i ∈ S tal que i 6= k y definimos la siguiente ecuación:

exp(Zi )
pi (X1 , ..., Xk−1 ) = pi = E (Yi ) = k−1
P
1+ exp(Zj )
i=1
k−1
P
donde Zi = β0i + βji · Xj con β01 , ..., βk−1,k−1 los parámetros a es-
j=1
timar (Pando Fernández, 2004, p.324). Considerando el valor definido
previamente de pk vemos que exp(Zi ) = pi /pk , por lo tanto para toda
i ∈ S tal que i 6= k se cumple que

pi
ln = Zi = β0i + β1i X1 + · · · + βk−1,i Xk−1
pk
(Pando Fernández, 2004, p.324)5 .
5
A estas ecuaciones se les conoce como logits.
Posteriormente se construye la función de verosimilitud para una

muestra de tamaño m como
m
Y k−1
Y pil Yil
L= pkl
pkl
l=1 i=1
(Pando Fernández, 2004, p.325). La función auxiliar de la función de

verosimilitud queda como
m k−1 !
X X pil
Λ = −2 · ln (L) = −2 · ln(pkl + Yil · ln
pkl
l=1 i=1
(Pando Fernández, 2004, p.325). Ası́, es equivalente maximizar la fun-

ción de verosimilitud con minimizar la función auxiliar y se puede re-
solver por métodos numéricos (Pando Fernández, 2004, p.325).
Utilizando la función multinom del paquete nnet del software es-

tadı́stico R (Venables & Ripley, 2002)(Ver C.2), se estimaron los paráme-
tros de la Regresión Logı́stica Multinomial para la variable Y = Ganador,
utilizando las probabilidades obtenidas de los modelos Poisson (Goles a
Favor y Goles en Contra) y las probabilidades de la Clasificación de Elo
como variables “explicativas”.
Considerando que P [Local] + P [Empate] + P [V isitante] = 1 en los

modelos Poisson y P [Local] + P [V isitante] = 1 en la Clasificación de
Elo, la interpretación del modelo logı́stico no tenı́a sentido si se incluı́an
todas las probabilidades como variables explicativas, por lo que se optó
por dejar “libres” las probabilidades de empate de ambos modelos Pois-
son y la probabilidad de victoria del equipo visitante en el modelo de Elo.
Por ejemplo, si consideramos que aumenta en una unidad porcen-

L (probabilidad del Modelo Poisson con Goles a Favor
tual la variable PGF
de que gane Local) dejando constantes todas las demás variables expli-
cativas del modelo logı́stico, implı́citamente supusimos también que la
variable PGFE (probabilidad del Modelo Poisson con Goles a Favor de
empate) disminuye en una unidad porcentual.

Ası́, el modelo logı́stico quedó planteado como

pi L L V V L
ln = β0 + β1 PGC + β2 PGF + β3 PGC + β4 PGF + β5 PElo
pLocal
con i ∈ {Empate, V isitante}. Los Momios y la Significancia de los

parámetros estimados se reportan en B.1 y se analizan en la siguien-
te sección.
Capı́tulo 4
Resultados
En términos generales, el modelo Poisson que utiliza los Goles en

Contra como parámetro es prácticamente idéntico al modelo Poisson
con Goles a Favor en cuanto a la efectividad de sus predicciones, como
se observa en los totales de A.2 y A.4, sin pasar por alto que el modelo
con Goles a Favor predijo correctamente 6 juegos más que el modelo
con Goles en Contra (0.12 % del total de juegos, lo cual no es particu-
larmente relevante).
Ambos superan al “Modelo Histórico” o Modal: tomar siempre el re-

sultado que más se ha repetido históricamente, es decir, “Gana Local”
como se observa en A.7. Respectivamente obtienen 224 y 218 aciertos
más (4.32 % y 4.21 %) los modelos Poisson que la moda (Ver A.4 y A.2).
Estas observaciones alientan en un primer momento respecto a los mo-
delos Poisson.
La clasificación de Elo es otra historia. Esta primera batalla la pier-

de al no poder superar el resultado histórico, alcanzando sólo el 43.40 %
de aciertos totales, 78 aciertos menos que la moda de resultados históri-
cos (Ver A.6). Sin embargo, ¿es realmente mala la Clasificación de Elo?
¿Acaso no importa nada la “racha”, es decir, los partidos más recientes?
No olvidemos que el objetivo principal de Elo, desde su planteamiento,
es el de “percibir” cambios en el desempeño de un equipo para estimar
resultados esperados en el corto plazo (juegos inmediatos).
16
CAPÍTULO 4. RESULTADOS 17
Si particularizamos un poco más el análisis, vemos que los modelos

Poisson pronostican “Empate” muy pocas veces. El Modelo Poisson con
Goles en Contra pronosticó 7 veces este resultado y sólo acertó en 2
ocasiones (28.57 %), mientras que el Modelo Poisson con Goles a Favor
auguró 62 empates de los cuales se cumplieron 28 (45.16 %) (Ver A.4 y
A.2).
Por su parte, Elo en este rubro vaticinó 1,229 veces igualdad en el

marcador, de los cuales 371 terminaron con el resultado esperado (Ver
A.6). Si bien no es un porcentaje muy alto (30.19 %), es más que lo que
lograron ambos modelos Poisson, sin considerar que no se optimizaron
parámetros para la Clasificación de Elo que, presumı́blemente, ayudarı́a
a mejorar sus resultados.
Sin embargo, el caso de “Empate” es el único en el que Elo parece

ser ligeramente mejor que los modelos Poisson. En particular para el
resultado “Gana Visitante”, Elo sólo pronosticó 72 juegos en los casi 16
años analizados. No hace falta saber de futbol para tener la certeza de
que este resultado es mucho más común de lo que Elo intuye (Ver A.6).
Los modelos Poisson por su parte se acercan más a la media histórica

de victoria para el equipo visitante, pues predicen 1,232 y 1,302 resul-
tados en favor de la visita respectivamente, de los cuales aciertan el
43.59 % y el 43.32 %. Es decir, pronostican más victorias para el visitan-
te aunque menos de la mitad de las veces se cumple el resultado (Ver
A.4 y A.2).
¿Qué sucede cuando los modelos predicen que gana el local? En este
caso, tanto los modelos Poisson como la Clasificación de Elo superan la
media histórica con sus aciertos. Poisson con Goles a Favor tiene 51.08 %
de efectividad, Poisson con Goles en Contra el 51.10 % y Elo el 47.62 %
(Ver A.6, A.4, A.2).
En resumen: los tres modelos predicen pocas veces “Empate” o “Ga-

na Visitante” y fallan rotundamente en estos casos. Sin embargo, pre-
dicen “Gana Local” con mucha frecuencia y obtienen resultados que

rondan el 50 % de efectividad.
Por último, ¿qué observamos de la Regresión Logı́stica Multinomial?

En un primer momento notamos que logró predecir correctamente 2,779
juegos (53.63 % de efectividad), muy por encima de los tres modelos
previos. Punto para la regresión que, si bien no predice particularmente
bien los empates, lo compensa acertando en un 50.55 % (229 de 1,484)
las victorias de visitante y en un sorprendente 79.80 % (1,857 de 2,327)
las victorias de local1 . No obstante, recordemos que el planteamiento
viola uno de los supuestos básicos de un Modelo Lineal Generalizado:
la independencia en las observaciones. Considerando la “relajación” de
este supuesto en el presente trabajo, se recomienda tener cautela con las
predicciones que pudiera arrojar (en caso de que el lector sea aficionado
a las apuestas).
Sobre la relevancia de los tres modelos (dos de Poisson y Clasifica-

ción de Elo), la regresión logı́stica nos dice que son significativos (Ver
B.1)2 . Sin embargo, analizando con mayor detenimiento vemos que los
momios de victoria Local (variable de control) contra Empate y contra
victoria Visitante aumentan cuando aumenta la probabilidad de que ga-
ne Local estimada por Elo. En otras palabras, si aumenta un punto la
probabilidad estimada por Elo de que gane Local, aumentan aún más
las posibilidades de que haya empate (3.7 % más) o gane visitante (6.6 %
más) respecto a que gane local. Totalmente ilógico.
La regresión logı́stica plantea que al aumentar cualquiera de las pro-

babilidades estimadas por los modelos Poisson que se utilizaron como
variables explicativas (implı́citamente disminuir las probabilidades de
empate) se vuelve menos probable que los equipos terminen igualados.
También, aumentar las probabilidades de victoria local, sin modificar
las probabilidades de victoria visitante, aumenta la posibilidad de que
1
Para más detalles revisar B.2
2
Como ya se mencionó, un supuesto de la regresión es que las observaciones son
independientes, mismo que en este planteamiento no se cumple por construcción del
Modelo Poisson. Se recomienda tomar con cautela estos resultados.
el local salga victorioso respecto a las posibilidades del visitante de lo-

grarlo. El caso contrario (aumentar probabilidades de victoria visitante)
es completamente análogo3 .
Si bien se realizó la Regresión Logı́stica Multinomial dejando “libre”

tanto la probabilidad de victoria local como la de victoria visitante (de
forma alternada), los resultados fueron prácticamente idénticos4 .
3
Para más detalles revisar B.1
4
Por lo que no se consideró necesario reportarlos.
Capı́tulo 5
Conclusiones
Los modelos planteados (Poisson y Elo), en su conjunto, logran su-

perar ligeramente el “Modelo Histórico” y con la Regresión Logı́stica
Multinomial se logran aún mayores aciertos.
Futuros esfuerzos deben ir encaminados a que los modelos planteados

en el presente trabajo se ajusten mejor para obtener mejores resultados.
En particular, respecto a los modelos Poisson no se hicieron comparacio-
nes cruzadas (Goles a Favor vs Goles en Contra). Esta lı́nea de trabajo
habrá de ser canalizada a análisis posteriores que comparen la “fortale-
za ofensiva” del equipo i como local contra la “debilidad defensiva” del
equipo k como visitante para poder determinar un parámetro de “Goles
anotados por el equipo i dado que juega de local contra el equipo j”.
Hacerlo de esta manera pudiera precisar mejor el resultado especı́fico
(marcador exacto) y no únicamente el ganador.
Respecto a la Clasificación de Elo, los resultados obtenidos en el pre-

sente documento se lograron sin una optimización de los parámetros del
modelo, como sugiere el trabajo de Hernández-Dı́az et al. (Hernández-
Dı́az et al., 2010, p.7-17). La optimización de todos los parámetros
(k, D, λ y h principalmente) son mejoras necesarias (dada la baja efec-
tividad observada) a realizar en futuros análisis.
Sin embargo, es muy rescatable el hecho de que modelos sencillos
20
CAPÍTULO 5. CONCLUSIONES 21
sin mayores ajustes (en particular las dos versiones Poisson planteadas)
logren resultados cercanos al 50 % de efectividad. Además, es de resal-
tar que la regresión logı́stica muestra ser una herramienta que puede
acercarnos a los resultados esperados, aun basándose en modelos no
particularmente efectivos.
También sobre la regresión logı́stica, la caracterı́stica de que no sea

necesaria la independencia entre variables, pues analiza únicamente aso-
ciación entre ellas (Medina Moral, 2003, p. 1) permite manipular con
cierta libertad las variables explicativas dentro de la regresión1 .
Incluir algunos otros datos (tanto cualitativos como cuantitativos)

pudiera ayudar a predecir mejores resultados. En el presente análisis
se pretendı́a inicialmente incluir al Director Técnico en turno como una
variable determinante, tarea que no se logró llevar a cabo debido a la can-
tidad de Directores que han participado en la Liga Mexicana (Liga MX)
durante el periodo analizado, haciendo que la capacidad computacional
utilizada fuera insuficiente. Dicho de otra forma, la “esquizofrenia” del
futbol mexicano ganó la batalla contra la capacidad computacional no
especializada.
Predecir un evento en el que interactúan 22 seres humanos al mis-

mo tiempo muestra ser elusivo. ¿Hasta dónde es impredecible el “factor
humano”? Modelos como los analizados en este trabajo, los cuales sin
mayores ajustes superaron considerablemente a modelos modales (“Mo-
delo Histórico”) y a Modelos Uniformes (un tercio de probabilidad a
cada resultado) invitan a ser optimistas en el análisis de datos.
Si bien se dice que “la casa nunca pierde”, el pasado pareciera es-
conder cierta información sobre el futuro. Un adecuado tratamiento y
análisis de los datos nos permiten soñar con que tal vez, y sólo tal vez,
algún dı́a la casa pierda.
1
Es importante recalcar que la independencia entre observaciones es un supuesto
que se relajó en el presente trabajo.
Apéndice A
Tablas de Resultados
En las siguientes tablas la columna “Efect.” muestra porcentual-

mente la efectividad que presentaron las predicciones del modelo co-
rrespondiente y “Juegos” indica la cantidad de partidos que tuvo cada
temporada. Las columnas “E. Local” y “Local” hacen referencia a las
predicciones “Gana Local” del modelo particular, donde la primera es
la efectividad de las predicciones y la segunda es la cantidad de juegos
para los cuales se predijo ese resultado. Los casos “E. Empate”, “Empa-
te”, “E. Visita”, “Visita” son análogos para las predicciones “Empate”
y “Gana Visitante” del modelo correspondiente.
22
Temporada Efect. Juegos E. Local Local E. Empate Empate E. Visita Visita
2002 Apertura 52.94 % 204 56.21 % 169 50.00 % 4 35.48 % 31
2003 Clausura 50.00 % 206 53.15 % 143 75.00 % 4 40.68 % 59
2003 Apertura 50.00 % 208 52.32 % 151 0.00 % - 43.86 % 57
2004 Clausura 45.15 % 206 49.03 % 155 0.00 % - 33.33 % 51
2004 Apertura 50.30 % 167 52.42 % 124 0.00 % - 44.19 % 43
2005 Clausura 53.89 % 167 55.56 % 144 0.00 % - 43.48 % 23
2005 Apertura 51.50 % 167 54.81 % 104 0.00 % - 46.03 % 63
2006 Clausura 42.51 % 167 44.34 % 106 0.00 % 2 40.68 % 59
2006 Apertura 49.71 % 171 52.70 % 148 0.00 % - 30.43 % 23
2007 Clausura 51.46 % 171 53.19 % 141 33.33 % 3 44.44 % 27
2007 Apertura 55.56 % 171 57.97 % 138 0.00 % - 45.45 % 33
2008 Clausura 42.11 % 171 42.42 % 132 0.00 % 1 42.11 % 38
2008 Apertura 41.32 % 167 43.94 % 132 50.00 % 2 30.30 % 33
2009 Clausura 47.90 % 167 48.39 % 124 100.00 % 2 43.90 % 41
2009 Apertura 55.69 % 167 55.47 % 128 60.00 % 5 55.88 % 34
APÉNDICE A. TABLAS DE RESULTADOS
Cuadro A.1: Resultados del Modelo Poisson con Goles a Favor.

23
2010 Clausura 51.50 % 167 52.11 % 142 50.00 % 2 47.83 % 23
2010 Apertura 48.50 % 167 52.27 % 132 0.00 % 4 38.71 % 31
2011 Clausura 49.10 % 167 50.86 % 116 16.67 % 6 48.89 % 45
2011 Apertura 47.90 % 167 49.26 % 136 0.00 % - 41.94 % 31
2012 Clausura 53.29 % 167 51.09 % 92 71.43 % 7 54.41 % 68
2012 Apertura 48.50 % 167 46.88 % 128 0.00 % 2 56.76 % 37
2013 Clausura 50.30 % 167 49.62 % 131 0.00 % 3 57.58 % 33
2013 Apertura 50.30 % 167 53.28 % 122 100.00 % 2 39.53 % 43
2014 Clausura 46.71 % 167 47.32 % 112 100.00 % 4 41.18 % 51
2014 Apertura 43.11 % 167 45.63 % 103 40.00 % 5 38.98 % 59
2015 Clausura 47.90 % 167 50.00 % 146 0.00 % - 33.33 % 21
2015 Apertura 56.89 % 167 57.66 % 111 0.00 % 1 56.36 % 55
2016 Clausura 50.30 % 167 50.81 % 124 100.00 % 1 47.62 % 42

2016 Apertura 46.11 % 167 51.30 % 115 0.00 % - 34.62 % 52
2017 Clausura 46.11 % 167 48.92 % 139 0.00 % 2 34.62 % 26
Total 49.23 % 5,182 51.08 % 3,888 45.16 % 62 43.59 % 1,232
Cuadro A.2: Resultados del Modelo Poisson con Goles a Favor (cont.).
24
2002 Apertura 52.94 % 204 53.63 % 179 0.00 % - 48.00 % 25
2003 Clausura 49.03 % 206 49.36 % 156 0.00 % - 48.00 % 50
2003 Apertura 54.81 % 208 54.55 % 154 0.00 % - 55.56 % 54
2004 Clausura 49.03 % 206 52.98 % 151 0.00 % - 38.18 % 55
2004 Apertura 54.49 % 167 52.10 % 119 0.00 % - 60.42 % 48
2005 Clausura 52.69 % 167 53.52 % 142 0.00 % - 48.00 % 25
2005 Apertura 53.29 % 167 54.47 % 123 0.00 % - 50.00 % 44
2006 Clausura 42.51 % 167 44.86 % 107 0.00 % - 38.33 % 60
2006 Apertura 49.71 % 171 53.90 % 141 28.57 % 7 30.43 % 23
2007 Clausura 51.46 % 171 53.15 % 143 0.00 % - 42.86 % 28
2007 Apertura 49.12 % 171 52.21 % 136 0.00 % - 37.14 % 35
2008 Clausura 42.11 % 171 44.85 % 136 0.00 % - 31.43 % 35
2008 Apertura 41.92 % 167 46.72 % 122 0.00 % - 28.89 % 45

2009 Clausura 46.71 % 167 47.73 % 132 0.00 % - 42.86 % 35
2009 Apertura 51.50 % 167 51.94 % 129 0.00 % - 50.00 % 38
2010 Clausura 51.50 % 167 53.49 % 129 0.00 % - 44.74 % 38
2010 Apertura 46.71 % 167 51.20 % 125 0.00 % - 33.33 % 42
Cuadro A.3: Resultados del Modelo Poisson con Goles en Contra.

25
2011 Clausura 49.10 % 167 54.81 % 104 0.00 % - 39.68 % 63
2011 Apertura 47.90 % 167 50.79 % 126 0.00 % - 39.02 % 41
2012 Clausura 46.71 % 167 48.60 % 107 0.00 % - 43.33 % 60
2012 Apertura 47.31 % 167 46.15 % 130 0.00 % - 51.35 % 37
2013 Clausura 52.10 % 167 52.00 % 125 0.00 % - 52.38 % 42
2013 Apertura 46.71 % 167 50.43 % 115 0.00 % - 38.46 % 52
2014 Clausura 44.91 % 167 46.67 % 120 0.00 % - 40.43 % 47
2014 Apertura 39.52 % 167 42.97 % 128 0.00 % - 28.21 % 39
2015 Clausura 50.90 % 167 55.04 % 129 0.00 % - 36.84 % 38
2015 Apertura 55.09 % 167 56.19 % 105 0.00 % - 53.23 % 62
2016 Clausura 48.50 % 167 50.00 % 128 0.00 % - 43.59 % 39
2016 Apertura 55.09 % 167 58.49 % 106 0.00 % - 49.18 % 61

2017 Clausura 47.90 % 167 49.21 % 126 0.00 % - 43.90 % 41
Total 49.11 % 5,182 51.10 % 3,873 28.57 % 7 43.32 % 1,302
Cuadro A.4: Resultados del Modelo Poisson con Goles en Contra (cont.)
26
2002 Apertura 45.10 % 204 49.07 % 161 30.95 % 42 0.00 % 1
2003 Clausura 42.72 % 206 46.15 % 156 31.11 % 45 40.00 % 5
2003 Apertura 46.63 % 208 50.32 % 155 31.25 % 48 80.00 % 5
2004 Clausura 44.66 % 206 47.74 % 155 34.04 % 47 50.00 % 4
2004 Apertura 41.32 % 167 46.15 % 130 24.32 % 37 0.00 % -
2005 Clausura 46.11 % 167 51.16 % 129 28.95 % 38 0.00 % -
2005 Apertura 44.31 % 167 51.18 % 127 16.67 % 36 75.00 % 4
2006 Clausura 35.93 % 167 39.17 % 120 28.26 % 46 0.00 % 1
2006 Apertura 52.05 % 171 54.07 % 135 45.71 % 35 0.00 % 1
2007 Clausura 43.27 % 171 50.41 % 121 23.91 % 46 50.00 % 4
2007 Apertura 48.54 % 171 54.84 % 124 30.95 % 42 40.00 % 5
2008 Clausura 38.60 % 171 41.94 % 124 28.57 % 42 40.00 % 5

2008 Apertura 37.72 % 167 40.15 % 132 29.41 % 34 0.00 % 1
2009 Clausura 39.52 % 167 41.67 % 132 31.43 % 35 0.00 % -
2009 Apertura 41.92 % 167 50.81 % 124 17.50 % 40 0.00 % 3
Cuadro A.5: Resultados del Modelo Clasificación de Elo.

27
2010 Clausura 46.11 % 167 53.85 % 117 31.11 % 45 0.00 % 5
2010 Apertura 50.30 % 167 53.39 % 118 45.65 % 46 0.00 % 3
2011 Clausura 43.71 % 167 48.00 % 125 30.00 % 40 50.00 % 2
2011 Apertura 40.12 % 167 45.08 % 122 26.67 % 45 0.00 % -
2012 Clausura 40.12 % 167 42.74 % 124 31.71 % 41 50.00 % 2
2012 Apertura 41.32 % 167 46.61 % 118 26.09 % 46 66.67 % 3
2013 Clausura 41.32 % 167 47.83 % 115 24.00 % 50 100.00 % 2
2013 Apertura 48.50 % 167 49.57 % 115 45.45 % 44 50.00 % 8
2014 Clausura 41.92 % 167 45.97 % 124 29.27 % 41 50.00 % 2
2014 Apertura 42.51 % 167 42.31 % 130 44.44 % 36 0.00 % 1
2015 Clausura 46.11 % 167 50.77 % 130 30.56 % 36 0.00 % 1
2015 Apertura 41.92 % 167 47.45 % 137 16.67 % 30 0.00 % -
2016 Clausura 42.51 % 167 46.09 % 128 30.77 % 39 0.00 % -

2016 Apertura 42.51 % 167 47.58 % 124 26.83 % 41 50.00 % 2
2017 Clausura 43.11 % 167 46.51 % 129 30.56 % 36 50.00 % 2
Total 43.40 % 5,182 47.62 % 3,881 30.19 % 1,229 41.67 % 72
Cuadro A.6: Resultados del Modelo Clasificación de Elo (cont.).

28
Torneo Local Empate Visitante Total.general
2002 Apertura 49.51 % 27.45 % 23.04 % 100.00 %
2003 Clausura 43.69 % 29.61 % 26.70 % 100.00 %
2003 Apertura 46.15 % 25.48 % 28.37 % 100.00 %
2004 Clausura 45.63 % 31.07 % 23.30 % 100.00 %
2004 Apertura 46.11 % 23.35 % 30.54 % 100.00 %
2005 Clausura 50.90 % 26.95 % 22.16 % 100.00 %
2005 Apertura 47.31 % 24.55 % 28.14 % 100.00 %
2006 Clausura 40.72 % 28.74 % 30.54 % 100.00 %
2006 Apertura 49.71 % 29.82 % 20.47 % 100.00 %
2007 Clausura 47.95 % 29.24 % 22.81 % 100.00 %
2007 Apertura 50.29 % 26.32 % 23.39 % 100.00 %
2008 Clausura 39.77 % 33.92 % 26.32 % 100.00 %

2008 Apertura 41.92 % 33.53 % 24.55 % 100.00 %
2009 Clausura 41.92 % 34.13 % 23.95 % 100.00 %
2009 Apertura 47.90 % 25.15 % 26.95 % 100.00 %
Cuadro A.7: Resultados Históricos por Temporada.

29
Torneo Local Empate Visitante Total.general
2010 Clausura 47.31 % 26.35 % 26.35 % 100.00 %
2010 Apertura 46.11 % 29.34 % 24.55 % 100.00 %
2011 Clausura 44.31 % 27.54 % 28.14 % 100.00 %
2011 Apertura 44.91 % 28.14 % 26.95 % 100.00 %
2012 Clausura 37.72 % 29.94 % 32.34 % 100.00 %
2012 Apertura 40.12 % 31.14 % 28.74 % 100.00 %
2013 Clausura 45.51 % 25.75 % 28.74 % 100.00 %
2013 Apertura 41.92 % 36.53 % 21.56 % 100.00 %
2014 Clausura 41.92 % 27.54 % 30.54 % 100.00 %
2014 Apertura 38.32 % 35.33 % 26.35 % 100.00 %
2015 Clausura 49.70 % 24.55 % 25.75 % 100.00 %
2015 Apertura 46.11 % 17.96 % 35.93 % 100.00 %
2016 Clausura 43.11 % 31.14 % 25.75 % 100.00 %

2016 Apertura 44.31 % 31.14 % 24.55 % 100.00 %
2017 Clausura 44.91 % 27.54 % 27.54 % 100.00 %
Total 44.91 % 28.64 % 26.46 % 100.00 %
Cuadro A.8: Resultados Históricos por Temporada (cont.).

30
Apéndice B
Regresión Logı́stica
Multinomial
En el Cuadro B.1 se muestran los momios y significancias de las pro-

babilidades de empate y visitante (teniendo como variable de control al
local), tanto a través del Modelo Poisson de Goles en Contra, Goles a
Favor y la Clasificación de Elo. Es importante mencionar que se dejaron
fuera las probabilidades de visitante puesto que P [Local]+P [Empate]+
P [V isitante] = 1 en el caso Poisson y P [Local] + P [V isitante] = 1 en el
caso Elo, de forma que no es posible dejar constantes dos de las variables
mientras se mueve la tercera.
31
APÉNDICE B. REGRESIÓN LOGÍSTICA MULTINOMIAL 32
Cuadro B.1: Exponencial de los Coeficientes y Significancia (Local)
Variable Dependiente:
Empate Visitante
(1) (2)
Prob.Local.GC 0.940∗∗∗ 0.954∗∗∗
Prob.Local.GF 0.944∗∗∗ 0.951∗∗∗
Prob.Visit.GC 0.971∗∗∗ 1.025∗∗
Prob.Visit.GF 0.978∗∗ 1.027∗∗∗
Prob.Local.Elo 1.037∗∗∗ 1.066∗∗∗
Constant 94.852∗∗∗ 0.223
Akaike Inf. Crit. 9,866.240 9,866.240

Nota: ∗ p<0.1; ∗∗ p<0.05; ∗∗∗ p<0.01
APÉNDICE B. REGRESIÓN LOGÍSTICA MULTINOMIAL 33
Observación
Empate Local Visitante Total
Empate 229 172 165 566
Predicción Local 865 1,857 513 3,235
Visitante 390 298 693 1,381
Total 1,484 2,327 1,371 5,182
Cuadro B.2: Predicciones Logit contra Observaciones

Apéndice C
Códigos
C.1. Cálculo de Modelo Poisson y Clasificación

de Elo
El siguiente código es un extracto del código original utilizado. Se
evita presentar la lectura y adecuación tanto de la base como de los
parámetros iniciales.
Modelo Poisson
1 # Las siguientes l ? neas buscan calcular las
probabilidades de los resultados desde 0 -0
2 # hasta 8 -8 con base en un modelo Poisson con lambda
= Promedio de goles
3 MatJuego <- matrix (0 ,9 ,9)
4 colnames ( MatJuego ) = (0:8)
5 row . names ( MatJuego ) = (0:8)
6
7 # Inicializa matriz para guardar todas las
probabilidades del modelo Poisson
8 ProbPois = c (0 ,0 ,0 ,0 ,0 ,0 ,0 ,0)
9 # Selecci ? n de equipos en juegos de la temporada j
10 for ( j in 1: length ( temp ) )
11 {
12 aux <- base $ Torneo == temp [ j ]
13 Partidos = base $ Local [ aux ]
34
APÉNDICE C. CÓDIGOS 35
14 # Matriz con n ? mero de los equipos que jugaron cada

juego regular
15 Partidos = cbind ( Partidos , base $ Visitante [ aux ])
16 # Agrega prob Poisson
17 Partidos = cbind ( Partidos ,0 ,0 ,0 ,0 ,0 ,0)
18 colnames ( Partidos ) <- c ( " Local " ," Visitante " ," Prob
Local GF " ," Prob Empate GF " ," Prob Visit GF " ," Prob
Local GC " ," Prob Empate GC " ," Prob Visit GC " )
19 for ( i in 1: sum ( aux ) )
20 {
21 Eq . Local <- Partidos [i ,1]
22 Eq . Visit <- Partidos [i ,2]
23 # Lambdas con Goles a favor
24 lmb . Local . GF = as . numeric ( MatGolesGeneral [ Eq .
Local , as . numeric (2+6 * (j -1) ) ])
25 lmb . Visit . GF = as . numeric ( MatGolesGeneral [ Eq .
Visit , as . numeric (5+6 * (j -1) ) ])
26
27 # Lambdas con Goles en contra
28 lmb . Local . GC = as . numeric ( MatGolesGeneral [ Eq .
Local , as . numeric (3+6 * (j -1) ) ])
29 lmb . Visit . GC = as . numeric ( MatGolesGeneral [ Eq .
Visit , as . numeric (6+6 * (j -1) ) ])
30
31 # Matrices con probabilidades Poisson seg ? n goles
a favor y en contra
32 # Goles del Local en columnas , Goles del
Visitante filas
33 MatPoisGF = as . matrix ( dpois ( x =(0:8) , lambda = lmb .
Visit . GF ) %* %t ( dpois ( x = (0:8) , lambda = lmb .
Local . GF ) ) )
34 MatPoisGC = as . matrix ( dpois ( x =(0:8) , lambda = lmb .
Visit . GC ) %* %t ( dpois ( x = (0:8) , lambda = lmb .
Local . GC ) ) )
35
36 # Probabilidades de Victoria Local , Empate y
Victoria Visita
37 Partidos [i ,3] = sum ( upper . tri ( MatPoisGF ) *
MatPoisGF )
38 Partidos [i ,4] = sum ( diag ( x = MatPoisGF ) )
39 Partidos [i ,5] = sum ( lower . tri ( MatPoisGF ) *
MatPoisGF )
40 Partidos [i ,6] = sum ( lower . tri ( MatPoisGC ) *
MatPoisGC )
41 Partidos [i ,7] = sum ( diag ( x = MatPoisGC ) )
42 Partidos [i ,8] = sum ( upper . tri ( MatPoisGC ) *
MatPoisGC )
43 }
44 ProbPois = rbind ( ProbPois , Partidos )
45 }
46 # Quitar vector inicial de ProbPois
47 ProbPois = ProbPois [ -1 ,]
48 # Pegar probabilidades Poisson a la base original
49 base = cbind ( base , ProbPois [ ,3:8])
Clasificación de Elo
1 equi <- levels ( baseElo $ Local )
2 R <- rep (1500 , length ( equi ) ) # Vector con los ratings ,
aqu ? se ir ? actualizando
3 names ( R ) <- equi
4 P <- rep (0 , length ( equi ) ) # Vector con la cantidad
de puntos , aqu ? se ir ? actualizando
5 names ( P ) <- equi
6 res <- levels ( baseElo $ Ganador )
7 n = dim ( baseElo )
8 Rmat <- matrix ( data = NA , nrow = n [1] , ncol = 9)
9 colnames ( Rmat ) <- c ( " RI . local " ," RI . visita " ," Prob .
local " ," RF . local " ," RF . visita " ," PI . local " ," PI .
visita " ," PF . local " ," PF . visita " )
10 temp <- unique ( baseElo $ Torneo )
11 m = length ( temp )
12 j = 1
13 i = 1
14
15 while ( i <= n [1])
16 {
17 if ( baseElo $ Torneo [ i ] == temp [ j ])
18 {
19 auxl <- which ( equi == baseElo $ Local [ i ])
20 Rl <- R [ auxl ]
21 auxv <- which ( equi == baseElo $ Visitante [ i ])

22 Rv <- R [ auxv ]
23
24 # Puntos antes del partido
25 Rmat [i ,6] = P [ auxl ]
26 Rmat [i ,7] = P [ auxv ]
27
28 # Determina el resultado y los puntos
acumulados
29 if ( baseElo $ Ganador [ i ] == res [2])
30 {
31 P [ auxl ] = P [ auxl ] + 3
32 wrl = 1
33 }
34 else
35 {
36 if ( baseElo $ Ganador [ i ] == res [1])
37 {
38 P [ auxl ] = P [ auxl ] + 1
39 P [ auxv ] = P [ auxv ] + 1
40 wrl = 0.5
41 }
42 else
43 {
44 P [ auxv ] = P [ auxv ] + 3
45 wrl = 0
46 }
47
48 }
49 wrv = 1 - wrl
50
51
52 # Ratings previos al partido
53 Rmat [i ,1] = Rl
54 Rmat [i ,2] = Rv
55
56 # Puntos despu ? s del partido
57 Rmat [i ,8] = P [ auxl ]
58 Rmat [i ,9] = P [ auxv ]
59
60 # C ? lculo del rating dado el resultado .
61
62 drl <- Rl - Rv + 65 # 65 pts . corresponden a P [
ganador = local ] = 0.4496 , P [ ganador =
emapte ] = .2867 = > P [ ganador = local ] +0.5 * P
[ ganador = empate ] = 0.5929 ( cercano al
0.5925 promedio de victorias de local +
mitad de empates )
63 wel <- (10^( - drl / 400) + 1) ^ -1
64 Rmat [i ,3] <- wel
65 wev <- 1 - wel
66 dif <- abs ( as . numeric ( baseElo $ Goles . local [ i ]) -
as . numeric ( baseElo $ Goles . visitante [ i ]) )
67
68 # C ? lculo del k - f
69 if ( dif <= 1)
70 { D = 1}
71 else
72 {
73 if ( dif == 2 )
74 { D = 1.5}
75 else
76 { D = (11+ dif ) / 8}
77 }
78 k = 15 * D
79
80
81 R [ auxl ] = R [ auxl ] + k * ( wrl - wel )
82 R [ auxv ] = R [ auxv ] + k * ( wrv - wev )
83
84 # Ratings posteriores al partido
85 Rmat [i ,4] = R [ auxl ]
86 Rmat [i ,5] = R [ auxv ]
87
88 i = i + 1
89 }
90
91 else
92 {
93 # Saca el promedio de ratings de los equipos
que jugaron la temporada j
94 auxT <- which ( baseElo $ Torneo == temp [ j ])
95 equiT <- baseElo $ Local [ auxT ]

96 equiT <- unique ( equiT )
97 p <- length ( equiT )
98 ranqc = 0
99 auxM = rep (F , length ( equi ) )
100 for ( k in 1: p )
101 {
102 auxT <- equi == equiT [ k ]
103 ranqc = ranqc + R [ auxT ]
104 auxM = auxM + auxT
105 }
106 auxM <- as . logical ( auxM )
107 ranqc = ranqc / p
108 R [ auxM ] = ( R [ auxM ] + ranqc ) / 2
109 P <- rep (0 , length ( equi ) ) # Reinicia los
puntos
110 names ( P ) <- equi
111 j = j + 1
112 }
113 }
114 # Pega resultados de Elo a baseElo de datos inicial
115 baseElo = cbind ( baseElo , Rmat )
C.2. Cálculo e Impresión de Modelo Logı́stico
1 require ( foreign )
2 require ( nnet )
3 require ( stargazer )
4
5 table ( BaseLog $ Ganador )
6 BaseLog $ Ganador = relevel ( BaseLog $ Ganador , ref = "
Local " )
7 BaseLog [ ,21:22] = BaseLog [ ,21:22] * 100
8 BaseLog [ ,31:36] = BaseLog [ ,31:36] * 100
9
10 RegLog3 <- multinom ( formula = Ganador ~ Prob . Local . GC
+ Prob . Local . GF + Prob . Visit . GC + Prob . Visit . GF +
Prob . Visita . Elo , data = BaseLog )
11 summary ( RegLog3 )
12 RegLog3coeff = exp ( coef ( RegLog3 ) )
13
14 stargazer ( RegLog3 , type = " latex " )
15 stargazer ( RegLog3 , type = " latex " , coef = list (
RegLog3coeff ) , p . auto = FALSE )
Referencias
FootballDatabase.com(2017). Methodology for Calculating FootballDa-

tabase’s World Football Clubs Ranking. [online] Disponible en:
http://footballdatabase.com/methodology.php [Consultado 31 de
agosto de 2017]
McCullagh, P.& Nelder, J. A. (1989).Generalized Linear Models. Segun-
da Edición. Chapman & Hall. Londres, Inglaterra.
Hernández-Dı́az, A. G., Sala Garrido, R., Caballero Fernández, R.
(2010). Estimación de parámetros del rating ELO para la liga de
fútbol española 2009/2010. En XVIII Jornadas ASEPUMA-VI En-
cuentro Internacional, Santiago, 2010. Anales de ASEPUMA, 18,
record 507 (p.1-19).
Kelly Jr., J.L. (1956).A New Interpretation of Information Rate. The
Bell System Technical Journal, Julio:917–926.
Maher, M.J. (1982). Modelling association football scores. Statistica
Neerlandica, 36(3): p.109–118.
Medina Moral, E.(2003).Modelos Log-Lineales para tablas de
Contingencia.Obtenido el 29 de agosto de 2017, de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/
Categor/Tema6Cate.pdf
Pando Fernández, V. San Martı́n Fernández, R. (2004).Regresión
Logı́stica Multinomial. Cuaderno Sociedad Española en Ciencias
Forestales: Vol. 18 (p.323-327). Sociedad Española en Ciencias Fo-
restales. Madrid, España.
Saxon, W. (1992, 14 de noviembre). Prof. Apad E. Elo Is Dead at 89;
Inventor of Chess Ratings System. The New York Times.
Silver, N. (2014, 12 de junio). How FiveThirtyEight’s Wolrd Cup Pre-
41
Referencias 42
dictions Compare to Other Ratings. FiveThirtyEight. Consultado

el 29 de agosto de 2017, https://fivethirtyeight.com/datalab/how-
fivethirtyeights-world-cup-predictions-compare-to-other-ratings/
Silver, N. (2014, 4 de septiembre). Introducing NFL Elo Ra-
tings. FiveThirtyEight. Consultado el 29 de agosto de 2017,
https://fivethirtyeight.com/datalab/introducing-nfl-elo-ratings/
Silver, N. Fischer-Baum, R. (2015, 21 de mayo). How We Calculate
NBA Elo Ratings. FiveThirtyEight. Consultado el 29 de agosto de
2017, https://fivethirtyeight.com/features/how-we-calculate-nba-
elo-ratings/
Sumpter, D. (2016). Fútbol y matemáticas. Editorial Ariel, Ciudad de
México, 1a edición.
R Core Team (2015). foreign: Read Data Stored by Minitab, S, SAS,
SPSS, Stata, Systat, Weka, dBase, .... R package version 0.8-66.
https://CRAN.R-project.org/package=foreign
Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with
S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
Hlavac, Marek (2015). stargazer: Well-Formatted Regression and Sum-
mary Statistics Tables. R package version 5.2. http://CRAN.R-
project.org/package=stargazer

Juan Pedro Luengas García Tesina para Impresión-1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Juan Pedro Luengas García Tesina para Impresión-1

Cargado por

Copyright:

Formatos disponibles

Instituto Tecnológico Autónomo de México

que para obtener el tı́tulo de

LICENCIADO EN MATEMÁTICAS APLICADAS

JUAN PEDRO LUENGAS GARCÍA

Ciudad de México 2017

JUAN PEDRO LUENGAS GARCÍA

A Luis de la Mora por la confianza. A D∴ L∴ por el silencio.

A mis hermanas, Marı́a Clara y Carmen Lucı́a, por el ejemplo. A Ma-

A mis QQ∴ HH∴ por caminar a mi lado, en especial a Óscar, Abi,

A Impulso por el tiempo, las ganas y los grandes amigos. En especial

A Daniel porque siempre está, aunque no se vea, aunque no se escu-

A Mercurio por el ejemplo y al Chief Diego por tantas enseñanzas.

A los grandes amigos que me ha dado la vida. Soy realmente afor-

B. Regresión Logı́stica Multinomial 31

El objetivo del presente trabajo es comparar dos modelos (que pre-

En los Antecedentes se presentan aplicaciones de modelos similares

La segunda aplicación presentada la llevaron a cabo Hernández-Dı́az,

Posteriormente, el capı́tulo de Modelos presenta las versiones que se

En el capı́tulo Resultados se analizan los resultados obtenidos de

Las comparaciones entre los deportes y (casi) cualquier área de es-

2.1. Modelo Poisson: La versión de Maher

En particular, supone que el equipo i juega como local y la can-

Posteriormente, Maher plantea una función de máxima verosimilitud

(Maher, 1982, p.110).

(Maher, 1982, p.110).

Maher concluye que, para su base de datos (Resultados de la Liga

2.2. ELO y la Liga Española: Tratando de Op-

Arpad Elo fue un fı́sico, astrónomo y matemático húngaro fundador

Este modelo de clasificación, que posteriormente fue adoptado por la

Este modelo es el que utilizan Hernández-Dı́az et al. para su artı́culo

donde Rn es el valor de la clasificación Elo actualizada, R0 es el valor

(Hernández-Dı́az et al., 2010, p.4-6).

Los parámetros K, G son particulares de esta aplicación, pues en el

Posteriormente, definen intervalos para We de victoria, empate y de-

Hernández-Dı́az et al. consideran el parámetro K distinto dependien-

Posteriormente, utilizan un algoritmo de optimización para estimar

comparan las predicciones del modelo dados los parámetros estimados

Por úlitmo, concluyen que la estimación de los parámetros ayuda

2.3. Modelos Lineales Generalizados: Un brevı́si-

En el caso de los Modelos Lineales Generalizados es importante men-

Iniciando con el planteamiento de los Modelos Lineales Generaliza-

1. Una Componente Aleatoria denotada por Y cuya esperanza se

2. Un predictor lineal en parámetros (también llamado Componente

3. Una Función Liga g(·) que relaciona la esperanza µ de la Compo-

Un Modelo Lineal Generalizado debe cumplir, además, ciertas par-

La inferencia y el análisis que puede realizarse respecto tanto a los

El modelo utilizado en el presente trabajo es un caso particular de los

Las diferentes versiones de aplicación de modelos al futbol en general

3.1. Modelo Poisson

De forma similar se modelan los goles recibidos de local (Goles en

goles recibidos de visita (Goles en Contra de Visita), que denotaremos

Una vez calculadas λL V L V

P (Gana Local) = P (FijL > Fkj

Un planteamiento similar se utiliza para modelar los resultados da-

Las probabilidades planteadas se calcularon de forma numérica cons-

que el equipo local i y el equipo visitante k terminen con marcador de

Respecto a la matriz R, tenemos que

P (Gana Local) = Lower(R) − diag(R);

Con fines didácticos del presente trabajo, se resumen los resultados

3.2. La Clasificación de Elo

Una de las posibles aplicaciones de la Clasificación de Elo es en juegos

En el presente trabajo se utilizó una versión de Elo en la que el valor