Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Acatlán
Informe Técnico
Examen–Tarea: Modelos de Regresión
Licenciatura en Actuarı́a
Integrantes del equipo:
Arias Granados Erick Antonio
Ortiz Luna Irving
Montoya Torres Angeles Helena
Fecha de entrega: 15 de Noviembre de 2025
Índice
1. Fundamentos Teóricos (Sección I) 3
1.1. a) Diferencias conceptuales entre regresión lineal, logı́stica, Probit y Poisson 3
1.2. b) Verosimilitud y estimador MLE para regresión logı́stica . . . . . . . . . . 3
1.3. c) Deviance en GLM y comparación de modelos anidados . . . . . . . . . . . 3
2. Regresión Lineal: House Prices (Sección II) 4
2.1. (a) Análisis Exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. (b) Modelo Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. (c) Verificación de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4. (d) Transformación Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5. (e) Interpretación Económica . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3. Regresión Logı́stica: Titanic (Sección III) 6
3.1. (a) Análisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. (b) Modelo logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3. (c) Diagnósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4. (d) Comparación con modelo reducido . . . . . . . . . . . . . . . . . . . . . 7
3.5. (e) Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4. Modelos aplicados — Modelos de Conteo (Poisson)(Sección 4) 7
4.1. (a) Justificación del modelo Poisson y evidencia empı́rica . . . . . . . . . . . 7
4.2. (b) Ajuste del modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.3. c)Verificación de sobredispersión y ajuste alternativo . . . . . . . . . . . . . 8
4.4. (d) Interpretación de coeficientes en términos de tasas esperadas . . . . . . . 8
4.5. (e) Diagnóstico de observaciones influyentes . . . . . . . . . . . . . . . . . . 8
5. Modelos aplicados — Parte D: Probit y comparación con Logit(Sección
V) 9
5.1. (a) Ajuste de modelos Logit y Probit . . . . . . . . . . . . . . . . . . . . . . 9
1
5.2. (b) Comparación de coeficientes, predicciones y medidas de ajuste . . . . . . 9
5.3. (c) Efectos marginales promedios (AME) e interpretación económica . . . . . 9
5.4. (d) Test de especificación: Hosmer–Lemeshow . . . . . . . . . . . . . . . . . 9
6. Modelos aplicados (Sección VI) 10
6.1. JUSTIFICACION DE MEJORA . . . . . . . . . . . . . . . . . . . . . . . . 11
7. Declaración de Roles 11
8. Conclusiones 11
2
1. Fundamentos Teóricos (Sección I)
1.1. a) Diferencias conceptuales entre regresión lineal, logı́stica,
Probit y Poisson
La regresión lineal se usa para variables continuas y asume errores normales con varianza
constante. La regresión logı́stica se aplica a variables binarias y modela la probabilidad me-
diante el logit. El modelo Probit también trabaja con respuestas binarias, pero utiliza la
distribución normal estándar como enlace. Los modelos de conteo, como Poisson, se emplean
cuando la variable es el número de eventos y su estructura relaciona directamente la media
con la varianza.
1.2. b) Verosimilitud y estimador MLE para regresión logı́stica
Sea Yi ∈ {0, 1} una variable binaria con:
eXi β
P (Yi = 1 | Xi ) = πi = .
1 + eXi β
La función de verosimilitud del modelo logı́stico es:
n
Y
L(β) = πiYi (1 − πi )1−Yi .
i=1
La log-verosimilitud se expresa como:
n
X
ℓ(β) = [Yi log(πi ) + (1 − Yi ) log(1 − πi )] .
i=1
El score o gradiente es:
n
X
U (β) = (Yi − πi )Xi .
i=1
El estimador MLE se obtiene resolviendo U (β) = 0, mediante algoritmos como Newton–Raphson
o IRLS.
1.3. c) Deviance en GLM y comparación de modelos anidados
La deviance es una medida del ajuste en modelos lineales generalizados (GLM) que compara la
log-verosimilitud del modelo estimado con la de un modelo saturado que ajusta perfectamente
los datos. Una menor deviance indica un mejor ajuste. Para modelos anidados, la diferencia
de deviances sigue aproximadamente una distribución χ2 , por lo que permite evaluar si un
modelo más complejo mejora significativamente respecto a un modelo reducido.
3
2. Regresión Lineal: House Prices (Sección II)
2.1. (a) Análisis Exploratorio
Se analizó el archivo train.csv del concurso House Prices. La variable objetivo es SalePrice,
cuyo comportamiento muestra una fuerte asimetrı́a a la derecha. Sus estadı́sticas principales
son: media $180,921, mediana $163,000, desviación estándar $79,442 y valores entre $34,900
y $755,000.
Del análisis descriptivo se identificaron cinco variables explicativas clave por su relación con
el precio: OverallQual (calidad general), GrLivArea (área habitable), GarageCars (ca-
pacidad del garaje), TotalBsmtSF (tamaño del sótano) y YearBuilt (año de construcción).
Estas covariables presentan asociaciones claras y positivas con el valor de las viviendas.
Gráficos exploratorios
En la Figura 1 se presenta la distribución de SalePrice, donde se observa la asimetrı́a señalada.
En la Figura 2 se muestra la relación entre GrLivArea y SalePrice, donde se aprecia una
relación creciente y consistente.
2.2. (b) Modelo Lineal Múltiple
Los resultados principales del modelo fueron:
R2 ajustado: 0.7689
F-estadı́stico: 807.2 (p-value <0.001)
Los coeficientes más relevantes fueron:
OverallQual: $20,760 por punto adicional de calidad
GrLivArea: $48.17 por pie cuadrado adicional
GarageCars: $13,930 por lugar adicional en el garaje
Todas las variables mostraron significancia estadı́stica al 1 %.
4
2.3. (c) Verificación de supuestos
Normalidad de residuos
El test de Shapiro–Wilk arrojó:
p = 1,04 × 10−37
lo cual indica rechazo a la normalidad. El Q–Q plot también muestra colas pesadas, particu-
larmente en la parte inferior.
Homocedasticidad
La prueba de Breusch–Pagan dio como resultado:
p = 0,0000
por lo que se concluye heterocedasticidad. El gráfico de residuos vs predicciones confirma un
patrón en forma de cono.
Multicolinealidad
Los valores VIF obtenidos fueron:
Variable VIF
OverallQual 45.82
GrLivArea 17.87
GarageCars 10.89
TotalBsmtSF 23.33
YearBuilt 24.86
1stFlrSF 36.53
lo cual indica presencia de valores influyentes que afectan la estimación.
2.4. (d) Transformación Logarı́tmica
Los resultados comparativos fueron:
R2 ajustado original: 0.7683
5
R2 ajustado log: 0.8119
AIC original: 34961.3
AIC log: -968.9
La transformación logarı́tmica mejora el ajuste y corrige parcialmente la asimetrı́a.
2.5. (e) Interpretación Económica
La calidad general (OverallQual ) es el factor con mayor efecto en el precio. Un punto
adicional representa un incremento aproximado de $20,760.
El área habitable (GrLivArea) incrementa el valor en cerca de $48 por pie cuadrado.
Un espacio adicional en el garaje suma aproximadamente $13,900 al valor del inmueble.
coinciden con el comportamiento del mercado inmobiliario: las caracterı́sticas fı́sicas y es-
tructurales son determinantes en la valuación de una vivienda.
3. Regresión Logı́stica: Titanic (Sección III)
3.1. (a) Análisis exploratorio
La variable objetivo Survived toma valores 0 (no sobrevivió) y 1 (sobrevivió). La distribución
muestra que aproximadamente el 38 % de los pasajeros sobrevivieron. Entre las variables
explicativas relevantes se consideran: Pclass, Sex, Age, Fare y SibSp.
Los gráficos exploratorios indican que:
Las mujeres presentan una tasa de supervivencia mayor.
Los pasajeros de primera clase sobreviven con mayor frecuencia.
La variable Age requiere imputación por presencia de valores faltantes.
3.2. (b) Modelo logı́stico
El modelo estimado es:
logit(P (Survived = 1)) = β0 + β1 Pclass + β2 Sex + β3 Age + β4 Fare + β5 SibSp.
El coeficiente asociado a Sex es altamente significativo. Ser mujer incrementa la probabilidad
de supervivencia, mientras que pertenecer a clases sociales más altas reduce el riesgo.
6
3.3. (c) Diagnósticos
El modelo presenta un pseudo-R2 de aproximadamente 0.38, lo cual es razonable para un
modelo logı́stico. La curva ROC reporta un área bajo la curva (AUC) cercana a 0.86, lo cual
indica una buena capacidad discriminativa.
3.4. (d) Comparación con modelo reducido
Se ajustó un modelo reducido utilizando únicamente Pclass, Sex y Age. El modelo completo
mostró un AIC menor que el modelo reducido, por lo cual se concluye que el modelo completo
es preferible.
3.5. (e) Interpretación
Los resultados confirman la importancia del sexo y la clase social como factores determinantes
en la probabilidad de supervivencia. En particular, ser mujer aumenta de forma considerable
la probabilidad estimada de sobrevivir, mientras que los pasajeros de tercera clase presentan
menor probabilidad. La edad presenta un efecto negativo leve sobre la supervivencia: a mayor
edad, menor probabilidad de sobrevivir.
4. Modelos aplicados — Modelos de Conteo (Pois-
son)(Sección 4)
Dataset: Bike Sharing Demand
En esta sección se analiza la variable count, que representa el número de bicicletas rentadas
por hora. Se emplean modelos de conteo, comenzando con Poisson y posteriormente un
modelo Binomial Negativo para corregir sobredispersión.
4.1. (a) Justificación del modelo Poisson y evidencia empı́rica
Para evaluar la pertinencia del modelo Poisson, se comparó la media y la varianza de la
variable:
Media = 191,57, Varianza = 32813,31.
En un proceso Poisson puro se cumple que:
Var(Y ) ≈ E[Y ].
7
Aquı́ la varianza es considerablemente mayor que la media, lo cual indica presencia de sobre-
dispersión. No obstante, el modelo de Poisson es útil como punto de partida.
4.2. (b) Ajuste del modelo Poisson
Se estimó un modelo Poisson con las covariables: temp, atemp, humidity, season, workingday,
weather. Resultados principales:
humidity: coeficiente negativo y altamente significativo; la humedad reduce la deman-
da.
season y workingday: efectos positivos y significativos.
temp: no significativa (p-valor ≈ 0,998).
4.3. c)Verificación de sobredispersión y ajuste alternativo
Un valor cercano a 1 indicarı́a buen ajuste bajo Poisson. El valor obtenido (130,54) revela
sobredispersión severa.
Este modelo captura adecuadamente la variabilidad extra y resulta superior al Poisson.
4.4. (d) Interpretación de coeficientes en términos de tasas espe-
radas
un aumento de 1◦ C cambia la tasa esperada de rentas en aproximadamente 0,00015 %, un
efecto nulo y estadı́sticamente no significativo.
Interpretación: un incremento de 1◦ C en la temperatura cambia la tasa esperada de rentas
en aproximadamente 0,00015 %, un efecto prácticamente nulo y no significativo estadı́stica-
mente.
4.5. (e) Diagnóstico de observaciones influyentes
Las observaciones identificadas tienen una influencia considerable sobre los coeficientes, por
lo que deben revisarse ante posibles errores, condiciones atı́picas o fallas en la medición.
8
5. Modelos aplicados — Parte D: Probit y compara-
ción con Logit(Sección V)
5.1. (a) Ajuste de modelos Logit y Probit
Ambas especificaciones modelan probabilidades, aunque difieren en la distribución del error:
el modelo Logit utiliza una distribución logı́stica, mientras que el modelo Probit se basa en
una distribución normal estándar. A pesar de esta diferencia, la dirección y significancia de
los coeficientes es consistente entre ambos, lo que sugiere que están capturando la misma
estructura subyacente en los datos.
5.2. (b) Comparación de coeficientes, predicciones y medidas de
ajuste
interpretación: El modelo Logit muestra mejor ajuste global al presentar menor AIC y
mayor Pseudo-R2 . Esto sugiere que, aunque ambos modelos se comportan bien, el Logit
ofrece un ajuste ligeramente superior.
5.3. (c) Efectos marginales promedios (AME) e interpretación económi-
ca
Los efectos marginales promedios permiten interpretar el cambio en la probabilidad de ganar
más de 50,000 dólares cuando una variable cambia marginalmente, manteniendo las demás
fijas.
Los resultados muestran: Las variables educativas, laborales y sociodemográficas influyen
de forma significativa en la probabilidad de obtener ingresos altos. Los modelos capturan
relaciones económicas esperadas y coherentes con estudios previos.
5.4. (d) Test de especificación: Hosmer–Lemeshow
Los Valores más altos indican cierto grado de desajuste, algo habitual en muestras
grandes.
El Probit presenta un valor menor, lo que sugiere un ajuste ligeramente más estable en
los percentiles de riesgo.
9
Interpretaciónn general
Ambos modelos representan adecuadamente los determinantes de los ingresos altos. El Logit
muestra mejor ajuste global, mientras que el Probit destaca ligeramente en el test de Hos-
mer–Lemeshow. Los efectos marginales indican que educación, horas trabajadas, ganancias
de capital, estado civil y género influyen de forma significativa en la probabilidad de ganar
más de 50,000 dólares anuales.
6. Modelos aplicados (Sección VI)
Checklist de Requisitos Técnicos
Ejecución completa: El notebook corre de arriba a abajo sin errores en Google Co-
lab/Jupyter.
Comentarios: Cada celda incluye explicación breve del procedimiento realizado.
Archivo de dependencias: Se adjunta requirements.txt con versiones de librerı́as
utilizadas:
numpy==1.26.0
pandas==2.1.1
statsmodels==0.14.0
scikit-learn==1.3.0
matplotlib==3.8.0
kaggle==1.5.16
Autenticación Kaggle: Se explica el uso de kaggle.json para descargar datasets en
la carpeta data/.
Semilla fija: Se establece np.random.seed(1234) y random state=1234 para repro-
ducibilidad.
Diagnósticos: Se incluyen pruebas de:
• VIF (multicolinealidad).
• Breusch–Pagan (heterocedasticidad).
• Deviance en GLM.
• Métricas de desempeño (RMSE, MAE).
Extensión libre: Se implementan modelos Ridge y Lasso, con comparación frente al
modelo lineal base y justificación de mejora.
10
6.1. JUSTIFICACION DE MEJORA
Comparación de Modelos
Modelo RMSE MAE
Lineal Base XXXX XXXX
Ridge YYYY YYYY
Lasso ZZZZ ZZZZ
Cuadro 1: Comparación de desempeño entre el modelo lineal base y las extensiones Rid-
ge/Lasso.
7. Declaración de Roles
Montoya Torres Angeles Helena: realizó la limpieza inicial de los datos, el análisis ex-
ploratorio (EDA) y la sección de regresión lineal.
Arias Granados Erick Antonio: desarrolló la regresión logı́stica, las métricas de clasifica-
ción y la comparación entre Logit y Probit.
Ortiz Luna Irving: construyó los modelos de conteo (Poisson y Binomial Negativo), evaluó
la sobredispersión y estimó los efectos marginales.
8. Conclusiones
Los distintos modelos aplicados permitieron identificar relaciones significativas y
coherentes con la teorı́a en cada conjunto de datos analizado. La regresión lineal
mostró cómo las caracterı́sticas estructurales explican el valor de las viviendas,
mientras que el modelo logı́stico confirmó el efecto del sexo, clase y edad en la
supervivencia del Titanic. En los modelos de conteo, la sobredispersión justificó
el uso del Binomial Negativo, ofreciendo un mejor ajuste que Poisson. En general,
los resultados destacan la importancia de elegir modelos acordes a la naturaleza
de los datos y verificar sus supuestos para obtener conclusiones confiables.
11