Está en la página 1de 11

Jorge Sierra Almanza

Universidad Nacional de Colombia

Medellín, Antioquia

Maestría en Estadística

Modelos Lineales II

jsierra@xm.com.co

Abril, 2008

Abstract
En este trabajo se presenta un análisis exploratorio de los datos

recopilados del número de niñas con menarquia en ciertos grupos de

edad en Polonia. Inicialmente se hace un tratamiento pre-exploratorio,

para describir las variables y algunas conversiones para obtener toda la

información posible de la información disponible. Finalmente se con-

struye y se validan los modelos LOGIT y Lineal con mínimos cuadrados

ponderados para hacer predicciones sobre esta población.

1 Análisis Exploratorio
La tabla 1 corresponde a la información a analizar en el trabajo, y rep-
resenta las observaciones recopiladas del número de niñas con menar-
quia en Polonia clasificados por grupos de edad.
Edad Nm Cm
9.21 0 376
10.21 0 200
10.58 0 93
10.83 2 120
11.08 2 90
11.33 5 88
11.58 10 105
11.83 17 111
12.08 16 100
12.33 29 93
12.58 39 100
12.83 51 108
13.08 47 99
13.33 67 106
13.58 81 105
13.83 88 117
14.08 79 98
14.33 90 97
14.58 113 120
14.83 95 102

1
Figura 1: Proporción de Niñas con menarquia por edad

15.08 117 122


15.33 107 111
15.58 92 94
15.83 112 114
17.58 1049 1049}

Donde, Cn: Cantidad de niñas observadas para el rango de edad.


Edad: Es el límite superior del rango de edad de la muestra
Nm: Número de niñas con Menarquia en ese grupo

Por simple inspección de los datos, se puede intuir que una variable P
construida con la proporción:

P = Nm/Cn

podría darnos mayor información sobre los datos, y en general sobre el


problema. Siguiendo con la inspección de las variables de la tabla (1), la
variable Edad no ofrece mucha información univariada por ser un rango,
en cambio, si se analiza de forma ponderada con el número de niñas Cn
para cada grupo de Edad, es posible conocer los estadísticos de Edad de la
muestra. X
W = Cn/ Cni
donde W es una nueva variable de pesos de edades para cada rango. Te-
niendo en cuenta las dos observaciones anteriores, revisemos los principales
gráficos exploratorios de esta base de datos.
datos <-read.table("datosparcial.txt",
header=T, dec=".")

2
Figura 2: Suavizamiento de Proporción de Niñas con menarquia

attach(datos)
p<-Nm/Cn
plot(p~Edad,
main="Proporción Mujeres con Menarquia",
ylab=" Proporción ",xlab="Edad", lwd=7)
En la gráfica (1) se observa la proporción de de niñas con menarquia
para los diferentes grupos de edad. Las proporciones son, en general, una
función creciente con respecto a la edad de las niñas. Sin embargo, esto no
se cumple en algunos rangos de edad, esto se debe principalmente a la forma
como estamos calculando la proporción, la cual depende en gran parte del
número de observaciones en cada rango de edad. Si por ejemplo, el número
de niñas fuese muy grande para cada grupo, se esperaría que las proporciones
fuesen crecientes con respecto a cada grupo. COn respecto a la forma de
esta variable proporción P, podemos además observar que no parece que
tuviese una forma lineal con respecto a las edades, y que un modelos con
forma S podría representar muy bien esta relación. Revisemos lo enunciado
anteriormente suavizando los datos con una regresión no paramétrica:
scatter.smooth(p~Edad,degree=2,span=2/3,
main=’Regresión No paramétrica P vs Edad’,
lwd=2)
En el suavizamiento se observa más claramente la forma de S que
presenta la proporción de los datos respecto a la edad de la figura (2). Esto
último sugiere un modelo Logit para nuestra regresión, además de la forma,
por el rango de datos [0, 1] que debe ser representado con el modelo.

3
Figura 3: Número de observaciones por rango de edad

Para el caso de la variable Edad, revisemos que tan uniformes es el


número de observaciones Cn con respecto a los diferentes rangos de edad.
plot(Edad,Cn, ylab= "Número de Observaciones",
type="h", lwd=12)
En la figura (3) se observa que el número de observaciones de cada grupo
no es uniforme en nuestros datos, y que para hacer un análisis de la edad
como variable sería necesario utilizar la conversión propuesta con pesos.
w<-Cn/sum(Cn)
mean.Edad <- sum(Edad*w)
hist(Edad,breaks=9,main=’Histograma Edad’)
La media de edades ponderadas de toda la muestra de niñas es de 13.87, el
cual es un valor aparentemente central con respecto a los rangos y diferente
al que se obtiene si calculamos la media no ponderada de los rangos de edad
(13.01). Este valor por si solo no parece darnos mucha información de la
muestra, sin embargo, es muy importante tener presente que este cálculo
ponderado se hace importante para consideración si se encuentra hacia un
valor no central de los rangos, lo cual reflejaría poca información para los
rangos de los que se encuentra más alejado, o mostrando no aleatoriedad en
la selección de la muestra.
Finalmente el gráfico de cajas y bigotes (4) puede también servirnos para
explorar las desviaciones en proporción con respecto a los grupos de edad.
Para esto se reagruparon los rangos en clases, calculadas como una partición
de edades enteras (9,10,11,12,13,14,15,16,17,18).

require(lattice)

4
Figura 4: Número de observaciones por rango de edad

clases<-cut(Edad,c(9,10,11,12,13,14,15,17,18))
Medias=tapply(p,clases,mean)
desvia=tapply(p,clases,sd)
bwplot(p~clases,
main="Cajas y Bigotes Mujeres por edad en años")

la gráfica 4 mantiene la forma de S de las proporciones, y muestra mayor


desviación en los rangos de edad entre 12 y 13 años.

2 Modelo de Regresión
probaremos con dos modelos Logit tradicional y una regresión lineal con
mínimos cuadrados ponderados1 .

2.1 Modelo Logit


El modelo Logit intenta explicar la probabilidad de que se cumpla cierta
condición de un problema, en nuestro caso particularmente, la probabilidad
de que una niña dentro de cierto grupo de edad haya presentado su menar-
quia.
Analicemos la ecuación del modelo para analizar las características que
contiene: !
Pi
Li = ln = Zi = α0 + β1 X1 (1)
1 − Pi
1
Recomendado en clase

5
En esta ecuación (1), se le denomina Logit a la variable L, que representa
el logaritmo de la razón entre dos probabilidades, que se cumpla el evento y
que no se cumpla. La variable Z es una combinación lineal de X. y el logar-
itmo se obtiene del supuesto que la relación de la probabilidad y Z representa
una función de distribución acumulativa logística, es decir que:
1
Pi = , (2)
1 + e−Zi
1
1 − Pi = (3)
1 + eZi
Entonces de (1), en la medida que Z varía entre −∞ y +∞, el Logit L
también varia entre estos valores, por tanto, este último parámetro no está
limitado al rango de probabilidades [0, 1], sino que puede tomar cualquier
valor en los reales. Una de las características de este modelo que más nos
afecta es que la estimación de los parámetros en la mayoria de los casos
debe realizarse vía Máxima verosimilitud, principalmente cuando tenemos
valores de probabilidad en nuestros datos de 0 ó 1, como en nuestro caso, lo
cual puede darnos problemas para la etimación en R.

Probemos entonces con:


z= (p*0.999999999/(1-p*0.999999999))
lm.logit= lm(z~Edad)
summary(lm.logit)
alpha <- lm.logit$coefficients[1]
b <- lm.logit$coefficients[2]
Edadc <- seq(min(Edad), max(Edad), length=1000)
pe <- 1/(1+exp(-alpha - b*Edadc))
plot(Edadc,pe)

Utilizando mínimos cuadrados para el modelo logit para valores entre


cero y uno, obtenemos un modelo casi discreto para hacer la predicción,
como se observa en la figura 5. También se probó con el mismo modelo
Logit pero con estimación con Mínimos cuadrados ponderados, obteniendo
un valor de salto en edades menor (11.88 años).
Según la figura (5), este modelo se puede tomar como un modelo lin-
eal con una variable dicótoma como variable dependiente, y predice con una
función de switch, que para valores mayores a 12.3104 años la niña tiene una
probabilidad de 1 de haber presentado la menarquia. En realidad este modelo
puede no ser el más indicado para predecir, por no darnos una función con-
tinua que nos permita hacer inferencias y comparar probabilidad en edades
diferentes a la del salto (12.3104 años), por ejemplo comparar probabilidades
entre una edad de 13 y 11 años. Sin embargo, el modelo nos da una informa-
ción útil y es el valor esperado de menarquia en una niña Polaca, estimado a
través de esta muestra.

2.2 Modelo Lineal con mínimos cuadrados ponderados


El modelo lineal con mínimos cuadrados ponderados introduce información
sobre los pesos de las observaciones, lo cual es consistente con nuestro prob-

6
Figura 5: Modelo Logit con Mínimos Cuadrados

Figura 6: Modelo Logit con Mínimos Cuadrados Ponderados

7
Figura 7: Modelo Lineal con Mínimos Cuadrados Ponderados

lema dado que podemos garantizar que las muestras en grupos de edades
con mayores observaciones serán ponderadas con mayor relevancia en la es-
timación. La función lm de R permite introducir información de pesos a
través de una matriz Weights://

lm(formula, data, subset, weights,


na.action, method = "qr", ...)

Al implentar el modelo lineal con estimación por mínimos cuadrados


ponderados, obtenemos:

w<-Cn/sum(Cn)
lm.mcp <- lm(p~Edad, weights= w)

Este modelo parece ajustarse muy a las características del problema, prin-
cipalmente por el ajuste al rango y a la representación de los valores extremos
de edades donde las probabilidades son 0 y 1, según los datos. Se selecciona
este modelo para hacer la validación.

3 Validación del Modelo y Residuales


Revisemos los resultados del modelo de mínimos cuadrados ponderados
Call:
lm(formula = p ~ Edad, weights = w)
Residuals:
Min 1Q Median 3Q Max
-0.054092 -0.025635 0.004615 0.029159 0.044459

8
Figura 8: Residuales modelo lineal con MCP

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.33858 0.14668 -9.126 4.17e-09 ***
Edad 0.13897 0.01036 13.417 2.31e-12 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.02956 on 23 degrees of freedom


Multiple R-Squared: 0.8867, Adjusted R-squared: 0.8818
F-statistic: 180 on 1 and 23 DF, p-value: 2.308e-12

El modelo presenta un valor R2 aceptable de 0.8818, los parámetros del modelo


se ajustan bien, según la prueba de significancia con t-value = -9.12 para el intercepto
y 13.417 para la pendiente.//
Para el caso de los gráficos de los residuales, tenemos en la figura (8) de cuantil-
cuantil una baja linealidad de los cuantiles estimados con repecto a los normales
teóricos, lo cual nos da señales de No normalidad en los errores. Adicionalmente,
los errores residuales son relativamente altos, alrededor del 10% (10). Sin embargo,
hay que comprender la naturaleza del problema para seleccionar el modelo que más
se ajusta a la practicidad de la predicción. Los modelos con mínimos cuadrados pon-
derados se ajustan bien a las necesidades de la predicción y además los parámetros
estimados fueron significativamente aceptables.
La predicción con este modelo se puede hacer de forma sencilla para cualquier
valor de edad de la niña, sin tener que hacer conversiones con logaritmos, lo cual
puede quitarle simplicidad al cálculo y al entendimiento de los resultados de la predic-
ción.

9
Figura 9: Residuales modelo lineal con MCP

Figura 10: Residuales modelo lineal con MCP

10
Figura 11: Residuales modelo lineal con MCP

11

También podría gustarte