JSierra Menarquia

Jorge Sierra Almanza
Universidad Nacional de Colombia
Medellín, Antioquia
Maestría en Estadística
Modelos Lineales II
jsierra@xm.com.co
Abril, 2008
Abstract
En este trabajo se presenta un análisis exploratorio de los datos
recopilados del número de niñas con menarquia en ciertos grupos de
edad en Polonia. Inicialmente se hace un tratamiento pre-exploratorio,
para describir las variables y algunas conversiones para obtener toda la
información posible de la información disponible. Finalmente se con-
struye y se validan los modelos LOGIT y Lineal con mínimos cuadrados
ponderados para hacer predicciones sobre esta población.
1 Análisis Exploratorio
La tabla 1 corresponde a la información a analizar en el trabajo, y rep-
resenta las observaciones recopiladas del número de niñas con menar-
quia en Polonia clasificados por grupos de edad.
Edad Nm Cm
9.21 0 376
10.21 0 200
10.58 0 93
10.83 2 120
11.08 2 90
11.33 5 88
11.58 10 105
11.83 17 111
12.08 16 100
12.33 29 93
12.58 39 100
12.83 51 108
13.08 47 99
13.33 67 106
13.58 81 105
13.83 88 117
14.08 79 98
14.33 90 97
14.58 113 120
14.83 95 102
1
Figura 1: Proporción de Niñas con menarquia por edad
15.08 117 122

15.33 107 111
15.58 92 94
15.83 112 114
17.58 1049 1049}
Donde, Cn: Cantidad de niñas observadas para el rango de edad.

Edad: Es el límite superior del rango de edad de la muestra
Nm: Número de niñas con Menarquia en ese grupo
Por simple inspección de los datos, se puede intuir que una variable P
construida con la proporción:
P = Nm/Cn
podría darnos mayor información sobre los datos, y en general sobre el

problema. Siguiendo con la inspección de las variables de la tabla (1), la
variable Edad no ofrece mucha información univariada por ser un rango,
en cambio, si se analiza de forma ponderada con el número de niñas Cn
para cada grupo de Edad, es posible conocer los estadísticos de Edad de la
muestra. X
W = Cn/ Cni
donde W es una nueva variable de pesos de edades para cada rango. Te-
niendo en cuenta las dos observaciones anteriores, revisemos los principales
gráficos exploratorios de esta base de datos.
datos <-read.table("datosparcial.txt",
header=T, dec=".")
2
Figura 2: Suavizamiento de Proporción de Niñas con menarquia
attach(datos)
p<-Nm/Cn
plot(p~Edad,
main="Proporción Mujeres con Menarquia",
ylab=" Proporción ",xlab="Edad", lwd=7)
En la gráfica (1) se observa la proporción de de niñas con menarquia
para los diferentes grupos de edad. Las proporciones son, en general, una
función creciente con respecto a la edad de las niñas. Sin embargo, esto no
se cumple en algunos rangos de edad, esto se debe principalmente a la forma
como estamos calculando la proporción, la cual depende en gran parte del
número de observaciones en cada rango de edad. Si por ejemplo, el número
de niñas fuese muy grande para cada grupo, se esperaría que las proporciones
fuesen crecientes con respecto a cada grupo. COn respecto a la forma de
esta variable proporción P, podemos además observar que no parece que
tuviese una forma lineal con respecto a las edades, y que un modelos con
forma S podría representar muy bien esta relación. Revisemos lo enunciado
anteriormente suavizando los datos con una regresión no paramétrica:
scatter.smooth(p~Edad,degree=2,span=2/3,
main=’Regresión No paramétrica P vs Edad’,
lwd=2)
En el suavizamiento se observa más claramente la forma de S que
presenta la proporción de los datos respecto a la edad de la figura (2). Esto
último sugiere un modelo Logit para nuestra regresión, además de la forma,
por el rango de datos [0, 1] que debe ser representado con el modelo.
3
Figura 3: Número de observaciones por rango de edad
Para el caso de la variable Edad, revisemos que tan uniformes es el

número de observaciones Cn con respecto a los diferentes rangos de edad.
plot(Edad,Cn, ylab= "Número de Observaciones",
type="h", lwd=12)
En la figura (3) se observa que el número de observaciones de cada grupo
no es uniforme en nuestros datos, y que para hacer un análisis de la edad
como variable sería necesario utilizar la conversión propuesta con pesos.
w<-Cn/sum(Cn)
mean.Edad <- sum(Edad*w)
hist(Edad,breaks=9,main=’Histograma Edad’)
La media de edades ponderadas de toda la muestra de niñas es de 13.87, el
cual es un valor aparentemente central con respecto a los rangos y diferente
al que se obtiene si calculamos la media no ponderada de los rangos de edad
(13.01). Este valor por si solo no parece darnos mucha información de la
muestra, sin embargo, es muy importante tener presente que este cálculo
ponderado se hace importante para consideración si se encuentra hacia un
valor no central de los rangos, lo cual reflejaría poca información para los
rangos de los que se encuentra más alejado, o mostrando no aleatoriedad en
la selección de la muestra.
Finalmente el gráfico de cajas y bigotes (4) puede también servirnos para
explorar las desviaciones en proporción con respecto a los grupos de edad.
Para esto se reagruparon los rangos en clases, calculadas como una partición
de edades enteras (9,10,11,12,13,14,15,16,17,18).
require(lattice)
4
Figura 4: Número de observaciones por rango de edad
clases<-cut(Edad,c(9,10,11,12,13,14,15,17,18))
Medias=tapply(p,clases,mean)
desvia=tapply(p,clases,sd)
bwplot(p~clases,
main="Cajas y Bigotes Mujeres por edad en años")
la gráfica 4 mantiene la forma de S de las proporciones, y muestra mayor

desviación en los rangos de edad entre 12 y 13 años.
2 Modelo de Regresión
probaremos con dos modelos Logit tradicional y una regresión lineal con
mínimos cuadrados ponderados1 .
2.1 Modelo Logit

El modelo Logit intenta explicar la probabilidad de que se cumpla cierta
condición de un problema, en nuestro caso particularmente, la probabilidad
de que una niña dentro de cierto grupo de edad haya presentado su menar-
quia.
Analicemos la ecuación del modelo para analizar las características que
contiene: !
Pi
Li = ln = Zi = α0 + β1 X1 (1)
1 − Pi
1
Recomendado en clase
5
En esta ecuación (1), se le denomina Logit a la variable L, que representa
el logaritmo de la razón entre dos probabilidades, que se cumpla el evento y
que no se cumpla. La variable Z es una combinación lineal de X. y el logar-
itmo se obtiene del supuesto que la relación de la probabilidad y Z representa
una función de distribución acumulativa logística, es decir que:
1
Pi = , (2)
1 + e−Zi
1
1 − Pi = (3)
1 + eZi
Entonces de (1), en la medida que Z varía entre −∞ y +∞, el Logit L
también varia entre estos valores, por tanto, este último parámetro no está
limitado al rango de probabilidades [0, 1], sino que puede tomar cualquier
valor en los reales. Una de las características de este modelo que más nos
afecta es que la estimación de los parámetros en la mayoria de los casos
debe realizarse vía Máxima verosimilitud, principalmente cuando tenemos
valores de probabilidad en nuestros datos de 0 ó 1, como en nuestro caso, lo
cual puede darnos problemas para la etimación en R.
Probemos entonces con:

z= (p*0.999999999/(1-p*0.999999999))
lm.logit= lm(z~Edad)
summary(lm.logit)
alpha <- lm.logit$coefficients[1]
b <- lm.logit$coefficients[2]
Edadc <- seq(min(Edad), max(Edad), length=1000)
pe <- 1/(1+exp(-alpha - b*Edadc))
plot(Edadc,pe)
Utilizando mínimos cuadrados para el modelo logit para valores entre

cero y uno, obtenemos un modelo casi discreto para hacer la predicción,
como se observa en la figura 5. También se probó con el mismo modelo
Logit pero con estimación con Mínimos cuadrados ponderados, obteniendo
un valor de salto en edades menor (11.88 años).
Según la figura (5), este modelo se puede tomar como un modelo lin-
eal con una variable dicótoma como variable dependiente, y predice con una
función de switch, que para valores mayores a 12.3104 años la niña tiene una
probabilidad de 1 de haber presentado la menarquia. En realidad este modelo
puede no ser el más indicado para predecir, por no darnos una función con-
tinua que nos permita hacer inferencias y comparar probabilidad en edades
diferentes a la del salto (12.3104 años), por ejemplo comparar probabilidades
entre una edad de 13 y 11 años. Sin embargo, el modelo nos da una informa-
ción útil y es el valor esperado de menarquia en una niña Polaca, estimado a
través de esta muestra.
2.2 Modelo Lineal con mínimos cuadrados ponderados

El modelo lineal con mínimos cuadrados ponderados introduce información
sobre los pesos de las observaciones, lo cual es consistente con nuestro prob-
6
Figura 5: Modelo Logit con Mínimos Cuadrados
Figura 6: Modelo Logit con Mínimos Cuadrados Ponderados
7
Figura 7: Modelo Lineal con Mínimos Cuadrados Ponderados
lema dado que podemos garantizar que las muestras en grupos de edades
con mayores observaciones serán ponderadas con mayor relevancia en la es-
timación. La función lm de R permite introducir información de pesos a
través de una matriz Weights://
lm(formula, data, subset, weights,

na.action, method = "qr", ...)
Al implentar el modelo lineal con estimación por mínimos cuadrados

ponderados, obtenemos:
w<-Cn/sum(Cn)
lm.mcp <- lm(p~Edad, weights= w)
Este modelo parece ajustarse muy a las características del problema, prin-
cipalmente por el ajuste al rango y a la representación de los valores extremos
de edades donde las probabilidades son 0 y 1, según los datos. Se selecciona
este modelo para hacer la validación.
3 Validación del Modelo y Residuales

Revisemos los resultados del modelo de mínimos cuadrados ponderados
Call:
lm(formula = p ~ Edad, weights = w)
Residuals:
Min 1Q Median 3Q Max
-0.054092 -0.025635 0.004615 0.029159 0.044459
8
Figura 8: Residuales modelo lineal con MCP
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.33858 0.14668 -9.126 4.17e-09 ***
Edad 0.13897 0.01036 13.417 2.31e-12 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.02956 on 23 degrees of freedom

Multiple R-Squared: 0.8867, Adjusted R-squared: 0.8818
F-statistic: 180 on 1 and 23 DF, p-value: 2.308e-12
El modelo presenta un valor R2 aceptable de 0.8818, los parámetros del modelo

se ajustan bien, según la prueba de significancia con t-value = -9.12 para el intercepto
y 13.417 para la pendiente.//
Para el caso de los gráficos de los residuales, tenemos en la figura (8) de cuantil-
cuantil una baja linealidad de los cuantiles estimados con repecto a los normales
teóricos, lo cual nos da señales de No normalidad en los errores. Adicionalmente,
los errores residuales son relativamente altos, alrededor del 10% (10). Sin embargo,
hay que comprender la naturaleza del problema para seleccionar el modelo que más
se ajusta a la practicidad de la predicción. Los modelos con mínimos cuadrados pon-
derados se ajustan bien a las necesidades de la predicción y además los parámetros
estimados fueron significativamente aceptables.
La predicción con este modelo se puede hacer de forma sencilla para cualquier
valor de edad de la niña, sin tener que hacer conversiones con logaritmos, lo cual
puede quitarle simplicidad al cálculo y al entendimiento de los resultados de la predic-
ción.
9
10
11

JSierra Menarquia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

JSierra Menarquia

Cargado por

Copyright:

Formatos disponibles

Jorge Sierra Almanza

Universidad Nacional de Colombia

recopilados del número de niñas con menarquia en ciertos grupos de

edad en Polonia. Inicialmente se hace un tratamiento pre-exploratorio,

para describir las variables y algunas conversiones para obtener toda la

información posible de la información disponible. Finalmente se con-

struye y se validan los modelos LOGIT y Lineal con mínimos cuadrados

ponderados para hacer predicciones sobre esta población.

15.08 117 122

Donde, Cn: Cantidad de niñas observadas para el rango de edad.

podría darnos mayor información sobre los datos, y en general sobre el

Para el caso de la variable Edad, revisemos que tan uniformes es el

la gráfica 4 mantiene la forma de S de las proporciones, y muestra mayor

2.1 Modelo Logit

Probemos entonces con:

Utilizando mínimos cuadrados para el modelo logit para valores entre

2.2 Modelo Lineal con mínimos cuadrados ponderados

Figura 6: Modelo Logit con Mínimos Cuadrados Ponderados

lm(formula, data, subset, weights,

Al implentar el modelo lineal con estimación por mínimos cuadrados

3 Validación del Modelo y Residuales

Residual standard error: 0.02956 on 23 degrees of freedom

El modelo presenta un valor R2 aceptable de 0.8818, los parámetros del modelo

Figura 10: Residuales modelo lineal con MCP

También podría gustarte