Documentos de Académico
Documentos de Profesional
Documentos de Cultura
JSierra Menarquia
JSierra Menarquia
Medellín, Antioquia
Maestría en Estadística
Modelos Lineales II
jsierra@xm.com.co
Abril, 2008
Abstract
En este trabajo se presenta un análisis exploratorio de los datos
1 Análisis Exploratorio
La tabla 1 corresponde a la información a analizar en el trabajo, y rep-
resenta las observaciones recopiladas del número de niñas con menar-
quia en Polonia clasificados por grupos de edad.
Edad Nm Cm
9.21 0 376
10.21 0 200
10.58 0 93
10.83 2 120
11.08 2 90
11.33 5 88
11.58 10 105
11.83 17 111
12.08 16 100
12.33 29 93
12.58 39 100
12.83 51 108
13.08 47 99
13.33 67 106
13.58 81 105
13.83 88 117
14.08 79 98
14.33 90 97
14.58 113 120
14.83 95 102
1
Figura 1: Proporción de Niñas con menarquia por edad
Por simple inspección de los datos, se puede intuir que una variable P
construida con la proporción:
P = Nm/Cn
2
Figura 2: Suavizamiento de Proporción de Niñas con menarquia
attach(datos)
p<-Nm/Cn
plot(p~Edad,
main="Proporción Mujeres con Menarquia",
ylab=" Proporción ",xlab="Edad", lwd=7)
En la gráfica (1) se observa la proporción de de niñas con menarquia
para los diferentes grupos de edad. Las proporciones son, en general, una
función creciente con respecto a la edad de las niñas. Sin embargo, esto no
se cumple en algunos rangos de edad, esto se debe principalmente a la forma
como estamos calculando la proporción, la cual depende en gran parte del
número de observaciones en cada rango de edad. Si por ejemplo, el número
de niñas fuese muy grande para cada grupo, se esperaría que las proporciones
fuesen crecientes con respecto a cada grupo. COn respecto a la forma de
esta variable proporción P, podemos además observar que no parece que
tuviese una forma lineal con respecto a las edades, y que un modelos con
forma S podría representar muy bien esta relación. Revisemos lo enunciado
anteriormente suavizando los datos con una regresión no paramétrica:
scatter.smooth(p~Edad,degree=2,span=2/3,
main=’Regresión No paramétrica P vs Edad’,
lwd=2)
En el suavizamiento se observa más claramente la forma de S que
presenta la proporción de los datos respecto a la edad de la figura (2). Esto
último sugiere un modelo Logit para nuestra regresión, además de la forma,
por el rango de datos [0, 1] que debe ser representado con el modelo.
3
Figura 3: Número de observaciones por rango de edad
require(lattice)
4
Figura 4: Número de observaciones por rango de edad
clases<-cut(Edad,c(9,10,11,12,13,14,15,17,18))
Medias=tapply(p,clases,mean)
desvia=tapply(p,clases,sd)
bwplot(p~clases,
main="Cajas y Bigotes Mujeres por edad en años")
2 Modelo de Regresión
probaremos con dos modelos Logit tradicional y una regresión lineal con
mínimos cuadrados ponderados1 .
5
En esta ecuación (1), se le denomina Logit a la variable L, que representa
el logaritmo de la razón entre dos probabilidades, que se cumpla el evento y
que no se cumpla. La variable Z es una combinación lineal de X. y el logar-
itmo se obtiene del supuesto que la relación de la probabilidad y Z representa
una función de distribución acumulativa logística, es decir que:
1
Pi = , (2)
1 + e−Zi
1
1 − Pi = (3)
1 + eZi
Entonces de (1), en la medida que Z varía entre −∞ y +∞, el Logit L
también varia entre estos valores, por tanto, este último parámetro no está
limitado al rango de probabilidades [0, 1], sino que puede tomar cualquier
valor en los reales. Una de las características de este modelo que más nos
afecta es que la estimación de los parámetros en la mayoria de los casos
debe realizarse vía Máxima verosimilitud, principalmente cuando tenemos
valores de probabilidad en nuestros datos de 0 ó 1, como en nuestro caso, lo
cual puede darnos problemas para la etimación en R.
6
Figura 5: Modelo Logit con Mínimos Cuadrados
7
Figura 7: Modelo Lineal con Mínimos Cuadrados Ponderados
lema dado que podemos garantizar que las muestras en grupos de edades
con mayores observaciones serán ponderadas con mayor relevancia en la es-
timación. La función lm de R permite introducir información de pesos a
través de una matriz Weights://
w<-Cn/sum(Cn)
lm.mcp <- lm(p~Edad, weights= w)
Este modelo parece ajustarse muy a las características del problema, prin-
cipalmente por el ajuste al rango y a la representación de los valores extremos
de edades donde las probabilidades son 0 y 1, según los datos. Se selecciona
este modelo para hacer la validación.
8
Figura 8: Residuales modelo lineal con MCP
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.33858 0.14668 -9.126 4.17e-09 ***
Edad 0.13897 0.01036 13.417 2.31e-12 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
9
Figura 9: Residuales modelo lineal con MCP
10
Figura 11: Residuales modelo lineal con MCP
11