Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica medioambiental1
Guillermo Ayala Gallego .
29 de abril de 2014
Indice general
1. Datos y R
1.1. Bibliografa comentada . . . . . . . . . . . . . .
1.2. Lo primero . . . . . . . . . . . . . . . . . . . . .
1.3. Lectura y escritura de datos . . . . . . . . . . . .
1.3.1. Con Calc de LibreOffice . . . . . . . . . .
1.3.2. Lectura de un fichero texto . . . . . . . .
1.4. Sobre lo imprescindible en R . . . . . . . . . . .
1.4.1. La funci
on c . . . . . . . . . . . . . . . . .
1.4.2. Selecci
on de casos . . . . . . . . . . . . .
1.5. Algunas cosas u
tiles R . . . . . . . . . . . . . . .
1.5.1. De c
omo guardar un dibujo . . . . . . . .
1.5.2. De c
omo conseguir ayuda con R . . . . .
1.5.3. De c
omo trabajar con R . . . . . . . . . .
1.6. Seguimos con lo b
asico de R . . . . . . . . . . . .
1.7. Dato faltante . . . . . . . . . . . . . . . . . . . .
1.8. Estadstica medioambiental en R . . . . . . . . .
1.9. Datos . . . . . . . . . . . . . . . . . . . . . . . .
1.9.1. Datos de precipitaciones y temperaturas
Valenciana . . . . . . . . . . . . . . . . .
1.9.2. Concentraciones de ozono . . . . . . . . .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
en
. .
. .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
la Comunidad
. . . . . . . . .
. . . . . . . . .
2. Estadstica descriptiva
2.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Descriptivas numericas . . . . . . . . . . . . . . . . . . . . .
2.2.1. Media muestral . . . . . . . . . . . . . . . . . . . . .
2.2.2. Media ajustada . . . . . . . . . . . . . . . . . . . . .
2.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Varianza y desviacion estandar muestrales . . . . . .
2.2.5. Rango . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.6. Rango intercuartlico . . . . . . . . . . . . . . . . .
2.2.7. La funci
on summary . . . . . . . . . . . . . . . . . .
2.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Descripciones gr
aficas de los datos . . . . . . . . . . . . . .
2.4.1. A
nadimos variables y seleccionamos casos o variables
2.4.2. Frecuencias . . . . . . . . . . . . . . . . . . . . . . .
2.4.3. Histograma . . . . . . . . . . . . . . . . . . . . . . .
2.4.4. Diagramas de cajas . . . . . . . . . . . . . . . . . . .
2.4.5. Estimadores kernel de la densidad . . . . . . . . . .
2.4.6. Funci
on de distribucion muestral . . . . . . . . . . .
2.4.7. Buscando datos anomalos . . . . . . . . . . . . . . .
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Un dibujo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
4
4
5
5
6
7
7
8
9
9
12
13
13
13
15
1
1
2
2
3
3
5
5
6
6
6
7
7
7
10
11
18
18
22
23
24
3. Probabilidad
3.1. Experimento, suceso y probabilidad . . . . . . . . . . . . . . .
3.1.1. Contando: variaciones, permutaciones y combinaciones
3.1.2. Un poco de teora . . . . . . . . . . . . . . . . . . . .
3.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Variable aleatoria discreta . . . . . . . . . . . . . . . .
3.3.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3. Variable aleatoria continua . . . . . . . . . . . . . . .
3.3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5. Funci
on de distribucion . . . . . . . . . . . . . . . . .
3.3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Media de una variable aleatoria discreta . . . . . . . .
3.4.2. Varianza y desviacion tpica . . . . . . . . . . . . . . .
3.5. Variable binomial . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. Distribuci
on normal . . . . . . . . . . . . . . . . . . . . . . .
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. .
.
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
7
10
11
12
12
15
15
17
21
24
24
24
27
27
31
33
44
4. Distribuci
on muestral
4.1. Poblaci
on y muestra aleatoria . . . . . . . . . . . . . . . . . . . . . .
4.2. Distribuci
on muestral de una variable binomial . . . . . . . . . . . .
4.2.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Distribuci
on muestral de la media bajo normalidad . . . . . . . . . .
4.3.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Distribuci
on muestral de la media en poblaciones no normales. Teorema central del lmite . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1. Aproximaci
on de la distribucion binomial . . . . . . . . . . .
4.4.2. Ilustraci
on del teorema central del lmite . . . . . . . . . . . .
4.4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
3
3
11
5. Estimaci
on
5.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. La poblaci
on . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Estimaci
on puntual . . . . . . . . . . . . . . . . . . . . . .
5.4. Algunas definiciones . . . . . . . . . . . . . . . . . . . . .
5.5. Estimaci
on puntual de la media . . . . . . . . . . . . . . .
5.6. Intervalo de confianza para la media . . . . . . . . . . . .
5.6.1. Asumimos que conocemos la varianza . . . . . . .
5.6.2. No asumimos la varianza conocida . . . . . . . . .
5.6.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
5.7. Error absoluto y tama
no de la muestra . . . . . . . . . . .
5.7.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
5.8. Estimaci
on de la varianza en poblaciones normales . . . .
5.8.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
5.9. Estimaci
on de una proporcion . . . . . . . . . . . . . . . .
5.9.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
5.10. Tama
no de la muestra en la estimacion de una proporcion
5.10.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
1
1
1
2
3
3
5
5
8
17
18
20
21
24
25
26
27
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
12
13
6. Contraste de hip
otesis
6.1. Introducci
on . . . . . . . . . . . . . . . . . . .
6.2. Constrastes para una muestra . . . . . . . . .
6.2.1. Un contraste unilateral . . . . . . . .
6.2.2. Otro problema de contraste unilateral
6.2.3. Y, finalmente, el contraste bilateral .
6.3. Intervalo de confianza y contraste de hipotesis
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . .
6.5. Contraste de normalidad . . . . . . . . . . .
6.5.1. Gr
aficos para evaluar la normalidad .
6.5.2. Constrastes de hipotesis . . . . . . . .
6.6. Ejercicios . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
8
10
11
12
14
14
22
25
7. Comparaci
on de dos poblaciones normales
7.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2. Comparaci
on descriptiva de las muestras . . . . . . . . . . .
7.3. Comparando las medias de dos poblaciones normales . . . .
7.3.1. Estimaci
on de la diferencia de medias . . . . . . . .
7.3.2. Contraste de hip
otesis . . . . . . . . . . . . . . . . .
7.3.3. Los contrastes unilaterales o direccionales . . . . . .
7.3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
7.4. Inferencia sobre las varianzas de dos poblaciones normales .
7.4.1. Estimaci
on del cociente de varianzas . . . . . . . . .
7.4.2. Contraste de hip
otesis para el cociente de varianzas
7.4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
7.5. Comparaci
on de medias con muestras apareadas . . . . . .
7.5.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
7.6. Test de Kolmogorov-Smirnov para dos muestras . . . . . .
7.7. Ejercicios globales . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
6
10
12
13
15
15
16
19
20
21
24
26
32
8. Correlaci
on y regresi
on
8.1. Curva de descenso de residuo . . . . . . . . . . . . . . . . . . .
8.2. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3. Regresi
on lineal simple . . . . . . . . . . . . . . . . . . . . . . .
8.3.1. Intervalos de confianza y contrastes para los coeficientes
8.4. Coeficiente de correlaci
on de Pearson . . . . . . . . . . . . . . .
8.5. Regresi
on lineal m
ultiple . . . . . . . . . . . . . . . . . . . . . .
8.6. Estimaci
on de . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . .
8.8. Inferencia sobre el modelo . . . . . . . . . . . . . . . . . . . . .
8.8.1. Podemos prescindir de todas las variables predictoras?
8.8.2. Podemos prescindir de una variable predictora? . . . .
8.8.3. Podemos prescindir de un conjunto dado de variables?
8.9. Ejemplos de regresi
on lineal m
ultiple . . . . . . . . . . . . . . .
8.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
4
9
12
21
21
23
24
24
25
26
27
35
9. An
alisis de datos categ
oricos
9.1. Variables respuesta categoricas . . . . . . .
9.2. Inferencia con la distribucion binomial . . .
9.2.1. Contraste de hip
otesis simples . . .
9.2.2. Intervalo de confianza . . . . . . . .
9.3. Inferencia para la multinomial . . . . . . . .
9.3.1. Contraste de una multinomial dada
9.4. Tablas de contingencia . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
2
3
4
4
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.5.
9.6.
9.7.
9.8.
9.9.
5
7
8
9
9
10
10
11
12
12
12
12
13
Captulo 1
Datos y R
Introducci
on
Este texto no es m
as que unas notas de clase con una introduccion a la Estadstica b
asica. Los datos que utilizamos son, en lo posible, de aplicaciones medioambientales. Sin embargo, las tecnicas estadticas son esencialmente las mismas
y con una presentaci
on similar a la que podemos encontrar en, por ejemplo, un texto
de Bioestadstica. Por esta raz
on en la bibliografa se incluyen buenas referencias
bibliogr
aficas de Estadstica aplicada a datos medioambientales y a otros tipos de
datos. No asumimos ning
un tipo de conocimiento previo de la Probabilidad. Intentar estudiar Estadstica con una orientacion (muy fuertemente) aplicada es in
util
si no se dispone de una herramienta informatica de calidad. En nuestro caso la
herramienta es R Core Team [2013, R]. 1
La secci
on 1.1 comenta las referencias basicas de donde sacamos el material de
la asignatura. En la secci
on 1.9 describimos algunos de los ficheros de datos que
utilizamos. 2
1.1.
Bibliografa comentada
Nuestra referencia b
asica es Wilcox [2009]. Es un texto no especficamente dedicado a Estadstica medio ambiental pero es correcto y breve. Un buen libro de
texto (muy largo para nuestros objetivos) que incluye lo que vemos aqu y mas cosas
es Rosner [2010]. Es un texto maravilloso y, con tiempo, el que utilizaramos como referencia u
nica. Su mayor inconveniente para esta asignatura es su orientacion
medica.
Todos los tratamientos estadticos los realizaremos con [R Core Team, 2013]. En
particular los autores del texto [Reimann et al., 2008] han desarrollado (y lo vamos
a usar) el paquete StatDA.
Otros libros que utilizamos (fundamentalmente para conseguir problemas) en lo
que sigue son Reimann et al. [2008], Berthouex and Brown [2002], Manly [2009],
Millard and Neerchal [2001], Piegorsch and Bailer [2005]. De todos ellos es especialmente u
til Berthouex and Brown [2002].
Para un uso b
asico de R sin un interes especial sobre datos medioambientales
se puede consultar Verzani [2005], Dalgaard [2002]. En particular, el texto [Verzani,
2005] es muy adecuado para el manejo del programa aunque sufre la parte de explicaci
on estadtica. Recomendable para aprender R pero no Estadstica. En versiones
libres se puede encontrar en
http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
http://www.math.csi.cuny.edu/Statistics/R/simpleR/.
Un texto muy recomendable aunque hace un uso mas sofisticado de R que los
anteriores es Cohen and Cohen [2008].
Una referencia en castellano muy u
til puede ser http://knuth.uca.es/moodle/course/view.php?id=37.
1.2.
Lo primero
Vamos a empezar con el manejo basico del lenguaje R. Una vision general del
software y sus posibilidades la podemos encontrar en http://www.r-project.org/.
Instalaci
on Los pasos a seguir son los siguientes:
1. Bajamos el programa de la siguiente direccion http://cran.r-project.org/.
2. Podemos bajar y utilizar la version que necesitemos. En este curso utilizaremos la versi
on para Windows 3 aunque se pueden utilizar las versiones
para Linux/GNU o bien para MacOS X.
3. Una vez hemos bajado el paquete se instala ejecutandolo con las opciones
por defecto.
Inicio de una sesi
on En el escritorio tenemos el icono de R. Simplemente clicando
el icono iniciamos la sesion de trabajo.
Instalaci
on de un paquete R tiene muchos paquetes que extienden el R base
que acabamos de instalar. De hecho, es casi imposible realizar un analisis
estadstico por sencillo que sea sin utilizar paquetes de R. Vamos a instalar
el paquete [Verzani, 2012, UsingR]. Es un paquete con herramientas para la
ense
nanza de Estadstica basica. Lo podemos hacer de distintas formas.
1. Utilizando Paquetes-Instalar paquetes. Elegimos previamente el espejo desde donde vamos a bajar este paquete.
2. Utilizando install.packages, es el procedimiento mas simple.
3 Los comentarios se referir
an a la versi
on de Windows. Un consejo: usad cualquiera de las otras
y abandonad Windows. Si alguna persona usa Linux que me consulte.
install.packages(``UsingR'')
Cargando un paquete Una vez instalado el paquete, para poder usar las funciones o datos que contenga, debemos cargarlo mediante
library(UsingR)
Ahora podemos utilizar las extensiones que proporciona a R este paquete.
1.3.
Supongamos que hemos recogido unos datos y queremos analizarlos con R. Hemos de leer estos datos desde R. Hay muchas opciones para hacerlo.
Lo primero que necesitamos es alg
un programa para introducirlos en un fichero
que luego leeremos desde R. Utilizamos unos datos reales. En concreto son las
temperaturas m
axima y mnima en la ciudad de Alicante en los a
nos 1939 y 1940
durante cada uno de los 12 meses del a
no. Tenemos pues 12 observaciones (meses)
y, para cada observaci
on, las temperaturas maxima y mnima en el a
no 1939 y 1940.
Estas temperaturas son las variables observadas. Los datos (en decimas de grado)
son los siguientes: tenemos 12 observaciones (corresponden con las distintas filas) y
hemos observado 4 variables (que corresponden con las cuatro columnas).
1
2
3
4
5
6
7
8
9
10
11
12
182
183
205
239
267
302
310
291
241
211
176
154
180
209
224
255
275
303
313
287
237
201
166
82
64
88
112
149
183
189
181
139
90
70
62
79
93
100
123
150
180
195
164
119
90
54
Hemos de darle un nombre a las columnas que nos identifique la variable. Por
ejemplo, los nombres que vamos a usar pueden ser las siguientes
Mes Nos indica el mes del a
no.
MaxAlicante39 Temperatura maxima en Alicante en 1939.
MaxAlicante40 Temperatura maxima en Alicante en 1940.
MinAlicante39 Temperatura mnima en Alicante en 1939.
MinAlicante39 Temperatura mnima en Alicante en 1940.
Es importante notar que hay huecos. A que corresponden estos huecos? Son datos
faltantes. En concreto podemos ver en febrero (segunda fila) del a
no 1939 no se
observ
o la temperatera m
axima y mnima (segunda y cuarta columna).
C
omo podemos introducir estos datos en un fichero de alg
un tipo que luego
leamos desde R?
3
1.3.1.
Podemos utilizar una aplicacion como Calc (de LibreOffice) 4 que nos produzca
un fichero texto y luego utilizaremos la funcion read.table para leer los datos.
Es frecuente que se introduzcan datos utilizando una hoja de calculo. Una opcion
c
omoda y segura es Calc, versi
on libre de Excel, incluida en LibreOffice. Se encuentra
disponible en la versi
on Windows y todos los sistemas operativos. Los pasos a seguir
son los siguientes
1. Empezamos por abrir un documento LibreOffice y elegimos la opcion Calc.
2. En la primera lnea es conveniente (pero no imprescindible) poner los nombres
de las variables. Podemos utilizar los nombres que sugerimos para nuestros datos. En cualquier caso los nombres de las variables no han de tener blancos y,
para no complicarse la vida, lo mejor es que empiecen con alguna letra y contenga letras y n
umeros exclusivamente. Notemos que R diferencia may
usculas
y min
usculas.
3. En la columna correspondiente introducimos los datos anteriores, cada variable en una columna distinta. Si no disponemos del dato (como as es en un par
de casos) dejamos en blanco la casilla. Dependiendo de la configuracion que
tengamos es probable que Calc necesite la coma para indicar la coma decimal.
4. En Archivo-Guardar como elegimos Texto CSV. Indicamos un nombre para el
fichero, por ejemplo, temperaturas Alicante 39-40.csv.
5. Marcamos Editar configuraci
on de filtros.
6. Como separador de campo elegimos ;.5
7. Y ya tenemos un fichero texto.
Nos falta leerlo desde R.
1.3.2.
Si tenemos los datos en un fichero texto de modo que en cada lnea tenemos
una observaci
on y en cada columna una variable. El fichero a leer sera temperaturas Alicante 39-40.txt. C
omo leemos estos datos desde R? Una opcion sencilla es
con read.table.
x <- read.table(file = "../data/temperaturas_Alicante_39-40.csv",
dec = ".", sep = ";", header = TRUE)
Si el punto decimal lo hemos con una coma entonces cambiamos dec=. por
dec=,.6 en la primera fila de los datos hemos puesto los nombres de las variables
y esto lo indicamos con header = TRUE.
Podemos ver los datos que acabamos de introducir con
4 La suite LibreOffice la podemos conseguir en http://www.libreoffice.org/. En este curso todo
el software que se utiliza es software libre. Soy de la opini
on de que en educaci
on se debe utilizar
exclusivamente software libre.
5 Tiene la ventaja de que no confundimos con la coma decimal.
6 Un consejo, olvidad el sistema espa
nol e indicad siempre el decimal con un punto. Evitar
eis
problemas. Bueno casi olvidaros de Espa
na y vivir
eis mejor. El Polo Sur es un buen lugar para
establecerse. Al menos, mejor que nuestro pas.
x
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
1.4.
Sobre lo imprescindible en R
En esta secci
on vamos a ver las funciones que, en mi opinion, son basicas cuando
trabajamos con R.
1.4.1.
La funci
on c
1.4.2.
Selecci
on de casos
Cu
al es el primer valor de este vector de datos?
x[1]
## [1] 35.84
Y el que ocupa la posici
on 13?
x[13]
## [1] 29.46
Podemos ver los datos que estan entre el 13 y el 23. Para ello fijemonos en el
siguiente c
odigo.
13:23
##
[1] 13 14 15 16 17 18 19 20 21 22 23
Cuando ponemos dos enteros separados por : nos devuelve todos los enteros entre
el primero y el segundo. Ahora podemos ver los datos que ocupan estas posiciones
en el vector x.
x[13:23]
## [1] 29.46 38.70 34.80 35.87 32.76 35.95 30.44 38.75 31.21
## [10] 33.15 36.17
Podemos tener interes en saber los valores de los datos que ocupan las posiciones
7, 9 y de la 20 a la 25. Estas posiciones las podemos obtener con
c(7, 9, 20:25)
## [1]
9 20 21 22 23 24 25
Nos devuelve los datos que ocupan las posiciones donde se daba la condicion,
donde la condici
on era cierta. Podemos saber que valores toman los datos que son
mayores que 37 con
o bien los datos que son mayores que 35 y menores o iguales que 37.
Podemos querer que los casos que estamos seleccionando esten en un nuevo
vector.
1.5.
1.5.1.
Algunas cosas u
tiles R
De c
omo guardar un dibujo
hist(x)
7
3
0
Frequency
Histogram of x
30
35
40
x
El dibujo anterior podemos querer guardarlo en un fichero externo posiblemente
para incorporarlo despues a un documento. 7 En el siguiente codigo lo guardamos
en un fichero pdf.
pdf("histograma_ejemplo.pdf")
hist(x)
dev.off()
1.5.2.
De c
omo conseguir ayuda con R
Supongamos que buscamos ayuda sobre las opciones de la funcion que nos dibuja
un histograma, hist.
Lo m
as simple es utilizar la ayuda en html. Utilizamos la siguiente funcion.
help.start()
Vemos que nos abre el navegador y nos ofrece distintas opciones. Quizas la opcion
m
as simple sea utilizar la herramienta de b
usqueda.
Otra opci
on es, en lnea de comandos escribir
7 Espero
que no sea un documento Word. Pero asumo que, por desgracia, lo ser
a.
`?`(hist)
O simplemente,
help(hist)
1.5.3.
De c
omo trabajar con R
1.6.
Seguimos con lo b
asico de R
En esta secci
on pretendemos ver como trabajar de un modo simple con las
variables que componen el banco de datos. Vamos a utilizar unos datos sobre calidad
del aire. Estos datos los tenemos en el paquete ?. por lo que empezamos cargando
el paquete.
library(datasets)
Los datos se llaman airquality. Con el siguiente codigo podemos obtener informaci
on sobre los datos que vamos a manejar.
help(airquality)
Adjuntamos para poder usar los nombres de las variables.
8 Es
9 No
la opci
on m
as educativa en donde aprendemos realmente a trabajar con el programa.
es mi opini
on. Encuentro mucho m
as difcil esta opci
on pero para gustos . . .
10
attach(airquality)
Nos fijamos en lo que sigue en las variables Ozone y Month (cuyo significado
podemos consultar con la ayuda anterior).
Podemos ver las cinco primeras mediciones de ozono con
Ozone[1:5]
## [1] 41 36 12 18 NA
o bien la muestra que ocupa la posicion 100 en el vector de datos.
Ozone[100]
## [1] 89
Tambien podemos queremos ver conjuntamente los datos de la muestra 23, esto
es, tanto el ozono como el mes con
c(Ozone[23], Month[23])
## [1] 4 5
Podemos querer conocer que cuales son los datos correspondientes a mayo con
which(Month == 5)
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
## [19] 19 20 21 22 23 24 25 26 27 28 29 30 31
y las concentraciones seran
Ozone[which(Month == 5)]
## [1]
## [15]
## [29]
41 36
18 14
45 115
12
34
37
18
6
NA
30
28
11
23
1
19
11
8
4
NA
32
7
NA
16
NA
11
NA
14
23
Podemos contar el n
umero de datos que tenemos de cada mes con
length(which(Month == 5))
## [1] 31
length(which(Month == 6))
## [1] 30
length(which(Month == 7))
## [1] 31
Una forma bastante m
as sencilla de hacerlo es hacer una tabla que nos lo cuente.
Por ejemplo con
11
table(Month)
## Month
## 5 6 7 8 9
## 31 30 31 31 30
Que observaci
on corresponde con la maxima concentracion de ozono?
which.max(Ozone)
## [1] 117
y toda la informaci
on de dicha observacion vendra dada por
airquality[which.max(Ozone), ]
##
Ozone Solar.R Wind Temp Month Day
## 117
168
238 3.4
81
8 25
Cuando nos planteamos transformar los datos originales aplicando alguna funci
on como la raiz cuadrada simplemente hemos de hacer lo siguiente (mostramos
los cinco primeros datos)
sqrt(Ozone)[1:5]
## [1] 6.403 6.000 3.464 4.243
NA
Podemos plantearnos ver cuantos valores superan una concentracion de 40 unidades. Esto lo podemos hacer con
which(Ozone >= 40)
## [1]
1 29 30 40 62 63 66 67 68 69 70 71 77 79
## [15] 80 81 85 86 88 89 90 91 92 96 98 99 100 101
## [29] 104 106 109 112 116 117 118 120 121 122 123 124 125 126
## [43] 127 128 134 139
1.7.
Dato faltante
Con mucha frecuencia no tenemos todas las variables observadas sobre todas las
observaciones, esto es, no tenemos observaciones completas. Por ejemplo, en la serie
de temperaturas en Alicante nos faltan datos del a
no 1939. Como manejamos los
datos faltantes con R? Tenemos distintas opciones.
Si los datos los hemos introducido en un fichero utilizando Calc (o Excel) entonces cuando no tenemos el dato correspondiente dejamos en blanco la casilla. Cuando
luego leemos los datos en R ese dato lo tendra como dato faltante.
Si utilizamos un editor de texto (como Bloc de Notas en Windows) entonces con
NA indicamos que tenemos un dato faltante. No podemos dejar el hueco sin mas.
Por ejemplo, consideremos los siguientes datos.
1
2
3
4
182
NA
183
205
154
180
209
224
82
NA
64
88
12
62
79
93
100
5
6
7
8
9
10
11
12
239
267
302
310
291
241
211
176
255
275
303
313
287
237
201
166
112
149
183
189
181
139
90
70
123
150
180
195
164
119
90
54
Podemos copiar y pegar las filas anteriores en un fichero de texto. Cuando leemos
los datos con read.table las variables donde hemos indicado NA las entiende como
dato faltante.
1.8.
Estadstica medioambiental en R
Este curso es b
asico. No pretende mas que introducir lo fundamental de las tecnicas estadsticas. Sin embargo, la eleccion de R como herramienta viene motivada por
la gran cantidad de paquetes en R para el analisis de datos medioambientales. La
direcci
on http://cran.r-project.org/web/views/Environmetrics.html tiene una relaci
on actualizada y comentada de estos paquetes.
1.9.
Datos
En este curso usaremos distintos bancos de datos. Algunos de ellos son datos
propios que podeis encontrar en el directorio DATOS del Aula Virtual.
1.9.1.
En las secciones 1.9.1,1.9.1,1.9.1 y 1.9.1 comentamos distintos datos de precipitaciones y temperaturas correspondientes a las poblaciones de Orihuela, Alicante,
Utiel, Valencia, Castell
on y Morella. 10 Todos los datos estan en decimas de grados
(para las temperaturas) o en decimas de mm (1 mm de lluvia = 1 litro/m2).
Pdiaria
Nuestro banco de datos se refiere a la precipitacion diaria de 7 de la ma
nana de
un da a 7 de la ma
nana del da siguiente en 2010. Las variables son que aparecen
en este banco de datos son:
INDICATIVO Un c
odigo indicativo de la poblacion.
ANYO A
no.
MES Mes del a
no indicado con el n
umero.
NOMBRE Nombre de la poblacion.
ALTITUD En metros.
CX Coordenada geogr
afica x.
CY Coordenada geogr
afica y.
10 Estos datos han sido proporcionados amablemente por la Agencia Estatal de Metereolog
a.
Agradezco especialmente a Braulio Aguilar su colaboraci
on.
13
P1 Precipitaci
on el da 1. De un modo analogo P2 indica precipitacion el segundo
da y as sucesivamente.
Las precipitaciones son indicadas en decimas de milmetro de modo que un milmetro
de lluvia corresponde con un litro por metro cuadrado. El valor -3 indica que la
cantidad registrada es inapreciable. El valor -4 indica que el valor que observamos
es un valor acumulado de das consecutivos (no se realizo la medida en sus das
correspondientes).
Tdiaria
Nuestro banco de datos se refiere a las temperaturas maxima y mnima en cada
da. Las variables son:
INDICATIVO Un c
odigo indicativo de la poblacion.
ANYO A
no.
MES Mes del a
no indicado con el n
umero.
NOMBRE Nombre de la poblacion.
ALTITUD
CX Coordenada geogr
afica.
CY Coordenada geogr
afica.
TMAX1 Temperatura m
axima el da 1. Analogamente tenemos las variables que
nos dan la temperatura para cada da del mes.
TMIN1 Temperatura mnima el da 1. Analogamente tenemos las variables que
nos dan la temperatura mnima para cada da del mes.
Las temperaturas aparecen en decimas de grado.
Precipitacion1964-2011
Recoge la precipitaci
on mensual, desde que se tienen registros, para distintas
localidades de la Comunidad Valenciana.
INDICATIVO Un c
odigo indicativo de la poblacion.
ANYO A
no.
MES Mes del a
no indicado con el n
umero.
NOMBRE Nombre de la poblacion.
ALTITUD En metros.
CX Coordenada geogr
afica.
CY Coordenada geogr
afica.
PMES77 Es la precipitaci
on mensual obtenida sumando las precipitaciones diarias
de 7 de la ma
nana de un da a 7 de la ma
nana del da siguiente.
PMAX Es la precipitaci
on diaria maxima en ese mes. No se indica el da que se
produjo.
14
Temperatura1964-2011
Es la temperatura m
axima y mnima mensual de distintas estaciones desde que
se tienen registros para distintas localidades de la Comunidad Valenciana.
alicante temperaturas mes 1939 2010
Son datos relativos a temperaturas en la ciudad de Alicante desde el a
no 1939
hasta el a
no 2010. Las observaciones corresponden con meses del a
no. Como variables tenemos el mes as como las temperaturas maxima y mnima en cada uno
de los a
nos considerados. Las variables tmax1939 y tmin1939 corresponden con la
temperatura m
axima y mnima en el a
no 1939.
alicante temperaturas anyo 1939 2010
Son datos relativos a temperaturas en la ciudad de Alicante desde el a
no 1939
hasta el a
no 2010. Las observaciones corresponden con los a
nos. Como variables
tenemos el a
no en que observamos as como las temperaturas maxima y mnima en
cada uno de los meses. En concreto las variables tmax1 y tmin1 corresponden con
la temperatura m
axima y mnima en el primer mes, es decir, enero.
1.9.2.
Concentraciones de ozono
15
16
Captulo 2
Estadstica descriptiva
2.1.
Introducci
on
Tenemos unos datos numericos. Ejemplos de datos medio ambientales son temperaturas o precipitaciones observados en una localizacion geografica y un da determinado. Podemos tener muestras de agua en las que determinamos la demanda
qumica o biol
ogica de oxgeno.
Ejemplo 1 Se han tomado mediciones de la concentraci
on de nitrito en agua utilizando el metodo de electrodo directo selectivo de iones (ISE). Los datos son los
siguientes:
0.32 0.36 0.24 0.11 0.11 0.44 2.79 2.99 3.47 0.23 0.55 3.21 4.02 0.23
En el ejemplo 1 tenemos unos datos que hemos observados en distintas muestras
de agua. De un modo generico denotaremos por x1 el primer valor observado, por
x2 el segundo valor observado y as sucesivamente. En el lenguaje estadstico a esto
se le llama una muestra. Por ello, diremos que tenemos una muestra x1 , . . . , xn de
n datos. Se entiende que estos datos se han tomado en unas condiciones similares.
C
omo son estos datos? Pretendemos describirlos de un modo sencillo. Esta descripci
on ser
a de dos tipos: una descripcion numerica, describimos muchos n
umeros
con unos pocos n
umeros que tengan un sentido claro; y una descripcion grafica.
Describimos los n
umeros con gr
aficos que destaquen sus propiedades basicas. Al
conjunto de tecnicas que nos dan descripciones numericas y graficas de un conjunto
de datos reciben el nombre de Estadstica descriptiva y, con frecuencia, simplemente descriptiva. Se habla de la descriptiva de los datos. Veremos que son ideas
sencillas pero de un uso constante.
Cuando se describen los datos las preguntas basicas que hemos de tener en la
cabeza pueden ser:
1. De que orden son?
2. C
omo de dispersos est
an?
3. Hay datos anormales que esten muy alejados de los demas?
En la primera pregunta intentamos localizar los valores: estamos alrededor de
2?, o bien alrededor de 20?, o alrededor de 200000? Pretendemos localizar la
muestra, dar un valor representativo de todos ellos. En la segunda pregunta nos
preguntamos si los datos se agrupan si estan proximos entre s. Por u
ltimo, nos
planteamos si tenemos datos que son anormales. Obviamente lo que es anormal
depende de c
omo son los otros. Por ejemplo, si medimos nivel de radioactividad
1
cerca de un reactor nuclear podemos observar valores que seran anormales si los
agrupamos con mediciones tomadas en una zona muy alejada de cualquier central
nuclear. Sin embargo, no lo son en el entorno de dicha central.
2.2.
Descriptivas num
ericas
Empezamos con las descripciones numericas. Leemos los datos del ejemplo 1.
x <- c(0.32, 0.36, 0.24, 0.11, 0.11, 0.44, 2.79, 2.99, 3.47,
0.23, 0.55, 3.21, 4.02, 0.23)
De un modo generico se pretende describir un conjunto de datos numericos mediante unos pocos n
umeros (elegidos, eso s, con gracia). En particular vamos a
considerar medidas de localizaci
on y medidas de dispersi
on. Las medidas de localizaci
on intentan responder la pregunta que veamos antes de: de que orden son los
datos? Las medidas de dispersion intentan responder a la segunda pregunta, como
de dispersos son los datos? Como de variables son los datos?
Como medidas de localizacion veremos la media y medianas muestrales fundamentalmente y como medidas de dispersion basicas veremos la varianza y desviacion
tpica muestrales.
2.2.1.
Media muestral
La medida de localizaci
on mas utilizada es la media aritmetica o media muestral
(que es el nombre habitualmente usado en Estadstica) que se define como
x
=
n
X
xi
i=1
(2.1)
2.2.2.
Media ajustada
La media muestral es, sin duda, la mejor forma de localizar una muestra. No
obstante es muy sensible a datos anomalos o extremos (y que con frecuencia son
errores introducidos en el banco de datos). Por ejemplo, a nuestros datos originales
les vamos a a
nadir un dato an
omalo. Le a
nadimos el valor 34.
(xx <- c(x, 34))
## [1]
## [10]
0.32
0.23
0.36
0.55
0.24
3.21
0.11
4.02
0.11 0.44
0.23 34.00
2.79
2.99
3.47
2.2.3.
Percentiles
Otro manera de localizar los datos es utilizar los percentiles muestrales. Supongamos que tomamos un valor p entre 0 y 1. El percentil de orden p es un valor que
tiene por debajo el 100 p por ciento de los datos y por encima el 100 (1 p) por
ciento. Denotaremos el percentil de orden p como qp . Ordenamos nuestros datos de
menor a mayor con la funci
on sort.
3
sort(x)
## [1] 0.11 0.11 0.23 0.23 0.24 0.32 0.36 0.44 0.55 2.79 2.99
## [12] 3.21 3.47 4.02
Cu
antos de los datos originales son menores o iguales a 1? Podemos contar a
mano. 1 Otra posibilidad es utilizar la funcion ecdf.
Fn <- ecdf(x)
Fn(1)
## [1] 0.6429
Vemos pues que la proporcion de datos que son inferiores a 1 es de 0.6429. O
dicho de otro modo: el valor 1 es el percentil de orden 0.6429 de los datos.
La funci
on b
asica para calcular los cuantiles es quantile. El detalle exacto del procedimiento utilizado para estimar estos valores se puede consultar con help(quantile).
2
1 Cosa
2.2.4.
Varianza y desviaci
on est
andar muestrales
Ahora pretendemos cuantificar lo dispersos que estan nuestros datos. Las dos
medidas m
as utilizadas son la varianza y la desviacion estandar. La varianza muestral se define como
n
X
(xi x
)2
s2 =
,
(2.2)
n1
i=1
y la desviaci
on est
andar (o tpica) muestral se define como
v
u n
uX (xi x
)2
.
s = s2 = t
n1
i=1
(2.3)
2.2.5.
Rango
El mnimo y el m
aximo lo podemos obtener con
range(x)
## [1] 0.11 4.02
o bien con
min(x)
## [1] 0.11
max(x)
## [1] 4.02
El rango, esto es, el m
aximo valor menos el mnimo valor lo podemos obtener
con
max(x) - min(x)
## [1] 3.91
o bien con
diff(range(x))
## [1] 3.91
2.2.6.
Rango intercuartlico
Una medida m
as robusta que el rango es el rango intercuartlico. Se define como
la diferencia entre los percentiles de orden 0,75 y 0,25, es decir, el cuartil superior
menos el cuartil inferior. Se puede obtener con
IQR(x)
## [1] 2.708
2.2.7.
La funci
on summary
Es una funci
on que nos proporciona una descripcion basica de los datos. En
concreto, nos da el mnimo, el primer cuartil, la media, la mediana, el tercer cuartil
y el m
aximo.
summary(x)
##
##
Median
0.400
Max.
4.020
2.3.
Ejercicios
33.14
38.22
32.98
17.00
22.96
23.51
29.66
34.52
19.39
38.95
37.04
44.55
28.35
37.06
29.60
18.78
20.72
21.91
23.76
30.59
29.29
39.03
25.75
30.35
39.98
37.72
28.28
19.98
41.72
15.43
21.49
33.25
22.78
19.65
21.86
14.40
42.10
16.24
32.90
45.60
34.98
18.27
15.88
34.62
18.25
28.40
13.76
44.56
31.47
14.98
18.09
34.44
38.97
16.48
35.96
43.17
27.27
18.54
15.04
23.11
18.84
24.88
13.47
19.42
30.57
22.65
19.69
35.96
12.74
22.11
36.20
24.58
21.42
42.89
40.79
27.85
20.18
30.12
44.11
23.03
27.82
42.12
34.19
23.89
17.21
41.56
23.80
32.82
38.65
19.91
22.86
30.04
16.49
29.26
27.07
42.44
14.37
45.76
27.18
34.95
32.11
19.58
15.17
45.64
28.56
16.57
22.02
28.75
35.52
16.05
Se pide:
1. Leer los datos utilizando el metodo que se prefiera.
2. Calcular la media, mediana, media recortada con una proporci
on del 0,05, los
percentiles de orden 0,1 y 0,9.
3. Supongamos que se han seguido recogiendo datos. En concreto una segunda
muestra con los siguientes valores.
123.34 78.23 89.6 1.2
Incorporar estas nuevas observaciones a los datos originales y calcular las
descriptivas numericas anteriores sobre los nuevos datos. Indicar cu
ales de
ellas varan y cu
ales no justificando la respuesta.
6
2.4.
Descripciones gr
aficas de los datos
En esta secci
on pretendemos ver algunas de las descripciones graficas para variables numericas y categ
oricas.
2.4.1.
A
nadimos variables y seleccionamos casos o variables
Vamos a a
nadir m
as informacion en nuestro banco de datos. Seguimos con las
concentraciones de nitritos del ejemplo 1. En concreto se sabe que las muestras
de agua se tomaron en dos localizaciones de la Albufera distintas. Las primeras 8
muestras se tomaron en el puerto de Catarroja y las 6 u
ltimas muestras se tomaron
en El Palmar. Esta informaci
on la guardamos en un vector
y <- c(1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2)
2.4.2.
Frecuencias
barplot(table(y))
pie(table(y))
3A
4 Personalmente
0.0
0.1
0.2
0.3
0.4
0.5
barplot(prop.table(table(y)))
2.4.3.
Histograma
Para una variable cuantitativa una buena opcion para observar la distribucion
de los datos es un histograma. La idea de un histograma es (demasiado) simple. Si
x1 , . . . , xn son los datos de los cuales queremos construir el histograma consideramos
el intervalo que va del mnimo al maximo, es decir, el intervalo
[a, b] = [mn{x1 , . . . , xn }, max{x1 , . . . , xn }]
y lo subdivimos en un n
umero de subintervalos con la misma longitud. A estos
subintervalos se les suele llamar clases. Supongamos que elegimos k clases. Entonces
los subintervalos que consideramos son
[a, a + ), [a + , a + 2), . . . , [a + (k 1), b]
donde
ba
k
Dependiendo del software que utilicemos los valores de a y b suelen elegirse
como un poco menos que el mnimo y un poco mas que el mnimo. El n
umero
de clases se elige de un modo automatico pero siempre modificable por el usuario.
Contamos el n
umero de datos que hay en cada clase. Representamos una barras
(que se representan pegadas una con otra lo que tambien nos permite diferenciarlo
de un diagrama de barras) cuya base coincide con el subintervalo y cuya altura es
=
10
hist(x)
4
0
Frequency
Histogram of x
2.4.4.
Diagramas de cajas
11
4
2
0
Frequency
Histogram of x
12
boxplot(x)
13
boxplot(x1)
15
boxplot(x1, range = 0)
Figura 2.8: Diagrama de cajas donde los bigotes llegan a los casos mas extremos.
16
boxplot(x ~ y)
17
2.4.5.
Un gr
afico alternativo (y de mucha mas calidad) es el estimador kernel de la
densidad cuya expresi
on viene dada por
f(x) =
n
X
xi x
1
K
,
n
h
i
donde la funci
on K es no negativa y verifica
Z
K(u)du = 1,
y
K(u) = K(u),
es decir, es simetrica respecto del origen. Una funcion K que se suele utilizar es la
gaussiana dada por
1 2
1
K(u) = e 2 u .
2
En la figura 2.10 aparece un estimador kernel de la densidad utilizando una
funci
on kernel gaussiana.
2.4.6.
Funci
on de distribuci
on muestral
|{xi : xi x}|
,
n
(2.4)
plot(density(x))
0.15
0.10
0.05
0.00
Density
0.20
0.25
0.30
density.default(x = x)
N = 14 Bandwidth = 0.8088
19
plot(ecdf(x))
1.0
ecdf(x)
0.8
0.6
Fn(x)
0.4
0.2
0.0
20
0.6
0.4
0.2
0.0
Proportion <= x
0.8
1.0
library(Hmisc)
Ecdf(x)
x
n:14 m:0
21
2.4.7.
Buscando datos an
omalos
expresi
on inglesa es outlier.
22
Puede ser extremo por abajo si es menor que q25 1,5 IQR o por arriba si es
mayor que q75 + 1,5 IQR. Determinemos los extremos del intervalo.
(lw <- quantile(x2, probs = 0.25) - 1.5 * IQR(x2))
##
25%
## -4.24
(up <- quantile(x2, probs = 0.75) + 1.5 * IQR(x2))
## 75%
## 7.68
Y veamos si hay puntos extremos por abajo
x2[x2 < lw]
## numeric(0)
Detecta el punto a
nadido por nosotros. Y por arriba.
x2[x2 > up]
## [1]
9 14
Detecta los dos puntos extremos por arriba. En fin, no nos ha ido mal con este
metodo de detecci
on. No obstante, el mas habitual es el primero de los procedimientos propuestos.
2.5.
Ejercicios
1
3
2
2
1
3
2
2
1
3
2
2
1
3
2
2
1
3
2
2
1
3
2
2
1
3
2
2
1
3
2
2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2
Se pide:
1. Introducir estos datos en un vector en R que denotaremos por y utilizando la
funci
on c() de concatenaci
on.
2. Realizar un diagrama de cajas de la variable x.
3. Realizar diagramas de barras de los valores que tenemos en la variable x para
las distintas localizaciones que nos vienen indicadas por la variable y.
4. Los datos adicionales que aparecen en el vector xx han sido obtenidos en una
cuarta localizacion. Completar el vector yy para incluir esta localizaci
on, es
decir, en xx tenemos los datos ampliados mientras que en yy tendremos las
localizaciones ampliadas.
5. Muestra un diagrama de barras comparativo de los valores xx para las distintas
localizaciones que aparecen en yy.
Ejercicio 4 Consideremos las dos muestras siguientes.
x
22.24
21.64
21.21
22.79
20.66
21.04
24.29
25.53
23.68
20.47
23.89
21.68
19.34
22.15
22.49
24.51
25.89
21.50
25.22
22.32
23.06
22.40
22.15
24.77
25.90
24.39
22.49
18.30
20.09
20.34
27.51
23.03
25.65
17.53
23.57
22.03
27.76
25.59
25.22
21.09
29.14
20.25
23.47
23.32
22.88
20.76
18.91
21.15
31.40
23.08
27.60
26.34
30.44
29.32
25.02
36.51
24.02
32.82
38.70
41.71
39.78
33.47
33.97
28.91
29.84
34.08
31.96
35.37
27.84
29.37
29.35
27.64
37.69
31.82
33.12
32.39
32.78
33.06
44.01
38.49
37.32
29.43
34.01
39.98
29.07
25.67
37.53
37.83
36.24
36.62
32.94
29.36
38.95
24.46
41.86
29.72
30.47
36.64
29.80
37.82
35.96
33.51
33.33
24.14
32.72
32.19
35.57
31.49
24.34
39.54
30.04
34.51
33.84
33.51
35.99
26.45
32.64
27.69
33.24
32.25
Se pide:
1. Representar en dos gr
aficos distintos los estimadores kernel de ambas densidades.
2. Repetir el apartado anterior pero en la misma gr
afica.
3. Representar las funciones de distribuci
on de la primera muestra. Haced lo
mismo con la funci
on de distribuci
on de la segunda muestra.
4. Representad las dos funciones de distribuci
on en un mismo gr
afico.
2.6.
Un dibujo
En esta secci
on vamos a realizar un dibujo a partir de unos datos. El objetivo es
mostrar c
omo estudiar la relacion entre dos variables, como hacerlo con R mostrando
las dificultades con las que nos encontramos. Los datos que vamos a utilizar son las
temperaturas mnimas y m
aximas por mes en Alicante desde el a
no 1939 hasta
el a
no 2010. Leemos los datos y adjuntamos para poder usar los nombres de las
variables.
24
x <- read.table("../data/alicante_temperaturas_anyo_1939_2010.txt")
attach(x)
Nos fijamos en el mes de enero. Las variables que nos dan la temperatura mnima
y m
axima (en decimas de grado) en enero son tmin1 y tmax1 respectivamente. La
variable anyo nos indica el a
no.
Parece natural estudiar la variacion de la temperatura mnima a lo largo de
los a
nos. En la figura 2.13 representamos en abscisas el a
no y en ordenadas la
temperatura mnima en enero. Parece lo natural para ver la evolucion temporal.
Es correcto este dibujo? Por defecto la funcion plot utiliza puntos para representar.
Sin embargo, en este caso para seguir la evolucion es parece preferible unir los
puntos consecutivos mediante segmentos. En la figura 2.14 tenemos el codigo y el
resultado. En nuestros datos tambien nos aparece la temperatura maxima en enero.
Por que no representarla junto con la mnima? De este modo podemos ver para
cada vez la variaci
on. Para superponer las maximas utilizamos la funcion lines.
Hace lo mismo que el plot anterior pero conserva el dibujo anterior. En la figura
2.15 vemos c
odigo y figura. No hay error, la figura no ha cambiado. Pero los nuevos
datos los hemos representado. El problema lo tenemos en que el eje de ordenadas
se ha escalado para las mnimas y no llega a los valores que corresponden a las
m
aximas. Hemos de indicarle una nueva escala al eje de ordenadas, al eje y, de
modo que aparezcan todos los datos. Por ejemplo, supongamos que damos una
escala que tiene un mnimo de 35 y un maximo de 200 (en decimas de grado). Esto
lo indicamos con ylim = c(35,200). En figura 2.16 tenemos el resultado. Vamos
bien. Podemos observar que para el a
no 1941 no tenemos el dato y por ello no
aparece el punto correspondiente.
En la figura 2.16 vemos que las etiquetas que utiliza para las abscisas y ordenadas
no son muy adecuadas. Usa el nombre de las variables que utilizamos en el plot.
Vamos a cambiarlas indicando para abscisas la etiqueta a
no y para ordenadas
Temperatura. Esto lo indicamos con los argumentos xlab e ylab. En la figura
2.17 tenemos c
omo hacerlo. Nos va quedando bien el dibujo. Vamos a mejorarlo.
Podemos indicar con dos lneas horizontales las medias de la mnima y la media
de la m
axima. Para ello utilizamos la funcion abline. Primero hemos de calcular la
media de la mnima con
mean(tmin1)
## [1] NA
Tenemos un problema. Nos da que no lo puede calcular porque le falta el dato
para 1941. Le indicamos que nos calcule la media de los demas.
mean(tmin1, na.rm = T)
## [1] 62.39
Tambien calculamos la media de las temperaturas maximas.
mean(tmax1, na.rm = T)
## [1] 167.1
En la figura 2.18 tenemos la figura a
nadiendo las dos lneas horizontales. Nos ha
quedado un dibujo apa
nado. Contentos con ello decidimos guardarlo en un fichero
para luego insertarlo en alg
un documento. Supongamos que nos queremos guardarlo
25
plot(anyo, tmin1)
100
tmin1
80
60
40
1940
1950
1960
1970
1980
1990
2000
2010
anyo
26
40
60
tmin1
80
100
1940
1950
1960
1970
1980
1990
2000
2010
anyo
27
40
60
tmin1
80
100
1940
1950
1960
1970
1980
1990
2000
2010
anyo
28
50
100
tmin1
150
200
1940
1950
1960
1970
1980
1990
2000
2010
anyo
29
100
50
Temperatura
150
200
1940
1950
1960
1970
1980
1990
2000
2010
Ao
30
100
50
Temperatura
150
200
1940
1950
1960
1970
1980
1990
2000
2010
Ao
31
32
Captulo 3
Probabilidad
3.1.
3
.
6
Que probabilidad tenemos de obtener una cara al lanzar una moneda? Por
el mismo razonamiento:
P (Cara) = P ({Cara}) =
1
.
2
"cara"
"cruz"
"cara"
"cara"
"cara"
"cruz"
"cruz"
"cruz"
"cara"
"cruz"
"cruz"
"cara"
"cruz"
"cara"
"cara"
"cara"
"cara"
"cara"
"cara"
"cara"
Y otras 30 veces.
sample(Omega, 30, replace = TRUE)
## [1] "cara"
## [9] "cruz"
## [17] "cruz"
## [25] "cruz"
"cara"
"cruz"
"cara"
"cruz"
"cara"
"cara"
"cruz"
"cara"
"cara"
"cruz"
"cruz"
"cruz"
Podemos contar cu
antas veces nos ha salido cara y cruz (el que quiera puede
hacerlo manualmente).
x <- sample(Omega, 30, replace = TRUE)
table(x)
## x
## cara cruz
##
16
14
Si dividimos por el total de lanzamientos tenemos la frecuencia relativa de veces
que nos ha salido cada uno de los dos posibles resultados. En nuestro caso tenemos
las siguientes frecuencias relativas observadas:
table(x)/30
## x
##
cara
cruz
## 0.5333 0.4667
Vamos a lanzar 100 veces la moneda y calculamos las frecuencias relativas.
x <- sample(Omega, 100, replace = TRUE)
table(x)/100
## x
## cara cruz
## 0.52 0.48
Y por que no lanzar la moneda 1000 veces?
x <- sample(Omega, 1000, replace = TRUE)
table(x)/1000
## x
## cara cruz
## 0.522 0.478
Y para acabar con la experiencia vamos a lanzarla 100000 veces.
x <- sample(Omega, 1e+05, replace = TRUE)
table(x)/1e+05
## x
##
cara
cruz
## 0.4999 0.5001
Es claro que conforme repetimos el experimento y observamos la frecuencia relativa de veces que ocurre cada resultado nos acercamos cada vez m
as al valor 0,5
para cada uno de los posibles resultados.
En la figura 3.1 representamos en el eje de abscisas el n
umero de veces que
lanzamos la moneda y en ordenadas la frecuencia relativa de veces que se ha observado cara. Podemos ver c
omo las frecuencias relativas de aparici
on de cara van
apr
oximandose al valor 0,5.
Supongamos que nos fijamos en la frecuencia relativa de aparici
on de las cruces. En la figura 3.2 representamos en abscisas el n
umero de lanzamientos y en
ordenadas la frecuencia relativa de aparici
on de cruces. Vemos c
omo se estabiliza
la frecuencia alrededor del valor 0,5.
Nota de R 2 (Lanzamiento de un dado) C
omo lanzamos un dado con R? Pues
la funci
on sample es adecuada. Empezamos definiendo el espacio muestral.
(Omega <- 1:6)
## [1] 1 2 3 4 5 6
Y ahora lanzamos el dado.
0.52
0.51
0.50
0.49
0.48
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Lanzamientos
0.52
0.51
0.50
0.49
0.48
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Lanzamientos
sample(Omega, 1)
## [1] 3
O bien lo lanzamos 20 veces.
sample(Omega, 20, replace = TRUE)
##
[1] 6 1 4 1 5 4 4 1 3 4 3 6 5 2 1 1 5 6 5 3
(3.1)
1
1
=
.
||
Casos posibles
(3.2)
La probabilidad de cara es 1/2. La probabilidad de cruz tambien es 1/2. La probabilidad de un seis cuando lanzamos un dado es 1/6. Tambien lo es la de obtener un
5. O un 4. Finalmente vemos que
P (A) =
X 1
.
||
3.1.1.
23 32
Tenemos seis secuencias porque consideramos distintas 12 y 21. Como contarlas sin enumerarlas todas ellas? El razonamiento es sencillo. Para la primera
posici
on tenemos 3 posibilidades. Una vez elegido el n
umero que ocupa la
primera posici
on nos quedan 2 posibilidades para el segundo. En total 3 2.
En general, si consideramos n y k tenemos n posibilidades para el primero.
Dada la elecci
on nos quedan (n 1) elecciones para el segundo. Dadas las dos
primeras elecciones nos quedan (n2) elecciones para el tercero. Para la u
ltima
posici
on nos quedar
an (n k + 1) posibles elecciones. En total tendremos
n (n 1) . . . (n k + 1).
Esto recibe el nombre de variaciones sin repetici
on.
Permutaciones De cu
antas maneras podemos ordenar n elementos distintos?
Podemos seguir con el razonamiento del parrafo anterior. Cuando ordenamos
n elementos tenemos que elegir el primero de ellos, con n posibles elementos.
Una vez tenemos el primero, para el segundo tenemos n1 y as sucesivamente.
Podemos ver que tenemos variaciones sin repeticion donde n = k. Por tanto
el n
umero total de permutaciones es
n! = n (n 1) . . . 1.
Combinaciones Cu
antos conjuntos distintos de k elementos podemos formar con
un total de n? Estamos en una situacion similar a las variaciones sin repeticion
salvo que no queremos que intervenga el orden. Por ejemplo, las secuencias
12 21
son distintas como secuencias. Sin embargo, los conjuntos
{1,2} {2,1}
son el mismo. Una vez hemos elegido los elementos de un conjunto (por ejemplo, los elementos 1 y 2) hemos de plantearnos cuantas secuencias ordenadas
podemos formar, 2! en el ejemplo. En resumen, de un conjunto de k elementos
podemos formar k! secuencias (ordenadas) distintas. Tenemos n elementos.
Con ellos podemos formar n (n 1) . . . (n k + 1) secuencias ordenadas.
Pero cada k! de estas secuencias tenemos los mismos elementos. En resumen,
el n
umero de conjuntos distintos de k elementos que podemos formar con n
elementos distintos es
n
n (n 1) . . . (n k + 1)
.
=
k!
k
F
acilmente podemos comprobar que
n
n!
=
.
k!(n k)!
k
El n
umero nk recibe el nombre de combinaciones de n elementos tomados de k en k.
8
4 5 6 7 8
9 10 11 12 13
1 2 3 4 5
9 10 11 12 13 1 2 3
1 2 3 4 5 6 7 8
6 7 8 9 10 11 12 13
4 5
9 10
8 11
C
omo se que tenemos una pareja? Una forma sencilla es contar la frecuencia
de cada n
umero.
(conteosmano <- table(mano))
## mano
## 8 10 11 12
## 1 1 2 1
Y ver cu
antos conteos me devuelve.
length(conteosmano)
## [1] 4
Si me devuelve 5 quiere decir que no se repite ning
un n
umero. Si me devuelve
4 quiere decir que hay una pareja exactamente. Contemos pues el n
umero de veces
que se produce esta situaci
on y repitamos la experiencia muchas veces. La frecuencia
relativa de exitos nos ha de dar la probabilidad. Un poco de c
odigo m
as complicado
de R.
nsimulaciones <- 1000
exitos <- 0
for (i in 1:nsimulaciones) {
mano <- sample(cartas, 5)
conteosmano <- table(mano)
if (length(conteosmano) == 4)
exitos <- exitos + 1
}
exitos/nsimulaciones
## [1] 0.416
3.1.2.
Un poco de teora
10
experimento aleatorio? Desde luego que no. De hecho, una probabilidad es cualquier
funci
on que a los sucesos les da valores entre 0 y 1 verificando algunos principios (o
axiomas) razonables.
Definici
on 1 (Probabilidad) Una funci
on de conjunto, P , definida sobre los sucesos es una probabilidad si verifica
1. P (A) 0 para todo suceso A.
2. P () = 1.
3. P es aditiva, es decir, si {Ai }i=1,...,n son sucesos disjuntos entonces
P(
n
[
Ai ) =
i=1
n
X
P (Ai ).
i=1
A partir de la definici
on anterior se deducen algunas propiedades muy u
tiles.
1. La probabilidad del vaco es cero: P () = 0.
2. Si tenemos sucesos tales que A B entonces P (A) P (B).
3. Si los sucesos A1 , . . . , An no son disjuntos entonces
!
n
[
P
Ai =
i=1
n
X
P (Ai )
i=1
i<j
(3.4)
(3.5)
3.2.
i=1
Ejercicios
Ejercicio 6 Supongamos el p
oquer cerrado sin comodines. Calcular la probabilidad
de obtener un p
oquer cuando nos dan una mano.
Ejercicio 7 Consideremos el experimento aleatorio consistente en lanzar dos veces
un dado. Se pide:
1. Que probabilidad tenemos de obtener dos veces el n
umero 6?
2. Y de obtener el par de valores 1 y 5?
3. Que probabilidad tenemos de que coincidan el primer y el segundo resultado,
esto es, de que el primer lanzamiento sea un uno y el segundo tambien o de
que el primer lanzamiento sea un dos y el segundo tambien, etc?
4. Que probabilidad tenemos de que la suma de los dos valores sea 7? Y de
que la suma de los dos valores sea mayor o igual que 7? Y de que sea mayor
que 7?
3.3.
Variable aleatoria
1
.
N
3.3.1.
R
X() = x.
12
x
P (X = x)
0.000
0.107
1.000
0.268
2.000
0.302
3.000
0.201
4.000
0.088
5.000
0.026
6.000
0.006
7.000
0.001
8.000
0.000
P (X = x),
xA
9.000
0.000
10.000
0.000
0.30
0.20
0.05
0.10
0.15
0.00
Funcin de probabilidad
0.25
14
10
3.3.2.
Ejercicios
Ejercicio 8 Consideremos el experimento aleatorio consistente en lanzar dos veces un dado. Un resultado del experimento puede ser = (1, 3) indicando que en
primer lugar hemos obtenido un 1 y en el segundo lanzamiento hemos obtenido un
3. Consideramos la variable aleatoria que asocia al resultado obtenido la suma de
los valores que obtenemos en el primer y en el segundo lanzamiento. Si = (i, j)
entonces X() = i + j.
1. Indicar que valores puede tomar la variable X.
2. Obtener la funci
on de probabilidad de la variable X.
3. Obtener las probabilidades siguientes: P (X 1), P (X 2), P (X > 2), P (X
4), P (4 X 6), P (4 < X 6), P (4 X < 6).
3.3.3.
Consideremos el siguiente experimento. Cogemos una muestra de panga vietnamita y medimos la concentraci
on de mercurio en dicha muestra. El resultado es
la muestra que hemos tomado. De esta muestra nos interesa solamente la concentraci
on de mercurio. Nos interesa el valor asociado a la muestra y no la muestra
misma. Por ello podemos definir X() = x donde x es la concentracion medida
de mercurio. El valor aleatorio que observamos los denotamos por X, la variable
aleatoria. Una vez hemos observado el valor, esto es, una vez se ha realizado la determinaci
on de mercurio el valor ya no es aleatorio. Es un valor dado, por ejemplo,
una concentraci
on de 0,5 miligramos por kilogramo. Este valor ya no lo denotamos
con la letra may
uscula sino con la letra en min
uscula, x. Que nos interesa conocer sobre estos valores aleatorios? Posiblemente muchas cosas pero lo mas basico
(y de lo cual se deduce cualquier otra) es conocer la probabilidad que tenemos de
que el valor que observemos este entre dos n
umeros. Que probabilidad tenemos
de que la muestra que analicemos de un valor entre 0,3 y 0,6? Que probabilidad
hay de observar un valor entre 0,4 y 0,8? O bien, si una cierta normativa afirma
que un valor por encima de 0,5 no se permite entonces parece natural plantearse:
cu
al es la probabilidad de observar una muestra por encima de este valor? O por
el contrario: con que frecuencia observamos muestras que no alcance el valor 0,5?
Las probabilidades que acabamos de indicar se denotan como: P (0,3 X 0,6),
P (0,4 X 0,8), P (X 0,5) y P (X 0,5). Sin tener que referirnos a valores
concretos podemos denotar de un modo generico todos los casos anteriores como
P (a X b) donde a y b toman los valores que queramos. Cuando consideramos
P (0,3 X 0,6) estamos tomando a = 0,3 y b = 0,6. Tambien P (X 0,5) tiene
esta forma ya que estamos tomando a0 = ,5 y b = +. Obviamente, P (X 0,5)
corresponde con a = y b = 0,5.
En resumen, cuando trabajamos con una variable aleatoria lo fundamental es
conocer las probabilidades P (a X b) donde a y b son n
umeros reales o a =
o b = +.
Cuando una variable es continua entonces la probabilidad anterior se puede
calcular como
Z
b
P (a < X b) =
f (x)dx.
a
La funci
on f recibe el nombre de funci
on de densidad (de probabilidad) de la
variable X.
De hecho se tiene que
Z b
P (a < X b) = P (a X < b) = P (a X b) =
f (x)dx.
a
15
1.0
0.8
0.6
0.0
0.2
0.4
0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
dx = b a,
f (x)dx =
a
3.3.4.
Ejercicios
17
0.30
0.25
0.20
0.00
0.05
0.10
0.15
18
1.0
0.5
0.0
0.5
1.0
1.0
0.5
0.0
0.5
1.0
Figura 3.6: Generamos 50 puntos aleatoriamente sobre el cuadrado [1, 1] [1, 1].
19
0.5
1.0
0.0
1.0
0.5
1.0
0.5
0.0
0.5
1.0
Figura 3.7: Generamos 50 puntos aleatoriamente sobre el cuadrado [1, 1] [1, 1].
20
2. Y P (X < 0,5)?
3. Calcular P (X 0,5) y P (X > 0,5).
4. Determinar las siguientes probabilidades: P (0,6 < X 0,9), P (0,6 X <
0,9) y P (0,6 X 0,9).
Ejercicio 10 Consideremos una variable aleatoria uniforme en el intervalo [0, 8].
Se pide:
1. Que probabilidad tenemos de que la variable sea menor o igual que 0,5? En
otras palabras: cu
anto vale P (X 0,5)?
2. Y P (X < 0,5)?
3. Calcular P (X 0,5) y P (X > 0,5).
4. Determinar las siguientes probabilidades: P (0,6 < X 0,9), P (0,6 X <
0,9) y P (0,6 X 0,9).
3.3.5.
Funci
on de distribuci
on
(3.6)
es decir, sumamos la probabilidad de que la variable tome cada uno de los valores
que puede tomar y que son menores o iguales al valor x.
Ejemplo 6 Consideramos la variable aleatoria discreta tal que su funci
on de probabilidad aparece en la tabla 3.1. Vamos a determinar la funci
on de distribuci
on.
Las probabilidades que aparecen en la tabla 3.1 aparecen representadas en la figura
3.3. La funci
on de distribuci
on la hemos representada en la figura 3.9.
En el caso de una variable que sea continua se tiene la igualdad
Z
FX (x) =
f (t)dt.
(3.7)
0.30
0.20
0.05
0.10
0.15
0.00
Funcin de probabilidad
0.25
22
10
1.0
0.8
0.4
0.6
0.2
0.0
10
23
x
P (X = x)
0.00
0.20
1.00
0.11
2.00
0.13
3.00
0.24
4.00
0.27
5.00
0.02
6.00
0.01
7.00
0.01
8.00
0.00
9.00
0.01
3.3.6.
Ejercicios
Ejercicio 11 Consideremos el experimento aleatorio consistente en lanzar dos veces un dado. Un resultado del experimento puede ser = (1, 3) indicando que en
primer lugar hemos obtenido un 1 y en el segundo lanzamiento hemos obtenido un
3. Consideramos la variable aleatoria que asocia al resultado obtenido la suma de
los valores que obtenemos en el primer y en el segundo lanzamiento. Si = (i, j)
entonces X() = i + j. Se pide:
1. Determinar la funci
on de distribuci
on de la variable aleatoria X.
2. Representar de un modo manual la funci
on de distribuci
on que hemos determinado en el punto 1.
3. Representar la funci
on de distribuci
on utilizando la funci
on stepfun.
Ejercicio 12 Supongamos una variable uniforme en el intervalo [2, 6] que denotamos como X U (2, 6). Se pide:
1. Determinar la funci
on de distribuci
on de la variable aleatoria X.
2. Representar gr
aficamente la funci
on de distribuci
on de la variable aleatoria
X.
Ejercicio 13 Supongamos una variable uniforme en el intervalo [2, 6] que denotamos como X U (2, 6). Se pide:
1. Representar gr
aficamente la funci
on de distribuci
on utilizando las funciones
plot y punif.
3.4.
Media y varianza
Una variable suele describirse de un modo simple mediante su media y su varianza. La media nos da una idea de alrededor de que valor se producen los valores
aleatorios de la variable mientras que la varianza cuantifica la dispersion de estos
valores alrededor de la media.
3.4.1.
24
x <- 0:9
probabilidades <- c(0.2, 0.11, 0.13, 0.24, 0.27, 0.02, 0.015,
0.009, 9e-04, 0.0051)
sample(x, size = 1, replace = TRUE, prob = probabilidades)
## [1] 0
Supongamos que repetimos el proceso de extracci
on 100 veces.
n <- 100
(y <- sample(x, size = n, replace = TRUE, prob = probabilidades))
##
##
##
##
[1]
[28]
[55]
[82]
9
4
3
4
1
1
2
0
2
0
2
3
4
4
3
4
6
0
4
5
2
4
0
4
1
4
3
3
4
3
3
4
2
0
4
3
2
8
2
3
4
3
3
0
0
2
2
3
3
1
0
4
1
3
2
3
3
3
4
4
3
4
3
4
3
4
3
4
6
4
3
3
0 1 0 2 1 0 4 3 3
1 3 3 6 3 4 1 3 4
0 4 0 1 0 9 4 0 1
3
n
X
yi
i=1
n
X
nx
x
n
x=0
donde nx denota el n
umero de veces que aparece el resultado x. Obviamente cuando
el n
umero de datos que generamos va creciendo la frecuencia relativa de veces que
aparece el resultado x que viene dada por el cociente nx /n, se va aproximando a la
probabilidad P (X = x). Por ello tendremos que
yn =
n
n
X
X
nx
x
xP (X = x).
n
x=0
x=0
En nuestro caso el n
umero medio de personas que viven en la vivienda vendra
dada por
25
2.5
2.0
1.5
1.0
0.0
0.5
cumsum(y)/(1:n)
2000
4000
6000
8000
10000
1:n
+
X
xi P (X = xi ).
i=1
Ejemplo 8 Lanzamos la moneda si sale cara la variable X vale uno y si sale cruz
la variable X vale cero. Cu
al es su media?
= 1 p + 0 (1 p) = p.
26
3.4.2.
Varianza y desviaci
on tpica
Definici
on 3 (Varianza y desviaci
on tpica) Si X es una variable aleatoria discreta que toma los valores {x1 , x2 , . . .} entonces la varianza de X se define como
var(X) = 2 = E(X )2 =
+
X
(xi )2 P (X = xi ).
i=1
Habitualmente adem
as de la varianza se suele utilizar para medir variabilidad la
desviaci
on tpica dada por
v
u+
uX
p
= var(X) = t (xi )2 P (X = xi ).
i=1
Definici
on 5 Si X es una variable continua con funci
on de densidad f entonces
la varianza de X se define como
Z +
var(X) = 2 =
(x )2 f (x)dx,
(x )2 f (x)dx.
X = =
Hemos visto antes que si vamos observando valores de una variable entonces las
sucesivas medias muestrales se van aproximando a la media poblacional. Ocurre
algo similar con la varianza y con la desviacion tpica? Por supuesto que s.
3.5.
Variable binomial
n
umero total de exitos. Una variable de este tipo recibe el nombre de variable
binomial con n pruebas y una probabilidad de exito p y se suele denotar como
X Bi(n, p).
Observemos que los valores que puede tomar esta variable son 0, 1, 2, . . . , n, esto es,
desde cero exitos hasta n exitos. Que probabilidad tenemos de observar un n
umero
determinado de exitos? Esta probabilidad, P (X = x) es la funcion de probabilidad
de la binomial y se prueba que tiene la siguiente expresion.
n x
P (X = x) =
p (1 p)nx .
(3.8)
x
Si tenemos una variable binomial X con n pruebas y una probabilidad de exito
p, X Bi(n, p), entonces su media es
EX = =
n
X
n x
x
p (1 p)nx = np,
x
x=0
(3.9)
n
X
(x np)2
x=0
n x
p (1 p)nx = np(1 p).
x
(3.10)
Nota de R 4 (Funci
on de probabilidad de la binomial) La funci
on dbinom
nos permite calcular la funci
on de probabilidad de una variable binomial. Por ejemplo, que probabilidad tenemos de obtener 70 caras si lanzamos 123 veces una moneda. La respuesta es
dbinom(70, size = 123, prob = 0.5)
## [1] 0.02231
Nota de R 5 (Simulaci
on de una variable binomial) Supongamos que queremos lanzar una moneda 30 veces con R.5 Esto lo podemos hacer con
rbinom(30, size = 1, prob = 0.5)
## [1] 0 1 1 0 1 0 0 0 0 0 0 1 0 0 1 1 1 1 0 0 0 0 1 0 0 0 1 0
## [29] 1 1
El uno corresponde con exito (cara) y el cero con fracaso. Si repetimos el proceso
posiblemente no obtengamos los mismos resultados.
rbinom(30, size = 1, prob = 0.5)
## [1] 0 1 0 1 1 0 0 1 0 0 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1
## [29] 0 0
Realmente nos interesa el n
umero de exitos y no el orden en que se producen.
Esto lo podemos hacer con
5 Algo
28
Nota de R 6 (De c
omo calcular probabilidades de la distribuci
on binomial)
Supongamos que queremos calcular la probabilidad de obtener 23 exitos cuando realizamos 30 pruebas de Bernoulli donde la probabilidad de exito es 0,6, es decir,
pretendemos calcular para X Bi(30, 0,6) la funci
on de probabilidad en x = 23
dada por
30
P (X = x) =
(0,6)30 (1 0,6)3023 .
(3.11)
23
[1]
[6]
[11]
[16]
[21]
[26]
[31]
1.153e-12
1.248e-06
1.997e-03
7.831e-02
1.152e-01
4.149e-03
2.211e-07
5.188e-11
7.798e-06
5.448e-03
1.101e-01
8.228e-02
1.197e-03
1.128e-09
4.010e-05
1.294e-02
1.360e-01
5.049e-02
2.659e-04
29
1.580e-08
1.729e-04
2.687e-02
1.474e-01
2.634e-02
4.274e-05
1.600e-07
6.341e-04
4.895e-02
1.396e-01
1.152e-02
4.421e-06
0.15
0.10
0.05
0.00
10
15
20
25
30
0:30
Figura 3.11: Para una variable binomial con n = 30 y una probabilidad de exito de
p = 0,6 mostramos la funci
on de probabilidad que para cada x nos da la probabilidad
de que la variable tome ese valor, P (X = x).
30
0.20
0.15
0.10
0.05
0.00
10
12
14
3.5.1.
Ejercicios
Ejercicio 14 Se pide:
1. Simular 100 valores con distribuci
on binomial con 20 pruebas y una probabilidad de exito en cada prueba de 0,3. Guardar estos valores en el vector
x.
2. Calcular la media y varianza muestrales de los valores generados.
31
1.0
0.8
P(X <= x)
0.6
0.4
0.2
0.0
0
10
15
20
25
30
32
3.6.
Distribuci
on normal
Definici
on 6 (Variable normal) Una variable aleatoria X se dice que sigue una
distribuci
on normal con media y varianza 2 (o, simplemente, que es una variable
33
f (x)dx.
a
En esta secci
on asumimos siempre que la variable aleatoria sigue una distribucion
normal con media y con varianza 2 , X N (, 2 ).
En la figura 3.12 aparece un ejemplo de la funcion definida en 3.12. En concreto
es una normal con media 7 y varianza 4.
Ya lo indicamos en la propia definicion pero se puede demostrar que la media y
varianza de una normal son y 2 . En definitiva estamos afirmando que se verifican
las siguientes ecuaciones.
Z
xf (x)dx,
Z
=
(x )2 f (x)dx.
(3.13)
La representaci
on gr
afica de esta densidad la tenemos en la figura 3.14.
Si Z es una normal est
andar entonces la funci
on de distribuci
on, esto es, la
funci
on que para cada valor z nos da la probabilidad de que la variable sea menor o
igual que este valor z es la siguiente
Z z
1 2
1
e 2 x dx.
(z) =
(3.14)
2
34
0.4
0.3
Densidad
0.2
0.1
0.0
6
35
0.4
0.3
0.2
0.0
0.1
Densidad
36
1.0
0.8
0.6
0.0
0.2
0.4
Densidad
37
0.4
0.3
0.2
0.0
0.1
Densidad
10
15
20
Z=
X
N (0, 1).
(3.15)
Esta transformaci
on recibe el nombre de tipificaci
on o estandarizaci
on de la variable aleatoria X.
En la figura 3.17 mostramos la densidad de una variable X normal con media
7 y varianza 4 y la densidad de la variable tipificada Z.
Nota 3 (De c
omo calculaban los antiguos las probabilidades con la normal)
Que problema nos planteamos? Suponemos que una cierta cantidad sigue una distribuci
on normal con unos par
ametros (media y varianza) dados. Nos planteamos
8 Esta afirmaci
on es simplemente consecuencia de la siguiente igualdad (y perd
on por la ecuaci
on)
Z b
Z b
(x)2
1 2
1
1
1
e 2 x dx.
e 2 2 dx =
a
2
2
a
38
c
omo calcular la probabilidad de que la variable este en un cierto intervalo. Por
ejemplo, sabemos que el valor aleatorio que observamos sigue una distribuci
on normal con media 56 y desviaci
on tpica 9. Que probabilidad tenemos de que la variable
aleatoria tome un valor entre 60 y 63? Nos planteamos el valor de la siguiente probabilidad: P (60 X 63). Esta probabilidad corresponde con la zona rayada de
negro en la figura 3.18. Para calcular este
area se aplicaban las siguientes igualdades
donde Z = (X 56)/3,
X 56
63 56
60 56
=
P (60 X 63) = P
3
3
3
60 56
63 56
63 56
60 56
P
Z
=P Z
P Z
. (3.16)
3
3
3
3
Pero la variable Z es una normal est
andar por lo que
60 56
63 56
60 56
63 56
P Z
=
.
P Z
3
3
3
3
De un modo generico lo que acabamos de indicar es que si X N (56, 9) entonces
60 56
63 56
,
P (60 X 63) =
3
3
siendo la funci
on de ditribuci
on de una normal est
andar.
Si suponemos que X N (, 2 ) y tomamos dos n
umeros a y b tales que a b
entonces
b
a
P (a X b) =
,
(3.17)
0.12
0.10
0.08
0.06
0.00
0.02
0.04
Densidad
50
55
60
x
Figura 3.18: Densidad de una N (56, 9). El area de la zona rayada en negro corresponde a la probabilidad de que la variable este entre 60 y 63.
40
0.20
0.15
0.10
0.00
0.05
Densidad
10
15
20
25
30
35
40
Figura 3.19: Funciones de densidad de una normal con media 16 y desviacion tpica 2 (trazo continuo), de una normal con media 16 y desviacion tpica 3 (trazo
discontinuo) y una normal con media 24 y desviacion tpica 2 (trazo punteado).
41
La funci
on de distribuci
on de la variable X, es decir, F (x) = P (X x) la
obtenemos con
pnorm(14, mean = 16, sd = 2)
## [1] 0.1587
Podemos representar esta funci
on.
0.6
0.4
0.0
0.2
0.8
1.0
10
15
20
x2
entonces la gr
afica es m
as plana. Los valores normales se observan alrededor de la
media y est
an m
as o menos dispersos seg
un el valor de sea mayor o menor.
Hay una interpretaci
on sencilla de la desviaci
on est
andar. Consideremos el intervalo [ , + ], que probabilidad tenemos de que una variable aleatoria con
distribuci
on normal este en este intervalo?
P ( X + ) = P (1
X
1) = P (1 Z 1)
(3.18)
+1
x2
1
e 2 dx =
2
1
Z +1
Z 11
x2
1 x2
1
2
e
e 2 dx = (1) (1). (3.19)
dx
2
2
P (1 Z 1) =
(3.21)
(3.22)
que es igual a
pnorm(3, mean = 0, sd = 1) - pnorm(-3, mean = 0, sd = 1)
## [1] 0.9973
En la tabla 3.3 tenemos las probabilidades que hemos calculado. De un modo sencillo podemos decir: la variable dista de la media en una desviaci
on
est
andar con una probabilidad de 0.68, en dos desviaciones con una probabilidad de 0.95 y en tres desviaciones est
andar con una probabilidad
de 0.99.
43
P ( X + )
0.6826895
P ( 2 X + 2)
0.9544997
P ( 3 X + 3)
0.9973002
3.7.
Ejercicios
Ejercicio 18 Se pide:
1. Simular 100 valores con distribuci
on normal con media 20 y desviaci
on tpica
3. Guardar estos valores en el vector x.
2. Calcular la media y varianza muestrales de los valores generados.
3. Comparar la media muestral observada con 20 y la varianza muestral observada con 9 que corresponden con la media y la varianza te
oricas.
4. Repetir los apartados anteriores sustituyendo las 100 simulaciones por 1000,
por 10000 y por 100000. Comparar en cada caso los valores te
oricos con los
valores muestrales.
Ejercicio 19 Consideremos una variable aleatoria con distribuci
on normal con media 20 y desviaci
on tpica 3. Se pide:
1. P (X 23).
2. P (X < 23).
3. P (X > 29).
4. P (X 29).
5. P (34 < X 45).
6. P (34 X 45).
44
Captulo 4
Distribuci
on muestral
4.1.
Poblaci
on y muestra aleatoria
4.2.
Distribuci
on muestral de una variable binomial
[1] 0 0 0 0 1 0 0 0 0 0
Y el individuo que ocupa la posici
on 100000 es
X[1e+05]
## [1] 0
Ahora vamos a simular el muestreo aleatorio de la poblaci
on. Tomamos una
muestra de tama
no n = 100 y observamos la proporci
on de personas enfermas en
la muestra.
n = 100
x = sample(X,n)
x
##
##
##
##
[1]
[28]
[55]
[82]
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0
## [1]
## [19]
3
4
5
4
4 10
4.2.1.
Ejercicios
4.3.
Distribuci
on muestral de la media bajo normalidad
Supondremos que es una poblacion normal con media = 160 y una desviacion
est
andar de 10.23. Podra corresponder con la altura de los individuos. Suponemos
que hay N = 237456 personas en la poblacion en estudio. Como no vamos a medir
a tantas personas ahorramos tiempo generando aleatoriamente estos valores.
N <- 237456
X <- rnorm(N, mean = 160, sd = 10.23)
Es una poblaci
on de 2,3746 105 individuos. Por X estamos denotando toda la
poblaci
on. Es decir, suponemos (de un modo irreal) que tenemos a toda la poblacion.
Podemos ver los 10 primeros elementos de la poblacion con
X[1:10]
## [1] 155.7 159.3 166.8 166.4 168.7 153.2 159.5 152.5 155.1
## [10] 145.8
La figura 4.1 tenemos un histograma de toda la poblacion. La figura 4.2 tiene
un estimador kernel de la densidad de probabilidad.
Como conocemos toda la poblacion podemos conocer su media o media poblacional y vale:
(mu <- mean(X))
## [1] 160
Tomamos una muestra de n = 100 individuos de la poblacion con la funcion
sample.
hist(X)
20000
10000
0
Frequency
30000
40000
Histogram of X
120
140
160
180
200
plot(density(X))
0.02
0.01
0.00
Density
0.03
0.04
density.default(x = X)
120
140
160
180
200
n <- 100
x <- sample(X, n)
Parece natural aproximar o, dicho con propiedad, estimar el valor desconocido
de con la media muestral. Veamos el valor:
mean(x)
## [1] 159.5
Si repetimos la selecci
on de los individuos y el calculo de la media muestral
tenemos
x <- sample(X, n)
mean(x)
## [1] 158.5
Podemos repetirlo muchas veces e iremos obteniendo valores distintos. En la
figura 4.3 estimador kernel de la densidad de los valores generados.
Supongamos que repetimos lo anterior pero incrementando el tama
no de la muestra. En lugar de tomar muestras de tama
no 100 pasamos a tomar muestras de
tama
no 400. En la figura 4.4 mostramos las medias muestrales obtenidas para diferentes muestras. Las medias muestrales estan mucho mas proximas a la media
poblacional.
Finalmente supongamos que tomamos muestras de tama
no creciente y mostramos en abscisas el tama
no de la muestra y en ordenadas la media muestral
observada. En la figura 4.5 tenemos el resultado. Lo repetimos. En la figura 4.6
tenemos las medias observadas. No obtenemos las mismas medias muestrales pero
si un comportamiento aleatorio similar.
Si denotamos la muestra aleatoria que estamos extrayendo de la poblacion con
X1 , . . . , Xn entonces la media muestral (que utilizaremos para estimar la media
poblacional) tiene una distribucion (o se distribuye como) una normal con media
2
2
(la media poblacional) y con varianza X
n = n , la varianza poblacional dividida
por el tama
no de la muestra. De un modo resumido esto se expresa con
2
n N (, )
X
n
(4.1)
(4.2)
164
162
160
156
158
Media muestral
50
100
150
200
250
300
Muestra
164
162
160
156
158
Media muestral
50
100
150
200
250
300
Muestra
160.5
160.0
159.5
158.5
159.0
Media muestral
5000
10000
15000
20000
Muestra
160.6
160.4
160.2
160.0
159.8
159.4
159.6
Media muestral
5000
10000
15000
20000
Muestra
10
Nota de R 9 Por ejemplo, supongamos que nos interesa saber que probabilidad
tiene la media muestral de ser menor que 162. Como estamos suponiendo que conocemos toda la poblaci
on podemos tomar como varianza la de toda la poblaci
on.
(x) =
1
(t )2
dt.
exp
2 2
2
4.3.1.
Ejercicios
4.4.
Distribuci
on muestral de la media en poblaciones no normales. Teorema central del lmite
4.4.1.
Aproximaci
on de la distribuci
on binomial
p p
p(1 p)/n
(4.3)
4.4.2.
Ilustraci
on del teorema central del lmite
z = P (Z z)
(4.5)
lm P
n+
n
donde Z es una variable con distribucion normal con media 0 y varianza 1, es decir,
una normal est
andar o tpica.
1 En definitiva repetimos independientemente un mismo experimento y observamos una misma
cantidad cada vez.
12
4.4.3.
Ejercicios
Ejercicio 27
1. Supongamos una distribuci
on binomial con p = 0,5 y n = 10 y
queremos calcular la probabilidad de que p sea menor o igual a 7/10. Obtener
el valor exacto y el valor aproximado utilizando la aproximaci
on dada por el
teorema central del lmite.
2. Repetir el punto anterior obteniendo el valor exacto y el valor aproximado de
P (0,3 p 0,7).
Ejercicio 28
1. Supongamos una distribuci
on binomial con p = 0,5 y n = 100 y
queremos calcular la probabilidad de que p sea menor o igual a 0,55. Obtener
el valor exacto y el valor aproximado utilizando la aproximaci
on dada por el
teorema central del lmite.
2. Repetir el punto anterior obteniendo el valor exacto y el valor aproximado de
P (0,45 p 0,55).
13
14
Captulo 5
Estimaci
on
5.1.
Introducci
on
5.2.
La poblaci
on
5.3.
Estimaci
on puntual
Nota 5 (Estimando una media) Vamos a ilustrar los conceptos con una poblaci
on finita. Y muy grande. Suponemos que tenemos una poblaci
on de 237456 personas que conocemos la altura de cada una de las personas.1 Los datos los tenemos
en el vector X.
Por ejemplo, las estaturas de las diez primeras personas (en centmetros) son
## [1] 157.7 161.8 156.5 158.7 159.2 153.2 154.4 155.9 162.7
## [10] 164.0
Por X estamos denotando toda la poblacion. Por lo tanto la media de la poblaci
on o media poblacional la conocemos. Simplemente hemos de realizar la media
muestral de todas las estaturas.
(mu <- mean(X))
## [1] 160
Pretendemos estimar la media poblacional (que en nuestro ejemplo artificial conocemos) utilizando una muestra aleatoria de 10 individuos (una muestra no muy
grande ciertamente). Podemos elegir la muestra aleatoria con la funci
on sample.
Por ejemplo, una primera muestra estara compuesta por los individuos
n <- 10
(x <- sample(X, n))
## [1] 155.9 154.9 159.8 158.3 161.9 160.6 152.8 159.2 163.2
## [10] 166.2
Nuestra estimaci
on sera
(mediamuestral <- mean(x))
## [1] 159.3
de modo que el error que cometemos es
1 Hemos tenido la santa paciencia de medir la estatura de cada uno de ellos. Y ellos se han
dejado.
mediamuestral - mu
## [1] -0.7008
Supongamos que repetimos la estimaci
on varias veces y veamos los diez primeros
valores que obtenemos
## [1] 159.7 161.0 160.0 156.5 159.9 159.4 161.4 159.7 161.4
## [10] 159.8
Veamos un resumen de los errores observados.
errores <- estimaciones - mu
summary(errores)
##
##
Median
-0.057
Max.
3.960
De hecho, en la figura 5.1 hemos representado un estimador kernel de las estimaciones y una lnea vertical mostrando la media real.
As es como funciona la estimaci
on puntual. Hemos visto una situaci
on irreal
en que tenemos todos los valores que componen la poblaci
on y, por lo tanto, podemos conocer la media de la poblaci
on. Esto no es nunca as. Conocemos una
muestra aleatoria de la poblaci
on que denotaremos por X1 , . . . , Xn y, con estos valores, pretendemos estimar la media de la poblaci
on . De hecho, hemos utilizado
estos valores y obtenido un metodo para estimar , a esto le podemos llamar un
estimador de y denotarlo como
n =
=X
n
X
Xi
i=1
5.4.
Algunas definiciones
Definici
on 7 (Muestra aleatoria) Una muestra aleatoria (de tama
no n) son n
valores aleatorios X1 , . . . , Xn que tienen la misma distribuci
on y son independientes
entre s.
Definici
on 8 (Estimador) Un estimador es cualquier funci
on de la muestra aleatoria X1 , . . . , Xn que toma valores admisibles para el par
ametro que estimamos.
5.5.
Estimaci
on puntual de la media
0.15
0.00
0.05
0.10
Density
0.20
0.25
density.default(x = estimaciones)
154
156
158
160
162
164
166
5.6.
5.6.1.
N (, ),
X
n
o, lo que es equivalente, que
X
N (0, 1),
n
donde N (0, 1) es una normal con media cero y varianza uno, lo que se conoce como
una normal est
andar o normal tpica. 2
Notemos que, asumiendo la desviaci
on est
andar conocida, en la expresion n X
1,96
X
n
1,96 = 0,95
o, lo que es equivalente,
= 0,95.
P X 1,96 X + 1,96
n
n
1,96 , X
+ 1,96 ] tiene una probabilidad de 0,95
Vemos que el intervalo [X
n
n
de contener a o tambien de cubrir a . Si ahora sustituimos los valores aleatorios
Xi con i = 1, . . . , n con los valores observados en la muestra entonces el intervalo
1,96 , X
+ 1,96 ] pasa a ser un intervalo fijo [
aleatorio [X
x 1,96 n , x
+
n
n
1,96 n ] que conocemos como intervalo de confianza con nivel de confianza 0,95.
Nota de R 10 (Intervalo de confianza con R) Vamos a evaluarlo con R. Empezamos tomando los datos.
(x <- sample(X, 10))
## [1] 160.8 150.3 154.0 170.0 161.2 148.4 160.6 159.4 161.9
## [10] 161.9
Determinamos la media muestral y la desviaci
on est
andar muestral.
media <- mean(x)
s <- sd(x)
Por lo tanto el intervalo tendr
a por extremo inferior
(extremo.inferior <- mean(x) - qnorm(0.975, mean = 0, sd = 1) *
sd(x)/sqrt(n))
## [1] 154.9
y por extremo superior.
(extremo.superior <- mean(x) + qnorm(0.975, mean = 0, sd = 1) *
sd(x)/sqrt(n))
## [1] 162.8
6
X
n
c) = 1
o que
X
c)) = 1 .
2
Denotamos el valor de c que verifica lo anterior como Z1 2 . Finalmente el intervalo
P(
Z1 , X
+ Z1 ]
[X
2
2
n
n
cubre a con una probabilidad de 1 y el intervalo de confianza es el que obtenemos cuando sustituimos los valores aleatorios por los valores observados. Es decir,
el intervalo de confianza viene dado por
+ Z1 2 ]
[
x Z1 2 , x
n
n
De un modo generico: C
omo podemos determinar el intervalo de confianza que
acabamos de ver? Fijamos el nivel de confianza 1 (en este caso a 1 = 0,99
o equvalentemente = 0,01).
alpha <- 0.01
Determinamos el extremo inferior:
(extremo.inferior <- mean(x) - qnorm(1 - alpha/2, mean = 0, sd = 1) *
sd(x)/sqrt(n))
## [1] 153.7
y el superior
(extremo.superior <- mean(x) + qnorm(1 - alpha/2, mean = 0, sd = 1) *
sd(x)/sqrt(n))
## [1] 164
El intervalo es el siguiente:
c(extremo.inferior, extremo.superior)
## [1] 153.7 164.0
El u
ltimo paso es rogar a Dios que las cosas hayan ido bien. Tenemos una
confianza de 1 (0,99 en el ejemplo) de que el valor real de la media este en
este intervalo. Pero esto no quiere decir que realmente lo est
a. Si repetimos un gran
n
umero de veces el valor real de la media est
a en el intervalo un (1 ) 100 %
de la veces (un 99 % en el ejemplo) pero puede ocurrir (desgracias de la vida) que
estemos en el 100 (en el ejemplo un 1 %) restante. En general la cosa va bien
porque elegimos un nivel de confianza grande (pr
oximo a uno) pero no siempre va
bien.
7
5.6.2.
(5.2)
En la expresi
on anterior lo conocemos todo (una vez tenemos los datos) excepto el
valor de . Sin embargo, la distribucion de probabilidad de esta cantidad ya no es
una normal est
andar. Nos aparece una distribucion de probabilidad nueva que se
conoce como la distribuci
on t de Student. 4
se comporta
De hecho, William Sealy Gossett demostro que la cantidad n X
S
como una t de Student con n 1 grados de libertad. Esto lo denotaremos como
T =
X
tn1 .
n
S
(5.3)
0.4
0.3
0.2
0.0
0.1
dt(u, df = 9)
0.4
0.3
0.2
0.1
0.0
10
0.4
0.3
0.2
0.1
0.0
11
qt(0.975, df = 9)
## [1] 2.262
Denotamos el valor de c tal que
P (T c) = 1
,
2
(5.4)
12
Nota 7 (Obtenci
on del intervalo de confianza utilizando t.test) No hace falta escribir todo lo anterior para calcular el intervalo de confianza. El intervalo de
confianza para la media lo podemos obtener con la funci
on t.test. De hecho, nos da
el intervalo de confianza y alguna cosa m
as que, de momento, no necesitamos.
alpha <- 0.05
t.test(x, conf.level = 1 - alpha)
##
##
##
##
##
##
##
##
##
##
##
13
100
80
60
40
20
0
156
158
160
162
164
Intervalos de confianza
14
15
Cuadro 5.1: Resumen de los resultados de Matematicas II. Las etiquetas indican:
Matric., matriculados; Present.,presentados; Aptos, aptos; Media, nota media; DE,
desviaci
on est
andar; Present. FG, presentados fase general; Present. FE, presentados fase especfica; Aprob. FE, aprobados fase especfica; Media FG, media fase
general; DE FG, desviaci
on tpica fase general; Media FE, media fase especfica; DE
FG, desviaci
on tpica fase especfica. En filas tenemos las universidades de Alicante
(UA), la Jaume I de Castell
on (UJI), la Miguel Hernandez de Elche (UMH), la Universidad de Valencia (UV) y todos los estudiantes en el Sistema de Universidades
Valencianas (SUV).
Universidad
UA
UJI
UMH
UPV
UV
SUV
Matric.
783
530
693
1073
1525
4604
Present.
771
518
673
1049
1488
4499
Universidad
UA
UJI
UMH
UPV
UV
SUV
Present. FG
276
213
267
422
546
1724
Universidad
UA
UJI
UMH
UPV
UV
SUV
Media FG
5,053
4,852
4,304
5,135
5,170
4,969
Aptos
401
249
262
589
851
2352
Present. FE
495
305
406
627
942
2775
DE FG
1,839
1,874
1,812
1,959
1,89
1,909
Media
4,989
4,857
4,369
5,274
5,212
5,021
DE
2,124
2,088
1,922
2,070
2,053
2,077
Aprob. FE
254
148
154
357
537
1450
Media FE
4,954
4,860
4,412
5,367
5,237
5,054
DE FE
2,267
2,225
1,989
2,137
2,141
2,174
16
global. En el siguiente c
odigo
media <- 5.021
desviacion.estandar <- 2.077
n <- 4499
alpha <- 0.01
(extremoinferior <- media - qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 4.941
(extremosuperior <- media + qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 5.101
De modo que el intervalo de confianza viene dado por [4.941,5.101].
Y ahora para la nota en la fase general.
media <- 4.969
desviacion.estandar <- 1.909
n <- 1724
alpha <- 0.01
(extremoinferior <- media - qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 4.85
(extremosuperior <- media + qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 5.088
El intervalo es [4.85, 5.088]. Y terminamos con la media en la fase especfica.
media <- 5.054
desviacion.estandar <- 2.174
n <- 2775
alpha <- 0.01
(extremoinferior <- media - qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 4.948
(extremosuperior <- media + qt(1 - alpha/2, df = n - 1) * desviacion.estandar/sqrt(n))
## [1] 5.16
5.6.3.
Ejercicios
5.7.
En esta secci
on nos planteamos (por primera vez) un problema de calculo de tama
no de la muestra. Cu
antos datos hemos de tener para que nuestro estudio tenga
validez? Es una pregunta muy generica sin respuesta. La respuesta necesita que
concretemos m
as lo que queremos de nuestros datos. En esta seccion nos planteamos la siguiente pregunta: Cuantos datos necesitamos para que cuanto estimamos
una media poblacional el error maximo que cometemos sea menor que una cantidad
que previamente especificamos? Por ejemplo, queremos conocer la concentracion
media de un elemento en una zona. Queremos conocer esta cantidad, denotada por
, con un error m
aximo de unidades siendo una cantidad positiva que fijamos
nosotros. Lo primero que hemos de tener en cuenta es que en Estadstica nunca
podemos afirmar con seguridad nada. Podemos pedir que sea muy probable o, mejor, que tengamos mucha confianza en que ocurra pero que seguro que ocurra es
mucho pedir. Siempre hacemos afirmaciones basadas en la probabilidad de sucesos
que pueden o no ocurrir y, por lo tanto, afirmar que nuestro error va a ser menor
que un cierto nivel siempre o seguro no es posible.
Vamos a responder a la pregunta anterior utilizando los datos chorizon del proyecto Kola. Pretendemos estimar la concentracion media de escandio en Noruega
(dentro del proyecto Kola). Ya hemos determinado un intervalo de confianza para
con un nivel 1 . Por ejemplo, con = 0,05 el intervalo es
t.test(Sc.Nor, conf.level = 0.95)$conf.int
## [1] 2.479 3.079
## attr(,"conf.level")
## [1] 0.95
Tenemos una confianza de 0,95 de que el valor de este dentro (este cubierto
por) el intervalo anterior. Asumamos que la cosa ha ido bien, esto es, asumamos
que est
a dentro. No lo sabemos pero confiamos con un nivel de confianza 0,95
que esto sea as. Pues bien, lo asumimos. A la pregunta: en cuanto estimas ?,
respondemos (sin dudar) que en
mean(Sc.Nor)
## [1] 2.779
esto es, respondemos dando el valor de la media muestral x
de las concentraciones
utilizadas para calcular el intervalo. Esta media muestral es el punto medio del
intervalo. Por lo tanto si esta en intervalo entonces la diferencia entre y el
centro es menor o igual que la mitad de la longitud de dicho intervalo que vale
## [1] 0.5996
Que error absoluto tenemos con la muestra que se tomo? Guardamos el intervalo
de confianza en Sc.ci.
18
[1]
[1]
[1]
[1]
[1]
[1]
[1]
[1]
[1]
[1]
[1]
5.7.1.
280.0000
281.0000
282.0000
283.0000
284.0000
285.0000
286.0000
287.0000
288.0000
289.0000
290.0000
0.2016
0.2013
0.2009
0.2006
0.2002
0.1999
0.1995
0.1991
0.1988
0.1985
0.1981
Ejercicios
Ejercicio 32 Utilizamos los datos chorizon del paquete StatDA. Se quiere estimar
la la concentraci
on media de escandio en Finlandia y en Rusia. Queremos estimar
estas medias con un error m
aximo de 0,20.
1. Determinar el n
umero de datos (tama
no de la muestra) que necesitamos en
Finlandia para tener un error m
aximo de 0,20. Y si queremos un error m
aximo de 0,1?
20
5.8.
Estimaci
on de la varianza en poblaciones normales
i=1
2
(n 1)S 2
(n 1)S 2
2 2
2
1/2,n1
/2,n1
(n 1)S 2 (n 1)S 2
,
21/2,n1 2/2,n1
= 1 .
k
x
1
x 2 1 e 2 para x 0 y cero en otro caso.
2k/2 (k/2)
21
0.10
0.08
0.06
0.04
0.00
0.02
dchisq(x, df = 10)
10
15
20
25
30
22
0.10
0.08
0.06
0.04
0.00
0.02
dchisq(x, df = 10)
10
20
30
40
50
23
5.8.1.
Ejercicios
5.9.
Estimaci
on de una proporci
on
Supongamos que denotamos por p la proporcion a estimar (proporcion de aprobados en un examen, proporci
on de votantes de un cierto partido poltico). Realmente disponemos (antes de tomar los datos) de una muestra aleatoria X1 , . . . , Xn
donde cada valor aleatorio Xi puede tomar los valores 1 y cero con probabilidades
p y 1 p. El estimador de p viene dado por
p =
n
X
Xi
i=1
p(1 p)/n
N (0, 1).
p(1 p)/n
N (0, 1).
25
Placebo
Aspirina
No ataque
10845
10933
library(Hmisc, T)
binconf(x = 189, n = 11034, method = "asymptotic")
##
##
PointEst
Lower
Upper
0.01713 0.01471 0.01955
PointEst
Lower
Upper
0.009423 0.00762 0.01123
En principio parece que si tomas aspirina tienes una probabilidad menor de tener
el ataque. En cualquier caso en lo que sigue veremos el problema de comparar las
proporciones.
5.9.1.
Ejercicios
5.10.
Tama
no de la muestra en la estimaci
on de
una proporci
on
En la secci
on anterior hemos
visto un intervalo de confianza para
estimar una
q
q
p(1
p)
p(1
p)
proporci
on. Es el intervalo pZ1/2
, p+Z1/2
. Este intervalo
n
n
tiene nivel de confianza 1 . Dados unos datos tenemos el intervalo. Supongamos
que la cosa ha ido bien: El intervalo que calculamos cubre al valor verdadero de p.
Tenemos una confianza 1 de que esto sea cierto. Bien. El intervalo cubre a p
pero nuestra estimaci
on puntual de p es p. Si nos piden que demos un valor para p
responderemos dando la estimacion puntual, dando el valor p. La diferencia entre
la estimaci
on puntual que damos y el valor real de p (que desconocemos y siempre
desconoceremos) es como mucho la mitad de la longitud del intervalo de confianza
(siempre asumiendo que p est
a dentro de este intervalo). En otras palabras:
r
|
p p| Z1/2
p(1 p)
.
n
Un intervalo que acierte mucho es bueno, esto es, un nivel de confianza alto
es bueno. De hecho, menos de un 90 % no se suele utilizar. Pero no solo importa
el nivel de confianza. Por ejemplo, el intervalo [0, 1] tiene un nivel de confianza
de 1. Cu
al es la proporci
on de personas que sufren ataque de corazon tomando
aspirina? Si respondemos que esta proporcion esta entre 0 y 1 estamos haciendo
una afirmaci
on con una confianza de uno. No nos equivocamos en absoluto. Pero
tambien la afirmaci
on es absolutamente in
util. No nos dice nada que no supieramos
previamente. En resumen el intervalo que damos para estimar p tiene que ser tal
que confiemos que contiene el valor que queremos conocer pero tambien tiene que
ser preciso, tan estrecho como podamos para que sea informativo. Es facil suponer
que precisi
on supone m
as muestra, mas datos.
El problema se plantea normalmente del siguiente modo. Quiero estimar la proporci
on p y quiero que hacerlo con un error maximo dado (por ejemplo, = 0,02).
Necesitamos una primera muestra. Para que? Para tener una estimacion inicial de
p. Denotemos el tama
no de esta primera muestra como n0 y la estimacion puntual
de p obtenida como p0 . Entonces podemos plantearnos que valor de n verifica que
r
Z1/2
p0 (1 p0 )
p0 (1 p0 )
2
La estimaci
on inicial de la proporcion no necesariamente la tenemos que obtener de
una muestra inicial. Puede que tengamos alguna muestra previa de esa poblacion o
alguna estimaci
on que obtengamos de alguna publicacion.
5.10.1.
Ejercicios
28
Captulo 6
Contraste de hip
otesis
6.1.
Introducci
on
6.2.
concentraci
on en estas muestras utilizando un metodo analtico determinado
y tenemos que comparar los valores medidos con la concentracion previamente
fijada. Estamos evaluando el funcionamiento del procedimiento de determinaci
on, es pues, un control de calidad del laboratorio en cuestion.
Estas preguntas se pueden (y deben para poder responderlas) concretar en otras
como:
1. La concentraci
on efluente media durante 30 das en la descarga de aguas
residuales en un cierto emisario supera los 137 mg/l?1
2. La concentraci
on de torio en la superficie del suelo promediada sobre un
cuadrado de 100 metros de lado es mayor de 10 picocuries por gramo?
6.2.1.
Un contraste unilateral
[1]
[8]
[15]
[22]
[29]
[36]
[43]
[50]
[57]
[64]
[71]
[78]
[85]
[92]
[99]
1518.3
1789.1
1667.9
1606.6
1290.6
1732.5
2107.4
1430.9
1693.6
1083.0
1417.3
1364.1
1272.2
2243.8
1428.2
1150.3
1792.9
1754.3
1796.0
1381.3
1262.0
1755.3
2160.6
2153.2
2185.3
1918.8
1539.3
1486.9
1255.5
1796.4
1586.5
1931.5
1962.9
1913.1
1942.5
1729.9
1506.4
1738.7
1799.3
1743.1
1555.6
1716.0
1499.6
1394.3
1064.2
1419.0
1593.9
991.1
1585.7
1490.7
1895.4
1270.8
1345.3
1708.1
1709.6
1534.9
1489.4
1192.8
1457.0
1256.1
1309.7
986.1
2180.0
1366.7
1339.3
2093.7
2175.6
1385.4
1743.1
2136.2
1733.6
1327.6
1473.1
1294.1
1599.1
1714.3
1603.4
2048.5
1736.7
1629.4
1939.3
706.9
829.8
1620.5
1928.9
1418.5
837.0
1809.1
1369.6
1263.1
1660.6
1838.2
1754.3
1456.1
1843.8
1439.8
1834.8
1233.1
1922.9
1909.1
La afirmaci
on del fabricante la consideramos como una hipotesis que hemos de
evaluar. En concreto nos planteamos dicha hip
otesis y su negaci
on. De un modo
m
as preciso la hip
otesis de una duraci
on media menor o igual a 1500 y su negaci
on
seran
H0 : 1500,
H1 : > 1500,
donde H0 y H1 son las hip
otesis nula y alternativa respectivamente.3 Hemos de
1 Siento
obviamente este el m
aximo valor permitido.
bombilla dura algo m
as. http://www.centennialbulb.org/index.htm.
3 En algunos textos se denotan las hip
otesis nula y alternativa como H0 y Ha respectivamente.
2 Alguna
elegir entre una de ellas. Elegir supone decidir. Hemos de decidir, con los datos
que tenemos sobre las duraciones de las bombillas, cu
al de las hip
otesis es m
as
compatible con los datos: la nula o la alternativa. Esto supone tomar una decisi
on:
bien rechazamos la hip
otesis nula o bien no rechazamos la hipotesis nula.
Y c
omo decidimos? El procedimiento que se utiliza es tomar una funci
on de la
muestra aleatoria, T (X1 , . . . , Xn ), y en funci
on de los valores que toma decidir. En
este contraste, el estadstico habitualmente utilizado es el siguiente
T =
n 1500
X
.
S/ n
(6.1)
x
n 1500
,
s/ n
(6.2)
tn1 .
(6.3)
T =
S/ n
Supongamos que no queremos equivocarnos rechazando la hip
otesis nula cuando
es cierta m
as que un 5 % de las ocasiones. Al error que cometemos cuando hacemos
esto se le llama error tipo I. Esto supone que, coloc
andonos en la situaci
on lmite
entre las hip
otesis nula y alternativa, hemos de elegir el valor de la constante c de
modo que
P (T c) = 0,05,
(6.4)
o, equivalentemente, que
P (T c) = 1 0,05 = 0,95.
(6.5)
0.4
0.3
0.2
0.0
0.1
dt(valores.x, df = n 1)
10
10
valores.x
> 0 .
Decisi
on
Rechazamos H0
No rechazamos H0
Realidad
H0
H1
Error tipo I
Error tipo II
se le ha prestado m
as atenci
on. Se considera el error a controlar. Por ello, se le pone
una cota, un valor m
aximo. Esta cota es el nivel de significaci
on . El valor mas
habitual para es 0,05. Otros valores que habitualmente se utilizando son 0,01 o
0,1. El otro posible error consiste en no rechazar la hipotesis nula cuando realmente
no es cierta. Es el error tipo II. Como todo error ha de ser peque
no. Este tipo de
error lo podemos controlar utilizando muestras grandes. Fijamos un y con mas
muestra tendremos un menor error tipo II.
El procedimiento para realizar un contraste de hipotesis es el siguiente:
1. Planteamos el contraste de hipotesis.
2. Fijamos un nivel de significacion .
3. Tomamos los datos.
4. Evaluamos el valor del estadstico.
5. Si el estadstico est
a en la region crtica rechazamos la hipotesis nula. En otro
caso, no rechazamos dicha hipotesis nula.
Suponemos fijado . Calculamos el estadstico.
T =
n 0
X
S/ n
(6.6)
t0 =
x
n 0
.
s/ n
(6.7)
y el valor observado
Bajo la hip
otesis de que la media poblacional vale 0 , = 0 , se tiene que
T =
n 0
X
tn1 ,
S/ n
(6.8)
y t0 sera un valor observado de una variable aleatoria con distribucion t con n-1
grados de libertad.
Supongamos que queremos (es una eleccion del decisor que somos nosotros) un
error tipo I que sea menor o igual a (habitualmente 0,05, 0,01 o 0,1) entonces la
regla de decisi
on es:
Rechazamos H0 si T > tn1,1 , o dicho de otro modo, rechazamos si T
[tn1,1 , +).
En otro caso, no rechazamos H0 .
Si denotamos C = [tn1,1 , +) entonces estamos rechazando cuando el valor del
estadstico est
a en C. Rechazamos H0 si T C y no la rechazamos en otro caso. A
este intervalo le llamamos regi
on crtica.
Lo que acabamos de hacer se puede hacer de otro modo.
5
Vemos c
omo la funci
on no nos da el valor a partir del cual rechazamos. Simplemente nos indica el p-valor y la hip
otesis alternativa. Que hip
otesis nula tenemos?
La hip
otesis nula la obtenemos por negaci
on de la alternativa que nos da la salida.
Y la decisi
on la hemos de tomar nosotros que, al fin y al cabo, somos el decisor.
El nivel de significaci
on lo hemos elegido a priori. Si trabajamos con un nivel de
significaci
on = 0,05 entonces podemos ver en la salida anterior que dicho p-valor
es menor que 0,05 y rechazamos la hip
otesis nula. Ah se acaba la historia. Un
contraste de hip
otesis se acaba cuando se ha tomado una decisi
on.
Ejemplo 13 Vamos a fijarnos en la concentraci
on de nquel en Rusia en los datos
chorizon del paquete StatDA ?. Vamos a suponer que una concentraci
on media por
encima de 20 es peligrosa. Con los datos observados, podemos considerar que la
6
0.4
0.3
dt(valx, df = n 1)
0.2
0.1
0.0
t0
4
valx
concentraci
on media es 20 o mayor? Formulamos el siguiente contraste. Hay que
demostrar que efectivamente estamos por debajo del nivel de peligrosidad.
H0 : 20,
H1 :
> 20.
Vamos a realizar el contraste. Cargamos los datos y seleccionamos las concentraciones relativas a Rusia.
library(StatDA)
## Error: there is no package called StatDA
data(chorizon)
## Warning: data set chorizon not found
attach(chorizon)
Ni.Rus <- Ni[which(COUN == "RUS")]
Ahora podemos aplicar el test.
t.test(Ni.Rus, alternative = "greater", mu = 20)
##
##
##
##
##
##
##
##
##
##
##
Vemos que el p-valor vale 0.9978 que es menor que 0,05. Rechazamos la hip
otesis
nula.
6.2.2.
0 ,
H1 :
< 0 .
La empresa debe de probar que las concentraciones medidas en las muestras de agua
no superan en media el valor que se le indica. El contraste se puede hacer con dos
procedimientos equivalentes.
Primer procedimiento
[1]
[10]
[19]
[28]
[37]
[46]
[55]
[64]
[73]
[82]
[91]
[100]
[109]
[118]
[127]
20.97
36.48
27.73
25.83
31.57
36.14
31.32
31.85
30.94
27.97
35.57
44.71
34.95
27.08
28.46
39.54
26.59
32.75
35.52
33.47
29.22
36.10
32.68
33.31
25.18
35.23
43.04
23.57
16.56
31.29
32.49
26.52
34.47
20.58
43.76
42.37
29.05
25.09
37.60
28.55
34.23
33.64
34.87
27.14
33.98
26.07
25.95
31.10
30.27
38.50
33.49
23.12
17.99
35.76
32.59
36.48
33.49
20.96
31.04
37.47
41.71
29.25
30.95
40.16
29.70
26.96
36.75
34.00
34.48
35.66
26.87
32.99
38.57
28.51
31.52
36.02
32.95
34.89
24.30
25.60
43.60
21.06
30.22
32.48
44.18
21.43
23.93
26.96
25.05
35.51
29.69
35.98
38.42
29.90
29.37
37.48
28.42
33.36
31.59
33.87
34.17
37.60
32.19
33.96
29.77
33.44
30.12
15.10
27.80
27.75
31.78
31.97
32.71
38.26
26.76
31.27
20.46
25.58
22.70
32.34
29.46
19.94
30.69
29.76
30.44
29.64
28.44
33.41
23.68
34.15
32.27
31.75
22.43
29.52
##
##
##
##
##
##
##
6.2.3.
= 0 ,
H1 :
6= 0 .
6= 23.
= 24,
H1 :
6= 24.
Realizamos el contrate.
t.test(Ni.Rus, alternative = "two.sided", mu = 24)
##
##
##
##
##
##
##
##
##
##
##
6.3.
Hemos estudiado c
omo estimar, mediante un intervalo de confianza, la media de
una variable normal. El intervalo
nivel de confianza 1 viene
de confianza con un
n tn1,1/2 s/ n]. Supongamos que tomamos
dado por [
xn tn1,1/2 s/ n, x
0 en este intervalo. Nos planteamos el siguiente contraste:
H0 : = 0 ,
H1 :
6= 0
6= 0
11
no rechazaremos la hip
otesis nula con un nivel de significacion . Y viceversa: si
consideremos todos los valores 0 para los cuales no rechazamos la hipotesis nula
(con un nivel de significaci
on ) en el contraste formulado anteriormente tenemos
un intervalo de confianza para con nivel de confianza 1 .
Ejemplo 15 Vamos a ilustrar con datos lo dicho. Recuperamos el contraste de si
la media de nquel en Rusia es de 23.
t.test(Ni.Rus, alternative = "two.sided", mu = 23, conf.level = 0.95)
##
##
##
##
##
##
##
##
##
##
##
6.4.
Ejercicios
Ejercicio 42 (Berthouex and Brown [2002], ejercicio 16.1) Una empresa advierte que un producto qumico tiene un 90 % de efectividad en la limpieza y cita
como prueba que en una muestra de diez aplicaciones se observ
o un promedio de
limpieza del 81 %. El gobierno dice que esto es publicidad enga
nosa porque el 81 %
no igual al 90 %. La compa
na dice que el valor observado es de 81 %, pero f
acilmente podra ser del 90 %. Los datos observados fueron 92, 60, 77, 92, 100, 90, 91,
82, 75, 50. Quien est
a en lo cierto y por que?
Ejercicio 43 (Berthouex and Brown [2002], ejercicio 16.2) Fermentaci
on. El
gas producido a partir de una fermentaci
on biol
ogica es puesto a la venta con la garanta de que el contenido medio en metano es de 72 %. Una muestra aleatoria de
n = 7 muestras de gas di
o un contenido de metano (en %) de 64, 65, 75, 67, 65, 74
y 75.
1. Llevar a cabo el contraste de hip
otesis con niveles de significaci
on de 0.10,
0.05 y 0.01 para determinar si es justo afirmar que el contenido medio es de
72 %.
2. Calcular los intervalos de confianza al 90 %, 95 % y 99 % para evaluar la afirmaci
on que el promedio es de un 72 %.
3. Cu
al es el error m
aximo observado en la estimaci
on de la media con un nivel
de confianza del 95 %?
12
1.330,
0.500,
0.560,
0.340,
0.160,
0.270.
0.040,
0.490,
0.410,
0.750,
0.210,
0.044,
1.160,
0.730,
0.870,
0.860,
Se pide:
1. Construir un intervalo de confianza para la media con nivel de confianza 0,90.
2. Contrastar la hip
otesis nula de una concentraci
on media menor o igual a 0,7.
3. Contrastar la hip
otesis nula de una concentraci
on media igual a 0,7.
Ejercicio 47 Se les envi
o a 14 laboratorios soluciones estandarizadas que fueron
preparadas de modo que contenan cada una de ellas 1.2 mg/L de oxgeno disuelto
(DO). Se les pidi
o que midieran la concentraci
on de oxgeno disuelto utilizando el
metodo Winkler. Las concentraciones obtenidas por cada uno de los laboratorios
fueron las siguientes:
1.2 1.4 1.4 1.3 1.2 1.35 1.4 2.0 1.95 1.1 1.75 1.05 1.05 1.4
Se pide:
1. Construir un intervalo de confianza con nivel de confianza 0,90 para la concentraci
on media de oxgeno disuelto.
2. Teniendo en cuenta el intervalo que hemos construido en el apartado anterior
se pide responder la siguiente pregunta: miden los laboratorios en promedio
una concentraci
on de 1.2 mg/L o, por el contrario hay un sesgo?
3. Contrastar la hip
otesis de que la concentraci
on media es igual a 1.2 mg/L con
un nivel de significaci
on = 0,1.
13
6.5.
Contraste de normalidad
Hemos vistos que, con mucha frecuencia, los procedimientos estadsticos que
hemos utilizado (y mucho de lo que sigue) asumen que los datos que estamos manejando pueden considerarse una muestra de una distribucion normal. Y esto es
as sin m
as? Hemos de asumirlo y confiar en nuestra suerte? No. Podemos contrastar esta hip
otesis. La hipotesis de que los datos que estamos usando siguen
una distribuci
on normal es una hipotesis a contrastar. Y estamos en condiciones de
poder hacerlo. El contraste lo podemos formular de un modo informal como:
H0 : Tenemos una muestra de una distribucion normal.
H1 : No tenemos una muestra de una distribucion normal.
Quiz
as una formulaci
on m
as formalista del contraste puede ser la siguiente donde
X es el valor aleatorio que estamos observando n veces.
H0 : X N (, 2 ) con < < + y 2 > 0.
H1 : X no sigue una distribucion normal.
Consideremos unos datos y veamos como evaluar si han sido generados seg
un una
distribuci
on normal. Realmente vamos a considerar dos conjuntos de datos. Uno de
ellos (que denotamos por x) s que sigue una distribucion normal mientras que la
segunda muestra (que denotamos por y) no sigue una distribucion normal. Vamos
a estudiar la normalidad de estas dos muestras y recordemos que nos ha de salir
siempre una valoraci
on afirmativa para x y negativa para y.
6.5.1.
Gr
aficos para evaluar la normalidad
Parece que lo primero es ver graficamente como son estos datos. En esta seccion
vemos el uso del dibujo q-q o dibujo cuantil-cuantil.
Nota 9 (Estimando la densidad de puntos) Una primera opci
on (bastante natural pero nada aconsejable) para evaluar la normalidad es utilizar un histograma o
un estimador kernel de la densidad. Nos dan una idea de c
omo se distribuyen los
puntos. En las figuras 6.3 y 6.4 mostramos el histograma y el estimador kernel de la
densidad respectivamente para la muestra x. Las figuras 6.5 y 6.6 son las an
alogas
para la muestra y. Que se espera ver en estas dos figuras si los datos son normales?
La mejor respuesta a esta pregunta es otra pregunta: se parecen las figuras a una
densidad normal? Yo dira que las figuras 6.3 y 6.4 correspondientes a la muestra
s que recuerdan la forma de la densidad normal mientras que esto no es cierto para
las figuras 6.5 y 6.6.
No es muy f
acil evaluar hasta que punto es normal la muestra con aproximaciones
de la densidad normal que es lo que son el histograma y el estimador kernel de la
densidad. De hecho, este tipo de representaciones no son nada aconsejables para
este prop
osito.
Hay una representaci
on grafica muy popular para este problema concreto: el
dibujo q-q o dibujo cuantil-cuantil. Que se pretende evaluar? Si los datos
pueden haber sido generados seg
un un modelo normal con la media y varianza que
sean. Si X es la variable que estamos observando (n veces), pretendemos evaluar
hasta que punto es cierto que
X N (, 2 ),
(6.9)
para alg
un y alg
un 2 . Supongamos que es cierta la afirmacion, suponemos cierta
que la variable sigue una distribucion normal. Elegimos una serie de probabilidades
14
20
10
0
Frequency
30
40
Histogram of x
10
12
14
16
15
18
0.15
0.10
0.05
0.00
Density
0.20
0.25
0.30
density.default(x = x)
10
12
14
16
16
18
30
20
10
0
Frequency
40
50
60
Histogram of y
10
20
30
40
50
17
60
70
0.02
0.01
0.00
Density
0.03
0.04
density.default(x = y)
20
40
60
18
80
pi =
(6.10)
6
= 0,375,
(6.11)
= 0,5.
(6.12)
o bien
Una vez hemos elegido estos valores pi hemos de determinar los valores de la abscisa
y la ordenada del i-esimo punto. Si xi con i = 1, . . . , n son los datos entonces los
ordenamos obteniendo los estadsticos ordenados x(i) que verifican
x(1) . . . x(n) .
Notemos que el i-esimo estadstico ordenado x(i) es aproximadamente el percentil
de orden pi . Ahora consideramos una distribucion normal estandar y consideramos
el valor qi tal que si Z es una variable aleatoria con distribucion normal estandar
entonces
Z qi
x2
1
e 2 dx.
pi = P (Z qi ) =
2
(y) =
x2
1
e 2 dx.
2
Entonces
pi = (qi ),
es decir,
qi = 1 (pi ).
En el dibujo q-q representamos los puntos (qi , x(i) ) con i = 1, . . . , n.
La nota 14 nos muestra c
omo realizar el dibujo de un modo simple utilizando
las funciones qqnorm y qqline.
Nota de R 14 (Dibujo q-q con las funciones qnorm y qqline) La funci
on qqnorm nos proporciona el dibujo q-q f
acilmente. En la figura 6.7 tenemos el c
odigo y
la representaci
on gr
afica para la muestra x. La figura 6.8 muestra el mismo dibujo
para la segunda muestra. Podemos considerar que los puntos de la figura 6.7 est
an
sobre una lnea recta, est
an alineados? Yo dira que s. Y los puntos de la figura
6.8? Creo que coincidiramos que no.
En las dos figuras estamos intentando ver si podemos superponer una lnea recta
a los puntos que estamos representando. No viene mal una ayuda visual que nos
coloque una buena lnea y sobre ella veamos si los puntos est
an cercanos a la lnea.
Se pueden superponer muchas lneas. Existe una pr
actica a la hora de elegir esta
lnea. Para trazar una lnea necesitamos dos puntos. Se eligen dos buenos puntos y
consideramos la lnea que pasa por ellos. El primero es el punto correspondiente a
los percentiles de orden 0,25, esto es, el cuartil inferior. Determinamos este cuartil
inferior en los datos observados (y es el valor de la ordenada) y en una distribuci
on
normal est
andar (y es el valor de la abscisa). El segundo punto es el correspondiente
5 Una
explicaci
on detallada de c
omo elegir estos valores lo podemos encontrar en o en ?, p
aginas
18 y siguientes
6 La funci
on pppoints nos indica los valores que realmente se utilizan.
19
Normal QQ Plot
16
12
14
10
Sample Quantiles
Theoretical Quantiles
20
Normal QQ Plot
50
60
40
20
30
10
0
Sample Quantiles
Theoretical Quantiles
21
qqnorm(x)
qqline(x)
Normal QQ Plot
16
14
12
Sample Quantiles
10
Theoretical Quantiles
6.5.2.
Constrastes de hip
otesis
Un procedimiento gr
afico siempre ayuda a descartar situaciones claras. En la
secci
on anterior hemos visto como podamos rechazar la normalidad de los datos y
22
qqnorm(y)
qqline(y)
Normal QQ Plot
50
60
40
30
10
20
Sample Quantiles
Theoretical Quantiles
23
mediante un dibujo q-q. Para los datos x no hemos podido rechazarla. Nos quedamos con esto? Admitimos que son datos normales y en paz? No. El siguiente
paso a dar consiste en utilizar un contraste de hipotesis. Vamos a comentar rapidamente los contrastes m
as utilizados. En este seccion utilizamos el paquete de R
nortest ? para los test ji-cuadrado y Kolmogorov-Smirnov. El test de Shapiro-Wilk
lo aplicamos con la funci
on shapiro.test de [R Core Team, 2013, stats].
Test de ShapiroWilk
Es otro test para determinar si podemos considerar unos datos normales Apliquemoslo a nuestros datos. Para la muestra x
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.9871, p-value = 0.2398
No rechazamos con un nivel de significacion de 0,05. Para la segunda muestra,
shapiro.test(y)
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.843, p-value = 5.271e-10
Test de Kolmogorov-Smirnov
Para aplicar este test utilizamos la funcion lillie.test del paquete [?, nortest].
Empezamos con los datos x.
lillie.test(x)
## Error: no se pudo encontrar la funci
on "lillie.test
Y ahora para los datos y.
lillie.test(y)
## Error: no se pudo encontrar la funci
on "lillie.test
Vemos c
omo rechazamos la normalidad de la muestra y mientras que no la
rechazamos para la muestra x a un nivel de significacion = 0,05.
6.6.
Ejercicios
Ejercicio 48
1. Bajad de Aula Virtual (Recursos) el fichero ejer93datos-input.rar.
En este fichero encontraremos a su vez los ficheros dat1.txt, . . ., dat6.txt.
2. Leer los datos de cada uno de los ficheros utilizando la funci
on read.table.
3. Para cada uno de los ficheros se pide realizar un dibujo q-q y valorar la hip
otesis de normalidad de un modo gr
afico.
4. Para cada fichero, se pide contrastar, utilizando los tests de Shapiro-Wilk,
ji-cuadrado y Kolmogorov-Smirnov, la hip
otesis de normalidad.
25
26
Captulo 7
Comparaci
on de dos
poblaciones normales
7.1.
Introducci
on
Distintos problemas relativos a comparar dos poblaciones se tratan en este tema. Empezamos abordando el problema de la comparacion mediante herramientas
puramente descriptivas de las dos muestras de que disponemos, una por poblacion
en estudio. Seguimos con la comparacion de dos poblaciones normales, en particular, la comparaci
on de sus medias y varianzas. Continuamos con la comparacion
mediante el test de Kolmogorov-Smirnov para dos muestras. Terminamos con un
test de Montecarlo para comparar las medias de dos poblaciones.
7.2.
Comparaci
on descriptiva de las muestras
[1]
[12]
[23]
[34]
[45]
26.7
25.3
18.3
22.7
20.9
22.7
21.9
20.6
25.3
25.2
24.0
23.4
27.7
22.5
26.5
22.7
17.5
25.7
23.8
19.9
24.2
25.1
27.3
21.6
21.8
21.1
23.1
20.9
22.3
21.3
25.8
19.8
24.1
21.0
21.6
24.4
23.4
22.2
24.9
20.7
24.0
22.7
23.0
22.2
20.7
33.7
36.1
37.2
27.3
27.7
32.8
29.8
28.1
26.7
31.5
25.6
27.8
26.8
40.4
29.0
35.0
32.2
26.3
31.1
33.5
34.6
30.2
29.1
28.4
27.3
27.6
30.4
34.0
24.6
[1]
[12]
[23]
[34]
[45]
29.4
29.1
26.1
35.3
28.2
34.6
26.7
29.6
32.1
27.2
27.4
29.9
27.0
19.0
28.3
30.2
29.7
26.1
27.0
31.2
30.3
23.8
31.9
27.5
27.1
Que significa comparar las dos muestras? Supongamos que son concentraciones
de un cierto elemento en dos zonas distintas. Desde un punto de vista estadstico, son
realizaciones de variables aleatorias. Si repetimos el muestreo obtendremos valores
distintos en cada una de las dos zonas observadas. Por tanto, la comparacion no
puede ser comparar los valores numericos uno a uno. Tampoco puede ser comparar
sin m
as alg
un resumen de los datos como la media y la varianza muestrales. En
nuestro caso, los valores observados son para la primera muestra
mean(x)
## [1] 22.94
sd(x)
## [1] 2.284
y para la segunda
mean(y)
## [1] 29.62
sd(y)
## [1] 3.709
Casi tiene un mayor interes la comparacion grafica de ambas muestras. En la
figura 7.1 tenemos el histograma de la muestra x (arriba) y el estimador kernel de
la densidad (abajo). En la figura 7.2 tenemos las mismas representaciones para la
segunda muestra, y.
Podemos considerar que ambas muestras han sido obtenidas de una misma
poblaci
on? O, por el contrario: proceden de distintas poblaciones?
Una primera cuesti
on es que pretendemos comparar muestras obtenidas de posiblemente dos poblaciones distintas. No parece una buena opcion utilizar figuras
distintas (bien histogramas bien estimadores kernel). Ambos dibujos se configuran
para su propia muestra. Por ejemplo, el n
umero de clases de cada histograma depende del n
umero de datos y por lo tanto es distinta. La anchura de banda de
los estimadores kernel tambien son distintos. En resumen, si queremos comparar lo
l
ogico es representar conjuntamente ambas muestras. Como? Utilizar histogramas
conjuntos no es especialmente u
til o de interpretacion facil. Es preferible utilizar
colocar en una misma gr
afica los dos estimadores kernel. Un detalle, el nivel de
suavizado debe de ser el mismo para los dos estimadores, o dicho de otro modo, la
anchura de banda ha de ser la misma. En la figura 7.3 se muestra una representaci
on conjunta de ambos estimadores kernel de la densidad. Los datos muestran una
forma simetrica y vemos que la muestra y toma valores mayores que la muestra x.
Sin embargo, es una pura interpretacion grafica. Hemos de estimar las diferencias
entre las muestras y contrastar si ambas muestras proceden de distintas poblaciones
con contrastes de hip
otesis formales. Es lo que vamos a hacer.
Cuando comparamos dos poblaciones hay que hacerse varias preguntas y en
funci
on de las respuestas que obtengamos planteamos la comparacion. Son los datos
normales? Es la primera pregunta que debemos responder: Podemos considerar que
los datos proceden de dos poblaciones normales? De otro modo: la primera muestra
2
procede de una poblaci
on normal con media y varianza X y X
desconocidos y la
segunda muestra procede de una poblacion normal con media y varianza Y y Y2
desconocidos? Obviamente esto supone pasar test de normalidad a nuestros datos.
2
6
0
Frequency
10
12
Histogram of x
16
18
20
22
24
26
28
0.00
0.05
Density
0.10
0.15
density.default(x = x)
3
15
20
25
30
15
0
10
Frequency
20
25
30
Histogram of y
15
20
25
30
35
40
45
0.06
0.04
0.02
0.00
Density
0.08
0.10
0.12
density.default(x = y)
4
15
20
25
30
35
40
45
0.00
0.05
Density
0.10
0.15
density.default(x = x, bw = h)
15
20
25
30
35
40
N = 45 Bandwidth = 1.174
Cada una de las dos muestras ha de pasar el test de normalidad. Supongamos que
la respuesta es afirmativa. El problema de comparar las poblaciones se simplifica.
C
omo es la densidad de una normal? Si la variable aleatoria X N (X , Y2 )
entonces su funci
on de densidad es
(xX )
12
1
2
X
e
f (x) =
2X
7.3.
0.30
0.25
0.20
0.15
0.00
0.05
0.10
Densidades
10
15
20
25
Figura 7.4: Dos densidades normales con distinta media y la misma varianza.
0.30
0.25
0.20
0.15
0.00
0.05
0.10
Densidades
10
15
20
25
Figura 7.5: Dos densidades normales con la misma media y distintas varianzas.
0.30
0.25
0.20
Densidades
0.15
0.10
0.05
0.00
0
10
15
20
25
7.3.1.
Estimaci
on de la diferencia de medias
n Ym ) (X Y )
(X
n Ym )
SE(X
(7.1)
10
Sp2 =
T =
1
m
Y (X Y )
X
q
tn+m2 ,
1
Sp n1 + m
(7.2)
Sp
.
n+m2
2
SX
n
Sy2
m
T =
con
0 =
2
SX
n
2 /n)2
(SX
n1
+
+
Sy2
m
(7.3)
2 /m)2
(SY
m1
Es decir, que T se distribuye aproximadamente como una distribucion t de Student 0 grados de libertad donde 0 no tiene porque ser un n
umero entero. El
intervalo de confianza con nivel de confianza 1 viene dado por
r
2
Sy2
SX
Xn Ym t0 ,1/2
+
.
n
m
Nota de R 18 Con los datos que estamos analizando los intervalos para la diferencia de medias con niveles de confianza 0,95 y 0,99 son
t.test(x, y, var.equal = FALSE, conf.level = 0.95)$conf.int
## [1] -7.889 -5.470
## attr(,"conf.level")
## [1] 0.95
y
t.test(x, y, var.equal = FALSE, conf.level = 0.99)$conf.int
## [1] -8.282 -5.078
## attr(,"conf.level")
## [1] 0.99
7.3.2.
Contraste de hip
otesis
X 6= Y .
La regi
on crtica, es decir, los valores para los cuales rechazamos la hipotesis
nula es:
|T0 | > t,1/2
siendo
T0 =
Y
X
q
Sp n1 +
12
,
1
m
(7.4)
(7.5)
y = 0 .
El p-valor viene dado por
p = P (T0 |t0 |)
siendo t0 el valor observado de T0 en cada caso.
Nota de R 19 (Test de la t para comparar medias) Supongamos que el nivel de significaci
on elegido es = 0,01. Vamos a contrastar la igualdad de medias
en los dos casos. Con varianzas iguales tendremos:
t.test(x, y, var.equal = TRUE)
##
##
##
##
##
##
##
##
##
##
##
7.3.3.
X > Y .
13
H0 : X Y ,
H1 :
X < Y .
7.3.4.
Ejercicios
Se pide:
1. Calcular el intervalo de confianza con un nivel de confianza del 95 % para la
diferencia de las medias.
2. Existen diferencias significativas entre las medias.
Ejercicio 50 Las mediciones de plomo. A continuaci
on damos las concentraciones
medidas de plomo en soluciones que son identicas, salvo por la cantidad de plomo
que se ha a
nadido. Catorce muestras contenan 1,25mg / L y 14 contenan 2,5
mg / L. Es consistente la diferencia de los medias muestrales observadas con la
diferencia (real) de 1,25 mg / l?
Con 1.25 mg/L
1.1 2.0 1.3 1.0 1.1 0.8 0.8 0.9 0.8 1.6 1.1 1.2 1.3 1.2
Con 2.5 mg/L
2.8 3.5 2.3 2.7 2.3 3.1 2.5 2.5 2.5 2.7 2.5 2.5 2.6 2.7
7.4.
Hasta ahora no nos hemos preocupado de las varianzas de las poblaciones normales con las que estamos trabajando. Ya es hora de hacerlo. Ademas es enormemente
importante estimar y contrastar cosas sobre las varianzas. Tenemos dos muestras correspondientes a dos poblaciones. Tenemos, como siempre, un doble interes: estimar
y contrastar.
15
7.4.1.
Estimaci
on del cociente de varianzas
<<<<-
45
54
rnorm(n, mean = 23, sd = 2.45)
rnorm(m, mean = 30, sd = 3.45)
Si llamamos a la funci
on var.test tenemos lo siguiente:
var.test(x, y)
##
##
##
##
##
##
##
##
##
##
##
##
Si miramos la u
ltima lnea vemos que no nos est
a estimando cada varianza
separadamente. En lugar de ello, como nos interesa compararlas, lo que estimamos
2
/Y2 .
es el cociente X
2
Las varianzas de las dos poblaciones se comparan utilizando el cociente X
/Y2 .
Podemos estimarlo o bien contrastar hipotesis sobre el cociente. El estimador puntual de esta cantidad es
2
SX
(7.6)
SY2
que con nuestros datos vale 0.594 indicando que la primera varianza es menor que
2
la segunda. Bien, nos hemos centrado en la estimacion de X
/Y2 . Siempre que estimamos damos una estimaci
on puntual (que acabamos de ver en 7.6) y un intervalo
de confianza. Para obtenerlo utilizamos la cantidad pivotal siguiente:
2
2
SX
/X
F (n 1, m 1)
SY2 /Y2
(7.7)
0.0
0.5
1.0
1.5
x0
Figura 7.7:
17
2.0
2.5
0.0
0.2
0.4
0.6
0.8
1.0
1.4
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.5
1.0
1.5
2.0
x0
18
2.5
7.4.2.
Contraste de hip
otesis para el cociente de varianzas
H1 :
2
X
6= Y2 .
2
X
2
Y
= 1,
H1 :
2
X
2
Y
6= 1.
2
= Y2 (o H0 :
Bajo la hip
otesis de que H0 : X
F =
2
X
2
Y
= 1) tenemos que
2
SX
F (n 1, m 1)
SY2
(7.8)
y podemos contrastar que las varianzas sean la misma rechazando la hipotesis nula
de igualdad con un nivel de significacion si
F < F/2 (n 1, m 1) o F > F1/2 (n 1, m 1).
Nota de R 22 Vamos a plantearnos si podemos considerar que las concentraciones
de bario en Rusia y Noruega tienen varianzas similares o no. En primer lugar
podemos observar las varianzas muestrales de ambas muestras
var(Ba[COUN == "RUS"])
## [1] 9730
var(Ba[COUN == "NOR"])
## [1] 1372
Vemos que la variabilidad en Rusia es mayor que la que tenemos en Noruega.
var.test(Ba[COUN == "RUS"], Ba[COUN == "NOR"])
##
##
##
##
##
##
##
7.4.3.
Ejercicios
Ejercicio 51 Estamos analizando dos catalizadores con objeto de determinar como afectan a la producci
on media de un proceso qumico. Teniendo en cuenta que
el segundo catalizador es m
as barato, este sera el elegido suponiendo que la producci
on media no se modifica manifiestamente. Se tomaron dos muestras, una por
catalizador, y se obtuvieron los resultados siguientes: en la muestra 1;
91.50, 94.18, 92.18, 95.39, 91.79, 89.07, 94.72, 89.21
y en la segunda muestra,
89.19, 90.95, 90.46, 93.21, 97.19, 97.04, 91.07, 92.75.
Se pide:
1. Podemos considerar que la varianza de las muestras es la misma?
2. Comparar las medias teniendo en cuenta la respuesta que hemos dado en el
apartado anterior.
Ejercicio 52 (Los bios
olidos) Los bios
olidos de una planta de tratamiento de
aguas residuales industriales se aplicaron a 10 parcelas seleccionadas aleatoriamente
de un total de 20 parcelas de ensayo de las tierra agrcola. El maz se cultiva en las
parcelas tratadas (T) y no tratadas (UT) con los siguientes rendimientos (fanegas
/ acre).
UT 126 122 90 135 95 180 68 99 122 113
T 144 122 135 122 77 149 122 117 131 149
20
7.5.
Comparaci
on de medias con muestras apareadas
XY = X Y . Teniendo en cuenta este resultado lo que vamos a hacer es olvidarnos de las variables X e Y y trabajar con la variable D = X Y y contrastar si
la media de la variable D es nula.
Nota de R 23 Supongamos las siguientes mediciones de humedad en n localizaciones con una diferencia de un da en la observaci
on.
Los valores de las muestras x e y (mostramos los 10 primeros solamente por
razones de espacio) son:
cbind(x[1:10], y[1:10])
##
## [1,]
## [2,]
## [3,]
## [4,]
## [5,]
## [6,]
## [7,]
## [8,]
## [9,]
## [10,]
[,1]
40.09
34.92
31.60
44.87
31.47
31.09
32.08
35.81
32.60
27.64
[,2]
33.79
47.96
34.10
39.26
38.73
30.88
31.96
44.88
24.67
44.56
[1]
[7]
6.3070 -13.0483
0.1257 -9.0683
-2.4990
5.6173
7.9304 -16.9234
-7.2576
0.2088
Ahora podemos obtener el estimador puntual de la diferencia de medias, el intervalo de confianza y el contraste de si la diferencia de medias vale cero utilizando
t.test sobre las diferencias.
t.test(d)
##
##
##
##
##
##
##
##
##
##
##
Otra opci
on en la que no necesitamos calcular previamente las diferencias es la
siguiente:
22
Paired t-test
data: x and y
t = -3.667, df = 144, p-value = 0.0003443
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.630 -1.387
sample estimates:
mean of the differences
-3.009
Como vemos lo que sale es lo mismo.
Paired t-test
data: x and y
t = 5.466, df = 14, p-value = 8.316e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
16.32 37.41
sample estimates:
mean of the differences
26.87
23
Paired t-test
data: x and y
t = 5.466, df = 14, p-value = 4.158e-05
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
18.21
Inf
sample estimates:
mean of the differences
26.87
7.5.1.
Ejercicios
Abril
Rio arriba Rio abajo
4.6
15.9
8.5
25.9
9.8
15.9
9.0
13.1
5.2
10.2
7.3
11.0
5.8
9.9
10.4
18.1
12.1
18.3
8.6
14.1
13
1.1
1.8
14
1.4
1.8
7.6.
En esta secci
on nos ocupamos del test no parametrico conocido como test de
Kolmogorov-Smirnov para dos muestras. 1
Hasta ahora hemos comparado poblaciones asumiendo que ambas poblaciones
tienen una distribuci
on normal. Las variables que observabamos seguan una distribuci
on normal. Que ocurre cuando no lo podemos asumir? Que ocurre cuando
nuestros datos son marcadamente no normales?
En la figura 7.9 tenemos los estimadores kernel de las densidades de dos muestras
que pretendemos comparar. Vemos claramente que las formas de las densidades
estimadas no se parecen en nada a los de una normal.
Un dibujo q-q para la muestra x aparece en la figura 7.10 y para la muestra y en
la figura 7.11. Vemos que en ambas figuras los puntos se alejan de la lnea. Ninguna
de las dos muestras puede considerarse normal. Finalmente, si aplicamos un test de
normalidad a las muestras (en concreto, vamos a utilizar el test de Shapiro-Wilk)
obtenemos los siguientes resultados.
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.8491, p-value = 3.469e-05
shapiro.test(y)
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.8665, p-value = 2.386e-05
Vemos c
omo el test de normalidad rechaza claramente que podamos considerarlas muestras normales. No parece muy razonable utilizar un test de comparacion de
medias basada en la distribucion t. Hay otras opciones? S que las hay. Ademas no
1 Es
26
0.04
0.00
0.02
Density
0.06
0.08
density.default(x = x, bw = h)
10
20
30
40
50
N = 45 Bandwidth = 2.891
27
50
Normal QQ Plot
40
30
20
Sample Quantiles
10
0
Theoretical Quantiles
Figura 7.10: Dibujo q-q de la muestra x. Vemos que los punto se alejan de la lnea
indicando que no hay normalidad en los datos.
son malas soluciones. En esta seccion nos ocupamos del test de Kolmogorov-Smirnov
para dos muestras. Es un procedimiento no parametrico. Un procedimiento se dice no parametrico cuando no asume ning
un modelo particular para los datos. No
suponemos que son normales o que son binomiales o que son exponenciales, etc.
A veces se les llama de distribucion libre indicando que no estamos sujetos a un
modelo especfico. Esto suena bien. De hecho es bueno pero tambien tiene su pago.
Asumimos menos hip
otesis pero tambien son procedimientos con menos potencia.
Les cuesta m
as rechazar la hipotesis nula.
La hip
otesis nula que pretendemos contrastar la podemos formular como:
H0 : Las muestras han sido extradas de una misma poblacion.
H1 : Las muestras han sido extradas de poblaciones distintas.
Para contrastar, como siempre, necesitamos un estadstico del contraste, un estadstico que compare ambas muestras. El estadstico no se basa en la comparacion
de las medias y varianzas muestrales como en los test anteriores. Denotamos las
muestras como x1 , . . . , xn e y1 , . . . , ym de tama
nos respectivos n y m. Consideramos las funciones de distribucion empricas o muestrales que denotamos Fn para
28
Normal QQ Plot
10
Sample Quantiles
15
20
Theoretical Quantiles
Figura 7.11: Dibujo q-q de la muestra y. Vemos que los punto se alejan de la lnea
indicando que no hay normalidad en los datos.
29
|{xi : xi z}|
.
n
(7.9)
es decir, D nos da la m
axima diferencia que observamos entre las funciones de
distribuci
on muestrales Fn y Gm . En la figura 7.12 representamos con un segmento
vertical la m
axima diferencia entre ambas funciones, esto es, el valor del estadstico
D. Por la definici
on del estadstico D es claro que rechazamos para valores grandes
de D. Si d es el valor observado entonces el p-valor vendra dado por
p = P (D d),
donde en la probabilidad anterior asumimos la hipotesis nula.
Nota de R 24 (Funci
on ks.test) El test de Kolmogorov-Smirnov para dos muestras lo podemos aplicar con la funci
on ks.test del siguiente modo:
ks.test(x, y)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: x and y
## D = 0.3963, p-value = 0.0005895
## alternative hypothesis: two-sided
La salida se autoexplica. Observamos un p-valor de 6 104 . Si trabajamos con
un nivel de significaci
on de = 0,05 entonces como el p-valor es menor que este
nivel rechazamos la hip
otesis nula. Podemos decir que hay diferencias significativas
en la distribuci
on de los datos a un nivel de significaci
on 0,05.
Ejercicio 60 En el fichero tmmaxVALENCIA.txt tenemos las temperaturas mnimas medias en la ciudad de Valencia desde el a
no 1937 hasta el 2011.
1. Leer los datos utilizando la funci
on read.table.
2. Comparar las temperaturas m
aximas medias desde 1937 hasta 1950 con las
temperaturas m
aximas medias desde el a
no 2000 hasta el 2011 utilizando un
test de Kolmogorov-Smirnov para dos muestras.
Ejercicio 61 En el fichero arsenico por compasion (que podemos leer con la funci
on read.table) tenemos las concentraciones de arsenico en distintas localidades de
Murcia y de la Comunidad Valenciana. Tenemos el valor antes y despues de una
modificaci
on del sistema de depuraci
on de las aguas. La variable region indica la
comunidad aut
onoma (1 para Murcia y 2 para la Comunidad Valenciana). Utilizando el test de Kolmogorov-Smirnov para dos muestras comparar las concentraciones
de arsenico entre comunidades. Haced esto antes de la modificaci
on. Repetirlo para
los datos observados despues de la modificaci
on.
30
1.0
0.6
0.4
0.0
0.2
Proportion <= x
0.8
2
0
10
20
30
40
50
z
n:99 m:0
31
7.7.
Ejercicios globales
32
Captulo 8
Correlaci
on y regresi
on
8.1.
(8.1)
(8.2)
80
100
z0
60
40
20
200
400
600
800
1000
x0
y0
200
400
600
800
1000
x0
que como vemos es una de los cuadrados de la diferencia del valor exacto yi y lo que
debiera de valer si la relaci
on fuera perfectamente lineal. Denotemos por 0 y 1 los
valores de 0 y 1 que minimizan la funcion dada en 8.4. Se prueba (sin dificultad
pero no es nuestro problema aqu) que tienen la siguiente expresion:
Sxy
n ,
1 = 2 , 0 = yn 1 x
sx
donde
(8.5)
Pn
x
n )(yi yn )
,
n1
es la covarianza muestral de los valores (xi , yi ) y
Sxy =
i=1 (xi
(8.6)
s2x =
1 X
(xi x
n )2 .
n 1 i=1
(8.7)
8.2.
Ejemplos
Ejemplo 18 (Temperatura en Valencia y Alicante) En el fichero valencia alicante temperaturas anyo 1939
Tenemos como variables las temperaturas mnimas y m
aximas para cada mes de los
a
nos que van de 1939 a 2010.
En la figura 8.4 tenemos los datos. Podemos predecir el valor de la temperatura
en Alicante si tenemos la temperatura en Valencia?
8.3.
Regresi
on lineal simple
200
150
100
Orange$circumference
50
500
1000
1500
Orange$age
Figura 8.3: Datos Orange. En abscisas tenemos la edad del arbol y en ordenadas
tenemos la circunferencia a la altura del pecho. Se aprecia una cierta dependencia
lineal.
100
80
x$tminAli1
60
40
20
40
60
80
100
x$tminVal1
Figura 8.4: En abscisas las temperaturas mnimas (en el mes de enero desde el a
no
1939 hasta el 2010) en Valencia y en ordenadas las temperaturas mnimas (en el
mismo mes y a
nos) en Alicante.
estudiamos c
omo se comporta Y dado el valor de X = x. Es decir, de la distribucion
condicionada de Y al valor de X = x.
Un ejemplo muy famoso de Francis Galton. Se tomaba como variable predictora
la estatura del padre y como variable respuesta o a predecir, la estatura de un hijo.
Es claro que para un mismo padre la estatura de sus hijos es variable. No todos
los hijos de un mismo padre miden lo mismo. No tiene ning
un sentido asumir una
relaci
on funcional entre la estatura de un padre y la de un hijo.
Tan tontos no son los estadsticos. De hecho, lo que se modeliza es la relacion
entre el valor x y el valor medio de la variable Y dado ese valor x. Siguiendo con
el ejemplo de Galton. Si consideramos un padre de estatura X = 178 centmetros.
Supondremos que la media de la variable Y que nos da la estatura aleatoria de un
hijo es la que se relaciona con x. Denotemos por E[Y | x] esta media (estatura media
de todos los hijos de un padre con estatura 178 centmetros). Hemos de admitir
que adem
as de lo que mide el padre, algo tendra que decir la madre, y tambien
otros muchos factores que todos podemos imaginar. De modo que Y , conocida la
estatura del padre, sigue siendo una cantidad aleatoria. De hecho, se asume que la
distribuci
on de Y es normal cuya media depende de Y , E[Y | x], pero cuya varianza
no depende de x, es decir, es una cantidad constante que denotaremos por 2 . En
resumen, estamos asumiendo que
Y N (E[Y | x], 2 ).
(8.8)
En el modelo de regresi
on m
as simple con el que se trabaja se asume que la media
condicionada E[Y | x] es una funcion lineal de x, en otras palabras, se asume que
E[Y | x] = 0 + 1 x.
(8.9)
Las hip
otesis asumidas en 8.8 y 8.9, podemos expresarlas conjuntamente diciendo
que la variable respuesta Y se puede expresar como
Y = 0 + 1 x + ,
(8.10)
N (0, 2 ).
(8.11)
donde
En la formulaci
on de 8.10 expresamos el valor aleatorio de Y como suma de una
parte que sistem
aticamente depende de x (la componente sistematica del modelo)
y un termino aleatorio con distribucion normal, un termino de error o desajuste del
modelo. En esta variable normal con media cero y varianza constante 2 estamos
incluyendo todas las posibles causas que influyen el valor de Y y que no vienen
dadas por la variable predictora.
No consideramos un solo valor aleatorio de Y dado un valor fijo de x. Realmente, tenemos n valores observados cuyos valores son independientes entre s pero no
tienen la misma distribuci
on. Hemos de pensar que cada Yi tiene una variable predictora distinta que influye en la distribucion de Yi . Tenemos pares (xi , Yi ) donde
la xi viene dada y consideramos la distribucion de Yi condicionada a xi , es decir,
Yi | xi .
Resumiendo, estamos asumiendo que Yi N (0 +1 xi , 2 ) y que los distintos Yi
son independientes entre si. Este modelo probabilstico es conocido como el modelo
de regresi
on lineal simple.
Al vector = (0 , 1 ) le llamaremos el vector de coeficientes. Los estimadores
de los obtenemos minimizando la suma de cuadrados siguiente
n
X
(yi 0 1 xi )2
i=1
(8.12)
(8.13)
2 =
n
X
i=1
X (yi yi )2
2i
=
.
n2
n2
i=1
(8.14)
De hecho,
2 =
SS(Error)
.
n2
(8.16)
Call:
lm(formula = y0 ~ x0)
Coefficients:
(Intercept)
4.57566
x0
-0.00398
Call:
lm(formula = y0 ~ x0)
Residuals:
Min
1Q
Median
-0.18973 -0.03640 -0.00021
3Q
0.04923
Max
0.14205
##
##
##
##
##
##
##
##
##
##
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.57566
0.02512
182.1
<2e-16 ***
x0
-0.00398
0.00004
-99.5
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.078 on 35 degrees of freedom
Multiple R-squared: 0.996,Adjusted R-squared: 0.996
F-statistic: 9.91e+03 on 1 and 35 DF, p-value: <2e-16
De momento podemos ver que los coeficientes estimados aparecen con la etiqueta
Estimate (estimaci
on). Tambien podemos ver un resumen de los residuos (mnimo,
m
aximo, primer y tercer cuartil y el segundo cuartil o mediana). En esta salida
vemos que la estimaci
on de la desviaci
on est
andar es 0.078.
Las predicciones de las observaciones (mostramos las diez primeras solamente)
las obtenemos con
predict(y0.fit)[1:10]
##
1
2
3
4
5
6
7
8
9
10
## 4.576 4.456 4.337 4.217 4.098 3.978 3.859 3.739 3.620 3.500
Y los residuos (tambien los correspondientes a las diez primeras observaciones)
vendran dados por
y0[1:10] - predict(y0.fit)[1:10]
##
1
2
## 0.0727865 -0.1067740
##
6
7
## -0.0002063 0.0446153
3
4
0.0200518 0.0938118
8
9
0.0623259 -0.0009408
5
0.0933779
10
0.0444121
3
4
0.0200518 0.0938118
8
9
0.0623259 -0.0009408
5
0.0933779
10
0.0444121
8.3.1.
: 1 = 0,
(8.17)
H1
: 1 6= 0.
(8.18)
P
(8.19)
1 N 1 , n
n )2
i=1 (xi x
Pn
En particular, la varianza de 1 es 2 / i=1 (xi x
n )2 . Como sabemos la raiz
cuadrada de la varianza del estimador es lo p
que llamamos
su error estandar. En
Pn
resumen, el error est
andar de 1 es SE(1 ) = 2 / i=1 (xi x
n )2 . No conocemos
2
(obviamente) la varianza del error aleatorio. Hemos visto como estimarla en la
ecuaci
on 8.16. El error est
andar estimado de 1 sera
s
d 1 ) =
SE(
2
.
n )2
i=1 (xi x
Pn
Se verifica que
v
u n
uX
1 1
t (xi x
n )2
tn2 .
i=1
(8.20)
i=1
Utilizando este resultado podemos contrastar hipotesis sobre 1 . En concreto, un
contraste con un nivel de significacion de supone rechazar la hipotesis nula cuando
|T1 | > tn2,1/2 .
Nota de R 26 En particular si vemos el resumen del ajuste.
summary(y0.fit)
##
##
##
##
##
##
##
##
##
Call:
lm(formula = y0 ~ x0)
Residuals:
Min
1Q
Median
-0.18973 -0.03640 -0.00021
3Q
0.04923
Coefficients:
10
Max
0.14205
##
##
##
##
##
##
##
##
##
4. Cu
al es el m
aximo residuo observado? A que observaci
on corresponde?
Ejercicio 66 Consideremos los datos Orange. Vamos a considerar como variable
predictora la circunferencia y como variable respuesta la edad del arbol. Se pide:
1. Ajusta un modelo de regresi
on lineal simple. Obtener el valor de los coeficientes.
2. Es un buen ajuste atendiendo al coeficiente de determinaci
on.
3. Realizar un dibujo que en abscisas tenga las predicciones y en ordenadas los
residuos. Que indica este dibujo? Interpretarlo.
4. Cu
al es el m
aximo residuo observado? A que observaci
on corresponde?
8.4.
Coeficiente de correlaci
on de Pearson
En la secci
on anterior nos planteabamos como, a partir de una variable a la que
llamamos predictora, aproximar el valor de una variable a la que llamamos variable
respuesta. Supongamos que nos planteamos una pregunta mas simple: estan relacionadas linealmente las dos variables que estamos considerando: las variables x e
y? Y la respuesta la hemos de dar utilizando los datos (xi , yi ) con i = 1, . . . , n. Un
valor que se utiliza frecuentemente para responder esta pregunta es el coeficiente de
Fue
propues- correlaci
on de Pearson. Se define del siguiente modo.
to por Karl
Definici
on 9 (Coeficiente de correlaci
on de Pearson)
Pearson.
Pn
(xi x
n )(yi yn )
p
pPn
r = Pn i=1
.
2
n )
n )2
i=1 (xi x
i=1 (yi y
Veamos una ilustraci
on grafica del concepto. En la figura 8.5 mostramos los
datos con los que vamos a trabajar.
En la figura 8.6 a
nadimos al diagrama de puntos mostrado en la figura 8.5 un
par de lneas que se cortan en el punto (
x, y): la lnea horizontal que corta al eje de
ordenadas en y y la lnea vertical que corta al eje de abscisas en x
.
Consideremos los productos cruzados (xi x
)(yi y). En la figura 8.7 reproducimos el dibujo de la figura 8.6. Simplemente, representamos en rojo aquellos puntos
donde el producto cruzado anterior es positivo y en azul aquellos puntos donde el
producto toma un valor negativo.
Tenemos una relaci
on razonablemente lineal entre las dos variables y por ello
vemos muchos m
as puntos rojos que azules. El coeficiente de correlacion lineal de
Pearson vale
cor(x1, y1)
## [1] 0.763
Vamos a repetir el mismo analisis con los siguientes datos donde la asociacion
lineal es mayor como se puede ver en la figura 8.8.
Ahora coloreamos con rojo y azul los puntos con el producto cruzado positivo o
negativo respectivamente.
Vemos c
omo hay muchos puntos azules. El nuevo coeficiente de correlacion lineal
de Pearson es
12
2
x
13
y1
x1
Figura 8.6: Los datos con dos lneas: la lnea horizontal que corta al eje de ordenadas
en y y la lnea vertical que corta al eje de abscisas en x
.
14
Figura 8.7: Los datos, la lnea horizontal que corta al eje de ordenadas en y y la lnea
vertical que corta al eje de abscisas en x
. Representamos en rojo aquellos puntos
donde el producto cruzado (xi x
)(yi y) es positivo y en azul aquellos puntos
donde el producto toma un valor negativo.
15
15
10
4
x
16
10
15
Figura 8.9: Los datos, la lnea horizontal que corta al eje de ordenadas en y y la lnea
vertical que corta al eje de abscisas en x
. Representamos en rojo aquellos puntos
donde el producto cruzado (xi x
)(yi y) es positivo y en azul aquellos puntos
donde el producto toma un valor negativo.
17
1.5
2.0
1.0
0.5
y1
0.0
0.5
1.0
1.5
x1
cor(x1, y1)
## [1] 0.9902
Mayor que en el caso anterior. Y un tercer ejemplo donde la asociacion lineal es
casi inexistente. En la figura 8.10 mostramos los datos.
Repetimos el dibujo con colores en la figura 8.11.
Vemos c
omo hay muchos mas puntos azules que en los dos casos anteriores. El
nuevo coeficiente de correlaci
on lineal de Pearson es
cor(x1, y1)
## [1] 0.01993
Esta es la idea gr
afica que subyace a este concepto. Cuanto mas se aproximan los
puntos a una lnea recta mayor es el valor absoluto del coeficiente de correlacion, mas
pr
oximo a uno. Si cuando x crece y crece entonces la recta el valor de coeficiente
de correlaci
on es positivo. Si cuando x crece y decrece entonces el coeficiente de
correlaci
on es negativo.
18
2.0
1.5
1.0
0.5
0.0
0.5
1.5
1.0
Figura 8.11: Los datos, la lnea horizontal que corta al eje de ordenadas en y y
la lnea vertical que corta al eje de abscisas en x
. Representamos en rojo aquellos
puntos donde el producto cruzado (xi x
)(yi y) es positivo y en azul aquellos
puntos donde el producto toma un valor negativo.
19
Si vemos la definici
on 9 que acabamos de dar se tiene que
sxy
.
sx sy
r=
La covarianza muestral
Pn
sxy =
i=1 (xi
x
n )(yi yn )
,
n1
est
a estimando la cantidad
E(X X )(Y Y ),
mientras que las desviaciones tpicas muestrales, sx y sy , no son mas que estimaciones de las desviaciones tpicas poblacionales X y Y . En resumen que
r = sxy /(sx sy ) no es m
as que un estimador del coeficiente de correlacion de Pearson
que damos en la siguiente definicion.
Definici
on 10 Dadas dos variables aleatorias X e Y definimos su coeficiente de
correlaci
on de Pearson como
=
E(X X )(Y Y )
.
X Y
Esta cantidad es una cuantificacion de la asociacion lineal entre X e Y . Es importante notar que aqu no hay predictor y respuesta. Ambas variables son tratadas de
un modo simetrico. De hecho si intercambiamos las variables el valor del coeficiente
de correlaci
on no se modifica, es el mismo. Ademas se tiene que
1 1.
Se puede probar que si = 1 entonces existe dos constantes a y b (con b positiva)
tales que Y = a + bX (con probabilidad uno). Si = 1 entonces existen a y b
(con b negativa) tales que Y = a + bX (con probabilidad uno). En resumen que si
el coeficiente de correlaci
on es 1 o -1 entonces una variable es funcion lineal de la
otra. La recta es creciente si la correlacion es positiva y decreciente si es negativa.
Ejemplo 19 (Curva de descenso de residuo) Veamos el grado de asociaci
on
lineal del tiempo con la concentraci
on de contaminante.
cor(x0, z0)
## [1] -0.8746
Y ahora vamos a ver lo mismo pero con el logaritmo natural de la concentraci
on
del contaminante.
cor(x0, y0)
## [1] -0.9982
Es claramente mayor la segunda.
20
8.5.
Regresi
on lineal m
ultiple
(8.22)
donde es el termino del error. Realmente observamos n vectores (yi , xi1 , . . . , xi,p1 )
en consecuencia nuestro modelo estocastico ha de considerar el modelo para los n
valores aleatorios Yi , donde cada Yi tiene asociado un vector xi . Vamos a suponer
que para una combinaci
on de valores (xi1 , . . . , xi,p1 ) vamos a observar un valor
aleatorio Yi con distribuci
on normal cuya media es 0 +1 xi1 +. . .+p1 xi,p1 y cuya
varianza va a ser constante e igual a 2 . Ademas los distintos Yi son independientes
entre si.
En realidad nuestro modelo probabilstico es
Yi = 0 +
p1
X
j xij + i
j=1
donde los i son independientes y con la misma distribucion normal con media nula
y varianza 2 .
8.6.
Estimaci
on de
C
omo estimamos los par
ametros = (0 , . . . , p1 )? Nuestros datos son (yi , xi1 , . . . , xi,p1 )
con
i
=
1,
.
.
.
,
n.
Nuestro
objetivo
es estimar los coeficientes de modo que 0 +
Pp1
x
est
e
pr
o
ximo
a
y.
En
concreto
vamos a minimizar
j=1 j ij
2
p1
n
X
X
yi (0 +
j xij )
i=1
(8.23)
j=1
1 x11
..
X = ...
.
1 xn1
...
..
.
x1,p1
...
xn,p1
= . = (X 0 X)1 X 0 y,
..
p1
(8.24)
con y = (y1 , . . . , yn )0 .
Si (X 0 X)1 = [aij ]i,j=1,...,p entonces el estimador de la varianza de i , var(i ),
sera aii
2 . Finalmente el error estandar de i , es decir, su desviacion tpica (raz
cuadrada de su varianza) sera
d i ) = aii
.
SE(
21
(8.25)
Se tiene que
i N (i , aii
2 ).
(8.26)
Para la observaci
on i-esima tendremos la prediccion
yi = 0 +
p1
X
j xij .
(8.27)
j=1
Los residuos esto es las diferencias entre los valores observados originalmente y las
predicciones que de ellos hacemos, vienen dados por
i = yi yi .
(8.28)
Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
Residuals:
Min
1Q Median
-8.242 -2.686 -0.249
3Q
2.428
Max
9.751
Coefficients:
Estimate Std. Error t
(Intercept) 28.566087
7.354516
pop15
-0.461193
0.144642
pop75
-1.691498
1.083599
dpi
-0.000337
0.000931
ddpi
0.409695
0.196197
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
3.88 0.00033 ***
-3.19 0.00260 **
-1.56 0.12553
-0.36 0.71917
2.09 0.04247 *
0.01 '*' 0.05 '.' 0.1 ' ' 1
8.7.
pop15
-0.4611931
pop75
-1.6914977
dpi
-0.0003369
ddpi
0.4096949
Bondad de ajuste
Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
Residuals:
Min
1Q Median
-8.242 -2.686 -0.249
3Q
2.428
Max
9.751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.566087
7.354516
3.88 0.00033 ***
pop15
-0.461193
0.144642
-3.19 0.00260 **
pop75
-1.691498
1.083599
-1.56 0.12553
dpi
-0.000337
0.000931
-0.36 0.71917
ddpi
0.409695
0.196197
2.09 0.04247 *
--23
##
##
##
##
##
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8.8.
: i1 = . . . = ir = 0
H1
existe alg
un j tal que ij 6= 0.
(8.31)
(8.32)
Si un coeficiente determinado i es nulo entonces la variable respuesta Y no dependera de la variable asociada a dicho coeficiente. En definitiva, la hipotesis nula
considerada se podra formular diciendo que la variable Y no depende de las variables xi1 , . . . , xir . C
omo contrastar las hipotesis indicadas?
Vamos a considerar en primer lugar el modelo en que tenemos todas las p-1
posibles variables predictoras, esto es, el modelo mas completo que podemos considerar. En este modelo tendremos una suma de cuadrados del error que denotamos
por SS(Error). Ahora vamos a considerar el modelo que se verifica bajo la hipotesis
nula, el modelo que no tiene las variables predictoras xi1 , . . . , xir . En este segundo
modelo (simplificado) tendremos una suma de cuadrados (mayor) que denotamos
por SS(Error)0 . Se verifica si la hipotesis nula es cierta (asumiendo que es cierta)
que
(SS(Error)0 SS(Error))/r
Fr,np .
(8.33)
F =
SS(Error)/(n p)
De modo que rechazaremos la hipotesis nula de que H0 : i1 = . . . = ir = 0 si
F > Fr,np,1
donde Fr,np,1 es el percentil 1 de una F con r y n p grados de libertad.
8.8.1.
24
Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
Residuals:
Min
1Q Median
-8.242 -2.686 -0.249
3Q
2.428
Max
9.751
Coefficients:
Estimate Std. Error t
(Intercept) 28.566087
7.354516
pop15
-0.461193
0.144642
pop75
-1.691498
1.083599
dpi
-0.000337
0.000931
ddpi
0.409695
0.196197
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
3.88 0.00033 ***
-3.19 0.00260 **
-1.56 0.12553
-0.36 0.71917
2.09 0.04247 *
0.01 '*' 0.05 '.' 0.1 ' ' 1
tenemos que el p-valor cuando contrastamos si todas las variables las podemos
considerar nulas viene en la u
ltima lnea.
8.8.2.
i
SE(i )
tnp
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
Residuals:
Min
1Q Median
-8.242 -2.686 -0.249
3Q
2.428
Max
9.751
Coefficients:
Estimate Std. Error t
(Intercept) 28.566087
7.354516
pop15
-0.461193
0.144642
pop75
-1.691498
1.083599
dpi
-0.000337
0.000931
ddpi
0.409695
0.196197
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
3.88 0.00033 ***
-3.19 0.00260 **
-1.56 0.12553
-0.36 0.71917
2.09 0.04247 *
0.01 '*' 0.05 '.' 0.1 ' ' 1
los p-valores correspondientes a si el coeficiente asociado a cada variable lo podemos considerar nulo lo podemos observar en la lnea correspondiente a cada variable.
8.8.3.
: pop75 = dpi = 0
(8.34)
H1
: pop75 6= 0
o dpi 6= 0.
(8.35)
26
anova(savings.lm.1, savings.lm.2)
##
##
##
##
##
##
##
sr ~ pop15
sr ~ pop15
RSS Df Sum
651
701 -2
0.19
Podemos ver que el p-valor asociado es muy grande por lo que no rechazamos
la hip
otesis de que ambos coeficientes sean nulos. Podemos eliminarlos del modelo
original y quedarnos con el modelo simplificado.
8.9.
Ejemplos de regresi
on lineal m
ultiple
27
300
150
100
50
0
200
250
5000
10000
15000
20000
25000
28
30000
6
4
2
0
8
5000
10000
15000
20000
25000
30000
29
summary(prestige.ajuste1)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = y ~ x)
Residuals:
Min
1Q
-1.6074 -0.3486
Median
0.0301
3Q
0.3755
Max
1.6646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.94e+00
1.82e-02
326
<2e-16 ***
x
-3.63e-04
9.61e-07
-378
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.523 on 3284 degrees of freedom
Multiple R-squared: 0.978,Adjusted R-squared: 0.978
F-statistic: 1.43e+05 on 1 and 3284 DF, p-value: <2e-16
y el resumen del segundo ajuste es
summary(prestige.ajuste2)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = y ~ poly(x, 2))
Residuals:
Min
1Q Median
-1.1482 -0.2328 -0.0019
3Q
0.2301
Max
1.2470
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.72e-02
6.01e-03
-4.52 6.3e-06 ***
poly(x, 2)1 -1.97e+02
3.45e-01 -572.98 < 2e-16 ***
poly(x, 2)2 -2.25e+01
3.45e-01 -65.33 < 2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.345 on 3283 degrees of freedom
Multiple R-squared: 0.99,Adjusted R-squared: 0.99
F-statistic: 1.66e+05 on 2 and 3283 DF, p-value: <2e-16
Finalmente, el resumen del modelo con un polinomio hasta grado 3 es
summary(prestige.ajuste3)
##
## Call:
## lm(formula = y ~ poly(x, 3))
##
## Residuals:
30
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Min
1Q Median
-1.1386 -0.2343 -0.0021
3Q
0.2267
Max
1.2515
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.72e-02
6.01e-03
-4.52 6.3e-06 ***
poly(x, 3)1 -1.97e+02
3.45e-01 -573.09 < 2e-16 ***
poly(x, 3)2 -2.25e+01
3.45e-01 -65.34 < 2e-16 ***
poly(x, 3)3 5.15e-01
3.45e-01
1.49
0.14
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.345 on 3282 degrees of freedom
Multiple R-squared: 0.99,Adjusted R-squared: 0.99
F-statistic: 1.11e+05 on 3 and 3282 DF, p-value: <2e-16
Call:
lm(formula = precio ~ valterr + valmejor)
Coefficients:
(Intercept)
767.408
valterr
3.192
valmejor
0.478
31
Call:
lm(formula = precio ~ valterr + valmejor)
Residuals:
Min
1Q
-153634 -10451
Median
-576
3Q
8690
Max
356418
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.67e+02
1.29e+03
0.59
0.55
valterr
3.19e+00
5.34e-02
59.78
<2e-16 ***
valmejor
4.78e-01
2.55e-02
18.73
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 28100 on 2437 degrees of freedom
Multiple R-squared: 0.676,Adjusted R-squared: 0.675
F-statistic: 2.54e+03 on 2 and 2437 DF, p-value: <2e-16
Ejemplo 27 (Esperanza de vida por estados) Son unos datos sobre esperanza
de vida en los estados de Estados Unidos.
data(state)
statedata <- data.frame(state.x77, row.names = state.abb, check.names = T)
g <- lm(Life.Exp ~ ., data = statedata)
summary(g)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = Life.Exp ~ ., data = statedata)
Residuals:
Min
1Q Median
-1.4890 -0.5123 -0.0275
3Q
0.5700
Max
1.4945
Coefficients:
Estimate Std. Error t
(Intercept) 7.09e+01
1.75e+00
Population
5.18e-05
2.92e-05
Income
-2.18e-05
2.44e-04
Illiteracy
3.38e-02
3.66e-01
Murder
-3.01e-01
4.66e-02
HS.Grad
4.89e-02
2.33e-02
Frost
-5.74e-03
3.14e-03
Area
-7.38e-08
1.67e-06
--Signif. codes: 0 '***' 0.001 '**'
32
value Pr(>|t|)
40.59 < 2e-16 ***
1.77
0.083 .
-0.09
0.929
0.09
0.927
-6.46 8.7e-08 ***
2.10
0.042 *
-1.82
0.075 .
-0.04
0.965
0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = Life.Exp ~ Population + Income + Illiteracy + Murder +
HS.Grad + Frost, data = statedata)
Residuals:
Min
1Q Median
-1.4905 -0.5253 -0.0255
3Q
0.5716
Max
1.5037
Coefficients:
Estimate Std. Error t
(Intercept) 7.10e+01
1.39e+00
Population
5.19e-05
2.88e-05
Income
-2.44e-05
2.34e-04
Illiteracy
2.85e-02
3.42e-01
Murder
-3.02e-01
4.33e-02
HS.Grad
4.85e-02
2.07e-02
Frost
-5.78e-03
2.97e-03
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
51.17 < 2e-16 ***
1.80
0.079 .
-0.10
0.917
0.08
0.934
-6.96 1.5e-08 ***
2.35
0.024 *
-1.94
0.058 .
0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = Life.Exp ~ Population + Income + Murder + HS.Grad +
Frost, data = statedata)
Residuals:
Min
1Q Median
-1.4892 -0.5122 -0.0329
3Q
0.5645
Max
1.5166
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.11e+01
1.03e+00
69.07 < 2e-16 ***
Population
5.11e-05
2.71e-05
1.89
0.066 .
Income
-2.48e-05
2.32e-04
-0.11
0.915
Murder
-3.00e-01
3.70e-02
-8.10 2.9e-10 ***
HS.Grad
4.78e-02
1.86e-02
2.57
0.014 *
Frost
-5.91e-03
2.47e-03
-2.39
0.021 *
33
##
##
##
##
##
##
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = Life.Exp ~ Population + Murder + HS.Grad + Frost,
data = statedata)
Residuals:
Min
1Q Median
-1.471 -0.535 -0.037
3Q
0.576
Max
1.507
Coefficients:
Estimate Std. Error t
(Intercept) 7.10e+01
9.53e-01
Population
5.01e-05
2.51e-05
Murder
-3.00e-01
3.66e-02
HS.Grad
4.66e-02
1.48e-02
Frost
-5.94e-03
2.42e-03
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
74.54 < 2e-16 ***
2.00
0.052 .
-8.20 1.8e-10 ***
3.14
0.003 **
-2.46
0.018 *
0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = Life.Exp ~ Murder + HS.Grad + Frost, data = statedata)
Residuals:
Min
1Q Median
-1.502 -0.539 0.101
3Q
0.592
Max
1.227
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.03638
0.98326
72.25
<2e-16 ***
Murder
-0.28307
0.03673
-7.71
8e-10 ***
HS.Grad
0.04995
0.01520
3.29
0.002 **
Frost
-0.00691
0.00245
-2.82
0.007 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.743 on 46 degrees of freedom
34
Call:
lm(formula = agua ~ temperatura + produccion + dias + personas)
Residuals:
Min
1Q Median
-445.0 -131.5
2.6
3Q
109.0
Max
368.5
Coefficients:
Estimate Std. Error t
(Intercept) 6360.3373 1314.3916
temperatura
13.8689
5.1598
produccion
0.2117
0.0455
dias
-126.6904
48.0223
personas
-21.8180
7.2845
--Signif. codes: 0 '***' 0.001 '**'
value Pr(>|t|)
4.84 0.00041 ***
2.69 0.01975 *
4.65 0.00056 ***
-2.64 0.02165 *
-3.00 0.01117 *
0.01 '*' 0.05 '.' 0.1 ' ' 1
8.10.
Ejercicios
2. Representar gr
aficamente el precio asegurado en el 2000 frente al precio asegurado en 1970. Sugiere el dibujo una relaci
on lineal entre las variables?
3. Ajustar un modelo de regresi
on lineal simple donde la variable predictora es
y1970 y la variable respuesta es y2000.
4. Cu
ales son los coeficientes del ajuste?
5. Cu
al es el coeficiente de determinaci
on? Podemos considerar que el ajuste
es bueno atendiendo al valor del coeficiente de determinaci
on?
6. Cu
al es la predicci
on del valor asegurado en el a
no 2000 para una casa que
estaba asegurada en 1970 en 75000 euros?
7. Considerar como variable predictora el logaritmo natural del valor asegurado
en y1970 y como variable respuesta el logaritmo de la cantidad asegurada
en el a
no 2000, y2000. Representa gr
aficamente los nuevos datos. Realiza el
ajuste y compara los coeficientes de determinaci
on. Se ha incrementado o
decrementado el coeficiente de determinaci
on? Cu
al de los dos ajustes es
preferible?
Ejercicio 68 Leer los datos babies el paquete UsingR.
library("UsingR")
data("babies")
attach(babies)
El banco de datos contiene informaci
on sobre recien nacidos y sus madres en un
total de 1236 observaciones.
1. Leer la ayuda de los datos.
help(babies)
En esta ayuda veremos que cada variable tiene un c
odigo de dato faltante.
Declarar los datos faltantes del siguiente modo.
sex[sex == 9] = NA
wt[wt == 999] = NA
parity[parity == 99] = NA
race[race == 99] = NA
age[age == 99] = NA
ed[ed == 9] = NA
ht[ht == 99] = NA
wt1[wt1 == 999] = NA
smoke[smoke == 9] = NA
time[time == 99] = NA
time[time == 98] = NA
number[number == 98 | number == 99] = NA
37
38
Captulo 9
An
alisis de datos categ
oricos
Este tema est
a dedicado al tratamiento de datos categoricos. La referencia bibliogr
afica b
asica que vamos a seguir es Agresti [2002]. Asociado a este texto Laura
A. Thomson ha escrito un manual que reproduce el texto de Agresti con R. Es de
un enorme valor. Se puede conseguir en
Splusdiscrete2
9.1.
Su funci
on de probabilidad conjunta viene dada por
p(n1 , . . . , nc ) =
n!
n1 . . . cnc .
n1 ! . . . nc ! 1
Finalmente la distribuci
on de Poisson o distribucion de los sucesos raros se denota por Y P o(), y tiene por funcion de probabilidad
p(y) =
e y
con y = 0, 1, . . .
y!
c
X
Yi = b) =
i=1
con
i
i = Pc
i=1
n!
n1 . . . cnc
n1 ! . . . nc ! 1
9.2.
En esta secci
on nos ocupamos del estudio de la distribucion binomial, su verosimilitud y los contrastes b
asicos relacionados con ella. Denotamos la probabilidad
de exito por . Si consideramos una prueba Bernoulli entonces la funcion de probabilidad es
f (y|) = y (1 )1y
donde y = 0, 1. Para n pruebas Bernoulli tendremos como funcion de verosimilitud
L(; y) =
n
Y
yi (1 )1yi =
Pn
i=1
yi
(1 )n
Pn
i=1
yi
i=1
i=1
Estas funciones son nuestro instrumento basico para el analisis estadstico de este
tipo de datos.
9.2.1.
Contraste de hip
otesis simples
Tenemos una moneda (un euro para mas detalles) y pretendemos valorar si es
una moneda correcta. En otras palabras, si las probabilidades de obtener cara o
cruz cuando lancemos la moneda son las mismas e igual a 1/2. Interpretando exito
como cara lo que nos planteamos es un contraste simple sobre la probabilidad de
exito. En concreto un contraste donde la hipotesis nula es que dicha probabilidad
vale 1/2 frente a una alternativa de que sea distinta.
2
Formul
andolo de un modo m
as generico tenemos el siguiente contraste:
H0 :
= 0
H1 :
6= 0 .
Las opciones para constrastar son (como siempre) los test de Wald, el test score y
el test del cociente de verosimilitudes.
El estadstico de Wald viene dado por
zW =
0
,
=p
SE
(1
)/n
0
0 (1 0 )/n
9.2.2.
Intervalo de confianza
(1
)
.
n
Este intervalo de confianza no es muy exacto cuando n es peque
no sobre todo para
valores de pr
oximos a 0 o a 1.
Si utilizamos el test score entonces los extremos los obtenemos resolviendo las
ecuaciones
0
p
= z/2 .
0 (1 0 )/n
z/2
La expresi
on final es bastante compleja pues tenemos una funcion cuadratica en 0 .
Este intervalo de confianza es m
as exacto que el intervalo de Wald. El intervalo de
confianza del cociente de verosimilitudes sera
{0 : 2(L0 L1 ) 21 ()}
3
9.3.
En una distribuci
on multinomial los parametros a estimar son las probabilidades
de cada una de las categoras, (1 , . . . , c ). Sin embargo, hemos de tener en cuenta
Pc1
que c = 1 i=1 i por lo que realmente tenemos c 1 parametros a estimar.
Notemos que la verosimilitud es proporcional a
c
Y
j j donde j 0,
j = 1.
j=1
F
acilmente se comprueba que los estimadores maximo verosmiles vienen dados por
nj
,
n
j =
esto es, son las correspondientes frecuencias observadas de cada una de las categoras. No poda (ni deba) ser de otra manera.
9.3.1.
: j = j0 con j = 1, . . . , c
H1
No H0 .
X (nj j )2
X (nj nj0 )2
=
.
j
nj0
j
j
Bajo la hip
otesis nula H0 y para grandes muestras o distribucion nula asintotica el
estadstico tiene una distribucion ji-cuadrado con c 1 grados de libertad
X 2 2c1 .
Dados unos datos y un valor observado del estadstico, X02 , el p-valor vendra dado
por
p = P (X 2 X02 ).
El cociente de verosimilitudes es
Q
= Q
j0j
nj
j (nj /n)
de modo que
G2 = 2 log = 2
nj log
nj
.
nj0
Con el LRT, rechazamos H0 cuando G2 toma valores grandes. G2 es conocido como el estadstico ji-cuadrado del cociente de verosimilitudes. Su distribucion nula
asint
otica sera un ji-cuadrado con c 1 grados de libertad ya que la dimension del
espacio parametrico es c 1, es decir,
G2 2c1 .
INSERT-RNOTE:503
9.4.
Tablas de contingencia
9.4.1.
+j = P (Y = j) =
J
X
P (X = i, Y = j) =
J
X
j=1
j=1
I
X
I
X
P (X = i, Y = j) =
i=1
ij
ij
i=1
ij
.
i+
Cuadro 9.1: Tablade conteos cruzando el estado del paciente y el resultado del test.
Enfermo
No enfermo
Total
Test positivo
n11
n21
n+1
Test negativo
n11
n22
n+2
Total
n1+
n2+
n
Cuadro 9.2: Tabla de proporciones sobre el total cruzando el estado del paciente y
el resultado del test.
ij
Test positivo Test negativo Total
Enfermo
n11 /n
n11 /n
n1+ /n
No enfermo
n21 /n
n22 /n
n2+ /n
Total
n+1 /n
n+2 /n
1
Las variables X and Y se dicen independientes si
ij = i+ +j .
En particular, si las variables son independientes entonces la distribucion condicionada es igual a la distribuci
on marginal, es decir,
j|i = +j con j = 1, . . . , J.
La definici
on usual de variables aleatorios discretas independientes es que la
funci
on de probabilidad conjunta es el producto de marginales. Sin embargo, esta
definici
on equivale con la que dice que son independientes si la condicionada de una
a otra es igual a la correspondiente marginal. Cuando es mas natural una interpretaci
on o la otra? Si las variables X e Y que estamos estudiando las consideramos
como variables respuesta entonces parece natural utilizar la primera definicion y
hablar de independencia. Sin embargo, si Y es considerada respuesta mientras que
X es predictiva entonces hablamos de homogeneidad de las distintas distribuciones
condicionadas de Y a los valores posibles de la variable X.
Ejemplo 29 Un ejemplo cl
asico de tabla de contingencia aparece cuando estamos
considerando si un test es capaz de detectar una enfermedad. Entonces la tabla de
contingencia sera la que aparece en la tabla 9.1.
Si nos planteamos modificar la tabla b
asica de los conteos anterior en una tabla
que estime la la distribuci
on conjunta de las variables X and Y entonces dividimos cada conteo de cada celda por el total de individuos consideramos en la tabla.
Tendramos la siguiente tabla modificada.
Si dividimos los conteos por los totales de columna tenemos la distribuci
on condicionada de X a Y .
En Medicina hay dos conceptos b
asicos que se conocen como sensibilidad y
especificidad. Son unas cantidades que se calculan a partir de las tablas anteriores.
Cuadro 9.3: Tabla de proporciones sobre el total cruzando el estado del paciente y
el resultado del test.
j|i
Enfermo
No enfermo
Test positivo
n11 /n1+
n21 /n2+
Test negativo
n11 /n1+
n22 /n2+
Total
1
1
La sensibilidad es la proporci
on de enfermos correctamente diagn
osticados o,
de un modo m
as preciso,
1|1 = P (Y = 1|X = 1).
La especificidad es la proporci
on de sanos correctamente diagn
osticados o
2|2 = P (Y = 2|X = 2).
INSERT-RNOTE:540
9.4.2.
Tipo de muestreo
YY
i
eij
ijij
,
nij !
YY
nij !
ijij .
Finalmente si cada fila es una muestra de una multinomial independiente, esto es,
tenemos un muestreo multinomial independiente y su verosimilitud viene dada por
Y ni+ ! Y n
Q
j|iij .
n
!
ij
j
i
j
Cu
ando nos encontramos en una u otra situacion? Vamos a plantearnos lo
que ser
a una tabla de contingencia antes de tener datos y, por lo tanto, sin poder
construirla. Supongamos que pretendemos estudiar la relacion entre contraer enfermedades venereas o no y utilizar el preservativo en las relaciones sexuales. Para
cada persona se le pregunta se usa el preservativo en sus relaciones y si ha contraido alguna enfermedad venerea en el u
ltimo a
no. No tenemos datos y por lo tanto
empezamos con una tabla vaca.
Nuestro estudio que dar
a lugar a los conteos que rellenaran las celdas podemos
plantearlo de distintas formas. Si no fijamos el total de la tabla y nos limitamos
7
Cuadro 9.4:
Enfermedad venerea
No enfermedad
Con preservativo
Sin preservativo
Cuadro 9.5:
1
2
1
1|1
1|2
2
2|1
2|2
9.4.3.
Comparaci
on de dos proporciones
1|i
2|i
1 1|i = 1 i
Queremos comparar 1 con 2 . Como comparamos? Podemos estudiar la diferencia de las proporciones
1 2 ,
o el riesgo relativo,
1
,
2
o bien el cociente de odds (odds ratio)
=
1 /(1 1 )
.
2 /(1 2 )
Cuadro 9.6:
Grupo 1
Grupo 2
Exito
1|1
1|2
Fracaso
2|1
2|2
Cuadro 9.7:
Exito
1
2
Grupo 1
Grupo 2
9.4.4.
Fracaso
1 1
1 2
.
1
Equivalentemente
.
+1
En una tabla 2 2 tenemos los odds en la fila i
i
i =
.
1 i
=
1 /(1 1 )
.
2 /(1 2 )
Se tiene f
acilmente que
11 22
.
12 21
Por ello tambien se le llama el cociente de los productos cruzados.
El odds ratio tiene las siguientes propiedades fundamentales.
=
9.5.
Asociaci
on parcial en tablas 22 estratificadas
Acusado
Pena de muerte
Si
No
% S
Blanco
Blanco
Negro
Blanco
Negro
53
11
0
4
414
37
16
139
11,3
22,9
0,0
2,8
Blanco
Negro
53
15
430
176
11,0
7,9
Negro
Total
Vctima vs veredicto
Si No
Blanco 64 451
Negro
4 155
Los blancos tienden a matar mas a blancos. Si matas a un blanco tienes una
mayor probabilidad de que te condenen. Esto es un ejemplo de la paradoja de
Simpson (1951).
INSERT-RNOTE:507
9.6.
9.6.1.
y con log .
Un estimaci
on del error estandar de es
1/2
1
1
1
1
(log ) =
+
+
+
.
n11
n12
n21
n22
El intervalo de confianza de Wald sera:
log z/2
(log ).
Tomando las exponenciales en los extremos tenemos el correspondiente intervalo
para log .
10
Placebo
Aspirina
Infarto de miocardio
Si
No
28
656
18
658
Total
684
656
i = Yi /ni
, de modo que la diferencia entre las proporciones estimadas verifica
E(
1
2 ) = 1 2
y el error est
andar es
1 (1 1 ) 2 (1 2 )
+
(
1
2 ) =
n1
n2
1/2
.
1
2 z/2
(
1
2 ).
Usualmente la probabilidad de cubrimiento es menor que el coeficiente de confianza
nominal. Especialmente para valores de 1 y 2 proximos a 0 o 1.
Intervalo de confianza para el riesgo relativo
El riesgo relativo muestral viene dado por
r=
Hay una convergencia a la normalidad mas rapida trabajando en la escala logartmica. El error est
andar asint
otico de log r es
1/2
1 2
1 1
+
(log r) =
n 1 1
n 2 2
Es algo conservador (probabilidad de cubrimiento mayor que el nivel de confianza
nominal). El intervalo de confianza de Wald para log 1 /2 es
log r z/2
9.6.2.
i+ +j i, j
H0 : ij
6=
i+ +j para alg
un i, j
11
Los tests que vamos a considerar se pueden aplicar tanto para muestreo multinomial (con I J categoras) como para muestreo multinomial independiente (para
las distintas filas). En el primer caso contrastamos independencia y en el segundo
homogeneidad.
El primer test que vamos a considerar es el test ji-cuadrado. Es el test clasico
propuesto por K. Pearson. Bajo H0 ,
Enij = ij = ni+ +j .
razonablemente buena si las frecuencias esperadas son mayores que 1 y la mayor
parte son mayores que 5. Si nos los podemos usar hay que utilizar metodos para
muestras peque
nas.
9.7.
9.7.1.
M
as all
a del test ji-cuadrado
Residuos
Vamos a comparar las frecuencias observadas con las esperadas. Notemos que,
para muestreo de Poisson,
(nij ij ) = ij .
La desviaci
on est
andar de nij
ij es menor que ij pero todava proporcional a
este valor. Definimos el residuo de Pearson como
eij =
nij
p ij .
ij
Comparar estos residuos con los percentiles normales da una vision conservadora.
Se definen los residuos de Pearson estandarizados como
nij
ij
1/2
ij (1
i+ )(1
+j )
que s tienen una distribuci
on normal estandar.
Podemos comparar los residuos de Pearson estandarizados con los percentiles de
la normal.
Valores superiores (en m
odulo) a 2 o 3 indican falta de ajuste.
9.8.
9.8.1.
Todos los procedimientos vistos hasta ahora se basan en distribuciones asintoticas. Si tenemos muestras grandes no hay problemas. Y con muestras peque
nas?
Rezar es una buena opci
on. Siempre lo es. La otra es un test exacto.
Consideramos una tabla 2 2. La hipotesis nula es de independencia. Condicionamos a los totales marginales de fila y columna. Solamente nos queda libre un
conteo (por ejemplo, n11 ) y
12
p(t) = P (n11 = t) =
n1+
t
n2+
n+1 t
n
n+1
Predicci
on primer servicio
Leche
Te
3
1
1
3
4
4
Total
4
4
Sera m
as extrema la tabla con n11 = 4. El p-valor sera
P (n11 = 3) + P (n11 = 4) = 0,243
Estamos ordenando las tablas de acuerdo con n11 . Podramos ordenarlas seg
un
el odds ratio o la diferencia de las proporciones y obtenemos el mismo test. Esto no
ser
a cierto para test bilateral.
9.9.
La definici
on de p-valor depende de como ordenamos las tablas. Lo que suele ir
programado en software es (si p(t) = P (n11 = t))
p = P (p(n11 ) p(t0 ))
Sumamos la probabilidad de todas aquellas tablas que son tan probables o menos
que la tabla observada.
Otra opci
on es
p = P |n11 E(n11 )| |t0 E(n11 )|
teniendo en cuenta que para la hipergeometrica
E(n11 ) = n1+ n+1 /n
Este procedimiento equivale con
p = P (X 2 X02 )
siendo X02 el valor observado de X 2 .
13
14
Bibliografa
A. Agresti. Categorical Data Analysis. Wiley, second edition, 2002. URL
/home/gag/BIBLIOGRAFIA/MISLIBROS/Agresti_Alan_Categorical_Data_
Analysis_2nd_ed_2002.pdf.
P.M. Berthouex and L.C. Brown. Environmental Engineers. Lewis Publishers,
second edition, 2002. URL /home/gag/BIBLIOGRAFIA/MISLIBROS/Berthouex_
Brown_Statistics_for_Environmental_Engineers_2nd_Ed_CRC_Press_
2002.pdf.
Y. Cohen and J.Y. Cohen. Statistics and Data with R: An applied approach through
examples. John Wiley & Sons, 2008.
P. Dalgaard. Introductory Statistics with R. Springer, 2002.
Michael E. Ginevan and Douglas E. Splitstone. Statistical Tools for Environmental
Quality Measurement. Chapman & Hall / CRC, 2004. URL /home/gag/
BIBLIOGRAFIA/MISLIBROS/Ginevan_Splitstone_Statistical_Tools_for_
Environmental_Quality_Measurement_Chapman_Hall_CRC_2004.pdf.
B.F.J. Manly.
Statistics for Environmental Science and Management.
Chapman & Hall/CRC Press, second edition, 2009.
URL /home/gag/
BIBLIOGRAFIA/MISLIBROS/Manly_Statistics_for_Environmental_Science_
and_Management_2nd_edition_Chapman_Hall_2009.pdf.
Steven P. Millard and Nagaraj K. Neerchal. Environmental Statistics with
S-PLUS. Applied Environmental Statistics. CRC Press LLC, 2001. URL
/home/gag/BIBLIOGRAFIA/MISLIBROS/Millard_Neerchal_Environmental_
Statistics_with_S-PLUS_CRC_2001.pdf.
Walter W. Piegorsch and A. John Bailer.
Analyzing Environmental Data.
Wiley, 2005. URL /home/gag/BIBLIOGRAFIA/MISLIBROS/Piegorsch_Bailer_
Analysing_Environmental_Data_Wiley_2005.pdf.
R Core Team. R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2013. URL http://www.
R-project.org/.
R Core Team. foreign: Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat,
Weka, dBase, ..., 2014. URL http://CRAN.R-project.org/package=foreign.
R package version 0.8-59.
Clemens Reimann, Peter Filzmoser, Robert Garrett, and Rudolf Dutter. Statistical Data Analysis Explained. Applied Environmental Statistics with R.
Wiley, Chichester, UK, 2008. URL /home/gag/BIBLIOGRAFIA/MISLIBROS/
Hastie_Tibshirani_Friedman_The_Elements_of_Statistical_Learning_
2nd_edition_2008.pdf.
15
16