Está en la página 1de 88

Curso de Estadstica

Miguel Angel Canela


Primera version: 2 de enero de 2003
Esta version: 15 de febrero de 2006
Contenido
1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Variables y observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Variables categoricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.7. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.8. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.9. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.10. Medias y varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.11. Calculo en Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Ejemplos sencillos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Distribucion binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Planes de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5. Planes de muestreo simples y m ultiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6. Ensayos triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3. La distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2. Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3. Distribucion normal standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4. Gracos de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5. Validez de la distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6. Transformacion logartmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4. Lmites para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1. Distribucion de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Aproximacion de la binomial por la normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Lmites de conanza para una media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4. Calculo de los lmites cuando la varianza es desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5. Lmites de conanza para una proporcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6. Gracos de control para subgrupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.7. Gracos para observaciones individuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5. Comparacion de medias y varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1. Introduccion a las pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2. Prueba t para dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Prueba t sin suponer las varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4. Prueba t para datos emparejados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.5. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.6. Hipotesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.7. Potencia de una prueba y tama no de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6. Analisis de tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1. Odds y odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.2. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.3. Lmites de conanza para una odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.4. Prueba chi cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.5. Potencia y tama no de muestra en la comparacion de proporciones . . . . . . . . . . . . . . . . . 51
6.6. Prueba de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7. Analisis de la varianza de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.1. La prueba t revisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.2. extension de la prueba F a un factor con mas de dos niveles . . . . . . . . . . . . . . . . . . . . . . 55
7.3. Validez de los supuestos del ANOVA de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.4. La tabla ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.5. Componentes de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8. Pruebas no parametricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.1. Prueba de los signos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.2. Prueba del rango signado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.3. Prueba de la suma de rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.4. Prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.5. Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9. Regresion y correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.1. Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.2. Coeciente de correlacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.3. Recta de regresion sin termino constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9.4. Pruebas sobre los coecientes de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.5. La prueba ANOVA en la regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.6. Prueba sobre la correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
10. Otros metodos de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
10.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
10.2. Regresion lineal m ultiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
1. Probabilidad
1.1. Variables y observaciones
El objetivo de este curso es presentar una coleccion de metodos estadsticos, ilustrandolos con
ejemplos reales que pueden ser de interes para los estudiantes de Farmacia y Ciencia y Tecnologa
de los Alimentos. En general, cada uno de estos metodos se puede aplicar a un conjunto de datos,
que corresponden a los valores de unas variables. La eleccion del metodo se hace teniendo en
cuenta la estructura del conjunto de datos y las conclusiones que interese extraer de el, aunque
en alg un caso haya varios metodos para la misma situacion.
Si bien en algunos casos los calculos se hacen a partir de una tabla resumen (eso es posible en
Excel, pero no en programas estadsticos como SPSS), el input inicial del analisis estadstico es la
matriz de datos, en la que las columnas coresponden a las variables y las las a las observaciones.
En los ensayos clnicos, por ejemplo, cada observacion corresponde a uno de los participantes en
el ensayo. Lo mismo sucede en los experimentos con animales de laboratorio. En un estudio de
precision de un metodo analtico, las observaciones corresponden a distintas determinaciones de
una magnitud en una misma muestra (o en muestras supuestamente identicas).
En las situaciones mas sencillas habra una sola variable (X) y, en otras, dos variables (X e
Y ). En este ultimo caso, el proposito del analisis estadstico es, casi siempre, aclarar la posible
inuencia de X sobre Y , aunque a veces los papeles de X e Y sean intercambiables. En los
ultimos captulos consideraremos la inuencia de un conjunto de variables, X
1
, . . . , X
p
, sobre
otra variable Y .
Si los papeles de X e Y estan claros, se puede distinguir entre ellas mediante nombres que aluden
a sus respectivos papeles. Estos nombres cambian de uno a otro ambito de aplicacion. Algunos
de ellos son:
Para X: variable independiente, variable explicativa, factor (en el analisis de la varianza),
factor de riesgo (en Epidemiologa) y predictor (en la regresion).
Para Y : variable dependiente, variable respuesta (en el analisis de la varianza), outcome
(en Medicina en general) y variable predicha (en la regresion).
En estas notas, cada metodo se ilustra con su aplicacion a uno o varios ejemplos, en los que los
datos se presentan en tablas. En alg un caso se aplica mas de un metodo al mismo ejemplo.
1.2. Variables continuas
Distinguimos entre variables continuas y categoricas. Cuando los valores de una variable se
obtienen mediante instrumentos de medida, como balanzas, espectrofotometros, tensiometros,
etc., tenemos una variable continua. Para una variable continua, el conjunto de valores posibles
es un intervalo de la recta de los n umeros reales, de forma que se puede suponer que, entre dos
valores cualesquiera de la variable, todos los valores intermedios son posibles. En la realidad,
esto nunca es del todo cierto, a causa de las limitaciones de los instrumentos de medida, aunque
es un supuesto que, en general, simplica el analisis de los datos y favorece el uso de ciertos
modelos matematicos, como la distribucion normal.
Algunos ejemplos de variables continuas son:
La concentracion de colesterol total de una persona, dada en mg/dl.
El ndice de masa corporal (BMI) en kg/m
2
.
El contenido calorico de un alimento en kcal.
Facultad de Farmacia/Curso de Estadstica/1 20060115
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
16 18 20 22 24 26
6
5
7
0
7
5
8
0
8
5
BMI
C
i
n
t
u
r
a
Figura 1.1. Cintura vs. BMI (Ejemplo 1.1)
El contenido de calcio de una marca de leche en mg/l.
Ejemplo 1.1. En una reciente edicion de la Setmana de la ci`encia se han efectuado medidas
antropometricas de algunos visitantes. En la Tabla 1.1 se recogen los resultados del ndice de
masa corporal (BMI) y el permetro de la cintura de un grupo de 43 chicos de 12 a 17 a nos.
TABLA 1.1. Medidas antropometricas (Ejemplo 1.1)
BMI (kg/m
2
) Cintura (cm) BMI (kg/m
2
) Cintura (cm) BMI (kg/m
2
) Cintura (cm)
20.0 71 21.7 80 22.1 83
23.5 68 18.4 67 27.2 65
22.4 82 18.9 73 26.1 88
23.8 87 20.7 82 15.5 67
21.8 82 19.5 75 27.3 88
19.6 75 19.8 74 17.5 65
20.7 83 22.6 77 24.5 68
21.9 79 15.8 62 24.4 77
21.3 73 17.8 67 21.9 78
20.4 78 22.0 78 18.9 67
19.3 69 22.5 79 20.1 70
22.5 75 21.3 73 21.1 79
21.5 70 23.3 81 21.2 76
19.0 82 21.6 73
19.6 73 21.3 77
Consideramos estas dos variables como variables continuas, aunque los resultados solo se den
hasta la primera cifra decimal en el caso del ndice de masa corporal y hasta los centmetros
en el de la cintura. Una cuestion interesante es la posible relacion entre ellas. Para hacer un
diagnostico rapido, lo mejor es empezar por una representacion graca, con X en las abscisas
e Y en las ordenadas, de modo que cada uno de los individuos de la muestra corresponde a un
punto. En este caso, los papeles de X e Y son intercambiables.
En la Figura 1.1, X es el ndice de masa corporal e Y el permetro de la cintura. Salvo tres
puntos situados en la parte inferior derecha del graco, para los que he usado un smbolo distinto,
los otros se pueden agrupar en torno a una lnea recta, lo que sugiere que una formula lineal
podra ser util como aproximacion de la relacion entre estas variables.
Fuente: M. Rafecas, comunicacion personal.
Facultad de Farmacia/Curso de Estadstica/2 20060115
1.3. Variables categoricas
Para las variables categoricas solo hay un conjunto nito de valores posibles, numericos o no,
que corresponden a unas clases o categoras. En el caso mas simple, el de una variable binaria o
dicotomica, solo hay dos valores posibles (vgr. hombre y mujer). En la mayora de los casos, las
categoras se establecen antes de hacer el estudio, aunque, en alguna ocasion, resultan de agrupar
los resultados experimentales. A veces se asignan valores numericos a las categoras, obteniendo
as una variable numerica discreta, para la cual no son posibles los valores intermedios. Por
ejemplo, podemos codicar como 0 y 1 las categoras de una variable binaria.
Para algunas variables categoricas existe un orden natural entre las categoras, que se respeta al
asignar valores numericos. Son las variables ordinales, que distinguimos de las nominales, para
las que no hay orden. Habitualmente, las variables ordinales se codican con n umeros enteros
consecutivos, empezando por 1, aunque no hay ninguna regla que dicte hacerlo de este modo. Por
ejemplo, en un estudio sobre la inuencia del tabaco sobre una enfermedad, podemos clasicar
a los participantes en tres categoras: los que no fuman (1), los que fuman hasta 20 cigarrillos
al da (2) y los que fuman mas de 20 (3). Esto tiene el inconveniente de que la diferencia
entre los valores consecutivos siempre es la misma, independientemente de lo que signique en
la realidad la diferencia entre las correspondientes categoras. Existen metodos especcos para
variables ordinales, pero no se tratan en este curso. A veces, una variable continua se discretiza,
transformandola en ordinal. Para ello se denen unos intervalos de valores que denen las
categoras.
Ejemplo 1.2. En el estado de Washington (USA) se ha hecho un estudio sobre la inuencia de la
ingesta de grasa sobre la obesidad, basado en una muestra de 15266 varones (5579 a nos), que
participaban en el Prostate Cancer Prevention Trial. La Tabla 1.2 presenta la clasicacion de
los participantes en grupos etnicos, cruzada con la clasicacion seg un el ndice de masa corporal
(BMI): normales (18.524.9 kg/m
2
), con sobrepeso (25.029.9 kg/m
2
) y obesos ( 30 kg/m
2
).
Los porcentajes se reeren a los totales de la ultima columna.
Aqu, ambas variables son categoricas, y los papeles de X e Y estan claros: X es el grupo
etnico e Y el ndice de masa corporal (discretizado). Los datos de la tabla sugieren que hay
una asociacion entre X e Y . Por ejemplo, parece que el porcentaje de obesos es mas alto en las
personas de raza negra que en las de raza blanca.
La Tabla 1.2 es una tabla de contingencia. En general, una tabla de contingencia es un resumen
estadstico de las observaciones conjuntas de dos variables categoricas. En estas notas siempre
situamos X en las las e Y en las columnas.
TABLA 1.2. Asociacion entre grupo etnico y BMI (Ejemplo 1.2)
Grupo etnico Normales (%) Sobrepeso (%) Obesos (%) N um. total
Blanco 25.5 51.6 23.0 14217
Negro 18.6 47.8 33.7 494
Hispano 24.7 48.0 27.3 348
Otros 32.7 49.5 17.9 196
Fuente: J. Sattia-Abouta, R.U. Patterson, R.N. Schiller & A.R. Kristal (2002), Energy from fat
is associated with obesity on U.S. men Results from the Prostate Cancer Prevention Trial,
Preventive Medicine 34, 493501.
Facultad de Farmacia/Curso de Estadstica/3 20060115
1.4. Concepto de probabilidad
Se precisa un cierto bagaje matematico para una denicion formal de la probabilidad, de modo
que me limitamos aqu a una denicion intuitiva. La probabilidad de un cierto resultado es un
n umero, comprendido entre 0 y 1, con el que se eval ua la expectativa de obtener ese resultado.
Ejemplos de resultados cuya probabilidad interesa en este curso podran ser que un espa nol
mayor de sesenta a nos fuese diabetico, o que la concentracion de colesterol total de un varon
espa nol mayor de 40 a nos estuviese entre 150 y 180 mg/dl.
En que sentido se dice que la probabilidad es una medida de la expectativa de un resultado?
Se entiende que la probabilidad es el valor lmite de la proporcion de casos en que se da ese
resultado cuando el n umero de observaciones tiende a innito. En la practica, se interpreta
como una expectativa de esa proporcion, de modo que se espera que la proporcion observada en
un experimento se aproxime mas a la probabilidad cuanto mayor sea el n umero de observaciones.
La probabilidad es un valor teorico que, en la mayora de los casos, no se puede conocer con
exactitud, aunque la proporcion en que se obtiene un resultado en un estudio experimental se
pueda usar como aproximaci on de su probabilidad (v. ejemplos). En estas notas designamos por
p[A] la probabilidad de un resultado A. Si hay un unico resultado cuya probabilidad interese,
usamos la letra griega , y cuando interesa comparar las probabilidades de A en distintas
condiciones, las distinguimos mediante subndices (por ejemplo,
1
y
2
).
Las relaciones entre los distintos resultados de una experiencia dan lugar a relaciones matemati-
cas entre sus respectivas probabilidades. Estas relaciones son las reglas del calculo de probabili-
dades. La mas importante de ellas es la propiedad aditiva: si A es un resultado para el que hay
una serie de posibilidades o casos A
1
, A
2
, . . . , A
k
, excluyentes dos a dos, se cumple
p[A] = p[A
1
] + p[A
2
] + + p[A
k
].
Un caso particular interesante es aquel en que A y B son complementarios (es decir, B equivale
a no A). Entonces p[A] + p[B] = 1.
Ejemplo 1.2 (continuacion). En el Ejemplo 1.2, los porcentajes de la tabla pueden tomarse como
aproximaciones de las respectivas probabilidades. As, por ejemplo, los porcentajes de la primera
la aproximan las probabilidades de que un hombre de raza blanca, con edad entre 55 y 79 a nos,
tenga peso normal (25.5%), sobrepeso (51.6%) u obesidad (23.0%), respectivamente.
1.5. Distribuciones de probabilidad
En general, una distribucion de probabilidad es la asignacion de probabilidades a los resultados
de una variable. Hay que distinguir entre distribuciones discretas y continuas. Para una variable
categorica se usa una distribucion discreta, que asigna una probabilidad a cada uno de los
valores posibles. As, si X es una variable categorica con valores x
1
, . . . , x
k
, su distribucion de
probabilidad asigna a cada x
i
la probabilidad
i
= p
_
X = x
i

. Por la propiedad aditiva,

1
+ +
k
= 1.
Para una variable continua, en cambio, no interesan las probabilidades de los valores individuales,
que siempre son cero (podramos dar un argumento riguroso para justicar esto, aunque ello
requerira un nivel matematico superior al de estas notas), sino las de intervalos. As, para
cada par de valores x
1
y x
2
, con x
1
< x
2
, la distribucion de probabilidad de X asigna una
probabilidad p
_
x
1
< X < x
2

al intervalo de valores comprendidos entre x


1
y x
2
.
Para las variables continuas y ordinales tiene sentido considerar probabilidades acumuladas.
Para un valor x de X, la probabilidad acumulada es p[X x]. Por la propiedad aditiva de la
probabilidad,
p
_
X x

= p
_
X < x

+ p
_
X = x

,
Facultad de Farmacia/Curso de Estadstica/4 20060115
Colesterol HDL
F
r
e
c
u
e
n
c
i
a
0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
0
5
1
0
1
5
Figura 1.2. Histograma (Ejemplo 1.3)
de donde se sigue que, cuando X es continua, es indiferente usar o < al denir la proba-
bilidad acumulada. En cambio, si X es discreta, puede ser p[X < x] = p[X x].
En la mayor parte de las aplicaciones reales, las distribuciones de probabilidad son desconocidas,
aunque se pueden aproximar por tablas de frecuencia, como la del ejemplo que sigue. En las
tablas se puede dar la frecuencia (absoluta), que es el n umero de veces que se da un resultado, o
ese n umero dividido por el n umero total de datos, que es la proporcion o frecuencia relativa (v.
Tabla 1.2). A veces se expresa la proporcion en forma de porcentaje. Para una variable continua
tambien se puede aproximar la distribucion de probabilidad por una tabla de frecuencia, pero en
la tabla solo se pueden incluir algunos intervalos. Para dar la distribucion completa, se necesita
un modelo matematico mas complejo, la funcion de densidad (v. Captulo 3).
Los intervalos en los que se basan las tablas de frecuencia de las variables continuas pueden
tener la misma o distinta longitud. A veces se presenta la tabla de frecuencias en forma graca,
con un diagrama de barras en el que la altura de una barra es proporcional a la frecuencia de
la clase correspondiente. Para una variable continua, las barras se colocan pegadas y ordenadas
seg un los valores de la variable. El graco as obtenido se llama histograma (v. Figura 1.2).
Ejemplo 1.3. En la Tabla 1.3 se dan las concentraciones iniciales de colesterol HDL de 57
trabajadores de una empresa (32 hombres y 25 mujeres) donde se ha realizado un estudio sobre
la inuencia de algunos componentes de la materia prima de los productos de bollera sobre
varios biomarcadores asociados a enfermedades cardiovasculares (colesterol HDL, LDL, etc.).
TABLA 1.3. Colesterol HDL (Ejemplo 1.3)
Hombres 1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1.050
1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1.170
1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0.875
1.455 1.170
Mujeres 1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1.000
0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1.295
1.065 1.020 1.465 1.050 0.790
La Tabla 1.4 es una tabla de frecuencia y la Figura 1.2 el correspondiente histograma. Observa
que en la Tabla 1.4 he mezclado hombres y mujeres, aunque cabe pensar que la distribucion
del colesterol HDL pueda ser distinta en los dos grupos de poblacion. Mas adelante volveremos
sobre este punto.
Facultad de Farmacia/Curso de Estadstica/5 20060115
TABLA 1.4. Tabla de frecuencia (Ejemplo 1.3)
Intervalo Frecuencia Porcentaje Intervalo Frecuencia Porcentaje
0.60.8 1 1.8% 1.41.6 5 8.8%
0.81.0 8 14.0% 1.61.8 8 14.0%
1.01.2 19 33.3% 1.82.0 5 8.8%
1.21.4 11 19.3%
Fuente: G. Brufau, J. Qulez, M.A. Canela, J. Salas-Salvado, M. Bullo & M. Rafecas (2003),
Evaluation of lipid oxidation after ingestion of bakery products enriched with phytosterols, -
carotene and -tocopherol, Clinical Nutrition 23 (2004), 13901397.
1.6. Percentiles
En una distribucion continua se puede considerar, para cada 0 < P < 1, el percentil correspon-
diente, que es un valor con probabilidad acumulada P. El percentil del 50% se llama mediana
y los del 25 y 75%, cuartiles. A veces, los percentiles del 20, 40, 60 y 80% se llaman quintiles y
los del 10, 20, 30%, etc., deciles.
Es habitual el uso de percentiles en distintos ambitos de las ciencias de la salud, aunque los
porcentajes asociados cambian de uno a otro contexto profesional. Por ejemplo, en el analisis
clnico se usan los percentiles del 2.5% y 97.5%, llamados valores de referencia, para establecer
los lmites de la normalidad. Por debajo del lmite del 2.5% tendremos los individuos hipo,
y por encima del 97.5% los hiper. Naturalmente, estos lmites dependen del sexo y del grupo
de edad (y del pas).
En otro contexto, las recomendaciones nutricionales se establecen de forma que la ingesta re-
comendada de los distintos nutrientes cubra las necesidades del 97.5% de la poblacion. Una
excepcion es la energa, para la que la recomendacion se basa en la mediana.
Los percentiles permiten denir con precision la simetra de la distribucion, que es una propiedad
importante en las distribuciones continuas. En una distribucion simetrica, los percentiles corre-
spondientes a P y 1 P equidistan de la mediana para cualquier P. En particular, la mediana
se halla en el punto medio del primer (25%) y el tercer cuartil (75%). La asimetra se puede
detectar en los histogramas (v. Figura 1.2), aunque el que el aspecto del histograma dependa
de los intervalos en los que se basa, en especial cuando el n umero de datos no es grande (por
ejemplo, inferior a 100), puede confundir a alguien no entrenado.
El percentil separa los valores de X en dos intervalos, de probabilidades P y 1 P. Por
consiguiente, se puede aproximar, a partir de un conjunto de datos, por un valor que separe
los datos en dos subconjuntos, con proporciones P y 1 P. Por ejemplo, para obtener una
aproximacion de la mediana, se ordenan los datos de menor a mayor, tomando como mediana el
que queda enmedio si el n umero de datos es impar, y la media de los dos que quedan enmedio
si es par. No obstante, cuando el n umero de observaciones es peque no, no tiene sentido calcular
demasiados percentiles por este procedimiento, como veremos en el ejemplo que sigue. En tal
caso se usan formulas basadas en un modelo probabilstico, tpicamente la distribucion normal,
cuya validez se acepta. Veremos estas formulas en el Captulo 3.
Ejemplo 1.3 (continuacion). En la Tabla 1.2 hay 57 valores. La mediana es el que ocupa el
lugar 29 al ordenarlos de menor a mayor. Los otros dos cuartiles corresponden a los lugares 15
y 43, respectivamente. As, la mediana es 1.225, el primer cuartil 1.055, y el tercero 1.520. Con
este tama no de muestra no tiene sentido buscar mas percentiles. Tanto el histograma como la
posicion de los cuartiles ponen de maniesto una cierta asimetra en la distribucion, no muy
acusada.
Facultad de Farmacia/Curso de Estadstica/6 20060115
1.7. Probabilidad condicionada
A veces interesa evaluar mediante una probabilidad la expectativa de un resultado A en el
supuesto de que se de una cierta condicion previamente especicada B. Esta probabilidad es
una probabilidad condicionada. Se puede denir la probabilidad de A condicionada a B como el
valor lmite de la proporcion de experiencias en las que se obtiene A, dentro del conjunto de las
experiencias en las que se da B. Designamos aqu por p
_
A|B

esta probabilidad condicionada.


Por ejemplo, en lugar de la probabilidad de que un recien nacido sea varon, puede interesarnos
la probabilidad de que el hijo de una madre mayor de treinta a nos sea varon. En este caso, A
corresponde a que el recien nacido sea varon, y B a que la madre tenga mas de treinta a nos.
En las ciencias de la salud, las probabilidades condicionadas aparecen de forma natural al pasar
de una poblacion a una subpoblacion, por ejemplo, al considerar solo personas de un sexo, de
un cierto segmento de edad, o de un cierto grupo etnico (v. Ejemplo 1.2). En la practica, la
distincion entre la probabilidad de A y la probabilidad de A condicionada a otro resultado se hace
solo cuando interesa, ya que todas las probabilidades de los problemas reales son condicionadas.
La probabilidad condicionada es aditiva. Si A se descompone en las posibilidades A
1
, . . . , A
k
,
se cumple
p
_
A|B

= p
_
A
1
|B

+ + p
_
A
k
|B

.
Otra formula interesante permite obtener la probabilidad de A promediando las probabilidades
en distintas condiciones. Supongamos que B
1
, B
2
, . . . , B
n
resultan de una particion del conjunto
de resultados posibles en varios casos (por ejemplo, hombres y mujeres). La probabilidad de A
se puede calcular con la formula
p[A] = p
_
A|B
1

p[B
1
] + + p
_
A|B
n

p[B
n
].
Observa que p[B
1
] + + p[B
n
] = 1, de modo que p[A] es la media ponderada de las probabil-
idades de A en los distintos casos. Por ejemplo, si una poblacion tiene el 52% de hombres y el
48% de mujeres, siendo la probabilidad de contraer una cierta enfermedad
1
en los hombres y

2
en las mujeres, la probabilidad para el conjunto de la poblacion es = 0.52
1
+ 0.48
2
.
NOTA. Sean x
1
, . . . , x
n
n umeros cualesquiera y w
1
, . . . , w
n
n umeros positivos, que cumplan
w
1
+ + w
n
= 1. Entonces la media ponderada de x
1
, . . . , x
n
, con pesos w
1
, . . . , w
n
,
es w
1
x
1
+ + w
n
x
n
. Si todos los pesos son iguales (a 1/n), resulta la media ordinaria. En
el ejemplo anterior, w
1
= 0.52 y w
2
= 0.48, de modo que en el promedio tienen mas peso los
hombres que las mujeres.
1.8. Distribuciones condicionadas
Supongamos ahora dos variables X e Y y jemos un valor de una de ellas, por ejemplo X = x.
Podemos entonces considerar la distribucion de probabilidad de Y condicionada a X = x. Si Y es
categorica, con valores y
1
, . . . , y
m
, la distribucion condicionada viene dada por las probabilidades
p
_
Y = y
1
|X = x

, . . . , p
_
Y = y
m
|X = x

.
Si Y es continua, la distribucion condicionada viene dada por las probabilidades de los intervalos
asociados a los valores de Y , es decir, p
_
y
1
< Y < y
2
|X = x

.
Ejemplo 1.2 (continuacion). En la Tabla 1.2, cada de una de las las da una aproximacion
de la distribucion del BMI condicionada al grupo etnico. Los resultados de la tabla parecen
indicar que la distribucion del BMI depende del grupo etnico. Mas adelante veremos pruebas
estadsticas especcas para este tipo de situaciones (la prueba chi cuadrado y la prueba de
sigicacion de la odds ratio).
Facultad de Farmacia/Curso de Estadstica/7 20060115
Aqu los papeles de X e Y estan claros. Lo que no esta del todo claro es si las diferencias en
los porcentajes de sobrepeso y obesidad se han de atribuir a diferencias etnicas, o a diferencias
en los habitos alimentarios (o a ambas cosas). Observa que, en este caso, no cabe promediar las
cuatro las de la tabla para obtener la distribucion de probabilidad aproximada del BMI en el
conjunto de la poblacion, a menos que las proporciones de los grupos etnicos en la muestra sean
las mismas que en la poblacion.
1.9. Independencia estadstica
Cuando la distribucion de Y condicionada a X = x es la misma, sea cual sea x, se dice que X e
Y son estadsticamente independientes. En la practica, esto signica que conocer el valor de X
no cambia la expectativa para Y . Esta nocion es central en este curso. Veremos mas adelante
como medir lo lejos que X e Y estan de la independencia, en dos casos especiales:
Cuando ambas variables son binarias, con la odds ratio , que es un n umero positivo. La
independencia equivale a = 1.
Cuando son continuas, con la correlacion , que cumple 1 1. Los valores extremos
= 1 se dan cuando una variable es funcion lineal de la otra. Por otro lado, cuando son
independientes, = 0. Aunque matematicamente es posible que se de = 0 sin que X
e Y no sean independientes, en la mayora de los problemas reales tal posibilidad puede
descartarse. As, se considera que > 0 cuando hay una relacion positiva entre X e Y
(es decir, si X aumenta, Y aumenta), < 0 cuando hay una relacion negativa y = 0
cuando no hay relacion.
NOTAS. 1. Tal como he formulado la denicion, debera haber dicho Y independiente de X,
en lugar de X e Y independientes. No obstante, se puede demostrar matematicamente que,
si Y es independiente de X, entonces X es independiente de Y . De hecho, las deniciones de
y son simetricas y no dependen de como se asignen los papeles de X e Y .
2. A pesar de que la nocion de independencia estadstica es simetrica, es frecuente interpretar
el resultado de una prueba que permite concluir que dos variables no son independientes como
una evidencia de que una variable inuye sobre la otra. El paso de la no-independencia a una
relacion causa-efecto (asimetrica) es extra-estadstico, y no lo avalan los metodos presentados
en este curso.
3. En el lenguaje coloquial, hay independencia cuando no hay ning un tipo de dependencia,
mientras que en Estadstica, lo que esta perfectamente denido (con formulas matematicas) es
la independencia. La dependencia puede ser cualquier cosa que no sea independencia, desde una
formula que de Y como funcion de X, hasta una asociacion vaga que no se sepa a que atribuir.
4. La nocion de independencia se extiende de forma natural a varias variables, X
1
, . . . , X
p
. Para
ello, se considera la distribucion de Y condicionada a
_
X
1
= x
1
, . . . , X
p
= x
p

. La independencia
signica que la distribucion condicionada es independiente de los x
1
, . . . x
p
.
5. La mayora de los metodos estadsticos solo son validos cuando las distintas observaciones
de que consta un experimento son independientes. En la practica, eso signica que conocer los
valores ya obtenidos no cambia la expectativa para las observaciones venideras. En los ejercicios
de urnas y bolas de la escuela, la independencia de las sucesivas extracciones se asegura
reemplazando las bolas extradas, pero, en los experimentos reales, asegurar la independencia
de las observaciones es mas complicado y constituye uno de los problemas centrales del dise no
de los experimentos. Esta cuestion aparecera varias veces en este curso.
Ejemplo 1.1 (continuacion). En el Ejemplo 1.1 parece claro, jandose en la Figura 1.1, que las
dos variables no son independientes, lo que no sorprendera a nadie, puesto que el sobrepeso se
debe, en parte, a la acumulacion de grasa en el abdomen. Aqu el coeciente de correlacion sera
positivo.
Facultad de Farmacia/Curso de Estadstica/8 20060115
Ejemplo 1.3 (continuacion). En Ejemplo 1.3 podemos llamar X al sexo e Y a la concentracion
de colesterol HDL, preguntandonos si cabe descartar la independencia a partir de estos datos.
En caso armativo, podra concluir que la distribucion de Y es distinta en los hombres y en
las mujeres. Veremos despues pruebas estadsticas para situaciones como esta (la prueba t y la
prueba de la suma de rangos). De momento, observa la diferencia entre las medianas: en los
hombres es 1.305 y en las mujeres, 1.100.
1.10. Medias y varianzas
En esta seccion doy un repaso rapido a las formulas de la media y la varianza, que se usan
habitualmente en los res umenes estadsticos. Supongamos que x
1
, x
2
, . . . , x
n
son valores de
una variable numerica X. La media, o promedio, se dene por
x =
x
1
+x
2
+ +x
n
n
=
1
n
n

i=1
x
i
.
La notacion x es universal. A veces se llama a x media aritmetica, para distinguirla de otros
valores centrales que tienen una interpretacion similar, como la media geometrica, que solo tiene
sentido cuando x
i
> 0. No hay una notacion standard para la media geometrica, denida por
Media geometrica =
n

x
1
x
n
=
_
n

i=1
x
i
_
1/n
.
Recuerda que, en general, ni la media aritmetica ni la geometrica tienen por que hallarse en
el centro de los datos. El valor central es la mediana. Por las propiedades del logaritmo, si
denimos y
i
= ln x
i
, la media aritmetica de y
1
, . . . , y
n
coincide con el logaritmo de la media
geometrica de x
1
, . . . , x
n
. Es habitual usar la la media aritmetica como valor central, pero
se reemplaza por la media geometrica cuando, por la razon que sea, se usa la transformada
logartmica de X.
Las propiedades siguientes se pueden vericar facilmente:
Si x
1
, . . . , x
n
son valores de X, e y
1
, . . . , y
n
valores de Y , se cumple
x +y = x + y.
Si x
1
, . . . , x
n
son valores de X, e Y = a +bX, siendo a y b constantes, se cumple
y = a +b x.
En general, esto no vale si se pasa de X a Y por una transformacion no lineal. Por
ejemplo, la media (aritmetica) de los logaritmos no es igual al logaritmo de la media
(aritmetica), sino al de la media geometrica.
La varianza se dene por
s
2
=
(x
1
x)
2
+ + (x
n
x)
2
n 1
=
1
n 1
n

i=1
(x
i
x)
2
.
La notacion s
2
tambien es universal. Se usan subndices (s
2
1
, s
2
X
, etc.) si hay ambig uedad.
Observa que, cuanto mayores (en valor absoluto) son las desviaciones x
i
x, mayor es la varianza.
Por esta razon, s
2
se usa esta como medida de la dispersion de los datos. La media tiene las
Facultad de Farmacia/Curso de Estadstica/9 20060115
mismas dimensiones que X, pero la varianza tiene las dimensiones de X
2
. Para volver a la
escala original, la medida de la dispersion se presenta casi siempre usando la raz cuadrada de
la varianza, que se llama desviacion tpica (o standard).
Se puede expresar la desviacion tpica en forma relativa, como porcentaje de un valor de referen-
cia, o de un promedio de resultados experimentales. Se llama entonces coeciente de variacion
(CV). El uso del coeciente de variacion para evaluar la imprecision de un metodo de analisis
es com un en el laboratorio.
En el analisis de la varianza usaremos sumas de cuadrados, abreviadamente SS (sum of squares).
Observa que la varianza es un cociente, cuyo numerador es una suma de cuadrados. En general,
en las sumas de cuadrados del analisis de la varianza, los sumandos son los cuadrados de las
desviaciones respecto a un valor central, que en la formula de la varianza es la media. Sin
embargo, cuando los datos estan repartidos en varios grupos cuyas medias queremos comparar,
se puede restar a cada dato la media de su grupo.
El denominador de la varianza es un n umero natural, el n umero de grados de libertad, abrevi-
adamente df (degrees of freedom). En esta formula, df coincide con el n umero de datos menos
1, aunque, en general, corresponde al n umero de sumandos independientes. Observa que solo
n 1 de las desviaciones x
1
x
1
, . . . , x
n
x
n
son independientes, ya que suman cero, de modo
que cualquiera de ellas se puede obtener a partir de las restantes.
Si x
1
, . . . , x
n
son valores de X, e Y = a +bX, con a y b constantes, se cumple
s
2
Y
= b
2
s
2
X
.
No obstante, en general, s
2
X+Y
= s
2
X
+s
2
Y
. La formula exacta es
s
2
X+Y
= s
2
X
+s
2
Y
+ 2 rs
X
s
Y
,
donde r es el coeciente de correlacion, del que hablaremos mas tarde.
Ejemplo 1.3 (continuacion). En el Ejemplo 1.3, llamando Y al colesterol HDL, tenemos, para la
muestra completa,
n = 57, y = 1.288, s = 0.311.
Para la submuestra de hombres,
n
1
= 32, y
1
= 1.378, s
1
= 0.330,
y para la de mujeres,
n
2
= 25, y
2
= 1.174, s
2
= 0.248.
Observa que, en todos los casos, la media es mayor que la mediana. La diferencia entre ellas es
indicativa de la asimetra de la distribucion.
1.11. Calculo en Excel
Ire indicando, a lo largo de estas notas, como pueden hacerse los calculos en una hoja de calculo
Excel. Alternativamente, puede usarse SPSS, mucho mas potente, pero menos exible. Como
SPSS no es, en general, accesible en casa o en el lugar de trabajo, he dado preferencia a Excel,
que es de uso (casi) universal.
En la hoja de calculo Excel se pueden hallar, ademas de la media, la varianza y la desviacion
tpica, multitud de formulas estadsticas, que se manejan con facilidad con el asistente de fun-
ciones. La media es PROMEDIO, la varianza, VAR, y la desviacion tpica, DESVEST. Las tres son
funciones de un argumento, y dentro del parentesis se indica el bloque de la hoja de calculo
donde se han introducido los datos, en la forma habitual de Excel. Por ejemplo, PROMEDIO(A1:B6)
da la media de una serie de 12 valores que estan en el rectangulo que tiene el vertice superior
izquierdo en A1 y el vertice inferior derecho en B6.
Facultad de Farmacia/Curso de Estadstica/10 20060115
2. Distribuciones discretas
2.1. Distribuciones discretas
Las variables numericas discretas resultan al contar las veces que se da un resultado en n
experiencias, o al asignar valores numericos a las categoras de una variable categorica. En
algunos casos, los valores de una variable numerica discreta se asignan de forma natural (vgr.
X = n umero de infartos en una poblacion en los ultimos diez a nos), pero, en otros, provienen
de una codicacion arbitraria (vgr. X = 1 si un individuo es fumador y X = 0 si no lo es).
Se denio en el Captulo 1 la probabilidad como una proporcion lmite, cuando el n umero de
experiencias tiende a innito. Podemos considerar, de forma analoga, el lmite de la media x,
que llamamos media de X y designamos por . Si hay ambig uedad se pueden usar subndices
(
1
,
X
, etc.).
A veces se distingue entre ambas medias llamando media de la muestra a x y media de la
poblacion a . As, en el Ejemplo 1.3, la media de la muestra es x = 1.288, y la media de la
poblacion es desconocida, y se puede usar aquella como una aproximacion de esta.
Para una variable discreta, la denicion matematica de resulta de forma natural de lo anterior.
Supongamos que x
1
, . . . , x
k
son los valores de X, con probabilidades
1
, . . . ,
k
. Sea n el n umero
de observaciones y n
i
la frecuencia del resultado X = x
i
. De este modo, n
1
+ +n
k
= n.
La proporcion con que observamos X = x
i
es p
i
= n
i
/n, y se cumple
x =
n
1
x
1
+ +n
k
x
k
n
= p
1
x
1
+ +p
k
x
k
.
Cuando n , las proporciones p
i
convergen hacia las probabilidades
i
, y el lmite de x es
=
1
x
1
+ +
k
x
k
.
Observa que es una media ponderada de x
1
, . . . , x
k
, en la que el peso de x
i
viene dado por
su probabilidad
i
.
La varianza de X es la media de (X )
2
. En una distribucion discreta,

2
=
1
_
x
1

_
2
+ +
k
_
x
k

_
2
.
Se puede demostrar matematicamente que
2
es el lmite de la varianza de la seccion anterior
cuando n . Tambien aqu se distingue entre varianza de la poblacion (
2
) y varianza de la
muestra (s
2
). En ambos casos se llama desviacion tpica a la raz cuadrada de la varianza.
Las propiedades de la media y la varianza de la muestra comentadas en el captulo anterior se
extienden, al pasar al lmite, a la media y la varianza de la poblacion. Una propiedad adicional
es la siguiente: si X e Y son independientes, se cumple
2
X+Y
=
2
X
+
2
Y
.
2.2. Ejemplos sencillos
Antes de pasar a la binomial, que es la distribucion discreta con mas aplicaciones, ilustramos
en esta seccion estas deniciones con unos calculos sencillos. El ejemplo del dado es clasico. En
el, X = resultado de la tirada de un dado regular. Como los seis resultados posibles tienen la
misma probabilidad, tenemos una distribucion uniforme. Los valores de X son
x
1
= 1, x
2
= 2, x
3
= 3, x
4
= 4, x
5
= 5, x
6
= 6,
Facultad de Farmacia/Curso de Estadstica/11 20060115
y, como las probabilidades deben sumar 1, la distribucion de probabilidad es

1
=
2
=
3
=
4
=
5
=
6
= 1/6.
Entonces,
=
1 + 2 + 3 + 4 + 5 + 6
6
= 3.5,

2
=
(2.5)
2
+ (1.5)
2
+ (0.5)
2
+ 0.5
2
+ 1.5
2
+ 2.5
2
6
= 2.9167.
La interpretacion de la media es muy clara en este ejemplo: si lanzamos el dado muchas veces, el
resultado medio es aproximadamente 3.5. La varianza no tiene una interpretacion tan directa.
Otro ejemplo sencillo es el de la distribucion de Bernouilli. Supongamos que X solo toma los
valores 0 y 1 (que pueden resultar al codicar los valores de una variable binaria cualquiera).
Designamos por = p[X = 1], de modo que 1 = p[X = 0]. En este caso,
=
_
1
_
0 + 1 = ,

2
=
_
1
__
0
_
2
+
_
1
_
2
=
_
1
_
.
2.3. Distribucion binomial
La distribucion binomial es el modelo mas conocido de distribucion discreta. Las secciones que
siguen tratan de dos aplicaciones interesantes al control de calidad.
Sea X una variable con distribucion de Bernouilli (valores 0 y 1). Llamamos B al n umero de
veces que se observa X = 1 en k experiencias independientes. Entonces B es una variable
discreta, con valores 0, 1, . . . , n. Usando un argumento combinatorio, se puede ver que la
distribucion de probabilidad de B viene dada por la formula binomial,
p
_
B = k

=
_
n
k
_

k
(1 )
nk
, k = 0, 1, . . . , n,
donde usamos la notacion clasica de los n umeros combinatorios,
_
n
k
_
=
n!
k! (n k)!
=
n(n 1) (n k + 1)
k!
.
Recordaras que n! (n factorial) denota el producto n(n 1) 3 2 1, salvo si n = 0. Por
convenio, 0! = 1. La distribucion binomial tiene dos parametros, n y . La relacion entre la
media y la varianza de B y estos parametros se puede deducir facilmente del calculo que hicimos
en la seccion anterior para la distribucion de Bernouilli, usando las propiedades de la media y
la varianza. Resulta, en denitiva,
= n,
2
= n(1 ).
Las probabilidades de la distribucion binomial se obtienen en la hoja de calculo Excel mediante la
funcion DISTR.BINOM, que tiene cuatro argumentos: el primero es el valor de B cuya probabilidad
se quiere calcular, el segundo el n umero de experiencias n, el tercero la probabilidad , y el cuarto
es un valor logico (0 o 1), que se usa para decidir entre la probabilidad p
_
B = k

(0=FALSO) y la
probabilidad acumulada p
_
B k

(1=VERDADERO).
Facultad de Farmacia/Curso de Estadstica/12 20060115
Por ejemplo, la probabilidad de obtener 3 caras lanzando una moneda 5 veces es
DISTR.BINOM(3;5;0.5;0)=0.3125,
que corresponde al calculo combinatorio
_
5
3
__
1
2
_
3
_
1
2
_
2
=
5 4
2
1
2
5
=
10
32
= 0.3125.
La probabilidad acumulada corresponde, en este caso, a obtener un n umero de caras menor o
igual que tres. En Excel,
DISTR.BINOM(3;5;0.5;1)=0.8125,
o, si se preere,
_
5
0
__
1
2
_
0
_
1
2
_
5
+ +
_
5
3
__
1
2
_
3
_
1
2
_
2
=
1
2
5
_
1 + 5 + 10 + 10
_
=
26
32
= 0.8125.
2.4. Planes de muestreo
En general, el muestreo es la seleccion de una parte o muestra dentro de un conjunto o poblacion.
La expresion inspeccion por muestreo se reere a la inspeccion que se limita a una muestra
extrada de un lote, a partir de cuyos resultados se decide la aceptacion o rechazo de la totalidad.
En el contexto de la inspeccion por muestreo, la poblacion es el lote que se acepta o rechaza,
pero, a veces, interesa considerar la muestra como si hubiera sido extrada de una poblacion
mucho mayor, el conjunto de la produccion de un proveedor.
La inspeccion por muestreo se lleva a cabo siguiendo planes de muestreo. Un plan de muestreo
consta de dos partes:
Instrucciones sobre como extraer la muestra.
Criterio para aceptar o rechazar un lote seg un los resultados obtenidos.
Un plan de muestreo por atributos indica el n umero de unidades de cada lote que se tienen que
inspeccionar, que es el tama no de la muestra, designado habitualmente por n, y el criterio para
aceptar o rechazar el lote, que habitualmente se concreta en el n umero de aceptacion (Ac) y el de
rechazo (Re). Si el n umero de unidades no conformes no supera Ac, se acepta el lote. Al alcanzar
Re, se rechaza. Los planes de muestreo mas conocidos son los de la norma MIL-STD-105 (o su
equivalente ISO 28591).
Para entender que signica, en la practica, usar uno u otro plan, hay que dar una respuesta a la
pregunta: Si el lote contiene una proporcion p de unidades no conformes, cual es la probabilidad
de que sea aceptado? Una curva que de la probabilidad de aceptacion en funcion de p (Figura
2.1) se llama, en el contexto del control de calidad, curva caracterstica.
La formula binomial pude ser usada para trazar curvas caractersticas (v. ejemplos). Hay que
tener en cuenta, sin embargo, que solo es valida si el lote es muy grande, de forma que se pueda
suponer que las sucesivas extracciones no cambian el porcentaje de unidades no conformes y,
por lo tanto, que las extracciones son independientes. En caso contrario, hay que recurrir a una
formula mas complicada, la formula hipergeometrica, que no se ve en este curso, pero que se
puede hallar tambien en Excel.
Ejemplo 2.1. Un plan de muestreo, extrado de la norma MIL-STD-105, da la regla siguiente
para decidir si se acepta o no un lote de un proveedor: se inspecciona una muestra de 125
unidades extrada del lote, y se acepta este si el n umero de unidades no conformes no supera 5.
Facultad de Farmacia/Curso de Estadstica/13 20060115
0.05 0.10 0.15
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Defectuosas (%)
P
r
o
b
a
b
i
l
i
d
a
d

d
e

a
c
e
p
t
a
c
i

n
Figura 2.1. Curva caracterstica (Ejemplo 2.1)
Usando la formula DISTR.BINOM(5;125;p;1) con distintos valores de p se obtienen los resultados
de la Tabla 2.1. Observa que la probabilidad de aceptacion es una probabilidad acumulada, ya
que aceptamos el lote cuando B 5. Se puede usar esta tabla, u otra analoga, para dibujar una
curva caracterstica (v. Figura 2.1).
TABLA 2.1. Probabilidad de aceptacion (Ejemplo 2.1)
Defectuosas Probabilidad Defectuosas Probabilidad
(%) aceptacion (%) aceptacion
1 0.9983 9 0.0269
2 0.9597 10 0.0114
3 0.8257 11 0.0046
4 0.6160 12 0.0018
5 0.4015 13 0.0006
6 0.2330 14 0.0002
7 0.1227 15 0.0001
8 0.0595 16 0.0000
2.5. Planes de muestreo simples y m ultiples
El del Ejemplo 2.1 es un plan simple. En los planes simples, que son los mas usados, solo se
inspecciona una muestra. El plan especica el tama no de muestra y el criterio de aceptacion.
En los planes dobles, se inspecciona una muestra y, en funcion del resultado, se acepta el lote, se
rechaza, o se inspecciona otra muestra. El plan especica el tama no y el criterio de aceptacion
y rechazo para cada muestra. El criterio de aceptacion para la segunda muestra se reere a la
union de ambas muestras.
En general, se dice que un plan de muestreo es mas eciente que otro cuando consigue objetivos
similares con menor esfuerzo de inspeccion. Mediante calculos basados en argumentos de tipo
probabilstico, se puede probar que los planes dobles son mas ecientes que los simples.
En los planes m ultiples se sigue un procedimiento similar, pero el n umero de muestras adicionales
que se puede tomar despues de la primera es mayor que 1, tpicamente 5 o 6. Despues de la
inspeccion de cada una de las muestras sucesivas se plantea la misma disyuntiva: si se cumple el
Facultad de Farmacia/Curso de Estadstica/14 20060115
criterio de aceptacion, se interrumpe el muestreo y se acepta el lote, si se cumple el de rechazo,
se rechaza, y, si no se cumple ninguno de ambos, se extrae una nueva muestra, hasta llegar al
n umero maximo de muestras autorizado en el plan. Los planes m ultiples son mas ecientes que
los dobles.
Ejemplo 2.2. En otro plan de la norma MIL-STD-105, se extrae una muestra de 50 unidades
del lote, aceptando este si no hay mas de una unidad no conforme en la muestra y rechazandolo
si hay 4 o mas. Si hay 2 o 3 unidades no conformes, se extrae una segunda muestra de 50
unidades, y el lote se acepta si el n umero total (en el conjunto de las dos muestras) de unidades
no conformes es menor o igual que 4, siendo rechazado en caso contrario.
Podemos, como antes, calcular las probabilidades de aceptacion con la formula binomial, pero
los calculos son mas complicados. Ilustro el calculo con su aplicacion a la situacion p = 0.05.
La aceptacion del lote tiene lugar en tres casos:
Cuando en la primera muestra hay 0 o 1 unidades no conformes. Este caso se resuelve
directamente, aplicando la formula
DISTR.BINOM(1;50;0.05;1)=0.2794.
Cuando en la primera muestra hay 2 unidades no conformes y en la segunda 2 o menos
(ahora hay segunda muestra, en el anterior caso no). Calculo esta probabilidad como
un producto, suponiendo que las muestras son independientes. El primer factor es la
probabilidad (no acumulada) de obtener 2 unidades no conformes en la primera muestra.
El segundo es la probabilidad (acumulada) de obtener 2 o menos en la segunda. Ambas
muestras tienen tama no 50. Resulta, pues,
DISTR.BINOM(2;50;0.05;0)DISTR.BINOM(2;50;0.05;1)=0.26110.5405=0.1411.
Cuando en la primera muestra hay 3 unidades no conformes y en la segunda 1 o menos.
El calculo es similar al del caso anterior,
DISTR.BINOM(3;50;0.05;0)DISTR.BINOM(1;50;0.05;1)=0.21990.2794=0.0614.
La probabilidad de aceptacion resulta al sumar las de los tres casos,
0.2794 + 0.1411 + 0.06144 = 0.4820.
NOTA. En estas notas me limito a explicar como se puede usar la formula binomial para trazar
la curva caracterstica de un plan de muestreo sencillo. Para hallar una gua sobre el uso de las
tablas de muestreo puedes consultar Griful & Canela (2004), donde hay abundante bibliografa.
Alternativamente, puedes hallar esta informacion en un documento sobre este tema que se puede
descargar (gratuitamente) de la pagina http://www.mat.ub.es/~canela/courses.htm.
2.6. Ensayos triangulares
Las pruebas sensoriales de diferenciacion se usan en el desarrollo de productos farmaceuticos y
alimentarios. En una prueba triangular participa un grupo de catadores, con entrenamiento
previo. Se presentan tres muestras, en orden aleatorio, a cada uno de ellos. Dos muestras son
identicas y la otra distinta. Se pide a los catadores que identiquen la que es distinta. Cuando
el n umero de aciertos es lo sucientemente alto, como para descartar que se haya producido por
azar, se concluye que los dos productos se pueden diferenciar mediante los sentidos.
Facultad de Farmacia/Curso de Estadstica/15 20060115
Ejemplo 2.3. Unos estudiantes de la UB han hecho una prueba sobre la capacidad de diferenciar
el yogur BIO (B) del natural (N). En la prueba han participado 12 catadores, a los que se
ofrecan tres vasos de yogur a temperatura ambiente, previamente agitados, para evitar que
distinguieran los yogures por su textura. De los tres yogures, uno es diferente de los otros dos,
y los catadores deben identicarlo.
En la Tabla 2.2 podemos ver la secuencia presentada a cada participante, y si acerto o no.
Observa que, para los seis primeros participantes, se han usado todas las secuencias posibles de
tres letras que tengan dos N y una B, o una N y dos B. Para los otros seis se han repetido estas
secuencias, en distinto orden.
TABLA 2.2. Prueba triangular (Ejemplo 2.3)
Participante Secuencia Acierto Participante Secuencia Acierto
1 NNB S

I 7 BBN NO
2 BNN S

I 8 NNB S

I
3 BBN NO 9 BNN S

I
4 NBB NO 10 NBB S

I
5 NBN S

I 11 BNB S

I
6 BNB NO 12 NBN S

I
En la tabla se ve que 8 de los 12 participantes han acertado. La probabilidad de que uno de
ellos acierte por casualidad es 1/3. Con la formula binomial podemos calcular la probabilidad
de obtener 8 o mas aciertos. Como p
_
B 8

= 1 p
_
B 7

, podemos usar la formula de la


probabilidad acumulada,
1-DISTR.BINOM(7;12;1/3;1)=1-0.9812=0.0188.
Como esta probabilidad es peque na, se puede concluir que es posible distinguir un producto de
otro mediante los sentidos. Mas adelante precisaremos que quiere decir peque na al hablar
del nivel de signicacion. De momento, toma nota de que, si no se especica lo contrario, las
probabilidades peque nas son las menores de 0.05. Este es un convenio, tan arbitrario como se
quiera, pero universal.
Fuente: Departament de Nutricio i Bromatologia, UB.
Facultad de Farmacia/Curso de Estadstica/16 20060115
3. La distribucion normal
3.1. Distribuciones continuas
Una distribucion continua asigna una probabilidad a cada intervalo x
1
< X < x
2
. Esto se
hace habitualmente mediante una funcion, la funcion de densidad de probabilidad de X, cuyas
integrales dan las probabilidades. La funcion de densidad f se escoge de modo que su integral
sobre un intervalo cualquiera coincida con la probabilidad asignada a ese intervalo,
p
_
x
1
< X < x
2

=
_
x
2
x
1
f(x) dx.
La probabilidad acumulada p[X < x] corresponde as a la integral de a x,
p
_
X < x

=
_
x

f(x) dx.
La graca de f es la curva de densidad de probabilidad (v. Figura 3.1). La probabilidad de un
intervalo coincide con el area limitada por la curva de ecuacion y = f(x), el eje de abscisas y las
verticales x = a y x = b.
Una funcion de densidad debe cumplir f(x) 0 para todo x, ya que si no podra dar probabili-
dades negativas. Sin embargo, recuerda que f(x) no es una probabilidad, y puede tomar valores
mayores que 1. Otra propiedad de la funcion de densidad es
p
_
< X < +

=
_
+

f(x) dx = 1.
La media y la varianza de una variable continua se dene con formulas parecidas a las de las
distribuciones discretas, sustituyendo sumas por integrales,
=
_
+

xf(x) dx,
2
=
_
+

(x )
2
f(x) dx,
y la desviacion tpica es la raz cuadrada de la varianza. Valen aqu las mismas propiedades
de la media y la varianza que para las distribuciones discretas. De ellas se deduce, en particular,
que
Z =
X

,
tiene media 0 y desviacion tpica 1. El paso de X a Z se llama normalizacion (o tipicacion).
3.2. Distribucion normal
La distribucion normal, o gaussiana, tiene una funcion de densidad de la forma
f(x) =
1

2
exp
_

(x )
2
2
2
_
.
Facultad de Farmacia/Curso de Estadstica/17 20060115
4 2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Figura 3.1. Curvas de densidad N(0, 1) y N(0, 1.5
2
)
y son los parametros de la distribucion, que coinciden con la media y la desviacion tpica
de X (comprobarlo es un ejercicio sencillo de calculo integral). La normal se abrevia N(,
2
).
Una curva de densidad normal tiene forma acampanada. Se identica en la curva de densidad
en el centro de la gura (el maximo de f(x)). se interpreta como una indicacion de lo aplanada
o puntiaguda que es la campana (v. Figura 3.1). Los rasgos principales de la curva de densidad
normal pueden resumirse en:
f(x) > 0 para todo x.
Es simetrica respecto x = , es decir, f( +t) = f( t) para todo t.
Tiene un maximo en x = , y dos puntos de inexion en x = .
Tiene asntotas horizontales por la izquierda y la derecha,
lim
x
f(x) = lim
x+
f(x) = 0.
La normal cumple, como cualquier densidad de probabilidad,
_
+

f(x) dx = 1.
No es posible hallar una primitiva de una funcion de densidad normal, es decir, una
funci on cuya derivada sea f(x), que admita una expresion sencilla.
De la ultima de estas propiedades se deduce que hay que usar metodos de integracion numerica
para las integrales de una curva de densidad normal. Tradicionalmente se usaban tablas para
el calculo de probabilidades con la distribucion normal, pero hoy da estas probabilidades se
pueden obtener sin dicultad en una hoja de calculo, o con una calculadora potente.
En Excel se pueden hallar formulas para calcular probabilidades acumuladas y percentiles. Son
las siguientes:
La funcion DISTR.NORM es una funcion de cuatro argumentos que da la densidad y la
probabilidad acumulada de una normal. El primer argumento es el valor de X dado
por el usuario, el segundo es la media , el tercero la desviacion tpica , y el cuarto
es una valor logico 0 o 1 que permite escoger entre la densidad (0=NO ACUMULADA) y la
probabilidad acumulada (1=ACUMULADA).
La funcion DISTR.NORM.INV es la inversa de la funcion de probabilidad acumulada, y
permite calcular percentiles. Tiene tres argumentos: el primero es la probabilidad P
cuyo percentil se quiere calcular, y las otros dos son la media y la varianza.
Facultad de Farmacia/Curso de Estadstica/18 20060115
Para ilustrar el uso de estas funciones haremos algunos calculos, basado en los valores obtenidos
para la muestra del Ejemplo 1.3. Supongamos que, en una cierta poblacion, el nivel de C-HDL
tiene distribucion normal, con = 1.288 y = 0.311. La probabilidad de que el C-HDL este
por debajo de 1.85 se calcula con
DISTR.NORM(1.85;1.288;0.311;1)=0.9646.
La probabilidad de un intervalo se puede obtener restando las probabilidades acumuladas de los
extremos del intervalo. Por ejemplo, la probabilidad de que el C-HDL este entre 1 y 2 es
DISTR.NORM(2;1.288;0.311;1)-DISTR.NORM(1;1.288;0.311;1)=0.8118.
Con la funcion DISTR.NORM.INV podemos calcular los valores de referencia para esta poblacion.
El percentil del 97.5% sera
DISTR.NORM.INV(0.975;1.288;0.311)=1.898,
y el del 2.5%,
DISTR.NORM.INV(0.025;1.288;0.311)=0.678.
Observa que, en la muestra del Ejemplo 1.3, hay 5 de los 57 individuos (5/57 = 8.8%) fuera del
intervalo de referencia. Mas interesante a un, hay tres hombres por encima del lmite superior
y dos mujeres por debajo del lmite inferior, lo que sugiere que el modelo que aplicamos no se
ajusta del todo a los datos. Ya hemos apuntado antes que, probablemente, la distribucion es
distinta en los hombres y en las mujeres.
Ejemplo 3.1 . Los resultados de la Tabla 3.1 son cantidades de agua (mg) recogidas con una
pipeta de 100 L, ordenados de menor a mayor. Suponemos que se trata de una variable
continua, a pesar de que los resultados se dan con dos cifras decimales, y hay valores repetidos.
Si la pipeta es la misma, por que los resultados son distintos? Porque la cantidad de agua
pipeteada no es la misma en todas las operaciones, aunque intentemos que as sea, y hay peque nas
diferencias, que podemos apreciar si la balanza tiene suciente resolucion.
TABLA 3.1. Cantidad real de agua pipeteada (Ejemplo 3.1)
98.01 98.60 98.78 98.94 99.10 99.18 99.31 99.47 99.73 99.82
98.01 98.65 98.78 99.07 99.10 99.18 99.31 99.59 99.73 99.84
98.16 98.65 98.85 99.07 99.16 99.18 99.34 99.59 99.76 99.84
98.16 98.69 98.85 99.09 99.16 99.28 99.34 99.65 99.76 100.05
98.60 98.69 98.94 99.09 99.18 99.28 99.47 99.65 99.82 100.05
La media es x = 99.172, y la desviacion tpica s = 0.511 (CV = 0.515). La mediana coincide
con la media de x
25
y x
26
(ambos iguales a 99.18), el cuartil inferior es 98.815, que es la media
de x
12
= 98.78 y x
13
= 98.85, y el superior x
37
= x
38
= 99.59. Observa la proximidad entre la
media y la mediana, y la disposicion casi simetrica de ambos cuartiles respecto a la mediana.
Como solamente hay 50 datos, no tiene sentido seguir extrayendo percentiles, y se podra concluir
aqu.
Como se interpretan estos resultados? En primer lugar, la capacidad de la pipeta es de 100 l.
Si se trata de agua pura, y no hay fallos en el metodo (en la pipeta o en la manera de usarla), la
media de un n umero grande de resultados tendra que aproximarse a 100 mg, que es el valor de
referencia, o patron. La diferencia entre la media y el valor de referencia, 99.180100 = 0.820,
se llama sesgo, y se usa para evaluar la exactitud, que es el grado de coincidencia entre la media
de los resultados de medida y el valor de referencia. Cuanto mayor es el sesgo, mas inexacta
es la operacion. Por otro lado, la desviacion tpica se usa para evaluar la precision, que es el
Facultad de Farmacia/Curso de Estadstica/19 20060115
Agua pipetada (mg)
P
r
o
p
o
r
c
i

n
97.5 98.5 99.5 100.5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Figura 3.2. Histograma (Ejemplo 3.1)
grado de coincidencia entre los resultados obtenidos al repetir la operacion. A mayor desviacion
tpica, menos precision.
Para preparar una tabla de frecuencia con estos resultados, lo mas natural es considerar el
intervalo de 98 a 100.5, que los contiene todos, y dividirlo en cinco subintervalos. En la Tabla
3.2 vemos las frecuencias y los correspondientes porcentajes. Hemos a nadido una columna con
los porcentajes calculados para los mismos intervalos por la distribucion N(99.172, 0.511
2
).
La Figura 3.2 es el histograma correspondiente, en el que he usado proporciones, en lugar de
frecuencias como en la Figura 1.2, y he superpuesto la curva de densidad N(99.172, 0.511
2
). Se
puede destacar, tanto en la tabla como en el histograma, la acumulacion de datos en el intervalo
central, y la simetra en la distribucion de los valores a ambos lados del centro.
TABLA 3.2. Tabla de frecuencia (Ejemplo 3.1)
Intervalo Frecuencia Proporcion Prediccion normal
98.098.5 4 8% 8.3%
98.599.0 12 24% 27.4%
99.099.5 20 40% 37.2%
99.5100.0 12 24% 20.8%
100.0100.5 2 4% 4.8%
Puedes juzgar por ti mismo, comparando el histograma con la curva de densidad en la Figura
3.2, o las proporciones observadas con las previstas por la distribucion normal en la Tabla 3.2,
si el modelo normal es adecuado para la distribucion de la variable cuyas observaciones hemos
analizado en este ejemplo. Despues volveremos sobre esta cuestion.
3.3. Distribucion normal standard
Un caso importante es la distribucion normal N(0, 1), la normal standard, con densidad
f(z) =
1

2
e
z
2
/2
.
Facultad de Farmacia/Curso de Estadstica/20 20060115
Normalmente se usa la letra Z para designar una variable con distribucion N(0, 1). Se puede
demostrar que, si X tiene distribucion normal, Z = (X )/ tiene distribucion N(0, 1). El
cambio de los valores de X por los de la variable normalizada Z permite reducir el calculo de
probabilidades a la distribucion N(0, 1). Por eso la normal standard es la unica para la que hay
tablas. Matematicamente, la conversion es
p
_
x
1
< X < x
2

= p
_
z
1
< Z < z
2

,
donde z
1
y z
2
son los valores z asociados a x
1
y x
2
,
z
1
=
x
1

, z
2
=
x
2

.
Los percentiles de la distribucion N(0, 1), as como los de otras distribuciones derivadas de la
normal, que apareceran mas adelante, se expresan en una notacion que resulta comoda en el
calculo de lmites de conanza y niveles de signicacion. Para 0 < < 1, designamos por z

el
percentil de N(0, 1) que corresponde a P = 1 . Matematicamente, z

queda denido por la


ecuacion
p
_
Z > z

=
1

2
_
+
z

e
z
2
/2
dz = .
Observa que, con esta notacion,
p
_
z

< Z < z

=
1

2
_
z

e
z
2
/2
dz = 1 2.
Los percentiles z

asociados a los valores de que se usan en las pruebas de hipotesis se llaman


a veces valores crticos. Tambien es habitual, en ese contexto, referirse a las colas de una
distribucion. Para z > 0, llamamos cola derecha a la parte de la curva de densidad N(0, 1) que
queda a la derecha de z y cola izquierda a la de la izquierda de z. Para cualquier < 0.5,
las colas asociadas a z

tienen ambas area . Un valor muy usado es z


0.025
= 1.96, para el que
ambas colas suman un 5%,
p
_
1.96 < Z < 1.96

= p
_
1.96 < X < + 1.96

= 0.95.
Esta es una propiedad fundamental de la distribucion normal, que aparecera en distintos lugares
este curso.
NOTA. Esta notacion no es universal. Llamamos aqu z

a un valor tal que el area de una cola


es , mientras otros denotan por z

el valor para el cual el area de ambas colas es y, por


consiguiente, el area de una sola cola es /2. La notacion que usamos es coherente para todas
las distribuciones derivadas de la normal.
Volviendo al ejemplo de la seccion anterior, los valores de referencia se pueden obtener haciendo
1.288 1.96 0.311 = 0.678, 1.288 + 1.96 0.311 = 1.898.
En Excel hay funciones especiales para la normal standard:
La funcion DISTR.NORM.ESTAND es una funcion de un argumento que da la probabilidad
acumulada de la N(0, 1). Por ejemplo,
DISTR.NORM.ESTAND(1.96)=0.975.
La funcion DISTR.NORM.ESTAND.INV es la inversa de la anterior, y da los percentiles. Por
ejemplo,
DISTR.NORM.ESTAND.INV(0.975)=1.96.
Se puede usar esta funcion para calcular valores crticos. Por ejemplo, z

resulta de
aplicar DISTR.NORM.ESTAND.INV a 1 /2.
Facultad de Farmacia/Curso de Estadstica/21 20060115
G
G
G G
G
G
G
G
G
G
G
G G
G
G G
G
G G G
5 10 15 20
1
3
5
1
4
0
1
4
5
1
5
0
1
5
5
Determinacin
H
e
m
o
g
l
o
b
i
n
a

(
g
/
L
)
Figura 3.3. Graco de control (Ejemplo 3.2)
3.4. Gracos de control
Los gracos de lnea se usan para representar una serie de observaciones de una variable X a lo
largo del tiempo. Son representaciones bidimensionales en las que en el eje de abscisas se pone el
tiempo (o el n umero de orden de las observaciones) y en el de ordenadas los valores de X o los de
alg un estadstico que resume varias observaciones efectuadas al mismo tiempo. Se acostumbra
a unir los puntos consecutivos por segmentos de lnea recta, dando una lnea quebrada.
Estas series de observaciones de una variable realizadas en distintos momentos reciben distintos
nombres, seg un el contexto. En general, en Estadstica, se habla de series temporales cuando son
largas (por ejemplo, mas 50 observaciones) y de medidas repetidas, o de estudios longitudinales
cuando son cortas (por ejemplo, 6 observaciones). En las ciencias de la salud, en general, las
series son cortas. En el control de calidad de la industria o del laboratorio las series tiene
longitud intermedia (entre 20 y 30 observaciones).
En este ultimo caso se a naden al graco lneas horizontales que facilitan la interpretacion, obte-
niendo un graco de control (v. Figura 3.3). Los mas tpicos tienen tres lneas horizontales:
Una lnea central, que corresponde a un valor medio, o a un valor de referencia.
Dos lmites de control, superior e inferior, entre los cuales se espera que se muevan los
valores de la variable que se controla. Habitualmente se designan por UCL (upper control
limit) y LCL (lower control limit).
Los gracos de control fueron introducidos por W. Shewhart para el control de la produccion
industrial en los a nos 20, por lo que se les llama a veces gracos de Shewhart. Posteriormente se
han ido hallando otras aplicaciones, por ejemplo al control de calidad del laboratorio. En este
contexto se denominan a veces gracos de Levy-Jennings.
A veces, los valores asignados a estas lneas son valores prejados, independientes de los datos
con los que se construye el graco, mientras que otras veces se obtienen a partir los propios
datos. As pues, distinguimos entre lmites prejados y calculados. Existen distintos metodos
para el calculo de lmites de control a partir de los datos. Normalmente, la lnea central es
un valor medio, y los lmites se sit uan a una distancia de la lnea central igual al triple de
la desviacion tpica de la variable que se representa en el graco de control. Por otra parte,
los lmites prejados pueden corresponder a unos lmites de tolerancia especicados en alguna
norma de fabricacion (en el control de la calidad de la industria), o a calculos estadsticos hechos
sobre datos recogidos previamente.
En la mayora de los casos, los lmite de control se basan la regla 3. El fundamento es
Facultad de Farmacia/Curso de Estadstica/22 20060115
sencillo de entender: la probabilidad de obtener un valor fuera del intervalo 3 en una
distribucion normal es muy peque na (exactamente el 0.27%). En el ejemplo que sigue veremos
como se establecen los lmites de control siguiendo esta regla, a partir de valores de la media y
la desviacion tpica obtenidos en un experimento previo.
Ejemplo 3.2. Dentro del programa de control de calidad interno de un laboratorio, se hacen
10 determinaciones replicadas de hemoglobina en una muestra de control, que se usan para
establecer los lmites de control. Mas adelante, estos lmites se usan en el control diario. En
la Tabla 2.3 se dan las 10 determinaciones replicadas de hemoglobina (g/l) y una serie de 20
determinaciones diarias de la muestra de control, realizadas posteriormente.
TABLA 3.3. Concentracion de hemoglobina (Ejemplo 3.2)
Replicados 1 2 3 4 5 6 7 8 9 10
Resultado 142 141 146 144 143 145 140 143 142 144
Det. diaria 1 2 3 4 5 6 7 8 9 10
Resultado 142 144 143 143 141 143 145 143 144 142
Det. diaria 11 12 13 14 15 16 17 18 19 20
Resultado 145 148 148 149 151 151 152 154 154 154
Calculamos unos lmites de control con los resultados de la primera serie, usandolos para el
control de los resultados diarios. De la serie de 10 observaciones replicadas resulta x = 143.00 y
s = 1.83. Los lmites son
UCL = 143.00 + 3 1.83 = 148.48, LCL = 143.00 3 1.83 = 137.52.
El graco resultante se puede ver en la Figura 3.3. Como los valores salen de la banda de control,
se debera haber hecho una correccion en el proceso de medida.
Fuente: S.M. Lewis & F.R.C. Path (1992), Quality Assurance in Hmatology, WHO.
3.5. Validez de la distribucion normal
En muchos metodos estadsticos se asume, a veces implcitamente, que las variables implicadas
tienen distribucion normal. Esto no es descabellado en ciertas situaciones, aunque en otras
entra en contradiccion con los datos disponibles. A veces no hay simetra en la distribucion
de frecuencia, o esta es bimodal, es decir, con dos picos de frecuencia. La asimetra se da a
menudo en variables biologicas y, a veces, se corrige con una transformacion de la variable.
La bimodalidad se atribuye a la mezcla de resultados obtenidos en distintas condiciones, o de
individuos de dos poblaciones (estadsticamente) distintas, aunque no siempre se pueda aclarar
la cuestion.
El contraste entre una distribucion de frecuencia obtenida experimentalmente y la normal se
puede hacer de diversas formas:
Superponiendo al histograma una curva de densidad normal, con y iguales a los
valores muestrales (v. Figura 3.2).
Vericando la simetra de los percentiles respecto a la mediana (v. Ejemplos 1.3 y 3.1).
Comparando las frecuencias observadas en el experimento, con las esperadas, calculadas
a partir de la curva normal. Por ejemplo, se pueden presentar, en la misma tabla,
frecuencias observadas y esperadas (v. Tabla 3.2).
Usando una de las llamadas pruebas de normalidad, en las que la hipotesis nula es la
Facultad de Farmacia/Curso de Estadstica/23 20060115
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
2 1 0 1 2
0
.
8
1
.
0
1
.
2
1
.
4
1
.
6
1
.
8
2
.
0
Cuantiles de la normal
C
o
l
e
s
t
e
r
o
l

H
D
L
Figura 3.4. Graco Q-Q (Ejemplo 1.3)
distribucion normal. La mas conocida es la prueba de Kolmogorov-Smirnov, disponible
en SPSS. No trataremos de estas pruebas en este curso.
Mediante un graco Q-Q (o graco de probabilidad), que es una representacion bidimen-
sional en la que en las abscisas se colocan los percentiles de la muestra y en las ordenadas
los correspondientes percentiles de la N(0, 1) (v. Figura 3.4). Si la variable es normal,
se pueden obtener sus percentiles aplicando una transformacion lineal a los percentiles
de la N(0, 1). Por consiguiente, cuando los puntos del graco quedan aproximadamente
alineados, la distribucion normal es aceptable.
Ejemplo 1.3 (continuacion) . En el Ejemplo 1.3 obtuvimos x = 1.288 y s = 0.311 (con n = 57).
Para comparar la distribucion de frecuencia con la normal (Tabla 3.3) he procedido como en la
Tabla 3.2, pero en este caso he usado los intervalos x ks, con k = 1, 2, 3, cuyas probabilidades
se pueden calcular con la funcion DISTR.NORM. Por ejemplo, el intervalo de extremos x+s = 1.600
y x + 2s = 1.911 tiene probabilidad
DISTR.NORM.ESTAND(2)-DISTR.NORM.ESTAND(1)=0.1359.
El mismo resultado se obtiene con
DISTR.NORM(1.910;1.288;0.311;1)-DISTR.NORM(1.599;1.288;0.311;1).
TABLA 3.4. Comparacion de frecuencias (Ejemplo 1.3)
Intervalo Prop. observada Prop. esperada

X < x 2s 0.00% 2.28%


x 2s < X < x s 14.04% 13.59%
x s < X < x 36.84% 34.13%
x < X < x +s 22.81% 34.13%
x +s < X < x + 2s 19.30% 13.59%
X > x + 2s 3.51% 2.28%
Observa que, pese a la discrepancia entre las frecuencias observadas y las previstas por la dis-
tribucion normal, ya puesta de maniesto en el histograma de la Figura 1.2, si usamos la formula
Facultad de Farmacia/Curso de Estadstica/24 20060115

1.96s para calcular un intervalo del 95%, resulta un intervalo que contiene el 96.39% de las
observaciones, lo que no esta mal. Puede objetarse, no obstante, que todas las observaciones
que caen fuera de este intervalo estan en la cola derecha, lo que va en contra de la simetra de la
normal. A pesar de este inconveniente, este ejemplo ilustra un hecho importante: en muchos ca-
sos, a un cuando hallemos discrepancias relevantes entre la distribucion normal y la distribucion
de los resultados experimentales, los lmites

1.96s son aproximadamente validos.
TABLA 3.5. Puntos del graco Q-Q (Ejemplo 1.3)
x
i
i P
i
z
i
x
i
i P
i
z
i
0.790 1 1.7% 2.11 1.225 30 51.7% 0.04
0.840 2 3.4% 1.82 1.245 31 53.4% 0.09
0.860 3 5.2% 1.63 1.290 32 55.2% 0.13
0.875 4 6.9% 1.48 1.295 33 56.9% 0.17
0.875 5 8.6% 1.36 1.295 34 58.6% 0.22
0.910 6 10.3% 1.26 1.300 35 60.3% 0.26
0.930 7 12.1% 1.17 1.310 36 62.1% 0.31
0.965 8 13.8% 1.09 1.360 37 63.8% 0.35
1.000 9 15.5% 1.01 1.365 38 65.5% 0.40
1.015 10 17.2% 0.94 1.400 39 67.2% 0.45
1.020 11 19.0% 0.88 1.455 40 69.0% 0.49
1.050 12 20.7% 0.82 1.465 41 70.7% 0.54
1.050 13 22.4% 0.76 1.485 42 72.4% 0.60
1.055 14 24.1% 0.70 1.520 43 74.1% 0.65
1.055 15 25.9% 0.65 1.535 44 75.9% 0.70
1.065 16 27.6% 0.60 1.625 45 77.6% 0.76
1.065 17 29.3% 0.54 1.630 46 79.3% 0.82
1.085 18 31.0% 0.49 1.660 47 81.0% 0.88
1.100 19 32.8% 0.45 1.660 48 82.8% 0.94
1.100 20 34.5% 0.40 1.660 49 84.5% 1.01
1.115 21 36.2% 0.35 1.680 50 86.2% 1.09
1.120 22 37.9% 0.31 1.695 51 87.9% 1.17
1.135 23 39.7% 0.26 1.700 52 89.7% 1.26
1.150 24 41.4% 0.22 1.815 53 91.4% 1.36
1.155 25 43.1% 0.17 1.835 54 93.1% 1.48
1.155 26 44.8% 0.13 1.910 55 94.8% 1.63
1.170 27 46.6% 0.09 1.940 56 96.6% 1.82
1.170 28 48.3% 0.04 1.980 57 98.3% 2.11
1.225 29 50.0% 0.00
Para preparar la Figura 3.4 he convertido cada dato en un percentil, 57 en total. Para ello
he ordenado los datos de menor a mayor, x
1
x
2
x
57
, asignando a cada x
i
una
probabilidad acumulada dada por la formula
P
i
=
i
n + 1
y hallando el correspondiente percentil de la normal standard, z
i
, con DISTR.NORM.ESTAND.INV.
Para cada dato x
i
coloco en el graco el punto (x
i
, z
i
). Observa que la diferencia P
i
P
i1
es
constante (= 1/58).
Aqu, la menor de las 57 concentraciones es x
1
= 0.790, a la que asociamos P
1
= 0.88%. El
correspondiente percentil de la N(0, 1) lo da
DISTR.NORM.ESTAND.INV(0.0088)=-2.114.
Por tanto, el primer punto del graco es (0.790, 2.114). Para el segundo punto se toma como
abscisa y
2
= 0.840 y como ordenada el percentil de la N(0, 1) con P
2
= 2.63%, que resulta de
Facultad de Farmacia/Curso de Estadstica/25 20060115
hacer
DISTR.NORM.ESTAND.INV(0.0263)=-1.819,
etcetera. Es facil hacer todas estas operaciones en Excel de una sola vez (v. Tabla 3.4). La
alineacion de los puntos de la Figura 3.4 puede considerarse aceptable.
3.6. Transformacion logartmica
Las transformaciones o cambios de escala se usan en muy diversas situaciones, practicamente en
todos los cambios de la ciencia. La transformacion logartmica es la mas clasica, y seguramente
ya te sera familiar la expresion de concentraciones en escala logartmica. Por lo menos para la
concentracion de iones H
+
de la Qumica, ya estas acostumbrado al pH, que es un logaritmo
decimal. El pH proporciona una escala sencilla para medir la acidez.
Otras veces, el cambio de escala simplica alguna formula matematica. Un ejemplo tambien
conocido es el de la absorbancia, que es el (menos) logaritmo de una intensidad lumnica. La
escala logartmica permite aqu establecer una relacion lineal entre la absorbancia y el contenido
de un cierto componente en una sustancia. Esta es la base del analisis espectrofotometrico.
Es Estadstica, la transformacion logartmica se aplica principalmente para corregir la desviacion
respecto a la distribucion normal, en variables positivas (si no, no hay logaritmo) en la que la
distribucion tiene la cola derecha mas alargada que la izquierda. Matematicamente, lo que
hacemos es considerar la distribucion de Y = lnX. El prejo log hace referencia a este cambio
de escala. Vamos a verlo en un ejemplo.
TABLA 3.6. Concentracion de bilirrubina (Ejemplo 3.3)
0.5 0.9 0.4 1.3 0.5 0.4 0.4 0.3 2.9 0.4
0.6 0.5 0.5 0.4 0.4 0.4 0.4 0.6 1.5 1.0
0.3 0.8 0.4 0.4 0.6 0.7 0.5 0.5 0.5 1.2
0.4 0.5 0.7 0.6 1.6 1.1 0.4 1.4 0.6 0.4
0.5 2.2 1.0 0.9 0.7 0.3 0.5 0.6 0.5 0.5
Ejemplo 3.3. Los datos de la Tabla 3.6 son concentraciones de bilirrubina obtenidas en un grupo
de varones de edades comprendidas entre 20 y 22 a nos. Aqu, x = 0.71 y s
X
= 0.50.
La distribucion de frecuencia para estos resultados se da en la Tabla 3.7 y el correspondiente his-
tograma en la parte izquierda de la Figura 3.5. Se aprecia una clara asimetra en la distribucion
de las frecuencias. La media queda muy cerca del percentil del 75%, y en cambio la mediana
esta mas proxima al del 25%:
Mediana = 0.50, Percentil 25% = 0.40, Percentil 75% = 0.75.
TABLA 3.7. Distribuciones de frecuencia (Ejemplo 3.3)
Intervalo Frecuencia Porcentaje
De 0.0 a 0.45 16 32%
De 0.45 a 0.95 24 48%
De 0.95 a 1.45 6 12%
De 1.45 a 1.95 2 4%
De 1.95 a 2.45 1 2%
De 2.45 a 2.95 1 2%
Facultad de Farmacia/Curso de Estadstica/26 20060115
Bilirrubina
P
r
o
p
o
r
c
i

n
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Bilirrubina (log)
P
r
o
p
o
r
c
i

n
1.5 1.0 0.5 0.0 0.5 1.0 1.5
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
1
.
2
Figura 3.5. Histogramas (Ejemplo 3.3)
Observa que la formula x 2s da unos lmites que no tienen sentido para esta variable. Por
ejemplo, x 2s = 0.29 es negativo, a pesar de que se trata de una concentracion.
TABLA 3.8. Logconcentracion de bilirrubina (Ejemplo 3.3)
-0.693 -0.105 -0.916 0.262 -0.693 -0.916 -0.916 -1.204 1.065 -0.916
-0.511 -0.693 -0.693 -0.916 -0.916 -0.916 -0.916 -0.511 0.405 0.000
-1.204 -0.223 -0.916 -0.916 -0.511 -0.357 -0.693 -0.693 -0.693 0.182
-0.916 -0.693 -0.357 -0.511 0.470 0.095 -0.916 0.336 -0.511 -0.916
-0.693 0.788 0.000 -0.105 -0.357 -1.204 -0.693 -0.511 -0.693 -0.693
En la Tabla 3.8 se dan las concentraciones en escala logartmica. Ahora y = 0.4961 y s
Y
=
0.5172. Observa que el mnimo, el maximo y los percentiles
Mediana = 0.693, Percentil 25% = 0.916, Percentil 75% = 0.290.
coinciden con los logaritmos de los originales (el del 75% no coincide exactamente, puesto que
es la media de dos datos), no la media ni la desviacion tpica.
Se puede considerar que ha mejorado algo la simetra, si se atiende a la posicion de la mediana
entre los cuartiles, pero el resultado no es del todo satisfactorio. Puedes ver el histograma a la
derecha de la Figura 3.5. Habra que tener cuidado, pues, al aplicar ciertas formulas derivadas
de la normal a datos como estos.
Sin embargo, la formula y 2s da unos lmites que s tienen sentido para el logaritmo, ya que
0.4961 + 2 0.5172 = 0.5383, 0.49612 0.5172 = 1.5305,
y los lmites para la concentracion son
exp(0.5883) = 1.7131, exp(1.5305) = 0.2164.
El intervalo denido por estos lmites contiene el 96% de las concentraciones de la Tabla 3.6.
Por consiguiente, pese a que en este ejemplo la normal no es valida, una formula que se deriva
de ella da una prevision correcta. Observa tambien, que
exp( y) = 0.6089,
que coincide con la media geometrica de las concentraciones de la Tabla 3.6, es mas apropiado
que la media (aritmetica) como valor central de la distribucion.
Facultad de Farmacia/Curso de Estadstica/27 20060115
4. Lmites para la media
4.1. Distribucion de la media
Supongamos que X es una variable con media y desviacion tpica , y que

X es la media de
n observaciones independientes de X. De las propiedades de la media y la varianza se derivan
las relaciones

X
= ,
X
=

n
.
La desviacion tpica de la media, /

n, se llama error tpico de la media o, si no hay ambig uedad,


error tpico a secas. La abreviatura SEM (standard error of the mean) aparece con frecuencia
en la literatura cientca. La misma expresion se usa para el valor muestral s/

n.
Si X tiene distribucion normal,

X tambien tiene distribucion normal (la demostracion no es
tri-vial). En tal caso, reemplazando por /

n, podemos usar la distribucion normal para


obtener probabilidades de intervalos asociados a la media, por ejemplo,
p
_
1.96

n
<

X < + 1.96

n
_
= 0.95.
Si X no tiene distribucion normal, no podemos asegurar que la distribucion de

X sea normal.
Sin embargo, un teorema clasico, el llamado teorema central del lmite, garantiza que, sea cual
sea la distribucion de X (incluso si es discreta), la distribucion de

X se aproxima a la normal
cuando n . Esto signica que, si n es grande, la formula anterior es aproximadamente
valida, aunque X no tenga distribucion normal.
Es com un, en los libros de Estadstica, referirse al hecho de que la distribucion del resultado de
un cierto calculo (por ejemplo, una media) se aproxime a una cierta distribucion (por ejemplo,
la normal) cuando el numero de observaciones tiende a innito, llamando distribucion asintotica
a esa distribucion lmite. As pues, el teorema central del lmite asegura que la media tiene
distribucion asintoticamente normal.
4.2. Aproximacion de la binomial por la normal
Una de las aplicaciones clasicas de la distribucion asintotica de la media es la aproximacion de
la binomial por la normal, que se basa en que la proporcion observada es un caso particular de
media, la de una variable con distribucion de Bernouilli (01).
Supongamos que X es una variable 01, y hacemos n observaciones independientes de X. La
media x coincide con la proporcion p de observaciones en que X = 1. Cuando n es grande, la
distribucion de p se puede aproximar por una normal. De los calculos de la seccion 2.2 y del
calculo de
X
de la seccion 4.1 resulta que, en la distribucion de p,
= , =
_
(1 )
n
.
Si, en lugar de considerar la proporcion, consideramos la frecuencia con que X = 1, tenemos una
distribucion binomial. Por lo anterior, cuando n es grande, la distribucion binomial se puede
aproximar por una normal, con = n, =
_
n(1 ).
Facultad de Farmacia/Curso de Estadstica/28 20060115
Ejemplo 4.1. En un estudio sobre una nueva formulacion de un anticoagulante ya comercializado
se quiere ver si el porcentaje de pacientes cronicos a los que no hace falta modicar la dosis a
los tres meses (pacientes estables) cambia al sustituir la version comercializada por la nueva
formulacion. En el estudio intervienen los pacientes de un hospital en el que el porcentaje
(historico) de pacientes estables es del 73.39%. 272 pacientes de una muestra de 380 voluntarios,
el 71.59%, resultan estables para la nueva formulacion. Es signicativa la diferencia entre este
porcentaje y el historico?
Aqu n = 380, de modo que usamos la aproximacion normal. Tomamos = 0.7379, con
lo que la proporcion de pacientes estables en una muestra de tama no 380 tiene distribucion
aproximadamente normal, con
= 0.7379, =
_
0.7379 0.2621
380
= 0.0226.
Para evaluar en que medida el valor p = 0.7159 es compatible con el supuesto de que la media
es = 0.7379, es decir, de que la distribucion para la nueva formulacion es la misma que para
la version comercializada, transformamos p en un valor z,
z =
0.7159 0.7379
0.0226
= 0.9752,
y calculamos la probabilidad de obtener un valor mas extremo (area de 2 colas) z en la N(0, 1),
p
_
|Z| > 0.9752

= 2
_
1 (0.9752)
_
= 0.3295.
Como no se trata de una probabilidad muy peque na, consideramos que la diferencia respecto al
valor historico no es signicativa. En el Captulo siguiente sistematizaremos este argumento, al
introducir los niveles de signicacion.
Ejemplo 2.1 (continuacion). Usar o no la aproximacion de la binomial por la normal es una
cuestion de orden practico, y la decision depende, en numerosas ocasiones, de los medios de
calculo disponibles. En general, la aproximacion es mejor cuanto mayor sea n, y cuanto mas
cerca este de 0.5. Para ilustrar esto, calculamos las probabilidades del Ejemplo 5 usando la
aproximacion normal.
Sea B el n umero de unidades defectuosas en una muestra de 125. Para calcular p
_
B 5

aproximamos la distribucion de B por la normal, con


= 125, =
_
125 (1 ).
En la aproximacion de la binomial por la normal se suele hacer una correccion de continuidad,
que en este caso supone usar la aproximacion
p
_
X 5

p
_
N(,
2
) < 5.5

.
La razon es que, al ser B discreta,
_
B 5

=
_
B < 6

, pero para una variable continua, no es


indiferente usar uno u otro lmite, y la cuestion se decide usando el punto medio.
TABLA 4.1. Probabilidad de aceptacion (Ejemplo 2.1)
Defectuosas Probabilidad Defectuosas Probabilidad
(%) aceptacion (%) aceptacion
1 0.9999 9 0.0362
2 0.9724 10 0.0184
3 0.8206 11 0.0092
4 0.5903 12 0.0045
5 0.3791 13 0.0021
6 0.2257 14 0.0010
7 0.1273 15 0.0005
8 0.0690 16 0.0002
Facultad de Farmacia/Curso de Estadstica/29 20060115
En la Tabla 4.1 hemos recalculado las probabilidades de aceptacion de la Tabla 2.1, usando la
funcion
DISTR.NORM(5.5,125*p,RAIZ(125*p*(1-p))).
La comparacion de las dos tablas muestra que, cuando es peque na, el tama no de muestra debe
ser mayor, para obtener una buena aproximacion.
4.3. Lmites de conanza para una media
Supongamos que X es una variable con distribucion N(,
2
). En el 95% de los casos se cumple
x 1.96

n
< < x + 1.96

n
.
Esta formula da unos lmites para , que se llaman lmites de conanza del 95% para la media.
La interpretacion de los lmites es directa: consideramos que esta comprendida entre ellos con
una seguridad del 95% (equivalentemente, con un margen de error del 5%). Si X no es normal
pero n es grande (por ejemplo, n > 25), esta formula da una aproximacion de los lmites que,
en general, se considera aceptable.
Sustituyendo 1.96 por un valor z

adecuado se puede cambiar el 95% por la probabilidad que


se desee. As, la formula
x z

n
da los lmites correspondientes a un nivel de conanza 1 2. Si no se especica el nivel de
conanza, se entiende que es el 95% ( = 0.025).
Mediante los lmites de conanza se puede comparar x con un valor de referencia
0
. Cuando

0
cae fuera de los lmites, se concluye, con el nivel de conanza correspondiente, que =
0
.
Se dice entonces que la diferencia entre x y
0
es signicativa.
4.4. Calculo de los lmites cuando la varianza es desconocida
En la mayora de los problemas reales, no es conocida, pero, si n es grande, la podemos
reemplazar por s, obteniendo una formula aproximada para los lmites de conanza de la media.
No obstante, hay una formula exacta, que se puede usar cuando n es peque no, en la que z

se sustituye por otro valor t

. En seccion explico brevemente el fundamento de esta formula


alternativa.
El calculo de los lmites de conanza de la seccion 4.3 se basaba en que, si X tiene distribucion
N(,
2
), podemos asumir que
z =
x
/

n
sigue de una distribucion N(0, 1). Si sustituimos por s, tenemos
t =

X
s/

n
,
y la distribucion ya no es la normal standard, sino otra distribucion, la distribucion t de Student.
La distribucion t es simetrica, con media 0, con una curva de densidad acampanada, parecida a
la N(0, 1) (v. Figura 4.1). No se trata de una unica distribucion, sino un modelo, en el que cada
distribucion particular se identica por un n umero natural, el n umero de grados de libertad. En
Facultad de Farmacia/Curso de Estadstica/30 20060115
3 2 1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Figura 4.1. Curvas de densidad N(0, 1) y t(5)
la formula de los lmites de conanza de la media, el n umero de grados de libertad es el de la
varianza s
2
, es decir, df = n 1.
Con el mismo planteamiento que en la normal, denotamos por t

(n 1) los valores crticos de


esta distribucion (o por t

, si no hay ambig uedad). La formula para los lmites de conanza


queda entonces
x t

(n 1)
s

n
.
En una tabla de valores crticos de la t de Student, sea extrada de un libro o preparada con
Excel u otro programa, se puede observar que t

cuando df . As, la formula de los


lmutes de conanza basada en la t de Student da como lmite la que se basa en la normal.
Hay dos funciones en Excel para el manejo de la distribucion t, una directa y otra inversa. La
directa pasa de a t

y la inversa al reves. DISTR.T es una funcion de tres argumentos: el valor


t para el cual se desea calcular el area de las colas, el n umero de grados de libertad y el n umero
de colas (1 o 2). As, por ejemplo, el area de las dos colas asociadas a t = 2.35 en la distribucion
t(7) es
DISTR.T(2.35;7;2)=0.0511.
Por la simetra de la t de Student, el area de una cola es la mitad, o sea
DISTR.T(2.35;7;1)=0.0255.
La funcion DISTR.T.INV es una funcion de dos argumentos, el area de las dos colas y el n umero
de grados de libertad. Por ejemplo, DISTR.T(0.0511;7)=2.35.
Ejemplo 4.2. Se determina cinco veces la concentracion de glucosa en una muestra de sangre por
el metodo de la hexoquinasa, obteniendo los valores 91.5, 93.7, 91.1, 97.8 y 94.4. Suponiendo que
no hay error sistematico, calculamos los lmites de conanza del 90, 95 y 99% para el contenido
real de glucosa. Tenemos x = 93.70, s = 2.69 y n = 5. Usamos la distribucion t, puesto que n
es peque no y desconocida.
Para el 90%, la tabla da t
0.05
(4) = 2.132, con lo que los lmites son
93.70 + 2.132
2.69

5
= 96.263, 93.70 2.132
2.69

5
= 91.137.
Para el 95%, t
0.025
(4) = 2.776, y los lmites son
93.70 + 2.776
2.69

5
= 97.037, 93.70 2.776
2.69

5
= 90.363.
Facultad de Farmacia/Curso de Estadstica/31 20060115
Finalmente, para el 99%, t
0.005
(4) = 4.604, y los lmites son
93.70 + 4.604
2.69

5
= 99.234, 93.70 4.604
2.69

5
= 88.166.
Los correspondientes valores crticos de la normal son z
0.05
= 1.645, z
0.025
= 1.960, y z
0.005
=
2.576. Como se ve, para n peque no, la diferencia entre aplicar una u otra formula es relevante.
4.5. Lmites de conanza para una proporcion
Supongamos que X es una variable con distribucion de Bernouilli (01), con = p
_
X = 1

. En
este caso, la media de n observaciones independientes de X coincide con la proporcion de casos
en que X = 1, que designo por p. La distribucion de p se aproxima a la normal cuando n es
grande. Como aqu
2
= (1 ), se cumple, con probabilidad 1 2,
z

_
(1 )
n
< p < +z

_
(1 )
n
.
En la formula de los lmites de conanza, como no se conoce, se reemplaza por p, quedando
la formula
p z

_
p(1 p)
n
.
En el ambito de las encuestas, el sumando de la derecha se llama error muestral. El error
muestral indica la magnitud que puede alcanzar el error extrapolando a la poblacion el resultado
obtenido en una muestra extrada aleatoriamente. Normalmente se usa z

= 1.96.
A veces se calcula el error muestral antes de hacer la encuesta, sin tener a un el valor de p. Si
se dispone de una estimacion inicial de p, se usa en la formula. Si no, se reemplaza p por 0.5,
lo que corresponde al supuesto mas desfavorable, ya que el maximo valor de p(1 p) se alcanza
cuando p = 0.5 (lo puedes vericar facilmente dibujando la curva correspondiente, o igualando
a 0 la derivada de p(1 p)).
Ejemplo 4.3. Se quiere hacer una encuesta sobre el consumo de extasis entre los jovenes de
edades comprendidas entre 15 y 20 a nos en una cierta poblacion. Suponiendo que la encuesta se
haga a una muestra extrada aleatoriamente y que, en esta poblacion, el porcentaje de jovenes
que han tomado extasis alguna vez sea del orden del 20%, cual debe ser el tama no de la muestra
para que el error en el porcentaje obtenido sea inferior al 5% con una probabilidad del 95%?
El tama no de la muestra n debe ser tal que el error muestral correspondiente al 95% de conanza
sea inferior al 5%. Si tomamos p = 0.20, eso signica que
1.96
_
0.2 0.8
n
< 0.05,
es decir
n >
1.96
2
0.2 0.8
0.05
2
= 245.86.
Por lo tanto, el tama no de la muestra debe ser mayor o igual que 246. Si no se dispusiera de la
estimacion inicial del 20%, se usara 0.5, con lo cual,
n >
1.96
2
0.5 0.5
0.05
2
= 384.15.
Facultad de Farmacia/Curso de Estadstica/32 20060115
4.6. Gracos de control para subgrupos
A veces, el control no se basa en observaciones individuales, sino que se hacen n observaciones
cada vez. De hecho, esta es la situacion clasica, para la que Shewhart desarrollo el metodo:
los gracos se aplican al control de una produccion de unidades, basandose el control en la
inspeccion de cuatro o cinco unidades cada hora, o cada media hora. Se representan en el graco
las medias de estos grupos de n observaciones, llamados subgrupos. n es el tama no de subgrupo.
Shewhart desarrollo procedimientos sencillos para calcular los lmites de control usando los
mismos datos que para trazar el graco. Los lmites de control para la media se basan en el
mismo principio (3) que los de la seccion 3.4, reemplazando por /

n Esencialmente,
el metodo para obtener un valor estimado de a partir de subgrupos se basa en evaluar por
separado la dispersion en cada subgrupo, promediando los valores obtenidos para obtener uno
que tenga en cuenta todos los subgrupos.
Consideremos una serie de k subgrupos de tama no n, designando por x
ij
la observacion j-esima
del subgrupo i-esimo y por x
i
la media, por R
i
el recorrido (diferencia entre el valor maximo y
el mnimo), y por s
i
la desviacion tpica, respectivamente, del subgrupo (Tabla 4.1).
TABLA 4.1. Datos estructurados en subgrupos
Subgrupo Observaciones Media Recorrido Desv. tpica
1 x
11
x
12
x
1n
x
1
R
1
s
1
2 x
21
x
22
x
2n
x
2
R
2
s
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n x
k1
x
k2
x
kn
x
k
R
k
s
k
Podemos usar el recorrido R o la desviacion tpica s para evaluar la dispersion en los subgrupos.
El procedimiento mas usado, que es el mas sencillo si los calculos se hacen a mano, se basa en
el recorrido medio

R =
R
1
+ +R
k
k
.
Dividiendo

R por una constante que se designa por d
2
, se obtiene un valor estimado, =

R/d
2
.
El valor de d
2
depende de n (Tabla 4.2). Un procedimiento analogo usa la desviacion tpica
media s. Estas formulas solo son exactas si la distribucion es normal, lo que no es problema si
se aceptan los gracos de control como una tecnica puramente descriptiva, sin confundirlos con
las pruebas de hipotesis que veremos en el Captulo 5.
TABLA 4.2. Constantes para los gracos de control
n A
2
d
2
A
3
c
4
2 1.880 1.128 2.659 0.7979
3 1.023 1.693 1.954 0.8862
4 0.729 2.059 1.628 0.9213
5 0.577 2.326 1.427 0.9400
6 0.483 2.534 1.287 0.9515
7 0.419 2.704 1.182 0.9594
8 0.373 2.847 1.099 0.9650
9 0.337 2.970 1.032 0.9693
10 0.308 3.078 0.975 0.9727
NOTA. Parece mas natural aproximar por la desviacion tpica s de la serie obtenida juntando
todos los subgrupos. Sin embargo, si hay alg un subgrupo muy alejado de la media, la desviacion
Facultad de Farmacia/Curso de Estadstica/33 20060115
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25
9
4
9
6
9
8
1
0
0
1
0
2
1
0
4
1
0
6
Muestra
C
U

t
e
s
t

(
%
)
Figura 4.2. Graco de control (Ejemplo 4.4)
tpica da una sobreestimacion de , lo que conduce a una banda de control demasiado ancha.
En este caso, la presencia de subgrupos fuera de control podra impedir detectar que estan fuera
de control.
En el procedimiento del recorrido medio, los lmites de control vienen dados por

x 3

R
d
2

n
=

x A
2

R,
donde A
2
se puede hallar en la tabla de constantes. El procedimiento de la desviacion tpica
media es similar, usando c
4
en lugar de d
2
y A
3
en lugar de A
2
.
Ejemplo 4.4. Una compa na farmaceutica quiere evaluar el proceso de fabricacion de un nuevo
producto. Una caracterstica de interes es el resultado del content uniformity test, expresado
como porcentaje del valor nominal (label claim). Se hacen determinaciones individuales de 25
muestras consecutivas de 10 comprimidos. Este tama no de subgrupo es el establecido en la
USP/NF para el primer paso del test. En la Tabla 4.3 se da la media, la desviacion tpica y el
recorrido de cada muestra.
TABLA 4.3. Datos del estudio de estabilidad (Ejemplo 4.4)
Muestra 1 2 3 4 5 6 7 8 9
Media 99.7 97.9 101.0 100.7 102.9 97.5 103.9 96.1 100.4
Desviacion tpica 5.3 3.1 4.5 5.9 6.2 5.0 4.6 5.7 9.2
Recorrido 17.8 9.1 13.0 21.4 18.8 13.7 14.3 19.7 23.7
Muestra 10 11 12 13 14 15 16 17 18
Media 103.4 100.3 101.5 101.9 100.0 98.9 99.4 99.3 100.4
Desviacion tpica 3.7 5.5 4.5 5.8 7.1 7.4 6.3 5.5 4.5
Recorrido 13.1 15.8 15.3 18.6 21.9 23.5 21.4 15.6 11.5
Muestra 19 20 21 22 23 24 25
Media 101.3 103.3 101.5 102.6 97.2 100.8 99.9
Desviacion tpica 7.5 4.1 5.5 6.8 6.0 4.6 5.1
Recorrido 26.6 12.9 19.0 22.0 18.9 16.2 18.6
Vamos a calcular lmites de control para la media y el recorrido. Hay 25 subgrupos de tama no
10, y tenemos

x = 100.47, y

R = 17.70. Como n = 10, A
2
= 0.308, con lo que los lmites de
Facultad de Farmacia/Curso de Estadstica/34 20060115
G
G
G G
G
G
G
G
G
G
G
G G
G
G G
G
G G G
5 10 15 20
1
4
2
1
4
4
1
4
6
1
4
8
1
5
0
1
5
2
1
5
4
Determinacin
H
e
m
o
g
l
o
b
i
n
a

(
g
/
L
)
Figura 4.3. Graco de control (Ejemplo 3.2)
control para la media son
UCL = 100.47 + 0.308 17.7 = 105.92, LCL = 100.47 0.308 17.7 = 95.02.
El graco correspondiente puede verse en la Figura 2.3. Aqu no hay puntos fuera de la banda
de control. Un resultado muy parecido se obtiene usando la desviacion tpica media.
Fuente: S.C. Chow & J.P. Liu (1995), Statistical Design and Analysis in Pharmaceutical Science,
Dekker.
4.7. Gracos para observaciones individuales
Se puede usar una adaptacion del metodo del recorrido medio para observaciones individuales
(o sea, para subgrupos de tama no 1). Para ello se considera el recorrido movil,
MR
1
= |x
1
x
2
|, MR
2
= |x
2
x
3
|, . . . , MR
k1
= |x
k1
x
k
|,
extrayendo su media MR, que es el recorrido movil medio
MR =
MR
1
+ + MR
k1
k 1
.
Como se trata de recorridos de grupos de 2 valores, el recorrido movil medio es un valor estimado
de d
2
, donde d
2
= 1.128 se obtiene tomando n = 2 en la Tabla 4.2. Dividiendo por d
2
, resulta
el valor estimado . Este procedimiento equivale a sumar y restar al valor central
3 = 3
MR
1.128
= 2.660 MR.
Ejemplo 3.2 (continuacion). En el Ejemplo 3.2, la media de las determinaciones diarias es x =
146.8 y el recorrido movil medio es MR = 1.37. Los lmites de control son, ahora,
UCL = 146.8 + 2.660 1.37 = 150.44, LCL = 146.8 2.660 1.37 = 143.16.
El graco correspondiente es la Figura 4.3, La conclusion es la misma, aunque la banda de
control cambia bastante.
NOTA. Existen otros gracos de control, en los que, en lugar de la media se hace el seguimiento
del recorrido o la desviacion tpica. Puedes hallar mas informacion sobre este tema en Griful &
Canela (2002).
Facultad de Farmacia/Curso de Estadstica/35 20060115
5. Comparacion de medias y varianzas
5.1. Introduccion a las pruebas de hipotesis
Esta seccion es una introduccion a las pruebas de hipotesis, tambien llamadas pruebas (o tests,
o contrastes) de signicacion. Una prueba de hipotesis se reere a una hipotesis H
0
, que se
denomina hipotesis nula. H
0
consiste en la validez de un determinado modelo y, frecuentemente,
se puede reducir a una armacion sobre los valores de uno o varios parametros (por ejemplo,
=
0
, o
1
=
2
).
La prueba se puede hacer a partir de unos lmites de conanza o, lo que es mas frecuente, a partir
del estadstico de la prueba. En lugar de empezar con deniciones generales, introduciremos aqu
estas ideas mediante un ejemplo sencillo.
Ejemplo 5.1. Se calibra un viscosmetro Brookeld con un aceite patron de 50 mps. Se determina
10 veces la viscosidad del patron, obteniendo los valores siguientes: 51.3, 50.3, 51.7, 51.5, 50.9,
50.9, 51.8, 50.7, 50.9 y 51.1.
En este caso, n = 10, x = 51.11 y s = 0.47. Con 9 grados de libertad tenemos t
0.025
= 2.26, que
se puede obtener en Excel haciendo DISTR.T.INV(0.05;9)=2.26. Por consiguiente, los lmites de
conanza del 95% son
51.11 + 2.26
0.47

10
= 51.44, 51.11 2.26
0.47

10
= 50.78.
El razonamiento habitual del usuario es el que sigue. Como el valor patron no esta comprendido
entre estos lmites, se puede concluir (con el 95% de seguridad) que este equipo tiene un error
sistematico. De otra forma, se puede decir que el sesgo hallado, es decir, la diferencia media
entre los resultados dados por el equipo y el valor patron es signicativo (con la normal los
lmites hubiesen sido 51.40 y 50.82, siendo la conclusion la misma).
Se puede formalizar este razonamiento, presentandolo como una prueba sobre H
0
: = 50. A
partir de los resultados experimentales, rechazamos H
0
, concluyendo que = 50, con un 95% de
conanza. Un planteamiento alternativo, completamente equivalente, se basa en el estadstico
t =
x 50
s/

n
,
que, suponiendo que H
0
sea valida, tiene una distribucion t(n 1). Por esta razon, se dice
que es una prueba t. El valor del estadstico se compara con el valor crtico, correspondiente a
un intervalo del 95% (t
0.025
). Si lo supera, se rechaza H
0
, con un 95% de conanza. Decimos
entonces que el valor t es signicativo, o que los resultados experimentales son signicativos
(en sentido coloquial, signicativo es lo que permite sacar conclusiones). Aunque el 95% es lo
habitual, el nivel de conanza se puede cambiar si se desea, usando el valor t

para el nivel
1 2.
En el ejemplo, el valor
t =
51.11 50
0.47/

10
= 7.50
supera al valor crtico. Se concluye, pues, con un 95% de conanza, que = 50.
La disponibilidad de medios electronicos de calculo ha ido imponiendo otro enfoque de las
pruebas de hipotesis, totalmente equivalente, basado en el nivel de signicacion. El nivel de
signicacion es la probabilidad exacta que corresponde al valor del estadstico o a un valor
mas extremo, suponiendo cierta la hipotesis nula. Se designa, habitualmente, por P (o p). El
Facultad de Farmacia/Curso de Estadstica/36 20060115
nivel de signicacion se interpreta como una medida de lo signicativos que son los resultados
experimentales (cuanto menor sea P, mas signicativos). Para un nivel de conanza del 95%,
se considera que el valor del estadstico es signicativo cuando P < 0.05. As, en el ejemplo,
P = p
_
|t| > 7.50

= 3.67 10
5
,
que se puede obtener facilmente por medio de la funcion DISTR.T de Excel. Como P < 0.05, el
error sistematico (51.11 50 = 1.11) es signicativo.
5.2. Prueba t para dos muestras independientes
La prueba del Ejemplo 5.1 era una prueba t para una muestra, asociada a una hipotesis del tipo
=
0
, siendo
0
un valor previamente establecido. En lo que resta de este captulo vamos a
ver distintas pruebas para una hipotesis nula H
0
:
1
=
2
, donde
1
y
2
son las medias de
dos distribuciones. En el ejemplo mas tpico, seran las medias de una cierta variable en dos
subpoblaciones (hombres y mujeres, fumadores y no fumadores, casos y controles, etc.).
En esta seccion se ocupa de la prueba t para dos muestras independientes, en la que
1
y
2
son
las medias de dos normales independientes X
1
y X
2
. La prueba tiene dos variantes, seg un se
suponga que la desviacion tpica es la misma (
1
=
2
) o no. Para efectuar la prueba se precisan
dos grupos independientes de observaciones: n
1
observaciones de X
1
(media x
1
y desviacion
tpica s
1
) y n
2
observaciones de X
2
(media x
2
y desviacion tpica s
2
).
En la version mas sencilla de la prueba se supone
1
=
2
. El estadstico es
t =
x
1
x
2
s
_
(1/n
1
) + (1/n
2
)
,
donde s
2
es la media ponderada de las varianzas de los dos grupos,
s
2
=
n
1
1
n
1
+n
2
2
s
2
1
+
n
2
1
n
1
+n
2
2
s
2
2
.
Observa que, si n
1
= n
2
, s
2
es la media ordinaria de s
2
1
y s
2
2
. El nivel de signicacion es el area
de las dos colas de la t de Student con n
1
+ n
2
2 grados de libertad. Si se considera que el
valor de t es signicativo, se rechaza H
0
, concluyendo que
1
=
2
.
NOTA. Cuando se comparan dos supoblaciones, como en el ejemplo que sigue, los dos grupos
de observaciones corresponden a muestras de individuos extrados de una y otra subpoblacion.
De ah el nombre de la prueba. Es importante recalcar que, para que la conclusion sea valida,
las muestras se han de extraer de forma aleatoria. Como en la mayora de los casos eso es muy
difcil de llevar a la practica, se debe asegurar que el muestreo no se haga en un segmento de la
poblacion en el que la distribucion pueda ser muy distinta. Esto no siempre se consigue, siendo
una de las causas por las que estudios realizados en diferentes lugares conducen a conclusiones
distintas.
Ejemplo 1.3 (continuacion). En el estudio del Ejemplo 1.3 haba una muestra de 32 hombres y
otra de 25 mujeres. En el grupo de los hombres,
n
1
= 32, y
1
= 1.378, s
1
= 0.330,
y en el de las mujeres,
n
2
= 25, y
2
= 1.174, s
2
= 0.248.
Facultad de Farmacia/Curso de Estadstica/37 20060115
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
2 1 0 1 2
0
.
8
1
.
0
1
.
2
1
.
4
1
.
6
1
.
8
2
.
0
Cuantiles de la normal
C

H
D
L

h
o
m
b
r
e
s
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
2 1 0 1 2
0
.
8
1
.
0
1
.
2
1
.
4
1
.
6
Cuantiles de la normal
C

H
D
L

m
u
j
e
r
e
s
Figura 5.1. Gracos Q-Q para hombres y mujeres por separado (Ejemplo 1.3)
Supongamos que la desviacion tpica es la misma para ambos medios (
1
=
2
), lo que no parece
entrar en contradiccion con los resultados experimentales. Entonces
s =
_
31 0.109 + 24 0.061
55
= 0.297, t =
1.378 1.174
0.297
_
1
32
+
1
25
= 2.571.
El area de las dos colas asociadas al valor t, con n
1
+n
2
2 = 55 grados de libertad, da el nivel
de signicacion P. En Excel se puede calcular haciendo DISTR.T(2.571;55;2)=0.013. Se puede
deducir de estos resultados, con el 95% de conanza, que la concentracion media de colesterol
HDL es diferente en los hombres y las mujeres.
Para que la prueba sea valida se debe asumir que la distribucion del colesterol HDL en la
subpoblacion de los hombres tiene distribucion normal, e igual en el de las mujeres, con la
misma varianza. La comparacion de las varianzas puede hacerse con mas objetividad mediante
una prueba que veremos mas adelante (seccion 5.5). La validez de la distribucion normal debe
examinarse aqu por separado para hombres y mujeres. En la Figura 5.1 se pueden ver los
respectivos gracos Q-Q. Pese a que los gracos no son del todo satisfactorios, daramos en este
caso la conclusion de la prueba por buena, ya que el nivel de signicacion queda claramente por
debajo de 0.05, y que el tama no de las muestras da pie a aproximar por la normal la distribucion
de la media en ambas subploblaciones.
5.3. Prueba t sin suponer las varianzas iguales
Hay una segunda variante de la prueba, en la que no se asume
1
=
2
(tampoco que sean
distintas). El valor t es, ahora,
t =
x
1
x
2
_
(s
2
1
/n
1
) + (s
2
2
/n
2
)
.
El nivel de signicacion se calcula como antes, aunque el n umero de grados de libertad es, en
Facultad de Farmacia/Curso de Estadstica/38 20060115
este caso, el entero que resulta de redondear
df =
_
s
2
1
n
1
+
s
2
2
n
2
_
2
(s
2
1
/n
1
)
2
n
1
1
+
(s
2
2
/n
2
)
2
n
2
1
.
En la practica, las dos pruebas dan niveles de signicacion muy parecidos, salvo si n
1
y n
2
son
muy distintos, lo que es poco habitual.
Ejemplo 1.3 (continuacion). En la segunda variante de la prueba, el valor t es
t =
1.378 1.174
_
0.109
32
+
0.061
25
= 2.663.
El n umero de grados de libertad es 55, resultante de redondear
df =
_
0.109
32
+
0.061
25
_
2
(0.109/32)
2
31
+
(0.061/25)
2
24
= 54.92
Ahora, P = 0.0101, siendo la conclusion la misma.
Ejemplo 5.2. El taxol es un compuesto anticancergeno de naturaleza diterpenica sintetizado
por todas las especies del genero Taxus, que se extrae de la corteza de estas plantas. Como
el proceso de extraccion provoca la muerte de la planta, se han ensayado fuentes alternativas,
siendo los cultivos celulares una va prometedora. En un estudio realizado en la UB se han
probado distintos medios de cultivo, en los que se han incluido auxinas. Los resultados de la
Tabla 5.1 corresponden a dos medios que se diferencian en que, en el medio I, la auxina es el
acido 2,4diclorofenoxiacetico, mientras que en el medio II es el acido naftalenacetico. Se han
hecho 24 cultivos en cada medio, a partir de piezas de tejido de callo de Taxus baccata con un
peso inicial de 0.2 g, determinandose el peso fresco de cada una al cabo de 28 das.
TABLA 5.1. Peso de los cultivos a los 28 das (Ejemplo 5.2)
Medio I 0.740 0.920 0.845 0.704 0.907 0.716 0.615 0.740
0.766 0.775 0.650 0.640 0.420 1.030 0.741 1.057
0.509 0.621 0.601 0.969 0.950 1.380 0.932 1.053
Medio II 0.915 0.802 0.800 0.730 0.575 0.660 0.840 0.690
0.800 0.780 0.922 0.925 0.778 0.703 0.841 1.045
1.004 0.132 1.275 1.313 0.734 1.032 0.816 1.326
Podemos suponer que el peso de los cultivos en el medio I es independiente del peso de los
del medio II, ya que se trata de especmenes distintos. Hacemos una prueba t para ver si la
diferencia entre los pesos medios es signicativa. En este caso,
x
1
= 0.8034, s
1
= 0.2113, x
2
= 0.8516, s
2
= 0.2513, n
1
= n
2
= 24.
Suponemos primero que la desviacion tpica es la misma para ambos medios (
1
=
2
), lo que
no parece entrar en contradiccion con los resultados experimentales. Entonces
s =
_
(0.2113)
2
+ (0.2513)
2
2
= 0.2322, t =
0.8034 0.8516
0.2322
_
2/24
= 0.719.
Facultad de Farmacia/Curso de Estadstica/39 20060115
G
G
G G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
30 32 34 36 38 40
3
4
3
6
3
8
4
0
4
2
Abdominal
D
o
r
s
a
l
Figura 5.2. Dorsal vs. abdominal (Ejemplo 5.3)
El area de las dos colas asociadas al valor t, con n
1
+ n
2
2 = 46 grados de libertad, da
P = 0.476. Por consiguiente, no se puede deducir de estos resultados experimentales, con el
95% de conanza, que el peso medio de los cultivos, a los 28 das, sea distinto en los dos medios
ensayados.
En la segunda variante de la prueba, el valor t es el mismo, y P = 0.476. El n umero de grados
de libertad es 45 (redondeando df = 44.69).
Fuente: A. Navia, tesis doctoral.
5.4. Prueba t para datos emparejados
Hay una segunda prueba sobre la hipotesis H
0
:
1
=
2
. El dise no experimental es distinto, ya
que no se usan dos grupos de observaciones independientes, sino un solo grupo de diferencias.
Supongamos que X
1
y X
2
son dos variables (ahora no se supone que sean independientes), con
medias
1
y
2
, respectivamente. Entonces X = X
1
X
2
tiene media =
1

2
, de modo
que la hipotesis nula se puede formular como H
0
: = 0. Si X tiene distribucion normal, se
puede someter esta hipotesis a una prueba t (de una muestra). Si se han realizado n pares de
observaciones conjuntas de X
1
e X
2
, para cada par se calcula la diferencia x = x
1
x
2
, lo que
da una muestra de n observaciones de X, con la que se calcula
t =
x
s/

n
y el nivel de signicacion es el area de dos colas de la t(n 1). Recuerda que aqu x y s se
reeren a la diferencia X
1
X
2
.
Esta prueba, que se aplica siempre a datos que estan agrupados por pares de forma natural, se
denomina prueba t para datos emparejados. A veces se confunde con la de la seccion anterior,
porque ambas se aplican a la comparacion de medias. La diferencia entre ellas viene del propio
dise no experimental, que invalida la suposicion de la independencia entre los dos grupos de
observaciones. Esta diferencia se percibe mejor en un ejemplo.
Ejemplo 5.3. Los resultados de la Tabla 5.2 se han obtenido en un estudio sobre la inuencia de
la dieta y la raza sobre los espectros de acidos grasos y trigliceridos en el cerdo. Son porcentajes
Facultad de Farmacia/Curso de Estadstica/40 20060115
(sobre el total de acidos grasos) de acido oleico en muestras de dos tejidos, extradas de 40
animales.
Para la diferencia X = X
1
X
2
resulta n = 40, x = 2.9398 y s = 2.5003. Entonces,
t =
2.9398
2.5003/

40
= 7.436 (df = 39, P < 0.001).
Se puede concluir, pues, que el porcentaje medio de acido oleico en los dos tejidos es diferente.
Comparando esta tabla con la Tabla 5.1, se puede ver por que hablamos aqu de datos empare-
jados. En la Tabla 5.2 tenemos 40 pares, siendo el emparejamiento natural, ya que asociamos
resultados del mismo individuo. Por que no tratamos los resultados de los dos tejidos como
dos muestras independientes? Porque el nivel de oleico en ambos tejidos depende de factores
geneticos y ambientales, de forma que el individuo que muestre un nivel alto de oleico en un
tejido, probablemente tendra un nivel alto en el otro. Resulta, pues, que la distribucion de X
2
condicionada a un valor de X
1
alto que la condicionada a un valor bajo, de modo que X
1
y X
2
no son independientes. Este argumento se ve apoyado por la Figura 5.2.
TABLA 5.2. Porcentaje de acido oleico (Ejemplo 5.3)
Animal Abdominal Dorsal Diferencia Animal Abdominal Dorsal Diferencia
1 32.7084 36.0667 3.3583 21 35.7674 37.1147 1.3473
2 33.8384 37.1387 3.3003 22 32.7113 34.7340 2.0227
3 34.9742 39.4628 4.4886 23 33.2037 40.6269 7.4232
4 37.0916 39.4989 2.4073 24 35.5307 40.7179 5.1873
5 31.8443 34.0613 2.2169 25 36.7066 41.8163 5.1097
6 34.6563 38.5656 3.9092 26 37.5839 40.2428 2.6589
7 32.9172 37.8381 4.9209 27 35.7359 34.8008 0.9351
8 34.3413 37.5836 3.2423 28 31.7980 38.5125 6.7145
9 31.7786 36.4064 4.6278 29 35.5791 37.0857 1.5065
10 33.7529 37.8350 4.0821 30 34.6878 37.4639 2.7761
11 33.1405 34.2420 1.1015 31 34.4472 36.5383 2.0911
12 35.9041 36.6454 0.7413 32 34.1776 34.5558 0.3782
13 34.3247 41.0903 6.7656 33 32.9537 33.5989 0.6452
14 32.9629 37.8422 4.8793 34 34.9072 35.7339 0.8266
15 34.7158 35.5221 0.8063 35 41.3134 38.6335 2.6799
16 31.8504 38.9107 7.0603 36 36.6914 40.3660 3.6746
17 30.3912 37.1207 6.7295 37 38.8980 40.2390 1.3410
18 31.3900 37.3798 5.9898 38 37.4620 41.9497 4.4877
19 35.6464 37.6463 1.9999 39 40.3456 40.7600 0.4144
20 38.6912 35.8553 2.8358 40 35.3637 38.1738 2.8101
Como en el Ejemplo 1.3, podemos examinar la validez de la distribucion normal para este ejem-
plo. Sin embargo, ahora es la diferencia abdominal menos dorsal la que debe tener distribucion
normal, sea cual sea la distribucion del nivel oleico en los dos tejidos por separado. La Figura
3.4 es el graco Q-Q para la diferencia. Observa que, de todos modos, en este ejemplo el tama no
de muestra n = 40 nos permite usar la normal como aproximacion para la distribucion de la
diferencia media.
Fuente: J. Pascual, M. Rafecas, M.A. Canela, J. Boatella, R. Bou, A.C. Barroeta, R. Codony
(2006), Eect of increasing amounts of a linoleic-rich dietary fat on the fat composition of four
pig breedsPart II: Fatty acid composition in muscle and fat tissues, Food Chemistry, pendiente
de publicacion.
Ejemplo 5.4. Se realiza un ensayo sobre un nuevo producto (T) para comparar sus efectos con los
de otro ya comercializado (R), en el que se administran ambos productos a 14 personas con insu-
ciencia respiratoria. Se asigna aleatoriamente a cada paciente un tratamiento, manteniendolo
Facultad de Farmacia/Curso de Estadstica/41 20060115
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
2 1 0 1 2

2
0
2
Cuantiles de la normal
A
b
d
o
m
i
n
a
l

m
i
n
u
s

d
o
r
s
a
l
Figura 5.3. Graco Q-Q para la diferencia abdominal menos dorsal (Ejemplo 5.3)
durante un mes. Seguidamente se le da el tratamiento alternativo durante otro mes. El ensayo
sigue la pauta double blind, y ni el medico ni el paciente saben cual es el tratamiento asignado,
aunque se da al paciente la libertad de abandonar el ensayo cuando lo desee. El cambio de
tratamiento se hace sin perodo de washout, para no dejar a ning un paciente sin medicacion. No
obstante, se tiene suciente informacion sobre estos productos como para asumir que cualquier
efecto de carryover ha desaparecido al cabo de una semana del cambio de medicacion. Por si
acaso, solamente se usan en el analisis los resultados de la cuarta semana. Los valores de la
Tabla 5.3 corresponden a la FEV
1
(forced expiratory volume), que es el volumen de aire que un
paciente expulsa en un segundo, tras una inhalacion profunda.
TABLA 5.3. FEV
1
en los pacientes del ensayo (Ejemplo 5.4)
Paciente T R TR Paciente T R TR
1 2.9 3.9 1.0 8 3.9 2.4 1.5
2 4.0 3.9 0.1 9 2.5 3.6 1.1
3 3.4 3.3 0.1 10 6.5 2.1 4.4
4 3.2 4.3 1.1 11 5.5 4.0 1.5
5 3.8 3.2 0.6 12 4.0 3.9 0.1
6 5.2 3.5 1.7 13 5.3 4.0 1.3
7 3.9 2.7 1.2 14 4.3 2.3 2.0
Para la diferencia TR, tenemos
n = 14, x = 0.8071, s = 1.482.
Entonces,
t =
0.8071
1.482/

14
= 2.037 (df = 13, P = 0.062).
Fuente: W.M. Gooding (1994), Planning Pharmaceutical Clinical Trials, Wiley.
NOTA. Puedes hacer en Excel las pruebas t que hemos visto en las secciones precedentes de dos
formas distintas:
Usando la funcion PRUEBA.T.
Facultad de Farmacia/Curso de Estadstica/42 20060115
0 1 2 3 4 5
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
Figura 5.4. Curva de densidad F(4, 4)
Usando la macro Analisis de datos del men u Herramientas. Si esta macro no esta
disponible, la puedes cargar usando el submen u Complementos.
Si has ido ensayando el uso de las distintas funciones de Excel que han aparecido hasta ahora,
podras usar estas sin necesidad de mas explicaciones.
5.5. Prueba F
La prueba t para dos muestras independientes se usa para comparar medias, es decir, asociada
a la hipotesis
1
=
2
. Hay una prueba similar para comparar varianzas, con H
0
:
1
=
2
, que
es valida en las mismas condiciones que la prueba t para dos muestras independientes. Es la
prueba F de comparacion de varianzas. La prueba F se usa a veces para examinar si se puede
admitir, en la prueba t para dos muestras independientes, que la desviacion tpica es la misma.
Manteniendo la notacion de la seccion 5.2, el estadstico es
F =
max(s
2
1
, s
2
2
)
min(s
2
1
, s
2
2
)
.
Si
1
=
2
, el estadstico tiene una distribucion F de Fisher-Snedecor. Al igual que la t de
Student, se trata de una familia de distribuciones de probabilidad, que se identican por los
grados de libertad. Para una distribucion F se necesitan dos n umeros de grados de libertad,
uno para el numerador y otro para el denominador, que, en la prueba sobre
1
=
2
, son los
que corresponden a las varianzas cuyo cociente da el valor F. Una distribucion F es positiva y
asimetrica (v. Figura 5.4). Tambien aqu se designa por F

el valor asociado a una cola (derecha)


de area o, equivalentemente, el valor con probabilidad acumulada 1
En la prueba F, el nivel de signicacion es el doble del area de la cola (derecha), correspondiente
al valor F en la distribucion F. Si s
1
> s
2
, los grados de libertad son (n
1
1, n
2
1), y viceversa.
Cuando se considera signicativo el valor F, se puede concluir
1
=
2
.
La formula DISTR.F da la probabilidad de la cola (derecha) de la distribucion F. La sintaxis es
muy parecida a la de la formula DISTR.T, salvo que no hay que especicar el n umero de colas,
que aqu es siempre 1, y que hay que especicar dos n umeros de grados de libertad. Tambien
hay una funcion inversa, DISTR.F.INV. Al igual que la prueba t, la prueba se puede hacer con la
macro de analisis de datos.
Facultad de Farmacia/Curso de Estadstica/43 20060115
Ejemplo 1.3 (continuacion). En el Ejemplo 1.3 podemos aplicar la prueba F a la hipotesis de
que la desviacion tpica es la misma para hombres y mujeres. El valor F es
F =
_
0.330
_
2
_
0.248
_
2
= 1.7751.
El area de la cola de la F con (31,24) grados de libertad es
DISTR.F(1.7751;31;24)=0.0756.
Por consiguiente, el nivel de signicacion es P = 0.1512. As pues, se puede admitir
1
=
2
. Si
aplicas esta prueba al Ejemplo 5.2, llegaras tambien all a esta conclusion.
5.6. Hipotesis alternativa
En las pruebas de comparacion de medias, se puede especicar de antemano que se desea extraer
una conclusion unilateral, por ejemplo
1
>
2
. En tal caso, decimos que la prueba es unilateral,
o de una cola, mientras que cuando la conclusion deseada es
1
=
2
, decimos que prueba es
bilateral.
Una forma de aclarar este punto es especicar la hipotesis alternativa H
1
. As,
H
0
:
1
=
2
, H
1
:
1
> = 2
denota una prueba unilateral, mientras
H
0
:
1
=
2
, H
1
:
1
= = 2
se reere a una bilateral. En la prueba bilateral el nivel de signicacion es el area de dos colas,
mientras que en el unilateral es el area de una cola, es decir, la mitad.
Ejemplo 5.4 (continuacion). En los ensayos clnicos como el del Ejemplo 5.4, a veces el objetivo
declarado es establecer que el producto T es mas ecaz que el de referencia. En tal caso, la
prueba unilateral nos da P = 0.031, y los resultados son signicativos. Observa que, ahora, el
signo del valor t es clave. Si t, calculado a partir de la diferencia TR, es negativo, el ensayo ha
sido in util.
5.7. Potencia de una prueba y tama no de muestra
En una prueba de hipotesis, el error en que se incurre al rechazar H
0
cuando es valida se llama
error de tipo I. La probabilidad maxima de error de tipo I se designa por . Si aplicamos una
prueba, por ejemplo para = 0.05, podemos cometer un error de otro tipo: no rechazar H
0
cuando no es valida. Este es el error de tipo II. La probabilidad de incurrir en un error de tipo
II se designa por . Para que sea posible calcular , hay que especicar la desviacion de H
0
.
Por ejemplo, para H
0
: =
0
, debemos especicar el valor de la diferencia =
0
.
La potencia de la prueba es 1 . En una prueba de comparacion de medias, la potencia es
una funcion de y del tama no de muestra n. Por ejemplo, para una prueba bilateral sobre
H
0
: =
0
, sea de una muestra o de dos muestras de datos emparejados, la potencia viene
dada por la formula
1 =
_

n z
/2
_
.
Facultad de Farmacia/Curso de Estadstica/44 20060115
Para una prueba unilateral, se reemplaza z
/2
por z

. Recuerda que, para datos emparejados,


es la deviacion tpica de la diferencia. En la prueba de dos muestras independientes (del mismo
tama no), la formula es muy parecida,
1 =
_

_
n
2
z
/2
_
.
Los valores de la potencia para distintos tama nos de muestra y distintos valores de la relacion
/ se pueden presentar en una tabla, aunque algunos preeren una presentacion graca, en
forma de curvas de potencia.
La potencia debe interpretarse como una expectativa de lo que dara la prueba si se aplicara
muchas veces. No obstante, a veces se aplica la formula para el calculo de la potencia, dando
a el valor muestral, y se dice que se ha calculado la potencia. Cuando la potencia, as
calculada, queda por debajo de los niveles habituales en el Dise no de Experimentos, (entre el 70
y el 90%), se concluye que el tama no de muestra era insuciente.
Es tpico, en los ensayos clnicos, especicar la diferencia (de hecho, se especica la relacion
/) que se considera relevante y calcular el tama no de muestra necesario para detectar esa
diferencia. Se usan para ello las formulas del tama no de muestra, que resultan de las de la
potencia, despejando n. Para pruebas bilaterales de una y dos muestras, respectivamente, las
formulas son
n =
(z
/2
+z

)
2

2
, n =
2(z
/2
+z

)
2

2
.
En el caso de dos muestras, n es el tama no de cada una de las dos muestras, no el de las dos
juntas. Para una prueba unilateral, se usa z

en lugar de z
/2
.
La situacion mas frecuente corresponde al 95% de conanza y una potencia del 80%, es decir,
= 0.05 y = 0.2. Entonces el factor del numerador es
_
z
/2
+z

_
2
=
_
1.96 + 0.942
_
2
= 7.851.
Ejemplo 5.4 (continuacion). En el ensayo clnico del Ejemplo 5.4, calculamos la potencia de
la prueba para una diferencia = 0.5 (inferior a la hallada experimentalmente). Asumimos
= 1.482 (valor muestral) y usamos = 0.05. Entonces, z
/2
= 1.96 y z

= 1.645.
Para la prueba bilateral,
1 =
_
0.5
1.482

14 1.96
_
= (0.698) = 0.243,
y para el unilateral,
1 =
_
0.5
1.482

14 1.645
_
= (0.383) = 0.351, .
Alternativamente, podemos jar = 0.2 y calcular el tama no de muestra necesario para unapo-
tencia del 80%. Para la prueba bilateral,
n =
(1.96 + 0.842)
2
(1.482)
2
(0.5)
2
= 68.975 69,
y para el unilateral,
n =
(1.645 + 0.842)
2
(1.482)
2
(0.5)
2
= 54.338 54.
Facultad de Farmacia/Curso de Estadstica/45 20060115
6. Analisis de tablas de contingencia
6.1. Odds y odds ratio
Sea A un resultado de probabilidad = p[A]. Como vimos en el Captulo 1, la probabilidad
da una medida de la expectativa de obtener A. Vamos a usar en este captulo una medida
alternativa, basada en el valor
=

1
,
que, en la literatura anglosajona, se denomina odds (intraducible al espa nol). Como la proba-
bilidad, tambien se puede denir como un valor lmite, en este caso del cociente entre el n umero
de veces en que se obtiene A y el n umero de veces en que se obtiene el complementario (no A).
Por ejemplo, si A corresponde a obtener el resultado 1 en la tirada de un dado, tenemos = 1/6
y = 1/5. La interpretacion de este valor de sera: la expectativa de obtener 1 es cinco veces
menor que la de obtener un resultado distinto de 1. En otro ejemplo, para el resultado CARA
al lanzar una moneda, tenemos = 1/2 y = 1, lo que signica: la expectativa de CARA es la
misma que la de su complementario CRUZ.
Para hacerte una idea del cambio que supone pasar de probabilidades a odds, observa que:
Si = 0.5, entonces = 1.
Si aumenta, aumenta, y recprocamente.
Si 0, entonces 0.
Si 1, entonces +.
Una forma de comparar las expectativas de dos resultados es la odds ratio, que es el cociente de
los valores de odds,
=

1

2
=

1
/(1
1
)

2
/(1
2
)
.
Es facil comprobar que
1
=
2
equivale a = 1, mientras
1
>
2
equivale a > 1. La
odds ratio se usa como medida de lo fuerte que es la asociacion entre dos variables binarias
del siguiente modo. Sean dos variables binarias, X e Y , con valores 01, y sean
1
y
2
las
probabilidades de Y = 1 en las situaciones X = 0 y X = 1, respectivamente, es decir,

1
= p
_
Y = 1|X = 0

,
2
= p
_
Y = 1|X = 1

.
La independencia de X e Y equivale a
1
=
2
y, por consiguiente, a = 1. As pues, al
comparar la odds ratio con 1 tenemos una medida de la no independencia, es decir, de la fuerza
de la asociacion entre ambas variables. Vamos a ver a continuacion como se trata esta cuestion
en la practica.
6.2. Tablas de contingencia
Una tabla de contingencia es un resumen estadstico de las observaciones conjuntas de dos
variables categoricas. En estas tablas, se acostumbra a situar X en las las e Y en las columnas,
de modo que el n umero de las es corresponde al n umero de valores de X y el de columnas al
de Y . Si X e Y son binarias, tenemos una tabla 2 2. En una tabla 2 2 se puede obtener
directamente una aproximacion de la odds ratio, obviando los valores de odds. Para verlo, fjate
Facultad de Farmacia/Curso de Estadstica/46 20060115
en la Tabla 6.1, donde a, b, c y d son frecuencias absolutas. Entonces, a/b es una aproximacion
de
1
, y c/d de
2
, con lo que se puede aproximar por la odds ratio observada,
OR =
a/b
c/d
=
ad
bc
.
TABLA 6.1. Tabla 22
Y = 0 Y = 1 Total
X = 0 a b a +b
X = 1 c d c +d
Total a +c b +d a +b +c +d
Es facil ver que, cambiando la notacion de los valores de Y en esta tabla, es decir, permutando
las columnas (o las las), se obtiene una ratio inversa. Sin embargo, si se permutan las las y
las columnas, o se intercambian las por columnas, reasignando los papeles de X e Y , la ratio
es la misma. Es decir, en una tabla 2 2 solo hay dos ratios posibles, que son inversas. En la
mayora de aplicaciones la eleccion del numerador y el denominador resulta de forma natural
del mismo problema que se estudia.
Ejemplo 6.1. En el estudio caso-control mas sencillo, Y tiene dos valores (casos y controles),
mientras X es un factor de riesgo, con un grupo de riesgo y un grupo base. En el dise no del
estudio se jan el n umero de casos y el de controles, siendo desconocida la distribucion de X.
Ni las respectivas proporciones de casos en los grupos ni la diferencia entre ellas tienen interes
per se, ya que dependen de la proporcion global de casos establecida en el dise no. Se puede usar
una ratio OR para expresar el resultado del estudio. La interpretacion de la ratio es sencilla:
cuanto mas se aleja de 1, mayor es la inuencia del factor de riesgo.
En un estudio caso-control sobre la epidemiologa del cancer de mama y la posible inuencia
de la dieta se han incluido casos de cancer ingresados en un hospital de New York entre 1958
y 1965, y un grupo de control formado por pacientes sin neoplasias, ni patologas del sistema
gastrointestinal o el reproductor. Uno de los factores de riesgo investigado era el decit de
vitamina A. Los datos de la Tabla 4.2 corresponden a 1500 mujeres de mas de 54 a nos.
TABLA 6.2. Relacion entre vitamina A y cancer de mama (Ejemplo 6.1)
Ingesta Casos Controles Total
150000 IU 893 392 1285
> 150000 IU 132 83 215
Total 1025 475 1500
Aqu, X es la ingesta mensual media de vitamina A e Y la presencia del cancer de mama. La
odds ratio observada es
OR =
893 83
132 392
= 1.4324.
Veremos a continuacion como se puede decidir si la odds ratio observada es signicativa, es decir,
si permite establecer la asociacion entre las dos variables (es decir, que = 1).
Fuente: C.T. Le & J.R. Boen (1994), Health and Numbers, Wiley.
Facultad de Farmacia/Curso de Estadstica/47 20060115
6.3. Lmites de conanza para una odds ratio
Para tablas 22, en las que las frecuencias (a, b, c y d en la Tabla 6.1) sean altas, se puede dar una
formula aproximada para el calculo de lmites de conanza para la odds ratio (). La formula
se basa en que, cuando el n umero de observaciones es grande, la distribucion del logaritmo
neperiano de la odds ratio observada (OR) es aproximadamente normal, con
= ln, =
_
1
a
+
1
b
+
1
c
+
1
d
.
Por consiguiente, se pueden obtener lmites de conanza aproximados para ln haciendo
ln(OR) z

_
1
a
+
1
b
+
1
c
+
1
d
.
Estos lmites se pueden transformar en lmites para aplicando la funcion exponencial. Cuando
1 no se halla entre los lmites de conoanza de , se puede deducir que = 1 (con el nivel de
conanza correspondiente). Se dice, entonces que el valor de OR es signicativo. Este argumento
se puede considerar como una prueba sobre la hipotesis = 1. Si se desea formalizar la prueba
como tal, se puede tomar como estadstico
z =
ln(OR)
_
1
a
+
1
b
+
1
c
+
1
d
,
siendo el nivel de signicacion el area de las dos colas asociadas al valor z.
Ejemplo 6.1 (continuacion). En el Ejemplo 6.1 resulto OR = 1.4324. Los lmites del 95% para
ln se pueden obtener mediante
ln(1.4324) 1.96
_
1
893
+
1
392
+
1
132
+
1
83
.
Podemos, pues, asegurar que se cumple 0.0602 < ln < 0.6585, con el 95% de conanza.
Aplicando la exponencial, resulta 1.0601 < < 1.9319. En este caso, la odds ratio es signicativa
(95% de conanza), y se puede deducir de los resultados del estudio que la incidencia del cancer
de mama no es independiente de la ingesta de vitamina A.
Si se quiere presentar este argumento como una prueba de hipotesis, se puede usar
z =
ln(1.4324)
_
(1/893) + (1/392) + (1/132) + (1/83)
= 2.3545, P = 0.0186.
Ejemplo 6.2. En Taiwan se ha hecho un estudio caso-control para investigar la posible asociacion
entre la incidencia del cancer de esofago y la dureza del agua potable. Los casos (2084) corre-
sponden a residentes en Taiwan, fallecidos de 1987 a 1996, con edad de 50 a 69 a nos, mientras
que los controles (2084) son personas fallecidas por otras causas, excluyendo las neoplasias ma-
lignas de estomago, colon y similares, as como las enfermedades vasculares, por haber estudios
que las relacionan con la dureza del agua. Cada control va emparejado con un caso (matched
case-control study), de forma que coincidan el sexo y los a nos de nacimiento y muerte.
TABLA 6.3. Estudio caso-control (Ejemplo 6.2)
Tipo de agua Casos Controles
Dura 799 881
Moderadamente dura 600 693
Blanda 685 510
Facultad de Farmacia/Curso de Estadstica/48 20060115
La dureza del agua consumida por cada individuo se determina a partir de la informacion
facilitada por la compa na suministradora, y se establecen tres categoras: agua blanda (menos
de 75 mg/l de CaCO
3
), moderadamente dura (entre 75 y 150 mg/l), y dura (mas de 150 mg/l).
Los resultados se presentan en la Tabla 6.3.
Tomamos como grupo base el que consume agua moderadamente dura, que tiene el valor de
odds mas bajo, de forma que as las ratios seran mayores que 1. Para el grupo que consume
agua blanda,
OR
1
=
685 693
600 510
= 1.5513.
La formula de los lmites de conanza del 95% da 0.2807 < ln
1
< 0.5975 o, equivalentemente,
1.3241 < < 1.8176.
Para el grupo que consume agua dura,
OR
2
=
799 693
600 881
= 1.0475,
y el intervalo de conanza para es 0.9058 <
2
< 1.2113. La primera de estas ratios es
signicativa y la segunda no. Se puede concluir, pues (con el 95% de conanza), que la sustitucion
del agua blanda por otra moderadamente dura disminuye la incidencia del cancer de esofago,
pero no que haya diferencia entre usar agua dura o moderadamente dura.
Fuente: C.Y. Yang, H.F. Chiu, M.F. Cheng, S.S. Tsai, C.F. Hung & M.C. Lin (1999), Esophageal
cancer mortality and total hardness levels in Taiwans drinking water, Environmental Research
81(4), 302308.
6.4. Prueba chi cuadrado
Supongamos que X e Y son dos variables categoricas, con valores x
1
, . . . , x
r
, e y
1
, . . . , y
c
,
respectivamente, y que se han hecho n observaciones conjuntas independientes de X e Y , para
investigar la independencia entre ellas. La prueba mas conocida sobrfe esta hipotesis usa las
frecuencias conjuntas
n(i, j) = #
_
X = x
i
, Y = y
j

,
y las marginales
n(i, ) = #
_
X = x
i

= n(i, 1) + +n(i, c),


n(, j) = #
_
Y = y
j

= n(1, j) + +n(r, j).


En este contexto, las frecuencias n(i, j) se llaman frecuencias observadas. Los resultados de las
n observaciones se pueden resumir en una tabla r c (v. Tabla 6.4).
TABLA 6.4. Forma general de una tabla de contingencia
_
Y = y
1


_
Y = y
j


_
Y = y
c

Total
_
X = x
1

n(1, 1) n(1, j) n(1, c) n(1, )


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
_
X = x
2

n(i, 1) n(i, j) n(i, c) n(i, )


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
_
X = x
r

n(r, 1) n(r, j) n(r, c) n(r, )


Total n(, 1) n(, j) n(, c) n
Facultad de Farmacia/Curso de Estadstica/49 20060115
0 2 4 6 8 10 12
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
Figura 6.1. Curva de densidad
2
(4)
En la prueba chi cuadrado (
2
) la hipotesis nula corresponde a la independencia de X e Y . Para
hacer la prueba
2
, se calcula, para cada casilla de la tabla ,
n(i, j) =
n(i, ) n(, j)
n
,
que es la frecuencia esperada de la combinacion
_
X = x
i
, Y = y
j

. El estadstico de la prueba

2
es la suma (rc sumandos)
X
2
=
r

i=1
c

j=1
_
n(i, j) n(i, j)
_
2
n(i, j)
.
La prueba se basa en que, cuando n es grande, la distribucion de X
2
se puede aproximar por una
distribucion chi cuadrado. Como la t de Student, se trata de una familia de distribuciones de
probabilidad que se identican por un n umero de grados de libertad. Una variable chi cuadrado
siempre es positiva, con una curva de densidad asimetrica (Figura 4.1) En esta prueba, el n umero
de grados de libertad es df = (r1)(c1). El nivel de signicacion es el area de la cola (derecha)
que corresponde al valor chi cuadrado X
2
. Si se considera que es signicativo, se concluye que
X e Y no son independientes.
Como la distribucion F, para la chi cuadrado hay una funcion de Excel que da el area de la
cola derecha, la funcion DISTR.CHI. Naturalmente, hay que especicar el n umero de grados de
libertad. Tambien hay una funcion inversa DISTR.CHI.INV.
Ejemplo 6.1 (continuacion). Para aplicar la prueba chi cuadrado a los datos del Ejemplo 6.1,
calculamos las frecuencias esperadas,
n
11
=
1285 1025
1500
= 878.1, n
12
=
1285 475
1500
= 406.9,
n
21
=
215 1025
1500
= 146.9, n
22
=
215 475
1500
= 68.1.
En la Tabla 6.5 he colocado las frecuencias esperadas entre parentesis, junto a las observadas.
Observa que los totales de las y columnas son los mismos para las frecuencias observadas y las
esperadas. El valor chi cuadrado es
X
2
=
(893 878.1)
2
878.1
+
(392 406.9)
2
406.9
+
(132 146.9)
2
146.9
+
(83 68.1)
2
68.1
= 5.5829.
Facultad de Farmacia/Curso de Estadstica/50 20060115
TABLA 6.5. Tabla de contingencia (Ejemplo 6.1)
Ingesta Casos Controles Total
150000 IU 893 (878.1) 392 (406.9) 1285
> 150000 IU 132 (146.9) 83 (68.1) 215
Total 1025 475 1500
El nivel de signicacion es el area de la cola asociada a este valor en la distribucion
2
(1), que
se puede obtener haciendo DISTR.CHI(5.5829;1)=0.0181. La conclusion es la misma que en la
prueba de la odds ratio.
Ejemplo 6.2 (continuacion). La Tabla 6.7 reproduce la Tabla 6.4 del Ejemplo 6.2 (p. 46), con las
frecuencias esperadas entre parentesis. Como r = 3 y c = 2, hay dos grados de libertad. Aqu,
X
2
= 36.3191, P = 1.30E-8.
TABLA 6.6. Tabla de contingencia (Ejemplo 6.2)
Tipo de agua Casos Controles
Dura 799 (840.0) 881 (840.0)
Moderadamente dura 600 (646.5) 693 (646.5)
Blanda 685 (597.5) 510 (597.5)
Se puede, pues, concluir que existe una relacion entre la dureza del agua y el cancer de esofago,
lo que es coherente con la conclusion extrada de las odds ratios. Sin embargo, en la prueba chi
cuadrado la conclusion es que la incidencia no es la misma para todos los niveles de dureza, pero
no cabe deducir que para este nivel es mas alta que para aquel. Para extraer una conclusion
de ese tipo hay que comparar los niveles de dureza de dos en dos, por ejemplo mediante odds
ratios. Los niveles de signicacion para las odds ratios que obtuve antes son P
1
< 0.001, para
OR
1
= 1.551, y P
2
= 0.531, para OR
2
= 1.047.
6.5. Potencia y tama no de muestra en la comparacion de proporciones
Las formulas de la potencia y el tama no son analogas a las de la comparacion de medias con dos
muestras independientes. Ahora hay que especicar =
1

2
, y reemplazar la desviacion
tpica por
=
_

1
(1
1
) +
2
(1
2
).
La potencia es ahora
1 =
__
n

1
(1
1
) +
2
(1
2
)
z
/2
_
,
y el tama no de muestra,
n =
_

1
(1
1
) +
2
(1
2
)
__
z
/2
+z

_
2

2
.
Ejemplo 6.3. Los resultados de la Tabla 6.7 provienen de un ensayo clnico aspirina vs. placebo.
En el ensayo intervienen 210 pacientes con dolor de cabeza, a los que se asigna uno de los dos
Facultad de Farmacia/Curso de Estadstica/51 20060115
tratamientos. Cada paciente declara si siente o no un alivio del dolor. En el grupo que recibio
aspirina, la proporcion de respuesta positiva es p
1
= 70/100 = 0.7, y en el grupo placebo, p
2
=
55/110 = 0.5. Estas proporciones son aproximaciones de las correspondientes probabilidades,

1
y
2
. Podemos considerar que el objetivo del ensayo es vericar que
1
y
2
son diferentes.
TABLA 6.7. Respuesta a la aspirina (Ejemplo 6.3)
SIN DOLOR CON DOLOR Total
ASPIRINA 70 (59.52) 30 (40.48) 100
PLACEBO 55 (65.48) 55 (44.52) 110
Total 125 85 210
Para aplicar la prueba chi cuadrado a los datos del Ejemplo 3, calculamos las frecuencias esper-
adas,
n
11
=
100 125
210
= 59.52, n
12
=
100 85
210
= 40.48,
n
21
=
110 125
210
= 65.48, n
22
=
100 85
210
= 44.52.
En la Tabla 6.7 hemos colocado las frecuencias esperadas entre parentesis, junto a las observadas.
Observa que los totales de las y columnas son los mismos para las frecuencias observadas y las
esperadas.
El valor chi cuadrado es
X
2
=
(70 59.52)
2
59.52
+
(30 40.48)
2
40.48
+
(55 65.48)
2
65.48
+
(55 44.52)
2
44.52
= 8.6945.
El nivel de signicacion es el area de la cola asociada a X
2
= 8.6945 en la distribucion
2
(1),
que es P = 0.0032. Se concluye que la aspirina alivia realmente el dolor de cabeza. A una
conclusion similar se puede llegar a traves de la odds ratio. La odds ratio observada es
OR =
70 55
30 55
= 2.3333,
con
z =
ln(2.3333)
_
(1/70) + (1/55) + (1/30) + (1/55)
= 2.9238,
y un nivel de signicacion P = 0.0035.
6.6. Prueba de McNemar
La prueba de McNemar reemplaza a la prueba
2
en el analisis de una tabla 2 2 cuando el
ensayo es cruzado, es decir, cuando se administran a cada individuo los dos tratamientos que se
quiere comparar. El estadstico de la prueba es
X
2
=
_
n(1, 2) n(2, 1)
_
2
n(1, 2) +n(2, 1)
,
cuya distribucion se puede aproximar por una
2
(1). Esta aproximacion es, de hecho, la de una
binomial con n = n(1, 2) + n(2, 1) y = 0.5 por una normal. En general, es recomendable, si
Facultad de Farmacia/Curso de Estadstica/52 20060115
n no es grande, usar una correccion de continuidad (correccion de Yates), que, en la practica,
supone reemplazar el estadstico anterior por
X
2
=
_
|n(1, 2) n(2, 1)| 1
_
2
n(1, 2) +n(2, 1)
.
Para n grande, la correccion es irrelevante.
Ejemplo 6.4. Se lleva a cabo un ensayo cruzado aleatorizado para comparar dos farmacos A
y B para el tratamiento de la artritis. En el, se administra a 250 pacientes ambos farmacos,
inofmando cada uno de ellos si se siente satisfecho o insatisfecho con los tratamientos. Los
resultados se presentan en la Tabla 6.8.
TABLA 6.8. Tabla de contingencia (Ejemplo 6.4)
Producto A
SATISFECHO INSATISFECHO Total
SATISFECHO 150 20 170
Producto B INSATISFECHO 30 50 80
Total 180 79 250
Aqu X
2
= 2, que no es signicativo (P = 0.157). Con la correccion de Yates, X
2
= 1.62
(P = 0.203), lo que no cambia la conclusion.
Fuente: M.J. Campbell & D. Machin (1995), Medical Statistics, Wiley.
Facultad de Farmacia/Curso de Estadstica/53 20060115
7. Analisis de la varianza de un factor
7.1. La prueba t revisada
En este captulo presentamos la extension de la prueba t para dos muestras independientes al
caso general de k muestras independientes. La extension de la prueba t se presenta en la mayora
de cursos y libros como un caso particular de un metodo general llamado analisis de la varianza,
abreviadamente ANOVA (analysis of variance). En general, el analisis de la varianza se usa para
examinar la posible inuencia de una o varias variables categoricas sobre una variable continua.
En este contexto, las primeras se llaman factores y sus valores, niveles. La otra es la variable
respuesta, o variable dependiente.
El analisis de la varianza presupone que la varianza es la misma para todos los niveles de los
factores y, por consiguiente, solo da una extension de la primera de las dos variantes de la prueba
t para dos muestras (suponiendo
1
=
2
). En este captulo solo se trata el caso de un factor.
Parto de la situacion de la prueba t, con dos muestras, manteniendo la notacion del Captulo 5.
n
1
y n
2
son los tama nos de muestra, x
1
y x
2
las medias y s
2
1
y s
2
2
las varianzas, con n
1
1 y n
2
1
grados de libertad, respectivamente. Designo por n el tama no de muestra total (n = n
1
+n
2
) y
por x la media de todas las observaciones, que coincide con la media ponderada de las medias
de las muestras,
x =
n
1
x
1
+n
2
x
2
n
.
Como en el Captulo 5, s
2
es la media ponderada (por los n umeros de grados de libertad) de las
varianzas de las dos muestras, es decir,
s
2
=
_
n
1
1
_
s
2
1
+
_
n
2
1
_
s
2
2
n 2
.
El estadstico de la prueba vena dado por
t =
x
1
x
2
s
_
(1/n
1
) + (1/n
2
)
,
con n 2 grados de libertad (los de la varianza promedio s
2
). Se puede comprobar, sin mucho
trabajo, que t
2
coincide con
F =
n
1
_
x
1
x
_
2
+n
2
_
x
2
x
_
2
s
2
y que, si H
0
:
1
=
2
es valida, este estadstico tiene distribucion F(1, n2). Por consiguiente,
la prueba t se puede transformar en una prueba F, completamente equivalente. El nivel de
signicacion es el area de la cola (derecha) asociada al valor F.
NOTA. La prueba t admite una version unilateral. Por el contrario, esta prueba F, donde se
usan cuadrados, es bilateral (aunque en el calculo del nivel de signicacion solo se use una cola).
Ejemplo 1.3 (continuacion). En el Ejemplo 1.3,
F =
32
_
1.378 1.288
_
2
+ 25
_
1.174 1.288
_
2
(0.297)
2
= 6.6120,
que es el cuadrado de t = 2.5714 (seccion 5.2). El nivel P es el mismo,
DISTR.F(6.6120;1;55)=0.0129.
Facultad de Farmacia/Curso de Estadstica/54 20060115
7.2. Extension de la prueba F a un factor con mas de dos niveles
La denicion de F se extiende facilmente al caso de un factor con k niveles. El numerador es
igual, pero con k sumandos, el tama no de muestra total es n = n
1
+ + n
k
y la varianza
promedio es
s
2
=
_
n
1
1
_
s
2
1
+ +
_
n
k
1
_
s
2
k
n k
.
La formula general del estadstico F es
F =
n
1
_
x
1
x
_
2
+ +n
k
_
x
k
x
_
2
_
k 1
_
s
2
.
Observa que el factor k 1 del denominador es igual a 1 cuando k = 2, y no hace falta escribirlo
en ese caso. Ahora el nivel de signicacion se calcula usando la distribucion F(k 1, n k).
Hay que recalcar que la prueba F del ANOVA de un factor se reere a la hipotesis de que todas
las medias son iguales, ya que la hipotesis nula es H
0
:
1
= =
k
. Por lo tanto, cuando
el valor F es signicativo, solo se puede concluir que no todas las medias son iguales, pero no
que haya diferencia entre dos en particular (hicimos un comentario similar para la prueba chi
cuadrado). No obstante, la prueba del ANOVA no excluye que se hagan comparaciones dos
a dos mediante pruebas t. Cuando se usa software estadstico, como SPSS, se puede hacer
tambien comparaciones dos a dos, con unas pruebas especiales, que a veces se llaman pruebas
ad hoc. Por desgracia, hay una coleccion de pruebas distintas para el mismo problema, como la
de Bonferroni, la de Schee, la de Duncan, etc. En este curso no se trata este aspecto.
TABLA 7.1. Porcentaje de triolena en los cuatro grupos (Ejemplo 7.1)
Large White 7.0099 5.9953 F1 6.6658 6.7803
6.0828 5.9135 9.1737 6.0375
7.1810 5.0871 9.4880 6.0870
6.5237 6.2910 7.7320 5.0871
6.6340 5.1916 6.4450 5.6711
6.5855 6.0268 7.9206 5.4761
Duroc 7.7945 6.1525 Landrace 8.5421 8.7217
7.8484 6.1185 9.1515 9.0542
7.2200 7.0327 7.3361 8.8605
7.2014 6.1245 7.3229 5.2297
7.4001 6.1140 9.8008 7.4922
6.7360 5.5583 7.9917 5.5939
Ejemplo 7.1. En un estudio complementario del citado en el Ejemplo 5.3 se ha investigado
la inuencia de la raza sobre el perl de trigliceridos del cerdo. Los datos de la Tabla 7.1
corresponden al porcentaje de triolena (OOO), sobre el total de trigliceridos, en una muestra
del m usculo trapecio. Los animales pertenecan a cuatro razas distintas.
En este caso,
n
1
= n
2
= n
3
= n
4
= 12,
x
1
= 6.2102, x
2
= 6.7751, x
3
= 6.8804, x
4
= 7.9248,
s
1
= 0.6389, s
2
= 0.7501, s
3
= 1.4175, s
4
= 1.4074.
Ahora, x y s
2
son medias ordinarias, ya que las cuatro muestras tienen el mismo tama no, o sea,
x =
6.2102 + 6.7751 + 6.8804 + 7.9248
4
= 6.9476,
Facultad de Farmacia/Curso de Estadstica/55 20060115
s
2
=
(0.6389)
2
+ (0.7501)
2
+ (1.4175)
2
+ (1.4074)
2
4
= 1.2402,
F =
12
_
(6.210 6.948)
2
+ (6.775 6.948)
2
+ (6.880 6.948)
2
+ (7.925 6.948)
2
_
3 1.240
= 4.944.
El correspondiente nivel de signicacion es DISTR.F(4.9440;3;44)=0.0048. As pues, las diferen-
cias entre los porcentajes medios de triolena de los cuatro grupos son signicativas y, por lo
tanto, constituyen una evidencia de que la raza inuye sobre el porcentaje de este triglicerido
en el m usculo del que se extrajeron las muestras. Las comparaciones dos a dos, efectuadas con
pruebas t ordinarias, se resumen en la Tabla 5.2. Observa que una de las diferencias no es
signicativa.
TABLA 7.2. Comparaciones dos a dos (Ejemplo 7.1)
Par t P Par t P
Large White-F1 -3.972 0.001 F1-Duroc 0.455 0.654
Large White-Duroc 2.986 0.007 F1-Landrace 4.995 0.000
Large-White-Landrace 7.686 0.000 Duroc-Landrace -3.622 0.001
Fuente: J. Pascual, M. Rafecas, M.A. Canela, J. Boatella, R. Bou, M.D. Baucells& R. Codony
(2006), Eect of increasing amounts of a linoleic-rich dietary fat on the fat composition of four
pig breeds Part III: Triacylglicerols, pendiente de publicacion.
7.3. Validez de los supuestos del ANOVA de un factor
Como en la prueba t, en el ANOVA de un factor se presupone que las distribuciones que se
comparan son normales, con la misma varianza. La homogeneidad de la varianza se puede
examinar con alguna prueba parecida a la de la seccion 5.5. En la mayor parte del software
estadstico convencional se da el resultado de alguna de estas pruebas (no incluidas en estas
notas) junto al del analisis de la varianza.
TABLA 7.3. Residuos (Ejemplo 7.1)
Large White 0.7997 0.2149 F1 0.2145 0.1001
0.1274 0.2967 2.2934 0.8428
0.9708 1.1231 2.6076 0.7933
0.3135 0.0808 0.8517 1.7933
0.4238 1.0186 0.4354 1.2093
0.3753 0.1834 1.0403 1.4043
Duroc 1.0195 0.6225 Landrace 0.6173 0.7969
1.0734 0.6566 1.2267 1.1295
0.4449 0.2576 0.5887 0.9357
0.4263 0.6505 0.6019 2.6951
0.6251 0.6611 1.8761 0.4325
0.0391 1.2168 0.0669 2.3309
La normalidad se puede examinar separadamente para cada muestra, o globalmente. Para
hacerlo de una vez, se calcula, para cada dato, el correspondiente residuo, obtenido restando
la media del grupo (v. Tabla 7.3). Entonces se forma una sola muestra con todos los residuos
y se aplica alguno de los metodos de la seccion 3.5. Observa que los residuos de una misma
muestra tienen media cero y varianza igual a la varianza de esa muestra. Por consiguiente,
la varianza promedio s
2
es una medida de la dispersion de los residuos, que se llama a veces
Facultad de Farmacia/Curso de Estadstica/56 20060115
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G G
G
G
G G
G
G G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G G
G
G
G
G
G
G
G
G
2 1 0 1 2

1
0
1
2
Cuantiles de la normal
R
e
s
i
d
u
o
s

n
o
r
m
a
l
i
z
a
d
o
s
Figura 7.1. Graco QQ para los residuos normalizados (Ejemplo 7.1)
varianza residual. A veces, los residuos se dan de forma normalizada, es decir, divididos por s.
La ventaja de esa presentacion es que as se puede contrastar su distribucion de frecuencia con la
N(0, 1), e incluso inspeccionar visualmente la tabla de residuos para localizar valores anomalos.
Ejemplo 7.1 (continuacion). La Tabla 7.1 muestra los residuos de los cuatro grupos del Ejemplo
7.1. La Figura 7.1 es el correspondiente graco QQ, que no reeja grandes diferencias respecto
a la distribucion normal. En la Tabla 7.4 vemos las frecuencias observadas en los residuos
normalizados con las probabilidades de la N(0, 1), para los seis intervalos clasicos.
TABLA 7.4. Comparacion de frecuencias (Ejemplo 7.1)
Intervalo Proporcion observada Proporcion esperada
De 3 a 2 4.17% 2.14%
De 2 a 1 10.42% 13.59%
De 1 a 0 37.50% 34.13%
De 0 a 1 37.50% 34.13%
De 1 a 2 6.25% 13.59%
De 2 a 3 4.17% 2.14%
7.4. La tabla ANOVA
He presentado la prueba F asociada al ANOVA de un factor como una extension de la prueba t, lo
que es poco habitual, pero mas asequible para un estudiante poco familiarizado con el manejo de
expresiones matematicas que incluyan sumatorios y dobles subndices. En esta seccion comento
brevemente la presentacion clasica del analisis de la varianza.
Los resultados del ANOVA de un factor se dan habitualmente en una tabla cuya estructura esta
normalizada, la tabla ANOVA. La tabla ANOVA contiene, ademas del valor F y del nivel de
signicacion, unos resultados previos, que van apareciendo al hacer los calculos a mano. Hoy
da esto tiene menor interes, ya que raramente se hacen los calculos del ANOVA a mano (en
Excel, el ANOVA de un factor esta incluido en la macro de Analisis de datos). En cualquier
caso, todos los resultados que se colocan en una tabla ANOVA se pueden obtener, por medio
Facultad de Farmacia/Curso de Estadstica/57 20060115
de operaciones elementales, a partir de las medias ( y
i
) y las varianzas s
2
i
de los grupos, como
veremos aqu.
La presentacion clasica del ANOVA de un factor se basa en descomponer la suma de cuadrados
SS
T
=

i,j
_
x
ij
x
_
2
,
en suma de dos terminos. La notacion se establece de forma que x
11
, x
12
, . . . , x
1n
1
sean las
observaciones del grupo 1, por x
21
, x
22
, . . . , x
2n
2
, las del grupo 2, etc. El primer termino de la
descomposicion es la suma de cuadrados entre grupos,
SS
B
=

i
n
i
_
x
i
x
_
2
que se asocia a las diferencias entre los grupos (between groups), es decir al efecto del factor, y
el otro es la suma de cuadrados dentro de los grupos (within groups), asociada a la variabilidad
dentro de los grupos, que no depende del nivel del factor,
SS
W
=
k

i=1
n
i

j=1
_
x
ij
x
i
_
2
.
Como SS
W
es la suma de los cuadrados de los residuos, tambien se la llama suma de cuadrados
residual. Observa que, como para el grupo i se cumple
s
2
i
=
1
n
i
1
n
i

j=1
_
x
ij
x
i
_
2
,
resulta SS
W
=
_
n
1
1
_
s
2
1
+ +
_
n
k
1
_
s
2
k
=
_
n k
_
s
2
. Por consiguiente, SS
B
y SS
W
se
obtienen facilmente a partir de las medias y
i
y las varianzas s
2
i
.
La suma de cuadrados total tiene df
T
= n 1 grados de libertad, y la suma de cuadrados entre
grupos, df
B
= k 1. La suma de los cuadrados de los residuos del grupo 1 tiene n
1
1 grados
de libertad, la del grupo 2, n
2
1, etc. En total, df
W
=
_
n
1
1
_
+ +
_
n
k
1
_
= n k.
Observa que df
T
= df
B
+df
W
y que df
B
y df
W
son los n umeros de grados de libertad usados en
la prueba F. A continuacion, se calculan los cuadrados medios y el valor F, seg un las formulas
MS =
SS
df
, F =
MS
B
MS
W
.
Estos resultados intermedios se disponen en una tabla como la Tabla 7.5.
TABLA 7.5. Tabla ANOVA para un factor
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Entre grupos SS
B
df
B
MS
B
F P
Dentro de los grupos SS
W
df
W
MS
W
Total SS
T
df
T
Facultad de Farmacia/Curso de Estadstica/58 20060115
Ejemplo 7.1 (continuacion)
En el Ejemplo 7.1, la suma de cuadrados entre grupos se obtiene haciendo
SS
B
= 12
_
(6.210 6.948)
2
+ (6.775 6.948)
2
+ (6.880 6.948)
2
+ (7.925 6.948)
2
_
= 18.395,
mientras la suma de cuadrados residual es la suma de las correspondientes a los cuatro grupos,
SS
W
= 11
_
(0.6389)
2
+ (0.7501)
2
+ (1.4175)
2
+ (1.4074)
2
_
= 54.570.
El resto de la tabla ANOVA (Tabla 7.6) se obtiene facilmente a partir de estos valores.
TABLA 7.6. Tabla ANOVA (Ejemplo 7.1)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Entre grupos 18.395 3 6.132 4.9440 0.0048
Dentro de los grupos 54.570 44 1.2402
Total 72.965 47
Ejemplo 7.2. En un estudio sobre la inuencia de la concentracion de plomo en la sangre sobre
algunos parametros hematologicos se han recogido datos de 797 ni nos de edad comprendida entre
5 y 14 a nos, que vivan en regiones de Alemania Oriental altamente contaminadas, y tenan un
nivel de plomo bajo (entre 7.5 y 239 g/l). Los datos de la Tabla 7.7 corresponden al porcentaje
de hematocrito para distintos grupos de edad. Vamos a preparar tablas ANOVA a partir de
esta tabla resumen, separadamente para ni nos y ni nas.
TABLA 7.7. Hematocrito para distintas edades (Ejemplo 7.2)
Sexo Edad N umero Media Desv. tpica
Ni nos 57 a nos 118 37.68 2.13
810 a nos 97 39.49 2.42
1114 a nos 174 40.56 2.08
Ni nas 57 a nos 102 37.56 1.99
810 a nos 98 38.88 1.96
11-14 a nos 208 40.27 1.97
En primer lugar, la media de los 389 ni nos es
x =
118 37.68 + 97 39.49 + 174 40.56
389
= 39.420.
Con los tres niveles de la Tabla 7.7, tenemos
SS
B
= 118(37.68 39.420)
2
+ 97(39.39 39.420)
2
+ 174(40.56 39.420)
2
= 583.475.
Por otro lado, la suma de cuadrados residual es la suma de las correspondientes a los tres grupos,
SS
W
= 117
_
2.13
_
2
+ 96
_
2.42
_
2
+ 173
_
2.08
_
2
= 1841.499.
El resto de la tabla ANOVA (Tabla 7.8) se obtiene facilmente a partir de estos valores.
Facultad de Farmacia/Curso de Estadstica/59 20060115
TABLA 7.8. Tabla ANOVA para los ni nos (Ejemplo 7.2)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Edad 583.475 2 291.737 61.152 8.50E-24
Residual 1841.499 386 4.771
Total 2424.973 388
As pues, las diferencias halladas entre los tres grupos de edad son muy signicativas. De modo
analogo se puede preparar la tabla ANOVA para las ni nas (Tabla 7.9). La conclusion es la
misma.
TABLA 7.9. Tabla ANOVA para las ni nas (Ejemplo 7.2)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Edad 521.111 2 260.556 66.960 7.52E-26
Residual 1575.952 405 3.891
Total 2097.063 407
Fuente: B. Jacob, B. Ritz, J. Heinrich, B. Hoelscher & H.E. Wichmann (2000), The eect of
low-level blood lead on hematological parameters in children, Environmental Research A82,
150159.
7.5. Componentes de la varianza
En los ejemplos anteriores, los niveles del factor (razas y edades) se jaban antes de hacer el
experimento. Sin embargo, en ciertos casos, como el del ejemplo que viene a continuacion, no es
as, sino que los niveles se obtienen experimentalmente, al extraer una muestra de un conjunto o
poblacion. Se dice entonces que el factor tiene efectos aleatorios, para distinguir esta situacion
de aquellas en las que los niveles estan predeterminados, como las anteriores, donde se dice que
el factor tiene efectos jos. El dise no experimental para investigar la inuencia de un factor
con efectos aleatorios incluye un primer paso, en el que se determina el nivel del factor, seguido
de otro en el que se hacen varias observaciones replicadas para cada nivel. Estos dise nos se
denominan dise nos jerarquicos (tambien dise nos encajados).
Dos situaciones tpicas son:
Cuando los niveles del factor resultan de la extraccion aleatoria de una muestra de k
individuos (personas, laboratorios, das, unidades de un lote, etc.) de una poblacion.
Cuando resultan de extraer k muestras de un material continuo.
NOTA. En algunas ocasiones, los niveles no resultan de una extraccion aleatoria, sino que
estan prejados, pero su n umero es elevado (por ejemplo, k 5), y no interesa solo conocer lo
que pasa en cada nivel, sino tambien evaluar la dispersion entre los resultados medios de los
distintos niveles, aunque el resultado no se pueda extrapolar validamente a una poblacion. Es
el caso de la mayora de ensayos inter-laboratorios.
En el modelo clasico de un factor con efectos aleatorios se supone que el valor de una observacion
es la suma de tres terminos, uno jo y dos aleatorios. El primer termino (jo) es un valor medio.
El segundo es efecto del factor (entre grupos) y el tercero el error (dentro de los grupos). En
Facultad de Farmacia/Curso de Estadstica/60 20060115
el Ejemplo 7.3, el efecto del factor corresponde a las uctuaciones (respecto a un valor medio
jo) que se producen de un da a otro, mientras que el segundo termino aleatorio corresponde al
error aleatorio del analisis (dentro de un mismo da). El modelo se puede expresar en la forma
X = Valor medio + Error (da) + Error (analtico).
La varianza de X es la suma de las varianzas de los dos sumandos aleatorios, que se denominan
componentes de la varianza. La magnitud relativa de las componentes da una idea de la con-
tribucion de cada una de las dos fuentes de variabilidad. Para facilitar esta interpretacion, se
presentan a veces las componentes como porcentajes de la suma.
En los ensayos inter-laboratorios, las componentes se llaman a veces varianza intra-laboratorio
e inter-laboratorios. Las expresiones repetibilidad y reproducibilidad se usan de forma generica,
para referirse a resultados hechos en las mismas o en distintas condiciones. En el ensayo inter-
laboratorios, la repetibilidad corresponde a la variabilidad intra-laboratorio y la reproducibilidad
a la inter-laboratorios. En un estudio como el del Ejemplo 7.3, a la variabilidad de los resultados
obtenidos el mismo da y a la de los resultados medios de das distintos, respectivamente. La
descomposicion de la varianza puede expresarse en la forma
Varianza total = Varianza de reproducibilidad + Varianza de repetibilidad.
Los valores estimados de las componentes de la varianza se pueden obtener por dos metodos
equivalentes. Supongo, para simplicar, que el n umero de observaciones replicadas, que en la
seccion 7.2 designaba por n
1
, . . . , n
k
, es el mismo para todos los niveles. Lo designo por r.
En el primer metodo, las componentes se deducen de la tabla ANOVA. El cuadrado
medio dentro de los grupos, MS
W
, da directamente una componente, mientras la otra
se obtiene a partir del otro cuadrado medio, haciendo (MS
B
MS
W
)/r.
En el segundo metodo se parte de las medias x
1
, . . . , x
k
y las varianzas s
2
1
, . . . , s
2
k
. La
componente dentro de los grupos coincide con la varianza residual,
s
2
=
s
2
1
+ +s
2
k
k
,
mientras la componente entre grupos resulta de la formula var
_
x
1
, . . . , x
k
_
s
2
/r.
NOTA. El valor estimado de la componente entre grupos se obtiene mediante una diferencia,
que puede dar un valor negativo. Como se explica una varianza negativa? Se interpreta que
esa componente es cero, no habiendo diferencia entre las medias de los grupos, de forma que el
error en el valor estimado puede hacer que este sea negativo.
TABLA 7.9. Resultados del experimento rR (Ejemplo 7.3)
Da Analisis 1 Analisis 2 Analisis3 Media Varianza
24/03 3.975 3.372 4.025 3.7907 0.1321
27/03 6.941 5.181 5.493 5.8717 0.8819
28/03 4.427 5.533 4.980 4.9800 0.3058
31/03 5.483 5.031 4.729 5.0810 0.1440
03/04 4.679 4.025 4.980 4.5613 0.2384
04/04 6.237 5.936 5.332 5.8350 0.2124
07/04 5.936 4.729 4.528 5.0643 0.5800
10/04 3.472 3.573 3.623 3.5560 0.0059
25/04 4.830 4.880 4.075 4.5950 0.2034
28/04 7.142 5.584 5.785 6.1703 0.7182
Facultad de Farmacia/Curso de Estadstica/61 20060115
Ejemplo 7.3. El test del acido tiobarbit urico (TBA) es una medida del malondialdehdo, que
es uno de los principales resultados de la degradacion de los hidroperoxidos lipdicos, usado
como medida de la peroxidacion lipdica. En un estudio realizado en la UB se han evaluado la
repetibilidad (precision del analisis realizado el mismo da) y la reproducibilidad (precision del
analisis en das distintos) de un metodo espectrofotometrico para la determinacion del TBA.
En el experimento se ha usado una muestra, que se ha analizado por triplicado, en 10 das no
consecutivos. Los resultados experimentales se presentan en la Tabla 7.9.
La Tabla 7.10 es la correspondiente tabla ANOVA. De acuerdo con la prueba F, las diferencias
entre los distintos das son signicativas. La componente de repetibilidad (mismo da) es 0.3422,
mientras la de reproducibilidad (entre das) es (2.2391 0.3422)/3 = 0.6323.
Tambien se pueden calcular las componentes sin pasar por la tabla ANOVA, usando las dos
ultimas columnas de la Tabla 7.10. La media de la columna de las varianzas s
2
= 0.3422,
da la componente de repetibilidad. Para la de reproducibilidad se calcula la varianza de la
columna de medias, var
_
x
1
, . . . , x
10
_
= 0.7464, siendo la componente de reproducibilidad igual
a 0.7464 0.3422/3 = 0.6023.
TABLA 7.10. Tabla ANOVA (Ejemplo 7.3)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Entre das 20.1522 9 2.2391 6.543 0.0002
Mismo da 6.8443 20 0.3422
Total 26.996529
La varianza total es la suma de ambas componentes, igual a 0.9445. Las componentes tienen
magnitud desigual, representando el 35.12% y el 64.88% del total, respectivamente. Si expre-
samos las componentes y la varianza total en forma de coecientes de variacion (la desviacion
tpica como porcentaje del valor medio 4.9505), resulta 11.82% para la repetibilidad, 16.06%
para la reproducibilidad y 19.94% para el total.
NOTA. De acuerdo con las normas ISO y ASTM y con las recomendaciones de la IUPAC, se
llama reproducibilidad, no a una componente de la varianza, sino a la suma de ambas. Como
esto confunde a los usuarios, que instintivamente dan un nombre a cada componente, he optado
por hacerlo as, apartandome de las directrices de estos organismos.
Fuente: G. Brufau, comunicacion personal.
TABLA 7.11. Concentracion de AP (Ejemplo 7.4)
Ampolla 1 2 3 4 5 6 7
Resultados 260.1 259.2 255.0 256.6 264.9 256.6 255.7
260.8 255.3 259.5 256.2 261.4 258.2 254.5
Ampolla 8 9 10 11 12 13 14
Resultados 259.3 260.0 259.5 262.9 254.7 261.6 258.9
256.4 260.0 263.2 261.2 259.1 262.7 261.9
Ejemplo 7.4. Se ha hecho un estudio para comprobar la homogeneidad de un parametro clnico,
la concentracion cataltica de fosfatasa alcalina (AP), en un material liolizado reconstituido
que se quera usar como material de referencia certicado para la calibracion en laboratorios
de analisis clnicos. Para este estudio se han seleccionado aleatoriamente 14 ampollas de un
lote, analizando cada una por duplicado. Todos los analisis se han efectuado en el mismo
laboratorio, y dentro de la misma serie, usando un reactivo comercial. La reconstitucion del
Facultad de Farmacia/Curso de Estadstica/62 20060115
material liolizado se ha hecho a 0

C, siguiendo el procedimiento adoptado por el Community


Bureau of Reference (BCR). Los resultados se presentan en la Tabla 7.11.
Consideramos la eleccion de la ampolla como un factor con k = 14 niveles, con efectos aleatorios.
Observa que no nos interesa el contenido de las 14 ampollas analizadas (el analisis es destructivo),
sino extrapolar los resultados de estas ampollas al lote. Para cada ampolla hay r = 2 replicados.
La Tabla 7.12 es la tabla ANOVA correspondiente a estos resultados. Como el valor F es
signicativo (P = 0.0159), podemos concluir que los contenidos de las 14 ampollas no son
iguales.
TABLA 7.12. Tabla ANOVA (Ejemplo 7.4)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Ampolla 166.6975 13 12.8229 3.3621 0.0159
Analisis 53.3950 14 3.8139
Total 220.0925 27
Los valores estimados de las componentes de la varianza son 3.814 y 4.506. Aqu la variabilidad
dentro de los grupos se atribuye a la imprecision del analisis (incluyendo la reconstitucion, ya
que se trata de material liolizado), y la variabilidad entre grupos a las diferencias entre los
contenidos de las ampollas que integran el lote. En este caso ambas tienen magnitud parecida
(45.84% y 54.16%, respectivamente).
Si expresamos las componentes y la varianza total en forma de coecientes de variacion (la
desviaci on tpica como porcentaje del valor medio y = 258.93), resulta
CV
TOT
= 0.75%, CV
AMP
= 0.82%, CV
ANA
= 1.11%.
NOTA. Aunque del analisis estadstico se desprende que hay diferencias en el contenido de las
ampollas, la variabilidad en el contenido es inferior a la que atribuimos a la imprecision del
metodo, por lo que a efectos practicos se podra considerar el material homogeneo. As se hizo
en este estudio.
Fuente: Community Bureau of Reference.
Facultad de Farmacia/Curso de Estadstica/63 20060115
8. Pruebas no parametricas
8.1. La prueba de los signos
En general, se llama pruebas no parametricas a aquellas en las que no se asume que las variables
implicadas tengan un tipo de distribucion particular. Por ejemplo, la prueba t para una muestra,
o la de datos emparejados, que se basa en ella, son validas cuando la distribucion es normal y
aproximadamente validas cuando el n umero de datos es elevado. La prueba de los signos es una
prueba alternativa, basada en la distribucion binomial, en la que no se presupone nada sobre la
distribucion a la que se reere la hipotesis nula.
Supongamos que X es una variable con mediana . La prueba de los signos se asocia a la
hipotesis H
0
: = 0 (si la hipotesis es =
0
, basta restar
0
y hacer la prueba en la forma que
se presenta aqu). Se aplica a un conjunto de n observaciones independientes de X, no nulas.
Las observaciones nulas se descartan, no pudiendo ser usadas en la prueba.
Si llamamos B
+
al n umero de observaciones positivas y B

al de observaciones negativas,
el estadstico de la prueba es B = max(B
+
, B

). La prueba se basa en que, si = 0, la


probabilidad de un resultado positivo es igual a la de uno negativo y, por lo tanto, a 0.5.
Entonces B
+
y B

tienen distribucion binomial con = 0.5. El nivel de signicacion es el doble


de la probabilidad de la cola derecha asociada al valor B en la distribucion binomial.
Ejemplo 5.3 (continuacion). En la Tabla 5.2 (Ejemplo 5.3) haba 3 diferencias positivas (B
+
= 3)
y 37 negativas (B

= 37), con lo que B = 37. La formula binomial da la probabilidad de la cola


derecha asociada a este valor, p
_
B 37

, que en Excel se obtiene haciendo


1- DISTR.BINOM(36,40;0.5;1)=9.73E-9.
El nivel de signicacion es el doble de esta probabilidad, similar al obtenido en la prueba t.
8.2. Prueba del rango signado
La prueba del rango signado de Wilcoxon es otra alternativa a la prueba t para una muestra,
que solo presupone que la distribucion es continua y simetrica respecto a la media (que en tal
caso coincide con la mediana). Se puede usar en las mismas situaciones que la prueba de los
signos, aunque asumiendo que la distribucion es continua y simetrica.
El estadstico de la prueba se obtiene como sigue:
Se ordenan las observaciones seg un el valor absoluto, de menor a mayor.
Se asigna rango 1 a la primera observacion (menor valor absoluto), 2 a la siguiente, etc.,
hasta llegar a la ultima, que tiene rango n. Si hay varias observaciones con el mismo
valor absoluto, se asigna a todas ellas un rango promedio.
Llamando T
+
a la suma de los rangos de las observaciones positivas, y T

a la de los
rangos de las negativas, resulta T
+
+ T

= n(n + 1)/2. El estadstico de la prueba es


T = max(T
+
, T

).
La prueba se basa en que, si la hipotesis nula es valida, T tiene una distribucion (discreta)
simetrica, con media y desviacion tpica dadas por
=
n
_
n + 1
_
4
, =

n
_
n + 1
__
2n + 1
_
24
.
Facultad de Farmacia/Curso de Estadstica/64 20060115
La Tabla A de la seccion 8.5 da algunas probabilidades. En ella hallamos, para n 18 y para
algunos valores de t, que en la practica bastan para extraer conclusiones, la probabilidad p[T t]
(cola derecha). Solo he incluido los valores de T para los que la probabilidad de la cola derecha
(con tres decimales) esta comprendida entre 0.001 y 0.100. El nivel de signicacion se obtiene
multiplicando por 2 la probabilidad de la tabla. Si n > 18, se puede aproximar la distribucion
de T por una normal. A veces, al usar esta aproximacion, se presenta el nivel de signicacion
como asintotico.
TABLA 8.1. Porcentaje de acido oleico (Ejemplo 5.3)
Animal Abdominal Dorsal Rango Animal Abdominal Dorsal Rango
1 32.7084 36.0667 24 21 35.7674 37.1147 10
2 33.8384 37.1387 23 22 32.7113 34.7340 13
3 34.9742 39.4628 29 23 33.2037 40.6269 40
4 37.0916 39.4989 16 24 35.5307 40.7179 34
5 31.8443 34.0613 15 25 36.7066 41.8163 33
6 34.6563 38.5656 26 26 37.5839 40.2428 17
7 32.9172 37.8381 32 27 35.7359 34.8008 7
8 34.3413 37.5836 22 28 31.7980 38.5125 36
9 31.7786 36.4064 30 29 35.5791 37.0857 11
10 33.7529 37.8350 27 30 34.6878 37.4639 19
11 33.1405 34.2420 8 31 34.4472 36.5383 14
12 35.9041 36.6454 4 32 34.1776 34.5558 1
13 34.3247 41.0903 38 33 32.9537 33.5989 3
14 32.9629 37.8422 31 34 34.9072 35.7339 6
15 34.7158 35.5221 5 35 41.3134 38.6335 18
16 31.8504 38.9107 39 36 36.6914 40.3660 25
17 30.3912 37.1207 37 37 38.8980 40.2390 9
18 31.3900 37.3798 35 38 37.4620 41.9497 28
19 35.6464 37.6463 12 39 40.3456 40.7600 2
20 38.6912 35.8553 21 40 35.3637 38.1738 20
Ejemplo 5.3 (continuacion). La Tabla 8.1 reproduce los datos del Ejemplo 5.3, a nadiendo el
rango que corresponde a cada diferencia. Los rangos de las diferencias positivas suman T
+
= 46,
y los de las negativas, T

= 774.
Para obtener un nivel de signicacion asintotico, calculamos primero
=
40 41
4
= 410, =
_
40 41 81
24
= 74.398,
y ahora
2*(1-DISTR.NORM(774,410,A1,1))=9.96377E-07.
Ejemplo 5.4 (continuacion). La Tabla 8.2 reproduce los datos del Ejemplo 5.4, a nadiendo el
rango que corresponde a cada diferencia. Los rangos de las diferencias positivas suman T
+
= 87,
y los de las negativas, T

= 18. La Tabla A da p[T 87] = 0.015, luego P = 0.030. En este


caso, el nivel de signicacion es algo menor que el que obtuvimos en la prueba t.
Facultad de Farmacia/Curso de Estadstica/65 20060115
TABLA 8.2. Diferencias y rangos (Ejemplo 5.4)
Paciente T R TR Rango
1 2.9 3.9 1.0 5
2 4.0 3.9 0.1 2
3 3.4 3.3 0.1 2
4 3.2 4.3 1.1 6.5
5 3.8 3.2 0.6 4
6 5.2 3.5 1.7 12
7 3.9 2.7 1.2 8
8 3.9 2.4 1.5 10.5
9 2.5 3.6 1.1 6.5
10 6.5 2.1 4.4 14
11 5.5 4.0 1.5 10.5
12 4.0 3.9 0.1 2
13 5.3 4.0 1.3 9
14 4.3 2.3 2.0 13
8.3. Prueba de la suma de rangos
La prueba t para dos muestras independientes es valida para distribuciones normales. La prueba
de la suma de rangos solo requiere que las distribuciones sean continuas y del mismo tipo. Hay
dos versiones equivalentes de esta prueba, la de Wilcoxon, que vemos aqu, y la de Mann y
Whitney, llamada a veces prueba U de Mann-Whitney.
La hipotesis nula es que X
1
y X
2
tienen la misma distribucion. Habitualmente, esta prueba
se aplica en situaciones en las que se presupone que se puede pasar de una a otra distribucion
mediante una traslacion. Mas especcamente, se admite que las funciones de densidad de X
1
y
X
2
cumplen una ecuacion
f
2
(x) = f
1
(x ),
donde =
1

2
es el efecto del tratamiento. De este modo, la hipotesis de que las distribu-
ciones coinciden se puede resumir en la forma clasica,
1
=
2
, o, equivalentemente, = 0.
La prueba se aplica a dos muestras de observaciones independientes de X
1
y X
2
, de tama nos
n
1
y n
2
, respectivamente. Para simplicar la notacion, suponemos n
1
n
2
. Para obtener el
estadstico W de la prueba se procede como sigue:
Se juntan las observaciones de las dos muestras, ordenandolas de menor a mayor.
Se asigna el rango 1 a la primera observacion (la menor), 2 a la siguiente, etc., hasta
llegar a la ultima, con rango n
1
+ n
2
. Si hay varios resultados iguales, se les asigna un
rango promedio.
W es la suma de los rangos de las observaciones de X
1
.
La prueba se basa en que, si la hipotesis nula es cierta, W tiene una distribucion (discreta)
simetrica, con
=
n
1
_
n
1
+n
2
+ 1
_
2
, =

n
1
n
2
_
n
1
+n
2
+ 1
_
12
.
La Tabla B de la seccion 8.5 da, para n
2
10 y para algunos valores de w, que en la practica
bastan para extraer conclusiones, la probabilidad p[W w] (cola derecha). Si W > , el
nivel de signicacion es el doble de la probabilidad de la tabla. En caso contrario, es el doble
de la probabilidad de la cola izquierda, que se puede calcular usando la simetra, como en la
distribucion normal. Para muestras mayores se puede obtener un nivel de signicacion asintotico
aproximando la distribucion de W por una normal.
Facultad de Farmacia/Curso de Estadstica/66 20060115
Ejemplo 1.3 (continuacion). La Tabla 8.3 reproduce los resultados de la Tabla 1.3, con los rangos
entre parentesis. Como el grupo de las mujeres es menor, para respetar la notacion usada en la
presentacion de la prueba las mujeres formaran la muestra 1 y los hombres la 2. Aqu n
1
= 25
y n
2
= 32.
La suma de los rangos de la muestra 1 es W = 574. Usando la aproximacion normal,
=
25 58
2
= 725, =
_
25 32 58
12
= 62.18.
El nivel de signicacion (asintotico) es P = 0.015, similar al obtenido en la prueba t.
TABLA 8.3. Rangos para el colesterol HDL (Ejemplo 1.3)
Muestra 1 (mujeres)
1.100 (19) 1.290 (32) 1.365 (38) 1.065 (16) 1.150(24)
0.860 (3) 1.155 (25) 1.225 (29) 1.695 (51) 1.000 (9)
0.910 (6) 1.360 (37) 0.965 (8) 1.660 (48) 1.625 (45)
0.875 (4) 1.225 (30) 1.055 (15) 1.085 (18) 1.295(34)
1.065 (17) 1.020 (11) 1.465 (41) 1.050 (13) 0.790 (1)
Muestra 2 (hombres)
1.910 (55) 1.310 (36) 1.295 (33) 1.120 (22) 1.660 (47)
1.700 (52) 1.630 (46) 1.055 (14) 0.930 (7) 1.050 (12)
1.015 (10) 0.840 (2) 1.680 (50) 1.155 (26) 1.300 (35)
1.815 (53) 1.400 (39) 1.135 (23) 1.245 (31) 1.170 (27)
1.980 ((57) 1.535 (44) 1.940 (56) 1.835 (54) 1.485 (42)
1.115 (21) 1.520 (43) 1.660 (49) 1.100 (20) 0.875 (5)
1.455 (40) 1.170 (28)
Ejemplo 8.1. Los resultados de la Tabla 8.4 proceden de un estudio sobre la relacion entre el nivel
de histamina (g/g) en el esputo seco y la inhalacion de irritantes o alergenos, y corresponden a
22 fumadores, de los que 9 eran alergicos y el resto no presentaba sntomas de alergia. Se evito
incluir en el estudio personas cuyo trabajo habitual se realizase en una atmosfera de gases nocivos
u otros agentes toxicos respiratorios. Entre parentesis se incluye el rango de cada resultado.
TABLA 8.4. Niveles de histamina en el esputo seco (Ejemplo 8.1)
Alergicos 1651.0 (22) 65.9 (17) No alergicos 48.1 (15) 34.3 (9) 6.6 (3)
1112.0 (21) 64.7 (16) 48.0 (14) 32.4 (8) 5.2 (2)
102.4 (20) 39.6 (11) 45.5 (13) 29.1 (6) 4.7 (1)
100.0 (19) 31.0 (7) 41.7 (12) 27.3 (5)
67.6 (18) 35.4 (10) 18.9 (4)
La dispersion en los dos grupos tiene distinto orden de magnitud. La compracion de varianzas
da F = 1416.44 (P < 0.001). Por consiguiente, no se dan las condiciones para que la prueba de
la suma de rangos sea valida. Sin embargo, es preferible a una prueba t, ya que, al usar solo los
rangos, no es tan sensible a los valores extremos del grupo de alergicos. La suma de los rangos
del grupo de alergicos es W = 151. Usamos la aproximacion normal,
=
9 23
2
= 103.5, =
_
9 13 23
12
= 14.975.
El nivel de signicacion (asintotico) es P = 0.002. La prueba t, sin suponer las varianzas iguales,
da t = 1.6640 (P = 0.135). Este ejemplo muestra que, cuando no son ciertos los supuestos para
la validez de estas pruebas, sus resultados pueden ser muy distintos.
Facultad de Farmacia/Curso de Estadstica/67 20060115
8.4. Prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis es una generalizacion de la de la suma de rangos, en el mismo
sentido que el ANOVA de un factor es una generalizacion de la prueba t para dos muestras
independientes. No hay supuestos de normalidad.
La hipotesis nula en la prueba de Kruskal-Wallis es que la distribucion es la misma para todos
los niveles del factor. El estadstico de la prueba se calcula como sigue:
Se ordenan las observaciones, asignando rangos como en la prueba de la suma de rangos.
El estadstico es
H =
12
n(n + 1)
k

i=1
R
2
i
n
i
3(n + 1),
donde R
i
es la suma de los rangos del grupo i y n es el tama no de muestra total (n =
n
1
+ +n
k
).
La Tabla C da las probabilidades p
_
H h

para algunos valores, en el supuesto de que la


hipotesis nula es cierta. Por otra parte, si n
i
5, la distribucion de H se puede aproximar
por una distribucion
2
, con k 1 grados de libertad, obteniendo as un nivel de signicacion
asintotico.
Ejemplo 7.1 (continuacion). La Tabla 8.5 contiene los datos del Ejemplo 7.1, con el rango entre
parentesis, y la suma de los rangos debajo de cada grupo. El valor H es
H =
12
48 49
_
188.5
2
12
+
295
2
12
+
278.5
2
12
+
414
2
12
_
3 49 = 10.958.
El nivel de signicacion (asintotico) se calcula con
DISTR.CHI(10.958;3)=0.012.
La conclusion es la misma que en el ANOVA.
TABLA 8.5. Asignacion de rangos (Ejemplo 7.1)
Large White 7.0099 (27) 5.9953 (10) F1 6.6658 (24) 6.7803 (26)
6.0828 (13) 5.9135 (9) 9.1737 (46) 6.0375 (12)
7.1810 (29) 5.0871 (1.5) 9.4880 (47) 6.0870 (14)
6.5237 (21) 6.2910 (19) 7.7320 (36) 5.0871 (1.5)
6.6340 (23) 5.1916 (3) 6.4450 (20) 5.6711 (8)
6.5855 (22) 6.0268 (11) 7.9206 (39) 5.4761 (5)
Suma de rangos 188.5 278.5
Duroc 7.7945 (37) 6.1525 (18) Landrace 8.5421 (41) 8.7217 (42)
7.8484 (38) 6.1185 (16) 9.1515 (45) 9.0542 (44)
7.2200 (31) 7.0327 (28) 7.3361 (33) 8.8605 (43)
7.2014 (30) 6.1245 (17) 7.3229 (32) 5.2297 (4)
7.4001 (34) 6.1140 (15) 9.8008 (48) 7.4922 (35)
6.7360 (25) 5.5583 (6) 7.9917 (40) 5.5939 (7)
Suma de rangos 295 414
Facultad de Farmacia/Curso de Estadstica/68 20060115
8.5. Tablas
TABLA A. Probabilidades para la prueba del rango signado
n t p[Tt] n t p[Tt] n t p[Tt] n t p[Tt] n t p[Tt]
4 10 .062 53 .042 14 74 .097 95 .088 131 .004
54 .034 75 .086 96 .080 132 .003
5 13 .094 55 .027 76 .077 97 .072 133 .003
14 .062 56 .021 77 .068 98 .065 134 .002
15 .031 57 .016 78 .059 99 .058 135 .002
58 .012 79 .052 100 .052 136 .002
6 18 .078 59 .009 80 .045 101 .047 137 .001
19 .047 60 .007 81 .039 102 .042 138 .001
20 .031 61 .005 82 .034 103 .037 139 .001
21 .016 62 .003 83 .029 104 .033 140 .001
63 .002 84 .025 105 .029 141 .001
7 23 .078 64 .001 85 .021 106 .025
24 .055 65 .001 86 .018 107 .022 18 116 .098
25 .039 87 .015 108 .019 117 .091
26 .023 12 57 .088 88 .012 109 .017 118 .084
27 .016 58 .076 89 .010 110 .015 119 .077
28 .008 59 .065 90 .008 111 .013 120 .071
60 .055 91 .007 112 .011 121 .065
8 28 .098 61 .046 92 .005 113 .009 121 .065
29 .074 62 .039 93 .004 114 .008 122 .059
30 .055 63 .032 94 .003 115 .007 123 .054
31 .039 64 .026 95 .003 116 .006 124 .049
32 .027 65 .021 96 .002 117 .005 125 .045
33 .020 66 .017 97 .002 118 .004 126 .041
34 .012 67 .013 98 .001 119 .003 127 .037
35 .008 68 .010 99 .001 120 .003 128 .033
36 .004 69 .008 100 .001 121 .002 129 .030
70 .006 122 .002 130 .027
9 35 .082 71 .006 15 84 .094 123 .001 131 .024
36 .064 72 .003 85 .084 124 .001 132 .022
37 .049 73 .002 86 .076 125 .001 133 019
38 .037 74 .002 87 .068 126 .001 134 .017
39 .027 75 .001 88 .060 127 .001 135 .015
40 .020 76 .001 89 .053 136 .013
41 .014 90 .047 17 105 .095 137 .012
42 .010 13 65 .095 91 .042 106 .087 138 .010
43 .006 66 .084 92 .036 107 .080 139 .009
44 .004 67 .073 93 .032 108 .073 140 .008
45 .002 68 .064 94 .028 109 .066 141 .007
69 .055 95 .024 110 .060 142 .006
10 41 .097 70 .047 96 .021 111 .054 143 .005
42 .080 71 .040 97 .018 112 .049 144 .005
43 .065 72 .034 98 .015 113 .044 145 .004
44 .053 73 .029 99 .013 114 .040 146 .003
45 .042 74 .024 100 .011 115 .036 147 .003
46 .032 75 .020 101 .009 116 .032 148 .002
47 .024 76 .016 102 .008 117 .028 149 .002
48 .019 77 .013 103 .006 118 .025 150 .002
49 .014 78 .011 104 .005 119 .022 151 .001
50 .010 79 .009 105 .004 120 .020 152 .001
51 .007 80 .007 106 .003 121 .017 153 .001
52 .005 81 .005 107 .003 122 .015 154 .001
53 .003 82 .004 108 .002 123 .013 155 .001
54 .002 83 .003 109 .002 124 .012 156 .001
55 .001 84 .002 110 .001 125 .010
85 .002 111 .001 126 .009
11 49 .087 86 .001 112 .001 127 .008
50 .074 87 .001 113 .001 128 .006
51 .062 88 .001 129 .006
52 .051 16 94 .096 130 .005
Solo se incluyen en la tabla los valores de T para los que la probabilidad de la cola derecha
(expresada con tres decimales) esta comprendida entre 0.001 y 0.100.
Facultad de Farmacia/Curso de Estadstica/69 20060115
TABLA B. Probabilidades para la prueba de la suma de rangoS
n
1
n
2
w p[Ww] n
1
n
2
w p[Ww] n
1
n
2
w p[Ww] n
1
n
2
w p[Ww]
2 3 9 .100 10 30 .080 47 .007 56 .028
31 .056 48 .004 57 .020
4 11 .067 32 .038 49 .002 58 .014
33 .024 50 .001 59 .010
5 12 .095 34 .014 60 .006
13 .048 35 .007 5 5 35 .075 61 .004
36 .003 36 .048 62 .002
6 14 .071 37 .028 63 .001
15 .036 4 4 23 .100 38 .016 64 .001
24 .057 39 .008
7 16 .056 25 .029 40 .004 6 6 48 .090
17 .028 26 .014 49 .066
6 38 .089 50 .047
8 17 .089 5 26 .095 39 .063 51 .032
18 .044 27 .056 40 .041 52 .021
19 .022 28 .032 41 .026 53 .013
29 .016 42 .015 54 .008
9 19 .073 30 .008 43 .009 55 .004
20 .036 44 .004 56 .002
21 .018 6 29 .086 45 .002 57 .001
30 .057
10 20 .091 31 .033 7 42 .074 7 52 .090
21 .061 32 .019 43 .053 53 .069
22 .030 33 .010 44 .037 54 .051
23 .015 34 .005 45 .024 55 .037
46 .015 56 .026
3 3 14 .100 7 32 .082 47 .009 57 .017
15 .050 33 .055 48 .005 58 .011
34 .036 49 .003 59 .007
4 17 .057 35 .021 50 .001 60 .004
18 .029 36 .012 61 .002
37 .006 8 45 .085 62 .001
5 19 .071 38 .003 46 .064 63 .001
20 .036 47 .047
21 .018 8 35 .077 48 .033 8 56 .091
36 .055 49 .023 57 .071
6 21 .083 37 .036 50 .015 58 .054
22 .048 38 .024 51 .009 59 .041
23 .024 39 .014 52 .005 60 .030
24 .012 40 .008 53 .003 61 .021
41 .004 54 .002 62 .015
7 23 .092 55 .001 63 .010
24 .058 9 37 .099 64 .006
25 .033 38 .074 9 48 .095 65 .004
26 .017 39 .053 49 .073 66 .002
27 .008 40 .038 50 .056 67 .001
41 .025 51 .041 68 .001
8 25 .097 42 .002 52 .030
26 .067 43 .010 53 .021 9 60 .091
27 .042 44 .006 54 .014 61 .072
28 .024 45 .003 55 .009 62 .057
29 .012 46 .001 56 .006 63 .044
30 .006 57 .003 64 .033
10 40 .094 58 .002 65 .025
9 28 .073 41 .071 59 .001 66 .018
29 .050 42 .017 67 .013
30 .032 43 .038 10 52 .082 68 .009
31 .018 44 .027 53 .065 69 .006
32 .009 45 .018 54 .050 70 .004
33 .005 46 .012 55 .038 71 .002
Facultad de Farmacia/Curso de Estadstica/70 20060115
TABLA B (continuacion)
n
1
n
2
w p[Ww] n
1
n
2
w p[Ww] n
1
n
2
w p[Ww] n
1
n
2
w p[Ww]
72 .001 84 .004 103 .001 124 .001
73 .001 85 .003 125 .001
86 .002 10 92 .086 126 .001
10 64 .090 87 .001 93 .073
65 .074 88 .001 94 .061
66 .059 95 .051
67 .047 10 77 .097 96 .042
68 .036 78 .081 97 .034
69 .028 79 .067 98 .027
70 .021 80 .054 99 .022
71 .016 81 .044 100 .017
72 .011 82 .035 101 .013
73 .008 83 .028 102 .010
74 .005 84 .022 103 .008
75 .004 85 .017 104 .006
76 .002 86 .012 105 .004
77 .001 87 .009 106 .003
78 .001 88 .007 107 .002
89 .005 108 .002
7 7 64 .082 90 .003 109 .001
65 .064 91 .002 110 .001
66 .049 92 .002
67 .036 93 .001 9 9 101 .095
68 .027 94 .001 102 .081
69 .019 103 .068
70 .013 8 8 81 .097 104 .057
71 .009 82 .080 105 .047
72 .006 83 .065 106 .039
73 .003 84 .052 107 .031
74 .002 85 .041 108 .025
75 .001 86 .032 109 .020
76 .001 87 .025 110 .016
88 .019 111 .012
8 68 .095 89 .014 112 .009
69 .076 90 .010 113 .007
70 .060 91 .007 114 .005
71 .047 92 .005 115 .004
72 .036 93 .003 116 .003
73 .027 94 .002 117 .002
74 .020 95 .001 118 .001
75 .014 96 .001 119 .001
76 .010 97 .001 120 .001
77 .007
78 .005 9 86 .100 10 107 .091
79 .003 87 .084 108 .078
80 .002 88 .069 109 .067
81 .001 89 .057 110 .056
82 .001 90 .046 111 .047
91 .037 112 .039
9 73 .087 92 .030 113 .033
74 .071 93 .023 114 .027
75 .057 94 .018 115 .022
76 .045 95 .014 116 .017
77 .036 96 .010 117 .014
78 .027 97 .008 118 .011
79 .021 98 .006 119 .009
80 .016 99 .004 120 .007
81 .011 100 .003 121 .005
82 .008 101 .002 122 .004
83 .006 102 .001 123 .003
Solo se incluyen en la tabla los valores de W para los que la probabilidad de la cola derecha
(expresada con tres decimales) esta comprendida entre 0.001 y 0.100.
Facultad de Farmacia/Curso de Estadstica/71 20060115
TABLA C. Probabilidades para la prueba de Kruskal-Wallis
k r
i
h p[Hh] k r
i
h p[Hh] k r
i
h p[Hh]
3 2,2,2 4.571 .067 5.014 .076 8.924 .001
5.024 .074
2,2,3 4.500 .067 5.618 .050 3,3,3,3 6.026 .098
4.714 .048 5.657 .049 6.385 .079
5.357 .029 6.597 .026 6.436 .075
6.673 .024 6.897 .050
2,3,3 4.556 .100 7.744 .011 7.000 .043
4.694 .093 7.760 .009 7.615 .026
5.000 .075 8.189 .005 7.667 .023
5.139 .061 9.129 .001 8.436 .011
5.361 .032 8.538 .008
5.556 .025 4,5,5 4.523 .099 8.744 .006
6.250 .011 5.023 .075 8.897 .004
5.071 .074 9.462 .001
3,3,3 4.622 .100 5.643 .050 9.513 .001
5.067 .086 5.666 .049
5.422 .071 6.671 .025 3,3,3,4 6.016 .098
5.600 .050 6.760 .025 6.456 .076
5.956 .025 7.791 .010 6.462 .074
6.489 .011 7.823 .010 6.967 .050
7.200 .004 8.463 .005 6.984 .049
9.506 .001 7.758 .025
3,3,4 4.709 .092 7.775 .024
4.845 .081 4 2,2,2,2 5.667 .076 8.654 .010
5.000 .074 6.000 .067 8.659 .010
5.727 .050 6.167 .038 9.225 .005
5.791 .046 6.667 .009 10.000 .001
6.018 .027
6.155 .025 2,2,2,3 5.644 .100 3,3,4,4 6.019 .099
6.745 .010 5.933 .076 6.481 .075
7.000 .006 5.978 .073 6.500 .075
7.318 .004 6.244 .054 7.033 .051
8.018 .001 6.333 .048 7.038 .050
6.644 .027 7.924 .025
3,4,4 4.545 .099 6.978 .017 8.867 .010
5.053 .078 7.000 .013 9.490 .005
5.144 .073 7.133 .008 10.424 .001
5.576 .051 7.533 .003
5.598 .049 3,4,4,4 6.042 .100
6.386 .025 2,2,3,3 5.745 .099 6.529 .075
7.136 .011 6.091 .076 7.129 .050
7.144 .010 6.127 .073 7.142 .049
7.477 .006 6.473 .052 8.054 .025
7.598 .004 6.527 .049 8.079 .025
8.326 .001 7.636 .010 9.067 .100
7.727 .008 9.717 .005
4,4,4 4.654 .097 7.873 .004 10.879 .001
4.962 .080 8.455 .001
5.115 .074 4,4,4,4 6.088 .099
5.654 .055 2,3,3,3 5.879 .100 6.551 .077
5.692 .049 6.242 .075 6.574 .074
6.577 .026 6.258 .074 7.213 .051
6.615 .024 6.682 .051 7.235 .049
7.538 .011 6.727 .049 8.206 .025
7.654 .008 7.470 .026 8.228 .025
7.731 .007 7.515 .024 9.287 .010
8.000 .005 7.955 .011 9.949 .005
8.769 .001 8.015 .010 9.971 .005
8.318 .005 11.338 .001
4,4,5 4.619 .100 8.379 .004
Solo se incluyen en la tabla los valores de H para los que la probabilidad de la cola derecha
(expresada con tres decimales) esta comprendida entre 0.001 y 0.100.
Facultad de Farmacia/Curso de Estadstica/72 20060115
9. Regresion y correlacion
9.1. Regresion lineal simple
En este captulo vamos a abordar de nuevo el examen de la relacion entre dos variables. Mientras
en el Captulo 6 ambas variables eran categoricas y en el analisis de la varianza del Captulo
7 se examinaba la inuencia de una variable categorica (el factor) sobre una variable continua
(la respuesta), aqu nos ocuparemos del caso de dos variables, X e Y , continuas, introduciendo
algunos metodos para hallar una ecuacion que exprese en forma matematica la inuencia de X
sobre Y . Estos metodos constituyen el analisis de regresion.
En este captulo nos limitamos a la regresion lineal simple, donde hay una unica variable ex-
plicativa X y la relacion es lineal, lo que gracamente corresponde a una recta. En el captulo
siguiente veremos otras situaciones.
Supongamos n observaciones conjuntas de X e Y , es decir, n pares (x
i
, y
i
). Si asociamos a cada
par (x
i
, y
i
) un punto del plano, la regresion debe darnos la recta que pase mas cerca de estos
puntos. Decimos entonces que hemos ajustado la recta a los puntos, o que hemos hallado la recta
de regresion (de Y sobre X, si hace falta especicarlo). Sea la ecuacion de la recta y = b
0
+b
1
x.
Entonces b
0
y b
1
son los coecientes de regresion: b
1
es la pendiente, y b
0
el termino constante,
u ordenada en el origen.
Para dar un metodo para hallar los coecientes para los cuales la recta se ajusta mejor a los
puntos (x
1
, y
1
), . . . , (x
n
, y
n
), hay que aclarar primero que se entiende por ajustar mejor. Todos
los metodos se basan en la misma idea: el ajuste es bueno cuando las diferencias y
i
(b
0
+b
1
x
i
)
son peque nas.
En este curso solo se trata el metodo mas clasico, el de ajuste por mnimos cuadrados, en el que
se determinan los valores de los coecientes para los que la suma de cuadrados
S(b
0
, . . . , b
1
) =

_
y
i
b
0
b
1
x
i
_
2
es mnima. Este es un problema sencillo de calculo de dos variables, que tiene una solucion
( unica), dada por las formulas
b
1
=

_
x
i
x
__
y
i
y
_

_
x
i
x
_
2
, b
0
= y b
1
x.
De estas formulas se deduce la relacion y = b
0
+b
1
x, que implica que la recta de regresion pasa
por el punto
_
x, y
_
.
Es corriente distinguir entre los valores observados de Y y los que se obtienen aplicando la
ecuacion resultante del ajuste, que son los valores predichos por el modelo, y
i
= b
0
+ b
1
x
i
. La
diferencia e
i
= y
i
y
i
se llama residuo. Los residuos suman cero.
9.2. Coeciente de correlacion lineal
En el metodo de los mnimos cuadrados se determinan los valores de los coecientes para los
cuales la suma de los cuadrados de los residuos es mnima. La suma de cuadrados residual

e
2
i
es, por consiguiente, una medida de la calidad del ajuste, aunque su valor resulta difcil
de interpretar, ya que depende de las unidades y del n umero de datos.
Facultad de Farmacia/Curso de Estadstica/73 20060115
Para evaluar el ajuste de la recta de regresion a los datos se usa el coeciente de correlacion
lineal,
r =

_
x
i
x)(y
i
y
_
_

_
x
i
x
_
2

_
y
i
y
_
2
_
1/2
.
Si hay ambig uedad, se puede designar la correlacion por r
XY
. Para interpretar su valor hay que
tener en cuenta las siguientes propiedades:
(a) r tiene el mismo signo que la pendiente b
1
. Por tanto, r > 0 cuando los valores altos
de X se dan conjuntamente con los valores altos de Y , y los valores bajos de X con los
valores bajos de Y . Cuando sucede al reves, r < 0.
(b) Siempre 1 r 1.
(c) |r| = 1 cuando y
i
= b
0
+ b
1
x
i
para todo i, es decir, cuando los puntos (x
i
, y
i
) estan
alineados, y la recta de regresion pasa por todos ellos. As, si r esta proximo a 1 o 1,
consideramos que el ajuste es bueno, y si esta proximo a 0, que no lo es.
A veces se usa r
2
, en lugar de r, por razones que pueden quedar mas claras cuando presente el
ANOVA asociado a la regresion. r
2
es el coeciente de determinacion. Se puede comprobar sin
mucha dicultad que
r
2
= 1

e
2
i

_
y
i
y
_
2
,
lo que prueba que la correlacion esta mas proxima a 1 (en valor absoluto) cuanto menor es la
suma de cuadrados residual.
NOTA. A veces el coeciente de correlacion lineal se llama correlacion de Pearson, para distin-
guirlo de otros coecientes de correlacion, que tienen una interpretacion analoga (pero distinta),
los coecientes de correlacion de Spearman y Kendall.
Ejemplo 9.1. Los datos de la Tabla 9.1 se han obtenido en el desarrollo de un test colorimetrico
para la concentracion de glucosa. La tabla da las absorbancias correspondientes a seis concen-
traciones patron (mM). Ajustamos a los datos de esta tabla una ecuacion lineal y = b
0
+ b
1
x,
en la que X es la concentracion e Y la absorbancia. Resulta b
0
= 0.00829, b
1
= 0.07014.
TABLA 9.1. Absorbancias para distintas concentraciones patron (Ejemplo 9.1)
Concentracion 0 2 4 6 8 10
Absorbancia .002 .150 .294 .434 .570 .704
En la Tabla 9.2 se presentan, junto a los datos experimentales, los valores predichos y los residuos.
La suma de cuadrados residual es 0.00012. Observa que, al variar x, los residuos parecen variar
de acuerdo con una curva (v. Figura 9.1), lo que sugiere que una funcion no lineal puede ser
mas adecuada.
TABLA 9.2. Valores predichos y residuos (Ejemplo 9.1)
x
i
y
i
y
i
= b
0
+b
1
x
i
e
i
= y
i
y
i
0 0.002 0.008 0.006
2 0.150 0.149 0.001
4 0.294 0.289 0.005
6 0.434 0.429 0.005
8 0.570 0.569 0.001
10 0.704 0.710 0.006
Facultad de Farmacia/Curso de Estadstica/74 20060115
G
G
G G
G
G
0 2 4 6 8 10

0
.
0
0
6

0
.
0
0
2
0
.
0
0
2
0
.
0
0
4
Concentracin
R
e
s
i
d
u
o
Figura 9.1. Graco de residuos (Ejemplo 9.1)
La pendiente de la recta de regresion es positiva y los residuos son peque nos (frente a la dispersion
de Y ). Por lo tanto, los puntos quedan cerca de la recta y la correlacion debe estar proxima a 1.
En efecto, r = 0.99996. Desde este punto de vista, el ajuste de la recta a los datos de la Tabla
9.1 puede considerarse muy bueno.
Fuente: J.C. Miller & J.N. Miller (1993), Statistics in Analytical Chemistry, Elias Horwood.
9.3. Recta de regresion sin termino constante
A veces es interesante restringirse a rectas de regresion que pasen por el origen, es decir a
ecuaciones del tipo y = bx, con un unico coeciente b. En el metodo de los mnimos cuadrados,
el valor de b debe hacer mnima la suma de cuadrados residual
S(b) =
n

i=1
_
y
i
bx
i
_
2
,
que viene dado por la formula
b =

x
i
y
i

x
2
i
.
Ahora, a diferencia de lo que suceda en la seccion 9.1, la recta no pasa por
_
x, y
_
, ya que y = b x,
de modo que los residuos no suman cero.
TABLA 9.3. Valores predichos y residuos (Ejemplo 9.1)
x
i
y
i
y
i
= bx
i
e
i
= y
i
y
i
0 0.002 0.000 0.002
2 0.150 0.143 0.007
4 0.294 0.285 0.009
6 0.434 0.428 0.006
8 0.570 0.570 0.000
10 0.704 0.713 0.009
Facultad de Farmacia/Curso de Estadstica/75 20060115
Ejemplo 9.1 (continuacion). Ajustando a los datos de la Tabla 9.1 una ecuacion lineal sin termino
constante se obtiene b = 0.07127. Este valor es distinto al que hemos obtenido antes, pero la
diferencia es peque na, ya que la recta de regresion pasaba cerca del origen. En la Tabla 9.3 se
muestran los valores predichos y los residuos. Observa que ahora los residuos no suman cero. La
suma de cuadrados residual es 0.00026, mas alta que para la ecuacion con termino constante.
9.4. Pruebas sobre los coecientes de regresion
Bajo algunos supuestos sobre la distribucion de la variable respuesta, se puede calcular lmites
de conanza y hacer pruebas t para los coecientes de regresion. Estas pruebas se basan en el
modelo lineal simple, que presupone que la distribucion de Y condicionada a X = x es normal,
con media
0
+
1
x y desviacion tpica , independiente de x.
0
,
1
y son los parametros del
modelo.
La diferencia = Y
0

1
X se llama com unmente error. Se trata de un error en el sentido
estadstico, que no siempre se identica a un error de medida. El modelo queda, pues, en la
forma Y =
0
+
1
X +, donde tiene distribucion N(0,
2
).
Los supuestos de la distribucion normal del error y la homogeneidad de la varianza ya aparecieron
en el analisis de la varianza. Al igual que all, los valores de X que se usan en el analisis
estadstico, x
1
, . . . , x
n
, pueden ser prejados, como las concentraciones patron del Ejemplo 9.1,
o aleatorios, es decir, obtenidos en el mismo experimento en que se obtienen los valores de Y (v.
Ejemplo 9.2).
A partir de n observaciones independientes, y
1
, . . . , y
n
, siendo y
i
una observacion de Y en la que
X = x
i
, podemos obtener valores estimados de los parametros
0
,
1
y . Como estimadores
de
0
y
1
usamos los coecientes de regresion b
0
y b
1
del metodo de los mnimos cuadrados, y,
como valor estimado de
2
, la varianza residual,
s
2
=
1
n 2

i
e
2
i
,
siendo e
i
es el residuo correspondiente al punto (x
i
, y
i
).
Se puede demostrar que, si el modelo es valido, los coecientes b
0
y b
1
tienen distribucion normal,
con medias
0
y
1
, respectivamente. Las varianzas son
var(b
0
) =

2

i
x
2
i
n

i
(x
i
x)
2
, var(b
1
) =

2

i
(x
i
x)
2
.
La relacion entre los coecientes b
i
y los parametros
i
es analoga a la que hay entre la media de
la muestra x y la media de la poblacion . Los coecientes b
0
y b
1
son valores experimentales, e
igualmente lo es la recta de regresion. Tomamos estos valores experimentales como aproximacion
de los valores verdaderos, desconocidos.
La raz cuadrada de la varianza es el error tpico de ese coeciente, abreviadamente SE (standard
error). Se obtiene un valor estimado del error tpico al sustituir
2
por la varianza residual. Con
el error tpico se pueden calcular lmites de conanza (nivel 12 ) para los parametros, usando
la formula b t SE(b). Aqu, t tiene n 2 grados de libertad.
Los errores tpicos tambien se pueden usar para hacer una prueba t sobre la hipotesis de que
uno de los parametros sea cero. Para la prueba sobre la hipotesis H
0
:
0
= 0, se usa
t =
b
0
SE(b
0
)
,
siendo el nivel de signicacion el area de las dos colas asociadas a este valor en la t(n 2). La
prueba para
1
es igual. En la mayor parte del software estadstico se da, junto al valor estimado
de cada parametro, su error tpico, el valor t y el nivel de signicacion (v. Tabla 9.4).
Facultad de Farmacia/Curso de Estadstica/76 20060115
Ejemplo 9.1 (continuacion). La Tabla 9.4 da los valores estimados de los parametros del modelo
de regresion lineal simple para los datos de la Tabla 9.1, con el error tpico, el valor t y el
nivel de signicacion respectivos. El coeciente b
0
no es signicativo. Si lo fuera, el modelo
sin termino constante quedara descartado. En este caso, pues, se puede escoger entre los dos
modelos lineales, con y sin termino constante.
TABLA 9.4. Parametros del modelo lineal simple (Ejemplo 9.1)
Valor Error Nivel de
Parametro estimado tpico Valor t signicacion
Constante 0.00829 0.00404 2.051 0.1095
Concentracion 0.07014 0.00067 105.161 0.0000
9.5. La prueba ANOVA en la regresion
En la regresion lineal simple se puede hacer una descomposicion de la suma de cuadrados asociada
a Y , similar a la del ANOVA de un factor. Partiendo de la descomposicion y
i
= b
0
+b
1
x
i
+e
i
,
se obtiene SS
Y
= SS
R
+ SS
E
, siendo
SS
R
= b
2
1
n

i=1
_
x
i
x
_
2
, SS
E
=
n

i=1
e
2
i
.
La primera de estas sumas es la suma de cuadrados asociada a la regresion, con df
R
= 1, y la
otra, la suma de cuadrados asociada al error, o residual, con df
E
= n 2.
Los cuadrados medios se calculan como en el ANOVA de un factor, dividiendo la suma de
cuadrados por el n umero de grados de libertad. Como all, MS
E
coincide con la varianza residual.
Para hacer una prueba sobre H
0
:
1
= 0 se puede usar
F =
MS
R
MS
E
=
_
n 2
_
SS
R
SS
E
.
La prueba se basa en que, si H
0
es valida, este estadstico tiene una distribucion F(1, n 2).
Es facil comprobar que el valor F de esta prueba coincide con el cuadrado del valor t asociado
a
1
. Ambas pruebas son equivalentes (en la regresion lineal simple). Al ser
F = (n 2)
r
2
1 r
2
el valor F es signicativo cuando r
2
esta sucientemente proximo a 1. Decimos que r
2
es
signicativo, o que la correlacion es signicativa, cuando el valor F lo es. En la regresion lineal
simple, esto equivale a que b
1
sea signicativo.
Como en el ANOVA de un factor, el analisis de los residuos permite examinar la validez del
modelo. Cuando los valores de X estan prejados, solo hay que examinar la normalidad de los
residuos y la homogeneidad de la varianza. Cuando en el dise no experimental preve la realizacion
de replicados (es decir, de varios valores de Y para un mismo valor de X, se pueden comparar
las varianzas obtenidas en los grupos de replicados. En caso contrario, la homogeneidad de la
varianza se puede examinar, junto a la validez de la formula lineal, en la representacion graca
de los residuos. En estos gracos se sit uan los residuos e
i
(que pueden estar normalizados) en
las ordenadas, y x
i
o y
i
en las abscisas. Cuando los valores de X son experimentales, se examina
por separado la normalidad de ambas variables.
Facultad de Farmacia/Curso de Estadstica/77 20060115
Ejemplo 9.1 (continuacion). La Tabla 9.5 es una tabla ANOVA para el modelo lineal simple del
Ejemplo 9.1. Naturalmente, el valor F es muy signicativo, como corresponde a una correlacion
tan cercana a 1. Observa que el valor t asociado a b
1
(Tabla 9.4) es la raz cuadrada del valor
F de la Tabla 9.5.
TABLA 9.5. Tabla ANOVA (Ejemplo 9.1)
Suma de Grados de Cuadrado Nivel de
Fuente cuadrados libertad medio Valor F signicacion
Regresion 0.34440 1 0.34440 11058.8 0.0000
Error 0.00012 4 0.00003
Total 0.34453 5
9.6. Prueba sobre la correlacion
En la regresion lineal simple, la prueba F de la tabla ANOVA se puede interpretar como una
prueba de signicacion del coeciente r asociado a la regresion. A veces se usa esta prueba para
examinar la independencia de dos variables con distribucion normal, sin que interese la ecuacion
de la recta de regresion. En este caso, los papeles de X e Y son intercambiables.
En la prueba sobre la correlacion se dispone de n observaciones conjuntas de X e Y , indepen-
dientes. La hipotesis nula es que X e Y son independientes (en realidad, la hipotesis nula de
esta prueba es algo mas fuerte, pero he simplicado un poco esta cuestion). Puede hacerse como
una prueba F, con la formula de mas arriba, o, equivalentemente, como una prueba t, usando
t =

n 2
r

1 r
2
.
TABLA 9.6. Porcentajes de acidos grasos (Ejemplo 9.2)
Animal OLEICO LINOLEICO TRANS Animal OLEICO LINOLEICO TRANS
1 32.71 15.60 0.70 21 35.77 20.22 1.22
2 33.84 9.65 0.58 22 32.71 20.74 1.57
3 34.97 10.85 0.58 23 33.20 22.88 1.45
4 37.09 11.20 0.79 24 35.53 9.13 0.62
5 31.84 17.42 0.99 25 36.71 10.59 0.59
6 34.66 15.52 0.84 26 37.58 11.16 0.73
7 32.92 17.47 1.10 27 35.74 13.89 0.97
8 34.34 18.63 1.13 28 31.80 17.18 1.05
9 31.78 16.99 1.07 29 35.58 14.77 1.07
10 33.75 19.96 1.50 30 34.69 16.09 1.00
11 33.14 20.99 1.44 31 34.45 16.33 1.08
12 35.90 11.61 0.56 32 34.18 18.06 1.07
13 34.32 11.11 0.99 33 32.95 23.65 1.67
14 32.96 11.87 0.99 34 34.91 19.04 1.36
15 34.72 13.60 1.17 35 41.31 9.80 0.56
16 31.85 14.17 1.18 36 36.69 13.83 0.72
17 30.39 13.30 1.08 37 38.90 10.65 0.60
18 31.39 16.01 1.02 38 37.46 15.86 1.05
19 35.65 17.57 1.05 39 40.35 13.55 0.78
20 38.69 15.87 1.04 40 35.36 14.22 0.84
Facultad de Farmacia/Curso de Estadstica/78 20060115
G
G G
G
G
G
G
G
G
G
G
G
G G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
10 15 20
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
1
.
6
Linoleico
T
r
a
n
s
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
10 15 20
3
0
3
5
4
0
4
5
Linoleico
O
l
e
i
c
o
Figura 9.2. Correlacion entre los acidos grasos (Ejemplo 9.2)
Ejemplo 9.2. Los datos de la Tabla 9.6 son porcentajes de acidos grasos obtenidos al analizar
muestras extradas del m usculo abdominal de 40 cerdos, y corresponden al acido oleico, al
linoleico y a un grupo de isomeros trans. Para el par linoleico/trans (v. Figura 9.2, izquierda),
r = 0.874. Entonces,
F =
_
40 2)
(0.874)
2
1 (0.874)
2
= 123.32,
con lo que la correlacion es muy signicativa (P < 0.001), y se puede concluir que estas variables
no son independientes.
Para el par linoleico/oleico (v. Figura 9.2, izquierda), r = 0.430, tambien signicativa (F =
8.60, P = 0.006). El sentido com un sugiere que la correlacion entre el acido oleico y el grupo
TRANS tambien debe ser negativa y, efectivamente, resulta r = 0.488 (F = 11.85, P = 0.001).
Fuente: J. Pascual, M. Rafecas, M.A. Canela, R. Bou, J. Boatella, A.C. Barroeta & R. Codony,
(2006), Eect of increasing amounts of a linoleic-rich dietary fat on the fat composition of four
pig breeds. Part II: Fatty acid composition in muscle and fat tissues, Food Chemistry, pendiente
de publicacion.
Ejemplo 5.3 (continuacion). En el Ejemplo 5.3 del Captulo 5, las variables X
1
e X
2
corres-
pondan a los porcentajes de acido oleico en dos tejidos de un animal. La Figura 5.2 sugera que
X
1
y X
2
no eran independientes. En efecto, r = 0.428, signicativa (F = 8.521, P = 0.006).
Esto justica que no usaramos la prueba t para dos muestras independientes en este ejemplo.
Facultad de Farmacia/Curso de Estadstica/79 20060115
10. Otros metodos de regresion
10.1. Transformaciones
Para modelos no lineales, el metodo de los mnimos cuadrados no conduce a un sistema lineal,
y no hay formulas sencillas para los parametros. Uno de los modelos no lineales mas simples es
el modelo exponencial y = a e
bx
. En este caso, el sistema de ecuaciones que hay que resolver es
S
a
= 2
n

i=1
_
y
i
ae
bx
i
_
e
bx
i
= 0,
S
b
= 2
n

i=1
x
i
_
y
i
ae
bx
i
_
ax
i
e
bx
i
= 0.
Se trata de un sistema no lineal, y no hay una formula que de la solucion de forma exacta, pero s
metodos numericos que dan aproximaciones razonables. No obstante, a veces una transformacion
permite pasar de un modelo no lineal a otro lineal. Hay que advertir previamente que no siempre
es posible transformar una variable o las dos, de forma que se pueda ajustar de modo satisfactorio
un modelo lineal. Para ello es necesario que se pueda describir la relacion entre X e Y mediante
una funcion monotona (creciente o decreciente).
Por ejemplo, al tomar logaritmos el modelo exponencial se transforma en lny = lna + bx,
que es un modelo lineal, con variable respuesta U = ln Y . Si disponemos de una coleccion de
observaciones (x
1
, y
1
), . . . , (x
n
, y
n
), podemos ajustar a (x
1
, u
1
), . . . , (x
n
, u
n
) un modelo lineal
u = b
0
+ b
1
x, igualando a = exp(b
0
) y b = b
1
. Sin embargo, no hay que olvidar que los valores
de los parametros as obtenidos son los que hacen mnima la suma de cuadrados

_
lny
i
lna bx
i
_
2
,
y no los que hacen mnima

_
y
i
ae
bx
i
_
2
.
Dicho con palabras, el modelo obtenido por regresion lineal es aquel para el cual son mnimos
los errores de la prediccion del logaritmo de Y , y no los de la prediccion de Y .
Ejemplo 10.1. Los datos de la Tabla 10.1 son los niveles en plasma de un farmaco (g/ml), en
distintos tiempos (hr), despues de una inyeccion intravenosa. Se desea ajustar a estos datos
un modelo del tipo C(t) = C
0
e
Kt
, donde C(t) es la concentracion en el instante t, C
0
la
concentracion inicial (t = 0), y K una constante positiva. Esta ecuacion corresponde a un
proceso farmacocinetico de primer orden, en el que la velocidad de eliminacion es proporcional
al tiempo. Esto equivale a que C(t) sea una solucion de la ecuacion diferencial
dC(t)
dt
= K C(t),
con la condicion inicial C(0) = C
0
.
Se puede obtener por el metodo de los mnimos cuadrados una ecuacion lineal
lnC(t) = 3.00894 0.70156 t,
con una correlacion r = 0.99982. Aplicando la exponencial en ambos miembros, resulta
C(t) = 20.2659 e
0.70156 t
.
TABLA 10.1. Niveles en plasma en distintos tiempos (Ejemplo 10.1)
Tiempo 0 1 2 3 4
Concentracion 20.20 9.78 5.16 2.53 1.19
Facultad de Farmacia/Curso de Estadstica/80 20060115
En la Tabla 10.2 se dan los valores del tiempo (x
i
), la concentracion (y
i
), y el logaritmo de la
concentracion (ln y
i
), junto con los valores predichos ( y
i
) y los residuos (e
i
) del modelo ajustado.
Observa que estos residuos corresponden a la concentracion, no al logaritmo, y no suman cero.
TABLA 10.2. Valores predichos y residuos (Ejemplo 10.1)
x
i
y
i
lny
i
y
i
= a exp(bx
i
) e
i
= y
i
y
i
0 20.20 3.0057 20.2659 0.0659
1 9.78 2.2803 10.0481 0.2681
2 5.16 1.6409 4.9810 0.1780
3 2.53 0.9282 2.4701 0.0599
4 1.19 0.1739 1.2247 0.0347
NOTA. Fijandonos solo en los datos, como podemos decidir entre el modelo lineal y el ex-
ponencial? Observa que, en la Tabla 9.1, a incrementos constantes de la concentracion (X)
correspondan incrementos (aproximadamente) constantes de la absorbancia (Y ), como debe ser
si hay una relacion lineal entre ambas variables. En cambio, en la Tabla 10.2, cada vez que el
tiempo (X) aumenta una hora, la concentracion (Y ) se reduce (aproximadamente) a la mitad.
Para referirse a una relacion como la que pone de maniesto la Tabla 10.2, se dice a veces
que, cuando X aumenta en progresion aritmetica, Y disminuye en progresion geometrica. La
expresion decrecimiento exponencial tambien se usa en este sentido.
Fuente: S. Bolton (1990), Pharmaceutical Statistics, Marcel Dekker.
10.2. Regresion lineal m ultiple
En esta seccion vamos a extender el modelo lineal al caso en que se desea aproximar una variable
respuesta Y por una combinacion lineal de p variables explicativas X
1
, X
2
, . . . , X
p
, mediante
una formula del tipo
y = b
0
+b
1
x
1
+ +b
p
x
p
.
Nos ocuparemos primero del ajuste por mnimos cuadrados, y despues de las pruebas de hipotesis.
En principio, las variables explicativas no tienen por que ser independientes entre s, de modo
que, a veces, unas resultan de las otras mediante operaciones matematicas. Por ejemplo, una
variable puede ser el cuadrado de otra, o el producto de otras dos. Hay que precisar que, en este
contexto, lineal quiere decir lineal en los parametros. As, por ejemplo, el modelo cuadratico
y = b
0
+b
1
x +b
2
x
2
se considera lineal porque los parametros b
0
, b
1
y b
2
intervienen linealmente en la ecuacion,
aunque y no sea una funcion lineal de x.
Como en la regresion simple, se trata de obtener los valores de los parametros para los que la
suma de cuadrados residual es mnima. Los residuos son, ahora,
e
i
= y
i
y
i
= y
i
b
1
x
1i
b
p
x
pi
.
La solucion se puede expresar de forma abreviada en una formula matricial, que no damos aqu,
puesto que no la vamos a usar. La regresion m ultiple se hace siempre en un ordenador. La
mayora de los programas (por ejemplo, Excel) no distinguen entre regresion simple y m ultiple,
dando la opcion de usar un modelo sin termino constante.
Se puede hacer una prueba de hipotesis para cualquiera de los coecientes. En estas pruebas se
presupone la validez del modelo lineal m ultiple, que se puede resumir en la ecuacion
Y =
0
+
1
X
1
+ +
p
X
p
+,
Facultad de Farmacia/Curso de Estadstica/81 20060115
en el que los parametros
0
,
1
, . . . ,
p
son constantes y el error tiene distribucion N(0,
2
). La
distribucion de Y , jados X
1
= x
1
, . . . , X
p
= x
p
, es normal, con media
0
+
1
x
1
+ +
p
x
p
y
desviacion tpica , independiente de los x
i
. Las X
i
pueden tener valores prejados o aleatorios.
Los valores estimados de los parametros
j
se obtienen aplicando el metodo de los mnimos
cuadrados. Como valor estimado de
2
se usa la varianza residual,
s
2
=

e
2
i
n p 1
.
Las formulas para los errores tpicos de los parametros son mas complicadas que las de la
regresion simple, lo que no constituye un problema, ya que todos los programas que cubren la
regresion lineal m ultiple dan los errores tpicos junto con los coecientes. Las pruebas t sobre
los coecientes se hacen como en el modelo lineal simple, pero ahora el n umero de grados de
libertad es n p 1, que es el n umero de grados de libertad de la varianza residual.
En el ANOVA asociado a la regresion m ultiple, el termino asociado al modelo es
SS
R
=
n

i=1
_
b
2
1
_
x
1i
x
1
_
2
+ +b
2
p
_
x
pi
x
p
_
2
_
,
con df
R
= p. La tabla ANOVA incluye una prueba F sobre H
0
:
1
= =
p
= 0, usando
F =
MS
R
MS
E
=
SS
R
/p
SS
E
/(n p 1)
,
que, si H
0
es valida, tiene distribucion F(p, n p 1).
Para evaluar el ajuste del modelo a los datos se puede usar el coeciente de determinacion,
r
2
=
SS
R
SS
T
,
que a veces se presenta como el porcentaje de variacion explicada por el modelo. Su raz
cuadrada, que se interpreta como una correlacion entre Y y el conjunto de las variables
explicativas, se llama correlacion m ultiple. La correlacion m ultiple no tiene signo.
El valor F se puede expresar en funcion de r
2
,
F =
n p 1
p
r
2
1 r
2
,
de modo que se puede considerar la prueba F como una prueba sobre la correlacion m ultiple.
NOTE. La mayora de los programas que cubren la regresion lineal no distinguen entre regresion
simple y m ultiple. El usuario especica la parte del chero de datos donde estan los valores de
las X y la Y . Si las variables se entran como columnas en el chero, que es lo usual, el programa
admitir a una columna para Y pero varias para X. En la mayora de los casos, para introducir un
termino cuadratico hay que a nadir al chero una columna donde esten los valores del cuadrado
de una variable o del producto de otras dos, que estaban en el chero.
Ejemplo 9.1 (continuacion). Ajustamos un modelo cuadratico y = b
0
+ b
1
x + b
2
x
2
a los datos
de la Tabla 9.1, obteniendo los resultados de la Tabla 10.3, donde, para cada parametro, se dan
el valor estimado, el error tpico, el valor t y el nivel de signicacion.
TABLA 10.3. Parametros del modelo cuadratico (Ejemplo 9.1)
Valor Error Nivel de
Parametro estimado tpico Valor t signicacion
Constante 0.00221 .00042 5.007 .0002
Concentracion 0.07470 .00021 359.130 .0153
Concent. cuadrado 0.00046 .00020 22.800 .0153
Facultad de Farmacia/Curso de Estadstica/82 20060115
En la Tabla 10.4 se presentan los valores de la absorbancia (y
i
) y la concentracion (x
i
), junto
con los valores predichos ( y
i
) y los residuos (e
i
). Estos residuos se pueden comparar con los de
las Tablas 9.2 y 9.3.
TABLA 10.4. Valores predichos y residuos (Ejemplo 9.1)
x
i
y
i
y
i
= b
0
+b
1
x
i
+b
2
x
2
i
e
i
= y
i
y
i
0 0.002 0.0022 0.0002
2 0.150 0.1498 0.0002
4 0.294 0.2937 0.0003
6 0.434 0.4340 0.0000
8 0.570 0.5706 0.0006
10 0.704 0.7036 0.0004
El coeciente de determinacion para el modelo cuadratico es r
2
= 1.000. Recuerda que R
2
siempre aumenta al a nadir terminos a un modelo lineal. En este caso, el aumento es irrelevante,
aunque el valor F = 723503.1 asociado sea altamente signicativo (P < 0.001). Omito la tabla
ANOVA para aligerar la presentacion.
Ejemplo 10.2. Los resultados de la Tabla 10.5 provienen de un estudio realizado en la division de
bollera de una corporacion. Una variable crtica es la altura maxima obtenida en un contenedor
de pasta mezclada, antes del horneado. Se cree que los siguientes factores inuyen en la altura
maxima: el porcentaje de materia grasa, el porcentaje de agua, la cantidad de harina en la
infusion y la velocidad del mezclador (rpm). Se desea hallar un modelo lineal o cuadratico, con
el menor n umero de parametros posible, para predecir la altura maxima en funcion de estos
factores.
TABLA 10.5. Estudio para la prediccion de la altura maxima (Ejemplo 10.2)
% grasa Harina RPM % agua Altura max. % grasa Harina RPM % agua Altura max.
8 10 90 46 833 12 20 130 50 530
8 30 90 46 577 12 20 130 50 590
8 10 170 46 540 12 30 130 50 595
8 30 170 46 547 12 20 170 50 553
8 20 130 50 537 12 20 170 50 553
8 10 90 54 673 16 10 90 46 802
8 30 90 54 660 16 30 90 46 568
8 10 170 54 493 16 10 170 46 477
8 30 170 54 512 16 30 170 46 401
12 20 130 46 653 16 20 130 50 575
12 20 90 50 650 16 10 90 54 710
12 10 130 50 547 16 30 90 54 572
12 20 130 50 492 16 10 170 54 520
12 20 130 50 523 16 30 170 54 483
La Tabla 10.6 da los valores estimados de los parametros de un modelo de regresion lineal con
4 variables explicativas, correspondiente a estos datos. Para cada parametro se da el valor
estimado, el error tpico, el valor t y el nivel de signicacion. Solo los parametros de dos
de las variables explicativas son signicativos. El coeciente de determinacion es r
2
= 0.664
(F = 10.42, P < 0.001).
Estos resultados sugieren que se podra simplicar el modelo sin perder poder predictivo, eli-
minando el termino menos signicativo (el porcentaje de agua). Bastara ejecutar el algoritmo
de la regresion lineal sobre una tabla de datos reducida, despues de eliminar la columna que no
interesa. Si el nivel de signicacion del termino asociado al porcentaje de grasa vuelve a dar
un nivel de signicacion alto, y el coeciente de determinacion no ha bajado mucho (siempre
Facultad de Farmacia/Curso de Estadstica/83 20060115
bajara), se puede probar a eliminar tambien ese termino. Despues se podran a nadir terminos
cuadraticos asociados a las dos variables explicativas restantes, para ver que sucede. Dejo estas
pruebas como ejercicio nal para el lector.
TABLA 10.6. Parametros del modelo de regresion lineal m ultiple (Ejemplo 10.2)
Valor Error Nivel de
Parametro estimado tpico Valor t signicacion
Constante 1107.321 198.922 5.567 0.0000
% Grasa 3.667 3.621 1.013 0.3218
Harina 3.778 1.449 2.608 0.0157
RPM 2.034 0.353 5.765 0.0000
% Agua 2.870 3.730 0.769 0.4495
Facultad de Farmacia/Curso de Estadstica/84 20060115
Bibliografa
Bibliografa basica
[1] S. Bolton (1990), Pharmaceutical Statistics, Marcel Dekker.
[2] M.J. Campbell & D. Machin (1995), Medical Statistics, Wiley.
[3] J.E. De Muth (1999), Basic Statistics and Pharmaceutical Statistical Applications,
Dekker.
[4] C.T. Le & J.R. Boen (1994), Health and Numbers, Wiley.
Otras referencias
[1] S.C. Chow & J.P. Liu (1992), Statistical Design and Analysis in Pharmaceutical Science,
Marcel Dekker.
[2] S.C. Chow & J.P. Liu (1999), Design and Analysis of Clinical Trials, Wiley.
[3] E. Griful & M.A. Canela (2004), Gestion de la calidad, Edicions UPC.
[4] M. Hollander & D.A. Wolfe (1999), Nonparametric Statistics, Wiley.
[5] P. Lea, T. Ns & M. Rdbotten (1998), Analysis of Variance for Sensory Data, Wiley.
[6] J.C. Miller & J.N. Miller (1993), Statistics in Analytical Chemistry, Ellis Horwood.
[7] W.W. Piegorsch & A.J. Bailer (1997), Statistics for Environmental Biology and Toxicol-
ogy, Chapman & Hall
[8] S. Senn (1997), Statistical Issues in Drug Development, Wiley.
[9] W. Willet (1990), Nutritional Epidemiology, Oxford University Press.
[10] W.M. Wooding (1994), Planning Pharmaceutical Clinical Trials, Wiley.
Facultad de Farmacia/Curso de Estadstica/85 20060115

También podría gustarte