P. 1
Inferencia estadística

Inferencia estadística

2.0

|Views: 3.868|Likes:
Publicado porJulio
Capítulo 3 de la Guía del Curso de Bioestadística
Capítulo 3 de la Guía del Curso de Bioestadística

More info:

Published by: Julio on Jul 06, 2009
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

03/08/2013

pdf

text

original

Guía de Bioestadística

Dr. Julio Idrovo

3. INFERENCIA ESTADÍSTICA
3.1 Introducción
La inferencia estadística es la parte de la estadística que permite tomar decisiones sobre una determinada cuestión con un grado de confianza establecido a priori. Por ejemplo, se puede averiguar si dos muestras están o no correlacionadas linealmente, si sus medias son iguales, si su variabilidad es diferente, cuáles son sus distribuciones, etc.

3.2

Teoría de los tests estadísticos

La formulación de la teoría de los tests estadísticos comprende los siguientes pasos:

3.2.1 Planteamiento de la hipótesis nula
La hipótesis nula (H0) generalmente es formulada con la intención de rechazarla. Postula la carencia de diferencia entre los parámetros motivo del problema. Simultáneamente se plantea la hipótesis alternativa (HA) o hipótesis de trabajo, la misma que es complementaria a la hipótesis nula. El rechazo de H0 conduce a la aceptación de HA y viceversa. Se puede saber si un test se realizará a "una cola" o a "dos colas" mirando a cuantos lados va la hipótesis alternativa. H0: s2 = 3.25 H0: s
2

HA : s2
2

3.25

dos colas cola derecha cola izquierda

3.25 3.25

HA : s > 3.25 HA : s2 < 3.25

H0: s2

3.2.2 Nivel de significancia ( )
El nivel de significancia se considera como la probabilidad de rechazar la hipótesis nula cuando es verdadera; es por lo tanto un error denominado de tipo I. Su valor se da a priori, en porcentaje, generalmente 5%. También es probable que se tenga que aceptar la hipótesis nula cuando es falsa; este es un error de tipo II y se lo simboliza ß. El complemento de es el nivel de confianza, o sea la probabilidad de aceptar H0 cuando es verdadera; esta es una decisión correcta de tipo A. La potencia de un test se entiende como la probabilidad de rechazar H0 cuando es falsa; esta es una decisión correcta de tipo B.

Decisión Aceptar Rechazar

Verdadera A

Falsa B

3.2.3 Elección del test estadístico
El test estadístico se seleccionará de acuerdo con la hipótesis planteada. Cuando para un mismo problema existen dos o más tests disponibles, se elegirá aquel más potente. Generalmente los tests paramétricos son los más potentes. Se denominan tests paramétricos a aquellos que necesitan del cálculo de parámetros propios de la distribución, como la media, varianza, etc. Los tests no paramétricos son aquellos que consideran únicamente el tamaño de la muestra.

3.2.4 Cálculo del valor del test
Con el test seleccionado se procederá a calcular el valor del estadístico, utilizando la fórmula propia de cada test.

3.2.5 Determinación de los puntos críticos
Conociendo el tamaño de la muestra (o los grados de libertad) y el nivel de significancia, se procederá a buscar los valores críticos del test, los mismos que se encuentran tabulados. Cuando el test se realiza a dos colas, los puntos críticos se encuentran utilizando /2 en lugar de . El valor crítico izquierdo

Guía de Bioestadística

Dr. Julio Idrovo

representa la probabilidad de que 1- /2 de los datos sean mayores que él. El valor crítico derecho representa la probabilidad de que /2 de los datos sean mayores que él. Estos determinan las zonas de rechazo y aceptación de H0. La zona o zonas de rechazo comprenderán un área total igual a , mientras que la zona de aceptación corresponderá a 1- .

3.2.6 Decisión
Si el valor del test cae dentro de la zona de rechazo de H 0 se procederá a rechazar la hipótesis nula, aceptando la hipótesis alternativa.

3.3

Normalidad de los datos

La mayoría de las pruebas estadísticas parten del hecho de que los datos analizados están aproximadamente normalmente distribuidos. En algunos casos puede ser necesario verificar si esto es cierto, para lo cual nos sirven los tests a continuación detallados.

3.3.1 Test de Kolmogorov – Smirnov
Este test es de gran utilidad cuando se trata de analizar la distribución de la variable en estudio. La distribución de la variable puede escribirse como una distribución acumulativa de frecuencias relativas. Se procede de la siguiente manera: se compara el valor observado en la distribución acumulativa de frecuencias con el valor de de la distribución teórica: , donde F0(x) es el valor de la distribución teórica, F(x) es el valor observado y D(x) es el valor absoluto de la diferencia. La máxima diferencia se denota como D = max D(x) La hipótesis nula H0 asume que no hay diferencia entre la distribución acumulativa de frecuencias y la distribución teórica. Los valores críticos D* se localizan conociendo el tamaño de la muestra y . Si la distribución acumulativa de frecuencias hipotética es correcta, es razonable que el valor D sea pequeño. La hipótesis H0 se acepta si el valor D observado es menor que el valor critico D* del test: D < D* El test de Kolmogorov - Smirnov se puede aplicar para establecer comparaciones entre dos muestras. Se procede haciendo las distribuciones acumulativas de frecuencias para cada muestra y se encuentra la diferencia entre las frecuencias de las dos muestras para un mismo intervalo. La máxima diferencia es probada en el test estadístico para verificar o no la carencia de diferencia entre las dos medidas. Los valores críticos se localizan conociendo el tamaño de las dos muestras y , en la tabla del test de Kolmogorov - Smirnov para dos muestras. La hipótesis H0 se verifica si D < D*. La prueba de Kolmogorov - Smirnov puede aplicarse para tamaños de muestra pequeños, lo que no sucede con la chi cuadrado. Además, es más poderosa que la , es decir, cuando se rechaza la hipótesis nula, se tiene una mayor confiabilidad en dicho resultado. El test de Kolmogorov - Smirnov debe usarse cuando la variable de análisis es continua. Sin embargo, si la prueba se usa cuando la distribución de la población no es continua, el error que ocurre en la probabilidad resultante está en la dirección segura. Es decir, cuando se rechaza la hipótesis nula, tenemos verdadera confianza en la decisión. Ejemplo 1: Se realizaron ocho titulaciones, con los resultados 25.13, 25.02, 25.11, 25.07, 25.03, 24.97, 25.14 y 25.09 mL. ¿Dichos resultados podrían proceder (a) de una población normal con media 25.00 mL y desviación estándar 0.05 mL, y (b) de cualquier otra población normal? (a) En este caso transformamos los valores x en valores z utilizando la relación

Guía de Bioestadística

Dr. Julio Idrovo

Los valores obtenidos son: xi zi xi 24.97 25.02 25.03 25.07 25.09 25.11 25.13 25.14 25.13 2.6 zi -0.6 0.4 0.6 1.4 1.8 2.2 2.6 2.8 25.02 0.4 fra 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 25.11 2.2 P(z) 0.2743 0.6554 0.7257 0.9192 0.9641 0.9861 0.9953 0.9974 25.07 1.4 D(x) 0.1493 0.4054 0.3507 0.4192 0.3391 0.2361 0.1203 0.0026 , y puesto que D=0.4192 la hipótesis de normalidad se rechaza. 25.03 0.6 24.97 -0.6 25.14 2.8 25.09 1.8

El valor crítico es

(b) En este caso estimamos la media y la desviación estándar de los datos antes de transformarlos en valores z. La media es 25.07 y la desviación estándar es 0.0593. Con estas estimaciones se obtienen los siguientes valores: xi zi 25.13 1.01 25.02 -0.84 25.11 0.67 25.07 0.00 25.03 -0.67 24.97 -1.69 25.14 1.18 25.09 0.34

xi 24.97 25.02 25.03 25.07 25.09 25.11 25.13 25.14

zi -1.69 -0.84 -0.67 0.00 0.34 0.67 1.01 1.18

fra 0.1250 0.2500 0.3750 0.5000 0.6250 0.7500 0.8750 1.0000

P(z) 0.0458 0.1995 0.2499 0.5000 0.6321 0.7501 0.8443 0.8812

D(x) 0.0792 0.0505 0.1251 0.0000 0.0071 0.0001 0.0307 0.1188

El valor crítico es

, y puesto que D=0.1251 la hipótesis de normalidad se acepta.

3.3.2 Test Chi cuadrado
Este test se puede interpretar como el test de la “bondad del ajuste”, el cual establece si existe una diferencia significativa entre un número de objetos o respuestas y un número teórico. El valor del test estadístico se calcula con la expresión

donde O es el valor observado y E es el valor esperado o teórico. Es de esperarse que un valor pequeño de indique concordancia entre las dos series de frecuencias. La hipótesis H0 asume que no existe diferencia entre las dos distribuciones y se acepta cuando es menor que el valor critico localizado en las tablas por conocimiento de los grados de libertad (n—1) y

Guía de Bioestadística

Dr. Julio Idrovo

3.4

Valores anómalos

Dada una muestra aleatoria simple de tamaño n procedente de una población univariante, (x1, x2, ..., xn), podemos sospechar que una de sus observaciones, que forzosamente será la menor o la mayor de la muestra, es un dato atípico, es decir, el valor registrado para ese individuo es anormalmente pequeño o grande. Ante esta situación, el analista debe investigar la procedencia de ese dato, y como consecuencia de ello, eliminarlo de la muestra si se confirma que ha sido un error (quizás de medida o de transcripción manual del dato) o modificar sus hipótesis sobre la población en caso de verificarse su exactitud (¿quién nos asegura que un dato anómalo no es señal de la presencia de una veta de mineral en un análisis geológico de cierto terreno?). En todo caso, no se eliminará un dato sospechosamente atípico hasta no tener la certeza absoluta de que su origen se debe a un error humano o de instrumentación. La presencia de un valor anómalo puede alterar sensiblemente las conclusiones de un análisis estadístico. Aquellos métodos poco sensibles a estos datos extraños se denominan robustos, y la estadística robusta es un área de intensa investigación.

3.4.1 Test Q de Dixon
Esta prueba supone que la población está normalmente distribuida. Una forma de estudiar una medida sospechosa es comparar la diferencia entre ella y la medida más próxima, con la diferencia entre las medidas más grande y más pequeña (rango). El cociente de estas diferencias (sin signo) se denomina Q de Dixon.

Si el valor de Q calculado supera el valor crítico Q*, se rechaza el valor sospechoso. Ejemplo 2: Se obtuvieron los siguientes valores para la concentración de nitrito (mg/L) en una muestra de agua de río. 0.403 0.410 0.401 0.380 0.400 0.413 0.411

La medida 0.380 mg/L es sospechosa. ¿Debería rechazarse al nivel de significancia del 5%? Datos: Valor sospechoso = Valor más cercano = Valor más grande = Valor más pequeño = 0.380 0.400 0.413 0.380

El valor crítico al 5% es Puesto que Q>Q*, se rechaza el valor sospechoso al nivel de significancia del 5%, es decir, el dato es anómalo.

3.4.2 Test de Grubbs
Como ayuda a la decisión sobre si un dato es o no atípico, se dispone de la prueba de Grubbs, la cual exige que la muestra proceda de una población normal. Debería probarse, primeramente, que los datos puedan ser razonablemente aproximados por una distribución normal antes de aplicar el test de Grubbs. El contraste se plantea en los siguientes términos: H0: "no hay datos atípicos en la muestra" frente a la alternativa: HA: "hay al menos un dato atípico". Cuando se trata de una prueba a dos colas, se hará uso del estadístico:

Guía de Bioestadística

Dr. Julio Idrovo

siendo la media y s la desviación típica muestrales. El test de Grubbs puede también ser definido como una de las siguientes pruebas a una cola. 1. Probar que el mínimo valor es un anómalo.

2.

Probar que el máximo valor es un anómalo.

La región crítica de este contraste se puede obtener aproximadamente tomando como referencia la distribución tn-2 de Student con (n - 2) grados de libertad y nivel de significancia *= /(2n) si es a dos colas, o *= /n si la prueba se realiza a una cola. Se aceptará la hipótesis alternativa HA de existencia de dato atípico si G excede de cierto valor crítico G*:

Ejemplo 3: En un estudio sobre la posible influencia del tamaño del cerebro humano en la inteligencia, se ha estimado la dimensión del órgano como el número de píxeles que ocupa en sendas imágenes obtenidas por Resonancia Magnética. Los sujetos bajo estudio han sido 20 estudiantes masculinos de psicología de cierta Universidad norteamericana. Al representar los datos en un histograma, se ha observado que el primero aparece algo apartado de los demás, por lo que se sospecha que pueda ser atípico. Se supone que la población tiene distribución normal. 1201121 1079549 905940 997925 1038437 924059 955003 879987 965353 945088 935494 949395 904858 889083 1062462 930016 955466 892420 949589 935863

Se aplica el test de Grubbs para contrastar la hipótesis nula de que no hay un registro anómalo. La media de los datos es 964855.40 y la desviación estándar es 78103.09, y con estos valores se obtienen los siguientes valores absolutos de zi. 3.03 1.47 0.75 0.42 0.94 0.52 0.13 1.09 0.01 0.25 0.38 0.20 0.77 0.97 1.25 0.45 0.12 0.93 0.20 0.37

Dado que 3.03>2.7, se rechaza la hipótesis nula. Según la prueba de Grubbs, todo parece indicar que el dato 1201121 es atípico. Un fallo en la transcripción de la información muestral provocó la aparición de esta cantidad en lugar de la correcta, que era 1001121. Corríjase este primer valor de la muestra y ejecútese nuevamente el programa; el problema queda ahora resuelto.

3.5

Análisis de la precisión

La precisión depende de la variabilidad de los datos, la cual determinaremos utilizando la varianza. Analizaremos dos casos: Comparar la varianza de una población con un valor preestablecido.

Guía de Bioestadística

Dr. Julio Idrovo

Comparar las varianzas de dos poblaciones.

3.5.1 Test Chi-cuadrado
Chi-cuadrado es una distribución asimétrica y no negativa. Este test permite verificar si la varianza de una población es estadísticamente igual a un valor preestablecido. Utiliza la varianza de la muestra considerada, por lo tanto es paramétrico. La hipótesis nula postula que no hay diferencia entre la varianza poblacional
2

y el valor v.

El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación. Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad (n-1) y el nivel de significancia . Se toma la decisión de aceptar H0 cuando se cumple la doble condición indicada (en un test a dos colas).

Ejemplo 4: Un proceso se encuentra fuera de control cuando su varianza excede el valor 5.6 . Se toma una muestra de tamaño 25 con una varianza igual a 5.78 . Hay evidencia suficiente para decir que el proceso está fuera de control al nivel de significancia del 5% ?. 1) H0:
2

5.6

HA:

2

> 5.6

(1 cola)

2) = 0.05 3) Test paramétrico chi-cuadrado. 4) Se calcula el valor del test:
2

(n

1) 5.78 5.6

s2
2

2

(25 1)

24.771

5) El valor crítico tabulado es:

2* ( 24 , 0.05)

36.415

La zona de rechazo está a la derecha del valor crítico. 6) Puesto que el valor del test cae en la zona de aceptación, se procede a aceptar la hipótesis nula. Por tanto, se concluye que la evidencia presentada no es suficiente para manifestar que el proceso está fuera de control.

3.5.2 Test F
La distribución F es asimétrica y no negativa. Se utiliza para comparar las varianzas de dos poblaciones, bajo el conocimiento de las varianzas de dos muestras; entonces es paramétrico. La hipótesis plantea la igualdad entre las varianzas.

El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación. Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad tanto del numerador como del denominador (n 1-1 y n2-1) y el nivel de significancia ( ). Se toma la decisión de aceptar H0 cuando se cumple la doble condición indicada (en un test a dos colas).

Guía de Bioestadística

Dr. Julio Idrovo

Debido a la asimetría de la distribución F, el valor crítico de la izquierda Ejemplo 5: Dos muestras aleatorias de los resultados de una prueba dan las siguientes estadísticas: Clase A: n = 16 s2 = 92.3 Clase B: n = 25 s2 = 34.7 Estos datos proveen suficiente evidencia para rechazar la hipótesis de que las dos clases tienen varianzas iguales para los resultados de la prueba involucrados?. Usar = 0.05 . 1) H0:
2 A

=

2 B

HA:

2 A

2 B

(dos colas)

2) = 0.05 3) Test paramétrico F. 4) Se calcula el valor del test: F = s2A / s2B = 92.3 / 34.7 = 2.66 5) Los valores críticos son: F*(15,24,0.025) = 2.44 1/ F*(15,24,0.025) = 1/2.44 = 0.41 6) Las zonas de rechazo están a la izquierda de 0.41 y a la derecha de 2.44 El valor del test (2.66) cae en la zona de rechazo derecha por lo tanto se rechaza la hipótesis nula y se concluye que los resultados de la prueba, para las dos clases, tienen varianzas diferentes.

3.6

Análisis de las medias

Dentro del análisis de medias se pueden tener los siguientes casos: Comparar la media de una población con un valor preestablecido. Comparar las medias de dos poblaciones independientes. Comparar las medias de dos poblaciones dependientes.

3.6.1 Test t para una población
La distribución t (conocida también como t de Student) es simétrica alrededor de la media. Tiene algunas variantes, pero ahora nos ocuparemos de aquella que permite comparar la media de una población con un valor dado. Requiere el conocimiento de la media y desviación estándar muestrales, por tanto es paramétrica.

El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación. Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad (n-1) y el nivel de significancia . Se toma la decisión de aceptar H0 cuando se cumple la doble condición indicada (en un test a dos colas).

Por la simetría de la distribución t, se tiene que Ejemplo 6: La muestra utilizada anteriormente arrojó una media igual a 8.75 . Hay evidencia suficiente para aceptar el postulado de que la media es igual a 8.32 al nivel del 5% ?. 1) H0: = 8.32 HA: 8.32 (dos colas)

2) = 0.05 3) Test paramétrico t para una población. 4) El valor del test se calcula:

Guía de Bioestadística

Dr. Julio Idrovo

5) Los valores críticos tabulados son: ± t*(24,0.025) = ± 2.064 Las zonas de rechazo están a la derecha de t* y a la izquierda de -t*. 6) Puesto que el valor del test está en la zona de aceptación, se acepta H 0. Esto significa que no hay evidencia suficiente para decir que la media no es igual a 8.32

3.6.2 Test t para dos poblaciones (muestras independientes)
Dos muestras son independientes cuando la fuente de la cual provienen es diferente. Se necesita conocer las medias y las varianzas de las dos muestras. La hipótesis nula postula que las medias de las dos poblaciones son iguales.

Para el análisis de las medias se debe considerar previamente si las varianzas son o no iguales (realizar un test F) puesto que el test t es diferente. VARIANZAS IGUALES Cuando las varianzas son iguales es necesario calcular la desviación estándar pesada S P.

El número de grados de libertad es la suma de los grados de libertad de las dos muestras: El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación. Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad (n1 + n2 - 2) y el nivel de significancia ( ). Se toma la decisión de aceptar H0 cuando se satisface la misma condición que en el caso anterior. Ejemplo 7: Dos poblaciones normalmente distribuidas se muestrean para comparar sus medias. ¿Los datos siguientes, soportan la hipótesis de que las dos medias poblacionales son significativamente diferentes?. Usar =0.05

n1 12 n 2 15
1) H0:
1

x 1 75. 6 x2
2

s12 = 7.2 s22 = 8.1

78. 7
(dos colas)

=

2

HA:

1

2) = 0.05 3) Test paramétrico t para dos poblaciones con varianzas iguales (se puede probar con un test F). Muestras independientes. 4) Calculamos el valor del test. Es necesario que se encuentre el valor de la desviación estándar ponderada sp.

5) Los valores críticos del test son ± t*(25,0.025) = ± 2.060 6) Las zonas de rechazo se encuentran a la izquierda de -2.060 y a la derecha de 2.060 El valor del test (2.884) cae en la zona de rechazo izquierda por tanto se rechaza la hipótesis nula aceptándose, por consiguiente, la hipótesis alternativa. Se concluye que las medias son significativamente diferentes.

Guía de Bioestadística

Dr. Julio Idrovo

Cuando no se sabe nada respecto a las varianzas poblacionales, se debe realizar previamente un test F para determinar si éstas son iguales o no, y de esta manera escoger el test t apropiado. VARIANZAS DESIGUALES Cuando las varianzas son diferentes, el número de grados de libertad considerado será calculado utilizando la expresión:

El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación.

Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad y el nivel de significancia ( ). Se toma la decisión de aceptar H0 cuando se satisface la misma condición que en el caso anterior. Ejemplo 8: Dos máquinas dispensadoras de bebidas se muestrean para probar si las dos dispensan la misma cantidad de bebida. Usar =0.05. Máq. C P 1) H0:
1

Cantidad dispensada 6.5 7.6 HA: 6.8 6.0
1

3.0 6.1
2

6.0 6.0

5.8 7.4

6.1 7.3

3.3 6.0

3.4 6.2

5.9 6.3

6.2 6.1

=

2

=

(dos colas)

2) = 0.05 3) Puesto que las varianzas son 2.13 y 0.43 respectivamente, se puede probar con un test F que son significativamente diferentes. Se usa por tanto el test paramétrico t para dos poblaciones con varianzas no iguales. 4) Calculamos el valor del test.

5) Los valores críticos tabulados son ± t*(9,0.025) = ± 2.262 La zona de aceptación está comprendida entre -2.262 y 2.262 6) El valor del test cae fuera de la zona de aceptación, por tanto se concluye que las dos máquinas dispensan diferentes cantidades de bebida.

3.6.3 Test t para dos poblaciones (muestras dependientes)
Dos muestras son dependientes cuando provienen de la misma fuente. En este caso es indispensable que las muestras tengan el mismo tamaño (datos apareados). La hipótesis nula postula que la media de las diferencias es igual a cero.

Es necesario determinar la media y la desviación estándar de las diferencias grados de libertad es n-1, donde n es el tamaño de cualquiera de las dos muestras.

. El número de

El nivel de significancia se fija a priori. El valor del test estadístico se calcula mediante la fórmula que se presenta a continuación.

Guía de Bioestadística

Dr. Julio Idrovo

Los valores críticos se encuentran tabulados y se los localiza conociendo el número de grados de libertad (n-1) y el nivel de significancia . Se toma la decisión de aceptar H0 cuando se satisface la misma condición que en el caso anterior. Ejemplo 9: Un sociólogo está estudiando los efectos de cierta película sobre las actitudes de los hombres negros con respecto a los hombres blancos. Al azar se seleccionaron doce hombres negros y se les pidió que llenen un cuestionario antes y después de ver la película. Los resultados se muestran a continuación.(3) Antes Después 1) H0:
d

10 5 HA:

13 9
d

18 13

12 17

9 4

8 5

14 11

12 14

17 13

20 18

7 7

11 12

=0

0

(dos colas)

2) = 0.05 3) Test paramétrico t para dos poblaciones. Muestras dependientes. 4) Para calcular el test es necesario conocer la media y la desviación estándar de las diferencias. Antes Después di 10 5 5 13 9 4 18 13 5 12 17 -5 9 4 5 8 5 3 14 11 3 12 14 -2 17 13 4 20 18 2 7 7 0 11 12 -1

5) Los valores críticos del test son ± t*(11,0.025) = ± 2.201 6) La zona de aceptación va desde -2.201 hasta 2.201; el valor del test cae en la zona de aceptación de la hipótesis. La película realmente no tiene efecto sobre las actitudes de los hombres negros.

3.7

Análisis de varianza

En el trabajo analítico se presentan a menudo comparaciones en las que intervienen más de dos medias. Entonces, existen dos posibles fuentes de variación: la primera, que siempre está presente, debida al error aleatorio en la medida; y la segunda, debida al factor controlado. El análisis de varianza es una técnica estadística muy poderosa que se utiliza para separar y estimar las diferentes causas de variación. Generalmente se tienen los datos en forma tabulada y se procede a calcular las medias y varianzas para cada muestra: repeticiones 1 1 muestra 2 x11 x21 2 x12 x22 ……… cuenta r1 r2 media varianza

k

xk1

xk2

rk

El número de ensayos (repeticiones) para cada muestra no tiene porque ser el mismo, de modo que ri representará el número de repeticiones realizadas con la i-ésima muestra. Entonces, el número total de ensayos n estará dado por la suma de las repeticiones de cada muestra y la media global La hipótesis nula adoptada es que todas las k muestras se extraen de una población con media y varianza 2. Con base en esta hipótesis se puede estimar la varianza (cuadrado medio) de dos formas: una

Guía de Bioestadística

Dr. Julio Idrovo

estudia la variación dentro de cada muestra, y la otra la variación entre las distintas muestras. Variación dentro de la muestra: La estimación de la varianza dentro de la muestra se realiza a través de su cuadrado medio (CM) definido como el cociente entre la suma de cuadrados (SC) y los grados de libertad (gl). Los grados de libertad para cada muestra están dados por el número de repeticiones realizadas en la muestra menos uno:

Variación entre muestras: La estimación de la varianza entre las muestras se realiza a través de su cuadrado medio.

Se procede a elaborar la tabla ANOVA de la siguiente manera: Fuente de variación Entre muestras SC gl CM

Dentro muestra Total

de

la

Para la variación total se acumulan los parciales tanto para la suma de cuadrados como para los grados de libertad.

El valor del test está dado por cola .

, el cual se compara con el valor crítico a una

Si, por ejemplo, se desea estudiar el efecto de tres diferentes catalizadores sobre el rendimiento de un producto industrial, ó examinar cinco diferentes técnicas analíticas para la determinación de la concentración de una especie, es indispensable aplicar el análisis de varianza. Ejemplo 10: Considere que 3 diferentes catalizadores han sido utilizados en un estudio respecto al rendimiento de un producto industrial. La tabla presenta los datos de este experimento y los resultados de algunos cálculos. repeticiones A 85 86 83 82 87 90 80 81 B 87 86 85 93 89 88 86 89 C 89 85 90 86 83 88 87 91 = 8 8 8 24 84.25 87.88 87.38 259.50 86.50 11.36 6.41 7.13 79.50 44.88 49.88 174.25 5.06 1.89 0.77 40.50 15.13 6.13 61.75

Guía de Bioestadística

Dr. Julio Idrovo

Se asume que las observaciones son independientes y que cada serie proviene de una población normalmente distribuida con varianza 2. Sin embargo, cada serie tiene media diferente. Entonces, en este caso se utilizará ANOVA para establecer si la diferencia observada entre las medias surge debido a la casualidad exclusivamente, o existe evidencia de que existe diferencia significativa entre las medias. Se definen las siguientes cantidades: n = número de datos = 24 k = número total de tipos de factor (catalizadores) bajo análisis = 3 SC(dentro) = 174.25 SC(entre) = 61.75 gl(dentro) = n-k = 24-3 = 21 gl(entre) = k-1 = 3-1 = 2 CM(dentro) = 174.25/21 = 8.30 CM(entre) = 61.75/2 = 30.88 Un valor significativo para F indica una variación significativa debida a los distintos tipos de factor, esto es, las medias de los tres catalizadores no son las mismas. Los resultados del ANOVA a un factor para los datos se resumen: Fuente de Variación Entre series (debido al catalizador) Residual (errores casuales) Total SC 61.75 174.25 236.00 gl 2 21 23 CM 30.88 8.30

El test F da el siguiente resultado: F. = 30.88 / 8.30 = 3.72 > F*(2, 21, 0.05) = 3.47 Como se deduce de la observación de la tabla, la variación entre series es claramente mayor que la variación casual. Por consiguiente el valor de F es significativo. Esto indica que los rendimientos promedio con los catalizadores A, B, y C son diferentes. Esto significa que uno ó dos de los catalizadores considerados dan resultados significativamente mejores que el ó los otros.

3.8

Análisis del coeficiente de correlación

Para determinar si existe o no correlación lineal entre dos variables, se procede a realizar la inferencia estadística sobre el coeficiente de correlación lineal. A continuación se analizarán dos métodos: uno paramétrico y otro no paramétrico. La hipótesis nula postula que el coeficiente de correlación lineal es igual a cero, lo cual equivale a decir que no existe correlación lineal entre las variables.

3.8.1 Test de Pearson
Compara directamente el valor del coeficiente de correlación muestral (r) con el valor crítico que se localiza conociendo el número de grados de libertad (n-2) y el nivel de significancia ( ). La hipótesis se acepta si se cumple la condición

3.8.2 Test de Spearman (Rank Correlation)
Se realiza un ranking para cada una de las variables. Como los datos son apareados, se calculan las diferencias de los ranks correspondientes (di). El valor del test se calcula con la fórmula indicada a continuación y se compara con el valor crítico que se localiza conociendo el tamaño de la muestra (n) y el nivel de significancia ( ).

Guía de Bioestadística

Dr. Julio Idrovo

La hipótesis se acepta si se cumple la condición Ejemplo 11: Las distancias recorridas y los tiempos empleados por 15 trabajadores para llega a sus trabajos se indican a continuación. Hay evidencia suficiente para decir que estos datos bivariados están linealmente correlacionados?. Usar =0.05. X(mil) Y(min) Método paramétrico : 1) H0: =0 HA: 0 (dos colas) 2) = 0.05 3) Inferencia paramétrica sobre el coeficiente de correlación lineal. 4) El test es el valor del coeficiente de correlación lineal calculado r=0.879. 5) Los valores críticos tabulados son ± r*(13,0.025) = ± 0.514 La zona de aceptación se encuentra entre -0.514 y 0.514 . 6) El test cae en la zona de rechazo derecha, por lo tanto la evidencia presentada es suficiente para rechazar la hipótesis nula. Esto significa que los datos si están linealmente correlacionados. Método no paramétrico : 1) H0: =0 HA: 0 (dos colas) 2) = 0.05 3) Test de correlación de rango de Spearman. 4) Para calcular el valor del test es necesario elaborar los rankings de cada una de las variables. Esto se muestra en la siguiente tabla. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20 Y 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45 Rx 1.0 2.0 3.0 4.0 5.0 6.0 7.5 7.5 9.0 10.5 10.5 12.0 13.0 14.0 15.0 Ry 1.0 5.0 5.0 2.0 7.5 3.0 5.0 11.5 9.0 7.5 11.5 10.0 14.0 13.0 15.0 di 0.0 -3.0 -2.0 2.0 -2.5 3.0 2.5 -4.0 0.0 3.0 -1.0 2.0 -1.0 1.0 0.0 = di2 0.00 9.00 4.00 4.00 6.25 9.00 6.25 16.00 0.00 9.00 1.00 4.00 1.00 1.00 0.00 70.50 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20

7 20 20 15 25 17 20 35 26 25 35 32 44 37 45

rs = 1 - 6*70.5/[15 (225-1)] = 0.874 5) Los valores críticos tabulados son ± rs*(15,0.025) = ± 0.521 La zona de aceptación va desde -0.521 hasta 0.521 6) El valor del test cae fuera de la zona de aceptación, por tanto se rechaza la hipótesis nula. Se concluye que las variables están linealmente correlacionadas.

3.9

Actividades

3.9.1 En clase
a) Cuál es la diferencia sustancial entre los tests paramétricos y los no paramétricos?

Guía de Bioestadística

Dr. Julio Idrovo

b) c) d) e)

Cuáles son las diferentes aplicaciones del test t?. Dé ejemplos de muestras independientes y dependientes. De los tests estudiados, cuáles son paramétricos y cuáles son no-paramétricos? Las galletas se empaquetan en cajas que se afirma tienen un promedio de 7.25 onzas y 32 galletas. Se contó el número de galletas en cada una de 18 cajas aleatoriamente seleccionadas. Los resultados se totalizaron mediante x = 535 y x2 = 16010. Al 0.02 de nivel de significancia, concuerda con que el número de galletas por paquete podría ser 32 ?.(3) f) Muestras aleatorias de los resultados de una prueba en dos clases dieron las siguientes estadísticas: Clase A : n = 16 s2 = 92.3 Clase B : n = 25 s2 = 34.7 Proveen estos datos suficiente razón para rechazar la hipótesis de que las dos clases tienen varianzas iguales ?. Use = 0.05 (3) g) Los siguientes datos fueron obtenidos en un experimento conducido por un jardinero, cuyo objeto era descubrir cuando un cambio aplicado en la mezcla de fertilizante para sus plantas de tomate resultaría en mejores frutos. Tenía 11 plantas en una fila; a 5 se les dio la mezcla estándar de fertilizante A, y las 6 restantes fueron alimentadas con una mezcla supuestamente mejorada de fertilizante B. Las mezclas A y B fueron aplicadas al azar sobre la fila de plantas.
# Mezcla 1 A 2 A 11.4 3 B 26.6 4 B 23.7 5 A 25.3 6 B 28.5 7 B 14.2 8 B 17.9 9 A 16.5 10 A 21.1 11 B 24.3

29.9 Lbs tomate

Al nivel de significancia del 5%, hay suficiente evidencia para sostener que la nueva mezcla de fertilizante mejora la producción?.

3.9.2 En casa
a) En un gran huerto de cerezas el promedio producido ha sido 4.35 toneladas por acre en los últimos años. Se probó un nuevo fertilizante sobre 15 lotes de un acre, seleccionados al azar. La producción de estos lotes fue la siguiente: 3.56 5.00 4.88 4.93 3.92 4.25 5.12 5.13 4.79 4.45 5.35 4.81 3.48 4.45 4.72

Al nivel de significancia del 0.05, se tiene suficiente evidencia para afirmar que hubo un incremento significativo en la producción ?. (3) b) Anteriormente la desviación estándar de los pesos de ciertos paquetes de 32.0 onzas llenados por una máquina fue 0.25 onzas. Una muestra aleatoria de 20 paquetes mostró una desviación estándar de 0.35 onzas. Es el aparente incremento en variabilidad, significativo al nivel de significancia de 0.10 ?.
(3)

c) La desviación estándar de las temperaturas anuales de una ciudad en un período de 100 años es 15 F. Usando la temperatura media en el 15 día de cada mes durante los últimos 12 meses, una desviación estándar de temperaturas anuales se calculó como 10.5 F. Es la temperatura en la ciudad significativamente menos variable que en el pasado a un nivel de significancia de 0.10 ?.(3) d) La contaminación del aire se determina midiendo varios elementos diferentes que pueden detectarse en el aire. Uno de ellos es el monóxido de carbono (CO). La muestra de lecturas diarias en la tabla siguiente se obtuvo del diario local. 3.5 4.8 3.9 3.2 2.8 2.5 3.1 3.5 3.1 4.4 3.4 3.1

1. Calcule la media y la desviación estándar para esta muestra. El monóxido de carbono es medido e interpretado de acuerdo con la escala : bajo : de 0 a 4.9; medio : de 4.9 a 14.9; alto : de 14.9 en adelante 2. Presenta la muestra suficiente evidencia para permitir concluir que el nivel de monóxido de carbono es bajo al nivel de significancia del 5% ?.

Guía de Bioestadística

Dr. Julio Idrovo

3. Presenta la muestra suficiente evidencia para permitir rechazar la afirmación de que la varianza de las lecturas de CO no es mayor que 0.25 a =0.05 ? (3) f) Dos muestras independientes se tomaron de poblaciones normales, con los resultados mostrados en la tabla adjunta. Esta información provee suficiente razón para rechazar la hipótesis nula en favor de la afirmación de que la media de la población R es significativamente mayor que la media de la población S ?. Use = 0.05 (3) Muestra R S n 10 8 x 295 195 (x - x )2 75 90

g) Los efectos corrosivos de varios suelos sobre los filtros de acero con revestimiento y sin revestimiento fueron probados usando un plan de muestreo dependiente. Los datos recogidos son resumidos en n = 40 d = 220 d2 = 62220 donde d es la cantidad de corrosión de la porción revestida substraída de la cantidad de corrosión de la porción no revestida. Provee esta muestra suficiente razón para concluir que el revestimiento es beneficioso ?. Use = 0.01. (3) h) Las dos muestras independientes de la tabla adjunta se obtuvieron esperando demostrar que la media de la población A es mayor que la media de la población B. Las muestras proveen evidencia significativa para justificar tal esperanza (utilice el test no paramétrico)?. Use = 0.05 (3) Muestra A Muestra B 6 7 7 2 7 4 6 3 6 3 5 5 6 4 8 6 5 4 4 2

i) Se ha efectuado un estudio respecto al tiempo de coagulación de la sangre de 24 animales los cuales han sido distribuidos de manera casual en 4 grupos y se les ha suministrado 4 diferentes dietas alimenticias (A, B, C, y D). Los resultados se resumen en la siguiente tabla: A 62 60 63 59 B 63 67 71 64 66 C 68 66 71 67 68 68 D 56 62 60 61 63 64 63 59 Media= 61,0 66,2 68,0 61,0 Aplique el análisis de varianza a un factor para establecer si existe o no diferencia significativa entre las medias de los tiempos de coagulación de sangre obtenidos para las cuatro dietas y de acuerdo a esto determine si es posible establecer cual es la mejor dieta a usar para el propósito de reducir el tiempo de coagulación de la sangre de estos animales. j) En un estudio del corazón se midió la presión sistolítica de la sangre a 24 hombres de 25 años de edad y a 30 hombres de 40 años de edad. Muestran los datos siguientes suficiente evidencia para concluir que los hombres de mayor edad tienen presión sistolítica de la sangre más alta, al nivel de significancia del 0.02 ?. (3) 25 años :
95 124 100 125 100 130 105 130 106 130 108 132 110 136 110 138 115 140 118 148 120 150 122 156

40 años :
108 126 110 126 110 128 114 130 114 130 116 132 118 136 120 136 122 136 124 140

Guía de Bioestadística

Dr. Julio Idrovo

142

142

146

148

150

152

154

160

164

176

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->