Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso
Análisis Estadístico de Datos
Climáticos
TEMA: Pruebas de Hipótesis
Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC)
Universidad de la República
Montevideo, Uruguay
2009
I-2
PRUEBAS DE HIPÓTESIS
TIPOS DE PRUEBAS
• Establecen un valor ó un intervalo de valores para los
parámetros de una variable
– Asociada a la construcción de Intervalos de confianza
– Ejemplo: La media de una variable es 10
• Establecen la igualdad de las distribuciones de dos ó mas
variables
– Requiere un diseño experimental
– Ejemplo: La media de dos poblaciones normales son
iguales con igual variancia
• Determinan la forma de la distribución de la variable
– Pruebas especificas para establecer el tipo de distribución
de una variable
– Ejemplo: La distribución de una variable es normal
I-4
PRUEBAS PARAMETRICA Y NO
PARAMETRICAS
Se denominan pruebas paramétricas aquellas que presuponen una
dada distribución de probabilidad para los datos.
Cuando trabajamos con muestras pequeñas (n < 20) en las que se desconoce si es válido
suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para
corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.
En estos casos se emplea como parámetro de centralización la mediana, que es aquel punto
para el que el valor de X está el 50% de las veces por debajo y el 50% por encima.
I-5
TIPOS DE ERROR
ERRORES TIPO I Y II
Para que las reglas de decisión (o contraste de hipótesis) sean
buenas, deben diseñarse de modo que minimicen los errores de
la decisión; y no es una cuestión sencilla, porque para cualquier
tamaño de la muestra, un intento de disminuir un tipo de error
suele ir acompañado de un crecimiento del otro tipo. En la
práctica, un tipo de error puede ser más grave que el otro, y
debe alcanzarse un compromiso que disminuya el error más
grave.
NIVEL DE SIGNIFICACION
ERRORES TIPO I Y II
Y NIVEL DE SIGNIFICACION
I-9
NIVEL DE SIGNIFICACION Y
NIVEL DE CONFIANZA
En la práctica, es frecuente un nivel de significación de 0,05 ó
95% de NIVEL DE CONFIANZA
NIVELES DE SIGNIFICACION
Prueba de Uno y Dos Extremos.
Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos
prueba de uno y dos extremos o contraste de una y dos colas.
Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de
la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se
contrasta la hipótesis de que un proceso es mejor que otro, tales contrastes se llaman
unilaterales, o de un extremo. En tales situaciones, la región crítica es una región situada a un
lado de la distribución, con área igual al nivel de significación.
I-11
PRUEBA DE HIPOTESIS
La prueba de hipótesis es un procedimiento
de toma de decisiones, relacionada
principalmente con la elección de una acción
entre dos conjuntos posibles de valores del
parámetro, es decir, en dos hipótesis
estadísticas, a las cuales llamaremos:
Hipótesis nula H0
Hipótesis alternativa H1
I-12
H1: 0
H1: > 0
H1: < 0.
I-13
Estado de la Naturaleza
H0 verdadera H0 falsa
Acierto Error Tipo II
Acepto H0 1-α β
Decisión
Nivel de confianza
Error Tipo I Acierto
Rechazo H0 α 1-β
Nivel de significación Potencia de prueba
I-14
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0)
es el valor hipotético del parámetro que se compara con el resultado muestral
resulta muy poco probable cuando la hipótesis es cierta.
Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar
un valor hipotético de la media poblacional, se toma una muestra aleatoria y se
determina el valor de la media muestral. Si el valor crítico que se establece es un valor
de z, entonces se transforma la media muestral en un valor de z.
La potencia de prueba 1-β representa la sensibilidad de la prueba estadística para detectar cambios
que se presentan al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es falsa. La
potencia de prueba estadística depende de qué tan diferente en realidad es la media verdadera de la
población del valor supuesto.
Una prueba de un extremo es más poderosa que una de dos extremos, y se debería utilizar siempre que
sea adecuado especificar la dirección de la hipótesis alternativa.
I-17
INTERVALOS DE CONFIANZA
En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro,
con una probabilidad determinada.
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido
se denomina nivel de confianza, y se denota 1- α. La probabilidad de equivocarnos se llama
nivel de significación y se simboliza α.. Generalmente se construyen intervalos con confianza
1- α.= 95% (o significación α. = 5%).
Ejemplo:
Construir un intervalo de confianza, para la Distribución Normal estándar que cumple:
P(-1.96 < z < 1.96) = 0.95
Luego, si una variable X tiene distribución N( , ), entonces el 95% de las veces se cumple:
Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza
poblacional es desconocida.
La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta
aproximación es mejor en la medida que el tamaño muestral sea grande.
NOTA: Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de
Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por
ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el
valor 1,96).
Ejemplo: Supongamos se plantea la hipótesis de que el promedio anual de horas de sol de 30 años es igual a
la media climática de 3250 horas. Al tomar una muestra se obtuvo:
= 2930
s= 450
n= 30
Al construir un intervalo de 95% de confianza para la media poblacional, las horas de sol varían entre 2769 y
3091 horas, con una confianza de 95%.. Como el intervalo no incluye el valor medio =3250 horas planteado
en la hipótesis, entonces esta es rechazada con confianza 95% (o un valor p menor a 0,5).
I-20
Comparación de dos muestras
Prueba t de Student
La prueba t de Student como todos los estadísticos de contraste se basa en el cálculo de estadísticos
descriptivos previos: el número de observaciones, la media y la desviación típica en cada grupo. A través
de estos estadísticos previos se calcula el estadístico de contraste experimental. Con la ayuda de tablas se
obtiene a partir de dicho estadístico el p-valor. Si p<0,05 se concluye que hay diferencia entre los dos
muestras.
Las hipótesis o suposiciones para poder aplicar la t de Student son que en cada grupo la
variable estudiada siga una distribución Normal y que la dispersión en ambos grupos sea
homogénea (hipótesis de homocedasticidad = igualdad de varianzas).
Si no se verifica que se cumplen estas suposiciones los resultados de la prueba t de Student no tienen
ninguna validez. No es obligatorio que los tamaños de los grupos sean iguales, ni tampoco es necesario
conocer la dispersión de los dos grupos.
En el caso de que no se cumpla la suposición de Normalidad se suele intentar alguna transformación de los
datos que "normalice" los datos, siendo la transformación logaritmo neperiano la más usual. Ocurre en la
práctica que la transformación que "normaliza" los datos también consigue igualdad de varianzas.
I-21
Prueba t de Student (comparación de dos muestras)
Podemos aplicar la prueba t de Student para comparar de dos medias muestrales procedentes de la misma
población, independientes y con igual desviación típica. De la diferencia de sus medias, que se espera sea
nula, se prueba su nivel de significación.
Si n1 y n2 y X1 y X2 son los números de elementos y medias muestrales se cumple que si escribimos las
desviaciones típicas en función de cada muestra y consideramos sus grados de libertad tenemos:
Ejemplo
En un periodo de medidas de precipitación de 11 años tenemos estimada una media de M2 = 480 mm y una
varianza 2 = 2500 mm A partir de ese periodo en los 7 años siguientes se han medido: 640, 670, 600, 470,
400, 480 y 500 mm. La pregunta es ¿Difieren significativamente estos últimos años del periodo anterior?
La media y la varianza de los últimos 7 años es M1 = 550 mm y 2 = 6057 mm Por lo tanto el estadístico t
de Student
La tabla da para t = 2.10 y 16 grados de libertad un valor próximo a 0.025 que nos dice que es significativo a
un nivel de casi el 2.5% a cada lado de la curva de distribución. Si se excluyen los valores de 640 y 670 mm
se tendría que el nuevo valor de t no es significativo y los datos pertenecen al mismo colectivo.
I-22
Tabla t de Student
I-23
PRUEBAS NO PARAMETRICAS
Veremos cinco pruebas no paramétricas, que en buena medida son paralelas a las
versiones paramétricas (t Student, F, etc.):
HOMOGENEIDAD DE SERIES
Causas habituales de la no homogeneidad de una serie:
HOMOGENEIDAD DE SERIES
Criterio de Doorembos
PRUEBA DE RECORRIDO DE UNA SERIE Nº observ. Intervalo
12 5-8
14 5-10
Comprende las siguientes etapas: 16 6-11
HOMOGENEIDAD DE SERIES
CRITERIO DE HELMERT
La aplicación del test de Helmert entre 2 series, comprende las siguientes etapas:
• Debe verificarse la no existencia de tendencias en ambas series.
• Se calculan las diferencias entre ambas series término a término, y se calcula la
diferencia promedio ( d ).
• Se calculan las diferencias entre di y d.
• Se comparan 2 observaciones consecutivas (la última se compara con la
primera).
• Se define como S cuando no existe cambio de signo entre un valor y el
siguiente, y con C cuando hay cambio de signo entre el valor y el siguiente.
• Sea S Si y C Ci
• Según el Criterio de Helmert si la serie es homogénea se cumple
N 1 S C N 1
Prueba de Mann-Whitney
(comparación de dos grupos independientes)
Este procedimiento es una buena alternativa cuando no se puede utilizar la prueba t de Student, en
razón de no cumplir con los requisitos que esta prueba exige.
La fórmula es la siguiente:
U1 y U2 = valores estadísticos de U Mann-Whitney.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
R1 = sumatoria de los rangos del grupo 1.
R2 = sumatoria de los rangos del grupo 2.
Pasos:
Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores que 20, se consideran
muestras pequeñas, pero si son mayores que 20, se consideran muestras grandes.
Arreglar los datos en rangos del menor al mayor valor. En caso de que existan ligas o empates de
rangos iguales, se deberán detectar para un ajuste posterior.
Calcular los valores de U1 y U2, de modo que se elija el más pequeño para comparar con los
críticos de U Mann-Whitney de la tabla de probabilidades asociadas con valores pequeños como
los de U en la prueba de Mann-Whitney. En caso de muestras grandes, calcular el valor Z, pues
en estas condiciones se distribuye normalmente. Decidir si se acepta o rechaza la hipótesis.
n 1 (N1)
U
z emp U Ri1
2
Muestras grandes n1 n 2 (N1) Muestras pequeñas (n1 y n2 20)
12
I-29
Prueba de Mann-Whitney
Ejemplo para muestras pequeñas:
Un experimentador utiliza dos métodos para enseñar a leer a un grupo de 10 niños de 6 años, quienes
ingresan por primera vez a la escuela. El experimentador quiere demostrar que el procedimiento ideado por él
es más efectivo que el tradicional; para ello, mide el desempeño en la lectura en función de la fluidez,
comprensión, análisis y síntesis.El plan experimental preliminar consiste en elegir al azar tanto una muestra
de 10 niños como el método por utilizar.
Planteamiento de la hipótesis.
Hipótesis nula (Ho). Las diferencias observadas entre las calificaciones de ejecución de lectura mediante los
dos métodos se deben al azar.
Hipótesis alterna (Ha). Las calificaciones de ejecución de lectura, según el método de enseñanza del
experimentador son más altas y diferentes que las observadas en el método tradicional.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
I-30
Prueba de Mann-Whitney
Calculamos la U.
De los dos valores de U calculados, se elige el más pequeño (4) y se comparan con los valores críticos de U
Mann-Whitney.
En caso de que el valor de U calculado no se localice en las tablas correspondientes, se transformará en la
fórmula siguiente:
U = n1n2 - U'
En esta fórmula, U' corresponde al valor más alto.
Decisión.
A la probabilidad del valor U de Mann-Whitney, calculado anteriormente, corresponde 0.048, el cual es más
pequeño que el nivel de significación; por lo tanto, se acepta Ha y se rechaza Ho.
I-31
Prueba de Wilcoxon
(comparación de dos grupos relacionados)
Si tenemos parejas de valores, por ejemplo antes y después de un cambio, que podemos denominar
(X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2,
... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos
R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora
la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si
fuera cierta los valores de R+ y R- deberán ser parecidos.
Pasos:
1. Restar las puntuaciones (elemento a elemento) entre grupos 1 y 2, y
dejarlas en valor absoluto.
2. En valores ordinales, hacer una columna con los rangos para G2>G1 y
otra para G1>G2
Muestras pequeñas S Ri Hay tablas para este caso de
muestras pequeñas; en todo
Es la suma de rangos de la columna "G2>G1" caso, si la muestra es
Muestras grandes relativamente grande, se puede
n (n 1)
efectuar la aproximación a la
S distribución normal
z emp
4
n(n 1) (2 n 1)
24
Un investigador desea comparar el grado de hiperactividad en sujetos obesos cuando están en un programa
para bajar de peso (dieta) y sin programa para bajar de peso.
El valor T de la prueba de Wilcoxon obtenido se compara con los valores críticos de la tabla T en pruebas de
rangos señalados de pares iguales de Wilcoxon, y se puede apreciar que para ser significativo (es decir, por
debajo de 0.05, que fue el nivel de significación), requiere que este 0.05 sea menor; por lo tanto, la
probabilidad es mayor que 0.05.
tc = 15.5
tt = 8
Para dos colas = a = 0.05
N= 10
se cumple que rechazamos Ho
Decisión.
En virtud de que la probabilidad es mayor que 0.05, se acepta Ho y se rechaza Ha.
Interpretación.
Las diferencias en el incremento o disminución de la hiperactividad en personas obesas con dieta o sin dieta,
no son significativas. Estadísticamente resultan iguales, en razón de que pueden ser diferencias dadas al azar.
I-34
Prueba de Kruskal-Wallis
(comparación de "a" grupos independientes)
Pasos:
1. pasar las puntuaciones a rangos (conjuntamente en los "a" grupos)
2. computar la suma de los rangos en cada grupo (son las Rj)
Estadístico de contraste
R 2
H
12
j
3 (N 1)
N (N 1) n j
Si la Hipótesis nula es cierta (es decir, que no haya diferencias entre los grupos),
H se distribuye según Chi-cuadrado con a-1 grados de libertad
Observa que se puede aplicar esta prueba cuando no se cumplan los supuestos de
homogeneidad de varianzas ni el de normalidad del ANOVA unifactorial entre sujetos.
I-35
t 3
i ti
1 i 1
n3 n
Se puede mostrar que si los tamaños de cada grupo son mayores que 5
entonces, H se distribuye como una Ji-Cuadrado con, k-1 grados de libertad.
Luego, la hipótesis nula se rechaza si
H k21,1
I-36
Tabla I. Tipo de test estadístico para hacer inferencias (comparaciones entre muestras).
DISTRIBUCION VARIABLE VARIABLE RELACIÓN ENTRE LAS PRUEBA ESTADÍSTICA
INDEPENDIENTE DEPENDIENTE MUESTRAS
(PREDICTORA) (RESULTADO)
Normal Una sola muestra (se Cuantitativa t-student para una muestra
(Paramétricos) compara con Categórica No relacionadas No existe (usar Chi-cuadrado de Pearson)
valor teórico) Cuantitativa Relacionadas No existe (usar no paramétricos)
Dicotómica Categórica No relacionadas t-student muestras independientes
Policotómica Cuantitativa Relacionadas t-student muestras relacionadas
No relacionadas No existe (usar Chi-cuadrado de Pearson)
No relacionadas ANOVA de una vía
Relacionadas ANOVA de medidas repetidas
COVARIACION (medidas de dos variables en los mismos sujetos o unidades de análisis del estudio)