Está en la página 1de 13

PRUEBAS DE HIPÓTESIS

Indudablemente, uno de los tópicos más importantes de la estadı́stica inferencial.

En la vida cotidiana existen un sinnúmero de situaciones en las que una persona plantea una
hipótesis sobre algún acontecimiento, sin embargo, el tipo de hipótesis en las que estaremos
interesados, son las llamadas hipótesis estadı́sticas.

Hipótesis estadı́stica: Se considera que una hipótesis es estadı́stica, si se enuncia a través


de términos que involucren elementos de la teorı́a de probabilidades (variables aleatorias,
funciones de densidad o de distribución, parámetros, etc.)

Ejemplo: En una investigación educativa, se desea probar el efecto que puede tener enseñar
ESTADÍSTICA con R. Para llevar a cabo este estudio, se selecciona al azar una muestra de
estudiantes. A algunos de ellos se les enseña con el método tradicional, y al resto con R.

Hipótesis nula: “Enseñar con R no tiene ningún efecto en el nivel de aprendizaje de es-
tadı́stica de los estudiantes”

Hipótesis alternativa: “Enseñar con R contribuye a aumentar el nivel de aprendizaje de


estadı́stica de los estudiantes”

“Muy chidas”, pero...!NO SON HIPÓTESIS ESTADÍSTICAS!

¿Cómo traducirlas en hipótesis estadı́sticas?

“MÁS MEJOR”

Supongamos que el nivel de aprendizaje de los estudiantes bajo “R” se distribuye como una
Normal(µR , σ 2 ) y de los del tradicional “T” como una Normal(µT , σ 2 ). Con σ 2 conocida.
Entonces, podrı́amos enunciar estas hipótesis como:

H0 : µR = µT vs. Ha : µR > µT

Entonces H0 , conocida como hipótesis nula, enuncia que enseñar con R no tiene ningún
efecto en el aprendizaje de los estudiantes, mientras que Ha o hipótesis alternativa, usual-

1
mente la hipótesis del investigador, enuncia que que enseñar con R tiene un efecto positivo
en el incremento del aprendizaje.

MUY IMPORTANTE

Como hemos observado, nuestras hipótesis quedaron especificadas a través de un parámetro


en cada población involucrada (R y T). Entonces, una prueba estadı́stica deberı́a de deter-
minar si la media del aprendizaje obtenida enseñando con R es mayor que la media obtenida
con el método tradicional “T” o viceversa y esto deberı́a bastar para concluir que

MÉTODO “R” MEJOR QUE MÉTODO TRADICIONAL “T” O VICEVERSA

¿Porqué?.

Esquema fundamental de inferencia

µR 6= µT ⇒ N ormal(µR , σ 2 ) 6= N ormal(µT , σ 2 ) ⇒ M ÉT ODO “R” 6= M ÉT ODO “T ”

Pero...!µR y µT son desconocidos!. Entonces, la tarea es demostrar, de alguna forma, que los
estimadores de estos parámetros son ESTADÍSTICAMENTE DISTINTOS, es decir,
µ̂R 6= µ̂T , este es justamente, el objetivo de las pruebas de hipótesis estadı́sticas.

Obsérvese que caracterizamos nuestras poblaciones a través de una distribución de prob-


abilidades que se especifica mediante algún(os) parámetro(s). Este hecho hace que las
pruebas de hipótesis que se construyen bajo este esquema se conozcan como PRUEBAS
PARAMÉTRICAS.

¿Cómo realizar estas pruebas paramétricas?

ESTADÍSTICOS DE PRUEBA

Para realizar las pruebas por este procedimiento, es necesario determinar las distribución
de los estimadores de los parámetros (conocidas como distribuciones de muestreo) que es-
pecifiquen nuestras hipótesis. Una vez que se conocen estas distribuciones, mediante pro-
cedimientos probabilı́sticos, debemos determinar la distribución de nuestro estadı́stico de
prueba.

2
En el caso que nos ocupa (dos muestras independientes), si denotamos por Xi a los estudi-
antes del método R y por Yi a los del método tradicional, tenemos que:

2 2
X̄ ∼ N (µR , σn ) Ȳ ∼ N (µT , σm )

con n y m los tamaños de muestra respectivos. De donde se desprende que el estadı́stico de


prueba para realizar esta hipótesis es:

X̄ − Ȳ X̄ − Ȳ
q ∼ N (0, 1) o q  ∼ t(n+m−2)
σ2 σ2 (n−1)S12 +(m−1)S22 1 1
n
+m n+m−2 n
+ m

la primera estadı́stica es cuando la varianza de cada población es conocida, mientras que


la segunda es cuando esta varianza es desconocida. En ambas pruebas se asume que las
varianzas en las dos poblaciones SON IGUALES. Entonces, los dos supuestos para llevar
a cabo esta prueba son:

• Las dos poblaciones son normales


• Las varianzas de las poblaciones son iguales

Obviamente, en un caso particular, la validez de las inferencias realizadas a partir de estas


pruebas, dependerán de que se cumplan estos supuestos.

Prueba para dos muestras pareadas (t pareada)

Un caso especial de pruebas de dos muestras es cuando éstas son pareadas, es decir, pruebas
del tipo “antes” y “después” o experimentos “pre-post” en los cuales las mediciones se toman
en los mismos sujetos antes y después de que han sido sometidos a algún tratamiento o ma-
nipulación experimental. Por ejemplo, estudiantes evaluados antes y después de un curso.
Las dos muestras están relacionadas en el sentido de que están formadas por mediciones
tomadas sobre los mismos sujetos. El objetivo en este diseño es controlar la varianza entre
las dos poblaciones a comparar.

El método estadı́stico se basa en las diferencias di = Xi − Yi , i = 1, 2, ..., n. Se asume que


estas diferencias se distribuyen normal (lo cual ocurre si ambas poblaciones son normales).
Las hipótesis a contrastar en este caso son:

3


 µX − µY < 0



H0 : µX − µY = 0 vs. Ha : µX − µY > 0





µX − µY =
6 0

La estadı́stica de prueba es:


t = q 2 ∼ t(n−1)
Sd
n

donde d¯ y Sd2 son la media y la varianza muestral, respectivamente, de las n diferencias


d1 = (X1 − Y1 ), ..., dn = (Xn − Yn ), es decir,

n
P n
P
di ¯2
(di − d)
d¯ = i=1
Sd2 = i=1
n n−1

Diferencia de proporciones

Si se trata de probar la diferencia entre dos proporciones, se asume que cada una de las
proporciones maestrales se distribuye asintóticamente normal, y se procede como en la com-
paración de dos muestras, esto es, sin ni es grande

Pi (1 − Pi ) Pˆ1 − Pˆ2
P̂i ∼
= N (Pi , ) i = 1, 2 ⇒ q ∼
= N (0, 1)
ni Pˆ1 (1−Pˆ1 ) Pˆ2 (1−Pˆ2 )
n1
+ n2

Las hipótesis a contrastar son:



 P1 > P2



P1 = P2 vs. Ha : P1 < P2





P1 6= P2

Procedimiento general para realizar pruebas de hipótesis

Cociente de verosimilitudes

4
Hacer una prueba de hipótesis a través de un estadı́stico, tiene grandes limitaciones en cuanto
al número de parámetros que involucran las hipótesis y la distribución del estadı́stico uti-
lizado. Existe un proceso conocido como cociente de verisimilitudes que es más general y en
el que las hipótesis pueden tener más de un parámetro.

La idea intuitiva de este método es comparar el valor de la verosimilitud obtenido con los
estimadores máximo verosı́miles de los parámetros involucrados en las hipótesis, i.e., el valor
de la verosimilitud EVALUADA en los estimadores máximo verosı́miles, contra el valor
de esta misma verosimilitud, evaluada en los valores máximo verosı́miles bajo la restricción
que impone la hipótesis nula. Intuitivamente, si estos valores son muy “parecidos” los datos
darán evidencia a favor de la hipótesis nula. Ya que los valores que maximizan la probabili-
dad de observar ESA MUESTRA PARTICULAR, serán muy parecidos a los obtenidos
SUPONIENDO VÁLIDA LA HIPÓTESIS NULA, luego, LA HIPÓTESIS NULA
ES CIERTA. En notación matemática, el cociente de verosimilitudes se expresa como:

Sup
θ ∈ Θ0 L(θ, X)
Λ= Sup
θ ∈ Θ L(θ, X)

Donde Θ0 es el espacio parametral restringido por la hipótesis nula y Θ es el espacio parame-


tral sin restricciones. Entonces, si este cociente está cercano a UNO, implicarı́a que la
hipótesis nula es cierta. De lo contrario, implicarı́a que es falsa.

¿De verdad funciona el cociente de verosimilitudes para hacer estas pruebas?

Ejemplo muy simple

Supongamos que queremos realizar la prueba de hipótesis en una Poisson:

H0 : λ = 1 vs. Ha : λ = 4

Y tenemos una sola observación X = 3.

Intuitivamente, ¿ cuál deberı́a ser nuestra decisión?. ¿Porqué?

13 ·e−1
P oisson(X = 3|λ = 1) 1
Λ= = 3!
43 ·e−4
= 0.3138 ∼
=
P oisson(X = 3|λ = 4) 3!
3

5
¿Si sirve?. ¿Cómo interpretamos este resultado?

Distribución asintótica del cociente de verosimilitudes

Cuando los datos provienen de algún modelo especı́fico, es posible hacer inferencias exac-
tas con este cociente de verosimilitudes, en el sentido que se puede conocer su distribución
exacta; sin embargo, un resultado IMPORTANTÍSIMO, es que, en casi cualquier circun-
stancia, una transformación de este cociente tiene una distribución aproximada ji-cuadrada,
a saber:

−2Log(Λ) ∼
= χ2(dim(Θ)−dim(Θ0 ))

este es, tal vez, el resultado más importante que existe para hacer inferencias asintóticas. De
hecho, es el resultado en donde se basan las inferencias que se realizan a través de una com-
putadora. De este resultado se desprenden las pruebas de Zeta, Score y Wald que aparecen
en las “salidas” de los programas computacionales para hacer análisis estadı́stico.

Alternativas No paramétricas

En el caso de comparación de medias, como se comentó, es fundamental que se cumplan los


supuestos de normalidad y varianzas iguales pero, ¿qué hay que hacer si alguno de ellos no
se cumple?.

Alternativas no paramétricas para las pruebas de comparación de medias

Mann-Whitney. Esta prueba ha sido tradicionalmente utilizada como la alternativa no


paramétrica a la t de Student para comparación de medias, sin embargo, lo que esta prueba
hace en realidad es probar que las distribuciones asociadas a cada población son distintas,
es decir, prueba si



 FX > FY



FX = FY vs. Ha : FX < FY





FX 6= FY

Entonces, ¿porqué se usa como alternativa para la comparación de medias? Cuando real-
izamos la prueba paramétrica de comparación de medias, suponemos que la única diferencia

6
entre las dos poblaciones es su media (conocida como medida de localización), bajo esta
lógica, cuando realizamos la prueba Mann-Whitney, debemos suponer que las poblaciones
también difieren sólo en una medida de localización, que, para pruebas no paramétricas,
usualmente es la mediana. Entonces, las hipótesis pueden “reescribirse” como:



 MX > MY



MX = MY vs. Ha : MX < MY





MX 6= MY

donde MX y MY son las medianas respectivas de cada población.

Estadı́stica de prueba

Para calcular su valor, se combinan las dos muestras y se ordenan las observaciones de menor
a mayor. A las observaciones empatadas se les asigna el promedio de las posiciones de los
rangos que habrı́an ocupado de no haber existido empates. Entonces, se suman los rangos
de las observaciones de la población 1 (de las x’s). Si el parámetro de localización de la
población 1 es menor que el parámetro de localización de la población 2 (las y’s), se espera
que la suma de los rangos de las observaciones muestreadas en la población 1 sea menor que
la suma de los rangos de las observaciones provenientes de la población 2. De manera similar,
si el parámetro de localización de la población 1 es mayor que el parámetro de localización de
la población 2, se espera lo contrario. La estadı́stica de prueba basada en este razonamiento
es tal que, dependiendo de la hipótesis nula, ya sea un valor muy grande o muy pequeño de
la suma de los rangos asignados a las observaciones de la primera población, trae consigo
que se rechace la hipótesis nula. La estadı́stica de prueba es:

n(n + 1)
T =S−
2

Donde S es la suma de los rangos asignados a las observaciones muestreadas de la población 1.

Regla de decisión

Se rechaza H0 para valores suficientemente grandes o suficientemente pequeños de T. Por


lo tanto, se rechaza H0 si T < Wα/2 o bien si T > W1−α/2 , donde Wα/2 y W1−α/2 son los

7
correspondientes cuantiles de la distribución de T.

En el caso de muestras pareadas, la alternativa no paramétrica a la t pareada, es la prueba


de Wilcoxon. Los supuestos básicos para esta prueba son:

1. Los datos de análisis son n valores de la diferencia di = Xi − Yi . Cada par de mediciones


(Xi , Yi ) se toma sobre el mismo sujeto o sujetos que se ha pareado con respecto a una o más
variables. La muestra de parejas es aleatoria.
2. La medición de las variables es al menos ordinal.
3. La distribución de las diferencias poblacionales es simétrica alrededor de su mediana Md .
4. Las diferencias son independientes.

Las hipótesis a contrastar son:



 Md > 0



Md = 0 vs. Ha : Md < 0





Md 6= 0

Estadı́stica de Prueba

El procedimiento para obtener el valor numérico del estadı́stico de prueba es como sigue:

1. Obtener cada una de las diferencias con su signo correspondiente

di = Xi − Yi

2. Ordenar los valores absolutos de estas diferencias de menor a mayor; es decir, ordenar

|di | = |Xi − Yi |

3. Asignar a cada uno de los rangos resultantes el signo de la diferencia de la pareja sin
considerar el valor absoluto.

4. Calcular

8
T + = la suma de los rangos con signos positivos
T − = la suma de los rangos con signos negativos

T + o T − es el estadı́stico de prueba, dependiendo de la hipótesis alternativa.

Empates. Existen dos tipos de empates; uno o ambos pueden ocurrir en una situación dada.
El primer tipo ocurre cuando Xi = Yi para una pareja dada. Se eliminan del análisis to-
das las parejas de observaciones para las cuales di = Xi − Yi = 0 lo que reduce el tamaño
muestral. El otro tipo de empate ocurre cuando dos o más valores de |di | son iguales. Para
empates de este tipo, las |di | reciben el promedio de los rangos que se les habrı́an asignado
si no hubieran empates.

Las extensiones naturales de estas dos pruebas para más de dos poblaciones son: ANOVA
para pruebas paramétricas, Friedman (muestras relacionadas) y Kruskal-Wallis (mues-
tras independientes) para pruebas no paramétricas.

ANOVA

Acrónimo de análisis de varianza, es el término que se usa en estadı́stica para comparar las
medias de un grupo de mediciones continuas, donde los grupos están definidos por los niveles
de un factor. Supondremos que el número de grupos k es mayor que dos.

Hipótesis a contrastar son:

H0 : µ1 = µ2 = · · · = µk vs. Ha : µi 6= µj para algún i 6= j i,j=1,2,...,k

El nombre de análisis de varianza, proviene de la manera en que se hace la prueba. Sin tomar
en cuenta la pertenencia de las observaciones a los grupos, la media global, se estimarı́a por

k P
P n
Yij
j=1 i=1
µ̂ =
N

Es decir, la suma de todas las observaciones de todas las muestras, dividida entre el total de
individuos en la muestra, N = n ∗ k, suponiendo que las poblaciones son del mismo tamaño
(n). Y la varianza serı́a:

9
k P
P n
(Yij − µ̂)2
j=1 i=1
σ̂ 2 =
N

La diferencia al cuadrado, entre cada observación y la media global. Entonces, la variación


total de las observaciones se puede descomponer en:

k X
X n k X
X n k X
X n
(Yij − µ̂)2 = (Yij − µˆj )2 + (µ̂j − µ̂)2
j=1 i=1 j=1 i=1 j=1 i=1
| {z } | {z } | {z }
S.C.T. S.C.I. S.C.E.

con µˆj la correspondiente media estimada, de la j-ésima población. Con S.C.T. conocida
como la suma de cuadrados totales, S.C.I. la suma de cuadrados intra-grupos (dentro de los
grupos) y S.C.E. suma de cuadrados entre los grupos. Si H0 es cierta, entonces la variabil-
idad dentro de los grupos (S.C.I.) y la variabilidad entre los grupos (S.C.E.) no deberı́an
de ser muy diferentes, ya que si H0 es cierta, implica que NO HAY TALES GRUPOS,
es decir, que todas las poblaciones SON IGUALES, o bien que µj = µ para toda j=1,2...,k.

¿Cómo realizar la prueba?

Para realizar la prueba de ANOVA, lo primero que hay que hacer es especificar y, posteri-
ormente, verificar sus supuestos.

1) Las poblaciones son independientes


Yij ⊥Yim para toda j,m j,m=1,2,..,k

2) Las poblaciones son normales, esto es:


Yij ∼ N (µj , σj2 ) j=1,2,...,k

3) Las varianzas de las poblaciones son iguales, es decir


σ12 = σ22 = · · · = σk2

bajo estos dos supuestos, se tiene que

S.C.E
k−1 ∼F
(k−1,N −k)
S.C.I.
N −k

10
Es común desplegar la información relevante para hacer esta prueba, en una tabla conocida
como tabla de análisis de varianza.

Fuente variación Grados libertdad (g.l.) Suma cuadrados Cuadrados medios F


Entre grupos k-1 S.C.E. M.S.B.=S.C.E./k-1
M.S.B.
Intra grupos N-k S.C.I. M.S.E.=S.C.I./N-k F =
M.S.E.
Total N-1 S.C.T.

Si rechazamos H0 , concluimos que al menos una de las medias es distinta del resto, pero la prueba
no dice cuál, ni cuántas.

Existen varios procesos para realizar las comparaciones individuales entre cada para de poblaciones.
Algunos de los más utilizados son los de Bonferroni, Tukey y el de Scheffè. Esta última es más
conservadora que la de Tukey.

Alternativas no paramétricas

Como puede observarse, la prueba ANOVA tiene dos supuestos muy fuertes: la normalidad de
cada población y la igualdad de las varianzas entre estas poblaciones. La alternativa no paramétrica
para esta prueba es la Kruskal-Wallis (K-W), que es la generalización para más de dos muestras
de la Mann-Whitney. Nuevamente, lo que hace K-W es probar si las distribuciones de las k
poblaciones son iguales o son distintas, de manera similar a lo que dijimos en la prueba M-W,
supondremos que esta diferencia se debe a una diferencia en la medida de localización, la mediana.
Entonces las hipótesis a contrastar son:

H0 : M1 = M2 = ... = Mk vs. Ha : Mi 6= Mj para algún i 6= j i, j = 1, 2, ..., k.

Supongamos que los tamaños de muestra de cada población son nj j = 1, 2, ..., k. Entonces, hay
que asignar rangos a la muestra combinada. Sea Rj la suma de rangos de cada muestra. La es-
tadı́stica de prueba es:

k
X Rj2
12
T = − 3(N + 1)
N (N + 1) nj
j=1

k
P
Con N = nj . Si cada nj > 5, esta estadı́stica se distribuye como una χ2 con k-1 grados de lib-
j=1

ertad. Si alguno de los tamaños de muestra es ≤ 5, se utiliza la distribución para muestras pequeñas.

11
Si rechazamos H0 , lo único que concluimos nuevamente, es que al menos alguna de las poblaciones
tiene una mediana diferente del resto, pero no sabemos cuál ni cuántas.

Comparaciones múltiples

Una manera de hacer las comparaciones entre cada para de poblaciones es la siguiente:

Rechazamos que la población i y j sean iguales si:

s  
Rj Ri N (N + 1) 1 1
− > Z(1−α/2) + i 6= j i, j = 1, 2, ..., k
nj ni 12 nj ni

ANOVA para muestras relacionadas

Cuando las k poblaciones están relacionadas, entonces se viola el supuesto de independencia entre
ellas. Una manera natural para obtener esta estructura de la información, es que cada sujeto dentro
del estudio, sea medido en k ocasiones (para fijar ideas, digamos k tratamientos). Una prueba no
paramétrica para realizar la comparación de poblaciones entre muestras relacionadas es la de

Friedman.

Al igual que en K-W las hipótesis a probar son:

H0 : M1 = M2 = ... = Mk vs. Ha : Mi 6= Mj para algún i 6= j i, j = 1, 2, ..., k.

con Mj la mediana de la j-ésima población.

El primer paso para construir la estadı́stica es asignar rangos a las observaciones. Como cada
individuo tiene k observaciones, vamos a asignarles rangos a estas k mediciones. Si H0 es cierta,
todos los tratamientos tienen el mismo efecto, entonces los rangos asignados a cada tratamiento
por todos los individuos (Rj ), deben sumar aproximadamente lo mismo. Entonces, la prueba se
basa en la comparación de estas sumas por tratamiento, contra la media de estas sumas de rangos.
La estadı́stica de prueba es:

k  
12 X n(k + 1) 2
T = Rj −
nk(k + 1) 2
j=1

12
con n el número de individuos en la muestra y k el número de tratamientos.

Nuevamente, si rechazamos H0 , lo que concluimos es que al menos un tratamiento es distinto


del resto, pero no sabemos cuál ni cuántos. Para realizar las comparaciones entre cada par de el-
los, tenemos el siguiente proceso. Declararemos que el tratamiento i, es distinto del tratamiento j, si

r
nk(k + 1)
|Rj − Ri | > Z(1−α/2) i 6= j i, j = 1, 2, ..., k
6

13

También podría gustarte