Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRUEBA DE HIPOTESIS
MAYO 2019
1
INTRODUCCIÓN.
Una hipótesis puede definirse como una solución provisional (tentativa) para
un problema dado. El nivel de verdad que se le asigne a tal hipótesis
dependerá de la medida en que los datos empíricos recogidos apoyen lo
afirmado en la hipótesis. Esto es lo que se conoce como contrastación
empírica de la hipótesis o bien proceso de validación de la hipótesis. Este
proceso puede realizarse de uno o dos modos: mediante confirmación (para
las hipótesis universales) o mediante verificación (para las hipótesis
existenciales).
En general, en un trabajo de investigación se plantean dos hipótesis
mutuamente excluyentes: la hipótesis nula o hipótesis de nulidad y la
hipótesis de investigación. Además, es posible plantear hipótesis alternas o
hipótesis alternativas.
2
PRUEBAS DE HIPÓTESIS
Hipótesis Estadística.
Hipótesis Nula.
5
Al formular esta hipótesis, se pretende negar la variable independiente. Es
decir, se enuncia que la causa determinada como origen del problema
fluctúa, por tanto, debe rechazarse como tal.
Hipótesis Alternativa:
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y",
donde estaremos en presencia de una relación entre variables.
Niveles de Significación.
Prueba de 1 o 2 Extremos.
Donde Z/2 es un valor de la normal estándar tal que el área a la derecha de dicho
valor es /2, como se muestra en la figura
8
9
En la práctica si la media poblacional es desconocida entonces, es bien
probable que la varianza también lo sea puesto que en el cálculo de 2
interviene . Si ésta es la situación, y si el tamaño de muestra es grande
(n>30, parece ser lo más usado), entonces 2 es estimada por la varianza
muestral s2 y se puede usar la siguiente fórmula para el intervalo de
confianza de la media poblacional:
Zα / 2 s Z s
x ,x α / 2
Por otro lado, también se pueden hacer pruebas de hipótesis con respecto a
la media poblacional . Por conveniencia, en la hipótesis nula siempre se
asume que la media es igual a un valor dado. La hipótesis alterna en cambio,
puede ser de un sólo lado: menor ó mayor que el número dado, ó de dos
lados: distinto a un número dado.
10
Aquí Z es el valor de la normal estándar tal que el área a la derecha de
dicho valor es . Recordar también que puede ser sustituido por s,
cuando la muestra es relativamente grande (n>30). Los valores de más
usados son 0.01 y 0.05. Si se rechaza la hipótesis nula al .01 se dice que
la hipótesis alterna es altamente significativa y al .05 que es significativa.
11
- ¿Se revienta más de un 8% de las llantas producidas por el turno de día
antes de las 10 000 millas?
Por tanto, la regla para decisión sería rechazar Ho si Z > +1.96 o sí z < -1.96,
de lo contrario, no rechazar Ho. No obstante, en la mayor parte de los casos
se desconoce la desviación estándar σ de la población. La desviación
estándar se estima al calcular S, la desviación estándar de la muestra. Si se
12
supone que la población es normal la distribución en el muestreo de la media
seguiría una distribución t con n-1 grados de libertad.
Dado que t100-1=1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se
rechaza Ho.
13
gerente de la fábrica de llantas quería determinar la proporción de llantas que
se reventaban antes de 10.000 millas. Este es un ejemplo de una variable
cualitativa, dado que se desea llegar a conclusiones en cuanto a la
proporción de los valores que tienen una característica particular.
14
ocurra un número excesivo de reventones en las llantas producidas en el
turno de día.
15
- Caso de na = nb y s2a = s2b
- Caso de na = nb y s2a ≠s2b
- Caso de na ≠ nb y s2a = s2b
- Caso de na ≠ nb y s2a ≠ s2b
- Caso de variables dependientes.
Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b
respectivamente
16
TEST DE HIPÓTESIS ESTADÍSTICA
Ejemplo. Una industria usa como uno de los componentes de las máquinas
de producción una lámpara especial importada que debe satisfacer algunas
exigencias. Una de esas exigencias está relacionada a su vida útil en horas.
Esas lámparas son fabricadas por dos países y las especificaciones técnicas
varían de país a país. Por ejemplo el catálogo del producto americano afirma
que la vida útil media de sus lámparas es de 15500 horas, con un SD de
1200. Mientras que para el producto europeo la media es de 16500, y el SD
es de 2000.
17
Los tests de hipótesis consisten en confrontar dos hipótesis, una llamada
hipótesis nula que denotamos con Ho y otra llamada hipótesis alternativa
denotada con H1. En el ejemplo las hipótesis que se plantean son:
Como se puede ver en el esquema, con cada tipo de decisión que se tome
hay asociado una posibilidad de cometer un error. Un procedimiento de este
tipo sería óptimo cuando las probabilidades de cometer un error, cualquiera
sea la decisión que se adopte, sean pequeñas. Lamentablemente, en la
mayoría de los tests de hipótesis sólo es posible controlar una de ellas, con
la circunstancia agravante de que estos errores son competitivos, es decir,
cuando se disminuye mucho la probabilidad de uno aumenta la probabilidad
del otro.
18
El nivel de significación que se usa generalmente es =0.05 lo que
corresponde a un 5% en término de porcentaje.
Para cada regla de decisión adoptada, es decir, para cada valor crítico x c se
obtiene un valor de probabilidad de error tipo 1. Por otra parte, si x c se elige
menor que 15000 disminuye pero aumenta.
Sin embargo, se puede proceder de manera inversa, es decir, fijado
encontramos la regla de decisión que corresponderá a una probabilidad de
error 1 igual a .
19
xc 16500
1.645
400
de donde xc = 15842 horas. Entonces, la regla de decisión será
rechazar Ho
Valor llamado valor crítico, que separa las regiones de rechazo y no rechazo
del test.
La probabilidad de rechazar la hipótesis nula cuando es cierta será igual al
área bajo la curva de la distribución muestral del estadístico del test sobre la
región de rechazo. En el caso que estemos trabajando con una distribución
21
normal, y un = 0,05, se rechaza la hipótesis nula cuando se encuentre a
más de 1,645 ˆ a la derecha de 0. De esta manera, se puede definir como
H1: 0
es decir
> 0 o bien < 0
En este caso la probabilidad de error Tipo I se repartirá entre las dos colas
de la distribución muestral del estadístico, y se rechazará H0 para valores de
mayores que un valor crítico (0 + C) o menor que (0- C). Esta prueba se
llama prueba estadística bilateral o de dos colas.
CONTRASTES DE HIPÓTESIS
22
requerida. Desarrollamos en este capítulo los contrastes de hipótesis para
los parámetros más usuales que venimos estudiando en los capítulos
anteriores: medias, varianzas y proporciones, para una o dos poblaciones.
Los contrastes desarrollados en este capítulo se apoyan en que los datos de
partida siguen una distribución normal.
23
Sistema recreado para rechar a la hipótesis nula o inicial H0
Nombre H0 Prueba H1:≠ H1:> H1:<
Media con x 0 z z / 2
varianza 0 z z z1 z z
desconocida n z z1 / 2
x y 0
Dos medias z z z / 2
Normales con x y 0 2x y
2
z z1 z z
varianzas z z1 / 2
conocidas nx ny
x y o
Dos medias t t t / 2,n n 2
1 x y
t t1,n n 2 t t,n n 2
Normales con s
varianzas
x y 0 p t t1 / 2,n n 2 xy xy
1
nx
xy
desconocidas *
ny
d 0 t t / 2,n1 t t ,n 1
Observaciones d 0 t t t1,n 1
pareadas
sd n t t1 / 2,n1
z z / 2 z z
Probabilidad de p p p0 z
pq z z1
éxitos
n z z1 / 2
s p2 (z x z y )
2 2
*
( x ) 2
y
24
admitida cuando H0 sea rechazada. Normalmente H1 es la negación de H0,
aunque esto no es necesariamente así.
El procedimiento general consiste en definir un estadístico T relacionado con
la hipótesis que deseamos contrastar. A éste lo denominamos estadístico
del contraste. A continuación suponiendo que H0 es verdadera se calcula un
intervalo de denominado intervalo de aceptación de la hipótesis nula, (T i,Ts)
de manera que al calcular sobre la muestra T=Texp el criterio a seguir sea:
25
que sólo será rechazada cuando la evidencia de su falsedad supere el
umbral del 100*(1- )%.
Aceptar Ho Rechazar Ho
Ho es Correcto Error tipo I
Cierta Probabilidad Probabilidad
1-
Ho es Falsa Error Tipo II Correcto
Probabilidad Probabilidad
1-
Simplicidad científica:
A la hora de elegir entre dos hipótesis científicamente razonables,
tomaremos como H0 aquella que sea más simple.
26
- o bien la muestra es muy extraña si H0 es cierta (probabilidad );
- o bien la hipótesis H0 no es cierta.
Concretamente en el caso a, donde la muestra es
(1.50,1.52,1.48,1.55,1.60,1.49,1.55,1.63)
el contraste de hipótesis conveniente es:
H0: = 0 H1: > 0
27
significación , y tomando como región crítica C, a los valores que son muy
extremados y con probabilidad en total, o sea,
P(Zexo z / 2 ) / 2 y P(Zexo z1 / 2 ) / 2 P(z1 / 2 Z z1 / 2 ) 1
Entonces la región crítica consiste en C zexp : zexp z1/ 2
Luego rechazaremos la hipótesis nula si zexp z1/ 2 , aceptando en
consecuencia la hipótesis alternativa.
28
Es evidente que si en el contraste de significación, hubiésemos tomado como
hipótesis alternativa su contraria, es decir
H0: = 0 H1: > 0
29
Texp X 0 Tt eo t1,n1
30
El valor de Texp no está en la región crítica (aunque ha quedado muy cerca),
por tanto al no ser la evidencia en contra de H0 suficientemente significativa,
ésta hipótesis no se rechaza.
0
31
entonces, definimos
sˆ2
exp
2
(n 1) 2 a t eo 2 / 2,n1 b t eo 1
2
0
/ 2,n1
Si a t eo exp
2
bt eo aceptamos a H0, de contrario lo rechazamos
Entonces, a t eo ,n1
2
Si a t eo exp
2
aceptamos a H0, de contrario lo rechazamos
Entonces, bt eo 1,n1
2
Si a t eo exp
2
aceptamos a H0, de contrario lo rechazamos
32
La variable aleatoria X=X1+X2+…+Xn~B(n,p). La proporción muestral
(estimador del verdadero parámetro p a partir de la muestra) es p̂ X/ n
n n
Si la hipótesis H0 es cierta se tiene
X
P̂ p0q0 P̂ p0
H0 : p p0 H1: p p0
p̂ p 0
Zexp p q n Zt eo z1 / 2
00
Definiendo a
33
p̂ p
Zexp p q 0 n Zt eo z
00
Definiendo a
p̂ p
Zexp p q 0 n Zt eo z1
00
Paciente xi yi Diferencia
di
1 150 120 30
… … … …
n 140 90 50
d~N( d, d)
34
Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto
efecto
H0: d=
Texp d t n1
Entonces se define
Texp d t n1
y se rechaza la hipótesis nula cuando Texp t1/ 2,n1 ó Texp t1/ 2,n1
35
De las que de modo independiente se extraen muestras de tamaño
respectivo n1 y n2. Los test que vamos a realizar están relacionados con las
diferencias existentes entre ambas medias o los cocientes de sus varianzas.
De manera similar al caso del contraste para una media, queremos en esta
ocasión contrastar la hipótesis de que las dos poblaciones (cuyas varianzas
suponemos conocidas) sólo difieren en una cantidad
H0: 1- 2=
H 0 es c ie rta X1 N 1 , 1
n1 y X 2 N 2 , 2 n2
X1 X2 N , s1 n1 ,s2 n2 entonces
X X
Z 1 2 2 2 N(0,1)
1 2
n1 n 2
Se define entonces
X X
Zexp 1 2
Zt eo z1 / 2
1 22
2
n1 n 2
y el test consiste en
Zexp Zt eo aceptamos H0 y rechazamos H1
y el test consiste en
Zt eo z z1 entonces si Zexp Zt eo aceptamos H0 y rechazamos H1
36
y para el contraste de significación contrario
H0: 1- 2= H0: 1- 2>
y el test consiste en
Zt eo z1 entonces si Zexp Zt eo aceptamos H0 y rechazamos H1
n1 n 2 2
37
y rechazar o admitir la hipótesis nula siguiendo el criterio
Tt eo t1/ 2,n n 2 Texp Tt eo aceptar H0
12
Consideramos el contraste
H0: 1- 2=
n1 n2
ŝ 2 ŝ 2
n 1 2
1 n 2
2 2 2
1 s1ˆ 1 s2ˆ
2 2
n1 1 n1 n 2 1 n 2
No desarrollamos en detalle los cálculos a realizar, pues la técnica para
efectuar los contrastes son análogos a los vistos anteriormente cuando las
varianzas son desconocidas e iguales. Si lo que pretendemos contrastar es
si las medias poblacionales de dos muestras independientes obtenidas de
38
poblaciones normales son idénticas, esto se reduce a los casos anteriores
tomando =0
2
H0 : 12 R
2
(n 1)ŝ 2 (n 1)ŝ 2
1 1
2n11 2 2 2 que conlleva
n2 1
2
1 22
1 (n 1)ŝ
2
1 2 1
n 1 ŝ 2 2 2ŝ 2
1 (n 1)ŝ 2 ŝ 2 2 2ŝF2
1 1 1 1 21
n1 1,n2 1
2 2 2 2 1 2
n 2 1 22
Por tanto el estadístico del contraste que nos conviene tiene una distribución
conocida cuando H0 es cierta. Véase la definición de la distribución de F-
Snedecor:
F
1 ŝ1 2 F
n1 1,n2 1
R ŝ 22
39
Contraste bilateral. El contraste bilateral para el cociente de varianzas se
escribe como:
2 1 2
H0 : 12 R H : R
2 22
0
1 ŝ 2
Fexp 12 at eo F / 2,n1 1,n21 bt eo F1 / 2,n1 1,n2 1
R ŝ 2
si at eo Fexp bt eo aceptamos a H0
No se debe olvidar que para la función F-Snedecor, F/ 2,n 1,n 1 F1/ 2,n 1,n 1
1 2 1 2
1
F,n,m
F1,m,n
2 1 2
H0 : 12 R 0 : 2 R
H
2 2
40
12 1 2
H0 : 2 R H : R
2 22
0
2 2 H : 1
1 2
H :1 1
2
1 2 0
22 1
22
1. Las dos varianzas son iguales. Este es el caso más favorable pues
utilizamos la distribución de Student para el contraste con un número de
grados de libertad que sólo depende del tamaño de la muestra.
2. Las varianzas son distintas. En este caso el número de grados de libertad
es una variable aleatoria (fórmula de Welch) y por tanto al realizar el
contraste se pierde cierta precisión.
40
ŝ12
2 ŝ 1 ŝ 2
2 2
ŝ
Fexp ŝ 2 Fexp 1
2 ŝ 2 ŝ 2
ŝ 2 2 2
1
41
¿Se observan diferencias significativas entre el grupo control y el grupo
desnutrido?
42
Utilizando el estadístico más sencillo (el que no necesita aproximar los
grados de libertad mediante la fórmula de Welch). Para ello calculamos en
primer lugar la cuasivarianza muestral ponderada y los valores del test:
(n 1)ŝ 2 (n 1)ŝ 2
ŝ
2 1 1 2 2
19.238
n1 n2 2
x1 x 2
Texp 11.210 t n1 n 2 2 t 59
43
CONTRASTES SOBRE LA DIFERENCIA DE PROPORCIONES
n1 n1
ˆ X1 p1q1 ˆ X2 p 2 q 2
P1 P2 N p1 p 2 ,
n1 n 2
44
(p̂1 p̂ 2 ) N(0,1)
p̂ q̂ p̂ q̂ Z exp
11
22
n1 n2
H0: H1:
Entonces se define
(p̂1 p̂ 2 )
Z exp p̂ q̂ p̂ q̂
11
22
n1 n2
y se rechaza la hipótesis nula si Zexp z1/ 2 o si Zexp z1/ 2
Contrastes unilaterales. En el contraste
H0: p1-p2= H1: p1-p2<
TABLAS DE CONTINGENCIA
1. TABLAS DE CONTINGENCIA
2
45
Para todos los casos,
Ho: No hay diferencia o no hay dependencia entre variables
H1: Hay diferencia o si hay dependencia entre variables
2 Oij Eij
Eij
donde:
donde
r = número de renglones
c = número de columnas
46
8) Calcular el valor crítico en la tabla 2
9) Criterio de decisión: si el valor crítico < valor del estadístico de prueba
rechazamos Ho
No
Ausencias Aprobado aprobado
0-3 135 110
4-6 36 4
7 - 45 9 6
Con 0.05 , ¿indican los datos que son distintas las proporciones de
estudiantes que pasaron en las tres categorías de ausencias?
H0 : p1 = p2 = p3
H1 : al menos dos proporciones son diferentes.
Los valores Oij = 135, 110... corresponden a los valores observados, los
valores esperados se colocan en las celdas con paréntesis, para calcular los
utilizamos la fórmula:
totaldei ésimo renglón totalde j ésima columna
E ij
n
47
Calculamos el valor del estadístico de prueba 2 usando la fórmula:
O E 2
2 ij ij
Eij
48
Ejercicio 1. Se trata de ver si el número de reclamaciones depende de la
marca para un 5% de nivel de significancia. Ho: Los rechazos son
independientes de la marca.
49
Para generar una tabla de contingencia, es necesario vincular las categorías
de una de las variables en las Filas y las categorías de la segunda variable
en las Columnas. Si introducimos las categorías de la variable Género en las
Filas y las categorías de la variable Teléfono celular en las Columnas
obtendríamos la tabla de la figura [6-2], en donde la posición uno (1)
representa a los hombres que tienen teléfono, la posición dos (2) representa
a los hombres que No tienen teléfono; la posición tres (3) representa a las
mujeres que tienen teléfono y la posición cuatro (4) a las mujeres que No
tienen teléfono.
Si nos fijamos en la tabla de la figura [6-3], notaremos que los dos totales
dan como resultado final, el número de encuestados (que para el caso
corresponde a 20). La única condición que debe cumplir un caso
(Respuestas de un encuestado) para ser incluido en la tabla de contingencia,
es tener una respuesta o valor valido en las dos o más variables que
compongan la tabla de lo contrario, el caso será excluido. Por ejemplo, si uno
de los encuestados no responde la pregunta del Género, pero si la del
Teléfono o viceversa, el caso será excluido al momento de generar la tabla
de contingencia.
50
condensada que describa las categorías de las variables involucradas, sin
realizar comparaciones explicitas que generen conclusiones de una
población. A su vez este tipo de tablas también pueden ser empleadas para
la generación de análisis de Inferencia, en donde se intenta extraer
conclusiones sobre las relaciones de las variables que puedan ser aplicadas
a una población.
51
Si se ingresan múltiples variables a una de las casillas, el programa genera
una tabla de contingencia para cada combinación de variables de fila y
columna. Por último encontramos la casilla de Capa; al ingresar una variable
en esta casilla, el programa genera una tabla de contingencia para cada una
de las categorías de la variable de Capa.
Todas las pruebas con que cuenta las tablas de contingencia se encuentran
ubicadas dentro de las opciones del botón Estadístico. Al hacer clic en él
aparece el cuadro de diálogo correspondiente.
52
pruebas nos permiten comprobar si existe alguna relación entre las variable,
generando un número para representar la fuerza de la relación.
53
Como de costumbre el programa genera la tabla del resumen del
procesamiento y la tabla de contingencia, pero adicionalmente genera una
tercera tabla denominada Pruebas de Chi-cuadrado. En ella aparecen los
valores del Chi-cuadrado y la razón de verosimilitud los cuales son
calculados con base a la diferencia entre las frecuencias observadas y las
esperadas. De todos los valores que se incluyen en la tabla, sólo hay uno
que realmente nos interesa y es el valor correspondiente a la significación
asintótica (Bilateral) de la prueba Chi-cuadrado de Pearson; este valor es el
resultado de la prueba y es el que se emplea para realizar la comparación.
54
CONCLUSIÒN
Para concluir con las tablas de contingencia vamos a revisar el último botón
de opción que podemos encontrar en el cuadro de diálogo, el cual
corresponde a Exactas (Este botón sólo está disponible si se ha instalado el
módulo de pruebas exactas). Al seleccionar este botón, aparece el cuadro de
diálogo correspondiente [Fig.]; a través de sus opciones se proporcionan dos
métodos adicionales para calcular los niveles de significación de los
estadísticos disponibles en los procedimientos Tablas de contingencia y
Pruebas no paramétricas. Estos métodos (el método exacto y el de Monte
Carlo), proporcionan el medio para obtener resultados exactos cuando los
datos no cumplen alguno de los supuestos subyacentes necesarios para
obtener resultados fiables.
Sin embargo, dado que los datos incluyen sólo 20 casos y las casillas tienen
frecuencias esperadas menores que 5, este resultado no es fidedigno. Al
realizar una prueba exacta a la muestra obtenemos que el Chi-cuadrado de
Pearson es de 0,04, lo que conduce a la conclusión contraria. Según la
significación exacta, se concluirá que los resultados del examen y el material
del empaque están relacionados. Esto demuestra la importancia de la obtención
de resultados exactos cuando no se pueden cumplir los supuestos del método
asintótico. La significación exacta es siempre fiable, independientemente del
tamaño, la distribución, la dispersión o el equilibrio de los datos.
55
Todo problema de prueba de hipótesis consiste en lo siguiente:
56
BIBLIOGRAFÍA
www.edustatspr.com/documentos/lecciones/L3.2_Prueba_Hipotesis_95. ppt
57
58
59