Está en la página 1de 97

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERA


UNIDAD DE CIENCIAS BSICAS












JEAMMY JULIETH SIERRA HERNNDEZ
(Director Nacional de Curso)





100403 INFERENCIA ESTADSTICA
Vol. 2












IBAGU
FEBRERO 2013
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

2



COMITE DIRECTIVO

Jaime Alberto Leal Afanador
Rector


Constanza Abada Garca
Vicerrectora Acadmica y de Investigacin



Gloria Herrera
Vicerrector de Medios y mediaciones Pedaggicos



Maribel Crdoba Guerrero
Secretaria General



Inferencia Estadstica
Tercera Versin
Actualizacin por Jeammy Julieth Sierra Hernndez

Autores Primera Edicin:
Jorge Rondon
Danis Brito

Copyright
Universidad Nacional Abierta y a Distancia



ISBN


2012

Unidad de Ciencias Bsicas UNAD
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

3



CAMPOS DE
FORMACIN
Bsica CRDITOS: 2 TRABAJO INDEPENDIENTE: 72
Horas
TIPO DE CURSO Terico CDIGO:100403 ACOMPAAMIENTO TUTORIAL: 24
Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teora y las tcnicas de la
inferencia estadstica en diversos campos de su saber formativo, y que dicha
aplicacin se convierta en una herramienta de uso matemtico para la toma de
decisiones sobre hiptesis cuantitativas de datos, basado en la informacin
extrada de una muestra.

OBJETIVOS ESPECFICOS:
- Que el estudiante identifique las tcnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la poblacin
que se pretende estudiar, de forma que los errores en la determinacin de
los parmetros de la poblacin objeto de estudio sean mnimos.

- Que el estudiante comprenda el comportamiento de una poblacin a
partir del anlisis metdico de una muestra aleatoria de la misma, y que
entienda que la inferencia inductiva de los parmetros estadsticos que
estime sobre dicha muestra, conlleva un error, el cual es posible de ser
cuantificado.

- Conocer los criterios tcnicos que hay que tener en cuenta antes
de seleccionar un tamao de muestra.

- Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.

- Diferenciar y analizar las ventajas y desventajas de la estimacin
por intervalos de confianza y las pruebas de hiptesis.

- Determinar la prueba o tcnica apropiada a aplicar en las diferentes
pruebas de hiptesis paramtricas y No paramtricas.

COMPETENCIA GENERAL DE APRENDIZAJE:

Identificar un procedimiento adecuado para seleccionar de una poblacin una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la poblacin.
Determinar los estadsticos necesarios para el anlisis y solucin de situaciones
que implican conjuntos de datos de su disciplina de formacin, por medio del
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

4


conocimiento de la teora elemental del muestreo y de las distribuciones
muestrales.

Plantear y desarrollar el proceso de la inferencia estadstica para resolver
problemas concretos de investigacin en el mbito de otras disciplinas.

Aplicar apropiadamente los resultados tericos y metodolgicos de la inferencia
estadstica de estimacin y prueba de hiptesis en el marco de la modelacin.

Habilidad para planear una investigacin, diseo de instrumentos, definicin de
variables, recoleccin de la informacin, resumen y presentacin de los datos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

5



UNIDADES DIDCTICAS


UNIDAD DOS: ......................................................................................................................................... 6
PRUEBA DE HIPTESIS, ANLISIS DE VARIANZAS Y ESTADSTICAS NO PARAMTRICAS ..................... 6
CAPITULO CUATRO: PRUEBAS DE HIPTESIS ................................................................................... 7
Leccin 16: Conceptos Bsicos ..................................................................................................... 8
Leccin 17: Pruebas para la Media y la Diferencia de medias con grandes muestras. ............. 14
Leccin 18: Pruebas para la proporcin y la Diferencia de proporciones (siempre con grandes
muestras). .................................................................................................................................... 26
Leccin 19: Pruebas para la media y la diferencia de medias (muestras pequeas). ............... 34
Leccin 20: Pruebas para la varianza.......................................................................................... 44
CAPITULO CINCO: ANLISIS DE VARIANZA .................................................................................... 47
Leccin 21: Generalidades .......................................................................................................... 49
Leccin 22. Anlisis de Varianza de un Factor ............................................................................ 50
Leccin 23. Comparacin Mltiple de Medias (Pruebas a Posteriori) .................................. 60
Leccin 24. Anlisis de varianza con dos factores (diseo de bloques aleatorizados). ........... 61
Leccin 25. Anlisis de varianza de dos factores con interaccin. (Diseo factorial). ............. 66
CAPITULO SEIS: PRUEBAS NO PARAMETRICAS .............................................................................. 80
Leccin 26. Generalidades .......................................................................................................... 82
Leccin 27. Prueba de Bondad de Ajuste de Ji-cuadrado ................................................... 83
Leccin 28. Prueba de Kolmogorov-Smirnov ............................................................................. 87
Leccin 29. Prueba de Wilcoxon ................................................................................................. 88
Leccin 30. Prueba de Mann-Whitney para muestras independiente y prueba de Kruskal-
Wallis para comparar k muestras independientes..................................................................... 89





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

6












UNIDAD DOS:
PRUEBA DE HIPTESIS, ANLISIS DE VARIANZAS Y
ESTADSTICAS NO PARAMTRICAS



































UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

7


CAPITULO CUATRO: PRUEBAS DE HIPTESIS

Introduccin
En casos relacionados con situaciones especiales en las cuales se desea
comprobar la efectividad de estndares preestablecidos, la tcnica de prueba de
hiptesis resultaba bastante apropiada, por cuanto permite comprobar con
bastante certeza el grado de acierto en la fijacin de stos.

Una hiptesis estadstica se define como un supuesto hecho sobre algn
parmetro de la poblacin. Por ejemplo, los siguientes enunciados podran ser
tomados como hiptesis:

- El ingreso promedio de los trabajadores de la fbrica es de $X.
- El rendimiento promedio de los empleados de dos fbricas es
diferente.
- El promedio de duracin de las bombillas es de 1.000 horas.
- El promedio de duracin de las llantas es de 100.000 kilmetros.

Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras
para extraer alguna conclusin o inferencia sobre la poblacin y que el nico
objetivo de examinar muestras, es que las poblaciones suelen ser demasiado
grandes y costosas de estudiar.


Objetivo general.

Contrastar la validez de una hiptesis o conjetura que se haya planteado en
relacin con una situacin determinada de la empresa, analizando errores
estadsticos posibles en las pruebas de hiptesis

Objetivos especficos.

- Examinar que se entiende por hiptesis y qu por prueba de hiptesis.
- Describir los pasos que se siguen para demostrar una hiptesis.
- Describir los errores estadsticos que se pueden presentar.
- Realizar pruebas en relacin con una y dos medias poblacionales, con una
y dos colas.
- Realizar pruebas con una y dos proporciones poblacionales.
- Realizar pruebas de hiptesis para datos que se encuentran en una escala
nominal u ordinal con aplicacin de la distribucin chi cuadrado.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

8


Leccin 16: Conceptos Bsicos

16. DECISIONES ESTADSTICAS

En la prctica, con frecuencia se tienen que tomar decisiones acerca de una
poblacin con base en informacin muestral.
A tales decisiones se les llama decisiones estadsticas. Por ejemplo, tal vez se
tenga que decidir, con base en datos muestrales, si determinado suero es
realmente eficaz en la curacin de una enfermedad, si un mtodo educativo es
mejor que otro, o bien si una moneda est alterada o no.

16.1. Hiptesis

Hiptesis estadsticas: Cuando se trata de tomar una decisin es til hacer
suposiciones o proposiciones (o conjeturas) acerca de la poblacin de que se
trata. Muchos problemas de ingeniera, ciencia, y administracin, requieren que se
tome una decisin entre aceptar o rechazar una proposicin sobre algn
parmetro. A estas suposiciones, que pueden ser o no ciertas, se les llama
hiptesis estadsticas. Estas hiptesis estadsticas son por lo general afirmaciones
acerca de las distribuciones de probabilidad de las poblaciones.

Este es uno de los aspectos ms tiles de la inferencia estadstica, puesto que
muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el
mundo de la ingeniera, pueden formularse como problemas de prueba de
hiptesis. Consultado en la Web de ITC (s.f).

Otras definiciones

Una hiptesis estadstica es una afirmacin para verificar acerca de las
caractersticas de una o ms poblaciones. Alvarado, J. & Obagi, J. (2008)

Una hiptesis estadstica es una aseveracin o conjetura acerca de la distribucin
de la poblacin, afirmacin que generalmente est asociada a un subconjunto del
espacio del parmetro correspondiente al modelo probabilstico que representa
la citada poblacin. Mayorga, J. (2004, p. 189)


Una hiptesis estadstica es un enunciado provisional referente a uno o ms
parmetros de una poblacin o grupo de poblaciones. En el proceso de
estadstica inferencial hay dos tipos de hiptesis:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

9


1. Hiptesis nula, designada mediante Ho y se lee H subcero. La letra H
significa hiptesis y el subndice cero indica no hay diferencia. Por lo
general en la hiptesis nula se plantea en trminos de no hay cambio, no
hay diferencia, se plantea con el objetivo de aceptarla o rechazarla.

2. Hiptesis alternativa, describe lo que se considerar si se rechaza la
hiptesis nula. A menudo tambin se le denomina hiptesis de investigacin,
y se designa por H
1
, que se lee h subuno

Otras definiciones

Hiptesis Nula: Es la conjetura inicial, es la suposicin que se hace sobre la
base de la experiencia del pasado, el conocimiento a priori y las necesidades
empresariales, es, en un comienzo la respuesta ms lgica al problema que
se ha planteado; es el valor que se asumira como cierto de no poderse hacer
la investigacin. La aseveracin se enuncia despus de la abreviatura


Mayorga, J. (2004, p. 189).

Hiptesis Alternativa: A toda hiptesis que difiera de la hiptesis dada se le
llama hiptesis alternativa. Por ejemplo, si una hiptesis es p = 0.5, la
hiptesis alternativa puede ser 7 5 . La hiptesis
alternativa a la hiptesis nula se denota H1. Murray, R. ()


16.2. Prueba de hiptesis

Prueba de hiptesis: Segn Mayorga, prueba de hiptesis es una de las
acepciones ms comunes, al igual que Contraste de hiptesis o Docimacia, para
lo que l prefiere llamar, como justifica en su libro, juzgamiento de hiptesis, que
define como, el proceso que culmina con una decisin de rechazar o de no
rechazar una hiptesis con base en la informacin de una muestra aleatoria

de una poblacin para la cual se ha asumido un modelo probabilstico


cuya funcin de densidad es

( ).

Si se supone que una hiptesis es verdadera, pero se encuentra que los
resultados que se observan en una muestra aleatoria difieren marcadamente de
los resultados esperados de acuerdo con la hiptesis (es decir, esperados con
base slo en la casualidad, empleando la teora del muestreo), entonces se dice
que las diferencias observadas son significativas y se estar inclinado a rechazar
la hiptesis (o por lo menos a no aceptarla de acuerdo con la evidencia obtenida).
Murray, R. ()
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

10




Pasos en una prueba de hiptesis

La prueba de hiptesis consiste en aplicar tcnicas estadsticas que
permitan aceptar o rechazar una hiptesis. Este procedimiento se conoce como
contraste de hiptesis. Las pruebas de hiptesis utilizan un procedimiento
de cinco pasos, los cuales se mencionan a continuacin:

1. Plantear las hiptesis nula y alternativa. Definiendo la lateralidad de la
prueba.
2. Determinar el nivel de significancia. (valores aceptables de error I y II)
3. Estimar el valor estadstico de prueba. (a partir de la muestra)
4. Establecer la regla de decisin. (al comparar el valor crtico o terico con el
de prueba)
5. Tomar la decisin.

Grfico 1. Pruebas de Hiptesis

16.3. Tipos de error.

La hiptesis nula y alternativa son entonces aseveraciones sobre la poblacin
que compiten entre s, en el siguiente sentido: la hiptesis nula (Ho) es
verdadera, o lo es la hiptesis alternativa (H1), pero no ambas. En el caso ideal,
el procedimiento de prueba de hiptesis debe conducir a la aceptacin de Ho
cuando sea verdadera y al rechazo de H1. Desafortunadamente no siempre es
posible puesto que como las pruebas de hiptesis se basan en la informacin de
la muestra, se debe considerar la posibilidad de cometer errores. La siguiente
tabla muestra los dos tipos de errores que se pueden cometer:
PRUEBAS DE
HIPTESIS

Muestras Grandes
(Z-normal)

*Meias
*Proporciones
*Diferencia de Medias
*Diferencia de Proporciones
Muestras pequeas n<30
(T-student)
*Medias
*Diferencia de Medias
Varianza

Una Prueba de hiptesis es el proceso para determinar si las muestras
observadas difieren significativamente de los resultados esperados, ayudando
as a decidir si se acepta o se rechaza la hiptesis.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

11


Tabla No.1 Tipos de errores
DECISIN SOBRE Ho VERDADERA FALSA
Aceptar H0
Correcta (1 o ) Error tipo II (| )
Rechazar H0
Error tipo I (o )
Nivel de significancia
Correcta (1 | )
Potencia de la prueba

Cuando se tiene una hiptesis esta puede ser verdadera o falsa y la decisin que
se toma en la prueba es aceptar o rechazar la hiptesis. Si la decisin que se
toma est de acuerdo con la realidad no se cometen errores, en este caso las
dos buenas decisiones son: aceptar la hiptesis nula cuando es cierta o rechazar
la hiptesis nula cuando es falsa.

Pero cuando la decisin no est de acuerdo con la realidad se pueden comete r
dos tipos de errores vistos anteriormente: rechazar la hiptesis nula cuando en
realidad es cierta, llamado error tipo I representado por alfa ( o ); aceptar la
hiptesis nula cuando en realidad es falso, llamado error tipo II representado por
beta ( | ), llamados tambin nivel de significancia. El procedimiento utilizado
consiste en limitarlos a un nivel preestablecido pequeo, generalmente 0.01
0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa as:

Probabilidad de cometer el error tipo I
o Probabilidad de rechazar Ho cuando es verdadera.

Probabilidad de NO cometer el error tipo I
(1 - o ) Probabilidad de acertar la Ho cuando es verdadera.

Probabilidad de cometer el error tipo II
| Probabilidad de aceptar Ho cuando es falsa.

Probabilidad de NO cometer el error tipo II
(1 - | ) Probabilidad de rechazar Ho cuando es falsa.


Toda prueba de hiptesis determina una regin de rechazo de la hiptesis
llamada regin crtica, la cual depende del tipo de hiptesis que se pruebe y se
determina utilizando un nivel de significancia (o ).




UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

12


16.4. El Nivel mnimo o de rechazo.

Al establecer una prueba de hiptesis una de las formas de llegar a una
conclusin es a travs de la comparacin del valor crtico (o terico) con el de
prueba. Otra forma de poder tomar una decisin es, usar en lugar del valor
crtico, es decir, observar la probabilidad de rechazar Ho cuando es verdadera
(error tipo I), o como afirma Alvarado, J.A y Otros (2008), responder a la pregunta:
cul es el riesgo que debo correr para poder rechazar Ho? Si ese riesgo es
grande, no se puede rechazar Ho; si es pequeo se rechaza Ho.

El p-valor

El mnimo de rechazo recibe tambin el nombre de valor p en el cual Ho sera
rechazado. Si el p-valor es menor que el nivel de significancia, la hiptesis nula se
rechaza. Lo puede encontrar en algunos textos como p-value en ingls. Ms
adelante puede verse un ejemplo dnde se utiliza el p-value para rechazar la
hiptesis nula.





16.5. Lateralidad de las pruebas
Dependiendo del planteamiento de la hiptesis alternativa (H
1
) se distingue dos
tipos de pruebas:
Pruebas bilaterales.
Pruebas unilaterales

Prueba Bilateral: El investigador desea comprobar la hiptesis de un cambio en
el parmetro. El nivel de significancia se divide en dos y existen dos regiones de
rechazo.
En una prueba de hiptesis unilateral derecha, no se puede rechazar la
hiptesis nula Ho, si el estadstico de prueba (o calculado) es menor o igual
que el terico (tabulado). O lo mismo es, se rechaza la hiptesis nula cuando
el valor calculado es mayor que el tabulado

<

Una prueba de hiptesis es significativa si el p-value es menor que el nivel de
significacin, es decir:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

13




Prueba Unilateral Derecha: El investigador desea comprobar la hiptesis de un
aumento en el parmetro, en este caso el nivel de significancia se carga todo
hacia el lado derecho, para definir las regiones de aceptacin y de rechazo


Prueba Unilateral Izquierda: El investigador desea comprobar la hiptesis de una
disminucin en el parmetro, en este caso el nivel de significancia se carga todo
hacia el lado izquierdo, para definir las regiones de aceptacin y de rechazo.



Grfico No. 1. Prueba bilateral (o a dos colas)

P
r
o
b
a
b
i
l
i
d
a
d

valor crtico
Valor crtico
Regin de rechazo
o/2
1 o
Regin de rechazo
o/2
Regin de aceptacin
Ho
(Verdadera)


Prueba de hiptesis:


Prueba de hiptesis:

<
Prueba de hiptesis:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

14



Grfico No. 2. Prueba unilateral izquierda (inferior)



Grfico No. 3. Prueba unilateral derecha (superior)


Leccin 17: Pruebas para la Media y la Diferencia de medias con
grandes muestras.

17. Prueba para la media y diferencia de medias (Muestras grandes
( )

En las pruebas para la media de poblacin de muestra grande se distingue dos
situaciones:
Conocida la desviacin estndar de la poblacin.
Desconocida la desviacin estndar de la poblacin.

17.1. Prueba para la media (conocida la desviacin estndar poblacional).
Cuando se tiene la oportunidad de conocer



P
r
o
b
a
b
i
l
i
d
a
d

o
Valor crtico
1 o
Regin de rechazo
Regin de aceptacin
Ho
(Verdadera)
P
r
o
b
a
b
i
l
i
d
a
d

o
1 o
Valor crtico
Ho
(verdadera)
Regin de aceptacin
Regin de rechazo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

15


17.1.1. Prueba bilateral (para la media)
El procedimiento de prueba de hiptesis para pruebas bilaterales a cerca de la
media de una poblacin, cuando se considera el caso de muestra grande 3
en que el teorema del lmite central permite suponer que la media de la
distribucin muestral de medias se puede aproximar a una distribucin normal de
probabilidad, y la desviacin estndar de la poblacin es conocida, sigue la
siguiente forma general:
Muestra grande ( 3)
Planteamiento de hiptesis:
0 1
0 0
:
:


=
=
H
H

Estadstico de prueba para desviacin estndar poblacional ( ) o conocida:


Ecuacin No.1

Regla de rechazo a un nivel de significancia o :
2 2
0
Z Z si o -Z z si H Rechazar
o o

Ejemplo

La empresa coca cola ha establecido como poltica general para su produccin en
pequea escala, un promedio ( ) de llenado para sus envases de 200
centmetros cbicos con una desviacin estndar (o ) de 16 centmetros cbicos.
Dado que recientemente se han contratado y diseado nuevos mtodos de
produccin, utilizando un nivel de significancia del 0.01, se desea probar la
hiptesis, que el promedio de llenado sigue siendo de 200 centmetros cbicos.
Para tal efecto se tom una muestra de 100 envases llenos, los cuales mostraron
una media de llenado de 203.5 centmetros cbicos.



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

16







En los intervalos de confianza el alfa siempre se divide en
dos, para distribuirlo en las dos colas, en las pruebas de
hiptesis el alfa slo se divide, si la prueba es a dos colas





Paso 1: Planteamiento de hiptesis

- Planteamiento de la hiptesis nula: la media poblacional es 200
- Planteamiento de la hiptesis alternativa: La media poblacional es
diferente a 200. Estas hiptesis se expresan como sigue:

Esta es una prueba de dos colas, debido a que la hiptesis alternativa ( ) es
planteada en palabras de diferencia, es decir, la hiptesis no indica si la media
es mayor o menor que 200.
Paso 2: Nivel de significancia

El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de
cometer el error de tipo uno, es decir la probabilidad de rechazar la hiptesis
siendo verdadera. Para ste tipo de problema se utiliza la distribucin normal
estandarizada en Z.
Paso 3: Estadstico de prueba (o calculado)

El valor estadstico de prueba para este tipo de problema es utilizando la
distribucin normal estandarizada en Z:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

17







Se concluye que el llenado de los envases cumple con las polticas generales de
la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.

Paso 4: Estadstico terico (o tabulado) y regla de decisin

La formulacin de la regla de decisin consiste en hallar el valor crtico de Z
con una prueba de dos colas. En la tabla de la normal estndar (descargar
tabla) se identifica el valor de Z correspondiente a una probabilidad igual
1

1 5 995. El valor ms cercano a 0,995 es 0.995059 que


corresponde a un valor de Z igual a 2.58, que es el valor crtico para la prueba
de hiptesis. Dado que es una prueba de dos colas, se tendrn dos valores
crticos, tal como se indica en el siguiente grfico:

Grfico No. 4. Prueba bilateral (a dos colas)

La regla de decisin es aceptar la hiptesis nula (Ho), puesto que el valor
estadstico de prueba (2.19) ha cado en la zona de aceptacin de dicha
hiptesis
Paso 5: Tomar la Decisin

Prueba de
hiptesis para la
media (Bilateral)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

18


17.1.2. Prueba unilateral (para la media)
Con anterioridad de dijo que la hiptesis alternativa indica una direccin ya sea
mayor que o menor que, la prueba es de una cola. El procedimiento para
demostrar la hiptesis es por lo general igual a la prueba de dos colas, excepto
que el valor crtico es diferente. Ahora se modificar la hiptesis alternativa del
problema anterior, sobre el llenado de los envases de una factora de coca cola,
pues se sospecha que el promedio de llenado est por encima de lo que la
empresa determina (por eso en la hiptesis alterna se plantea una relacin mayor
que).


200 :
200 :
1
0
>
=

H
H


Igual al ejemplo anterior.

Igual al ejemplo anterior.

El valor crtico cambia. En la tabla de la distribucin normal se identifica el valor
de Z correspondiente a una probabilidad igual 0,99. El valor ms cercano a 0,99
corresponde a un valor de Z igual a 2.33, que es el valor crtico para la prueba de
hiptesis. Dado que es una prueba de una cola, se tendr el valor crtico, tal como
se indica en la siguiente grfica:




Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

Prueba de
hiptesis para la
media (unilateral)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

19



Grfico No. 5. Prueba unilateral derecha (superior)


Igual, puesto que el valor estadstico de prueba est ubicado en la zona de
aceptacin de la hiptesis nula, es decir, se est diciendo que el promedio de
llenado es de 200, tal como est planteada la hiptesis nula.
17.2. Prueba para la media (desconocida la desviacin estndar
poblacional).
En la mayora de los casos se desconoce la desviacin estndar de la poblacin
, la cual debe calcularse en estudios previos o se estima utilizando la desviacin
estndar de la muestra (s). En estos casos se utiliza la desviacin estndar de la
muestra, quedando la frmula para el estadstico de prueba as:


Ecuacin No.2
Ejemplo

Una cadena grande de almacenes expide su propia tarjeta de crdito y Ud. desea
saber si los saldos promedios por crditos de los clientes son mayores que 400
unidades monetarias. El nivel de significancia se fija en 0.05. Una revisin
aleatoria de 172 clientes, revel que el promedio por crdito de los clientes es de
407 unidades monetarias y la desviacin estndar de la muestra es de 38
P
r
o
b
a
b
i
l
i
d
a
d

200
Escala Z |2.33
Ho (verdadera)
Regin de aceptacin
Regin de rechazo
Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

20


unidades monetarias. Concluye UD. que la media poblacional es mayor que 400
unidades monetarias?


400 :
400 :
1
0
>
=

H
H

Dado que la hiptesis alternativa se enuncia mayor que, se aplica una cola a la
derecha, y como la muestra es grande (n >= 30), se aplica la distribucin normal
estandarizada en Z.
El nivel de significancia se fija en 0.05

42 . 2
172
38
400 407
=

=
n
S
X
Z



Grfico No. 6. Prueba unilateral derecha (superior)

El valor crtico es 1.645 y la ubicacin del estadstico de prueba se encuentra en la
zona de rechazo de la hiptesis nula, por lo tanto se acepta la hiptesis
alternativa.
P
r
o
b
a
b
i
l
i
d
a
d

200
Escala Z
|2.42
Ho (verdadera)
Regin de aceptacin
Regin de rechazo
|1,645
Unidades
monetarias de
crdito
1- o =0,95
o = 0,05
Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

21



La decisin a tomar por Ud. es que el promedio de los crditos es mayor que 400
unidades monetarias con un grado de confianza del 95%.

17.3. Prueba para la diferencia de medias (desconocida la desviacin
estndar poblacional).
En la mayor parte de los casos no se conoce la varianza o desviacin estndar
real de ninguna poblacin. En general la nica informacin que es posible obtener
se relaciona con las medias muestrales

, las varianzas muestrales


y las desviaciones estndar de las muestras

. Si se hacen las suposiciones


que las muestras se obtienen de manera aleatoria e independiente a partir de las
poblaciones respectivas que tiene una distribucin normal y que las varianzas
poblacionales son iguales, es decir,

, se puede utilizar una prueba de


distribucin normal de varianzas combinadas para determinar si existe una
diferencia significativa entre las dos poblaciones.
Recordemos que para diferencias de medias se utiliza el siguiente estadstico de
prueba:

)(

1
2

2
2

2

Ecuacin No.3

Ejemplo

Una obra de construccin requiere un gran nmero de bloques de concreto. Dos
empresas abastecedoras A y B licitan para su adjudicacin, y dentro del pliego de
condiciones se estipula que la resistencia mnima es de 1.000 unidades mtricas a
la resistencia, y el contrato se adjudicar a la empresa que mayor resistencia
presente su producto.

Se plantea la hiptesis nula (Ho) que no existe diferencia entre las resistencias
medias a la compresin de los bloques de concreto. La hiptesis alternativa se
plantea en trminos que hay alguna diferencia significativa entre las dos
resistencias medias a la compresin. Simblicamente se expresa as:
Paso 5: Tomar la Decisin

Paso 1: Planteamiento de hiptesis

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

22



B A
B A
H
H


=
=
:
:
1
0

Dado que la hiptesis alternativa no indica una direccin especfica, la prueba es
de dos colas
Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo
I. Se usar una distribucin normal estandarizada en Z, razn por la cual se debe
seleccionar una muestra que al menos contenga como mnimo 30 unidades de
bloque, cada una de las empresas licitantes.

El estadstico de prueba a aplicar est dado por la siguiente frmula:

1
2

2
2

2

Ecuacin No.4

Suponga que Ud. Seleccion una muestra de cada una de las empresas licitantes
y determin la resistencia a la compresin, con los siguientes resultados:

Tabla No.2 Resultados de muestra
Licitante A Licitante B
X = 1.070
X = 1.020
n = 81 n = 64
S = 63 S = 57

El valor del estadstico de prueba es:
( ) ( )
01 . 5
98827 . 9
50
64
57
81
63
020 . 1 070 . 1
2 2
2
2
2
1
2
1
2 1
= =
+

=
+

=
n
S
n
S
X X
Z

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

23



Recurdese que se seleccion un nivel de significancia del 0.01 y se utilizar una
prueba de dos colas. Los valores crticos y zonas de aceptacin para las hiptesis
se presentan en la siguiente figura:

Grfico No. 7. Prueba bilateral (o a dos colas)

El valor Z calculado queda en el rea de rechazo de la hiptesis nula, por lo tanto se
concluye que la media poblacional de la resistencia a la compresin es diferente en las
dos empresas y la diferencia no se debe al azar del muestreo, con un grado de confianza
del 99%.

17.4. Prueba para la diferencia de medias (Muestras independientes
desviacin estndar poblacional conocida).

(
1

2
)(
1

2
)

1
2

2
2

2

Ecuacin No.5
P
r
o
b
a
b
i
l
i
d
a
d

valor crtico -2.58| |2.58
Regin de rechazo
0.01/2= 0.005
|5.01
Regin de rechazo
0.01/2=0.005
Regin de aceptacin
Resistencia ladrillos
Ho (Verdadera)
Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

24


Si

<

<

entonces No se rechaza


Recuerde que

es el estadstico de prueba (o calculado)




Ejemplo

Un constructor est considerando dos lugares alternativos (dos comunidades)
para construir un centro comercial. Como los ingresos de los hogares de la
comunidad son una consideracin importante en sta seleccin, desea probar que
el ingreso promedio de la primera comunidad excede al promedio de la segunda
comunidad en cuando menos $1.500 diarios. Con la informacin de un censo
realizado el ao anterior sabe que la desviacin estndar del ingreso diario de la
primera comunidad es de $1.800 y la de la segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra
que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de
la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la
hiptesis con un nivel de confianza del 95 por ciento.

15

< 15



Recordemos que el nivel de confianza es 95%
Es decir 1 95 eso indica que:
5


El tamao de las muestras es grande y las varianzas poblacionales son conocidas,
por consiguiente la estadstica de trabajo a utilizar la ecuacin 5.



Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

25



Tabla No.3 Resultados de las comunidades
Comunidad 1 Comunidad 2

346

24


1
2

2
2

(35 346) 15

18
2
3

24
2
4
1195

Para un nivel de confianza del 95 %, ya que es una prueba de unilateral izquierda,
lo que se busca es el valor crtico que deja por encima un 95% de rea, por tanto
es lgico pensar que el valor ser un Z negativo, en la tabla de la distribucin
normal se tiene un valor de Z de -1,64 (estadstico terico o tabulado). Como
puede observarse en el grfico No.8, el estadstico de prueba se ubica en la zona
de aceptacin de la hiptesis nula.

Grfico No. 8. Prueba unilateral izquierda (cola inferior)



P
r
o
b
a
b
i
l
i
d
a
d

o= 0.05
Valor crtico -1.64| -1.195|
Regin de rechazo
Regin de aceptacin
Ho
(Verdadera)
Paso 4: Estadstico terico (o tabulado) y regla de decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

26




Por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso
promedio por hogar en las dos comunidades es mayor a $1.500 diarios.
En una prueba de hiptesis la confiabilidad significa la probabilidad
de no rechazar la hiptesis nula que es cierta, porque el nivel de
confianza es la probabilidad que el estadstico de prueba se
encuentre en la zona de aceptacin.

Leccin 18: Pruebas para la proporcin y la Diferencia de
proporciones (siempre con grandes muestras).

18. Prueba de hiptesis para proporciones.
Se entiende por proporcin, la porcin relativa o porcentaje que expresa la parte
de la poblacin o muestra que tiene un atributo particular de inters como el
resultado comparativo de contar algo, Se cuenta el nmero de partes defectuosas;
se cuenta el nmero de votantes por la preferencia de un candidato. As la prueba
de proporcin implica niveles nominales de medida.
18.1. Prueba para una proporcin
Para demostrar una proporcin muestral se requiere cumplir con ciertos principios
binomiales, tales como:
1. Los datos recolectados son el resultado de un conteo.
2. El resultado de un experimento se clasifica en una de las dos
categoras mutuamente excluyentes: un xito o un fracaso.
3. La probabilidad de xito se mantiene constante.
4. Los intentos para realizar cada experimento son independientes.
5. El tamao de la muestra debe ser tan grande para que se d la
siguiente condicin: (n)(p)>5 y (n)(1-p)>5
Para realizar una prueba de hiptesis a fin de evaluar la magnitud de la diferencia
entre la proporcin muestral ( ) p y la proporcin poblacional (P), se puede usar el
siguiente estadstico de prueba:

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

27


n
P P
P P
Z
) 1 (

=

Ecuacin No.6
Dnde:
P es la proporcin muestral.
P es la proporcin poblacional.
n es el tamao de la muestra.
De otra manera, en lugar de examinar la proporcin de xitos en una muestra
como en el caso anterior, es posible estudiar el nmero de xitos en una muestra,
para determinar el nmero de xitos esperados o hipotticos en la poblacin, se
utiliza el siguiente estadstico de prueba:
( )( )
( )( )( ) q p n
p n X
Z

=

Ecuacin No.7
Dnde:
X es el nmero de xitos en la muestra.
P es la proporcin hipottica de xitos.
Ejemplo

Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al
menos el 80% de los votos del barrio donde vive. Dado su inters decide hacer
una encuesta en el barrio con una muestra de 2.000 personas, para ver la
posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la
hiptesis de favorabilidad, con un nivel de significancia del 0.05.
Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la
condicin de:
(n)(p)>5 (2.000)(0.8)>5 1.600>5 Cierto
(n)(1-p)>5 (2.000)(0.2)>5 400>5 Cierto

La hiptesis nula se plantea diciendo que Ud. s tiene el 80% de favorabilidad de
voto en su barrio y la hiptesis alternativa en que no alcanza a tener este
Paso 1: Planteamiento de hiptesis

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

28


porcentaje de favorabilidad de voto. Simblicamente se expresa como sigue:
80 . 0 :
80 . 0 :
1
<
=
P H
P Ho


La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 5%, con una cola a la izquierda.

n
P P
P P
Z
) 1 (

=
Dnde:
P es la proporcin muestral.
P es la proporcin poblacional.
n es el tamao de la muestra.
P
n
P P
o =
) 1 (
Es el error estndar de la proporcin poblacional.
Reemplazando los diferentes valores en la ecuacin se tiene:
80 . 2
0089443 . 0
025 . 0
00008 . 0
80 . 0 775 . 0
000 . 2
) 80 . 0 1 ( 80 . 0
80 . 0
000 . 2
550 . 1
) 1 (
=

=
n
P P
P P
Z


La regla de decisin se toma sobra la base de un valor critico calculado a partir de
la tabla de distribucin Z, con un rea de 0.4500 (0.5000-0.0500)
Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

29



Grfico No. 9. Prueba unilateral izquierda (cola inferior)


Como el valor Z (-2080) est en la regin de rechazo de la hiptesis nula,
entonces se acepta la hiptesis alternativa y se concluye la favorabilidad de voto
es menos al 80%.

Ejemplo

Probar al nivel de significancia del 0.01 la aseveracin que el 55% de las familias
que planean adquirir una residencia en Melgar desea su ubicacin en un
condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que
planean comprar una residencia en Melgar, de las cuales 228 familias desean en
un condominio.

La hiptesis nula se plantea diciendo que el 55% de las familias desean adquirir
residencia en un condominio en Melgar.
55 . 0 :
55 . 0 :
1
=
=
P H
P Ho


La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 1%, con dos colas.
Paso 5: Tomar la Decisin

Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

30


80 . 0
0248747 . 0
02 . 0
400
) 55 . 0 1 ( 55 . 0
55 . 0
400
280
) 1 (
= =


=

=
n
P P
P P
Z



La regla de decisin se toma sobre la base del siguiente grfico:


Grfico No. 10. Prueba Bilateral (a dos colas)

La hiptesis nula que la proporcin verdadera es del 55% no es rechazada a un
nivel de significancia del 1%, concluyendo que el 55% de las familias planean
adquirir residencia vacacional en Melgar lo desean en un condominio.

18.2. Prueba para diferencias entre dos proporciones
Se presenta a continuacin un ejemplo donde se emplea la prueba de proporcin
para dos poblaciones, utilizando el siguiente estadstico de prueba:
( )
2 1
2 1 2 1
) 1 ( ) 1 (
) (
n
P P
n
P P
P P P P
Z
C C C C

+


=

Ecuacin No.8
Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

31


Dnde:

1
n

Es la cantidad seleccionada en una muestra.

2
n Es la cantidad seleccionada en la otra muestra.
2 1
2 1
n n
X X
P
C
+
+
= Es la media ponderada de las proporciones muestrales.

1
X Es la cantidad de xitos de la primera muestra.

2
X Es la cantidad de xitos de la segunda muestra.

2 1
yP P Proporcin de xitos de la poblacin uno y dos respectivamente.

Ejemplo

Una fbrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de
comparacin indican que el perfume tiene un buen potencial en el mercado. Sin
embargo el departamento de mercadotecnia y publicidad quieren planear una
estrategia de manera que el producto llegue e impresione al sector ms grande
posible del pblico comprador. Una de las preguntas es si prefiera el perfume una
proporcin mayor de mujeres jvenes o una proporcin mayor de mujeres
maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jvenes
y otra de damas maduras. Se us una prueba estndar de aroma. Se
seleccionaron aleatoriamente damas y se les pidi que olieran varios perfumes,
incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que
realiza la prueba es la nica que conoce el nombre de los perfumes. Cada mujer
selecciona el perfume que le agrada ms.

La hiptesis nula se plantea diciendo que no hay diferencia entre la proporcin de
mujeres jvenes y maduras que prefieren el nuevo perfume. La hiptesis
alternativa se plantea que las dos proporciones no son iguales.
2 1 1
2 1
:
:
P P H
P P Ho
=
=

Se designa P subuno como la proporcin de mujeres jvenes y P subdos como la
proporcin de mujeres maduras.
Se decidi un nivel de significancia del 0.05.
Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

32



Los planes son tomar una muestra al azar de 100 mujeres jvenes designada por
n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los
resultados una vez hecha el experimento dio los siguientes resultados: de las 100
mujeres jvenes 20 eligieron el nuevo perfume, designando este valor como X
subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume,
designando este valor como X subdos.
La proporcin ponderada, da como resultado:
40 . 0
300
120
200 100
100 20
2 1
2 1
= =
+
+
=
+
+
=
n n
X X
P
C

0 . 5
06 . 0
30 . 0
200
) 40 . 0 1 ( 40 . 0
100
) 40 . 0 1 ( 40 . 0
200
100
100
20
) 1 ( ) 1 (
2 1
2 1
=


=
n
P P
n
P P
P P
Z
C C C C

Los valores crticos para un nivel de significancia del 5% son 1.96 y +1.96. Igual
que en los otros casos, la siguiente grafica establece la regla de decisin:

Grfico No. 11. Prueba Bilateral (a dos colas)

El valor de Z calculado de 5.0 se encuentra en el rea de rechazo de la hiptesis
nula. Por tanto, la hiptesis que las proporciones son iguales se rechaza a un nivel
del 5% de significancia.
Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

33


Ejemplo

Dos lotes de frutas conformados cada uno por 250 unidades son tratados y
almacenados en iguales condiciones salvo que el lote No 1 est a temperatura
ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote
No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hiptesis que
la temperatura ms baja favorece la conservacin de las frutas al nivel de
significacin de 0.05.

2 1 1
2 1
:
:
P P H
P P Ho
>
=


Utilizando la distribucin de probabilidad normal con ensayo unilateral a la derecha
con un nivel significativo de 0.05, el valor critico es de 1.645.
13 . 3
0319 . 0
10 . 0
250
) 15 . 0 )( 85 . 0 (
250
) 15 . 0 )( 85 . 0 (
80 . 0 90 . 0
) 1 ( ) 1 (
2 1
2 1
= =
+


=
n
P P
n
P P
P P
Z
C C C C

85 . 0
250 250
200 225
2 1
2 1
=
+
+
=
+
+
=
n n
X X
P
C




Grfico No. 12. Prueba unilateral superior (cola derecha)
Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

34


Como 3.12>1.645 se rechaza la hiptesis nula y se acepta la hiptesis alternativa.
La temperatura ms baja favorece la conservacin de las frutas.

Leccin 19: Pruebas para la media y la diferencia de medias
(muestras pequeas).

19. Pruebas de hiptesis para pequeas muestras.
Ahora veamos el caso en que las muestras son pequeas, 30 < n , pero donde la
distribucin muestral del estadstico de prueba se puede aproximar a una
distribucin t student. Dicha aproximacin es posible cuando los valores
subyacentes de la poblacin son casi normalmente distribuidos, y cuando
intervienen poblaciones donde las desviaciones estndar, aunque desconocidas,
se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de
distribucin.

19.1. Prueba para media (pequea muestra)
Si tambin es razonable suponer que la poblacin tiene una distribucin normal de
probabilidad, con la distribucin t se puede hacer inferencia a cerca del valor de la
media de la poblacin.

Ejemplo

Una compaa de seguros revela que en promedio la investigacin por demandas
en accidentes y todos los trmites tiene un costo promedio de 60 unidades
monetarias. Este costo se considera exagerado comparado con el de otras
compaas del mismo tipo. A fin de evaluar el costo se seleccion una muestra
aleatoria de 26 demandas recientes y se realiz el estudio de costos. Se concluy
que el costo promedio es de 57 unidades monetaria con una desviacin estndar
de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir
que el estudio revel un costo menor al establecido por la empresa?


La hiptesis nula se plantea en el sentido que el costo promedio es de 60
Paso 5: Tomar la Decisin

Paso 1: Planteamiento de hiptesis

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

35


unidades monetarias. La hiptesis alternativa que el costo es menor a 60 unidades
monetarias. Esto se expresa en la siguiente forma:

60 :
60 :
1
0
<
=

H
H

La prueba es de una cola a la izquierda, segn el planteamiento de la hiptesis
alternativa.
Se usa un nivel de significancia del 0.01 con una distribucin t, en consideracin
a que la muestra en menor a 30, es decir, es una pequea muestra.
Utilizando los datos de la muestra, se utiliza la siguiente frmula como estadstico
de prueba:
530 . 1
26
10
60 57
=

=
n
S
X
t


Los valores crticos para la distribucin t se encuentran en la tabla
correspondiente (anexo D), con 25 grados de libertad (26 1), prueba de una cola
a un nivel de significancia de 0.01, correspondiendo un valor crtico de 2.485. En el
siguiente figura se indica el presente planteamiento:

Grfico No. 13. Prueba unilateral superior (cola derecha)

Puesto que 1.53 se encuentra en la regin de aceptacin de la hiptesis nula a
Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

36


un nivel del 1% de significancia, se concluye que los costos para los tramites de
seguros de accidente no se han disminuido y se mantiene a un nivel promedio de
costo de 60 unidades monetarias.
Ejemplo

Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste
en las mquinas de produccin supone que dicho estndar ha cambiado. Se
quiere probar sta hiptesis con un nivel de significancia del 0.02.
Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y
procede a medir su largor con los siguientes resultados:
Tabla No. 4. Seleccin muestra aleatoria
Elemento 1 2 3 4 5 6 7 8 9 10 11 12
Medida 42 39 42 45 43 40 39 41 40 42 43 42

Plantea sus hiptesis:

43 :
43 :
1
0
=
=

H
H



Como hiptesis nula que no se ha producido un cambio en las dimensiones del
producto. Como hiptesis alternativa que se ha producido un cambio en las
caractersticas internas del producto debido a los ajustes en las mquinas.
Se dispone a probar la hiptesis con un nivel de significancia del 0.02, utilizando la
distribucin t porque es una pequea muestra, con 11 grados de libertad
aplicando el principio de (n- 1) y clculo para dos colas puesto que la hiptesis
alternativa est planteada desde el punto de vista de diferente.

El estadstico de prueba a utilizar es el siguiente:
Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

37



n
S
X
t

=


Procede al clculo de la media y la desviacin estndar muestral:
5 . 41
12
498
= = =

n
X
X

( )
78 . 1
11
35
1
2
= =

=

n
X X
S

Con la informacin anterior, aplica la frmula del estadstico de prueba:
92 . 2
12
78 . 1
0 . 43 5 . 41
=

=
n
S
X
t




Para aplicar la regla de decisin, muestra en el siguiente grfico el planteamiento
anterior:

Grfico No. 14. Prueba Bilateral (a dos colas)

La hiptesis nula que la media poblacional es 43 mm se rechaza a un nivel de
significancia del 0.02 y se acepta la hiptesis alternativa, concluyendo que los
ajustes en las mquinas s causaron un cambi en la calidad de control en el
Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

38


largor de los diferentes elementos que se producen.
Anteriormente se analiz ampliamente la prueba de hiptesis para cuando las
muestra son pequeas, es decir, el tamao de la muestra es menor a 30. A
continuacin se propone un ejercicio de aplicacin, para que Ud. los desarrolle
atendiendo las sugerencias dadas.

19.2. Prueba para dos medias muestrales (pequea muestra)
Una prueba que utiliza la distribucin t tambin puede aplicarse para comparar dos
medias muestrales que tienen las siguientes caractersticas:
1. Las poblaciones deben de distribuirse normalmente.
2. Las poblaciones deben de ser independientes.
3. Las varianzas de las poblaciones deben de ser iguales.
4. Las muestras tienen menos de 30 observaciones.
5. Las desviaciones estndar de las poblaciones no se conocen.

Cuando se est frente a estas caractersticas, el estadstico de prueba a utilizar es
el siguiente:
( )
( ) ( )
(

+
(

+
+

=
2 1 2 1
2
2
2 1
2
1
2 1 2 1
1 1
2
1 1
) (
n n n n
n S n S
X X
t


Ecuacin No.9

Dnde:
2 1
X y X
Las medias de las muestras

2 1
yn n
Los tamaos de las muestras

2
2
2
1
yS S
Las varianzas de las muestras

G.L. Grados de libertas, igual a = 2
2 1
+ n n
Ejemplo

Se ha propuesto realizar un examen de estadstica a dos grupos de estudiantes,
con el propsito de saber si los grupos tienen similares conocimientos sobre
pruebas de hiptesis. Para ello Ud. seleccion el grupo A compuesto de 5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

39


estudiantes de educacin a distancia y el grupo B compuesto por 6 estudiantes de
educacin presencial, y los someti a la prueba, dando como resultado los
siguientes tiempos en minutos:
Tabla No. 5. Prueba para dos grupos
Educacin a distancia Educacin presencial
2
4
9
3
2
3
7
5
8
4
3
Probar con un nivel de significancia del 0.10 si existe alguna diferencia de
habilidad en los conocimientos de los dos grupos.


Las hiptesis las plantea en los siguientes trminos:
2 1 1
2 1
:
:


=
=
H
Ho

La hiptesis nula consistente en que los dos grupos no tienen alguna diferencia en
la habilidad de conocimiento, y la hiptesis alternativa en que existe diferencia
entre los grupos sobre la habilidad en la aplicacin de los conocimientos.

Prueba la hiptesis con un nivel de significancia del 10%, utilizando la distribucin
t student porque las muestras son menores que 30, con 9 grados de libertad (5+6
2) y prueba de dos colas porque la hiptesis alternativa est planteada en
funcin de diferente.

Para el clculo del estadstico de prueba se requiere estimar las medias de los
grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:
Paso 1: Planteamiento de hiptesis

Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

40


Tabla No.6. Resultados para los grupos de estudiantes
Grupo estudiantes a distancia Grupo presencial
Media = 4 Media = 5
Varianza = 8.5 Varianza = 4.4
Muestra = 5 Muestra = 6

( ) ( )
( ) ( )
6620 . 0
6
1
5
1
2 6 5
1 6 4 . 4 1 5 5 . 8
5 4
1 1
2
1 1
2 1 2 1
2
2
2 1
2
1
2 1
=
(

+
(

+
+

=
(

+
(

+
+

=
n n n n
n S n S
X X
t




Grfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias


La decisin es no rechazar la hiptesis nula debido a que el valor del estadstico
de prueba 06620 ha cado en la zona de aceptacin de dicha hiptesis,
concluyendo que no existe diferencia en la habilidad de aplicacin de
conocimientos entre los estudiantes a distancia y los estudiantes de presencial,
con un nivel de significancia del 10%.

Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

41



19.3. Prueba de hiptesis para observaciones pareadas o relacionadas
La caracterstica principal para aplicar este tipo de prueba, es que las muestras
sean dependientes y el tamao de cada muestra sea inferior a 30 elementos
seleccionados.
Ejemplo

Un grupo de alumnos registra un ndice de puntuacin en estadstica, que se
considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso
de nivelacin, obteniendo los siguientes registros antes y despus del curso. Con
un nivel de significancia del 0.05 probar si el curso de nivelacin mejor las
condiciones del grupo.
Antes 128 105 119 140 98 123 127 115 122 145
Despus 135 110 131 142 105 130 131 110 125 149

En estas condiciones hay un par de ndices de eficiencia para cada miembro del
grupo, antes y despus del curso,; ste conjunto de pares es lo que se denomina
muestra por pares. La prueba de hiptesis que se realiza para determinar si hay
diferencia entre los ndices antes y despus del curso de nivelacin, es lo que
denomina prueba de diferencia por pares. Obsrvese que las dos muestras, una
antes y una despus, dependen entre s, debido a que los mismos alumnos estn
en ambas pruebas, por tanto son dependientes.
La muestra est constituida por la diferencia entre los registros de puntuacin
antes y despus del programa. As, la media de las diferencias entre los registros
de rendimiento, se designa mediante
d
. Se presenta a continuacin el
procedimiento de la prueba:

0 :
0 :
1
>
=
d
d
H
Ho


La hiptesis nula plantea que no hay diferencia de eficiencia despus del curso. La
hiptesis alternativa plantea que el programa de nivelacin mejor el nivel de los
estudiantes.
Paso 1: Planteamiento de hiptesis

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

42


Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10
estudiantes considerada pequea muestra, la distribucin de probabilidad a utilizar
es la t student, con n 1 grados de libertad.

El estadstico de prueba a utilizar es:
n
S
d
t
d
=

Ecuacin No.10
Dnde:
d : es la media de la diferencia entre las observaciones por pares.
d
S : es la desviacin estndar de las diferencias entre las observaciones por
pares.
n: es el nmero de observaciones por pares.
G.L: son los grados de libertad (n 1)
Para determinar el clculo del estadstico de prueba se requiere conocer la media
de las diferencias y su desviacin estndar, para lo cual procedemos a su clculo
utilizando el siguiente cuadro:
Tabla No. 7. Calculo estadstico sobre diferencia de medias
Muestra Registro
antes
Registro
despus
Diferencia
d
Diferencia al
cuadrado
1
2
3
4
5
6
7
8
9
10
128
105
119
140
98
123
127
115
122
145
135
110
131
142
105
130
131
110
125
149
7
5
12
2
7
7
4
-5
3
4
49
25
144
4
49
49
16
25
9
16
Sumas 46 386
Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

43



60 . 4
10
46
= = =

n
d
d


( )
( )
40 . 4
1 10
10
46
386
1
2
2
2
=

n
n
d
d
S
d

Aplicando la frmula, se obtiene:
30 . 3
10
4 . 4
6 . 4
= = =
n
S
d
t
d


El valor crtico de t para esta prueba de una cola a la derecha, es 1.833 que se
obtiene en la tabla de la distribucin t (anexo D), ubicando en la columna de la
izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una
cola con 0.05 nivel de significancia. En la siguiente grfica se indica lo expuesto:

Grfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hiptesis por pares

Como el valor t (3.30) est en la regin de rechazo de la hiptesis nula, entonces
se acepta la hiptesis alternativa y se concluye que el programa de adiestramiento
para los alumnos fue eficaz para aumenta su eficiencia.
Paso 4: Estadstico terico (o tabulado) y regla de decisin

Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

44


Leccin 20: Pruebas para la varianza

20. Pruebas de hiptesis para la varianza
Como su nombre lo indica, consiste en comparar tres o ms medias de una
muestra para identificar su homogeneidad o variabilidad. esta tcnica estadstica,
normalmente es utilizada para analizar resultados en la investigacin con diseos
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o ms distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o ms variables independientes.

Comparacin de dos varianzas poblacionales
Su utilidad radica en determinar si una poblacin normal tiene ms variacin que
otra poblacin que se considera tambin normal. Como ejemplo se pueden
mencionar, si dos mquinas dedicadas a producir cierto artculo de precisin
pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo
largor, el mismo dimetro y las variaciones presentadas son similares.

Ejemplo

La tasa media de rendimiento de dos tipos de acciones se puede apreciar en el
siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel
de significancia del 0.10.
Tabla No. 8. Tasa de rendimiento de las acciones
Acciones Rendimiento
promedio
Desviacin
estndar
Tamao de la
muestra
Tipo A
Tipo B
56
58
12
5
7
8

2
2
2
1 1
2
2
2
1
:
:
o o
o o
=
=
H
Ho

La variacin de los rendimientos promedios de las acciones es igual como la
hiptesis nula. La variacin de los rendimientos de las acciones es diferente como
Paso 1: Planteamiento de hiptesis

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

45


hiptesis alternativa.
Se selecciona un nivel de significancia de 0.01 utilizando la distribucin F.
El valor del estadstico de prueba sigue una distribucin F, con la siguiente
relacin:
76 . 5
5
12
2
2
2
2
2
1
= = =
S
S
F

Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la
relacin siempre ser por lo menos igual a uno.
El valor crtico se obtiene del Anexo F, para lo cual se reproduce una parte de la
tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para
cada cola ser de:
05 . 0
2
10 . 0
2
= =
o
.
Grados de libertad para el numerador: n 1 = 7-1 = 6
Grados de libertad para el denominador: n 1 = 8 1 = 7
Para encontrar el valor crtico, se incorpora parte de la tabla F:

Tabla No. 9. Grados libertad numerador denominador
GRADOS LIBERTAD NUMERADOR
G.L
Denominador
5 6 7 8
1
2
3
4
5
6
7
8
9
10
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
2.7
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
Paso 2: Nivel de significancia

Paso 3: Estadstico de prueba (o calculado)

Paso 4: Estadstico terico (o tabulado) y regla de decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

46



Dado que el valor de la distribucin F (5.76) se encuentra a la derecha del valor
crtico (3.87), se acepta la hiptesis alternativa y se concluye que los rendimientos
promedios de las acciones son diferentes.
Ejercicios propuestos

A continuacin se proponen dos ejercicios para que los desarrolle aplicando las
sugerencias propuestas:
1. Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de
significancia es de 1% probar la hiptesis que la probabilidad de caras es de
contra la hiptesis:
a. Que es mayor de .
b. Que es menor de .
c. Que es diferente de .

Sugerencia: En este caso utilice las propiedades de la distribucin binomial donde:
( )( ) 100
2
1
200 = = = np

( )( )( ) ( )( )( ) 07 . 7
2
1
2
1
200 = = = q p n o

( )( )
( )( )( ) q p n
p n X
Z

=

2. Un fabricante de un empaque para harinas garantiza que tiene una efectividad
de 95% en la proteccin contra la humedad durante un perodo de 6 meses. Se
observ una muestra de 100 paquetes encontrndose resultados positivos en
85 paquetes. Comprobar si la afirmacin del fabricante es verdadera con un
nivel de significancia de 0.05.
Sugerencia: Utilizar prueba de una proporcin.
3. Un fabricante de pastas alimenticias sostiene que el contenido medio de
protenas del producto es de 10.7. Un anlisis de una muestra de 8 paquetes
dio como resultado un contenido medio de 10% con una desviacin de 1. Se
puede aceptar como verdadera la afirmacin del fabricante a un nivel de 0.01?
Sugerencia:
Utilizar el siguiente estadstico de prueba:
n
S
X
t

=

Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el
valor crtico con 7 grados de libertad es igual a 3.0
Paso 5: Tomar la Decisin

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

47


CAPITULO CINCO: ANLISIS DE VARIANZA

Introduccin.
En esta unidad se prosigue con el anlisis de pruebas de hiptesis. Recuerde que
en captulo anterior se examin la teora general de la prueba de hiptesis y se
describi el caso en el que fue seleccionada una muestra grande a partir de la
poblacin. Se emple la distribucin Z como base para determinar si es razonable
concluir que una media calculada a partir de una muestra, proviene de una
poblacin hipottica. Adems se prob si dos medias muestrales provienen de
poblaciones iguales. Tambin se efectuaron pruebas de una y dos muestras para
relaciones proporcionales utilizando la distribucin normal como entidad
estadstica de prueba. Se utiliz la distribucin t como entidad estadstica de
prueba para muestras pequeas (con menos de 30 observaciones)
Cuando se desea conocer la homogeneidad que existe entre tres o ms medias
muestrales, se procede a determinar la variabilidad entre esas medias, tcnica que
se conoce como anlisis de varianza. Es decir, cuando productos o individuos
son sometidos a tratamientos determinados para ver cmo stos influyen en
resultados o comportamientos, lo ms aconsejable es utilizar la tcnica de anlisis
de varianza.
El objetivo del anlisis de varianza es determinar cules son las variables
independientes de importancia en un estudio, y en qu forma interactan y afectan
la respuesta.
El Anlisis de varianza en el presente capitulo se encuentra dividido de la
siguiente forma.

Grfico No. 17. ANOVA
ANALISIS DE
VARANIZA
De un Factor De dos Factores
Con interaccin
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

48


Objetivo general.
Reconocer la importancia principios en que se basa y campos de aplicacin de la
tcnica de Anlisis de Varianza.

Objetivos especficos.
Comprender la nocin general del anlisis de varianza.
Realizar una prueba de hiptesis para determinar si dos varianzas
muestrales provienen de poblaciones iguales.
Probar e interpretar hiptesis aplicando el anlisis simple de varianza.
Establecer y organizar datos en una tabla de ANOVA de una y de dos
direcciones.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores de diseo de bloque aleatorizado.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores con interaccin o diseo de factorial.
Definir los trminos tratamientos y bloques.
Dar a conocer el manejo de la herramienta de Anlisis de varianza en
Excel.












UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

49


Leccin 21: Generalidades

Como su nombre lo indica, el ANALISIS DE VARIANZA, se utiliza para probar
hiptesis sobre la igualdad de tres o ms medias poblacionales. Al comparar las
varianzas muestrales, es posible sacar una conclusin o inferencia sobre los
valores relativos de las medias poblacionales.

21. Comparacin de ms de dos poblaciones
Del anlisis de varianza, podemos decir que esta tcnica estadstica normalmente
es utilizada para analizar resultados en la investigacin con diseos
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o ms distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o ms variables independientes.

El anlisis de varianza estudia la relacin entre una variable cualitativa (o variable
independiente) con ms de dos categoras y una variable cuantitativa (o variable
dependiente).



Ejemplo

Un agrnomo desea estudiar el rendimiento (en libras) de cuatro variedades
diferentes de calabacitas.
La variable cualitativa es el factor de este experimento, que en este caso es la
variedad de calabacita, los niveles son cada una de las cuatro variedades. Y la
variable cuantitativa es el rendimiento (en libras).

El factor corresponde a la variable cualitativa y los niveles a las
categoras de esa variable

El anlisis de varianza tiene como objetivo identificar, si hay evidencia de una
diferencia significativa entre los niveles, basados en las medias muestrales.


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

50


21.1. Variabilidad producto de factores controlables e incontrolables
Tericamente es posible dividir la variabilidad del resultado de un experimento en
dos partes: la originada por factores o tratamientos que influyen directamente en el
resultado del experimento, y la producida por el resto de factores desconocidos o
no controlables, que se conoce con el nombre de error experimental. En el
ejemplo anterior los factores desconocidos pueden ser: la humedad, la
temperatura y plagas entre otros.

21.2. Tipos de modelos

Modelo de efectos fijos: Un modelo de anlisis de varianza es de efectos
fijos cuando los resultados obtenidos slo son vlidos para esos determinados
niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser
diferente.
Modelo de efectos aleatorios: Un modelo de anlisis de varianza es de
efectos aleatorios cuando los resultados obtenidos son vlidos para cualquier
nivel del factor estudiado.
Modelo replicado: Un modelo es replicado si el experimento se repite varias
veces para cada nivel del factor; en caso contrario se dice que el modelo es
por unidad de casilla.


21.3. Supuestos Del Anlisis De Varianza
Para cada poblacin la variable de respuesta est normalmente distribuida.
La varianza de la variable respuesta es la misma para todas las
poblaciones.
Las observaciones deben ser independientes.

Leccin 22. Anlisis de Varianza de un Factor

El anlisis de varianza simple se presenta cuando se tiene un solo factor
estudiado en sus distintos niveles que influyen sobre una variable respuesta que
mide el resultado del experimento, y el resto de los factores conforman el error
experimental influyendo sobre la variable respuesta de manera no controlable. El
factor se presenta con j niveles, y dentro de cada nivel se analiza una serie de
observaciones del experimento en control (unidades experimentales) y su efecto
sobre la variable respuesta, es decir, para cada nivel se repite el experimento
varias veces (replicacin).
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

51


El anlisis de varianza descompone la variabilidad del resultado de un
experimento en componentes independientes (variacin total descompuesta en
variaciones particulares).
Ejemplo

Se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes,
que aunque labradas en las mismas condiciones, producen cosechas que son
distintas. La variabilidad de rendimientos es producida por factores o tratamientos
controlables (abono, riego, etc.), donde cada factor o tratamiento puede presentar
diferentes niveles (diferentes cantidades o calidades de abono, distinta intensidad
de riego); tambin puede ser producida por otros factores o tratamientos no
controlables (humedad relativa, clima, plagas, etc.).

Tabla No. 10. Observaciones por cada nivel
Nivel1 Nivel 2 Nivel j
X
11
X
12
X
1j

X
21
X
22
X
2j

.
.
.
.
.
.
.
.
.
X
i1

X
i2

X
ij


ij
X : Observacin i-sima de la variable respuesta relativa al j-simo nivel de
factor.
En el ejemplo anterior,
ij
X es el rendimiento obtenido (variable respuesta) bajo el
nivel j del factor (abono) en la observacin i-sima (Para cada nivel j de factor se
repite el clculo de rendimiento

veces para recoger el efecto del error


experimental).

: Tamao de la muestra para cada nivel (categoras de la variable cualitativa)



En esta seccin se considera el anlisis de varianza de un solo factor, en el cual
solo interviene en el experimento un solo tipo de tratamiento. Cuando se desea
contrastar las hiptesis sobre la diferencia global entre tres o ms medias de
poblacin, se aplica la distribucin de probabilidad F encontrando en cociente de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

52


dos varianzas calculadas a partir de los datos experimentales. El modelo lineal en
que se basa el mtodo de anlisis de varianza de un solo factor es:
ij i iJ
X + + = |

Ecuacin No.11
Dnde:

Es la i-sima observacin del j-simo nivel experimental.


La media de todas las observaciones de todas las poblaciones j del tratamiento. Es
una constante.

Efecto del tratamiento en la poblacin j. Son variables aleatorias independientes.

Error aleatorio asociado a la i-sima observacin del factor de la poblacin j



El efecto
i
| del tratamiento o factor es la diferencia entre la gran media y la media
J
de la poblacin en tratamiento J, esto es:
| =
J i
.
Ecuacin No.12

Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J
efectos de los tratamientos debe ser igual a cero:
( ) 0
1 1 1
= = =

= = =
| J
J
J
J
J
J
J
J
J
i

Ecuacin No.13

El ltimo trmino
iK
refleja la variabilidad dentro de cada una de las poblaciones
en tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta
como lo resultante de la diferencia entre el resultado observado y la media de la
poblacin del tratamiento:
j ij iJ
X =

Ecuacin No.14

El valor esperado o la esperanza de
ij
es igual a cero.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

53


El modelo se basa en las siguientes suposiciones:
Admite que los errores aleatorios
ij
tienen una distribucin normal
para cada poblacin en tratamiento J.
Admite que los errores
iJ
se distribuyen independientemente tanto
entre poblaciones en tratamiento como dentro de ellas.
Acepta que la varianza
2
o del error permanece constante para cada
una de las poblaciones.

Hiptesis del ANOVA de un factor.
El anlisis de varianza se usa para probar la igualdad de K medias poblacionales
y la forma general del planteamiento de las hiptesis es:


Dnde:
j
= Media de la j-sima poblacin.
La media general de las muestra, est representada por X , y es la suma de todas
las observaciones divida entre la cantidad total de las mismas, expresada de la
siguiente forma:
Media General:
t
K
j
n
i
ij
n
X
X
j

= =
=
1 1

Ecuacin No.15
Dnde:
K t
n n n n + + + = ...
2 1

Si el tamao de cada muestra es kn n n
T
= , , la ecuacin de la media general se
reduce a:
K
X
K
n
X
n
X
X
K
j
j
K
j
n
i
ij
t
K
j
n
i
ij
j j

= = = = =
= = =
1 1 1 1 1

Ecuacin No.16

En otras palabras, cuando los tamaos de muestra son iguales, la media general
muestral es justamente el promedio de las medias de las K muestras.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

54


Si supone que se ha tomado una muestra aleatoria simple de tamao
j
n de cada
una de las K poblaciones, se tiene:

=
ij
X es la i-sima observacin del grupo, nivel j.
=
j
n es el nmero de observaciones del grupo, nivel j.
= n es el total del nmero de observaciones en todos los grupos combinados.
= K Es el nmero total de grupos, niveles del factor de inters.
to. tratamien simo - j del muestra la de Media X
j
=

Pasos para la Realizar un anlisis de varianza.
1. Establecer la hiptesis nula y alterna.



2. Establecer el nivel de significancia
3. Realizar el ANOVA
4. Calcular el valor F o el valor crtico correspondiente al nivel de confianza
fijado con los grados de libertad.
5. Hallar el estadstico de prueba


6. Tomar la decisin teniendo en cuenta que:
crtico Valor
B
A
si H Rechaza
0
>



Grfico No. 18. Distribucin F.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

55


Ejemplo 1
Suponga que una empresa tiene tres dependencias diferentes en donde produce
tubos de iluminacin, y desea verificar el control de calidad en cuanto a duracin
se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada
factora y las somete a desgaste hasta que dejan de iluminar con los siguientes
resultados en horas:

Tabla No. 11. Observaciones por cada nivel
Observacin Planta 1 Planta 2 Planta 3 Total
1
2
3
4
5
6
85
75
82
76
71
85
71
75
73
74
69
82
59
64
62
69
75
67

J
X
79 74 66 73
2
J
S
34 20 32
J
S
5.83 4.47 5.66
J
n
6 6 6 18

=
n
J
iJ
X
!

474 444 396 1314

La media general es igual a:
73
3
219
18
66 74 79
3
1
= =
+ +
= =

=
J
J
J
n
X
X
Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una
media general (73). Para llevar a cabo la prueba de la igualdad de las medias de
la poblacin, se subdivide la variacin total en dos mediciones:
Diferencia entre los grupos.
Diferencia dentro de los grupos.
La varianza de la muestra total se particiona en la varianza dentro de las plantas y
la varianza entre las plantas, tal como se indica en el siguiente grfico:



Grfico No. 18. Distribucin F.

Variacin
Total (VT)
=
Variacin Dentro
del Grupo (VDG)
+
Variacin Entre
Grupo (VEG)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

56


Variacin total (VT)
( )
2
1 1

= =
=
k
j
n
i
ij
X X VT
Ecuacin No.17
( ) ( ) ( ) ( ) ( )
( ) ( )

= =
= +
+ + + + + + =
=
6
1
2 2
2 2 2 2
2
3
1
946 73 64 73 59
... 73 75 73 71 ... 73 75 73 85
i
ij
J
X X
VT

Variacin dentro del grupo (VDG)

( )

= =
=
k
j
n
i
j ij
X X VDG
1 1
2

Ecuacin No.18
( ) ( ) ( ) ( )
( ) ( )

= = = + +
+ + + + + +
=
3
1
6
1
2 2
2 2 2 2
430 .... 66 64 66 59
... 74 75 74 71 ... 79 75 79 85
j I
VDG

Variacin entre grupos (VEG)
( )

=
=
K
j
j j
X X n VEG
1
2

Ecuacin No.19
( ) ( ) ( ) ( )

=
= + + = =
3
1
2 2 2
2
6
516 73 66 6 73 74 6 73 79 6
J
X X n VEG

Se debe comprobar que la variacin total sea igual a la sumatoria de la variacin
entre y dentro de los grupos.
Puesto que K es el total de niveles comparados, existen (K-1) grados de libertad
asociados con la suma de cuadrados entre los grupos, niveles o tratamientos.
Como cada uno de los K niveles contribuye con ( 1
j
n ) grados de libertad, existen
(nk) grados de libertad asociados con la suma de cuadrados dentro de los
grupos.
Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se
obtienen tras varianzas o trminos cuadrticos medios, como se indica en el
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

57


siguiente cuadro:
Tabla No. 12. Componentes del anlisis de varianza
Variacin Suma cuadrados Grados libertad Cuadrado medio Distribucin F
Entre tratamiento
( )

=

K
j
j j
X X n
1
2

(K-1)
( )
A
K
VET
=
1

B
A

Dentro o error
( )

= =

k
j
n
i
j ij
X X
1 1
2

(n-K)
( )
B
k n
VDT
=



Total
( )
2
1 1

= =

k
j
n
i
ij
X X
(n-1)



Los resultados para el problema de anlisis es el siguiente:
Tabla No. 13. Resultados del anlisis de varianza
Variacin Suma cuadrados Grados
libertad
Cuadrado
medio
Distribucin
F
Entre
tratamiento
516 (K-1)= 2
00 . 258
2
516
= 99 . 8
67 . 28
258
=
Dentro o error 430 (n-K)=15
67 . 28
15
430
=

Total 946 (n-1)=17

En la Tabla de Distribucin F se determina el correspondiente valor crtico para el
numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad
de error tipo 1 o un nivel de significancia del 5%, que corresponde a 68 . 3
05 . 0
= F ,
significando que si se tuviera que seleccionar un valor al azar de una distribucin F
con 2 grados de libertad en el numerador y 15 en el denominador, slo el 5% de
las veces se obtendra un valor mayor que 3.68. Adems la teora del anlisis del
varianza indica que si es cierta la hiptesis nula, la relacin entre los cuadrados
medios entre y dentro de los tratamientos sera un valor dentro de esa distribucin,
tal que se rechaza si, el valor de dicha relacin es mayor que el valor crtico:
El valor de la relacin es superior al valor crtico, por tal razn se rechaza la
hiptesis nula consistente en que las medias poblacionales sean iguales.
crtico Valor
B
A
si H Rechaza
0
>

Para el caso la relacin es igual a 8.99 mayor que el valor crtico 3.68, entonces se
tienen pruebas suficientes para rechazar la hiptesis nula consistente en que las
( ) 1 n
VT
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

58


medias de las tres poblaciones son iguales. En otras palabras el anlisis de
varianza apoya la conclusin que las medias para la duracin de las bombillas es
diferente en las tres plantas.
El grfico para dicho planteamiento es el siguiente:

Grfico No. 19. Distribucin F.

Ejemplo: Anlisis de varianza

Suponga que dispone de un conjunto de rboles clasificados por altura (en
metros) y por especie, segn los siguientes datos:

Tabla No. 14. Altura de rboles segn especies
Especie Altura Especie Altura Especie Altura
A
B
C
A
B
D
E
D
C
C
8.52
6.45
7.41
7.15
8.73
7.55
6.54
7.74
8.65
8.81
B
A
A
E
B
B
D
C
C
B
8.52
6.43
6.21
7.07
8.83
8.53
7.84
8.59
7.41
8.94
A
E
A
C
A
B
C
D
B
B
8.13
7.17
8.40
8.87
6.12
8.91
8.81
7.40
8.19
8.56


Para ajustar la informacin a un modelo de anlisis de varianza, se considera
como variable respuesta la altura de los rboles en metros, y como nico factor la
variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado que se tiene un
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

59


modelo de un solo factor, se desea probar si las variadas especies de rboles
tienen igual o diferente promedio de altura con un nivel de significancia del 1%.
Primero se estiman las medias para cada una de las especies y la media total,
conforme al siguiente cuadro:

Tabla No. 15. Registro de estadsticos para diferentes especies
Especie A Especie B Especie C Especie D Especie E Total

8.52
7.15
6.43
6.21
8.13
6.12
6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
7.41
8.65
8.81
8.59
8.87
8.81
7.55
7.74
7.84
7.41
7.40
6.54
7.07
7.17

Sumas 42.56 84.06 51.14 37.94 20.78 236.48
Promedio 7.093 8.406 8.523 7.588 6.926 7.707
Observaciones 6 10 6 5 3 30

Gran media =
882666 . 7
30
48 . 236
30
.... ... 65 . 8 41 . 7 ... 76 . 8 45 . 6 ... 15 . 7 52 . 8
5
1 1
= =
+ + + + + + + + +
= =

= =
t
j
n
i
ij
n
X
X
j

Variacin total (VT) =
( ) ( ) ( ) ( ) ( ) 0741867 . 24 88 . 7 17 . 7 88 . 7 07 . 7 ... 88 . 7 12 . 6 ... 88 . 7 52 . 8
2 2 2 2
2
1 1
= + + + + + =

= =
k
j
n
i
ij
X X

Variacin dentro del grupo (VDG) =
( ) ( ) ( ) ( ) ( )
9584533 . 11
926 . 6 17 . 7 .... 523 . 8 41 . 7 ... 406 . 8 45 . 6 ... 09 . 7 52 . 8
2 2 2 2
1 1
2
=
+ + + + + + =

= =
k
j
n
i
j ij
X X



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

60


Variacin entre grupos (VEG) =
( ) ( ) ( ) ( ) 1157333 . 12 88 . 7 926 . 6 .... 88 . 7 406 . 8 88 . 7 093 . 7
2 2 2
1
2
= + + + =

=
K
j
j j
X X n

Para calcular el estadstico de prueba perteneciente a la distribucin F , se resume
en el siguiente cuadro:
Tabla No. 16. Clculos del cuadro de anlisis de varianza
Variacin Suma cuadrados Grados libertad Cuadrado medio Distribucin F
Entre tratamiento 12.1157333 (K-1)= 4 3.0289 6.332
Dentro o error 11.9584533 (n-K)=25 0.4783
Total 24.0741867 (n-1)=29

En la tabla F determina el correspondiente valor crtico para el numerador (k-1=
5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error tipo 1 o un
nivel de significancia del 1%, que corresponde a 18 . 4
01 . 0
= F . Para el caso la
relacin es igual a 6.332 mayor que el valor crtico 4.18, entonces se tienen
pruebas suficientes para rechazar la hiptesis nula consistente en que las medias
de las cinco variedades de rboles son iguales. En otras palabras el anlisis de
varianza apoya la conclusin que las medias para la altura de las diferentes
especies de rboles es diferente.

Leccin 23. Comparacin Mltiple de Medias (Pruebas a
Posteriori)
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles medias que podra ser diferente al rechazar la hiptesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el
rango (diferencia entre medias) de todos los pares de muestras como estadstico y
dicho rango debe superar un cierto valor llamado mnimo rango significativo para
considerar la diferencia significativa.
La principal diferencia con respecto a la t-student radica en que usan MSE como
estimador de la varianza, es decir un estimador basado en todas las muestras.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

61


Leccin 24. Anlisis de varianza con dos factores (diseo de
bloques aleatorizados).
Con frecuencia interesa analizar los efectos de dos tipos de factores o
tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno
llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y el
otro, denominado F (lo que sugiere fila) consistente en J tratamientos diferentes.
Se admite que respecto al j-simo tratamiento de F y el K-simo tratamiento de C,
existen cuatro componentes as:
ijk j i ijK
X + + + = o |
Ecuacin No.20
Dnde:



La varianza total de la muestra se particiona en la varianza entre las filas, varianza
entre columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para
este modelo, los clculos del anlisis de la varianza para las sumas de los
cuadrados son idnticos a los realizados en el modelo de un solo factor, tan solo
que se calculan variaciones para el factor de fila, de columna y para el error
aleatorio. De manera anloga, los grados de libertad y los cuadrados medios son
los mismos. A continuacin se indica el cuadro resumen para el anlisis de
varianza de dos factores:

Tabla No. 17. Anlisis de varianza para dos factores
Fuente de
variacin
Suma de los cuadrados, SC Grados de
Libertad, gl
Media cuadrtica,
MC
Relacin F
Entre los grupos
o columnas (j)

=
|
.
|

\
|
=
C
j
j X X r VEC
1
2
.

1 c
1
=
c
VEC
MCA

MCE
MCA
F =

Entre los bloques
o filas (i)

=
|
.
|

\
|
=
r
i
i X X c VEF
11
2
.

1 r
1
=
r
VEF
MCB

MCE
MCB
F =
Error de
muestreo, E
( )

= =
+ =
c
j
r
i
i j
ij
X X X X VE
1 1
2
. .

( )( ) 1 1 c r
( )( ) 1 1
=
c r
VE
MCE


Total, T

= =
|
.
|

\
|
=
c
j
r
i
ij
X X VT
1 1
2

1 rc

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

62


La definicin de los trminos del cuadro son los siguientes:
nes. observacio de total Nmero n
grupos. de nmero El c
bloques. de nmero El r
. gran total al e equivalent
grupos, los todos de y bloques los todos de valores los de sumatoria La X
j. grupo del to tratamien el para valores los todos de media La X
i. bloque el en valores los todos de media La
simo. - i grupo del to tratamien el para simo - i bloque del Valor
1 1
ij
j
=
=
=
= =
=
=
=

= =
X
X
X
c
j
r
i
i
ij

Para contrastar los efectos de los factores en el modelo, se construye un
estadstico que se compara los cuadrados medios, que bajo la hiptesis nula sigue
una distribucin F.
Ejemplo

Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que la produccin es afectada
por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los
diferentes tratamientos afectan la produccin por parcela, y la produccin es la
siguiente:
Tabla No. 19. Rendimientos en kilos por parcela
Tratamiento RENDIMIENTO EL KILOS
Parcela 1 Parcela 2 Parcela 3 Parcela 4 Total Medias
A
B
C
D
E
F
70
77
76
80
84
78
61
75
67
63
66
68
82
88
90
96
92
98
74
76
80
76
84
86
287
316
313
315
326
330
71.75
79.00
78.25
78.75
81.50
82.50
Totales 465 400 546 476 1.887
Medias 77.50 66.67 91.00 79.33 78.625

Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y
los promedios por tratamientos o bloques (insumo y manteniendo), as como la
gran media se indican en el cuadro.
Adems de las estadsticas representadas en el cuadro, se tiene:
24 rc n 4; c ; 6 = = = = r
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

63


625 , 78
24
887 . 1
1 1
= = =

= =
rc
X
X
c
j
r
i
ij

Para determinar los resultados del experimento de diseos de bloques
aleatorizados con fines ilustrativos, se hacen los siguientes clculos:
Variacin Total de Cuadrados:
( )

= =
=
c
j
r
i
ij
X X VT
1 1
2

( ) ( ) ( ) 63 , 295 . 2 625 , 78 86 ... 625 , 78 77 625 , 78 70
2 2 2
= + + + =

Variacin entre grupos o columnas:
( )

=
=
C
j
j X X r VEC
1
2
.
Ecuacin No.21

( ) ( ) ( ) | | 46 , 787 . 1 625 , 78 33 . 79 ... 625 , 78 67 . 66 625 , 78 5 . 77 6
2 2 2
= + + + =

Variacin entre bloques o filas:
( )

=
=
r
i
i X X c VEF
11
2
.
Ecuacin No.22
( ) ( ) ( ) | | 38 , 238 625 , 78 5 . 82 ... 625 , 78 79 625 , 78 75 . 71 4
2 2 2
= + + + = VEF

Variacin del error de muestreo:
( )

= =
+ =
c
j
r
i
i j
ij
X X X X VE
1 1
2
. .
Ecuacin No.23
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

64


( )
( )
( )
244.79
78,625 82.50 - 79.33 - 86
.
.

625 , 78 00 . 79 50 . 77 77
625 , 78 75 . 71 5 . 77 70
2
2
2
=
+ +
+
+ +
+ + = VE


Los medios o promedios cuadrticos, se calculan as:
82 , 595
1 4
46 , 787 . 1
1
=

=
c
VEC
MCA

676 , 56
1 6
38 . 283
1
=

=
r
VEF
MCB

( )( ) ( )( )
986 , 14
15
79 . 224
1 4 1 6
79 . 224
1 1
= =

=

=
c r
VE
MCE


Los clculos anteriores se pueden resumir en el siguiente cuadro:
Tabla No. 20. Resultados del anlisis de varianza para dos factores
Fuente Suma de
cuadrados
Grados
libertad
Cuadrado medio
(varianza)
F
Entre grupos
1.787.46

4-1=3
595,820
3
46 . 787 . 1
=
= VEC

39,758
986 , 14
82 . 595
=
= F

Entre
Bloques

283.38

6-1=5

56,676
5
38 . 283
=
= VEF

3,782
986 , 14
676 , 56
=
= F

Error
224.79

(6-1)(4-1)=15

Total 2.295.63 (6)(4)-1=23



14,986
15
79 . 224
=
= VE
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

65


Adems de los registros anteriores, en las tablas ANOVA de los diferentes
paquetes de software estadsticos, incluyen el p-valor que consiste en la
probabilidad de obtener un estadstico F igual o mayor a la obtenida dado que la
hiptesis nula sea verdadera, es decir, si el p- valor es menor que el nivel
especificado de significancia o , la hiptesis nula es rechazada. Para nuestro caso
se utiliza la informacin contenida en el cuadro anterior.
Si se desea probar las diferencias entre los rendimientos de las parcelas con un
nivel de significancia del 5%, la regla de decisin consiste en rechazar la hiptesis
nula ( )
4 3 2 1
: = = =
o
H si el valor F calculado es mayor que 3.29 (Ver tabla F
con 3 grados de libertad en el numerador y 15 grados en el denominador). Para el
caso F = 39,758 es mayor que el valor crtico 3.29, entonces se rechaza la
hiptesis nula y se llega a la conclusin que existe evidencia de una diferencia
entre la produccin promedio de las diferentes parcelas, como se puede apreciar
en el siguiente grfico:

Grfico No. 20. Regin de aceptacin de hiptesis

Como una verificacin de la efectividad de la utilizacin de insumos, se puede
probar la diferencia de efectividad de los diferentes insumos aplicados. La regla de
decisin utilizando un nivel de significancia del 5%, sera la de rechazar la
hiptesis nula ( )
6 5 4 3 2 1
: = = = = =
o
H si el valor F calculado excede a
2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el
denominador). Para el caso el valor F = 3,782 es mayor al valor crtico, lo que se
concluye que la utilizacin de los diferentes insumos, produce diferencia
significativa entre los promedios de produccin para las parcelas, y que la
conformacin de dichos bloques es ventajosa para reducir el error experimental,
situacin que se presenta en el siguiente grfico:


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

66



Grfico No. 21. Regin de aceptacin de hiptesis

Leccin 25. Anlisis de varianza de dos factores con interaccin.
(Diseo factorial).

Se ha visto hasta ahora el anlisis de varianza de una direccin o el modelo de
diseo completamente aleatorizado, despus el modelo de diseo de bloque
aleatorizado, y en la presente seccin el anlisis de varianza de dos factores con
interaccin.
Con el propsito de desarrollar el procedimiento de la prueba F, se define a
continuacin los siguientes trminos:
'
'
.j.
i..
ij
r.c.n n (con o experiment del nes observacio de total Nmero n
celda. cada para replicas) valores( de Nmero n
B. factor del niveles de Nmero c
A. factor del niveles de Nmero r
columnas. y hileras las en todas valores los todos de Gran total GT
B. factor del j columna la de valores los de Suma X
A. factor del i hilera la de valores los de Suma X
B. factor del j nivel del y A factor del i nivel del nes observacio (las ij celda la de valores los de Suma X
B. factor del j nivel del A t factor del i nivel del n observaci sima - k la de Valor
= =
=
=
=
=
=
=
=
=
ijk
X

Con fines ilustrativos se hacen planteamientos tanto conceptuales como de
clculos para la descomposicin de la variacin total necesaria para el desarrollo
del procedimiento de la prueba F. Debido a la gran cantidad de clculos se
recomienda que dicho proceso sea llevado por el paquete de software analizado
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

67


ms adelante.
Tabla resumen para el anlisis de varianzas de dos vas con ms de una
observacin por clula se resume en el siguiente cuadro:

Tabla No. 21. Resumen de anlisis de varianza de dos vas
Fuente de
variacin
Suma de los cuadrados,
SC
Grados de
libertad, gl
Media cuadrtica,
MC
Relacin F
Entre grupos
de tratamiento
A
( )
'
2
1
'
2
..
rcn
GT
cn
X
VEGA
r
i
i
=

=

1 r
1
=
r
VEGA
MCA
MCE
MCA
F =
Entre grupos
de
tratamiento, B
( )
'
2
1
'
2
. .
rcn
GT
rn
X
VEGB
c
j
j
=

=


1 c
1
=
c
BEGB
MCB
MCE
MCB
F =
Interaccin
entre factores
A y B.
( )
'
2
1
'
2
. .
1
'
2
..
1 1
'
2
rcn
GT
rn
X
cn
X
n
X
VEAB
c
j
j
r
i
i
r
i
c
j
ij
+
=


=
= = =


( )( ) 1 1 c r
( )( ) 1 1
=
c r
VEABI
MCC
MCE
MCI
F =
Error de
muestreo, E

( ) 1
'
n rc
( ) 1
'

=
n rc
VE
MCE

Total, T
( )

= = =
=
r
i
c
J
n
K
ijk
rcn
GT
X VT
1 1 1
'
2
2
'

1
'
rcn



Ejemplo

Para ilustrar el modelo factorial de dos factores, suponga que UD como dueo y
propietario de una cadena de supermercados est interesado en saber el efecto
de la colocacin de los estantes en la venta de un producto. Para ello estudia 4
posibles lugares distintos donde colocar los estantes: Colocacin normal entre el
pasillo(A), colocacin ingreso del pasillo (B), colocacin a la entrada del pasillo con
impulsadora (C) y colocacin normal con propaganda (D). Se toman ventas
aleatorias en las jornadas de la maana, tarde y noche y los resultados de las
ventas semanales se resumen en la siguiente tabla:





= = = =
=
r
i
c
j
n
k
r
i
c
j
ij
ijk
n
X
X VE
1 01 1 1 1
'
2
. 2
'
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

68


Tabla No. 22. Colocacin de productos en un estantes durante jornadas
JORNADA COLOCACIN ESTANTE
A B C D Totales Medias
Maana 45
50
56
63
65
71
48
53
451 56,375
Tarde 57
65
69
78
73
80
60
57
539 67,375
Noche 70
78
75
82
82
89
71
75
622 77,750
Totales 365 423 460 364 1.612
Medias 60.83 70.50 76.67 60.67 67,167


Se tiene la siguiente informacin:
2
4
3
'
=
=
=
n
c
r

622
539
451
.. 3
.. 2
.. 1
=
=
=
X
X
X

364
460
423
365
. 4 .
. 3 .
. 2 .
. 1 .
=
=
=
=
X
X
X
X

101
136
119
95
. 14
. 13
. 12
. 11
=
=
=
=
X
X
X
X

117
153
147
122
. 24
. 23
. 22
. 21
=
=
=
=
X
X
X
X

146
171
157
148
. 34
. 33
. 31
. 31
=
=
=
=
X
X
X
X

612 . 1 = GT

= = =
= + + + =
r
i
c
j
n
k
ijk
X
1 1
2 2 2
1
2
550 . 111 75 ... 50 45
'

( )( )
75 , 100 . 110
2 4
622 539 451
2 2 2
1
'
2
..
=
+ +
=

=
r
i
i
cn
X

( )( )
375 . 109
2 3
364 460 423 365
2 2 2 2
1
'
2
. .
=
+ + +
=

=
c
j
j
rn
X

( )
292 . 111
2
146 ... 119 95
2 2 2
1 1
'
2
.
=
+ + +
=

= =
r
i
c
j
ij
n
X

( )
( )( )( )
66 . 272 . 108
2 4 3
612 . 1
2
'
2
= =
rcn
GT



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

69


Variacin Total de Cuadrados:
( )
34 . 277 . 3 66 . 272 . 108 550 . 111
1 1 1
'
2
2
'
= = =

= = =
r
i
c
J
n
K
ijk
rcn
GT
X VT


Variacin entre grupos del tratamiento A:
( )
09 . 828 . 1 66 . 272 . 108 75 . 100 . 110
'
2
1
'
2
..
= = =

=
rcn
GT
cn
X
VEGA
r
i
i


Variacin entre grupos del tratamiento B:
( )
34 . 102 . 1 66 . 272 . 108 375 . 109
'
2
1
'
2
. .
= = =

=
rcn
GT
rn
X
VEGB
c
j
j


Variacin entre los factores A y B:
( )
88.91 108.272.66 109.375 - 110.100.75 - 111.292
'
2
1
'
2
. .
1
'
2
..
1 1
'
2
= + =
+ =

= = = =
rcn
GT
rn
X
cn
X
n
X
VEAB
c
j
j
r
i
i
r
i
c
j
ij


Variacin del error de muestreo:
( )
258 292 . 111 550 . 111
1 1 1
'
2
2
'
= = =

= = =
r
i
c
J
n
K
ijk
rcn
GT
X VT

Para el clculo de las varianzas se utilizan las siguientes relaciones:
045 . 914
1 3
09 . 828 . 1
1
=

=
r
VEGA
MCA

447 . 367
1 4
34 . 102 . 1
1
=

=
c
BEGB
MCB

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

70


( )( ) ( )( )
818 , 14
1 4 1 3
91 . 88
1 1
=

=

=
c r
VEABI
MCC

( ) ( )( )( )
5 . 21
1 2 4 3
258
1
'
=

=
n rc
VE
MCE

Los clculos anteriores se resumen en el siguiente cuadro:
Tabla No. 23. Resumen de anlisis de varianza de dos vas
Fuente de variacin Suma de los
cuadrados, SC
Grados de libertad,
gl
Media
cuadrtica, MC
Relacin
F
Entre grupos de
tratamiento A

1.828.09

2 1 3 =

914.045

42.51
Entre grupos de
tratamiento, B

1.102.34

3 1 4 =

367.447

17.09
Interaccin entre
factores A y B.

88.91

( )( ) 6 1 4 1 3 =

14.818

0.69
Error de muestreo, E 258
( )( )( ) 12 1 2 4 3 =
21.5
Total, T 3.277.34
( )( )( ) 23 1 2 4 3 =


Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las
ventas en las diferentes jornadas (maana, tarde, noche), la regla de decisin es
la rechazar la hiptesis nula (
r
H = = = ... :
2 1 0
) si el valor calculado para F
(42.51) es mayor que 3.49 (observar tabla F para 2 grados de libertad en el
numerador y 12 grados de libertad en el denominador); se rechaza la hiptesis
nula y se llega a la conclusin que existe evidencia que entre las diferentes
jornadas las ventas en promedio son diferentes.
As mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna
diferencia entre la ubicacin de los estantes, la regla de decisin es rechazar la
hiptesis nula (
c
H = = = ... :
2 1 0
), si el valor calculado F (17.09) es mayor que
3.49 (observar tabla F para 3 grados de libertad en el numerador y 12 grados de
libertad en el denominador); se rechaza la hiptesis nula y se concluye que existe
una diferencia entre los promedios de ventas para la colocacin de los diferentes
estantes en el almacn.
Finalmente se puede probar si existe algn efecto de interaccin entre el factor A
(ventas en las diferentes jornadas) y el factor B (colocacin de los estantes).
Utilizando un nivel de significancia del 5%, la regla de decisin es rechazar la
hiptesis nula ( j y i todo para , 0 =
ij
AB ), si el valor calculado F (0.69) es mayor que
3.0 (observar tabla F para 6 grados de libertad en el numerador y 12 grados de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

71


libertad en el denominador); no se rechaza la hiptesis nula y se concluye que no
existe evidencia de un efecto de interaccin entre las jornadas del da y la
colocacin de los estantes.

INTERPRETACIN DE LOS EFECTOS DE LA INTERACCIN
Se ha realizado hasta ahora las pruebas para la significacin del factor A, del
factor B y de la interaccin, corresponde entender en mejor forma el concepto de
interaccin, si se grafica las medias, empleando la siguiente frmula:
'
n
X
X
ij
ij
=

5 . 50
2
101
2
136
2
119
5 . 47
2
95
. 14
. 13
. 12
. 11
= =
=
=
= =
X
X
X
X

5 . 58
2
117
5 . 76
2
153
5 . 73
2
147
0 . 61
2
122
. 24
. 23
. 22
. 21
= =
= =
= =
= =
X
X
X
X

0 . 73
2
146
5 . 85
2
171
5 . 78
2
157
0 . 74
2
148
. 34
. 33
. 32
. 31
= =
= =
= =
= =
X
X
X
X

Se procede a graficar las ventas semanales promedio de cada jornada y de cada
colocacin de la estantera, como se indica a continuacin:
Grfico No. 22. Ventas de producto en tres jornadas


40
45
50
55
60
65
70
75
80
85
90
Maana Tarde Noche
V
e
n
t
a
s

Jornada
Ventas Jornada maana-tarde-noche
A
B
C
D
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

72


Las cuatro lneas representan las colocaciones de las estanteras aparecen
apuntando casi representando en la misma direccin, lo que significa que la
diferencia en las ventas entre las cuatro colocaciones de los estantes es
virtualmente la misma para las ventas de las diferentes jornadas. En otras
palabras, no existe interaccin entre los dos factores (jornada y estantera), como
claramente se evidenci en la prueba F vista anteriormente.
Cul es la interpretacin si se presenta el efecto de interaccin? En tal situacin,
algunos niveles del factor A responden mejor con ciertos niveles del factor B; por
ejemplo, suponga que algunas colocaciones en los estantes fueran mejor para las
jornadas. Si este fuera el caso, las lneas de la figura no estaran apuntando en la
misma direccin que las hace casi paralelas y el efecto de interaccin sera
estadsticamente significativo, y por consiguiente, las diferencias entre las
diferentes localizaciones de estantes no seran las mismas para las diferentes
jornadas.
















UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

73


EJERCICIOS COMPLEMENTARIOS
1. Un inspector de un distrito escolar quiere estudiar el ausentismo de los
profesores de diversos grados escolares. Se seleccionaron muestras aleatorias de
profesores en escuelas primarias, secundarias, y preparatorias, y el nmero de
das de ausencia el ao anterior fue como sigue:
Primaria Secundaria Preparatoria
7 13 7
4 14 2
10 9 6
6 8 9
5 7 9
10
Con un nivel de significancia de .025, determine si hay una diferencia en el
ausentismo entre los diversos grados.
2. El propietario de una distribuidora de combustible pretende investigar la
rapidez con la cual le pagan sus facturas en tres reas suburbanas. Se
seleccionaron muestras de clientes en cada zona y se registr el nmero de das
entre la entrega y el pago de la factura, con los siguientes resultados:
rea 1 rea 2 rea 3
8 10 32
18 16 8
14 28 16
20 25 27
12 7 17
14 17 20
15 19
16 21
20
Con un nivel de significancia de .025, determine si hay una diferencia en la
rapidez con que pagan las facturas en estas tres reas.
3. Un agrnomo desea estudiar el rendimiento (en libras) de cuatro variedades
diferentes de calabacitas. Se dividi una parcela en 16 lotes y se asignaron cuatro
lotes al azar a cada variedad. Los resultados del experimento (en libras) fueron


UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

74


Calabacita
redonda
Calabacita
comn
Calabaza
alargada
Calabacita
rayada
86 40 30 48
74 48 36 54
88 54 42 42
76 46 34 56
Con un nivel de significancia de .01, determine si hay una diferencia en el
rendimiento de las diferentes variedades de calabacitas.
4. Un distribuidor de automviles nuevos quiere estudiar la cantidad de dinero
aplicado a la compra de equipo opcional en automviles de tamao grande. Se
seleccion una muestra de 20 compras. Los sujetos se dividieron en las siguientes
clasificaciones por edades: 18-24, 25-29, 30-39, 40-59, 60 y ms. La cantidad de
equipo opcional comprado (en miles de pesos) se organiz en grupos de edad
como sigue:
Edad
18-24 25-29 30-39 40-59 60 y ms
6.31 7.64 8.37 11.23 6.74
4.27 5.36 9.26 10.64 7.36
5.75 3.85 10.16 8.32 5.12
6.24 6.48 9.00
7.86 7.53
Con un nivel de significancia de .05, determine si hay una diferencia en la
cantidad de dinero aplicado a la compra de equipo opcional en automviles
nuevos entre los diferentes grupos de edad.
5. Los alumnos de la clase de mercadotecnia calificaron el desempeo del
profesor como excelente, bueno, malo y psimo. Las calificaciones que dieron los
estudiantes al profesor fueron comparadas con sus calificaciones finales del curso
de mercadotecnia. Lgicamente, se pensara que en general, los estudiantes que
calificaron al profesor con excelente tendran una calificacin final mucho ms alta
que los que lo calificaron como bueno, malo o psimo. Esto supondra tambin
que quienes calificaron al docente como psimo obtendran las calificaciones mas
bajas. Se seleccionaron muestras de calificaciones finales de los alumnos por
cada tipo de calificacin dada al maestro.
Calificaciones finales de la clase de Mercadotecnia
Excelente Bueno Malo Psimo
94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

75


68 65
65
Se pretende determinar si hay una diferencia estadstica entre la calificacin
promedio obtenida por los estudiantes de acuerdo a la calificacin otorgada al
maestro. Utilice un nivel de significancia de .01
6. En un esfuerzo por determinar la ms efectiva manera de ensear
principios de seguridad a un grupo de empleados de una compaa, cuatro
diferentes mtodos fueron tratados. Veinte empleados fueron asignados
aleatoriamente a cuatro grupos. El primer grupo recibi instruccin programada en
folletos y trabajaron a lo largo del curso a su propio paso. El segundo grupo
atendi lecturas. El tercer grupo observ presentaciones en televisin, y el cuarto
fue dividido en pequeos grupos de discusin. Al final de las sesiones, una prueba
fue aplicada a los cuatro grupos. Los resultados fueron:
Calificaciones
Instruccin
programada
Lecturas Televisin Grupos de
discussion
6 8 7 8
7 5 9 5
6 8 6 6
5 6 8 6
6 8 5 5
Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro
medias.
7. Una revista para consumidores est interesada en saber si existe o no
alguna diferencia en la duracin promedio de cuatro marcas diferentes de pilas
para radios de transistores. Se prob una muestra aleatoria de cuatro pilas de
cada marca, con los siguientes resultados (en horas):
Marca 1 Marca 2 Marca 3 Marca 4
12 14 21 14
15 17 19 21
18 12 20 25
10 19 23 20
Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la
duracin promedio de estas cuatro marcas de pilas para radios de transistores
8. Un psiclogo industrial querra determinar el efecto del consumo de
bebidas alcohlicas sobre la capacidad mecanogrfica de un grupo de secretarias.
Se asignaron en forma aleatoria cinco secretarias a cada uno de los tres niveles
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

76


de consumo y a cada una de las tres diferentes bebidas. Se dieron a cada
secretaria las mismas instrucciones para mecanografiar la misma pgina. Se
registr el nmero de errores cometido por cada secretaria con los siguientes
resultados
Consumo de alcohol
1 onza 2 onzas 3 onzas
Tequila Brandy Ron Tequila Brandy Ron Tequila Brandy Ron
2 3 4 7 5 9 10 8 12
5 4 4 5 6 4 6 7 5
3 4 4 6 4 8 10 8 12
6 5 4 3 4 2 12 13 11
4 5 4 9 7 11 12 10 12
Con un nivel de significancia de .01, pruebe las siguientes hiptesis:
- Es diferente la cantidad de errores dependiendo de la cantidad de bebida.
- Es diferente la cantidad de errores dependiendo del tipo de bebida.
- Es diferente la cantidad de errores dependiendo de la interaccin de las
dos variables.
9. El gerente de menudeo de una cadena de tiendas desea determinar si la
ubicacin del producto tiene o no algn efecto sobre la venta de juguetes de
peluche en forma de animales. Se van a considerar tres ubicaciones diferentes en
el pasillo: frente, centro y atrs. Se seleccion una muestra de 18 tiendas y se hizo
una asignacin aleatoria en seis tiendas para cada ubicacin en el pasillo. Los
juguetes estaban presentados en cuatro figuras de animales diferentes. Al final de
un periodo de prueba de una semana las ventas de los productos fueron como
sigue:
frente centro Atrs
osos perros gatos len osos perros gatos len osos Perros gatos len
86 81 76 71 20 16 19 24 46 51 56 56
72 77 82 87 32 36 32 29 28 24 20 21
54 49 44 39 24 20 23 28 60 65 68 66
40 45 50 55 18 22 18 15 22 18 16 19
50 45 40 35 14 10 13 18 28 33 34 30
62 67 72 77 16 20 16 13 40 36 36 41
Con un nivel de significancia de .01 pruebe las siguientes hiptesis:
- Las ventas en las diferentes ubicaciones del pasillo son diferentes
- Las ventas de las diferentes figuras de animales son diferentes
- Las ventas son diferentes debido a la interaccin de las dos variables.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

77


10. El departamento de nutricin de cierta universidad lleva a cabo un estudio
para determinar si hay diferencia o no en el contenido de cido ascrbico entre
tres diferentes marcas de concentrado de jugo de naranja. Se hacen cuatro
pruebas de los tres tipos de concentrado de jugo de naranja que fue congelado
durante tres periodos de tiempo diferentes (en das). Los resultados, en
miligramos de cido ascrbico por litro, son los siguientes:
MARCA TIEMPO ( DAS )
0 3 7
RICA 52.6 54.2 49.4 49.2 42.7 48.8
49.8 46.5 42.8 53.2 40.4 47.6
BUENA 56.0 48.0 48.8 44.0 49.2 44.0
49.6 48.4 44.0 42.4 42.0 43.2
BARATA 52.5 52.0 48.0 47.0 48.5 43.3
51.8 53.6 48.2 49.6 45.2 47.6
Utilice un nivel de significancia de .05 para probar la hiptesis de que:
- Los contenidos de cido ascrbico por marca de jugo son diferentes
- Los contenidos de cido ascrbico por tiempo de congelamiento son
diferentes
- Los contenidos de cido ascrbico son diferentes debido a la interaccin de
las dos variables.
11. Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones
ambientales en una prueba de laberinto. Las calificaciones de error para las 48
ratas se registran a continuacin:
Camada Ambiente
Libre Restringido
Brillante 28 22 25 36 72 25 32 93
12 23 10 86 48 91 31 19
Mezclada 36 33 41 22 60 35 83 99
83 14 76 58 89 126 110 118
Lenta 101 33 122 35 136 38 64 87
94 56 83 23 120 153 128 140

Utilice un nivel de significancia de .05 para probar la hiptesis de que:
- Las calificaciones de error para las camadas son diferentes
- Las calificaciones de error para los ambientes son diferentes
Las calificaciones de error son diferentes debido a la interaccin de las dos
variables
12. Considere la combinacin de dos factores en la eliminacin de mugre en
cargas estndar de lavandera. El primer factor es la marca del detergente, X, Y o
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

78


Z. El segundo factor es la temperatura del agua, caliente o tibia. El experimento se
replica seis veces. La respuesta es el porcentaje de eliminacin de mugre. Los
datos son los siguientes:
Marca Temperatura
Caliente Caliente
X 85 88 80 82 83 85
78 75 72 75 75 73
Y 90 78 76 86 88 76
92 92 76 88 76 77
Z 85 60 70 76 74 78
87 88 68 55 57 54
Utilice un nivel de significancia de .05 para probar la hiptesis de que:
- Los porcentajes de eliminacin de mugre son diferentes dependiendo del
detergente.
- Los porcentajes de eliminacin de mugre son diferentes dependiendo de la
temperatura.
- Los porcentajes de eliminacin de mugre son diferentes debido a la
interaccin de las dos variables.
13. Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos
grupos de estudiantes que participan en deportes universitarios, el primer grupo
est formado por estudiantes que practicaron deporte en la preparatoria, mientras
que el segundo est formado por estudiantes que no practicaron deporte en la
preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes:
GRUPO 1 GRUPO 2
GIMNASIA FUTBOL GIMNASIA FUTBOL
55 56 59 40 58 86 48 55
63 59 58 70 58 65 54 56
50 52 52 43 51 55 42 32
69 28 77 37 79 45
60 51 45 32
Utilice un nivel de significancia de .01 para probar la hiptesis de que:
- El rendimiento motor es diferente dependiendo del grupo
- El rendimiento motor es diferente dependiendo del deporte
- El rendimiento motor es diferente debido a la interaccin de las dos variables.
14. La asociacin de egresados de la escuela Mao Meno, sospecha que sus
miembros reciben en promedio un sueldo inferior al ingreso de los egresados de la
escuela Much A. Money. Para comprobarlo se obtuvieron muestras de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

79


egresados de ambas escuelas. La informacin que se obtuvo fue la siguiente: (en
miles de pesos)
MAO MENO MUCH A. MONEY
CRIMINOLOGA PSICOLOGA CRIMINOLOGA PSICOLOGA
5.0 3.2 5.5 7.5
5.5 3.5 3.5 5.5
4.5 4.5 9.5 4.5
3.5 8.2 3.4 8.5
7.5 6.6 6.8 3.2
Utilice un nivel de significancia de .01 para probar la hiptesis de que:
- El ingreso es diferente dependiendo de la escuela
- El ingreso es diferente dependiendo de la carrera
- El ingreso es diferente debido a la interaccin de las dos variables.
15. En una secundaria se formaron al azar dos grupos de estudiantes,
formados por alumnos de todos los grados. En un grupo se utiliz un nuevo
mtodo de enseanza. En el otro se utilizaron los mtodos tradicionales. Las
calificaciones al final del curso fueron las siguientes:
MTODO TRADICIONAL MTODO NUEVO
PRIMERO SEGUNDO TERCERO PRIMERO SEGUNDO TERCERO
8 9 8.5 8 8 7.5
6.5 10 10 7 10 8.5
7 8 9 5 10 7.5
8 7 8.5 8 9 8
6 7.5 8 7 8.5 9
8 8 8 7.5 9 9
Utilice un nivel de significancia de .025 para probar la hiptesis de que:
- Las calificaciones son diferentes dependiendo del mtodo
- Las calificaciones son diferentes dependiendo del grado
- Las calificaciones son diferentes debido a la interaccin de las dos variable





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

80


CAPITULO SEIS: PRUEBAS NO PARAMETRICAS
Introduccin
Uno de los problemas ms difciles para el principiante y para el investigador
experimentado, es decidir cul de las pruebas estadsticas es la ms adecuada
para analizar un conjunto de datos. La aplicacin de la estadstica en el anlisis de
datos es muy amplia y las reas en las que se aplica son diversas, desde las
ciencias exactas hasta las ciencias sociales. La seleccin de la prueba estadstica
necesaria para el caso, depende de varios factores, en primer lugar se debe saber
cul es la escala con la que se estn midiendo los datos que se analizarn, pues
no se puede aplicar la misma prueba estadstica para el caso en que la variable de
inters sea el peso de un producto que cuando lo es la profesin del usuario de un
producto.
Queremos introducir en este parte la nocin de pruebas no paramtricas como
aquellas que no presuponen una distribucin de probabilidad para los datos, por
ello se conocen tambin como de distribucin libre. En la mayor parte de ellas los
resultados estadsticos se derivan nicamente a partir de procedimientos de
ordenacin y recuento, por lo que su base lgica es de fcil comprensin. Cuando
trabajamos con muestras pequeas (n < 10) en las que se desconoce si es vlido
suponer la normalidad de los datos, conviene utilizar pruebas no paramtricas, al
menos para corroborar los resultados obtenidos a partir de la utilizacin de la
teora basada en la normal.
En estas tcnicas, solamente se necesitan conocimientos elementales de
matemticas, pues los mtodos son relativamente ms sencillos que en las
pruebas paramtricas. En estas pruebas, tambin se tienen supuestos, pero son
pocos y no tienen que ver con la naturaleza de la distribucin de la poblacin, por
lo que a estas tcnicas tambin se les conoce como de libre distribucin.
En general el nico supuesto que se debe cumplir en la mayora de las pruebas no
paramtricas para confiar en ellas, es que la muestra haya sido seleccionada en
forma probabilstica.
Las pruebas que se mencionarn son las que se podran necesitar con mayor
frecuencia, se mencionarn sus principales caractersticas y aplicaciones.



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

81


Objetivo general.
Contrastar la validez de hiptesis o conjetura sobre la relacin entre variables y
sobre las distribuciones de probabilidad terica que adoptan dichas variables, sin
sujetarse a los condicionamientos de la validez de supuestos paramtricos.

Objetivos especficos.

- Examinar que se entiende por hiptesis y por prueba de hiptesis No
paramtricas.
- Realizar pruebas No paramtricas para una variable y para datos pareados
- Realizar pruebas sobre la bondad de ajustes de variables a distribuciones
de probabilidad terica de carcter cuantitativas.
- Realizar pruebas de hiptesis para datos que se encuentran en una escala
nominal u ordinal con aplicacin de la distribucin chi- cuadrado.
- Realizar pruebas sobre la relacin entre dos y ms variables poblacionales.














UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

82


Leccin 26. Generalidades
Las pruebas de hiptesis hacen inferencias respecto a los parmetros de la
poblacin, como la media. Estas pruebas paramtricas utilizan la estadstica
paramtrica de muestras que provinieron de la poblacin que se est probando.
Para formular estas pruebas, se hace suposiciones restrictivas sobre las
poblaciones de las que se extraen las muestras. Por ejemplo: se supona que las
muestras eran grandes o que provenan de poblaciones normalmente distribuidas.
Pero las poblaciones no siempre son normales.
Los estadsticos han desarrollado tcnicas tiles que no hacen suposiciones
restrictivas respecto a la forma de las distribuciones de las poblaciones. stas se
conocen como pruebas sin distribucin, o pruebas no paramtricas. Las hiptesis
de una probabilidad no paramtrica se refieren a algo distinto del valor de un
parmetro de poblacin



Ventajas de los mtodos no paramtricos.

1. No requieren que hagamos la suposicin de que una poblacin est
distribuida en forma de curva normal u otra forma especfica.

2. Generalmente, son ms fciles de efectuar y comprender.

3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificacin formal.

Desventajas de los mtodos no paramtricos.

1. Ignoran una cierta cantidad de informacin

2. A menudo, no son tan eficientes como las pruebas paramtricas. Cuando
usamos pruebas no paramtricas, efectuamos un trueque: perdemos
agudeza al estimar intervalos, pero ganamos la habilidad de usar menos
informacin y calcular ms rpidamente.
Pruebas no paramtricas son procedimientos estadsticos que pueden
utilizarse para contrastar hiptesis cuando no son posibles lo supuestos
respecto a los parmetros o a las distribuciones poblacionales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

83


Leccin 27. Prueba de Bondad de Ajuste de Ji-cuadrado



La pruebas de Bondad de Ajuste ji-cuadrado (

) tiene como objetivo verificar si


los datos de una muestra se asocian a una distribucin terica, para variables
cuantitativas discretas y continuas.
A continuacin se establece la prueba
2
para bondad de ajuste. Supngase que
al realizar un experimento aleatorio n veces, se presentan los resultados

con frecuencias observadas

y de acuerdo con las leyes


de las probabilidades, se espera que estos resultados se presenten con
frecuencias

.
Una medida de las diferencias entre las frecuencias observadas y las esperadas
est dada por el estadstico
2
_ definido por:


Ecuacin No.24


= Frecuencias Observadas

= Frecuencias Esperadas
K= Nmero de observaciones
Si las frecuencias observadas coinciden o se aproximan mucho a las esperadas,
el valor estadstico

tiende a cero. Por el contrario, si las frecuencias


observadas difieren significativamente de las esperadas, el valor del estadstico


ser positivo y tan grande cuantos mayores sean las diferencias entre las
frecuencias. Bajo estas condiciones se tiene que la regin de rechazo es slo la
regin derecha (cola derecha o unilateral superior), cuando la hiptesis son las
siguientes:

: Los datos provienen de una muestra al azar de una poblacin


distribuida de acuerdo a un modelo terico.

: Los datos no provienen de una poblacin distribuida de acuerdo al


modelo terico.


En una prueba de hiptesis usando Ji-cuadrado las frecuencias esperadas se
calculan suponiendo que La hiptesis nula es cierta
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

84


El estadstico de prueba se puede expresar, para fines de clculo, como:


Ecuacin No.25
Con k r grados de libertad.
k: es el nmero de eventos o categoras
r : es el nmero de restricciones (r 1 es siempre es una restriccin, ya que

, y cada parmetro que se estima con la informacin de la


muestra es otra restriccin ms).
En ocasiones, las frecuencias esperadas dan resultados menores que 1, y los
investigadores frecuentemente hacen notar en la literatura que el estadstico no
se distribuye como

si las frecuencias esperadas son pequeas. Por lo tanto

1 Si, en la prctica resultaran una o varias

< 1 se juntan las categoras.


El estadstico terico es el valor de la Ji-cuadrado con k-r grados de libertad al
nivel de significancia dado.

Esta prueba de hiptesis utiliza un procedimiento de cinco pasos, los cuales se
presentan a continuacin:

Plantear las hiptesis nula y alternativa.
Determinar el nivel de significancia.
Estimar el valor estadstico de prueba.
Establecer la regla de decisin.
Tomar la decisin.

Ejemplo. Distribucin de Poisson

El administrador de un hospital ha estado estudiando el nmero de urgencias que
llega a un hospital por da y sospecha que estas se distribuyen segn un modelo
de Poisson. Tambin ha determinado que el nmero medio de urgencias por da
es de 3.
Para determinar si efectivamente el nmero de urgencias por da que llegan al
hospital siguen la distribucin de Poisson, se tom una muestra al azar de 90 das
de los archivos del hospital. Los datos se resumen en la siguiente tabla.



UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

85


Tabla No. 23. Nmero de urgencias que llegan por da al hospital.


Apoyan estos datos la sospecha del administrador? Use = 0.05.


: Los datos se distribuyen segn el modelo de Poisson.

Los datos no estn distribuidos segn el modelo de Poisson.




= 0.05.



Clculos con 3 y la tabla de la distribucin Poisson, determinamos las
probabilidades de Poisson para x= 0, 1, 2,., 9; y para 1; restamos de 1 la
suma de las probabilidades anteriores. Para obtener las frecuencias esperadas

multiplicamos las probabilidades por n=90. Vase en la tabla No.24.



Podemos ver que

< en las tres ltimas categoras, por lo tanto debemos


unirlas quedando 9 categoras, as k=10; r=1 ya que el valor de , fue dado.

El valor calculado de la Ji-cuadrada es:

9 937563 9 375
Nmero de
urgencias
por da
Nmero de das
0 5
1 14
2 15
3 23
4 16
5 9
6 3
7 3
8 1
9 1
10 o mas 0
90
Paso 1: Plantear la hiptesis
nula y alternativa
Paso 2: Determinar el nivel de significancia.
.
Paso 3: Estimar el estadstico de prueba.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

86


Tabla No. 24 Frecuencias esperadas.


0 5 0,050 4,481
1 14 0,149 13,443
2 15 0,224 20,164
3 23 0,224 20,164
4 16 0,168 15,123
5 9 0,101 9,074
6 3 0,050 4,537
7 3 0,022 1,944
8 1 0,008 0,729
9 1 0,003 0,243
10 o mas 0 0,001 0,099
90 1,000 90





Valor Critico: El valor de la ji-cuadrada terica para 8 (k-r=9-1) grados de
grados de libertad, a un nivel de significancia de 0.05 es 15.507






Como el valor del estadstico de prueba no cae en la regin de rechazo y es
menor que el estadstico terico concluimos, por tanto, que el nmero de
urgencias que llegan por da al hospital sigue una distribucin de Poisson con
3

Paso 4: Establecer la Decisin
Paso 5: Toma de la Decisin
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

87


Leccin 28. Prueba de Kolmogorov-Smirnov

La nica premisa que se necesita es que las mediciones se encuentren al menos
en una escala de intervalo. Se necesita que la medicin considerada sea
bsicamente continua. Adems dicha prueba es aplicable cualquiera sea el
tamao de la muestra.
La prueba Kolmogorov-Smirnov Compara las funciones de distribucin terica y
emprica (slo vlido para variables continuas).
Caractersticas de la prueba
La prueba de K-S de una muestra es una hiptesis de bondad de ajuste. Esto es,
se interesa en el grado de acuerdo entre la distribucin de un conjunto de valores
de la muestra y alguna distribucin terica especfica. Determina si
razonablemente puede pensarse que las mediciones mustrales provengan de
una poblacin que tenga esa distribucin terica. En la prueba se compara la
distribucin de frecuencia acumulativa de la distribucin terica con la distribucin
de frecuencia acumulativa observada. Se determina el punto en el que estas dos
distribuciones muestran la mayor divergencia.
Se trata de un mtodo no paramtrico sencillo para probar si existe una diferencia
significativa entre una distribucin de frecuencia observada y otra frecuencia terica. Es
otra medida de la bondad de ajuste de una distribucin de frecuencia terica.
Se basa en la comparacin de distribuciones acumuladas: la distribucin acumulada de
los datos observados y la distribucin acumulada terica correspondiente al modelo
elegido.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = F
t
(x) para todo x.
H
1
: La distribucin observada no se ajusta a la distribucin terica.
F
t
(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con cierta
media y varianzas conocidas.

Estadstico de prueba
D = mxima
S
n
(x): es la funcin de distribucin emprica.
Tiene varias ventajas: es una prueba poderosa y fcil de utilizar, puesto que no
requiere que los datos se agrupen de determinada manera.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

88


Es particularmente til para juzgar qu tan cerca est la distribucin de
frecuencias observada de la distribucin de frecuencias esperada, porque la
distribucin de probabilidad Dn depende del tamao de muestra n, pero es
independiente de la distribucin de frecuencia esperada (Dn es una estadstica de
distribucin libre).
Para calcular la estadstica K-S, simplemente se elige Dn (la desviacin absoluta
mxima entre las frecuencias observadas y tericas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crtico en la tabla, para las n observaciones, considerando
el nivel de significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la
hiptesis nula.

SUGERENCIAS:
- La prueba de Kolmogorov puede usarse con muestras muy pequeas, en
donde no se pueden aplicar otras pruebas paramtricas.
- Podemos usar la prueba de Kolmogorov para verificar la suposicin de
normalidad subyacente en todo anlisis de inferencia.
- Si bien constituye una prueba de implementacin sencilla, tenga en cuenta que
carga con las desventajas de los mtodos no paramtricos en general, en el
sentido de producir resultados menos precisos que los procedimientos
convencionales.
- Cuando trabaje con muestras pequeas, recuerde usar la frecuencia cumulada
experimental.
Leccin 29. Prueba de Wilcoxon

29.1. Wilcoxon de los rangos con signo
Esta prueba nos permite comparar nuestros datos con una mediana terica.
Llamemos M
0
a la mediana frente a la que vamos a contrastar nuestros datos, y
sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M
0
, X2-M
0
,
..., Xn-M
0
. Si la hiptesis nula fuera cierta estas diferencias se distribuiran de
forma simtrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M
0
| y se
ordenan de menor a mayor, asignndoles su rango (nmero de orden). Si hubiera
dos o ms diferencias con igual valor (empates), se les asigna el rango medio (es
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

89


decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a
ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias
positivas, aquellas en las que Xi es mayor que M
0
y R- la suma de todos los
rangos correspondientes a las diferencias negativas. Si la hiptesis nula es cierta,
ambos estadsticos debern ser parecidos, mientras que si nuestros datos tienen a
ser ms altos que la mediana M
0
, se reflejar en un valor mayor de R+, y al
contrario si son ms bajos. Se trata de contrastar si la menor de las sumas de
rangos es excesivamente pequea para ser atribuida al azar, o, lo que es
equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.
29.2. Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de
parejas de valores, por ejemplo antes y despus del tratamiento, que podemos
denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos
las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto,
asignndoles el rango correspondiente. Calculamos R+ la suma de rangos
positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la
hiptesis nula es que esas diferencias proceden de una distribucin simtrica en
torno a cero y si fuera cierta los valores de R+ y R- sern parecidos.
Leccin 30. Prueba de Mann-Whitney para muestras
independiente y prueba de Kruskal-Wallis para comparar k
muestras independientes
30.1. Prueba de Mann-Whitney para muestras independientes
La prueba de Mann-Whitney puede utilizarse para probar la hiptesis nula de que
las medianas de dos poblaciones son iguales. Se supone que las dos poblaciones
tienen la misma forma y dispersin, porque tales diferencias tambin podran
conducir al rechazo de la hiptesis nula. Es necesario que los valores de las dos
muestras aleatorias independientes estn al menos en la escala ordinal.
Las dos muestras se combinan en un conjunto ordenado, en el que cada valor
muestral se identifica segn el grupo muestral original. Los valores se clasifican
entonces de menor a mayor, asignando el rango 1 al menor valor muestral
observado. En caso de valores iguales, se les asigna el rango medio. Si la
hiptesis nula es cierta, el promedio de los rangos de cada grupo muestral debera
ser aproximadamente igual.
30.2. Prueba de Kruskal-Wallis para comparar k muestras independientes (o
Prueba H de suma de rangos)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

90


Cuando se tiene inters o necesidad de probar una hiptesis nula en la que se
afirma que k tratamientos son iguales o que k muestras aleatorias independientes
provienen de poblaciones idnticas, siendo k > 2, la prueba estadstica que se
realizara dentro de la estadstica paramtrica sera el anlisis de varianza de un
sentido y para la prueba se utilizara la distribucin F; sin embargo, cuando la
escala es ordinal o se desconfa del supuesto de que las muestras provienen de
poblaciones con forma de distribucin normal, se puede utilizar esta prueba para
muestras independientes. La hiptesis alternativa sera que al menos dos
poblaciones tienen una distribucin diferente.
La prueba de Kruskal-Wallis sirve para probar la hiptesis nula de que varias
poblaciones tienen las mismas medianas. As, es el equivalente no paramtrico
del diseo completamente aleatorizado de un factor de anlisis de varianza. Se
supone que las diversas poblaciones tienen la misma forma y dispersin para que
la hiptesis anterior sea aplicable, ya que diferencias en forma o dispersin
podran tambin conducir al rechazo de la hiptesis nula. Es necesario que los
valores de las diversas muestras aleatorias independientes estn al menos en la
escala ordinal.
Las varias muestras son vistas primeramente como un conjunto de valores, y cada
valor de este grupo combinado se clasifica de menor a mayor. En caso de valores
iguales, se les asigna el rango medio. Si la hiptesis nula es cierta, el promedio de
los rangos de cada grupo muestral debera ser ms o menos igual.
Ejercicios propuestos

1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un
hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron
los siguientes nmeros de das:

Ala A 13 4 2 10 6
Ala B 10 9 7 8

Se debe efectuar una prueba U de Mann-Whitney para determinar si existe
diferencia significativa entre la duracin de las estancias en el hospital para las
dos alas. Cul es la clasificacin para la estancia de 13 das en el Ala A?

R/ta: 9 das





UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

91



2. Elija la muestra con la mayor suma de rangos si los elementos son
clasificados de mayor a menor:

Muestra A: 1 3 9
Muestra B: 5 1 8
Muestra C:

R/ta: 16
9 4 2

3. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el nmero
3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogneo.

R/ta: Se acepta de la hiptesis que los resultados corresponden a un dado
homogneo

4. En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribucin en funcin de sus edades y de su intencin de
voto:


Partido
Edad
18 35

35 50

50 o ms
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

A un nivel de confianza del 90% Puede afirmarse que la intencin de
voto es independiente de la edad?

R/ta: Se rechaza la hiptesis de independencia de las variables

5. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% Son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
Normal de media 110 y desviacin tpica 10?

R/ta: Se acepta la hiptesis de normalidad de la variable.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

92


Autoevaluacin
1. Los miembros de un equipo ciclista se dividen al azar en tres grupos
que entrenan con mtodos diferentes. El primer grupo realiza largos recorridos
a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Despus de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:

Mtodo I Mtodo II Mtodo III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% Puede considerarse que los tres mtodos
producen resultados equivalentes? O por el contrario Hay algn mtodo
superior a los dems?

Solucin:
E estadstico de contraste vale: F = 13,4/ 1,43 = 9,37
El valor de la F terica con 2 y 12 grados de libertad, a un nivel de confianza
del 95% es 3,89. Por consiguiente se rechaza la hiptesis nula y se concluye
que los tres mtodos de entrenamiento producen diferencias significativas.
(Tomado de problemas de anlisis de datos Tema 14 Anlisis de varianzas: Jos
Mara Salinas)


Test No Parmetro

2. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el nmero
3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogneo.

Solucin:

Paso 1: La hiptesis nula ser que el dado es homogneo, esto implica que la
distribucin de los nmeros es uniforme, es decir que los cuatro nmeros
tienen una probabilidad de aparecer de 0,25.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

93


Paso 2: La hiptesis alternativa ser que la distribucin no es
uniforme.

Paso 3: Como la variable es discreta utilizaremos el test Ji-cuadrado de
bondad de ajuste a una distribucin.

Paso 4: En la tabla siguiente se han realizado todos los clculos
necesarios, obtenindose el valor 4,36 para el estadstico de contraste.

x
i
n
i
p
i
Np
i
n
i
-np
i
(n
i
-np
i
)
2
(n
i
-
np
i
)
2
/np
i

1 60 0,25 50 10 100 2
2 45 0,25 50 -5 25 0,5
3 38 0,25 50 -12 144 2,88
4 57 0,25 50 7 49 0,98
200 4,36

Paso 5: Como el estadstico tena 4 sumandos, buscamos en las tablas de la
Ji- cuadrado con 3 grados de libertad el valor que deja por debajo una
probabilidad de 0,95 y obtenemos que el valor crtico es 7,81.

Como el valor del estadstico es inferior al valor crtico, aceptamos la
hiptesis nula. Estos resultados son compatibles con el hecho de que el
dado sea homogneo.

3. En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribucin en funcin de sus edades y de su intencin de voto:

Partido 18 - 35 35 - 50 50 o ms
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

A un nivel de confianza del 90% Puede afirmarse que la intencin de voto es
independiente de la edad?

Solucin:

1 La hiptesis nula es que las dos variables son independientes.

2 La hiptesis alternativa es que hay relacin entre ambas variables.

3 Se trata de un contraste de independencia entre dos variables, por
consiguiente el estadstico de contraste a utilizar es el estadstico Ji-
cuadrado para tablas de contingencia.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

94



4 Las tablas siguientes presentan los clculos del estadstico:


Partido
Edad
18 35 35 50 50 o ms

A B C
D
10 40 60
15 70 90
45 60 35
30 30 15
110
175
140
75
100 200 200 500

A partir de las frecuencias marginales de la tabla anterior, se obtienen las
frecuencias esperadas que aparecen a continuacin:


Partido
Edad
18 35

35 50

50 o ms
A 22 44 44
B 35 70 70
C 28 56 56
D 15 30 30

Por consiguiente las discrepancias entre frecuencias empricas y frecuencias
esperadas son:

Los cuadrados de las discrepancias son:


Partido
Edad
18 35

35 50

50 o ms
A 144 16 256
B 400 0 400
C 289 16 441
D 225 0 225







UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

95


Dividiendo por las frecuencias esperadas se obtiene:


Partido
Edad
18 35 35 50 50 o ms

A
B C
D
6,55 0,36 5,82
11,43 0 5,71
10,32 0,29 7,88
15 0 7,5

43,30 0,65 26,91 70,86

Sumando, se obtiene el valor del estadstico 70,86.

5 Como la edad presenta tres intervalos y los partidos son cuatro, el
estadstico tendr (3 - 1)(4 -1 ) = 6. Buscamos en las tablas de la
distribucin Ji-cuadrado con 6 grados de libertad el valor de la variable que
deja por debajo una probabilidad de 0,9 encontramos que el valor crtico es
10,64.

6 Como el valor del estadstico es mayor que el valor crtico rechazamos la
hiptesis nula de que ambas variables son independientes.

7 La edad cambia la intencin de voto.



4. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento
de palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% Son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
Normal de media 110 y desviacin tpica 10?

Solucin:

1 La hiptesis nula es que los datos proceden de una Normal (110, 10).

2 La hiptesis alternativa es que no siguen esa distribucin Normal.

3 Como la variable es continua, y la hiptesis nula especfica totalmente la
distribucin utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadstico de
contraste es:
max | F
n
(x
i
) - M
n
(x
i
) |

4 los clculos del estadstico se especifican en la siguiente tabla:

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

96


x
i 87 98 104 109 112 115 116 118 123
z
i -2,3 -1,2 -0,6 -0,1 0,2 0,5 0,6 0,8 1,3
F
n 0,0107 0,1151 0,2743 0,4602 0,5793 0,6915 0,7257 0,7881 0,9032
M
n 0,1111 0,2222 0,3333 0,4444 0,5556 0,6667 0,7778 0,8889 1
|F
n
-M
n
| 0,1004 0,1071 0,059 0,0158 0,0237 0,0248 0,0521 0,1008 0,0968

5 Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor
crtico para
un nivel de confianza del 95% se obtiene 0,43001.

6 Como el valor del estadstico 0,1071 es menor que el valor crtico se acepta
la
hiptesis nula.

7 A un nivel de confianza del 95% no hay evidencia en contra de que el
tiempo de reaccin siga una distribucin N(110, 10). (Tomado de
problemas de anlisis de datos Tema 14 Anlisis de varianzas: Jos
Mara Salinas)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD
ESCUELA DE CIENCIAS BSICAS, TECNOLOGA E INGENIERIA
CONTENIDO DIDCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA

97


REFERENTES

Alvarado, J. A., Obagi, J.J. (2008). Fundamentos de Inferencia Estadstica.
Pontificia Universidad Javeriana. Bogot. D.C. Colombia. Extrado el 18 de octubre
de 2012 de
http://books.google.com.co/books?id=3uhUqvF0_84C&printsec=frontcover&dq=inf
erencia&source=bl&ots=DC7Ajfx6Os&sig=pOn4JMXwSC0qd0FmDBlpoMGQLkg&
hl=es&sa=X&ei=_2qAUKmEJaqG0QHT6YGwBw&ved=0CD0Q6AEwAw

Jurez, F., Villatoro, J. A. y Lpez, E. K. (2002). Apuntes de Estadstica Inferencial.
Mxico, D. F.: Instituto Nacional de Psiquiatra Ramn de la Fuente. Extrado el 10
de enero de 2012 de: http://rincondepaco.com.mx/Apuntes/Inferencial.pdf

Mayorga, J. (2004). Inferencia Estadstica. Universidad Nacional de Colombia.
Bogot. D. C. Colombia. Extrado el 18 de octubre de 2012 de
http://books.google.com.co/books?id=bmCV6r_pQQUC&printsec=frontcover&dq=i
nferencia&source=bl&ots=KM2dtf_GYn&sig=vFmWR0tlvVlMGVrNUKn9MKRlr_I&h
l=es&sa=X&ei=G2mAUK6qLIeo8gTa_oCwAw&redir_esc=y#v=onepage&q=prueba
%20de%20hip%C3%B3tesis&f=false

Web del Instituto Tecnolgica De Chihuahua curso Estadstica 1 ITC (s. f).
Extrado el 18 de octubre de 2012 de:
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.