Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4
!
!
"
"
"
!
#
$
%
"
&
,
.
- !
! "
#
$
%
&
'
( &
)
*+%
&
$
$+*,-.%
/0
12
3)3
04 5(3
/ 6-*7 #
$
%
&
'
( & )
$
$6-*7
Inferencia estadística
para investigadores
Análisis e interpretación de datos
mediado por el Minitab
Contenido
Pág.
Introducción ix
Capítulo 1: Población y Muestra 1
1.1. Introducción. 2
1.2. Población y muestra 3
1.3. Poblaciones muestreadas y poblaciones objetivo 6
1.4. Tipos de muestreo 7
1.4.1. Muestreo aleatorio o probabilístico 8
1.4.2. Muestreo no aleatorio o empírico 21
1.5. Selección de un tamaño de muestra adecuada. 31
1.6. Error de muestreo 37
1.7. Distribución muestral de algunos estadísticos 39
1.8. Uso del Minitab en distribución muestral 50
Resumen del capítulo 1 53
Problemas propuestos Nº 1 56
Apéndice 385
1. Tabla A: de distribución normal 385
2. Tabla B: de distribución t de Student 387
3. Tabla C: de distribución Chi-cuadrada 388
4. Tabla D: de distribución F 389
5. Tabla E: de determinación de r 391
6. Tabla F: Abscisas y ordenadas en la distribución Z 392
7. Tabla G: de valores T de Wilcoxon 394
Bibliografía 395
viii
Introducción
OBJETIVOS
Al concluir el capítulo estará en condiciones de:
1. Valorar la importancia de la estadística inferencial en el proceso de
la investigación científica.
2. Elegir la población y muestra como paso previo para llevar a cabo
una investigación científica.
3. Determinar los criterios para la elección de una población
muestreada y la población objetivo.
4. Identificar los principales tipos de muestreo analizando sus
características, bondades y su proceso de elección
5. Definir que es un error de muestreo y analizar sus efectos en la
investigación.
6. Conocer los criterios de selección de una muestra para poblaciones
finitas e infinitas.
7. Identificar las principales distribuciones muestrales valorando su
aplicabilidad en la generalización de algunos estadísticos.
2
1.1. INTRODUCCIÓN
La Ciencia es un método sistemático para la explicación de los fenómenos
(observables, desarrollables y medibles), constituidos por condiciones naturales,
procesos, eventos, situaciones, objetos, grupo de personas, conductas,
pensamientos, creencias, conocimientos, opiniones, entidades, emociones y
sentimientos, que se suscitan en la realidad bajo ciertas condiciones naturales o
artificiales, constituyéndose en insumo para la investigación científica.
El propósito de la investigación científica y el objetivo principal de la ciencia es
explicar los fenómenos. Una explicación científica se basa en procedimientos
estrictos, llamado teoría. Una teoría científica es un conjunto de aseveraciones
interrelacionadas y lógicamente organizadas que explican un fenómeno de interés
y que ha sido corroboradas a través de la observación y el análisis.
El campo de la estadística abarca un conjunto de procedimientos para recolectar,
clasificar, comparar, analizar y resumir información adquirida sistemáticamente.
Por ello, un curso de estadística suele ser percibido como aquel que incluye
muchas fórmulas y cálculos con datos, que requieren de mucha imaginación, en
concordancia a los principios de la ciencia.
La estadística inferencial es la rama de la estadística en la que se hacen
afirmaciones acerca de la población y sus parámetros en base a la información
obtenida de la muestra o muestras de dicha población. Esta actividad se
constituye en el segundo propósito del análisis estadístico, consistente en extraer
conclusiones matemáticas entre las características de un grupo de personas u
objetos. Por ejemplo, podemos investigar que los habitantes de una provincia con
un nivel educativo superior tienden a creer en menor proporción que los de nivel
educativo bajo, en la existencia del alma o el diablo. En este tipo de análisis se
hacen cálculos para mostrar relaciones de causa efecto, así como para probar
hipótesis y teorías científicas (inferir quiere decir, sacar conclusiones sobre algo),
en esta línea casi la totalidad de los tópicos que se abordan en este texto trata de
la estadística inferencial
En este capítulo, una vez esclarecido las definiciones de la población y muestra
analizaremos los criterios para escoger una muestra de una población. Después
se estudiarán la distribución de las medias muestrales para comprender la forma
en que tales valores tienden a agruparse alrededor de la media poblacional y por
qué la mayoría de las distribuciones de probabilidad se aproximan a la normal.
3
recoge del objeto que se estudia proviene de la población y las conclusiones que
se obtienen retornan a la misma.
La población debe delimitarse claramente en torno a sus características de
contenido, lugar, espacio, volumen y tiempo. Así, por ejemplo, podemos citar
como población a las empresas proveedoras del municipio de Andahuaylas, los
medios de información de Huánuco, los alumnos de la institución educativa Juan
Espinoza Medrano de Andahuaylas, estado civil de los pobladores de la
urbanización Señor de los Milagros, las edades de los estudiantes de la Facultad
de Contabilidad de la Universidad Hermilio Valdizán, etc.
Definir la Población implica precisarlo:
Cualitativamente, señalando sus rasgos principales e identificándolos, como su
naturaleza, condiciones de existencia, alteraciones que sufre, etc.
Cuantitativamente, indicando el número exacto de personas, unidades,
instituciones, o cosas que comprende, número de etapas de una determinada
metodología, etc.
Parámetro, Es una medida descriptiva que resume las características de una
población, que por lo general es desconocida, tales como la media (P) o la
varianza (V2), son calculados a partir de los datos observados en toda la
población.
Se dice que la población es finita, si tiene un número finito de elementos. En caso
contrario, se dice que es infinita. En la práctica una población finita con un
número grande de elementos se considera población infinita.
Unidad de
observación
Parte de los
elementos o
subconjuntos de una
Extracción población que se
muestra selecciona para el
estudio de esa
característica o
condición
Generalización de
Población hallazgos
B. La Muestra
Características de la muestra:
1. Que comprenda parte de una población y no su totalidad. Esa parte puede
oscilar entre el 5 y el 20 por ciento de la población total. El mayor o menor
porcentaje depende del grado de variabilidad de la población. Cuando la
población es muy dinámica o cambiante, es conveniente tomar una muestra
mayor.
2. Que no haya distorsión en su elección. En este sentido el muestreo aleatorio
es el más confiable que el no aleatorio. Éste se puede prestar a
manipulaciones conscientes o inconscientes al momento de la elección. Por
ello, todo depende de la destreza y honestidad del investigador.
3. Que sea representativa de la población. Las distintas variedades y matices
de la población estén presentes proporcionalmente en la muestra.
Bola de nieve
Arranque de sorteo
1
2
3
4 Intervalo = N/n k = 1000/100 = 10
5
6
. MUESTRA 3, 13, 23, 33, 43, 53, …
.
.
1000
se tiene la muestra que varía de 10 en 10, conformada por: 3, 13, 23,..., como se
muestra en la figura 1-7.
Figura 1-7. Salida de los resultados obtenidos mediante Conjunto Simple de Números.
Así, por ejemplo, para estudiar alguna característica de las mujeres embarazadas
que acuden para el parto a los hospitales públicos de toda una región de un país,
en una primera etapa se elegirían aleatoriamente un número de provincias,
después un número de hospitales de estas provincias, a continuación, un número
de servicios de paritorio de estos hospitales, y finalmente se elegirían, también
de manera aleatoria, el número de mujeres de cada uno de los servicios.
EJEMPLO 1.9. Supongamos que deseamos efectuar un reconocimiento para
determinar los puntos de vista de directores de Instituciones Educativas respecto
a la evaluación docente propuesto por el gobierno central. Si se selecciona una
muestra aleatoria de los directores y personalmente nos comunicamos con cada
uno de ellos, tomaría mucho tiempo y sería sumamente costoso. En vez de ello,
puede emplearse el muestreo por conglomeración subdividiendo un área
extensa en áreas menores, denominadas primarias. Así, suponiendo que se
divida la región en 12 unidades primarias, después se seleccionan al azar cuatro
áreas menores: 3, 5, 12 y 7, concentrando los esfuerzos en éstas. Se podría tomar
una muestra aleatoria de los directores de cada unidad.
EJEMPLO 1.10. En una investigación en la que se trata de conocer el grado de
satisfacción laboral de los profesionales de salud necesitamos una muestra de
700 sujetos. Ante la dificultad de acceder individualmente a estos sujetos se
decide hacer una muestra por conglomerados. Sabiendo que el número de
centros de salud es aproximadamente de 35, los pasos a seguir serían los
siguientes:
1. Recoger un listado de todos centros de salud.
2. Asignar un número a cada uno de ellos.
3. Elegir por muestreo aleatorio simple o sistemático los 20 centros de salud
(700/35=20) que nos proporcionarán los 700 profesionales que necesitamos.
El muestreo por conglomerados es un diseño efectivo para obtener una cantidad
especificada de información al costo mínimo bajo las siguientes condiciones:
◊ No se encuentra disponible o es muy costoso obtener un buen marco que liste
los elementos de la población, mientras que se puede obtener fácilmente un
marco que liste los conglomerados.
19
Elección de los
individuos a
criterio del
investigador
Estrato 1 Estrato 3
Estrato 2
Figura 1-10. Ilustración pictográfica del muestreo por cuotas.
Población
Investigador
Muestra
Figura 1-11. Ilustración pictográfica del muestro por conveniencia.
i Esta técnica de muestreo es también útil para documentar que una calidad
particular de una sustancia o fenómeno se produzca dentro de una muestra
dada. Tales pruebas piloto, o de prueba inicial son también muy útiles para
la detección de relaciones entre los fenómenos diferentes.
Algunas críticas sobre el muestreo por conveniencia
i La crítica más obvia acerca del muestreo por conveniencia son los sesgos o
prejuicios del muestreo. Por no demostrar imparcialidad al ser escogida, la
muestra no es representativa de toda la población. Siendo ésta, el mayor
inconveniente al utilizar una muestra por conveniencia, ya que además
conduce a más problemas y críticas.
i El sesgo sistemático proviene de un sesgo de muestreo. Esto se refiere a una
diferencia constante entre los resultados de la muestra y los resultados
teóricos de toda la población. El resultado de un estudio, que utiliza una
muestra de conveniencia, puede tener diferencias significativas con los
resultados de toda la población.
i Los resultados del estudio, obtenidas de muestras elegidas por conveniencia,
no pueden ser generalizados a la población, ni hablar de toda la población.
Esto da lugar a una baja validez externa del estudio.
Por ello, cuando se utiliza el muestreo por conveniencia, es necesario describir
cómo la muestra de las pruebas en la investigación actual sería diferente de la
muestra ideal, seleccionada al azar. También es necesario describir a los
individuos que podrían quedar excluidos durante el proceso de selección o a los
individuos que están sobre representados en la muestra. Esto permitirá a los
lectores de la investigación obtener una buena comprensión de la muestra.
También les permitirá estimar la posible diferencia entre los resultados en una
prueba piloto y los resultados que se podrían obtenerse para representar
correctamente toda la población.
EJEMPLO 1.16. Elección de estudiantes voluntarios como sujetos de la
investigación o mediante el uso de sujetos que se han seleccionado de una
clínica, de una clase o de una institución; por la facilidad que puede tener el
investigador es de acceder a estas instituciones. Un ejemplo más concreto es la
selección de cinco personas de una clase o incluso la selección de los cinco
primeros nombres de la lista de pacientes de una lista en una institución médica.
En esta decisión, el investigador inadvertidamente excluye una gran proporción
27
Muestra Población
Investigador
N = Tamaño de la población.
n =Tamaño necesario de la muestra.
Z = Valor asociado al nivel de confianza de la estimación.
Nivel de confianza: 90% 95% 99%
Valor crítico Z : 1,65 1,96 2,58
Si no se tiene su valor, se lo toma en relación al 95% de confianza, este valor se
toma a criterio del investigador.
E = es la precisión o error de estimación, también se dice límite aceptable del
límite muestral que, generalmente cuando no se tiene su valor, suele utilizarse
un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del
investigador.
σ2 =Varianza de la población (conocida o estimada)
La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la
estimación del intervalo de confianza para la media, la cual es:
36
V N n V N n
X Z dP d X Z
n N 1 n N 1
V N n
De donde el error es: E Z
n N 1
Eliminando denominadores: E 2 n( N 1) Z 2V 2 ( N n)
Eliminando paréntesis y transponiendo: E 2 n.N E 2 n Z 2V 2 n Z 2V 2 N
Factor común de n: n( E 2 N E 2 Z 2V 2 ) Z 2V 2 N
N .z 2 .V 2
Despejando n: n
( N 1) E 2 z 2 .V 2
p es la proporción
p.q = Varianza de la población
Cuando se desconoce la σ2 se pueden seguir varios procedimientos:
◙ Estimarla conjeturalmente,
◙ Estimarla sobre la base de la varianza correspondiente a una variable asociada,
◙ Realizar una prueba piloto,
◙ Calcularla a través de un procedimiento de muestreo secuencial.
Reemplazando valores:
1000(2,58) 2 .( 4)
n 96,34 | 96
(0,5) (1000 1) (2,58) 2 (4)
2
que determina la curva en forma de campana. Así, se dice que una variable
aleatoria X sigue una distribución normal con media P y varianza V2. Que se
denota con X | N(P , V2), siendo su gráfica, lo que muestra la figura 1-13:
intervienen, el uso del modelo normal puede justificarse asumiendo que cada
observación se obtiene como la suma de unas pocas causas independientes.
Distribución Normal Estándar:
Corresponde a una variable con distribución normal estándar de media 0 y de
varianza 1:
1
1 2 z2
f ( z) e , f < Z < f
2S
y cuyas probabilidades P(Z d z) están tabuladas en la tabla denominada normal.
Una variable aleatoria X con distribución normal de media P y varianza V2 puede
ser transformada en una variable normal estándar:
X P
X | N (P , V 2 ) Z | N (0,1)
VX
Las áreas de la distribución normal estándar corresponden a probabilidades que
se encuentran tabuladas en las tablas A-1 y A-2 del apéndice, donde se presentan
las áreas bajo la curva entre f y z0, es decir P(Z d z0).
Teorema del Límite Central. Sin importar la forma de una puntuación global
de una variable de nivel intervalar o de razón, su distribución muestral será
normal cuando el tamaño de la muestra, n, sea mayor que 121 casos y se centrará
en la media de la población verdadera.
Para explicar, supongamos que una muestra aleatoria de tamaño n
observaciones: x1, x2, x3,…, xn se extrae de una población que tiene media
poblacional P y varianza V2, entonces, si n es suficientemente grande (n > 30),
42
Muestra 1
Muestra 2
..
Muestra 3 ..
Muestra k
Distribución
Población X muestral de
Tomando una muestra aleatoria de tamaño n: (X1, X2, …, Xk), se puede definir
n
X 1 X 2 ... X n
¦X i
la variable aleatoria X , como: X i 1
, X es la media
n n
muestral de tamaño n.
Para cada valor muestral de tamaño n, x1, x2, …, xn, se tiene el valor de x
n
x1 x 2 ... x n
¦x i
correspondiente: x i 1
.
n n
S1
Muestra 1 .s1
.s2
Muestra 2 S2 .s3
.
Muestra 3 S3 .
.sk
Muestra k
Sk
Distribución
Población X muestral de S
La varianza muestral es una variable aleatoria que se puede definir a partir de una
muestra aleatoria de tamaño n: (X1, X2, …, Xn), mediante:
n
2
¦(X
i 1
i X )2
S
n 1
Cuyos valores para cada valor muestral x1, x2, …, xn son de la forma:
n
2
¦ (x
i 1
i x) 2
s
n 1
Propiedades de la varianza muestral. Si X es una variable aleatoria con media P
y varianza poblacional V2, la varianza muestral de tamaño n cumple las siguientes
propiedades:
2 2
En la tabla ji-cuadrado, se tienen los valores x 0,01
21,666 y x
0, 005
23,589 . En
X
= n.p.q. En consecuencia la proporción muestral pˆ tiene media p y varianza
n
p.q
. Siendo por el Teorema de Límite Central, cuando el tamaño de muestra es
n
X np pˆ p
grande, se tiene: z .
npq pq / n
( x1 x 2 ) ( P1 P 2 ) (n1 1) s12 (n 2 1) s 22
t , donde s P2 es la varianza
1 1 n1 n 2 2
sP
n1 n 2
combinada.
t
x 1 x 2 P1 P 2 x 1 x 2 P1 P 2 x 1 x 2 P1 P 2
,
V 12 V 22 V2 V2 1 1
V
n1 n2 n1 n2 n1 n2
50
n1 1 n2 1
Si g no es un número entero se redondea al entero más cercano.
¦X i
X
¦Y i
Y
p1 i 1
y p2 i 1
n1 n1 n1 n1
Para n1 y n2 suficientemente grandes, la variable aleatoria tiene una
distribución aproximadamente normal N(0 , 1):
( P 1 P 2 ) (S 1 S 2 )
Z
p1 .(1 p1 ) p 2 .(1 p 2 )
n1 n
sˆ12
◊ Distribución muestral para razón de varianzas . Si ŝ12 y ŝ 22 son las
sˆ22
varianzas de dos muestras aleatorias independientes de tamaño n1 y n 2
seleccionados de dos poblaciones normales N ( P1 , V 12 ) y N ( P 2 , V 22 ) , entonces,
sˆ12 V 12
la variable aleatoria: F
sˆ22 V 22
Estadísticas
EE de la
Variable Media media Desv.Est. Varianza CoefVar Q1 Mediana
Población 22.80 2.84 8.98 80.62 39.38 15.50 20.50
Estadísticas
EE de la
Variable Media media Desv.Est. Varianza CoefVar Q1 Mediana
Promedio 23.098 0.757 4.005 16.039 17.34 21.125 23.250
14
12
10
Frecuencia
0
15 20 25 30 35
Media
Figura 1-17. Histograma con curva normal de las medias de la muestra obtenida en forma
aleatoria.
C. Los factores determinantes del tamaño de una muestra para una proporción
son:
x El nivel de confianza deseado, z.
x El máximo error permisible, E.
x Una estimación de proporción de población, si no se cuenta con el valor
estimado, se usa 0,50.
D. La fórmula para elegir tamaño de muestra para una proporción es:
N .z 2 .V 2 §z·
n ó n p(1 p)¨ ¸
( N 1) E 2 z 2 .V 2 ©E¹
E. El factor de corrección de la población finita se aplica si n/N es mayor que
0,05. Siendo este factor:
N n
N 1
1.5. Comprender las distribuciones muestrales como elemento clave al realizar un
análisis estadístico. Las distribuciones muestrales son curvas de probabilidad
que nos permiten calcular el rango de error y el nivel de confianza que
podemos evaluar al utilizar estadísticos de la muestra para sacar conclusiones
acerca de parámetros de la población.
A. Para un tamaño de muestra dado, el valor medio de todas las medias
muestrales posibles seleccionadas de la población, es exactamente igual a la
media poblacional.
B. Existe menos dispersión en la distribución muestral de medias que en la
población.
1. La desviación estándar de la distribución de medias muestrales se denomina
el error estándar de la media.
2. Se calcula mediante la fórmula siguiente:
V
VX
n
3. Error estándar de la proporción muestral, se calcula a través de la fórmula
p(1 p)
VP , donde p es la proporción muestral y n el tamaño de la
n
muestra.
56
PROBLEMAS PROPUESTOS Nº 1
1. ¿A nivel macro cuáles son los tipos métodos o técnicas para la selección de
una muestra desde una población?
2. Indique tres razones que obligan muestrear una población para un estudio.
4. ¿Cuál es tipo de muestreo en el qué, todos y cada uno de los elementos de la
población tiene una cierta probabilidad de resultar elegidos para un proceso
de investigación?
5. ¿Cómo se determina el tamaño de una muestra y que porcentaje de la
población debe ser, aproximadamente, para que sea representativo?
6. ¿Qué es una muestra probabilística estratificada y cuándo se utiliza este tipo
de muestra en una investigación?
7. ¿Cuál de los siguientes tipos de muestreo no corresponde muestra
probabilística?
a) Sistemática
b) Por conglomerados
c) Simple
d) Intencionado.
8. ¿Qué es una muestra probabilística por conglomerados y cuándo se utiliza
este tipo de muestra en una investigación?
57
27. Una persona encargada de recibir remesas de cierto artículo selecciona una
muestra de 320 artículos; si el 4% o más de los artículos son defectuosos se
rechaza el pedido; en caso contrario lo acepta. Halle la probabilidad de
rechazar un pedido si en toda la población el 2% de los artículos son
defectuosos.
28. En un proceso de control de producción se elige una muestra de tamaño 40;
si la proporción de piezas defectuosas en la muestra es p o más. Halle el valor
de p de tal modo, que con probabilidad de 0,9, el proceso se detenga cuando
en toda la población se está fabricando un 10% de defectuosos.
29. Los pesos de las personas que suben a un ascensor se distribuyen
normalmente con media igual a 76 kg y desviación estándar de 12 kg. Un
grupo de 9 personas suben al ascensor.
a) Cuál es la probabilidad de que el peso promedio sea inferior a 60
kilogramos.
b) Si el ascensor tiene una capacidad máxima de 680 kg. ¿Cuál es la
probabilidad de que se exceda esta capacidad con un grupo de 9 personas?
30. En un almacén se van llenando cajas con 25 bolsas de azúcar cada una de
ellas. La elección de las bolsas para llenar las cajas es aleatoria y, éstas ya
llenas, son enviadas aleatoriamente a los diversos comerciantes. El peso neto
de las bolsas se distribuye normalmente con media 1 kg y desviación estándar
0,06 kg. Uno de los comerciantes pesa cualquiera de las cajas que acaba de
recibir. ¿Cuál es la probabilidad de que dicha caja pese: a) menos de 25 kg,
b) más de 25,6 kg, c) menos de 24,8 kg?
31. El control de calidad de cierto tipo de piezas es destructivo. El coste en
nuevos soles de cada pieza destruida al ser sometida al correspondiente
control es 100 veces el valor numérico de su longitud en mm. Esta última se
distribuye normalmente, N(12 , 0,04). ¿Cómo se distribuirá la pérdida media
por pieza inspeccionada (y destruida) a partir de muestras aleatorias de
tamaño 16? ¿Cuál es la probabilidad de que dicha pérdida media sea mayor
que 1,5 nuevos soles?
32. Sea X una variable aleatoria cuyos valores posibles equiprobables son 0, 1,
2, 3, 4, 6. Eligiendo muestras aleatorias simples binarias, calcule la
distribución para la media de X.
33. Lanzamos una moneda al aire tres veces consecutivas y calculamos la media
de las puntuaciones obtenidas (atribuyendo 0 cada cara y 1 a cada sello).
¿Cuál es la distribución muestral para la media de X?
60
34. De una población normal N(P , 5) se extrae una muestra aleatoria simple de
tamaño 41. ¿Cuál es la probabilidad de que la varianza de dicha muestra: a)
sea mayor que 6,5, b) sea menor que 3,6, c) mayor que 3 y menor que 7?
35. Se extrae una muestra aleatoria simple, de tamaño 25, de una población
normal, N(140 , 225) y otra muestra aleatoria simple de tamaño 36, de otra
población normal N(150 , 576). ¿Cuál es la probabilidad de que la media de
la segunda muestra no sea menor que la de la primera, ni la supere en más de
12 puntos?
36. El valor de proporción de población ha de estar entre r0,5, con un nivel de
confianza del 95%. El mejor cálculo de proporción de población es 15. ¿Qué
tamaño se requiere para la muestra?
37. Un procesador de nabos corta la parte superior colindante con las hojas de
cada uno, los lava luego y coloca seis por paquete. Se colocan veinte paquetes
en una caja para su envío. Se revisan algunas cajas para determinar su peso.
El peso promedio por caja fue de 12 kg y la desviación estándar 0,4 kg.
¿Cuántas cajas debe muestrear el procesador un 95% de seguridad de que la
media muestral no difiera de la media poblacional en más de 0,20 kilogramos.
2 Estimación de Parámetros
El proceso de estimación estadística implica encontrar
un valor a partir de los datos de una muestra que
represente una buena aproximación al valor
desconocido de un parámetro poblacional. Puede estar
dada por un único valor experimental (estimación
puntual) o por un conjunto de valores (estimación por
intervalos de confianza).
OBJETIVOS
Al concluir el capítulo estará en condiciones de:
1. Entender y explicar el proceso de estimación puntual de parámetros a
través de sus métodos y características deseables que debe tener un
estimador.
2. Valorar la importancia de la estimación de intervalos de confianza en el
proceso de análisis e interpretación de los resultados de una
investigación.
3. Hallar e interpretar intervalos de confianza para una media poblacional
con varianza conocida.
4. Calcular e interpretar intervalos de confianza para una media
poblacional con varianza desconocida.
5. Analizar e interpretar intervalos de confianza para la diferencia de
medias y diferencia de proporciones de dos poblaciones.
6. Determinar, analizar e interpretar los intervalos de confianza para la
varianza y razón de varianzas poblacionales.
62
2.1. INTRODUCCIÓN
El fin primario de la estadística es hacer inferencias acerca de las poblaciones
(de sus parámetros y de la forma de sus distribuciones) a partir de muestras
extraídas de las mismas. Los problemas inferenciales suelen ser clasificados en
dos grupos: problemas sobre estimación de parámetros y problemas de
comprobación de hipótesis.
En este capítulo abordaremos aspectos referidos a la estimación que es la
primera de las dos áreas generales que comprende la inferencia estadística. El
proceso de estimación implica calcular, a partir de los datos de una muestra
alguna estadística que se ofrece como una aproximación del parámetro
correspondiente de la población de la cual fue extraída la muestra.
La teoría de la estimación se ocupa del estudio de la estimación de parámetros
que consiste en encontrar o determinar el estadístico Tˆ que constituya una
buena estimación del valor de un parámetro desconocido T. Para realizar el
proceso de estimación, primero se supone que una variable aleatoria X tiene una
distribución, pero no se conocen sus parámetros, y luego se toma una muestra
(o muestras) de n observaciones de X para luego identificar qué valor del
estadístico da una buena estimación de los valores desconocidos de los
parámetros.
A través de la estimación se obtiene información de los parámetros bajo el
supuesto de que: primero, muchas poblaciones de interés, aunque finitas, son
muy grandes que el costo de un estudio del 100% sería imposible; y segundo las
poblaciones infinitas son imposibles de examinar completamente. La
estimación de parámetros puede ser puntual o intervalar.
La estimación es el primer problema del cual se ocupa la estadística inferencial,
que puede ser a través de un número simple, generalmente el estadístico
correspondiente llamado estimador puntual, o por medio de dos valores
numéricos que definen un intervalo llamado intervalo de confianza, el cual
contiene al parámetro estimado con cierto grado de confiabilidad.
Para el proceso de estimación se supone una variable aleatoria X, proveniente
de una población, tiene una determinada distribución de probabilidad, luego se
toma una muestra (o muestras) de n observaciones y con los datos de la muestra
se procede estimar los parámetros de dicha población. A los estimadores
generalmente se les denota con la misma letra que al parámetro, pero con un
acento circunflejo o “gorrito”; esto es, si el parámetro fuese T , su estimador
63
n n
es la estimación puntual del parámetro T; de manera similar V̂ 2 , estimación de
la varianza V2 que corresponde al valor del estimador s2.
2.2.1. Métodos de estimación puntual
Existen varios métodos diferentes para encontrar estimadores puntuales de
parámetros. Siendo las principales y de más uso en la estadística aplicada, el
método de momentos y el método de máxima verisimilitud.
a. Método de momentos
El método de estimación consiste en utilizar medidas descriptivas numéricas de
una muestra para estimar los parámetros de su población. Por ejemplo, utilizar
la media de la muestra x para estimar la media de la población P. Por lo
definido en la sección anterior el parámetro E(x) P es el primer momento
alrededor del origen (o primer momento de la población). En forma análoga se
1 n
define el primer momento de la muestra, como: x ¦ xi .
ni1
DEFINICIÓN. Representemos con: x1, x2, x3, …, xn, una muestra aleatoria de
tamaño n proveniente de alguna distribución de probabilidad (discreta o
continua). El k-ésimo momento de una variable aleatoria X con respecto al
origen se denota con Pk y se define como Pk = E(xk). Siendo:
P1 = E(X) = P; P2 = E(X 2) = V2 + P2.
1 n
1 n 2
m1
n ¦x
i 1
i X ; m2 ¦ xi .
ni1
Procedimiento. Elegir como estimadores a aquellas expresiones como
parámetros que son soluciones de las ecuaciones: mk = Pk; para k = 1, 2, 3, 4, 5,
…, a; donde a es el número de parámetros a estimar.
EJEMPLO 2.1. La tasa de respuestas x de las fibras del nervio auditivo de
gatos tiene aproximadamente una distribución de Poisson con media
desconocida x O . Supongamos que se midió la rapidez de las respuestas de las
fibras del nervio auditivo (registrada como número de picos por 200
milisegundos de ráfaga de ruido) en una muestra aleatoria de 10 gatos. Los
datos son: 14,6; 15,1; 13,0; 18.5; 16,2; 11,8; 17,4; 15,8; 14,4; 17,8. Calculemos
la estimación puntual de la rapidez de respuesta media O utilizando el método
del momento.
Solución
El parámetro a estimar es, O, el estimador del momento se obtiene igualando el
primer momento de la población, E(x), al primer momento de la muestra E (x) .
En efecto para la distribución de Poisson, se tiene que E (x) O , en consecuencia
el estimador del momento es Ô x
14,6 15,1 ... 17,8
Para el ejemplo, x 15,46
10
Por lo tanto, la estimación de la rapidez de respuesta media de las fibras del
nervio auditivo, O, es de 15,46 picos por 200 milisegundos de ráfagas de ruido.
DEFINICIÓN:
a. La verisimilitud L de una muestra de n observaciones: x1, x2, x3, …, xn, es la
función de probabilidad conjunta P(x1, x2, x3, …, xn), cuando x1, x2, x3, …, xn,
son variables aleatorias discretas.
b. La verisimilitud L de una muestra de n observaciones: x1, x2, x3, …, xn, es la
función de densidad conjunta f(x1, x2, x3, …, xn), cuando x1, x2, x3, …, xn, son
variables aleatorias continuas.
DEFINICIÓN. Sea L la verisimilitud de una muestra, donde L es una función
de los parámetros T1, T2,…, Tk. Entonces los estimadores de máxima
verosimilitud de T1, T2,…, Tk, son los valores de Tˆ 1, Tˆ 2,…, Tˆ k, que maximizan
L.
Ronald Fisher (1890-1962) demostró que los estimadores de máxima
verosimilitud de las medias y proporciones de las poblaciones poseen varias
propiedades muy deseables. Al aumentar más y más el tamaño de la muestra n,
la distribución de muestreo de un estimador de máxima verosimilitud Tˆ tiende
hacerse más y más normal con una media igual a T y una varianza igual o
menor a la varianza de cualquier otro estimador.
EJEMPLO 2.2. Sea x1, x2, x3, …, xn, una muestra aleatoria seleccionada de una
población exponencial de parámetro E. Para obtener un estimador para E, por el
método de momentos, procedemos: como sólo existe un parámetro de interés, la
solución se halla a partir de m1 = P1. De donde P = X , pero como en una
exponencial E[X] = P = E; entonces el estimador de máxima verosímil de E es
Ê X .
EJEMPLO 2.3. Sea: x1, x2, x3, …, xn, una muestra aleatoria de n observaciones
extraídas de una distribución normal con media P y varianza V2 (discreta o
continua). Entonces:
¦ (x i X )2
Pero, la estadística, sˆ 2 i 1
, es un estimador insesgado de la varianza
n 1
poblacional V 2 , ya que E ( sˆ 2 ) V 2 .
P=T P zT
a) Estimador A es insesgado b) Estimador B está sesgado
Figura 2-1. Curvas que representan a estimador insesgado y sesgado.
EJEMPLO 2.5. Siendo X1, X2, …, Xn una muestra aleatoria con E(Xi) = P y
var(Xi) = V2. Para X como estimador de P , y s2 como estimador de ŝ 2 y este
es un estimador V2. Cumpliéndose las siguientes realaciones:
E (X ) P .
ª
E (s 2 ) E «
¦( X i X )2 º ª
» E«
¦X i
2
2
X »
º 1
¦ E( X 2
i ) E ( X )2
«¬ n »¼ «¬ n »¼ n
§V 2 · n 1 2
(V 2 P 2 ) ¨¨ P 2 ¸¸ V
© n ¹ n
ª º
2
ª
E ( sˆ ) E « ¦( X X )2 º
i «
» E«
¦( X X )2 »
i n ª
E«
¦( X i X )2 º
»
n 1 n 1 » n 1 ¬«
¬« ¼» « n. » n ¼»
¬ n ¼
n n 1 2
. V V2
n 1 n
68
b. Consistencia o robustez
Un estimador puntual Tˆ se dice consistente (robusto), si sus valores tienden a
acercarse al parámetro de la población T, a medida que se incrementa el tamaño
de la muestra. Esto quiere decir, que un tamaño de muestra grande tiende a
proporcionar un mejor estimador puntual que un tamaño de muestra pequeña.
De esta forma podemos decir que la media muestral, X , es un estimador
consistente de la media poblacional P. Con razonamiento análogo podemos
llegar a la conclusión de que la proporción muestral p̂ es un estimador
consistente de la proporción poblacional S y, ŝ es un estimador consistente de
la varianza poblacional V.
EJEMPLO 2.6. Sea X una variable aleatoria que tiene una función de densidad
de probabilidad f(x), con E(x) = P y V(x) = V2. Si de esta población se
selecciona una muestra aleatoria de tamaño n; entonces, X (media) muestral es
un estimador consistente de P.
Solución
V2
En efecto, como E (x) P ; V ( x) , entonces: lim E xn lim P P y
n n of n of
V2
lim V xn lim 0 . Por lo tanto, X un estimador consistente de P.
n of n of n
c. Eficiencia o precisión.
La eficiencia de un estimador se refiere a la precisión que alcanzan los
estadísticos en la estimación de los parámetros, es decir, un estimador será tanto
más eficiente cuanto menos varíe de muestra a muestra de una misma
población. Como la variabilidad de una distribución muestral viene dada por su
error típico, un buen estimador será aquel que menor error típico alcanza. Así,
entre la media y la mediana, la primera es claramente más eficiente.
Un estimador se considera eficiente si en una muestra aleatoria de n elementos,
dos estimadores puntuales Tˆ1 y Tˆ2 diferentes (ambos insesgados) del mismo
69
parámetro poblacional T, se dice que Tˆ1 es un estimador más eficiente que Tˆ2 , si
V( Tˆ1 )< V( Tˆ2 ), Es decir, Tˆ1 es más eficiente que Tˆ2 , en orden a estimar un
parámetro T si la variabilidad de Tˆ1 alrededor de T es menor que la variabilidad
de Tˆ2 alrededor del mismo.
EJEMPLO 2.7. Supongamos que: x1, x2, x3, …, xn, representan una muestra
aleatoria de una población para la cual E ( x1 ) P ; V ( xi ) V 2 . Se sugiere los
estimadores de P, los siguientes:
Pˆ1 P1 , Pˆ 2 12 ( x1 x2 ) ; Pˆ 3 13 x1 x2 x3 , …, Pˆ n 1
n x1 x2 ... xn
i E (Pˆ 2 ) E ( 12 ( x1 x2 )) 1
2
( P P) P ,
3P
i E ( Pˆ3 ) E ( 12 ( x1 x3 x4 )) 1
2
( P P P) zP,
2
i E (Pˆ 4 ) E( X ) P
ocasiones. Por ejemplo, si (1D) = 0,97; podemos afirmar que de 100 intervalos
aleatorios que se toman, 97 de las veces contendrá al parámetro y sólo 3 veces
no lo contendrá.
La estimación por intervalos de confianza tiene la siguiente ventaja sobre la
estimación puntual: precisión (dada por la amplitud del intervalo), y
confiabilidad expresada en términos de probabilidad.
DEFINICIÓN. La estimación por intervalos trata de encontrar mediante una
muestra aleatoria dos números L1 y L2 extremos del intervalo de confianza,
tales que P( L1 < T < L2) = 1D; donde T es el parámetro por estimar y
(1D).100% se denomina nivel de confianza.
Si L1 y L2 son funciones de las observaciones para muestras de tamaño n, para
una determinada muestra asumen valores específicos.
DEFINICIÓN. Al conjunto de intervalo de valores posibles se denomina
“intervalo de confianza”, a la probabilidad asociada al intervalo de confianza se
denomina “coeficiente de confianza”, y a los dos valores extremos del intervalo
de confianza se llama “límites de confianza”.
Intervalo aleatorio. Es un intervalo finito o infinito donde por lo menos uno de
sus extremos es una variable aleatoria. Así, por ejemplo:
]f; X[: intervalo infinito con variable aleatoria X.
]X; Y[: intervalo infinito con variable aleatoria X e Y.
] Z; +f[: intervalo infinito con variable aleatoria Z.
Intervalo de confianza: Es el rango de valores posibles de un parámetro
expresado en un grado de confianza específica. Así, para una muestra aleatoria
x1, x2, x3, …, xn, extraída de una población con una función de densidad f(x,T)
y para la funciones L1 = l1(x1, x2, x3, …, xn) y L2 = l2(x1, x2, x3, …, xn) dos
estadísticos tales que L1 < L2. Se dice que I = ]L1; L2[ es un intervalo de
confianza para el parámetro T con coeficiente de confianza (1 – D)100%, si
T ]L1; L2[ con confianza del (1 – D)100%.
Interpretación teórica del coeficiente de confianza (1D). Si tuviéramos
repetidamente una muestra de tamaño n de la población y estableciéramos un
intervalo de (1D)100% para cada muestra, esperaríamos que el (1D)100% de
los intervalos contuviera el verdadero valor del parámetro. Es decir, si se
obtuviesen 100 muestras de tamaño n de la misma población y se calcula el
intervalo para cada muestra, se espera que el (1D).100% de estos intervalos
contendría el verdadero valor del parámetro T.
72
0.4
0.3
Densidad
0.2
0.9000
0.1
0.0
-1.645 0 1.645
Z
0.4
0.3
Densidad
0.2
0.9500
0.1
0.0
-1.96 0 1.96
Z
0.4
0.3
Densidad
0.2
0.9901
0.1
0.0
-2.58 0 2.58
Z
xP
Sustituyendo en la probabilidad el valor de z , se tiene:
V/ n
§ xP ·
P¨¨ z1D / 2 z1D / 2 ¸¸ 1 D
© V/ n ¹
De donde, haciendo un despeje algebraico resulta:
§ V V ·
P¨ ( x z1D / 2 . P x z1D / 2 . ) ¸ 1 D
© n n ¹
Estadísticas
Variable Desv.Est.
Aprovechamiento 6.85
Error E. IC de 95%
N Media Desv.Est. media para μ
40 69.80 6.85 1.08 (67.67; 71.92)
μ: media de Aprovechamiento
Desviación estándar conocida = 6.85
¦x
i 1
i
2
¦ (x
i 1
i x) 2 F. 2-2
x , sˆ
n n 1
xP
Entonces la variable aleatoria: t , tiene distribución t de Student con n1
sˆ / n
grados de libertad, esto es T a t(n1).
xP
Sustituyendo el valor de t , se tiene:
sˆ / n
78
§ xP ·
P¨¨ t1D / 2 (n 1) t1D / 2 (n 1) ¸¸ 1 D
© sˆ / n ¹
De donde, haciendo un despeje algebraico resulta el intervalo de confianza del
(1D)100%:
Intervalo de confianza para la media
poblacional: F. 2-3
sˆ sˆ
( x t1D / 2 .(n 1) P x t1D / 2 (n 1). )
n n
donde t (1D / 2) t teórico es la abscisa de la distribución t-Student con n1 grados de
libertad.-
EJEMPLO 2.10. Una muestra aleatoria de 25 alumnos de educación
secundaria responde a una prueba de comunicación matemática, obteniéndose
una media de 74 y una desviación estándar de 3,5. ¿Entre qué límites se hallará
la capacidad de comunicación matemática promedio de los alumnos de
educación secundaria, con un nivel de confianza de 0,95? Suponga que los
puntajes medios de la prueba de comunicación matemática se distribuyen
normalmente.
Solución
Como D = 0,05, se tiene que D/2 = 0,025, en la tabla t de Student buscaremos el
valor teórico de t1D/2 ( n1) = t0,975 ( 24) = 2,064, según la tabla B del apéndice.
Teniendo como dato de la muestra s = 3,5 y x 74 .
Hallamos el intervalo de confianza al 95% para P, como sigue:
sˆ sˆ
x t1D / 2; (n 1). P x t1D / 2 (n 1).
n n
3,5 3,5
74 2,064. P 74 2,064.
25 25
3,5 3,5
74 2,064. P 74 2,064.
5 5
74 1,4448 P 74 1,4448 72,5552 < P < 75,4448.
X que indique el número de veces que ocurre el evento en una muestra: x1, x2,
x3,…, xn. de tamaño n, y con probabilidad de éxito p, y el tamaño de la muestra
pˆ S
es grande, tal que n.p > 5, entonces: z , se distribuye
p(1 p) / n
aproximadamente como una normal estándar. Cuando p es cercano a 0 o 1 se
debe tomar un tamaño de muestra más grande para que la aproximación sea
buena.
x
Aquí p representa la proporción poblacional que se desea estimar, y pˆ es la
n
proporción muestral.
Un intervalo de confianza aproximado del (1 D)100% para la proporción
poblacional S, es:
Intervalo de confianza para una proporción poblacional:
pˆ (1 pˆ ) pˆ (1 pˆ )
pˆ z1D / 2 S pˆ z1D / 2 ó F. 2-4
n n
§ pˆ (1 pˆ ) pˆ (1 pˆ ) ·
P¨¨ pˆ z1D / 2 . S pˆ z1D / 2 . ¸ 1D
¸
© n n ¹
Donde p̂ es el estimador del parámetro proporción, S; el valor z1D / 2 es el
percentil de la distribución normal, cuyo valor se halla en la tabla normal
N(0 , 1).
EJEMPLO 2.12. Se llevó a cabo una encuesta para estudiar los hábitos y
actitud hacia la salud dental de cierta población urbana de adultos. De los 400
adultos entrevistados, 240 de ellos dijeron que se sometía regularmente a una
revisión dental dos veces por año. Halle un intervalo de confianza del 95% y del
99% para la proporción de individuos de la población muestreada que se somete
a una revisión dental dos veces al año.
Solución
La muestra total es de 400 adultos y la proporción que se somete a revisión
dental dos veces al año es:
x 240
p 0,60 .
n 400
a) Un intervalo de confianza al 95%, para la proporción poblacional S es:
p(1 p) p(1 p)
p 1,96. S p 1,96.
n n
81
0,60(0,40) 0,60(0,40)
A 0,60 1,96. S 0,60 1,96.
400 400
0,60(0,40) 0,60(0,40)
0,60 2,58. S 0,60 2,58.
400 400
0,60(0,40) 0,60(0,40)
0,60 2,58. S 0,60 2,58.
400 400
EJEMPLO 2.13. En el año 2016 en una provincia ubicada al sur del Perú, se
reportó que 4 de cada 10 personas piensan que se debe incrementar la seguridad
ciudadana en el país. En una encuesta posterior hecha en el año 2017 a 980
personas de la misma provincia se encontró que 730 de ellos consideren que
debería incrementarse la seguridad ciudadana en el país. Halle un intervalo de
confianza del 97% para la proporción poblacional en el año 2016. Según la
información que se tiene, ¿existe evidencia de que la opinión de la gente en el
2017 ha cambiado con respecto al 2016? ¿Por qué?
Solución
Los datos del problema son suficientes para hallar el intervalo de confianza para
S, con el Minitab. Para ello, se sigue la secuencia: Estadísticas ►Estadística
básica ►1-proporción… obteniéndose ventanas, figura 2-9.
82
2
¦ (x i x) 2
Se sabe que la varianza muestral se calcula mediante s i 1
como
n 1
estimador puntual de la varianza poblacional V2.
Al seleccionar una muestra aleatoria simple de tamaño n de una población
(n 1) s 2
normal, la expresión , tiene una distribución Chi-cuadrada con n 1
V2
grados de libertad.
2
Usando la distribución Chi-cuadrada es no simétrica, y los percentiles xD /2
y
2
x 1D / 2
son de tal manera que cada una de las áreas se indican en la siguiente
figura sean iguales a D/2.
83
1 D
D/2 D/2
2 2
x
D /2
(n 1) x 1D / 2
(n 1)
2 (n 1)s 2 2
Partiendo de la probabilidad: P( xD / 2 x ) 1D
V2 1D / 2
(n 1) sˆ 2 (n 1) sˆ 2
V 2
x12D / 2 (n 1) xD2 / 2 (n 1)
2 2
En la tabla Chi-cuadrada: x 0,05
(17) 8,67 y x 0,95
(17) 27,59 . Reemplazando valores,
(17)(16) (17)(16)
obtenemos V2 , de donde: 9,86 V 2 31,37
27,59 8,67
Figura 2-11: Ventana de diálogo: cálculo intervalo de confianza, para ejemplo 2.15.
85
1–D
D/2 D/2
zc zc
Figura 2-12. Ilustración del Intervalo de confianza para la distribución normal Z
s12 s 22 s2 s2
( x 1 x 2 ) 1,96 P1 P 2 ( x 1 x 2 ) 1,96 1 2
n1 n 2 n1 n 2
s11 s 22 s2 s2
( x 1 x 2 ) 2,58 P1 P 2 ( x 1 x 2 ) 2,58 1 2
n1 n 2 n1 n 2
121 100 121 100
(68 62) 2,58 P1 P 2 (68 62) 2,58
20 22 20 22
1 D
D/2 D/2
tc tc
Figura 2-13. Ilustración del Intervalo de confianza para la distribución t-Student.
EJEMPLO 2.17. Con el fin de comparar los promedios de tiempo en que los
trabajadores de una Institución Educativa de dos turnos diferentes Mañana y
Tarde, realizan una tarea, se registraron los tiempos en minutos
correspondientes a 9 trabajadores de cada uno de los turnos.
Para el turno mañana, se obtuvo: 32, 37, 35, 28, 41, 44, 35, 31, 34.
Para el turno tarde, se obtuvo: 35, 31, 29, 25, 34, 40, 27, 32, 31.
89
Encontrar un intervalo de confianza del 95% para la diferencia entre las medias
de los tiempos de las tareas realizadas por los trabajadores de los turnos tarde y
mañana.
Solución
Supongamos que los tiempos se distribuyen normalmente y que las varianzas de
los mismos son iguales. Haciendo uso del Minitab, para encontrar las medias y
varianzas de las muestras seguimos las opciones: Estadísticas ► Estadística
básica ►Mostrar estadísticas descriptivas… ►Estadísticas…, obtenemos:
§1 1 · §1 1 ·
( x1 x 2 ) t s 2 ¨ ¸ P P ( x1 x 2 ) t s 2 ¨ ¸
C 1 ¨n n ¸ 1 2 C 2 ¨ n n ¸
© 1 2¹ © 1 2¹
§1 1· §1 1·
(35,22 31,56) (2,12) 22,24.¨ ¸ P P (35,22 31,56) (2,12) 22,24.¨ ¸
©9 9¹ 1 2 ©9 9¹
3,66 (2,12)(2,21) P P 3,66 (2,12)(2,21) .
1 2
1,07 P1 P 2 8,35
En efecto, con un nivel de confianza del 95%, la diferencia de los tiempos
medios de las tareas realizadas para todos los trabajadores de la institución
educativa, mañana y tarde, se encuentra en el intervalo ]1,07 , 8,35[.
EJEMPLO 2.18. En un estudio de factores que se consideran responsables de
los efectos adversos del alcoholismo sobre la reproducción humana, se midieron
los niveles de alcohol en el organismo de 15 mujeres embarazadas que
consumían alcohol y una muestra aleatoria independiente de 14 mujeres
normales. Los resultados fueron los siguientes:
Normales: 8, 12, 23, 11, 10, 13, 15, 22, 9, 20, 13, 15, 17, 14.
90
Alcohólicas: 30, 32, 20, 18, 33, 25, 17, 22, 31, 27, 16, 18, 24, 27, 29.
Construya un intervalo de confianza del 95% para la diferencia entre la media
de las poblaciones. ¿Es probable que el nivel medio de alcohol registrado sea
mayor entre las alcohólicas que entre las mujeres normales? ¿Por qué se
llegaría a esta conclusión?
Solución
Para estimar la diferencia de medias para poblaciones independientes con el
Minitab, se sigue los comandos: Estadísticas ► Estadística básica ► t de 2
muestras… ►Cada muestra está en su columna► se ingresan los datos en la
ventana de diálogo como muestra la figura 2-14.
Donde
Grado de libertad para muestra de varianzas diferentes
gl
>s 2
1 / n1 ) ( s 22 / n 2 @
2
F. 2-9
( s / n1 ) 2 ( s 22 / n 2 ) 2
2
1
n1 1 n2 1
Como el grado de libertad (gl) nunca resulta entero, debemos aproximar al
entero mayor más cercano.
EJEMPLO 2.19. Se hace un estudio para comparar el tiempo que tardan los
varones y mujeres para resolver un examen objetivo de ciencias sociales. Las
experiencias anteriores indican que la distribución del tiempo tanto para varones
como mujeres es normal con varianzas diferentes. En una muestra aleatoria de 9
varones y 8 mujeres se detectó los siguientes tiempos en minutos para resolver
el cuestionario.
Varones: 25, 55, 20, 50, 48, 36, 44, 60, 34
Mujeres: 32, 40, 32, 40, 32, 34, 30, 42
Mediante un intervalo de confianza del 95% para la verdadera diferencia de los
promedios de tiempo de varones y mujeres, ¿se puede concluir que los varones
emplean mayor tiempo que las mujeres para resolver el examen?
Solución
Sean X1 y X2 las variables aleatorias que representan los tiempos empleados por
varones y mujeres, respectivamente.
92
gl
>(s 2
1 / n1 ) ( s 22 / n 2 ) @
2
>(13,54) 2
/ 9 (4,65) 2 / 8@ 2
10,06 | 11
2 2
( s / n1 ) ( s / n 2 )
1
2
2
2
>(13,54) / 9@ >(4,65) / 8@
2 2 2 2
n1 1 n2 1 9 1 8 1
En efecto, para 1D = 0,95 y gl = 11, se tiene: t 0,975 (11) 2,201
Reemplazando los datos dados y los obtenidos en la fórmula:
(41,33 35,25) 2,201 23,073 P1 P2 (41,33 35,25) 2,201 23,073
6,08 10,57 P1 P2 6,08 10,57 4,49 P1 P2 16,65
ª1 1º
donde: sC p(1 p) « » .
¬ n1 n2 ¼
ª1 1 º ª1 1 º
sC p(1 p) « » (0,831)(0,169) « » 0,053
¬ n1 n2 ¼ ¬ 98 102 ¼
1D
D/2 D/2
OBSERVACIÓN:
Si el intervalo de confianza para V 12 / V 22 contiene el valor uno, se concluye que
las varianzas son iguales.
Si el intervalo de confianza para V 12 / V 22 no contiene el valor uno, entonces
podemos tener un (1 D).100% de confianza que V 12 z V 22 .
Solución
Recurriendo a la tabla F, se tiene:
F1D / 2 (r1, r2 ) F1D / 2 (20, 15) F0,975(20,15) 2,76 .
1 1 1
Como FD / 2 (r2 , r1 ) 0,362 , reemplazando valores en:
F1D / 2 (r1, r2 ) F1D / 2 (20, 15) 2,76
sˆ12 V 2 sˆ 2
FD / 2 (r2 , r1 ) 12 12 F1D / 2 (r2 , r1 ) , se tiene:
sˆ22
V 2 sˆ2
1600 1 V 2 1600 V2
( ) 12 (2,57) 0,473 12 3,36 .
1225 2,76 V 2 1225 V2
Luego, el intervalo de confianza para la razón de varianzas poblacionales es el
intervalo ]0,473 , 3,36[, en este caso el cociente de varianzas puede ser uno; es
decir las varianzas pueden ser iguales.
Para resolver el ejemplo 2.22 con el Minitab accionamos los comandos:
Estadísticas ►Estadística básica ► 2-Varianzas... ► ingresando los datos
del problema tendremos la ventana de diálogo de la figura 2-21.
100
Relación de varianzas
IC de 90%
para la
Relación relación
estimada usando F
2.0625 (1.063; 4.668)
PROBLEMAS PROPUESTOS Nº 2
15. Un investigador encuestó a una muestra aleatoria de 400 adultos para pedir su
opinión sobre la calidad de la educación universitaria, obteniéndose las
siguientes respuestas:
135 adultos: la calidad educativa está mejorando
167 adultos: la calidad educativa permanece igual.
98: adultos: la calidad educativa está empeorando.
Encuentre la estimación puntual de los siguientes parámetros de la población:
a. La proporción de adultos que opinan que la calidad de la educación está
mejorando.
b. La proporción de adultos que opinan que la calidad educativa permanece
igual.
c. La proporción de adultos que piensan que la calidad educativa ha
empeorado.
16. Una muestra de 24 estudiantes de Educación se ha administrado una prueba
de estadística, en la que se ha obtenido una media de 14 puntos con varianza
3,2 puntos2. Suponiendo que las calificaciones se distribuyen normalmente,
construya el intervalo de confianza para la varianza poblacional, V 2 , con un
nivel de confianza del 90%.
17. Se escoge una muestra aleatoria de 12 tiendas y se encuentra que las ventas
de la semana de un determinado producto de consumo diario tiene una
desviación estándar de 5,8 nuevos soles. Suponiendo que las ventas del
producto tienen una distribución normal. Estimar: a) la varianza, b) la
desviación estándar poblacional mediante el intervalo de confianza del 95%.
18. En un centro de estética, durante el último semestre, se emplearon dos
tratamientos diferentes para reducir el peso (T1 y T2). El tratamiento T1 es
aplicado a un grupo G1, mientras el tratamiento T2 es aplicado a un grupo G2.
Ambos grupos están formados por adultos cuyas edades oscilan entre 25 y 35
años, que tienen problemas de obesidad. El tratamiento T1 es sustancialmente
más costoso que el tratamiento T2. El médico del centro quiere determinar al
95% de confianza entre qué valores se puede esperar que esté la diferencia en
los pesos medios rebajados después de los tratamientos que debe ofrecer el
centro. Al final de la aplicación de los tratamientos se obtuvieron los
resultados:
Muestra 1: Tamaño 50 adultos, media 17,2 kg y s = 3,7 kg.
Muestra 2: Tamaño 48 adultos, media 16,4 kg y s = 3,4 kg.
19. El coordinador académico del centro preuniversitario de la UNHEVAL tiene
la percepción de que el rendimiento académico durante el primer año de
108
OBJETIVOS
Al final de este capítulo estarás en condiciones de:
1. Definir que es una hipótesis e identificar los tipos de hipótesis.
2. Describir la estrategia o pasos a seguir en una prueba de hipótesis.
3. Distinguir una prueba de hipótesis unilateral (o de una cola) y bilateral
(o de dos colas) para muestras pequeñas y muestras grandes.
4. Realizar pruebas de hipótesis respecto a una media poblacional y a una
proporción poblacional, para muestras grandes.
5. Realizar pruebas de hipótesis respecto a la diferencia entre dos medias
poblacionales y dos proporciones de población, para muestras grandes.
6. Describir las características de la prueba t de Student.
7. Realizar pruebas de hipótesis respecto a una media poblacional para
muestras pequeñas.
8. Realizar pruebas de hipótesis respecto a la diferencia entre dos medias
poblacionales con muestras independientes.
9. Realizar pruebas de hipótesis respecto a la diferencia de medias entre
observaciones pareadas (o en pares).
112
3.1. INTRODUCCIÓN
Hipótesis (del latín hypothĕsis), que a su vez deriva de un concepto griego, es
algo que se supone y a lo que se le otorga un cierto grado de posibilidad para
extraer de ello un efecto o una consecuencia. Es una idea que puede no ser
verdadera, basada en unos datos que sirve de base para iniciar una investigación
o una argumentación. Su valor reside en la capacidad para establecer más
relaciones entre los hechos y explicar por qué se producen. Normalmente se
plantean primero las razones claras por las que uno cree que algo es posible. Este
método se usa en el método científico, para luego comprobar las hipótesis a través
de los experimentos.
Una hipótesis puede usarse como una propuesta provisional que no se pretende
demostrar estrictamente, o puede ser una predicción que debe ser verificada por
el método. En el primer caso, el nivel de veracidad que se otorga a una hipótesis
dependerá de la medida en que los datos empíricos apoyan lo afirmado en la
hipótesis. Esto es lo que se conoce como contrastación empírica de la hipótesis o
bien proceso de validación de la hipótesis. Este proceso puede realizarse
mediante confirmación (para las hipótesis universales) o mediante verificación
(para las hipótesis existenciales).
Importancia
Las hipótesis son el punto de enlace entre la teoría y la observación. Su
importancia es que dan rumbo a la investigación al sugerir los pasos y
procedimientos que deben darse en la búsqueda del conocimiento. Cuando una
hipótesis de investigación ha sido bien elaborada, y en ella se observa claramente
la relación o vínculo entre dos o más variables, es factible que el investigador
pueda:
Figura 3-1. Pantalla del Minitab 18, para distintas pruebas de hipótesis.
La afirmación que está establecida y que se espera sea rechazada después de hacer
una prueba estadística es llamada hipótesis nula y se le representa por H0. Es la
hipótesis que es aceptada provisionalmente como verdadera y es sometida a
comprobación experimental. Es la primera afirmación que se va a someter a
prueba para ser aceptada o rechazada. Debe representar lo conocido e indica que
todo se mantiene igual. Por ejemplo, es una hipótesis nula: “el coeficiente
intelectual medio de los adultos de una región del país es 98”. En principio, se
acepta CI = 98 y seguiremos manteniendo provisionalmente como verdadero tal
hipótesis, mientras los resultados experimentales no nos obliguen a rechazarlo.
3.3.2 La hipótesis alternativa (H1)
La afirmación que se espera sea aceptada después de hacer una prueba estadística
se llama hipótesis alternativa y se representa por H1. Esta hipótesis está ligado
a la hipótesis de trabajo de la investigación. Esta hipótesis es aceptada si H0 es
115
c
Figura 3-2. Curva normal para una prueba unilateral (o de cola) hacia izquierda
c
Figura 3-3. Curva normal para una prueba unilateral (o de cola) hacia derecha.
117
c1 c2
Figura 3-4. Curva normal para una prueba bilateral (o de dos colas).
Por ejemplo, para probar el valor del parámetro P, con varianza poblacional
conocida, se usa la distribución normal Z, y para una prueba de unilateral con
cola hacia derecha, si ocurre que zcalc < zcrítico, entonces no se rechaza la hipótesis
nula H0. Este concepto se ilustra en la figura 3-5.
p>D
p<D
zcrítico
0,95
Figura 3-6. Punto crítico para una prueba unilateral derecha de Z, al 95% de confianza.
0,95
Figura 3-7. Punto crítico para una prueba unilateral izquierda de Z, al 95% de confianza.
P( «Z« > 1,96) = P(Z > 1,96) + P(Z < 1,96) = 0,05; siendo la región crítica el
intervalo ] f , 1,96[ ]1,96 , +f[.
0,95
Figura 3-8. Punto crítico para una prueba bilateral para Z, al 95% de confianza.
Estadístico de prueba
Decisión
Si Zcalc < Z1D, Si «Zcalc«> Z1D/2, Si Zcalc > –Z1D
se rechaza H0 se rechaza H0 se rechaza H0
Solución
Paso 1. Planteo de hipótesis nula y alterna:
H0: P d 75 (el número de palabras escritas por minuto no pasan de 75)
H1: P > 75 (el número de palabras escritas por minuto es más de 75).
Figura 3-9. Ventana de diálogo para prueba de hipótesis para el problema, ejemplo 3.1.
Figura 3-10. Ventana de diálogo para prueba de hipótesis con datos del ejemplo 3.2.
128
Estadístico de prueba
x Po
t calc
s/ n
Decisión
Si tcalc < t1D(n1) Si «tcalc«> t1D/2 (n1), Si tcalc > –t1D (n1)
se rechaza H0 se rechaza H0 se rechaza H0
Una prueba se dice que es de una cola cuando la hipótesis alterna indica una
dirección (ya sea >, o bien <), según indica en el cuadro el signo de la cola, es a
derecha (caso III) o es a izquierda (caso I). Mientras la prueba de dos colas no
indica dirección (caso II) del cuadro.
H1: P > 225 (el cardiólogo piensa que el nivel promedio de colesterol es mayor
de 225).
Paso 6. Decisión estadística: Como el valor calculado: tcalc = 0,313 < 1,319. No
se rechaza la hipótesis nula; es decir, el nivel de colesterol promedio de los
pacientes es en promedio de 225, con un nivel de confianza del 90%.
Prueba Estadística
pˆ S o
Z calc
p.(1 p) / n
Decisión
Si Zcalc < Z1D, Si «Zcalc «> Z1D/2, Si Zcalc > –Z1D,
se rechaza H0 se rechaza H0 se rechaza H0
Solución
Paso 1. Formulación de hipótesis nula y la alternativa:
H0: S t 0,30 (los alumnos del último ciclo que trabajan y estudian es mayor o
igual al 30% del total).
H1: S < 0,30 (los alumnos del último ciclo que trabajan y estudian es inferior al
30% del total).
Paso 2. Nivel de significación: D = 0,05 = 5%.
pˆ S
Paso 3. El estadístico de pruebas: Z
p(1 p)
n
Paso 4. Determinación de la región de rechazo de H0: De acuerdo a la hipótesis
alternativa S < 0,30 la prueba es unilateral, de una cola a la izquierda. Usamos
la distribución normal: 1 D = 1 0,05 = 0,95; luego Z0,95 = 1,64, como la cola
es a la izquierda, por simetría zteórica = 1,64.
EJEMPLO 3.6. Un hospital afirma que el 25% de los nacimientos que ocurren
allí son por cesárea. Un médico que trabaja en dicho hospital piensa que ese
porcentaje es mayor. Para comprobar su afirmación recolecta información de
los 32 nacimientos que ocurrieron durante una semana, al 95% de confianza con
los siguientes datos:
cesárea normal cesárea normal normal normal normal cesárea
normal cesárea normal cesárea normal normal normal normal
normal cesárea normal normal cesárea normal normal cesárea
normal cesárea normal cesárea normal cesárea normal normal
¿Existe suficiente evidencia estadística para apoyar la afirmación del médico?
Solución
Una vez planteado las hipótesis nulas y alternativa:
135
H0: S d 0,25 (menor o igual del 25% de partos son por cesárea)
H1: S > 0,25 (más del 25% por cesárea y menos del 75% de los partos son
normales).
Solución:
Para resolver el problema del EJEMPLO 3.5, con el Minitab.
Accionamos los comandos: Estadísticas ►Estadística básica ► elegir 1
proporción… ► seleccionar parto ► activar el botón Opciones…►
escribimos en Nivel de confianza 95,0, seleccionar en Hipótesis alterna, Media
> media hipotética ► Aceptar / Aceptar.
Paso 5. Cálculo del estadístico de prueba, de los datos que se dan, se tiene que
la varianza muestral es s2 127,02 , luego:
2 (22 1).(127,02) 2667 ,42
x cal 26,6742
100 100
137
Paso 4. Región crítica: Con el nivel de significación D = 0,05 y para una prueba
de hipótesis bilateral, el valor teórico de Z es z1D/2 = 1,96.
Luego, la región crítica para Z es el intervalo R.C. = { z < 1,96 , z > 1,96}
Paso 6. Decisión: Puesto que zcalc = 1,68 < 1,96, no se rechaza la hipótesis nula;
y podemos concluir, con un nivel confianza del 95% los kilómetros recorridos
que hacen los ingenieros y los médicos son aproximadamente iguales.
OBSERVACIÓN: En el Minitab no se contempla la prueba de hipótesis para
la diferencia de dos medias en la distribución Z.
3.7.2. Comparación entre dos medias poblacionales usando muestras
independientes con varianzas desconocidas supuestas iguales
Supongamos que se tiene dos poblaciones distribuidas normalmente con medias
desconocidas P1 y P2 respectivamente. Se puede aplicar una prueba t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas en ellas. Para una muestra de tamaño n1 , media x 1 y
2 2
varianza s1 y una segunda muestra de tamaño n2 , media x 2 y varianza s 2 .
es:
(X 1 X 2)
t cal
§1 1·
S C ¨¨ ¸¸
© n1 n2 ¹
Se distribuye como una t con n1 n2 2 grados de libertad. En este caso la
varianza poblacional muestral V es estimada por una varianza combinada de
2
Paso 4. Región crítica: Con el nivel de significación D = 0,01 y para una prueba
de hipótesis unilateral con cola a derecha de T es t(1D)(15) = 2,602.
Paso 6. Decisión: Puesto que zcalc = 0,413 < 2,602, no se rechaza la hipótesis
nula. En efecto, se puede concluir con riesgo de 1% (o 99% de confianza) que
los calificativos obtenido por las mujeres en el curso de estadística es menor o
igual a los calificativos obtenido por los varones.
76
72
Calificativo
68
64
60
estatal privada
Insti.Educa.
Estadístico de prueba
d P
t calc , n – 1 grados de libertad
s/ n
Decisión
Si tcalc < t1D, Si tcalc > t1D/2 ó tcalc < -t1D/2, Si tcalc > -t1D
se rechaza H0 se rechaza H0 se rechaza H0
146
Solución
De la tabla:
147
1,497
.n = 10, 6d = 36, Sd = 1,497, d 3,6 y error estándar Sd 0,47
n 10
de la segunda población sacamos una muestra de tamaño n2, y que en ella ocurre
el evento X2 veces.
Los parámetros que son las proporciones poblacionales tienen estimadores en
X1 X2
cada una de las muestras: p1 y p2 , cuando las muestras son
n1 n2
( p1 p2 ) (S 1 S 2 )
suficientemente grandes, la estadística, z tiene una
§1 1·
p(1 p)¨¨ ¸¸
© n1 n2 ¹
n1 . p1 n2 . p2
distribución aproximadamente normal donde p
n1 n1
Si la hipótesis nula es verdadera, una estimación común de S 1 S 2 S , es
n1 . p1 n2 . p 2
p y podemos usar como el estadístico de prueba
n1 n1
( p1 p 2 )
z
1 1
p(1 p)( )
n1 n2
La fórmula para el cálculo de estadístico de prueba, se resume en el cuadro:
Caso I Caso II Caso III
H0: S1 t S 2 H0: S1 = S2 H0: S1 d S2
H1: S1 < S2 H1: S1 z S2 H1: S1 > S2
Estadístico de prueba
( p1 p2 )
z calc
1 1
p.(1 p)( )
n1 n2
Decisión
Si Zcalc < Z1D, Si Zcalc > Z1D/2 ó Zcalc < -Z1D/2, Si Zcalc > -Z1D,
se rechaza H0 se rechaza H0 se rechaza H0
Solución
S 1 : Proporción de la población 1
S 2 : Proporción de la población 2
p1 : Proporción de la muestra observada en la población 1.
p2 : Proporción de la muestra observada en la población 2.
Cálculos prévios:
200 150
p1 0,40 n1 = 500 y p2 0,50 n2 = 300
500 300
n1 . p1 n2 . p2 500(0,40) 300(0,50)
p 0,4375
n1 n2 500 300
Solución
Identifiquemos la Hipótesis nula e hipótesis alternativa:
H0: S1 = S2 (la probabilidad de sufrir ataque cardiaco de los que practican
deporte y de los que no lo hacen son iguales)
H1: S1 < S2 (las probabilidades de sufrir ataque cardiaco de los que practican
deporte es menor de los que no lo hacen)
En Minitab, para realizar la inferencia acerca de la diferencia de dos
proporciones se siguen la secuencia Estadísticas ► Estadística básica ► 2
proporciones ► activando la ventana Datos resumidos. Luego, activando l
ventana de diálogo y seleccionamos la opción diferencia < diferencia hipotética,
obtenemos la ventana de la figura 3.21.
OBSERVACIÓN: existen tres maneras de ingresar los datos para hacer esta
prueba estadística:
El primer caso es cuando los datos están en dos columnas, en la primera columna
van las secuencias de éxitos y fracasos y, en la segunda se identifica a qué grupo
pertenece cada uno de ellos y se usa Muestras en una columna.
El segundo caso es cuando la secuenciación de éxitos y fracasos de cada grupo
va en columnas distintas y se usa Muestras en diferentes columnas.
En el tercer caso se dan los totales de éxitos y los tamaños de cada grupo y se
usa Datos resumidos. En el ejemplo 3.14 se utilizó esta última opción.
S12
F tiene la distribución F-Snedecor con (n1 1) y (n2 1) grados de
S 22
libertad.
La estadística de prueba basada en los valores observados de las muestras
independientes xi de la variable X1 y xj de la variable X2, respectivamente resulta
s12
Fcalc , la cual se comparará con el valor teórico de la abscisa de la
s22
distribución F con (n1 1) y (n2 1) grados de libertad.
Se rechazará la hipótesis nula si el valor del estadístico calculado se encuentra
ya sea en la cola superior o en la cola inferior correspondiente a D/2, de la
distribución F-Snedecor, con (n1 1) y (n2 1) grados de libertad.
La fórmula para la prueba de hipótesis es como se resume en el cuadro:
Caso I Caso II Caso III
H0: V 1 V 2
2 2
H0: V 1 t V 2 V 12 d V 22
2 2
H0:
H1: V 12 V 22 H1: V 1 z V 2
2 2
H1: V 12 ! V 22
Estadístico de prueba
S12
Fcalc
S 22
con n1– 1 gl en el numerador y n2 – 1 gl en el denominador
Decisión
Si Fcalc F1D Si Fcalc F1D / 2 o Fcalc ! F1D / 2 Si Fcalc ! F1D
se rechaza H0 se rechaza H0 se rechaza H0
Realice una prueba de hipótesis para determinar si existe diferencia entre las
varianzas de los tiempos de ensamblaje para los dos métodos.
Paso 1. Hipótesis nula e hipótesis alternativa
H0: V 1 V 22 (las varianzas de los dos métodos son iguales)
2
Paso 6. Decisión: Puesto que Fcalc = 2,08 > 1,94, rechazamos la hipótesis nula
H0, es decir las varianzas del tiempo de ensamblaje mediante los dos métodos
son diferentes
Para resolver el EJEMPLO 3.16 con el Minitab:
Activamos los comandos Estadísticas ► Estadística básica ► 2 Varianzas…
► activar Varianzas de la muestra ► activar Opciones…, digitar 90,0 y activar
Relación z relación hipotética, como se muestra en la figara 3-23.
Figura 3-24. Ventana de diálogo de Prueba de varianzas iguales para el ejemplo 3.17.
Oprimiendo Aceptar/Aceptar, en la ventana Sesión, aparece los resultados:
Prueba
Hipótesis nula H: σΌ / σ = 1
Hipótesis alterna HΌ: σΌ / σ ≠ 1
Nivel de significancia α = 0.05
Estadística
Método de prueba GL1 GL2 Valor p
F 0.63 7 5 0.553
Además aparece una gráfica mostrando los intervalos de confianza para cada
uno de las desviaciones estándar y una comparación de la variabilidad de escala
como aparece en la figura 3-25.
Figura 3-25. Intervalos de confianza y gráfica de cajas para varianzas en el ejemplo 3.17.
X P
t
s/ n
Donde X es la media muestral, P es la media poblacional, s es la desviación
estándar muesttral y n es el número de observaciones en la muestra y el grado
de libertad es n – 1.
PROBLEMAS PROPUESTOS Nº 3
Prueba Z
1. El administrador de un centro de salud quisiera saber si el tiempo medio
invertido por los pacientes en la sala de espera es mayor que 25 minutos. Una
muestra de 100 pacientes permaneció, 30 minutos entre el centro de triaje y la
atención por el médico especialista. La desviación estándar de la muestra es
de 10 y D = 0,05.
2. Se efectuó un experimento con roedores para estudiar los efectos de cierta
cirugía. Después de la cirugía los roedores fueron entrenados para realizar una
serie de tareas y se calificó a cada uno de ellos en base a su desempeño. El
puntaje medio de los 25 roedores utilizados en el experimento fue 80 con una
desviación estándar de 9. ¿Éstos datos proveen la suficiente evidencia para
indicar que la media de la población es menor que 85? Considere D = 0,05.
3. Una encuesta a 64 laboratorios médicos reveló que el precio medio cobrado
por realizar cierta prueba es de S/. 100.00 con una desviación estándar de S/.
30. ¿Proveen estos datos la suficiente información para indicar que la media
de la población es mayor que 90 al 95% de confianza?
4. Se desea saber si es posible concluir que el consumo medio diario de calorías
de la población rural del departamento de Huánuco es menos de 1900 calorías.
Una muestra de 400 individuos produjo un consumo medio de 1880 y una
desviación estándar de 110, con D = 0,05.
5. Antes de la capacitación de los docentes en las TIC a través de un programa
del ministerio de educación en un distrito del departamento de Apurímac, el
rendimiento promedio de los alumnos del primer grado de secundaria fue de
12,4 puntos. Para determinar si la capacitación docente tuvo efectos positivos
en el proceso enseñanza-aprendizaje de los docentes capacitados se refleja en
el rendimiento académico de los alumnos se observaron al azar 120 alumnos,
dirigidos por los docentes capacitados, obteniéndose un rendimiento promedio
de 13,6 puntos con desviación estándar de 2,2 puntos. Al nivel de significancia
del 0,05 ¿se podría decir que existe evidencia de que el rendimiento promedio
ha aumentado?
6. A partir de los datos de una muestra aleatoria simple. De 100 alumnos
seleccionados en una universidad nacional, se averiguó que los gastos diarios
en promedio es de S/. 42.00, si se considera una desviación estándar de la
163
11. Se plantean las hipótesis siguientes: H0: S d 0,70 y H1: S > 0,70. En una
muestra de 100 observaciones se reveló que p = 0,75 al nivel de significancia
de 0,05. ¿Puede rechazarse la hipótesis nula?
a) Establezca la regla de decisión.
b) Calcule el valor del estadístico de prueba.
c) Cuál es la decisión respecto a la hipótesis nula.
12. Se plantean las hipótesis siguientes: H0: S = 0,45 y H1: S z 0,45. Una muestra
de 120 observaciones reveló que p = 0,35 al nivel de significancia de 0,05.
¿Puede rechazarse la hipótesis nula?
a) Establezca la regla de decisión.
b) Calcule el valor del estadístico de prueba.
c) ¿Cuál es la decisión respecto a la hipótesis nula?
13. Suponga que hay interés por saber qué proporción de la población de
conductores de tico utilizan con regularidad el cinturón de seguridad del
asiento. En una encuesta a 200 conductores adultos 15 de ellos dijeron que
regularmente utilizan el cinturón de seguridad. ¿Es posible concluir a partir de
estos datos que, en la población muestreada, la proporción de que utilizan
regularmente el cinturón de seguridad del asiento no es del 0,50, para D = 0,1?
14. Una muestra de 100 empleados de un hospital, los cuales habían estado en
contacto con sangre y sus derivados, fue examinada para averiguar si
presentaban evidencia sexológica de hepatitis B. Se encontró que 23 de ellos
presentaron resultados positivos. ¿Es posible concluir a partir de estos datos
que la proporción de individuos que presentaron resultados positivos en la
población muestreada es mayor que 0,15? Sea D = 0,05.
Prueba de hipótesis para relación entre dos poblaciones:
15. Una muestra de 40 observaciones se selecciona de una población, la media
muestral es 102 y la desviación estándar es 5. Otra muestra de 50
observaciones se selecciona de una segunda población, la media muestral es
98 y desviación estándar 6. Realice la siguiente prueba de hipótesis utilizando
el nivel de significación de 0,05.
H0: P1 = P2 y H1: P1 z P2.
a) ¿Es ésta una prueba de una cola o dos colas?, b) Enuncie la regla de
decisión?, c) Calcule el estadístico de prueba, d) Cual es la decisión
respecto a H0?
16. Una muestra de 65 observaciones se seleccionó de una población, con media
muestral de 2,67 y desviación estándar 0,75. Otra muestra de 55 observaciones
165
19. ¿Es posible concluir que los niños crónicamente enfermos tienden, en
promedio, a tener menos confianza en sí mismos que los niños sanos? Se toma
una prueba para estimar la confianza en sí mismos a 16 niños crónicamente
enfermos y a 21 niños sanos. Los puntajes medios y desviaciones estándar
fueron los siguientes de los niños enfermos fueron: 22,5 y 4,2, y de los sanos
27 y 3,3, respectivamente; considere nivel de significancia 0,10.
20. En una investigación realizada en las carreras profesionales de una
universidad, la población objetivo estuvo integrada por los alumnos
matriculados en las carreras de obstetricia, educación y administración y que
en el año lectivo 2016 fueron en total de 1400 alumnos.
Las variables estudiadas fueron:
Rendimiento en la prueba de psicología.
Rendimiento en la prueba de matemática.
Rendimiento en la prueba de estadística.
Carrera Número de Notas
alumnos Media Desviación
muestral estándar
Administración 20 12,8 2,4
Educación 16 13,0 1,8
Obstetricia 14 13,5 1,6
Total 50
Muestra de población A: 9,0; 9,5; 10,0; 13,0; 11,0; 14,0, 10,0; 9,5; 12,0; 8,5
Muestra de la población B: 9,5; 13,5; 14,0; 13,5; 12,5; 14,5; 12,0; 13,5; 12,0.
Considere nivel de confianza del 95%.
23. Una prueba diseñada para medir las actitudes de las madres en cuanto al
trabajo de parto y expulsión se aplicó a dos grupos de nuevas madres. La
muestra 1 (asistentes) concurrieron a clases de instrucción prenatal impartidas
en el departamento de salud. La muestra 2 (ausentes) no asistieron a dichas
clases. El tamaño de las muestras, medias y desviaciones estándar de los
puntajes de las pruebas son las siguientes: 18; 4,8; 2 y 25; 3,5; 2,5.
¿Proporcionan estos datos la evidencia suficiente para indicar que los
asistentes en promedio, tienen puntajes más elevados que los ausentes con un
riesgo de 0,05?
24. Se midieron las concentraciones de cortisol en dos grupos de mujeres al
momento de dar a luz. Al grupo 1 se le aplicó una operación cesárea de
urgencia después de inducido el parto. Las del grupo 2 dieron a luz mediante
operación cesárea o vía vaginal después de presentarse el trabajo de parto
espontáneamente. El tamaño de las muestras, medias y desviaciones estándar
de los niveles de consumo son las siguientes: 12; 445; 65 y 15; 640; 75.
¿Proporcionan estos datos la evidencia suficiente para indicar que existe una
diferencia en las concentraciones medias del cortisol en las dos poblaciones
al 0,05 de riesgo?
25. Una empresa cortadora de césped. Se proponen dos procedimientos para
instalar el motor en el armazón de una cortadora. La pregunta es: ¿Existe
alguna diferencia en el tiempo medio para montar los motores en las
armazones de las segadoras? Los métodos desarrollados por dos empresas se
designan como procedimiento 1 y procedimiento 2. Para evaluar los dos
métodos propuestos se decidió efectuar un estudio de movimientos y
tiempos. Una muestra de 7 empleados se aplicó el procedimiento 1, y otra de
8 empleados se aplicó el procedimiento 2. Los resultados en minutos se
muestran a continuación:
Procedimiento 1: 2, 4, 9, 3, 2, 5, 8
Procedimiento 2: 3, 7, 5, 8, 4, 3, 4, 9
¿Existe diferencia en los tiempos medios de montaje? Utilice el nivel de
significación de 0,10?
Prueba de proporciones
26. Si las hipótesis nula y alterna son: H0: S1 = S2 y H1: S1 z S2.
168
OBJETIVOS
Al concluir este capítulo, estará en condiciones de:
1. Identificar la distribución de F de Fisher para aplicar en la prueba de
hipótesis de variables y datos asociados.
2. Analizar las bondades y limitaciones del Análisis de Varianza (ANOVA)
en el proceso de investigación.
3. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
un solo factor para bloques aleatorizados.
4. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
un solo factor para comparaciones múltiples.
5. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
dos factores o bloques aleatorizados.
6. Analizar modelos de interacción en diseños de clasificación doble.
170
4.1. INTRODUCCIÓN
El estudio de diseños experimentales se origina en el Reino Unido y, en sus
primeros años, estuvo asociado exclusivamente a los experimentos agrícolas.
La necesidad de diseño de experimentos en la agricultura era evidente se
requería un año completo para obtener una sola observación del rendimiento de
una nueva variedad de trigo. La necesidad de ahorrar tiempo y dinero condujo
a buscar fuentes de obtener más información con muestras más pequeñas.
Motivaciones similares dieron pie a la aceptación y amplio uso de este campo
de estudio en todas las áreas de la experimentación científica. El diseño de
experimentos indica claramente su asociación temprana con las ciencias
biológicas.
Las variables independientes que están relacionados con una variable de
respuesta se denominan factores. El grado de intensidad que un factor asume
en un experimento se denomina nivel. Se usa el término de tratamiento para
describir las combinaciones factor-nivel que se incluirán en el experimento;
porque los experimentos consisten en tratar o hacer algo para alterar la
naturaleza de la unidad experimental, el objeto sobre el cual se hace una
medición. Así podemos resumir, que:
i Las variables independientes relacionadas con una variable de respuesta se
denominan factores.
i El grado de intensidad de un factor o factores se denomina nivel.
i El tratamiento es una combinación específica de niveles de los factores que
intervienen en un experimento.
Un diseño de experimento implica los siguientes cuatro pasos:
1. Seleccionar los factores que se incluirán en los experimentos que son el
objeto de estudio. Por lo general los parámetros considerados son las medias
de las poblaciones asociadas a las combinaciones factor-nivel (o
tratamientos).
2. Escoger el instrumento (combinaciones factor-nivel) que se incluirán en el
experimento.
3. Determinar el número de observaciones (tamaño de muestra) que se harán
para cada tratamiento.
4. Planear la forma en que se asignarán los tratamientos a las unidades
experimentales. Es decir, determinar que diseño se usará.
171
4.2. LA DISTRIBUCIÓN F
La denominación de distribución F, se debe a Ronald Fisher, uno de los
fundadores de la ciencia estadística moderna. Esta distribución se utiliza como
un estadístico de prueba en varios casos. Sirve para probar si dos muestras
provienen de poblaciones con varianzas iguales, pero su uso principal es cuando
se desea probar simultáneamente varias medias poblacionales. Esta comparación
simultánea de varias medias se denomina análisis de varianza (ANOVA), que
proviene del inglés “analysis of variance”. Para éstos dos tipos de usos de la F
para la prueba de hipótesis, supone que los datos deben ser de razón o intervalar.
V 22 .s12
Los valores del coeficiente F , se distribuye según una función de
V 12 .s 22
densidad de probabilidad que está definida para todo número real positivo mayor
que cero, pero que se anula para cualquier otro valor, y, depende de las variables
aleatorias en análisis y sus correspondientes grados de libertad.
Si las varianzas poblacionales son dos, se tiene:
s12
F F.4-1
s22
Paso 6. Decisión: Como 4,694 > 3,072, se rechaza la hipótesis nula; es decir, las
varianzas poblacionales son diferentes.
4.4. ANOVA
El análisis de varianza (ANOVA) se aplica para comparar tres o más medias
grupales. En lugar de comparar cada media grupal con las demás (como se hace
en la prueba t de Student), el ANOVA compara cada media grupal con la media
total, que es la media para todos los casos en la muestra.
En el ANOVA, las diferencias entre cada media grupal y la media total
constituyen los efectos de la prueba, y reciben el nombre de efectos principales.
Cuando los efectos principales son cero, no existen diferencias entre las medias.
En la prueba de hipótesis, la hipótesis nula establece que las medias son iguales,
lo cual quiere decir que los efectos principales son iguales a cero.
El ANOVA hipotetiza acerca de las diferencias entre medias, pero sus
calificativos se basan en la aplicación de la varianza con respecto a la media total.
Pues la diferencia entre una puntuación individual y la media total constituye una
puntuación de desviación; determina la factibilidad de decir qué parte de una
puntuación de la desviación individual puede explicarse por la pertenencia del
individuo a una categoría (o grupo) de la variable independiente. Así, el foco en
el ANOVA consiste en la explicación de las puntuaciones de desviación, que se
elevan al cuadrado y se promedian para obtener la varianza. De donde toma el
nombre de análisis de varianza.
Con el ANOVA, el rechazo de la hipótesis nula simplemente indica que por lo
menos dos de las medias grupales son significativamente diferentes. Las pruebas
de rango determinan específicamente qué pares de medias difieren entre sí. Las
pruebas de rango establecen qué tanta diferencia entre medias resulta
estadísticamente significativa.
En resumen, cuando se desea explicar una prueba de significación para contrastar
las medias de más de dos muestras se recurre al análisis de varianza, que viene a
ser, una técnica para comprobar la asociación entre una escala nominal y una
escala intercalar, de tal modo que se ponga en evidencia el efecto de los
tratamientos experimentales sobre una característica de una población. La prueba
ANOVA, parte de los siguientes supuestos:
1. Los elementos de la población deben estar distribuidos normalmente.
176
X
x1 x 2 x 3 ... x k ¦x i F. 4-5
k k
2
S EM
>
n. ( x1 X ) 2 ( x 2 X ) 2 ( x 3 X ) 2 ... ( x k X ) 2 @
k 1
Abreviando la fórmula anterior:
Solución
Paso 1. Hipótesis nula y alterna. Si denominamos PE, PD y PS a los tiempos
medios que demoran en resolver el examen los alumnos de educación, derecho
y salud, respectivamente, entonces la formulación de la hipótesis, sería:
Calculamos S IM
2
con la fórmula, pertinente:
2 s12 s 22 s32 13,43 6,00 9,07 28,50
S IM 9,5
3 3 3
Calculemos grado de libertad:
gl IM k.( n 1) 3(8 1) 21
6. Decisión. Como el valor del estadístico de prueba, Fcalc = 1,635 < 3,47, no
rechazamos la hipótesis nula, y concluimos que los tiempos medios que
demoran en resolver el examen los tres grupos de estudio son iguales.
Desarrollo del EJEMPLO 4.2 con el MINITAB
Para hacer la prueba de hipótesis para anova de un solo factor, accionamos en:
Estadísticas ► ANOVA ► Un solo factor… ►Los datos en columna separa
para cada nivel, ingresar, Educación Derecho Salud ► en Opciones activar
Pruebas. Luego, aparece lo que se muestra en la figura 4-5.
Cada una de las tres sumas de cuadrados, SCT, SCG y SCI, tienen los grados de
libertad asociados a cada uno de ellos, dados por F.4-14.
Grados de Libertad
MCT : gl N 1
F.4-14
SCG : gl k 1
SCI : gl N k
Los valores indicados en las diferentes fórmulas, podemos resumir en la siguiente tabla
de análisis de varianza para un factor:
¦X 2
ij 1014 2004 1102 4120
C i2 T2 76 2 1182 74 2 2682
SCG ¦n i
N 6
7
5
18
56,78
Figura 4-6. Ventana de diálogo de un solo factor (Despilado) para el ejemplo 4.3.
185
Medias
Factor N Media Desv.Est. IC de 95%
Método A 6 12.67 3.20 (10.75; 14.59)
Método B 7 16.857 1.574 (15.080; 18.634)
Método C 5 14.800 1.304 (12.697; 16.903)
Desv.Est. agrupada = 2.20591
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 56.79 28.394 5.84 0.013
Error 15 72.99 4.866
Total 17 129.78
Figura 4-6. Ventana de diálogo para elegir la gráfica en un Anova de un solo factor.
186
Eligiendo Gráfica de Cajas y de Intervalos, para los datos del ejemplo 4.3, se
muestra en la figura 4-7.
Figura 4-7. Diagrama de cajas para comparar la eficacia de los métodos del ejemplo 4.3.
Para la opción Un solo factor…, los datos deben ser ingresados en dos columnas,
una de ellas conteniendo el valor de la variable cuantitativa nota, y la otra donde
se indiquen los métodos utilizados. Para el ejemplo 4.3, sería como sigue:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 56.79 28.394 5.84 0.013
Error 15 72.99 4.866
Total 17 129.78
EJEMPLO 4.4. Los siguientes datos representan una muestra de los tiempos
de sobrevivencia, en semanas, a varios tipos de cáncer después de haber sido
diagnosticado, en una ciudad capital de región:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 4 3800 950.0 2.37 0.065
Error 50 20008 400.2
Total 54 23808
Medias
Factor N Media Desv.Est. IC de 95%
Estómago 15 28.00 16.95 (17.63; 38.37)
Pulmón 10 24.40 16.09 (11.69; 37.11)
Colon 6 32.50 22.05 (16.10; 48.90)
Ovario 15 35.53 14.20 (25.16; 45.91)
Seno 9 50.0 32.4 (36.6; 63.4)
Desv.Est. agrupada = 20.0038
Figura 4-10. Gráfico de cajas para los datos del ejemplo 4-4.
Existen dos formas de analizar los datos para una prueba de hipótesis:
H0: P1 = P2 = ….. = Pk (los k grupos tienen medias poblacionales iguales) versus
H1: Al menos un grupo tiene media poblacional distinta al de los otros y,
H0: P1 = P1 = ….. = Pn (los n bloques tienen medias poblacionales iguales)
versus
H1: Al menos un bloque tiene media poblacional distinta al de los otros.
La prueba estadística es la prueba de F, la cual es obtenida al completar la tabla
de análisis de varianza.
Cuando hay más de dos muestras dependientes involucrados, diremos que los
datos forman bloques más que parejas; estos bloques juegan el mismo papel que
en el experimento con dos muestras. Las medidas en un bloque dado son
relativamente homogéneas respecto a alguna condición. El diseño básico de un
experimento que utiliza bloques se denomina diseño de bloques. Si la aplicación
de los tratamientos es aleatoria dentro de cada bloque, el diseño experimental se
denomina diseño de bloques aleatorizados.
El estadístico F se usa como el estadístico de prueba para probar la hipótesis nula.
Para muestras de igual tamaño el estadístico de prueba F se define como:
Valor del estadístico F para dos bloques
SCG /(k 1)
F.4-18
F
SCE / k (n 1)
La suma de los cuadrados para los grupos o tratamientos, SCG tiene (k – 1) grados
de libertad asociados.
La fórmula para SCBl se obtiene tomando el número de columnas en vez de los
totales el número de filas:
Suma de cuadrados entre bloques
F.4-20
R 2j T2
SCBl ¦ k
N
Como SCT = SCG + SCBl + SCE, la suma de cuadrados del error se encuentra
restando:
Suma de cuadrados del error
F.4-21
SCE = SCT – SCG – SCBl
En la siguiente, se resume todos los elementos que son posibles calcular, para
el ANOVA con dos factores o bloques. Esta tabla está diseñado para k grupos,
n bloques y c observaciones en cada celda, cuyo formato es:
Fuentes de Grados de Suma de Cuadrados F
Variación Libertad Cuadrados Medios
Entre Grupos SCG CMG
.k – 1 SCG CMG
k 1 CME
SCBl
Entre .n – 1 SCBl CMBl
n 1 CMBl
Bloques CME
SCE
Error (k – 1)(n – 1) SCE CME
(k 1)(n 1)
Conclusión 1:
Para los grupos, el valor teórico de F es F0,95 (2,8) 4,46 . Y el valor calculado de
Fcalc, para probar los grupos (la diferencia entre la media de intervenciones
quirúrgicas en los hospitales) es:
CMG 48,07
Fcalc 8,26
CMR 5,82
196
Paso 6. Decisión 1: como 8,26 > 4,46, podemos concluir que al menos dos
hospitales tienen promedios diferentes de intervenciones quirúrgicas realizadas
por semana.
Conclusión 2.
Para los Bloques, el valor teórico de F es F0,05 (4,8) 3,84 . Y el valor calculado de
Fcalc, para probar los bloques (diferencia entre la media de las intervenciones
quirúrgicas realizadas en los días de la semana) es:
CMBl 32,77
Fcalc 5,63
CMR 5,82
Decisión 2: como 5,63 > 3,84, rechazamos la hipótesis nula, y podemos concluir
que al menos dos días difieren en el promedio de intervenciones quirúrgicas
realizadas.
Solución
Para resolver el problema en el Minitab 18, ingresemos los datos dados en tres
columnas:
Nota Método Turno Nota Método Turno
80 A m 58 B t
78 A m 60 B n
69 A t 65 B n
72 A t 66 C m
73 A n 49 C m
74 A n 35 C t
65 B m 58 C t
79 B m 46 C n
50 B t 55 C n
Paso 1. Hipótesis nula y alterna: se formulan para factor turno y método.
197
Factor Método
H0: No existe diferencia entre los tres métodos de enseñanza.
H1: Al menos uno de los métodos de enseñanza tiene un rendimiento distinto a
los otros, y
Factor Turnos
H0: El rendimiento académico de los estudiantes en los tres turnos son iguales.
H1: Al menos en uno de los turnos los estudiantes tienen rendimiento diferente
a los otros dos turnos.
Desarrollo del EJEMPLO 4.6 con el MINITAB
Eligiendo la secuencia: Estadísticas ►ANOVA ►Anova balanceado,
obtenemos en la ventana de diálogo de la figura 4-11.
Figura 4-11. Ventana de diálogo para la opción Análisis de medias… del menú ANOVA
para el ejemplo 4.6.
Figura 4-12. Ventana de diálogo para la opción Modelo Lineal General del menú ANOVA.
Los resultados calculados en la ventana Sesión son los siguientes:
Figura 4-13. Ventana de diálogo para la opción Comparaciones del Modelo lineal general
del menú ANOVA.
Figura 4-14. Ventana de gráfica de efectos principales y de interacciones del ejemplo 4.6.
201
Figura 4-15. Gráfica de efectos principales para variables del ejemplo 4.6.
4.1. El análisis de varianza (ANOVA) se aplica para comparar tres o más medias
grupales. En lugar de comparar cada media grupal con las demás (como
haríamos en una prueba t), el ANOVA compara cada media grupal con la
media total, que es la media para todos los casos en la muestra
4.2. En el ANOVA, la diferencia entre la media grupal y la media total
constituyen los efectos de la prueba y se denominan efectos principales.
Cuando los efectos principales son cero, no existe diferencia entre las medias.
En la hipótesis nula establece que las medias son iguales, lo que es lo mismo
decir que los efectos principales son iguales a cero.
4.3. El ANOVA hipotetiza acerca de la diferencia entre medias, pero sus cálculos
se basan en la explicación de la varianza de la media total o gran media.
Recordemos, que la diferencia entre una puntuación individual y la media total
constituye una puntuación de desviación. El ANOVA determina si resulta
factible decir qué parte de una puntuación individual puede explicarse por la
pertenencia del individuo a una categoría (o grupo) de la variable
independiente. Por consiguiente, el meollo en el ANOVA consiste en la
explicación de las puntuaciones de desviación. Las puntaciones de desviación
se elevan al cuadrado y se promedian para obtener la varianza. De ahí el
nombre de análisis de varianza.
4.4. El modelo lineal general establece que la mejor predicción de cualquier
variable dependiente, Y, es su media total más un ajuste para los efectos de una
variable independiente, X. Una proporción individual se descompone del modo
siguiente: Y = la media total más el efecto explicado, estas partes individuales
de una puntuación se elevan al cuadrado, se suman y se promedian entre los
grados de libertad para obtener las varianzas para todos los casos. La razón de
la varianza explicada y la no explicada, comprende la razón F, que es el
estadístico de prueba para el ANOVA. Los cálculos para el ANOVA se
resumen en una tabla de fuentes de variación.
4.5. El valor de la probabilidad se determina utilizando curvas de distribución, F,
que se encuentra en el anexo D, o en forma directa mediante el Minitab o el
SPSS.
203
PROBLEMAS PROPUESTOS Nº 4
1. Se toma una muestra de producción de 40 líneas donde se han sembrado cuatro
variedades de papa y se observan los siguientes resultados:
Variedades de papa
Var. 1 Var 2 Var 3 Var 4
30 30 24 36
25 29 26 37
28 27 27 35
32 36 38 36
40 37 35 35
30 35 36 48
34 55 40 41
38 53 46 42
36 31 34 50
29 33 31 39
a) Habrá diferencia entre las producciones promedio de cada variedad de papa.
Escriba y compruebe sus resultados.
b) Haga un diagrama de cajas para comparar las producciones promedio por
variedad. Comente la gráfica.
2. Un profesor pidió a sus alumnos del curso de estadística que evaluaran su
actividad de enseñanza como excelente, bueno, regular y deficiente, referido a
calificaciones de 1 a 20. El profesor recopiló la información, obteniéndose los
resultados que se muestran en la tabla.
Calificaciones obtenidas
Grupo A Grupo B Grupo C Grupo D
19 15 14 18
18 14 15 14
17 16 15 15
16 17 16 13
14 18 17 15
17 13 13 14
15 14 14 12
Utilizando el ANOVA y D = 0,01, ¿Existe una diferencia en los calificativos
promedio de los alumnos de cada uno de las cuatro categorías de evaluación?
3. Las preguntas de una prueba de rendimiento académico para el ingreso a una
universidad se dividen en cuatro formas diferentes, llamadas temas: A, B, C y
D. De un grupo de postulantes a una misma carrera profesional se extraen
muestras al azar de puntajes de rendimiento en cada tema. Examine si la
división realizada hace más fácil o difícil por los menos uno de los temas, con
un nivel de confianza de 0,95. Los puntajes muestrales por temas se resumen
en la siguiente tabla.
205
A B C D
57 55 46 53
55 66 43 51
43 44 55 56
45 48 52 46
48 52 50 48
56 60 48 52
66 57 64
52 59
4. Los datos adjuntos representan la producción de tomates por parcela obtenidos
utilizando tres fertilizantes diferentes. Siete parcelas fueron abonadas con el
fertilizante A, ocho con el B y 6 con el C.
A B C
30,6 40 42,4
32,0 39,6 42,5
28,3 35,3 36,0
306 33,0 36,4
28,0 35,3 37,2
27,5 33,7 38,4
33,2 37,4
39,2
Use el ANOVA y D = 0,05 para determinar si hay diferencia entre las
producciones de tomates utilizando los tres fertilizantes,
75 58 133 75 114
53 64 115 50 92
78 38 134 72 115
76 86 160 90 93
84 45 133 78 114
86 42 158 88 118
a) Pruebe si los niveles de sarcoidosis son los mismos para los cinco grupos de
pacientes. Justifique su respuesta.
b) Haga comparaciones múltiples para detectar qué grupo de pacientes tienen
igual número de sarcoidosis. Comente sus resultados.
Crema de Laboratorios
cacahuete A B C D
Muestra 1 16,5 18.0 17,0 16,8
Muestra 2 16 15,5 15,8 16,2
Muestra 3 16,2 16,4 16 16,8
Analice los datos realizando un ANOVA de dos criterios y use un nivel de
significancia de 0,05 para ambos casos.
14. Los datos que se muestran a continuación representan los calificativos finales
obtenidos por cuatro alumnos en las asignaturas de biología (B), Estadística
(E), física (F) y Lengua (L)
209
Alumnos Asignaturas
B E F L
1 15 14 13 15
2 14 18 15 16
3 12 14 12 18
4 13 15 11 14
Someta a prueba la hipótesis de que las asignaturas representan la misma
dificultad, usando un nivel de significancia de 0,05 para ambos casos.
15. En un esfuerzo para extender sus servicios una autoridad municipal de tránsito
realizó un experimento para determinar cuál de las cuatro rutas es mejor para
desplazarse del centro de la ciudad a la sede de la universidad, los siguientes
datos indican el tiempo de recorrido a lo largo de cada una de las rutas
Días Ruta
1 2 3 4
Lunes 10 11 11 11
Martes 12 12 13 13
Miércoles 11 13 14 12
Jueves 12 12 15 14
Viernes 14 13 16 14
Analice los datos realizando un ANOVA de dos criterios y use un nivel de
significancia de 0,05 para ambos casos.
16. La enfermera supervisora del centro de salud desea analizar el efecto del turno
(u hora del día en la duración de las visitas) realizadas por cuatro enfermeras.
Se conjetura que las diferencias individuales entre las enfermeras podrían ser
grandes, por lo que utilizó a las enfermeras como un factor de formación de
bloques, recolectando la siguiente información.
Enfermera Duración de visita según la hora del día
Madrugada Media Inicio de Media
mañana la tarde tarde
A 26 27 30 24
B 30 32 28 20
C 35 40 35 30
D 22 20 22 12
¿Proporciona estos datos evidencia suficiente para indicar una diferencia en la
duración de visitas en las diferentes horas del día? Considere D = 0,05.
17. Cuatro individuos participaron en un experimento para comparar tres
métodos de liberación de tensión nerviosa. Cada persona fue puesta en una
situación de tensión nerviosa en tres ocasiones diferentes. Por cada vez se
utilizó un método diferente para reducir la tensión nerviosa en cada individuo.
La variable de respuesta es el total de reducción del nivel de tensión nerviosa
210
OBJETIVOS
Al concluir este capítulo, estaremos en condiciones de:
1. Graficar e interpretar el diagrama de dispersión en el plano cartesiano
bidimensional.
2. Determinar la ecuación de la recta de regresión lineal simple,
identificando la variable independiente y variable dependiente.
3. Calcular y explicar la interpretación del coeficiente de correlación de
Pearson, y el coeficiente de determinación.
4. Determinar e interpretar el error estándar, el intervalo de confianza y
de predicción.
5. Realizar pruebas de hipótesis a partir del coeficiente de correlación de
Pearson muestral y poblacional.
6. Determinar modelos no lineales a partir de datos cuantitativos y luego
predecir el comportamiento de las variables interactuantes.
7. Hallar la ecuación de regresión lineal múltiple interpretando la
relación entre las variables independientes y dependientes con el
Minitab.
212
5.1. INTRODUCCIÓN
En este capítulo estudiaremos la relación entre dos variables cuantitativas, y la
determinación de una ecuación que permita calcular el valor de una variable
basada en la otra. La identificación de las variables en relación, depende de la
lógica y de lo que el investigador desea medir. Así por ejemplo, número de
comidas servidas y el costo por comida, ritmo cardiaca por minuto y el nivel de
ansiedad, la relación que existe entre los calificativos y el número de horas
dedicados al estudio, número de empleados en una fábrica y unidades producidos
por hora, número de espots o avisos televisivos y el número de ventas de una
tienda en un día, número de agentes de policía y número de delitos, número de
hectáreas de bosques quemados y número de fauna muerta, etc. Las variables que
se relacionan los llamaremos independiente y otra dependiente.
La variable dependiente Y, que depende de uno o más variables independientes
X1, X2,…, Xn, como por ejemplo el ingreso familiar depende: del grado de
instrucción, de los hábitos de vida, del género y del tiempo de labor. Existen dos
formas de estudio de asociación entre variables a partir de una muestra aleatoria.
La primera forma, es determinar una relación funcional de la variable
dependiente Y con respecto a uno o más variables independientes con el fin de
predecir valores de Y, se denomina análisis de regresión.
La segunda forma, medir el grado de relación entre las variables, mediante un
coeficiente o índice. A esta técnica se llama correlación. Que consiste en
examinar primero el coeficiente de correlación entre las variables X e Y, que
puede servir de base para pronosticar valores de Y en función de valores de X.
Entre los valores de X y de Y no existe una relación de causalidad. En este sentido,
las predicciones que se hacen estadísticamente son de carácter formal, atendiendo
sólo a la intensidad de la asociación de dos variables continuas que no pueden ser
manipuladas experimentalmente.
Los métodos de regresión y correlación entre variables se clasifican por el
número de variables independientes, en simple y múltiple. Se llama simple, si
hay una sola variable independiente; si hay dos o más variables independientes
se llama análisis de regresión múltiple. Por el tipo de función matemática que se
puede ajustar a los datos, la asociación de las variables puede ser lineal o no lineal
como por ejemplo, parábola, polinomio, exponencial, logarítmica, etc.
213
X X
a) Relación lineal positiva o directa. b) Relación lineal negativa o inversa.
214
Y Y
X X
c) No hay relación lineal entre X e Y d) Relación No Lineal entre X e Y
Total ¦x
i 1
i ¦y
i 1
i ¦x
i 1
2
i ¦y
i 1
2
i ¦x y
i 1
i i
Donde:
n : es el número de pares de observaciones (o tamaño de la muestra).
n
¦x
i 1
i : Suma de los n valores de la variable X.
n
¦y
i 1
i : Suma de los n valores de la variable Y.
n
¦x
i 1
2
i : Suma de los cuadrados de los valores de la variable X.
215
n
(¦ xi ) 2 : Cuadrado de la suma de los valores de la variable X.
i 1
n
¦y
i 1
2
i : Suma de los cuadrados de valores de la variable Y.
n
(¦ y i ) 2 : Cuadrado de la suma de los valores de la variable Y.
i 1
n
¦x y
i 1
i i : Suma de los productos de los valores de las variables X e Y.
Los métodos estadísticos descriptivos son válidos en cada variable, pues cada
variable tiene media, desviación estándar, etc. Lo nuevo del tema, es que, con los
datos en pareja se pueden medir la dispersión conjunta con respecto a las medias
de la pareja ( X , Y ) mediante la covarianza.
Donde:
Y es llamada variable de respuesta o dependiente
X es llamada variable predictora o independiente.
.a es el intercepto de la línea en el eje Y,
216
¦y
i 1
i a.n b¦ xi
i 1
F.5-1
n n n
¦ x .y
i 1
i i a ¦ xi b¦ xi2
i 1 i 1
¦ y .¦ x ¦ x .¦ x y
i 1
i
i 1
2
i
i 1
i
i 1
i i
a 2
n § ·
n. ¦x 2
i ¨
¨ ¦ x ¸¸ i
F.5-2
i 1 © ¹
n n n
n ¦x y ¦x ¦y
i 1
i i
i 1
i
i 1
i
b 2
n
§ ·n
n ¦x
i 1
2
i
© i
¦
¨¨ xi ¸¸
1 ¹
También se cumple:
Solución
a) Dibujo del diagrama de dispersión
Con en Minitab ejecutando los comandos siguientes: Gráfica ► Gráfica de
dispersión ► Con regresión ► Aceptar ► colocar en X la variable Llamadas
de Invitación y en la variable Y Asistentes al Evento ► Aceptar. Se obtiene
el siguiente gráfico de la figura 5-3.
10 10 10 10
¦ y .¦ x ¦ x .¦ x y
i 1
i
i 1
2
i
i 1
i
i 1
i i
(225)(1400) (110)(2700)
a 2
10 § 10 · 10.(1400) (110) 2
n. ¦x 2
i ¨
¨ ¦ x ¸¸ i
i 1 © ¹
315000 297000 18000
9,47
14000 12100 1900
10 10 10
¦ x y ¦ x .¦ y
n.
i 1
i i
i 1
i
i 1
i
10.( 2700) (110)(225)
b 2
10 § 10 · 10.(1400) (110) 2
¦
n. xi2 ¨
¨ ¦ xi ¸
¸
i 1 © ¹
27000 24750 2250
1,842
14000 12100 1900
Luego, la ecuación de regresión resultante, es: Y = 9,47 + 1,84X.
Figura 5-4. Ventana de diálogo para análisis de regresión con datos del Ejemplo 5.1.
Luego, en la ventana Sesión, aparecerá la ecuación:
Ecuación de regresión
Asistentes al evento = 9.47 + 1.184 Llamadas de invitación
220
Figura 5-5. Ventana de diálogo para Gráfica de línea ajustada en análisis de regresión.
221
Diagrama 5-6. Diagrama de dispersión y ecuación de regresión lineal del ejemplo 5.2.
X X X
a) Correlación negativa b) Correlación positiva c) Correlación nula
Figura 5-7. Ilustración de las posibles formas de correlación entre dos variables.
222
Determine el tipo de correlación que existe entre los calificativos de las dos
asignaturas.
Solución
Para ilustrar el diagrama de dispersión de puntuaciones en Estadística y
Matemática con el Minitab ejecutamos los comandos:
Gráfica ► Gráfica de dispersión… ► Con línea ajustada ► Aceptar ►
colocar en el eje X la variable Estadística y en eje Y la variable Matemática
► Aceptar. Obtendremos el gráfico de la figura 5-8.
los datos que se exhiben estamos hablando de una correlación directa o positiva
entre X e Y.
Solución
Para graficar el diagrama de dispersión de puntuaciones en Física y Literatura
con el Minitab, se ejecutan los comandos: Gráfica ► Gráfica de dispersión…
► Con regresión ► Aceptar ► Colocar en el eje X la variable Física y en
eje Y la variable Literatura ► Aceptar. Obtendremos el siguiente gráfico.
Figura 5-9. Diagrama de dispersión de una correlación lineal negativa entre física y
literatura del ejemplo 5.4.
224
Solución
El diagrama de dispersión de puntuaciones en Biología y Arte; con el Minitab,
ejecutando los comandos: Gráfica ► Gráfica de dispersión… ► Con
regresión ► Aceptar, colocando en el eje X la variable Biología y en eje Y la
variable Arte ►Aceptar. Obtendremos el siguiente gráfico.
Figura 5-10. Los puntos de una correlación lineal nula entre arte y biología del ejemplo 5.7.
x ¿Los alumnos que practican más horas de matemática que otros, tienden a
tener mejor éxito académico en el área?
x ¿La tasa de mortalidad en las comunidades alto andinas están relacionadas con
el friaje que se tiene en la estación de invierno?
S XY
¦ x y n.( X )(Y )
i 1
i i
F.5-8
rxy
S X .SY ªn 2 º ªn 2 º
¦
¬i 1
¦
« xi n( X )» u « yi n.(Y )»
¼ ¬i 1 ¼
Si 1,00 d rxy < 0,70, existe una correlación inversa o negativa, fuerte muy
buena,
Si rxy = 1, existe una correlación negativa perfecta.
¦2
¦ 2
¦
«9. xi ( xi ) » u «9. yi ( yi ) »
¬ i1 i 1 ¼ ¬ i1 i 1 ¼
¦
24894
0,6033
41264 ,834
Figura 5-11. Ventana de Diálogo para obtener el coeficiente de correlación del ejemplo 5.7.
229
EJEMPLO 5.8. Para los calificativos en las asignaturas de Arte y Biología (del
ejemplo 5.5) el coeficiente de correlación de Pearson con el Minitab,
calculamos, accionando, en los comandos: Estadísticas ► Estadísticas
básicas ► Correlación…, luego, seleccionar en la ventana Variables: Arte y
Biología, luego obtenemos en la ventana Sesión, lo que se muestra a
continuación:
Donde:
SSR 6(Yˆ Y ) 2 , representa la suma de cuadrados debido a la regresión
INTERPRETACIÓN:
NOTA. El valor 1 r2 se denomina coeficiente de alineación, e indica el
porcentaje de variaciones observadas que son explicadas por el modelo.
EJEMPLO 5.9.
Para el ejemplo 5.6 de esta sección, el coeficiente de determinación sería:
r2 = (0,603)2 = 0,364,
y su coeficiente de alineación correspondiente es:
1 – r2 = 1 – 0,364 = 0,636 = 63,6%
1 ( X 0 X )2
I.C: = Yˆ 'rtD / 2 .sYX .
n (6X i ) 2
6X i2
n
234
1 (14 11) 2
= 26,05 r 2,306 .(4,95).
10 (110 ) 2
1400
10
= 26,05 r 4,382
En consecuencia el intervalo confidencial al 95% para todos los organizadores
del evento académico que realizan 14 llamadas telefónicas es de 22,12 hasta
30,43. Pero como los datos son discretos se redondean los valores.
Luego, si un organizador realiza 14 llamadas, puede esperar captar 26
participantes y es posible que el número de asistentes sean de 22 a 31 personas.
b) Introduciendo estos valores calculados en la fórmula [5-13], y los valores
correspondientes identificados, determinamos el intervalo de predicción al
95% de confianza.
1 (X 0 X )2
I.P.: = Yˆ 'rtD / 2 .sYX . 1
n (6X i ) 2
6X i2
n
1 (14 11) 2
= 26,05 r 2,306.(4,95). 1
10 (110) 2
1400
10
= 26,05 r 12,23
Desarrollado, podemos decir que el intervalo es de 13,82 hasta 38,28 personas
asistentes. Podemos concluir que el número de personas asistentes al evento se
encuentran aproximadamente entre 13 y 39 para un organizador del evento en
particular.
Observemos que, este intervalo es mayor que el intervalo de todos los
organizadores que hicieron 14 llamadas de invitación.
Desarrollo del EJEMPLO 5.10, usando el MINITAB:
Para hallar el intervalo de confianza procedemos activar: Estadísticas ►
Regresión ► Regresión… ►Predecir ► verificar en Columna de valores:
Llamadas, y en la Respuesta: Asistentes ► accionando en el botón
Opciones… ► 95 en Nivel de confianza ►Aceptar.
En la ventana Sesión aparecerá el intervalo de confianza y de predicción:
Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
21.3158 1.60613 (17.6121; 25.0195) (9.31432; 33.3173)
235
Figura 5-12. Ventana de diálogo para las bandas del intervalo de confianza.
EJEMPLO 5.11. A partir de los datos del Ejemplo 5.6, se desea probar si existe
relación entre las notas de la asignatura de Literatura y Física
Solución
PASO 1. Planteo de la hipótesis nula y la hipótesis alterna:
H0: U = 0 (Existe correlación débil entre las notas en Literatura y Física)
H1: U z 0. (Existe correlación intensa entre las notas en Literatura y Física)
Figura 5-14. Región crítica en la distribución t de Sudent con 7 grados de libertad al 95% de
confianza.
238
Figura 5-15. Región crítica en la distribución t de Sudent con 26 g.l. al 95% de confianza.
Figura 5-17. Regresión cuadrática que relaciona área del terreno y su precio.
Figura 5-18. Intervalo de confianza y de predicción para el precio y área, ejemplo 5.12.
donde:
Y: es la variable aleatoria denominada variable dependiente.
X1, X2: son las dos variables independientes
E es el coeficiente de correlación:
Para estimar los parámetros E0, E1, E2, se toma una muestra de valores
yi , x1i , x2i , i = 1, 2, n; y para cada elemento de la muestra se tiene el siguiente
sistema de ecuaciones, yi E 0 E1 x1i E 2 x2i ei , donde yi es el i-ésimo valor
de la variable Y, x1i y x2i, los i-ésimos valores de las variables independientes X1
y X2; por lo que ei yi E 0 E1 x1i E 2 x2i . Luego, se usa el método de mínimos
cuadrados, buscando los valores E1 y E2 que hagan mínima los valores de E0, E1,
243
E2 que hagan mínima la suma de los cuadrados de los errores, es decir que
minimicen ¦e 2
i .
Solución
Para desarrollar este problema con el MINITAB, la ventana de diálogo de
Regresión completamos como se muestra en la siguiente figura.
Figura 5-19. Ventana de diálogo para la regresión múltiple del ejemplo 5.13.
a
¦Y b ¦ X Y bX
n n
C. b es la pendiente de la recta.
1. Indica la magnitud del cambio en Y’ para una variación de valor 1en X.
2. Un valor positivo para b indica una relación directa entre las dos variables,
y uno negativo, una relación inversa.
3. El signo de b y el signo de r, el coeficiente de correlación, siempre son
iguales.
4. b se calcula en la siguiente ecuación:
n n n
n(¦ x i y i ) (¦ x i )(¦ y i )
i 1 i 1 i 1
b n n
n( ¦ x ) (¦ x i ) 2
2
i
i 1 i 1
E. El signo positivo indica que hay una relación directa entre las variables, y
un signo negativo, que hay una relación inversa.
F. Se designa con una letra r se obtiene mediante la siguiente ecuación:
n n n
n ¦x y ¦x ¦y
i 1
i i
i 1
i
i 1
i
rxy
ª n 2 n
2º ª
n n
2º
¦ ¦ 2
«n xi ( xi ) » u «n yi ( yi ) »
¬ i1 i 1 ¼ ¬ i1 i 1 ¼
¦ ¦
C. El siguiente valor estadístico de prueba sirve para determinar si la
correlación en la población es diferente de cero.
rxy . n 2
T
1 rxy2
5.5. En el análisis de regresión se calcula una variable con base en otra variable.
A. La variable que se evalúa es la variable dependiente.
B. La variable que se emplea para realizar la estimación es la variable
independiente.
1. La relación entre las variables debe ser lineal.
2. Tanto la variable dependiente como la independiente deben ser de escala
de intervalo o de razón.
3. El criterio de mínimos cuadrados se utiliza para determinar la ecuación de
regresión.
6(Y Yˆ )
SY .X
n2
PROBLEMAS PROPUESTOS Nº 5
¿Proporcionan estos datos la evidencia suficiente que las dos variables están
correlacionados? Utilice un nivel de significancia de 0,05.
8. Las estaturas X en pulgadas, y los pesos Y, en libras, para ocho atletas son los
siguientes::
Estatura (X): 70 67 69 74 72 75 73 70
Peso (Y) : 173 163 195 196 167 220 191 175
a) Determine el coeficiente de correlación de Pearson r, y el coeficiente de
determinación.
b) Haga la prueba para determinar si los pesos se relacionan con las estaturas.
c) Ponga en prueba la hipótesis nula H0: U d 0 contra la hipótesis alternativa H1
U > 0: , haciendo uso de la fórmula [5-13] para D = 0,05.
9. El número de horas de estudio invertido en el semestre y las calificaciones
finales en el curso de estadística de una muestra de 8 alumnos, fueron:
Horas de estudio: 14 16 22 20 18 16 18 22
Calificación: 12 13 15 15 17 11 14 16
a) Determine la recta de regresión de la calificación sobre el número de horas
de estudio invertidos.
b) Calcule el coeficiente de correlación y determine si es significativo al nivel
del 5% la asociación existente.
10. La población en miles de siete ciudades (X) y el correspondiente número de
médicos para la atención primaria de salud (Y) están dadas en::
X: 19 26 38 16 30 21 28
Y: 200 230 350 200 260 250 220
a) ¿Los datos satisfacen un modelo de regresión lineal?
b) Construya un intervalo del 95% de confianza para E.
c) Use la prueba de t y D = 0,05 para determinar si el modelo lineal es
apropiado para los datos.
11. Con los siguientes datos muestrales: Coeficiente de Inteligencia (X) y nota en el
examen (Y):
CI (X): 123 112 95 100 108 118 120 125 135
N(Y): 16 12 11 12 14 15 16 15 17
a) Halle la ecuación de regresión muestral de Y en X.
b) Determine el coeficiente de correlación entre X e Y.
c) Utilizando t-Student pruebe la hipótesis para D = 0,05.
12. Los calificativos de un grupo de estudiantes en el examen parcial (X) y
examen final (Y) fueron:
EP (X): 11 08 10 14 09 15 16 11 17 12
EF (Y): 16 14 13 14 11 12 15 12 15 16
a) Halle la ecuación de regresión muestra de Y en X.
b) Determine el coeficiente de correlación entre X e Y.
254
a. Traza el diagrama de dispersión del peso del niño regresionado a partir del
peso de la madre.
b. Determine si existe una relación entre los pesos de la madre, y el peso del
niño.
c. Calcule el coeficiente de correlación de Pearson y la ecuación de la línea
de regresión.
d. Lleva a cabo la prueba de hipótesis de que existe una relación entre estas
dos variables y aborda los aspectos adecuados de la relación.
e. Halle la ecuación de regresión de la caloría versus (peso del hijo y el tiempo
de ejercicios que realiza)
255
OBJETIVOS
Al concluir este capítulo, estará en condiciones de:
1. Determinar los coeficientes de asociación y realizar la prueba de
hipótesis con coeficientes de asociación para variables dicotómicas
y dicotomizadas: Biserial-Puntual y Biserial.
2. Determinar los coeficientes de asociación y realizar la prueba de
hipótesis con coeficientes de asociación para variables dicotómicas
y dicotomizadas: Phi, Tetracórica.
3. Calcular el coeficiente de asociación y realizar prueba de hipótesis
con el coeficiente de asociación para variables ordinales: Spearman.
4. Calcular el coeficiente de asociación y realizar prueba de hipótesis
con el coeficiente de asociación para variables ordinales: Kendall y
Goodman.
5. Calcular el coeficiente de asociación para variables ordinales: Yule,
Chi-cuadrada y de contingencia
258
6.1. INTRODUCCIÓN
En muchas investigaciones se tienen que resolver estadísticamente la existencia
de asociaciones o relaciones entre variables definidas en una población, a partir
de los resultados obtenidos en una muestra proveniente de ella. Por ejemplo,
podemos estudiar las relación entre el género y grado de instrucción de los
habitantes de un distrito, entre el género y el éxito académico en el curso de
estadística en los estudios de pregrado, entre el sueldo y el tiempo de servicio de
un trabajador, el costo del cemento en función del área de carretera que se va
asfaltar, la relación entre el tiempo de servicios de un docente y la eficiencia en
el desarrollo de una asignatura, el número de horas trabajadas en una fábrica y la
cantidad de unidades de artículo producidos, etc. En los casos mencionados nos
basaremos en los valores encontrados en una muestra representativa, para luego
analizar si dichos valores son significativos.
Para poder abordar con pertinencia y eficiencia un problema o situación
planteada, primero presentaremos la metodología para calcular el coeficiente de
correlación en la muestra y luego las metodologías correspondientes a pruebas de
hipótesis para el parámetro poblacional.
En este capítulo nos limitaremos a exponer los correspondientes estadísticos
junto con su distribución muestral y a comprobar la hipótesis nula, H0: U* = 0,
siendo U* el coeficiente de correlación que se trate en cada caso; debido a que
ésta suele ser la hipótesis propuesta para su comprobación en la mayoría de las
veces.
Las variables dicotómicas son aquellas que por su naturaleza sólo pueden
manifestarse según dos modalidades, tales como: género (varón-mujer), estado
vital (vivo-muerto), etc.
Las variables dicotomizadas, son aquellas que por su propio naturaleza pueden
manifestarse según muchas modalidades, pero para su análisis se reagrupa sólo
en dos modalidades, como: aprovechamiento escolar (aprobado-desaprobado),
estatura (bajo-alto), número de hijos (inferior a tres, superior a 2), etc.
259
X1 X 0 n 0 .n1
r bp
SX n(n 1)
F. 6-1
Donde
X 1 , es la media de las puntuaciones de la variable X para los que la variable Y
tiene puntaje 1.
X 0 , es la media de las puntuaciones de la variable X para los que la variable Y
tiene puntaje 0.
S X , es la desviación estándar (muestral) de los valores de la variable X.
n1 , número de unos en la variable Y.
n0 , número de ceros en la variable Y.
El coeficiente biserial puntual para una variable continua y otra dicotómica,
supuesta X continua, también podemos calcular mediante la fórmula F.6-2:
X1 X 0
r bp
p.q F. 6-2
SX
La hipótesis alternativa (H1) indica que existe asociación entre las dos variables
en estudio, la misma que escribiremos: H1: U bp
z 0.
Solución
Haciendo un cuadro resumen, realizamos los cálculos auxiliares con miras a
obtener el coeficiente de correlación Biserial-Puntual.
Niño Género (Y) Peso (X) X0 X1
1 1 35 - 35
2 0 40 40 -
3 0 33 33 -
4 1 45 - 45
5 1 49 - 49
6 0 36 36 -
7 1 36 - 36
8 1 39 - 39
9 0 37 37 -
10 1 44 - 44
11 1 48 - 48
12 0 38 38 -
13 1 40 - 40
14 0 32 32 -
Realicemos los cálculos auxiliares, para luego obtener el valor del coeficiente
de correlación Biserial-Puntual.
35 45 49 36 39 44 48 40 336
X1 42
8 8
40 33 36 37 38 32 216
X0 36
6 6
n1 8, n0 6 y SX 5,30
42 36 (8)(6) 6 48
r (1,132 )(0,513) 0,58
bp
5,30 14.(13) 5,30 182
rbp n 2
Paso 3. Estadístico de prueba: es: t , que tiene una distribución
1 rbp2
aproximadamente normal con media 0 y varianza 1
Paso 4. Regla de decisión: En la tabla t-Student (del apéndice B) el valor teórico
para t1D/2(12)= t0,975(12) es 2,18. Luego, la región de rechazo es el intervalo:
]2,18 , +v[.
Paso 5. Cálculo del valor estadístico de prueba:
(0,58) 12 (0,58)(3,464 )
tcalc 2,465 .
1 (0,58) 2 0,815
Paso 6. Decisión estadística: Como tcalc 2,465 ! 2,18 cae en la región de rechazo
de la hipótesis nula, se acepta la hipótesis alterna. Es decir, existe asociación
entre el género y el peso en la población de niños de primer grado
a.d bc
I F. 6-4
(a c)(b d )(a b)(c d )
H0: indica que no existe asociación entre las dos variables en estudio, la misma
que denotaremos con : H0: U Ii
0.
H1: indica que existe asociación entre las dos variables en estudio, la misma que
escribiremos: H1: U I
z 0.
Paso 6. Decisión estadística: Como Z calc 2,98 > 1,96 se rechaza la hipótesis
nula, es decir, existe asociación entre la institución educativa de procedencia y
el resultado del examen de admisión a la universidad.
n0 : número de ceros en Y.
u : ordenada de cada punto en la distribución a partir del cual se obtiene el
porcentaje 100(n1/n) del área bajo la curva normal n1 n0 n .
Cuando el valor del coeficiente resulta menor que –1 o mayor que 1, significa
que no es cierto que las puntuaciones X, categorizadas tienen distribución
normal subyacente o que las fluctuaciones de muestreo cuando n es pequeño,
produciendo una distribución de X aplanada o platicúrtica.
B. Prueba de hipótesis
Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis y la hipótesis alternativa
La hipótesis nula (H0) se postula que no existe asociación entre las dos
variables de la población en estudio, que denotaremos con: H0: U b
0.
La hipótesis alternativa (H1) indica que existe asociación entre las dos
variables de la población en estudio, la misma que escribiremos: H1: U b
z0.
Solución
Consideremos:
X: tiempo que demoran los estudiantes en resolver cada pregunta en minutos
Y: 1 = solución correcta, 0: solución incorrecta.
Creamos las variables ficticias X1 y X0 con las notas de los que resolvieron las
preguntas de manera correcta e incorrecta, respectivamente. Para luego calcular
su media y desviación estándar del tiempo que demoran en resolver la pregunta,
sin tomar en cuenta si llegaron o no a la respuesta correcta. Los datos obtenidos
se resumen en la siguiente tabla.
269
rb .
Paso 3. Estadístico de prueba: z
n1 .n0 1
.
n u.n
Paso 4. Regla de decisión: Para un nivel de significación de 0,05, en la curva
normal encontramos Zteórico = 1,96, siendo la región de rechazo de H0: @1,96 , f>
Paso 5. Cálculo del estadístico de prueba:
A partir de los datos del problema y cálculos realizados, se tiene:
rb . 0,3 0,3
zcalc 1,06
n1.n0 1 12(8) 1 0,283
. .
n u.n 20 (0,3867 (20)
Paso 6. Decisión estadística: Como Z calc 1,06 < 1,96: No rechaza la hipótesis
nula, es decir, NO existe asociación entre el tiempo que demora en resolver el
problema y la solución obtenida (o el coeficiente de correlación entre el tiempo
que demora en resolver el problemas y la respuesta obtenida es cero).
B. Prueba de hipótesis
Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):
La hipótesis nula (H0) postula que no existe asociación entre las dos variables
de la población en estudio, la misma que denotaremos con : H0: U tr
0.
La hipótesis alternativa (H1) indica que existe asociación entre las dos
variables de la población en estudio, la misma que escribiremos: H1: U tr
z 0.
Solución
En la tabla identificamos: a = 4, b = 17, c = 18 y d = 5, con estos valores
b.c 17 u 118
calculamos el cociente 15,3 , según la tabla E, el valor 15,3, el
a.d 4u5
coeficiente de correlación tetracórico se obtiene del cociente bc/ad. Y de los
b.c
datos de tendremos: 15,3 rtr 0,8
a.d
Hipótesis alternativa (H1) indica que existe asociación entre las respuestas de
la primera pregunta y de la segunda pregunta, que se escribe: H1: U tr
z 0.
0,8 0,8
zcalc 6,4
(0,5)(0,5)(0,477)(0,523) 1 0,125
.
44 (0,3989)(3982)
Paso 6. Decisión estadística: Como zcalc 6,4 ! 1,96 , se rechaza la hipótesis nula;
es decir, existe asociación entre las respuestas de la primera pregunta y de la
segunda pregunta.
1 1
r S
n. n 1
2
n. n 1
2
donde di es la diferencia entre los correspondientes valores de Xi – Yi, n es el
número de parejas.
Propiedades:
El coeficiente de rangos de Spearman es una medida de asociación de dos
variables según escala ordinal, su valor puede variar de 1 hasta 1, un valor
cero indica que no hay asociación entre las variables y un 1 indica que la
asociación es negativa perfecta, y un valor 1 indica que la asociación es positiva
perfecta
Cada objeto ocupa el mismo lugar en ambas variables (el que es primero en X,
es primero en Y; el que es segundo en X, lo es, también en Y, y así sucesivamente
hasta el último en X, es el último en Y).
276
Cada objeto ocupa un lugar opuesto en ambas variables (el que es primero en
X, es último en Y; el que es segundo en X, es penúltimo en Y, y así
sucesivamente hasta el último en X, es el primero en Y).
En la hipótesis alternativa (H1) indica que existe asociación entre las dos
variables en estudio, la misma que escribiremos: H1: U S
z0.
corresponda
277
6(37,50) 225
r 1 1 1 0,131 0,869
S
12(12 2 1) 1716
Paso 6. Decisión estadística: Como t calc 2,461 > 1,812, rechazamos la hipótesis
nula, es decir: existe asociación entre los calificativos del examen parcial y el
examen final.
Desarrollo del EJEMPLO 6.5, con el Minitab:
Ejecutando los comandos: Estadísticas ► Estadísticas básicas ►
Correlación… ► Seleccionar las variables ExamenP y ExamenF ► Activar
Rho de Spearman, se tiene la ventana de la figura 6-2:
Figura 6-2. Ventana de diálogo para prueba con coeficiente de Spearman del ejemplo 6.5.
279
donde:
W (tau) = coeficiente de correlación de Kendall.
280
P: número de no inversiones.
Q: número de inversiones.
n = tamaño de la muestra en parejas de variables
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre
dos ordenaciones de una distribución normal bivariante.
B. Estadístico de prueba:
El estadístico de contraste de la hipótesis nula se calcula mediante:
Solución
Según los datos de la tabla, el coeficiente Q de Yule, sería:
95 u 50 25 u 30 4750 750 4000
Q 0,727 .
595 u 50 25 u 30 4750 750 5500
OBSERVACIÓN: El signo de Q depende de la organización del cuadro
resumen de frecuencias, supuestos los mismos datos. Así, si cambiamos la
posición de las filas, el coeficiente Q sólo se altera en el signo.
6.4.2. Coeficiente X2
El coeficiente X2, se verá con detalle en el capítulo 7, En esta sección
calcularemos el valor del coeficiente sólo para dos variables que tienen dos
categorías., donde tendremos los datos en una tabla de la forma:
A B (a + b)
C D (c + d)
(a+ c) (b + d) n
En la tabla: a, b, c y d son las cuatro frecuencias empíricas y n = a + b + c + d.
(a b)(a c) (a b)(b d ) (c d )(a c)
y los valores que se obtiene mediante: , , y
n n n
(c d )(b d )
se denominan frecuencias teóricas o esperadas.
n
Bajo estas condiciones el valor de X2, se calcula mediante:
2
EJEMPLO 6.10. A partir de los datos de la tabla, calcule el coeficiente x
2 10 12
4 4 8
6 14 20
rS n 2
la fórmula: t , siendo la entidad estadística de prueba la t, con n – 2
1 rS2
grados de libertad. mientras, si el número de datos es mayor que 20, se utiliza
rs
la fórmula: z .
1 / n 1
x2
C. Coeficiente de contingencia: C
n x2
290
PROBLEMAS PROPUESTOS Nº 6
1. Calcular el coeficiente de Correlación de Spearman y hacer la prueba de
hipótesis para el tiempo de experiencia y el número de ventas realizadas que
se resumen en la tabla:
Experiencia(X) 3 4 6 7 8 12 15 20 22 26
Ventas (Y) 9 12 16 19 23 29 34 37 40 45
2. Se ha observado que los alumnos que inician los estudios en universidades
privadas tienen mucha dificultad en adaptarse al nuevo nivel educativo,
produciéndose deserción en muchos casos. A continuación se presenta los
resultados al seguimiento de 22 estudiantes de la carrera de Ingeniería Civil
de la UAP-Huánuco que se matricularon en el semestre 2010-I y
abandonaron el curso de Cálculo Diferencial. Encuentre el coeficiente de
correlación Phi y realice la prueba de hipótesis correspondiente.
X: Condición socio económica 1: alta, 0: baja.
Y: permanencia en el curso 1: permanece en el curso hasta el final
0: abandona el curso
Nº 1 2 3 4 5 6 7 8 9 10
CI 106 86 100 100 99 103 97 113 113 110
HTS 7 0 28 50 28 28 20 12 7 17
Y X
Bajo Medio Alto Total
Malo 32 30 3 65
Regular 30 45 7 82
Bueno 8 25 20 53
Total 70 100 30 200
Calcule e interprete el coeficiente de asociación de Goodman y Kruskal
Según los datos de la tabla:
ns = 32(45+7+25+20) + 30 (7+20) + 30(25+20) + 45(20) = 6164
nd = 3(30+45+8+25) + 30(3+8) + 7(8+25) + 45(8) = 2055
OBJETIVOS:
Al terminar el presente capítulo estará en condiciones de:
7.1. INTRODUCCIÓN
En los capítulos anteriores se abordaron estudios de datos en escala intervalar y
de razón, como peso, ingreso, nota, edad, etc. Sin embargo, una buena cantidad
de investigaciones, fundamentalmente, en el ámbito de las ciencias complejas
(ciencias de la sociedad), muchas variables de estatus como género, raza, grado
de instrucción, grupo sanguíneo, tienen un nivel de medición nominal. La prueba
Chi-cuadrada, se basa en los cálculos realizados de una tabla de doble entrada (o
cruzada), permite analizar la relación entre dos variables nominales (o
categóricas).
El análisis estadístico con datos ordinales y nominales se basa en el estudio de la
relación o asociación que existe entre las características o categorías a través del
cual están identificadas las variables en estudio.
En este capítulo se cubre la aplicación de la prueba Chi-cuadrada en pruebas de
bondad de ajuste, y las pruebas de hipótesis que se relacionan con las pruebas de
contingencia que prueba el nivel de relación o asociación (independencia u
homogeneidad) existente entre dos variables categóricas haciendo uso de las
tablas cruzadas (o de doble entrada) para resumir datos y la distribución Chi
cuadrada para hacer la prueba correspondiente.
Para el análisis de datos categóricos con el MINITAB 18, se hace doble clic en
el icono , luego en la pantalla del Minitab accionamos los comandos:
Estadísticas ►Tablas, luego se elige las opciones que muestra la pantalla,
según necesite:
Distribución Chi-cuadrada
2 (n 1) s 2 F.7-1
x V2
donde n es el tamaño de la muestra, s2 la varianza muestral y V2 la varianza de la
población de donde se extrajo la muestra. El estadístico Chi-cuadrada también se
puede dar con la siguiente lo que se expresa en la fórmula 7-2.
Distribución Chi-cuadrada desarrollada
n
2
¦ (x
i 1
i x) 2 F. 7-2
x V 2
Región de rechazo
0 C
Figura 7-3: Gráfica de Chi-cuadrada con 9 grados de libertad.
X Y
1 2 ….. j ……. C Total
1 E11 E12 E1j E1c .r1
2 E21 E22 E2j E2c .r2
…. … … … … … … …
i E i1 Ei2 Eij Eic .ri
…. … … … … … … …
r Er1 E r2 Erj Erc .rr
Total .c1 .c2 .cj cc .n
Donde:
Cálculo de frecuencia esperada
ri u c j F.7-5
Eij
n
OBSERVACIÓN:
El grado de libertad para el estadístico de prueba Chi-cuadrada para proporciones
es: gl = (c1)(r1), siendo c el número de columnas y r el número de filas.
Los supuestos para la prueba Chi-cuadrada son:
x Al menos 80% de las frecuencias esperadas en las celdas deben ser de 5 o más.
x No debe haber frecuencias esperadas menores que 1.
EJEMPLO 7.1. Un candidato a una alcaldía distrital está interesado en saber si
la proporción de votantes a su favor es la misma en tres urbanizaciones. Para
este propósito, consiguió una muestra aleatoria de opiniones de votantes en cada
urbanización y obtuvo los resultados que se muestran en la tabla adjunta:
Urbanización A Urbanización B Urbanización C
A favor 46 48 42
Total 120 125 110
¿Indican estos datos que la proporción verdadera de votantes a favor difieren
entre las urbanizaciones, a un nivel de significación de 0,05?
Solución
Paso 1: Planteo de las hipótesis
H0: Todas las proporciones son iguales: p1 = p2 = p3 = .. = pk.
Hi: Al menos dos proporciones poblacionales son distintas.
Paso 2. Nivel de significación D = 0,05.
Paso 3: Estadístico de prueba: para comparación de proporciones es:
r c (Oij E ij ) 2 r c Oij2 ri u c j
x ¦¦ ¦¦ E
2
n , donde: Eij
i 1 j 1 E ij i 1 j 1 ij
n
Identifiquemos las frecuencias observadas: O11 = 46, O12 = 48, O13 = 42, O21 =
74, O22 = 77, O23 = 68, r1 = 136, r2 = 219, c1 = 120, c2 = 125, c3 = 110.
Solución
Sean p1, p2, p3 los porcentajes de objetos defectuosos para los tres turnos: de
mañana, tarde y noche respectivamente.
1. Hipótesis:
H0: p1 = p2 = p3 y
H1: p1, p2, p3 no son iguales.
r c (Oij E ij ) 2
¦¦
2
x cal
i 1 j 1 E ij
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 8.802 2 0.012
Relación de verosimilitud 9.513 2 0.009
EJEMPLO 7.4. Una familia que se dedicada a criar aves tuvo hace dos años
gallinas, patos, pavos y codornices en porcentajes de 40, 20, 25 y 15,
respectivamente. ¿Ha cambiado la distribución de las aves a lo largo de dos
años, si una muestra reciente proporcionó las cantidades siguientes de cada ave?
Utilice nivel de confianza del 95%.
Gallinas Patos Pavos Codornices
210 115 175 100
Solución
Paso 1: Planteo de las hipótesis.
Sea pG = porcentaje de gallinas, p P = porcentaje de patos, pV = porcentaje de
pavos y pC = porcentaje de codornices.
H0 = pG = 0,40, pP = 0,20, pV = 0,25, pC = 0,15,
Hi: Al menos uno de los porcentajes de producción de aves ha variado.
Prueba de chi-cuadrada
N GL Chi-cuad. Valor p
600 3 53 0.000
o
H0: Las variables fila y columna son independientes.
H1: Las variables fila y columna no son independientes.
El valor del estadístico de prueba, calculamos mediante:
c r (Oij E ij ) 2 Oij2
x ¦¦ x ¦E
2 2
, o simplemente con n
j 1 i 1 E ij ij
Solución
Paso 1. Formulación de hipótesis nula y alternativa:
H0: El número de objetos defectuosos producido por las máquinas no dependen
de los turnos.
H1: El número de objetos defectuosos producido por las máquinas si dependen
de los turnos.
Paso 2. Nivel de significación: D = 0,05
r C (Oij Eij ) 2
x ¦¦
2
Paso 3. Estadístico de prueba: , se distribuye
i 1 j 1 Eij
aproximadamente como Chi-cuadrada con gl = (r–1)(c–1) = (3 – 1)(3 – 1) =
4 grados de libertad.
314
r c (Oij E ij ) 2
¦¦
2
x cal
i 1 j 1 E ij
EJEMPLO 7.6. Una ONG desea investigar si ¿una persona liberado de una
prisión se integra mejor a la vida civil si regresa a su ciudad natal o si va a vivir
a otro lugar? En otros términos: ¿existe relación entre el ajuste de la vida civil
y el lugar de residencia después de la liberación?
316
Solución
Paso 1. Formulación de la hipótesis nula y la alternativa:
Ho: No existe relación entre el ajuste de la vida civil y el lugar donde radique
el individuo después de salir de prisión.
H1: Existe relación entre el ajuste a la vida civil y el lugar donde resida la
persona después de salir de prisión.
Completando los siguientes pasos para la prueba con el Minitab
Llenamos los datos de la tabla de contingencia en cuatro columnas:
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 5.729 3 0.126
Relación de verosimilitud 5.780 3 0.123
317
i 1 j 1 E ij
2 2
Y se rechaza H0, si x ! x D (r 1)(c 1)
1
Universidades
Deportes U-Alfa U-Beta U-Omega Total
Fútbol 80 70 100 250
Básquet 90 60 30 180
Voley 30 20 20 70
Total 200 150 150 500
A partir de estos datos determinamos si las tres universidades son homogéneas
con respecto a sus preferencias en los tres deportes. Utilizamos el nivel de
significación D = 0,05.
Solución
Paso 1. Formulación de hipótesis:
H0: Para cada deporte, las proporciones de preferencias en las tres
universidades son homogéneas.
H1: Al menos para un deporte, las proporciones de preferencias en las tres
universidades no son homogéneas.
Paso 2. Nivel de significación: D = 0,05
r c (Oij E ij ) 2
x ¦¦
2
Paso 3. Estadístico de prueba: , que se distribuye
i 1 j 1 E ij
aproximadamente como Chi-cuadrada con gl = (r–1)(c–1) = (3–1)(3 –1) = 4
grados de libertad.
Paso 4. Región crítica: Para el nivel de significación D = 0,05 y 4 grados de
2
libertad el valor crítico según la tabla C del apéndice es: x 0.95
(4) 9,49 . Se
rechazará H0 si el valor calculado de Chi-cuadrada es mayor de 9,49.
Paso 5. Cálculos: Las frecuencias observadas y esperadas se dan en la tabla:
Universidades
Deportes U-alfa U-Beta U-Omega Total
Fútbol 80 (100) 70 (75) 100 (75) 250
Básquet 90 (72) 60 (54) 30 (54) 180
Voley 30 (28) 20 (21) 20 (21) 70
Total 200 150 150 500
3 3 (Oij E ij ) 2
(80 100) 2 (70 75) 2 (100 75) 2 (90 72) 2 (60 54) 2
¦¦
2
x
cal
i 1 j 1 E ij 100 75 75 72 54
(30 54) 2 (30 28) 2 (20 21) 2 (20 21) 2
28,74 .
54 28 21 21
2
Paso 6. Decisión: dado que x cal
28,74 ! 9,49 , se debe rechazar H0. Es decir, al
menos para un deporte, la proporción de preferencias en las tres
universidades no son homogéneas.
321
Solución
Paso 1. Formulación de la hipótesis nula y alternativa:
H0: las tres poblaciones de residentes son homogéneas con respecto al
conocimiento de los problemas de la contaminación atmosférica.
H1: las tres poblaciones no son homogéneas con respecto al conocimiento de
los problemas de la contaminación atmosférica.
Paso 2. Nivel de significación: D = 0,05
322
r c (Oij E ij ) 2
x ¦¦
2
Paso 3. Elección del estadístico de prueba: , que se
i 1 j 1 E ij
distribuye aproximadamente como Chi-cuadrada con un grado de libertad
gl = (r–1)(c–1) = (3–1)(4– 1) = 6.
Solución
Usemos el Minitab para desarrollar el problema.
Paso 1. Formulación de hipótesis nula y alternativa:
H0: Sobre el uso de la píldora del día siguiente la proporción de opiniones en
las tres regiones son homogéneas.
324
Figura 7-10. Ventana de diálogo para prueba exacta de Fisher, McNemar y CMH.
Género Candidatos
Candidato A Candidato B
Mujer 18 50
Varón 42 70
Solución
Resumen de la información
Después
Sin estrés Con estrés Total
Antes Con estrés 12 3 15
Sin estrés 23 2 25
35 5
Según el valor de la tabla 3, Chi-cuadra del apéndice, se tiene 5,79 > 3,84. Por
tanto se rechaza la hipótesis nula. Por tanto, los cambios (proporción de curados
del estrés) se deben al tratamiento y no al zar con un nivel de confianza del 95%.
Prueba de McNemar
Diferencia
estimada IC de 95% P
-0.500 (-0.721; -0.279) 0.000
Diferencia = p (Antes = Sin estrés) - p (Después = con estrés)
¿El estado civil del elector está asociado al voto por un determinado candidato?
Solución
La prueba CMH evalúa el grado de asociación entre el voto y el estado civil, al
tiempo que controla el estado de residencia. Calcula una relación de
probabilidades comunes en todas las tablas y un valor p para evaluar su
significancia.
Formulación de la hipótesis nula y alternativa:
H0: El estado civil y la opción de voto hacia un candidato son independientes.
H1: El estado civil y la opción de voto por un candidato están asociados.
Para resolver el EJEMPLO 7.18 con el Minitba, accionamos en: Estadísticas
► Tablas ► Tabulación curzada y Chi-cuadrada… ► ingresar los datos ►
Prueba de Cochran-Mantel-Haenszel ► Aceptar/Aceptar, en la ventana
Sesión, obtendremos.
331
ij
GRUPO DE EJERCICIOS Nº 7
Donde:
Género: masculino (M), feminino (F)
Carrera Profesional: Odontología (O), Enfermería (E), Psicología (P)
¿A un nivel de significancia de 0,05 se puede afirmar que el género es
independiente de carrera profesional elegida por el estudiante?
4. Se selecciona una muestra de electores de un distrito y se les clasifica de
acuerdo al nivel de ingreso económico, en: Bajo, Media y Alto; y según su
opinión respecto a la revocatoria del alcalde en: a favor, en contra e
indiferente. Los resultados obtenidos se resumen en la siguiente tabla.
Opinión Ingresos
Bajo Medio Alto
A favor 100 100 60
En contra 50 40 70
Indiferente 30 50 90
336
Caries en los dientes Alto Medio alto Medio bajo Bajo Total
Presente 8 24 32 27 91
Ausente 42 121 138 108 409
Total 500
¿Son compatibles estos datos con la hipótesis de que la presencia de caries
dental no está relacionada con los grupos socioeconómicos?
337
¿Sugieren estos datos que al estar a dieta depende del género? Considere un
nivel de significancia de 0,05.
9. Una muestra de 500 estudiantes de pregrado participó en un estudio de cierto
grupo de enfermedades comunes. La tabla siguiente presenta la clasificación
de los estudiantes de acuerdo a su principal campo de estudio y el nivel de
conocimiento del grupo de enfermedades:
Área de estudio Masculino Femenino Total
Medicina 31 91
Otro 19 359
Total 50 450 500
¿Sugieren estos datos que existe una relación entre el conocimiento del grupo
de enfermedades y el principal campo de estudio de los estudiantes del
pregrado del cual se extrajo una muestra?
10. Una muestra de 150 portadores crónicos de cierto antígeno y una muestra
de 500 no portadores revelaron la siguiente distribución de grupos
sanguíneos:
Grupo Género Total
Sanguíneo Portadores crónicos No portadores
O 72 230 302
A 54 192 246
B 16 63 79
AB 8 15 23
Total 150 500 650
¿Es posible concluir, a partir de estos datos, que las dos poblaciones de las
cuales se tomaron las muestras difieren con relación a la distribución del
grupo sanguíneos, al 5% de significancia?
11. En una encuesta a niños menores de 15 años que viven en la periferia de una
ciudad se clasificaron de acuerdo al grupo étnico al que pertenecen y su nivel
de hemoglobina. Con los siguientes resultados:
338
Haga una prueba de hipótesis con D = 0,05 si la opinión está relacionada con
la profesión.
15. En un estudio para determinar la relación entre la habilidad y el interés por
la investigación, una muestra aleatoria de estudiantes universitarios produjo
el siguiente resultado:
Habilidad Interés
Poco Mediano Mucho
Alta 15 20 25
Media 10 25 20
Baja 30 35 15
Haga una prueba de hipótesis para determinar si el interés y la habilidad para
la investigación son dependientes. Use D = 0,05.
16. Una afirmación generalizada sobre la aceptación de los profesores por los
estudiantes está relacionada con los calificativos que éstos tienen en los
exámenes. Para poner a prueba esta afirmación un directivo recabó los
siguientes datos:
Aceptabilidad Calificativos
A B C D
Sobresaliente 13 20 15 12
Bueno 20 48 50 25
Regular 25 30 45 12
8 Pruebas no Paramétricas
Las pruebas No Paramétricas o de libre distribución
consisten en sacar conclusiones directamente de las
observaciones muestrales, sin formular los supuestos
acerca del tipo de distribución de la población del que
provienen.
Prueba de signos para una sola muestra. Prueba de rangos con signo de
Wilcoxon para una muestra. Prueba de rangos con signo de Wilcoxon para
dos muestras dependientes. Prueba U de Mann-Whitney para dos
muestras independientes. Prueba de Kruskal-wallis para k muestras
independientes. Prueba Friedman. Prueba de corridas.
OBJETIVOS:
Al terminar el presente capítulo estarás en condiciones de:
1. Identificar algunas pruebas de hipótesis estadísticas que no requieren
los supuestos de normalidad.
2. Analizar las características de las pruebas no paramétricas, identificando
sus ventajas y desventajas en el proceso de investigación.
3. Realizar pruebas de signos para una muestra de tamaño grande,
haciendo uso del Minitab.
4. Efectuar una prueba de hipótesis para muestras dependientes y para
suma de rangos de Wilcoxon, haciendo uso del Minitab.
5. Desarrollar la prueba Kruskal-Wallis para comparar dos o más grupos
independientes, con ayuda del Minitab.
6. Desarrollar las pruebas de Mann-Withney para dos muestras
independientes, haciendo uso del Minitab.
7. Desarrollar las pruebas de Friedman para diseño de bloques
aleatorizados haciendo uso del Minitab.
8. Desarrollar la prueba de corridas para una sola muestra.
342
8.1. INTRODUCCIÓN
A diferencia de las pruebas de hipótesis paramétricas, por lo general se asume
que se distribuye normalmente. En las pruebas no paramétricas no se requiere
asumir la normalidad de la población y la mayoría de ellos se basa sólo en el
ordenamiento de los datos. Para el análisis estadístico de los datos existen dos
posibles mecanismos: los datos se pueden transformar de tal manera que sigan
una distribución normal, como se trató en capítulos anteriores; o bien, se puede
acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto
a la distribución de probabilidad a partir del cual fueron obtenidos los datos, y
por ello se denominan pruebas no paramétricas (distribution free), mientras
que las pruebas que suponen una distribución de probabilidad determinada para
los datos se denominan pruebas paramétricas.
Los procedimientos no paramétricos (o de distribución libre), que actualmente
se utilizan con marcada frecuencia en el análisis de datos. Existiendo muchas
aplicaciones en las ciencias sociales, en salud y la ingeniería donde los datos se
reportan no como valores en una escala continua, sino preferentemente en
niveles de medición nominal u ordinal, donde no intervienen suposiciones con
respecto a la distribución de la población de origen, las mismas que facilitan la
asignación de rangos a los datos. Por ello, los diversos análisis no paramétricos
descritos en esta unidad implican un análisis basado en los rangos, cuyo cálculo
de valores resulta simple y muy atractivos por su esencia intuitiva
Un ejemplo donde es practicable la prueba no paramétrica es: dos expertos
podrían dar rango a cinco marcas de artefactos para una premiación,
asignándole un rango 1 a la marca que se cree que tiene la mejor calidad global,
un rango 2 a la segunda mejor, y así sucesivamente.
Aplicando la prueba paramétrica y no paramétrica al mismo conjunto de datos,
podemos decir según el resultado que se obtiene, que es más robusta la prueba
paramétrica. Pero, se debe tener en cuenta que las suposiciones de normalidad
con frecuencia son injustificables y no siempre se tienen las mediciones
cuantitativas. Como alternativa a este inconveniente podemos usar algunos
procedimientos no paramétricos, para acomodar una variedad más amplia de
situaciones experimentales; por lo general la certeza de la eficiencia de las
técnicas no paramétricas son muy cercanas o iguales a los correspondientes
procedimientos paramétricos.
343
Figura 8-1. Pantalla del Minitab 18, con distribuciones para pruebas no paramétricas.
donde:
.x representa el número de signos positivos al comparar los valores de los datos.
.n es el número de rangos con signo negativo.
Antes 70 56 63 64 66 68 66 58 55 57 52 63 70 58 68
Después 65 54 60 62 68 66 64 60 55 54 51 62 67 55 68
donde:
.n: Es el número de datos no empatados de la muestra.
W: Es la suma de los rangos de la primera población.
350
Como los valores del rango n es menor que 15, usando la fórmula F.8-4, el
estadístico de prueba a tomar es la t, siendo el resultado:
351
W PW 33,5 39
t calc 0,43
VW 12,75
Paso 4. Toma de decisión.
Como tcalc = 0,43 > 2,015, NO se rechaza la hipótesis nula y podemos concluir
que el tiempo de sobre vivencia del paciente es igual a 7 años.
Los pasos necesarios para realizar una prueba de rangos de Wilcoxon, son las
siguientes:
1. Calcular la diferencia entre la evaluación de la nueva sazón nueva y la sasón
actual para cada participante.
2. Considerar las diferencias positivas y negativas. Si resulta cero las diferencias
de las notas asignadas no se toman en cuenta y se reduce el número en la
muestra.
3. Determinar el valor absoluto de las diferencias calculados en la columna 4,
que se ubican en la quinta columna.
4. Se ordenan las diferencias de menor a mayor, por ejemplo, el primer
encuestado dio una nota 13 a la nueva sazón 11 a la actual, al cual se le asigna
el rango 1, por tratarse del valor menor. La siguiente diferencia absoluta es 3,
al cual se le asigna rango 2 y así sucesivamente.
Comensal Nueva Sazón Diferencia Rango
Sazón Actual Diferencia absoluta Con signos
(después) (antes) W+ W–
Julia 13 11 2 2 1 -
Rodrigo 11 15 –3 3 - 2
Claudio 11 4 7 7 6 -
Martha 16 10 6 6 5 -
Dora 18 13 5 5 4 -
Maria 9 16 –7 7 6
Rita 13 5 8 8 7 -
Alberto 6 11 –5 5 - 4
Andrés 17 10 7 7 6 -
Raúl 18 10 8 8 7 -
Arturo 16 12 4 4 3 -
Alfonso 8 5 3 3 2 -
Bernardo 4 14 –10 10 - 9
María 7 9 –2 2 - 1
Mauro 17 8 9 9 8 -
Total 56 22
5. A cada rango asignado en la columna 6 se le da el mismo signo de la
diferencia original, y los resultados se muestran en la columna 7. Por ejemplo,
el segundo participante tiene una diferencia de calificación de –3 y un rango
de 2, este valor se localiza en la sección W– de la columna 7.
6. La suma de todos los valores de las columnas W+ y W–. El total de los rangos
positivos es 56 y el total de los rangos negativos es 22. La menor de las dos
sumas de rangos se utiliza como el estadístico de prueba W. Es decir; W = min{
W+ . W–}
354
Figura 8-3. Ventana de dialogo para Wilcoxon para 1 muestra para el ejemplo 8.4.
En la ventana Sesión aparece el resultado siguiente:
Prueba
Hipótesis nula H: η = 0
Hipótesis alterna HΌ: η > 0
Número
de Estadística
Muestra prueba de Wilcoxon Valor p
Diferencia 20 210.00 0.000
Supuestos
La prueba Mann-Whitney se basa en los siguientes supuestos:
x Existe una muestra aleatoria simple, de tamaño n1 extraída de una población
P1 y otra muestra aleatoria de tamaño n2, extraída de otra población P2,
utilizados en el análisis son seleccionados en forma independiente.
x La variable de interés es continua.
x La escala de medición observada es ordinal, intervalar o de razón.
x Las dos poblaciones en estudio difieren sólo con respecto a su posición.
La prueba de la suma de los rangos se basa en el estadístico U definido por la
fórmula 8-6.
݊ଵ ሺ݊ଵ ͳሻ
rangos suma de los rangos F.8-6
ܷൌܹെ
ʹ
357
n1 (n1 1)
Donde n1 es el tamaño de la muestra menor. El número es el mínimo
2
valor que puede tomar W, y el estadístico U mide las distancias entre W y su
valor mínimo. El estadístico U está estrecha y directamente relacionado con W.
Si el estadístico de prueba U es grande, también lo es W y la muestra usada para
generar W corresponderá a la población con la media mayor.
Si las muestras provienen de poblaciones continuas e idénticas y no hay
repeticiones en los rangos, entonces la distribución muestral de U tiene una
media y una desviación estándar dada por la fórmula 8-7:
Media y desviación estándar para el estadístico U
n1.n2
PU
2
F.8-7
n1.n2 (n1 n2 1)
VU
12
Donde:
n1: Es el número de observaciones de la muestra más pequeña.
n2: Es el número de observaciones de la muestra más grande
W: Es la suma de los rangos de la primera población
Si n1 es mayor a 8, la distribución muestral de U es aproximadamente normal,
obteniéndose el estadístico z, mediante la fórmula 8-8.
Paso 4. Decisión: Los valores críticos son: 1,96 y 1,96, como el valor de Zcalc
= 1,75 < 1,96, no se rechaza la hipótesis nula. Por lo tanto, no existe diferencia
significativa entre los calificativos de los profesores educación primaria y los
profesores de educación secundaria.
EJEMPLO 8.6. Los siguientes valores son los tiempos (en minutos) de
permanencia en la sala de operaciones de 20 personas sometidas al mismo
procedimiento quirúrgico 10 de los primeros fueron pacientes del hospital A y
10 al hospital B. Como se muestra en la tabla:
Hospital A 35 39 33 39 41 29 30 36 45 31
Hospital B 45 38 42 50 48 51 32 37 46 40
En base a estos datos, ¿es posible concluir que los pacientes del hospital B
tienden a permanecer más que los pacientes del hospital A?, considere nivel de
significancia 0,1.
Solución
Como el número de pacientes en ambos hospitales son iguales (n1 = n2 = 10), la suma
de rangos W para la muestra del hospital A escritas en la tabla en negrita y entre
paréntesis, resulta:
W = 1 + 2 + 3 + 5 + 6 + 7 + 10,5 + 10,5 + 13 + 15,5 = 73,5
El valor del estadístico de prueba U, encontramos mediante la fórmula 8-6.
݊ଵ ሺ݊ଵ ͳሻ ͳͲሺͳͲ ͳሻ
ܷൌܹെ ൌ ͵ǡͷ െ ൌ ͳͺǡͷ
ʹ ʹ
La media de la distribución de U se encuentra aplicando la fórmula 8-7.
n1 .n2 (10)(10)
PU 50
2 2
y su desviación estándar mediante la fórmula:
n1 .n2 (n1 n2 1) (10)(10)(10 10 1)
VU 175 13,23
12 12
Como ni > 8, la distribución muestral de U es aproximadamente normal y su
estadístico Z para U sería:
ܷ െ ߤ ͳͺǡͷ െ ͷͲ
ܼൌ ൌ ൌ െʹǡ͵ͺͳ
ߪ ͳ͵ǡʹ͵
362
Paso 4. Decisión:
Como zcalc = 2,381 < 1,645, se rechaza la hipótesis nula. Por lo tanto, existe
diferencia significativa entre los tiempos de permanencia de los pacientes en los
hospitales A y B.
Figura 8-4: Ventana de diálogo para la prueba Mann-Whitney del ejemplo 8.6.
Estimación de la diferencia
IC para la Confianza
Diferencia diferencia lograda
-7 (-15; 1) 99.09%
Prueba
Hipótesis nula H: ηΌ - η = 0
Hipótesis alterna HΌ: ηΌ - η ≠ 0
Método Valor W Valor p
No ajustado para empates 73.50 0.019
Ajustado para empates 73.50 0.019
O en forma explícita
h
12 ª (
«
¦R ) 1
2
( ¦R 2
)2
.....
( ¦R )2 º
k
» 3(n 1) F.8-10
n(n 1) « n1 n2 nk »¼
¬
Donde
.k = número de muestras.
.ni = número de observaciones de la i-ésima muestra.
.n = número total de observaciones en las k muestras combinadas.
Ri = suma de los rangos de la i-ésima muestra.
2
Si h cae en la región crítica: h ! xD con v = k – 1 grados de libertad, se rechaza
H0 al nivel de significancia D; de otra manera se acepta H0.
365
EJEMPLO 8.7. Los datos que se resumen en la siguiente tabla representan las
tasas porcentuales de divorcio por cada 100 personas casadas para muestras de
ciudades en las tres regiones del Perú:
Costa Sierra Selva
2,8 2,1 2,1
5,0 2,4 4,2
7,2 3,5 4,3
8,3 7,0 4,8
10,0 12,1 6,4
13,2 13,6 6,6
13,6 14,9 8,4
15,6 8,9
Solución
Paso 1: Planteamiento de las hipótesis:
Hipótesis nula: Las tres regiones no defieren en la tasa de divorcio de sus
ciudadanos casados. Es decir, H0: F1(x) = F2(x) = F3(x)
Hipótesis alternativa: Al menos en una de las regiones la tasa de divorcio de
sus ciudadanos casados es diferente. Es decir, F1(x) z Fj(x). Con un nivel de
significación D = 0,05.
Paso 2: Obtención de la región crítica:
Según la tabla Chi-cuadrada del apéndice para x 0,95
(2) 5,991 . La región crítica
Paso 4: Decisión:
El valor del estadístico: H = 1,39, se encuentra en la región de no rechazo de la
hipótesis nula, puesto que: H = 1,39 < 7,99 = X0,952(2).
Por lo tanto, podemos concluir que no hay evidencia estadística de que el
promedio de la tasa de divorcio difieran en las tres regiones del país, con un
nivel de confianza del 95%.
Desarrollo del EJEMPLO 8.7 con el Minitab 18
Para este propósito accionamos los siguientes Comandos:
Estadísticas ► No paramétricas ► Activar la opción Kruskal Wallis… ►
Ingresar en Respuesta la variable cuantitativa tasa de divorcio (TD) y en Factor
la variable cualitativa región, y obtenemos la ventana de la figura 8-5.
Figura 8-5: Ventana de diálogo para la prueba Kruskal-Wallis del ejemplo 8.7
En la ventana Sesión, se obtiene los siguientes resultados:
367
Solución
PASO 1: Planteamiento de las hipótesis:
Hipótesis nula: Las cuatro poblaciones tienen calificaciones medias idénticas.
Es decir, H0: F1(x) = F2(x) = F3(x) = F4(x)
Paso 5: Decisión:
El valor teórico del estadístico es H = 9,9, este valor se encuentra en la región
de rechazo puesto que: H = 9,9 > 7,71 = X0,95(3)
Por lo tanto, la hipótesis nula es rechazada y puede concluirse que las cuatro
poblaciones analizadas tienen calificaciones diferentes.
Desarrollo del EJEMPLO 8.8 con el Minitab.
Para este propósito accionamos los siguientes comandos:
Estadísticas ► No paramétricas ► Activar la opción Kruskal Wallis… ►
Ingresar en Respuesta la variable cuantitativa Notas y en Factor la variable
cualitativa Grupo. Obtendremos la ventana de diálogo de la figura 8-6.
369
Figura 8-6: Ventana de diálogo para la prueba Kruskal-Wallis del ejemplo 8.8
Prueba
Hipótesis nula H: Todas las medianas son iguales
Hipótesis alterna HΌ: Al menos una mediana es diferente
Método GL Valor H Valor p
No ajustado para empates 3 8.28 0.041
Ajustado
Ajustado para empates 3 8.31 0.040
La aproximación de chi-cuadrada podría no ser exacta cuando algunos tamaños de
muestra sean menores que 5.
Donde:
.n es el número de bloques.
.k el número de muestras (o tratamientos).
R j es la media de los rangos del j-ésimo grupo de tratamiento.
Si n > 5, la distribución muestral de S es aproximadamente una distribución
chi-cuadrada, con k – 1 grados de libertad. En este caso, el estadístico de prueba
S podemos calcular mediante la fórmula 8-12.
Solución
PASO 1: Planteamiento de las hipótesis:
371
12
(5)(4)(5)
142 132 92 142 3(5)(5)
3
642 75 77,04 75 2,04
25
Paso 5: Decisión:
El valor del estadístico calculado S = 2,04 < 11,35, se encuentra en la región de
aceptación de la hipótesis nula.
Por lo tanto, la hipótesis nula no es rechazada y puede concluirse que no existe
diferencia entre los sueldos iniciales para los egresados de las cuatro
universidades.
372
Figura 8-7: Ventana de diálogo para la prueba de Friedman del ejemplo 8.9
ʹ݊ଵ Ǥ ݊ଶ
Media corrida o racha
ߤோ ൌ ͳ
݊ଵ ݊ଶ
F. 8-13
donde
n1: número de signos positivos.
n2: número de signos negativos
ܴ െ ߤோ
Estandarización del estadístico de la muestra R
ܼൌ
ߪோ
F. 8-15
ʹሺͳͳሻሺͳͶሻ ͵Ͳͺ
Reemplazando los datos en la fórmula 8-13, tenemos:
ߤோ ൌ ͳൌ ͳ ൌ ͳ͵ǡ͵ʹ
ͳͳ ͳͶ ʹͷ
Figura 8-8: Ventana de diálogo para la prueba de corridas, del ejemplo 8.10
12 «
ª ¦ R ¦ R
1
2
2
2
¦ R k
2
º
» 3(n 1)
H ....
n(n 1) « n1 n2 nk »
¬ ¼
VII. La prueba de Friedman se utiliza para analizar datos que tienen un diseño
de bloques aleatorizados. La prueba de Friedman es una alternativa útil
cuando no se cumple el supuesto de normalidad. El valor del estadístico de
prueba se calcula mediante la siguiente fórmula:
12
S
n.k .(k 1)
¦ R 2j 3n(k 1)
VIII. La prueba de corridas o de rachas, mediante:
Media corrida o racha: ߤோ ൌ భ మ ͳ
ଶ Ǥ
భ ାమ
PROBLEMAS PROPUESTOS Nº 8
15. Una autoridad regional de salud realizó un experimento para determinar cuál
entre las cuatro rutas deben tomarse desde la gerencia hasta la sede del centro
de salud. Los datos que se dan indican los tiempos de recorrido en minutos, a lo
largo de cada una de las cuatro rutas:
Día Ruta 1 Ruta 2 Ruta 3 Ruta 4
Lunes 20 22 22 24
Martes 23 24 26 26
Miércoles 22 25 27 25
Jueves 27 23 30 27
Viernes 28 26 30 27
383
Ponga a prueba si hay diferencia entre los tiempos promedios de recorrido para
las cuatro rutas para D = 0,05.
17. El dueño de una ferretería de una provincia del Perú realiza un experimento
para determinar si hay diferencia en las ventas semanales promedio de tres de
sus vendedores. Los datos siguientes indican las ventas realizadas por los tres
vendedores en nuevos soles durante siete semanas consecutivas
Semana Vendedores
A B C
1 2760 2870 2640
2 3120 2930 3030
3 2880 2840 2800
4 3060 2980 2870
5 3000 3100 3230
6 2840 2990 2960
7 3090 2950 3110
Mediante la prueba de Friedman y con 0,05 de significancia ¿el dueño puede
concluir que hay una diferencia en la media de la venta de los tres vendedores
y en de las ventas por semana?
18. Los siguientes datos representan el número de horas que dos tipos diferentes
de calculadoras científicas de bolsillo operan antes de que se requiera
recargarlas.
Calculadora A: 5,5 5,6 6,3 4,6 5,3 5,0 6,2 5,8 5,1
Calculadora B: 3,8 4,8 4,3 4,2 4,0 4,9 4,5 5,2 4,5
Utilicen la prueba de suma de rangos a un nivel de significancia de 0,01 para
determinar si la calculadora A opera más tiempo que la calculadora B con una
batería a plena carga
384
APÉNDICE
Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
–3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
–3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
–3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
–3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
–3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
–2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
–2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
–2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
–2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
–2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
–2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
–2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
–2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
–2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
–2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
–1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
–1.8 .0359 .0352 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
–1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
–1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
–1 .5 .0668 .0655 .0643 .0630 .0618 .0606 ' .0594 .0582 .0571 .0559
–1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681
–1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
–1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
–1.1 .1357 .1335 .1314 .1292 .1271 .125! .1230 .1210 .1190 .1170
–1 .0 .1587 .1562 ..1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
–0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
–0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
–0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
–0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
–0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
–0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
–0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
–0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
–0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
–0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
386
Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
11 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9278 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 ,9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
387
1– D
r 0,005 0,010 0,025 0,500 0,100 0,900 0,950 0,975 0,990 0,995
1 0.0000 0.0002 0.0010 0.0039 0.0158 2.71 3.84 5.02 6.64 7.88
2 0.0100 0.0201 0.0506 0. 103 0.211 4.61 5.99 7.38 9.21 10.60
3 0.072 0.115 0.216 0. 352 0.584 6.25 7.82 9.35 11.35 12.84
4 0.207 0.297 0.484 0. 711 1.064 7.78 9.49 11.14 13.28 14.86
5 0.412 0.554 0.831 1.145 1.61 9.24 11.07 12.83 15.09 16.75
6 0.576 0.872 1.24 1.64 2.20 10 .65 12.59 14.45 16.81 18.55
7 0.389 1.24 1.69 2.17 2.83 12 .02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.54 20.09 21.96
9 1.74 2.09 2.70 3 33 4.17 14. 68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.58 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 б.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23 .69 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.27 7.01 8.23 9.39 10.87 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41. 40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42. 80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44. 18
24 9.89 10.86 12.40 13.85 15. 66 33.20 36.42 39.36 42.98 45. 56
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46. 93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11. 81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49. 64
28 12.46 13.57 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.2 6 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20. 60 40.26 43.77 46.98 50.89 53.67
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27. 99 29.71 32.36 34.76 37. 69 63.17 67.50 71. 42 76.15 79.49
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
70 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95. 02 100.4 104.2
80 51.17 53.54 57.15 60.33 64.28 96.58 101.9 106.6 112.3 116.3
90 59.20 61.75 65.65 69.13 73.29 107.6 113 .1 118.1 124.1 128.3
100 67.33 70.06 74.22 77.93 82.36 118.5 124 .3 129.6 135. 8 140.2
389
.r1
1-D .r2 1 2 3 4 5 6 7 8 9 10 12 15 20 120
. 95 1 161 200 216 225 230 234 237 239 241 242 244 246 248 253
.975 648 800 864 900 922 937 948 957 963 969 977 985 993 1014
'
. 95 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5
.975 2 38.5 39. 39.2 39.2 39. 39. 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5
0 3 3
.99 98.5 99. 99.2 99.2 99. 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5
0 3
.995 199 199 199 199 199 199 199 199 199 199 199 199 199 199
.95 10.1 9.55 9.28 9.12 9.01 8,94 8.8 8,8 80. 8.79 8.74 8.70 8.6 8.55
9 5 81 6
.975 3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 13.9
. 99 34.1 30. 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.2
8
.995 55.6 49.8 47.5 46.2 45.4 44.8 44.4 44.1 43.9 43.7 43.4 43.1 42.8 42.0
.95 6.71 6.94 б.5 6.3 6.26 6.16 6.0 6.04 6.0 5.96 5.91 5.8 5.8 5.66
9 9 9 0 6 0
.975 4 12.2 10.6 9.9 9.6 9.3 9,2 9.07 8.9 8.9 8.84 8.75 8.6 8.5 8.31
8 0 6 8 8 6 6
.99 21.2 18.0TABLA 15.5DE15.2
D-2:
16.7 16.0 DISTRIBUCIÓN
15.0 14. 8 14.8 F 14.5 14.4 14.2 14.0 13.6
.995 31.3 26.9 24.3 23.2 22.5 22 21.6 21.4 21.4 21.0 20.7 20.4 20.0 19.5
.0
. 95 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.40
.975 5 10.0 8.43 7.76 7.39 7.15 6.9 6.8 6.76 6.6 6.62 6.52 6.43 6.3 6.07
8 5 8 3
. 99 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.8 9.72 9.55 9.11
9
.995 22.8 18.3 16.5 15.6 14.9 14.5 14.2 14.0 13.8 13.6 13.4 13.1 13.9 12.3
.95 5.99 5.14 4.76 4.53 4,39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.70
.975 6 8.81 7.26 6.60 6.23 5,99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 4.90
.99 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 6.97
.995 18.6 14.5 12.9 12.0 11.5 11.1 10.8 10.6 10.4 10.2 10.0 9.81 9.59 9.00
.95 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.27
.975 7 8.07 6.54 5.89 5.52 5,29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.20
.99 12.2 9.55 8.45 7.85 7,46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 5.74
.995 16.2 12.4 10.9 10.1 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.19
.95 5.32 4.46 4.07 3.84 3.69 3,58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 2.97
.975 8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.73
.99 11.3 8, 65 7.59 7,01 б.63 6.37 6.18 б.03 5.91 5.81 5.67 5.52 5.36 4.95
.995 1.4.7 11.0 9.60 8,81 8.30 7.95 7.69 7,5 7.34 7.21 7.01 6.81 6.61 6.06
.95 5.12 4.26 3.86 3.63 3 .48 3,37 3.29 3 .23 3.18 3.14 3.07 3.01 2.94 2.75
.975 9 7.21 5.71 5.08 4..72 4.48 4,32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.39
.99 10.6 8.02 6.99 642 6.48 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.40
.995 13.6 10.1 8.72 7 . 96 7 .06 7.13 6.88 6.69 0.54 6.42 6.23 6.03 5.83 5.30
390
.r1
1-∞ .r2 1 2 3 4 5 6 7 8 9 10 12 15 20 120
.95 4.964.5 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.84 2.77 2.58
.975 10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.14
.99 10.07.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.00
. 995 12.89.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 4.75
.95 4.753.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.34
.975 12 6.55 8.10 4.47 4.12 3.89 .073 3.61 3.51 3.44 3.37 3.28 3.18 3.07 2.79
.99 9.336.93 5.95 4.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.45
. 995 11.88.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.01
.95 4.543.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.11
.975 15 6.20 4.77 4.15 3.80 3.50 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.46
.99 8.686.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 2.96
. 995 10.87.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.37
.95 20 4.353.49 3.10 2.87 2.71 2.60 2.51 2.54 2.39 2.35 2.28 2.2 2.12 1.90
.975 5.874.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.16
.99 8.105.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.52
. 995 9.946.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 2.81
.95 TABLA
4.17 3.32 2.92 D-2: DE DISTRIBUCIÓN
2.69 2.53 F
2.42 2.33 2.77 2.21 2.16 2.09 2.01 1.93 1.68
.975 30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 1.87
.99 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.11
. 995 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.30
.95 4.00 3.12 2.76 2.53 2.37 2.25 2.17 2.10 1.04 1.99 1.92 1.84 1.75 1.47
.975 60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.58
.99 7.06 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 1.73
. 995 8.49 5.80 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 1.83
.95 3.92 3.07 2.68 2.45 2.99 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.35
.975 120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.95 1.82 1.43
.99 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.53
. 995 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 1.61
.95 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.22
.975 ∞ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.27
.99 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.32
. 995 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.36
391
bc ad
5. TABLA E: DETERMINACIÓN DE r PARA DIVERSOS VALORES DE Y ,A
ad bc
PARTIR DE UNA TABLA DE CONTINGENCIA DE CUATRO ENTRADAS
rt bc ad rt bc ad rt bc ad rt bc ad
ó ó ó ó
ad bc ad bc ad bc ad bc
0,00 1,000 0,26 1,941-1,993 0,51 4,068-4,205 0,76 11,513-12,177
0,01 1,013-1,039 0,27 1,994-2,048 0,52 4,206-4,351 0,77 12,178-12,905
0,02 1,040-1,066 0,28 2,049-2,105 0,53 4,352-4,503 0,78 12,906-13,707
0,03 1,067-1,093 0,29 2,106-2,164 0,54 4,504-4,662 0,79 13.708-14,592
0,04 1,094-1,122 0,30 2,165-2,225 0,55 4,663-4,830 0,80 14,593-15,574
0,05 1,123-1,151 0,31 2,226-2,288 0,56 4,831-5,007 0,81 15,575-16,670
0,06 1,152-1,180 0,32 2,289-2,353 0,57 5,008-5,192 0,82 16,671-17,899
0,07 1,181-1,211 0,33 2,254-2,421 0,58 5,193-5,388 0,83 17,900-19,287
0,08 1,212-1,242 0,34 2,422-2,491 0,59 5,589-5,595 0,84 19,288-20,865
0,09 1,243-1,275 0,35 2,492-2,563 0,60 5,596-5,813 0,85 20,866-22,674
0,10 1,276-1,308 0,36 2,564-2,638 0,61 5,814-6,043 0,86 22,675-24,766
0,11 1,309-1,342 0,37 2,639-2,716 0,62 6,044-6,288 0,87 24,767-27,212
0,12 1,343-1,377 0,38 2,717-2,797 0,63 6,289-6,547 0,88 27,213-30,105
0,13 1,378-1,413 0,39 2,798-2,881 0,64 6,548-6,822 0,89 30,106-33,577
0,14 1,414-1,450 0,40 2,882-2,968 0,65 6,823-7,115 0,90 33,578-37,815
0,15 1,451-1,488 0,41 2,969-3,059 0,66 7,116-7,428 0,91 37,816-43,096
0,16 1,489-1,528 0,42 3,060-3,153 0,67 7,429-7,761 0,92 43,097-49,846
0,17 1,529-1,568 0,43 3,154-3,251 0,68 7,762-8,117 0,93 49,847-58,758
0,18 1,569-1,610 0,44 3,252-3,353 0,69 8,118-8,499 0,94 58,759-71,035
0,19 1,611-1,653 0,45 3,354-3,460 0,70 8,500-8,910 0,95 71,036-88,964
0,20 1,654-1,697 0,46 3,461-3,571 0,71 8,911-8,351 0,96 88,965-117,479-
0,21 1,698-1,743 0,47 3,572-3,687 0,72 8,352-9,828 0,97 117,480-169,503
0,22 1,744-1,790 0,48 3,688-3,808 0,73 9,829-10,344 0,98 169,504-292,864
0,23 1,791-1,838 0,49 3,809-3,935 0,74 10.345-10,903 0,99 292,865-923,687
0,24 1,839-1,888 0,50 3,936-4,067 0,75 10,904-11,512 1 923,688 -
0,25 1,889-1,940
6. TABLA F:
ABSCISAS Y ORDENADAS DE LA TABLA DE DISTRIBUCIÓN NORMAL Z
Fuente: “Extended Tables of the Wilcoxon Matched-Pair Signed Rank Statistic” Journal of
the American Statical Association.
395
BIBLIOGRAFÍA
[1]. Anderson, D. et al (2008). Estadística para administración y economía. México
D.F.: Cogage Learning.
[2]. Berenson, M. y Levine, D. (1996). Estadística Básica en Administración, Conceptos
y Aplicaciones. México D.F.: Prentice Hall.
[3]. Box, G. (2001). Estadística para investigadores. Introduccón al diseño de
experimentos, análisis de datos y construcción de modelos. Barcelona:
Editorial Reverté S.A.
[4]. Chué, J. (2009). Estadística descriptiva y probabilidades. Lima: Fondo Editorial de
la Universidad de Lima.
[5]. Córdova, M. (1999). Estadística descriptiva e inferencial. Lima: Publicaciones
MOSHERA S.R.L.
[6]. Daniel, W. (1996) Bioestadística. Base para el análisis de las ciencias de la salud.
México: Noriega Editores.
[7] Daniel, W. (1995) Estadística con aplicaciones a las ciencias sociales y a la
educación. Bogotá: McGraw-Hill Latinoamericana.
[8]. Elorza, H. (2001). Estadística para las ciencias sociales, del comportamiento y de
la salud. México: Cengage Learning.
[9]. Gaita, C. (2009). Matemáticas para no matemáticos. Lima: Pontificia Universidad
Católica del Perú.
[10] Gómez, D. y Otros (2005) Introducción a la Inferencia Estadística. Lima: Fondo
Editorial de la UNMSM.
[11]. Kasmier, L. J. (2000). Estadística aplicada a la administración y a la economía.
México D.F.: Mcgraw-Hill.
[12]. Lind, D., Marchal, W. & Mason, R. (2004). Estadística para Administración y
Economía. México D.F.: Alfa Omega.
[13]. Levin, R. y Rubin, D. (2004). Estadística para administración y economía. México
D.F.: Pearson Educación.
[14]. Martínez, C. (2008). Estadística y muestreo. Colombia, ECOE Ediciones.
[15]. Mendenhall, W. y Beaber, R. (2001). Introducción a la probabilidad y estadística.
México: Cengage Learning.
[16]. Spiegel, M. (1987). Teoría y problemas de estadística. México D.F.: McGraw-
Hill.
[17] Veliz, C. (1993) Estadística, aplicacicones. Lima: Copyright.
[18] Walpole, R. (1993). Probabilidad y Estadística. México D.F.: McGRAW /
Interamericana de México.
[19]. Weiner, R. (1996). Estadística. México: Compañía Editorial Continental S.A.