Está en la página 1de 413



  4
  

 

 

 

    

        
     
 
    
    
 
      
 
            

    

 
   
         

       
  

     
 
 

 
     
            !   
        ! 
  
   
  
     "
  



  
      
    "  

        " 
 !   

 
 #

        
        

   $    
 
 
   
%      
      
   
   "
   &  
 
  

   
 
       

   

  
     
 
 
 
     

    

 
 
  

' ()  "*" #+ 


 
,  

 -
" 
    
  ,   $
 
,   .   
  

   /
  0 
1 ) "
 1
 
'  2 
3"#,  
 
,   $
   


 
 


   

,   .  
  
  -  ! 
 


  

  




 


   
 

  



   
 

  



 !" 
#

$ % $&




  

 
  
 


   
  
   
 
   
 



   
 


  
  
 
   
  

 


  
   


 
       
  
 

 
  
 

   

  

  
 
  
 
    

 


 
 
 


 

 !  " 
 
 
#
 $ %
&

'

 ( &   
) 
*+%
 &

$
$ +*,-.%




  


 

 /0
1 2
3)3 04 5(3
  / 6-*7 #
  $  %
 &

 '

 
( &   ) 
 


$
$ 6-*7
Inferencia estadística
para investigadores
Análisis e interpretación de datos
mediado por el Minitab

Jesús Vilchez Guizado


Julia A. Ramón Ortiz
ii

A nuestros padres que nos iluminan desde la


eternidad y a Jesús Rodrigo, razón de nuestra
existencia e impulsor permanente de nuestra
superación personal y profesional.

A los profesionales y estudiantes de las


distintas áreas del conocimiento que hacen uso
constante de la estadística y de la tecnología
para el análisis e interpretación de datos,
durante su actividad diaria e investigativa.
iii

Contenido

Pág.
Introducción ix
Capítulo 1: Población y Muestra 1
1.1. Introducción. 2
1.2. Población y muestra 3
1.3. Poblaciones muestreadas y poblaciones objetivo 6
1.4. Tipos de muestreo 7
1.4.1. Muestreo aleatorio o probabilístico 8
1.4.2. Muestreo no aleatorio o empírico 21
1.5. Selección de un tamaño de muestra adecuada. 31
1.6. Error de muestreo 37
1.7. Distribución muestral de algunos estadísticos 39
1.8. Uso del Minitab en distribución muestral 50
Resumen del capítulo 1 53
Problemas propuestos Nº 1 56

Capítulo 2: Estimación de Parámetros 61


2.1. Introducción 62
2.2. Estimación puntual de parámetros 70
2.3. Estimación de intervalos de confianza para parámetros de una
población 60
2.3.1. Intervalo de confianza para una media poblacional 73
2.3.2. Intervalo de confianza para una proporción 79
2.3.3. Intervalo de confianza para la varianza poblacional 82
2.4. Estimación de intervalos de confianza para relación entre
parámetros de dos poblaciones 85
2.4.1. Intervalo de confianza para la diferencia entre dos medias 85
2.4.2. Intervalo de confianza para diferencia entre proporciones 94
2.4.3. Intervalo de confianza para razón de varianzas poblacionales 97
Resumen del capítulo 2 102
Problemas propuestos Nº 2 105
iv

Capítulo 3: Prueba de hipótesis 111


3.1. Introducción 112
3.2 Hipótesis estadística 113
3.3 Clasificación de hipótesis 114
3.4 Prueba de hipótesis 115
3.5 Errores en la prueba de hipótesis 119
3.6. Prueba de hipótesis para un parámetro poblacional 120
3.6.1. Prueba para la media poblacional: Muestra grande y desviación
estándar poblacional supuesta conocida 124
3.6.2. Prueba para la media poblacional: Muestra pequeña y desviación
estándar poblacional supuesta desconocida 128
3.6.3. Prueba para una proporción poblacional: Muestra grande y
desviación estándar poblacional supuesta conocida 132
3.6.4. Prueba de hipótesis para una varianza poblacional 136
3.7. Pruebas de hipótesis para parámetros de dos poblaciones 138
3.7.1. Prueba de hipótesis para diferencia de medias de dos poblaciones:
varianzas V 12 y V 22 supuestas conocidas 138
3.7.2. Comparación de dos medias poblacionales usando muestras
independientes con varianzas desconocidas supuestas iguales 140
3.7.3. Prueba de hipótesis para datos Pareados 145
3.7.4. Prueba de hipótesis para comparación de dos proporciones (en
poblaciones independientes) 148
3.7.5. Prueba de hipótesis para cociente de varianzas 154
Resumen del capítulo 3 158
Problemas propuestos Nº 3 162

Capítulo 4: Diseños Experimentales 169


4.1. Introducción 170
4.2. La distribución F 171
4.3. Comparación de dos varianzas poblacionales 173
4.4. Análisis de Varianza (ANOVA) 175
4.5. Diseños experimentales de clasificación simple (de un factor) 176
4.6. Comparaciones múltiples (bloques aleatorizados) 187
v

4.7. Análisis de varianza de dos factores (clasificación doble) 192


4.8. Modelos con interacción 200
Resumen del capítulo 4 202
Problemas propuestos Nº 4 204

Capítulo 5: Regresión y Correlación 211


5.1. Introducción 212
5.2. Análisis de regresión lineal simple 213
5.3. Regresión lineal simple 215
5.4. Análisis de correlación lineal 221
5.5. Coeficiente de correlación de Pearson 225
5.6. Coeficiente de determinación 229
5.7. Error estándar de estimación 230
5.8. Intervalo de confianza para valor medio e intervalo de predicción 231
5.9. Prueba de hipótesis 236
5.10. Métodos no lineales y transformación 239
5.11. Regresión lineal múltiple 242
Resumen del capítulo 5 245
Problemas propuestos Nº 5 249

Capítulo 6: prueba de hipótesis para medidas de asociación 257


6.1. Introducción 258
6.2. Prueba de hipótesis para asociación entre variables dicotómicas o
dicotomizadas 258
6.2.1. Prueba para coeficiente de correlación biseral-puntual 259
6.2.2. Prueba para el coeficiente de correlación Phi: 262
6.2.3. Prueba para el coeficiente de correlación biseral 266
6.2.4. Prueba para el coeficiente de correlación tetracórica 270
6.3. Prueba para asociación entre variables ordinales 274
6.3.1. Prueba para coeficiente de correlación de Spearman 274
6.3.2. Prueba para coeficiente de correlación de Kendall 279
6.3.3. Prueba para coeficiente de correlación Goodman y Kruskal 282
6.4. Prueba de hipótesis para asociación entre variables nominales 285
vi

6.4.1. Prueba de hipótesis con coeficiente Q de Yule 285


6.4.2. Coeficiente X2 286
6.4.3. Coeficiente de Contingencia C 287
Resumen del capítulo 6 288
Problemas propuestos Nº 6 290

Capítulo 7: Análisis de los Datos Categóricos 295


7.1. Introducción 296
7.2. La distribución Chi-cuadrada 297
7.3. Tablas de contingencia 299
7.4. Prueba Chi-cuadrada para comparación de dos o más proporciones 301
7.5. Pruebas multinomiales con el estadístico de prueba Chi-cuadrada 309
7.6. Prueba de independencia 312
7.7. Prueba de homogeneidad 319
7.8. Prueba de variables categóricas de con tablas de 2u2 325
Resumen del capítulo 7 332
Problemas propuestos Nº 7 334

Capítulo 8: Estadística No Paramétrica 341


8.1. Introducción 342
8.2. ¿Qué son pruebas no paramétricas? 343
8.3. Pruebas no paramétricas para una sola muestra 346
8.3.1. Prueba de signos para una sola muestra 346
8.3.2. Prueba de rangos con signos de Wilcoxon 348
8.4. Prueba para dos o más muestras independientes 352
8.4.1. Prueba de rangos con signos de wilcoxon 352
8.4.2. Prueba de U de Mann-Whitnney 356
8.4.3. Prueba de Kruskal-Wallis (k muestras independientes) 363
8.5. Prueba para k muestras de Friedman 369
8.5. Prueba de corridas de una sola muestra 373
Resumen del Capítulo 8 377
Problemas propuestos Nº 8 379
vii

Apéndice 385
1. Tabla A: de distribución normal 385
2. Tabla B: de distribución t de Student 387
3. Tabla C: de distribución Chi-cuadrada 388
4. Tabla D: de distribución F 389
5. Tabla E: de determinación de r 391
6. Tabla F: Abscisas y ordenadas en la distribución Z 392
7. Tabla G: de valores T de Wilcoxon 394

Bibliografía 395
viii

Introducción

En el estudio de la estadística se hace una distinción entre el desarrollo de la teoría


estadística para el ejercicio profesional especializado y la aplicación de esta teoría
a la investigación. La primera está orientada hacia la producción de
conocimientos teóricos referidos a la estadística, desarrollado por los estadísticos
y matemáticos; mientras al segundo aspecto interesa la solución de problemas de
la realidad mediante el uso pertinente de la teoría estadística en la presentación,
análisis e interpretación de datos, por parte de los investigadores, profesionales,
estudiantes de pregrado y postgrado de las distintas áreas del conocimiento
humano.
Este libro tiene como finalidad proporcionar al lector los conceptos básicos de
estadística inferencial, a través de la presentación sencilla los tópicos de uso más
frecuente en el proceso investigativo, haciendo que esta materia no sea de
exclusividad de los estudiantes del área de ciencias e ingeniería, sino que sea
atractivo para los estudiantes y profesionales de las distintas áreas del saber
humano, fundamentalmente de las ciencias sociales; donde las técnicas y
conceptos estadísticos son imprescindibles en el proceso de análisis de datos y la
producción de información conducente a la solución de problemas.
Bajo esta premisa, el presente texto está desarrollado, teniendo en cuenta cuatro
principios básicos:
i La estadística no es parte de la matemática; sino, toma como herramienta
algunos cálculos matemáticos elementales que facilitan pensar en forma sabia
acerca de los datos.
i Las ideas y actividades estadísticas hacen que el estudiante tenga
predisposición para resolver problemas de la realidad a partir de datos creando
confianza en su actividad.
i El dominio de los elementos básicos del razonamiento estadístico facilita el
dominio de elementos más complejos; por consiguiente, el proceso de
aprendizaje significativo.
i La estadística se aprende con la práctica, haciendo interesante y agradable la
actividad de análisis de datos y producción de información.
En concordancia con los principios descritos, el texto contiene lo necesario para
que el lector pueda analizar e interpretar datos en el proceso investigativo,
ix

principalmente en la investigación aplicada; y, está diseñado sobre la base de


conceptos de investigación y estadística inferencial orientados a contextos
diversos, no sólo de una población de individuos, sino de ideas, valores, fuerzas
normativas y circunstancias prácticas, que se abordan en los ocho capítulos en
que se distribuye el contenido del libro, de manera concisa y didáctica.
El libro, como su nombre lo indica, inferencia estadística para investigadores,
abarca los tópicos fundamentales de la estadística inferencial, y recoge los
avances de la tecnología y del proceso de enseñanza de la estadística en los
últimos años. Los avances tecnológicos se reflejan en la incorporación del
Minitab para un desarrollo interactivo e ilustrativo de los ejemplos; la enseñanza
se plasma a través de la incorporación de: ejercicios basados en datos de distintos
niveles de medición, provenientes del contexto. Se destacan los métodos de
análisis de datos, provenientes de ejemplos que requieren razonamiento crítico,
un pensamiento estadístico avanzado para la interpretación de los resultados con
pertinencia. También cabe precisar que los contenidos del libro también es
posible asimilar sin mediación del Minitab; puesto que, en cada uno de los tópicos
se desarrollan ejemplos ilustrativos didácticamente resueltos.
El contenido del libro se divide en ocho capítulos. En el capítulo 1, se aborda los
conceptos fundamentales de la estadística inferencial, población y muestra,
teoría del muestreo y distribuciones de probabilidad de uso más frecuente en un
proceso investigativo; seguidamente en el capítulo 2, se desarrolla de manera
resumida la teoría de la estimación de parámetros poblacionales, tanto la
estimación puntual y la estimación de intervalos de confianza para las
distribuciones de probabilidad de uso más frecuente en la investigación.
El capítulo 3, aborda la prueba de hipótesis para parámetros de una población y
de dos poblaciones; destacándose la prueba de hipótesis para la media, varianza
y proporción poblacional; mientras en el capítulo 4, se aborda en forma sucinta
el tema de análisis de varianza, abordando los temas de diseños experimentales
de clasificación simple, comparaciones múltiples, análisis de varianza de dos
factores y modelos con interacción.
En el capítulo 5, se desarrolla el análisis de correlación y regresión de Pearson,
intervalos de confianza y de predicción, prueba de hipótesis y modelos no
lineales, entre otros. Luego, en el capítulo 6, se aborda las pruebas de hipótesis
para medidas de asociación, tanto para datos provenientes de variables nominales
y ordinales.
x

En el capítulo 7, se desarrolla la prueba de hipótesis para datos categóricos


incidiendo en la elaboración de tablas de contingencia y la prueba ji-cuadrada;
incidiendo en las pruebas de bondad de ajuste, pruebas de independencia y
pruebas de homogeneidad. Finalmente, en el capítulo 8 se expone algunas
pruebas no paramétricas que son de utilidad en muchos estudios, pero que aún
tienen uso limitado en el proceso investigativo.
Cada uno de los capítulos se inicia con el listado de los temas que se abordan y
los objetivos que se pretende lograr durante su estudio. El contenido se desarrolla
en forma sistemática con conceptos, modelos matemáticos y resolución de
ejemplos ilustrativos usando Minitab, luego se hace un breve resumen de los
tópicos tratados en cada capítulo, y se concluye con un grupo de problemas
propuestos, para que el lector pueda resolver haciendo uso del Minitab e
interprete sus resultados haciendo con teoría asimilada.
Agradecemos de manera sincera a la Editorial Académica Española, por acoger
la divulgación de nuestro manuscrito para su evaluación y posible publicación.
También a los profesionales que hicieron posible nuestra formación en el campo
de la estadística y de la investigación durante nuestra formación en el nivel de
pregrado y posgrado; agradecer también a todos los estudiantes que tienen cierta
fobia a la estadística y rencor a sus difusores; pero que consciente o
inconscientemente desarrollan sus actividades y sus vidas inmersas en ideas y
cálculos estadísticos.
Finalmente, es importante manifestar al lector que el uso del software estadístico
como el Minitab, que es un programa de computadora, amigable y versátil,
diseñado para ejecutar funciones estadísticas básicas y avanzadas con alta
capacidad de ejecución de análisis estadísticos; permiten realizar diversos
cálculos y análisis con datos cuantitativos o cualitativos; pero, la interpretación y
la toma de decisiones a partir de los resultados obtenidos no es tarea del software,
sino es tarea exclusiva del investigador, de acuerdo a su experticia técnica y
manejo de conceptos estadísticos.

Jesús Vilchez G. - Julia A. Ramón O.


1 Población y Muestra
La inferencia estadística es el procedimiento que
implica sacar conclusiones acerca de una
población en base a estadísticos que se obtienen
a partir de una muestra extraída de dicha
población.

Población y muestra. Poblaciones muestreadas y poblaciones


objetivos. Tipos de muestreo: probabilística y no probabilístico.
Error de muestreo. Selección de un tamaño de muestra adecuada.

OBJETIVOS
Al concluir el capítulo estará en condiciones de:
1. Valorar la importancia de la estadística inferencial en el proceso de
la investigación científica.
2. Elegir la población y muestra como paso previo para llevar a cabo
una investigación científica.
3. Determinar los criterios para la elección de una población
muestreada y la población objetivo.
4. Identificar los principales tipos de muestreo analizando sus
características, bondades y su proceso de elección
5. Definir que es un error de muestreo y analizar sus efectos en la
investigación.
6. Conocer los criterios de selección de una muestra para poblaciones
finitas e infinitas.
7. Identificar las principales distribuciones muestrales valorando su
aplicabilidad en la generalización de algunos estadísticos.
2

1.1. INTRODUCCIÓN
La Ciencia es un método sistemático para la explicación de los fenómenos
(observables, desarrollables y medibles), constituidos por condiciones naturales,
procesos, eventos, situaciones, objetos, grupo de personas, conductas,
pensamientos, creencias, conocimientos, opiniones, entidades, emociones y
sentimientos, que se suscitan en la realidad bajo ciertas condiciones naturales o
artificiales, constituyéndose en insumo para la investigación científica.
El propósito de la investigación científica y el objetivo principal de la ciencia es
explicar los fenómenos. Una explicación científica se basa en procedimientos
estrictos, llamado teoría. Una teoría científica es un conjunto de aseveraciones
interrelacionadas y lógicamente organizadas que explican un fenómeno de interés
y que ha sido corroboradas a través de la observación y el análisis.
El campo de la estadística abarca un conjunto de procedimientos para recolectar,
clasificar, comparar, analizar y resumir información adquirida sistemáticamente.
Por ello, un curso de estadística suele ser percibido como aquel que incluye
muchas fórmulas y cálculos con datos, que requieren de mucha imaginación, en
concordancia a los principios de la ciencia.
La estadística inferencial es la rama de la estadística en la que se hacen
afirmaciones acerca de la población y sus parámetros en base a la información
obtenida de la muestra o muestras de dicha población. Esta actividad se
constituye en el segundo propósito del análisis estadístico, consistente en extraer
conclusiones matemáticas entre las características de un grupo de personas u
objetos. Por ejemplo, podemos investigar que los habitantes de una provincia con
un nivel educativo superior tienden a creer en menor proporción que los de nivel
educativo bajo, en la existencia del alma o el diablo. En este tipo de análisis se
hacen cálculos para mostrar relaciones de causa efecto, así como para probar
hipótesis y teorías científicas (inferir quiere decir, sacar conclusiones sobre algo),
en esta línea casi la totalidad de los tópicos que se abordan en este texto trata de
la estadística inferencial
En este capítulo, una vez esclarecido las definiciones de la población y muestra
analizaremos los criterios para escoger una muestra de una población. Después
se estudiarán la distribución de las medias muestrales para comprender la forma
en que tales valores tienden a agruparse alrededor de la media poblacional y por
qué la mayoría de las distribuciones de probabilidad se aproximan a la normal.
3

1.2. POBLACIÓN Y MUESTRA


La palabra población es común a nuestro lenguaje cotidiano, escuchamos con
frecuencia expresiones como: la población del Perú según el Censo del 2007, la
población de vicuñas en pampas Galeras; la población de peces en la laguna de
Pacucha, la población de alumnos de Educación Secundaria de la Región
Huánuco, población de reos en las cárceles del Perú, población de pacientes con
enfermedades respiratorios, etc. Para cualquier punto dado en el tiempo, cada uno
de los ejemplos mencionados parecen ser una entidad bien definida, o sea un
conjunto de individuos que se pueden identificar por separado. Es claro que cada
una de estas poblaciones está en constantes cambios cualitativos y cuantitativos
conforme transcurre el tiempo, posiblemente a causa de la natalidad, mortalidad
y movilidad.
Unidad de observación: Llamada también unidad de análisis, es cada uno de los
elementos a observar, que en forma conjunta componen la población o muestra.
Estos elementos pueden ser objetos, personas, animales, vegetales, entes
abstractos, organizaciones u otros, de existencia abstracta o tangible.
Unidad de muestreo: Es el elemento utilizado para seleccionar la muestra. En
muchos casos la unidad de observación y de muestreo son las mismas.
Por ejemplo, si se quiere estudiar el desarrollo del pensamiento lógico
matemático en niños del nivel educación primaria, no podría tener información
sobre cuántos son, donde viven, como se llaman, por lo que casi es imposible
extraer una muestra de niños. El investigador tendrá que tomar previamente como
muestra representativa de las instituciones educativas del nivel primario, para
llegar a niños del nivel primario.
A. La Población
Población es un conjunto de N elementos (personas, animales, objetos materiales,
comunidades, instituciones, organismos, historias clínicas, conceptos, etc.) que
verifican una definición bien determinada y no diferenciables entre sí. Los
elementos de la población tienen una determinada característica susceptible de
ser estudiada, medida y cuantificada.
Así, la población está formada por la totalidad del fenómeno donde las unidades
de observación poseen una característica común, la que se estudia y da origen a
los datos de la investigación. En un proceso investigativo, la información que se
4

recoge del objeto que se estudia proviene de la población y las conclusiones que
se obtienen retornan a la misma.
La población debe delimitarse claramente en torno a sus características de
contenido, lugar, espacio, volumen y tiempo. Así, por ejemplo, podemos citar
como población a las empresas proveedoras del municipio de Andahuaylas, los
medios de información de Huánuco, los alumnos de la institución educativa Juan
Espinoza Medrano de Andahuaylas, estado civil de los pobladores de la
urbanización Señor de los Milagros, las edades de los estudiantes de la Facultad
de Contabilidad de la Universidad Hermilio Valdizán, etc.
Definir la Población implica precisarlo:
Cualitativamente, señalando sus rasgos principales e identificándolos, como su
naturaleza, condiciones de existencia, alteraciones que sufre, etc.
Cuantitativamente, indicando el número exacto de personas, unidades,
instituciones, o cosas que comprende, número de etapas de una determinada
metodología, etc.
Parámetro, Es una medida descriptiva que resume las características de una
población, que por lo general es desconocida, tales como la media (P) o la
varianza (V2), son calculados a partir de los datos observados en toda la
población.
Se dice que la población es finita, si tiene un número finito de elementos. En caso
contrario, se dice que es infinita. En la práctica una población finita con un
número grande de elementos se considera población infinita.

Conjunto de elementos que Muestra


representan una característica
o condición común que es
objeto de estudio

Unidad de
observación
Parte de los
elementos o
subconjuntos de una
Extracción población que se
muestra selecciona para el
estudio de esa
característica o
condición
Generalización de
Población hallazgos

Figura 1-1. Ilustración esquemática de población, unidad de observación y muestra.


5

B. La Muestra

Cuando seleccionamos algunos elementos con la intención de averiguar algo


sobre una población previamente elegida, nos referimos a la muestra. Lo que se
espera es que los hallazgos en la muestra sean válido para la población en su
conjunto. La exactitud de la información recolectada depende en gran parte de la
forma en que fue seleccionada la muestra.
La muestra se basa en el principio de que las partes representan al todo y, pues
refleja las características que definen la población de la que fue extraída, lo cual
nos indica que es representativa, seleccionada de acuerdo a un plan o regla, con
el fin de obtener información mucho más específica. Por lo tanto, la validez de la
generalización depende de la validez y tamaño de la muestra.
Para seleccionar una muestra, lo primero es definir la unidad de análisis (sujetos,
objetos, organizaciones, etc.), la misma que dependerá de la identificación y
precisión del problema y los objetivos de la investigación.
Una vez definida la unidad de análisis, se procede a delimitar la población que va
a ser estudiada y sobre la cual se pretende generalizar los resultados. La población
debe situarse claramente en torno a sus características de contenido, lugar y en el
tiempo.
Algunas veces no se conocen o no se pueden identificar algunos elementos de la
población, también puede presentarse el problema contrario, y es que un mismo
elemento esté registrado más de una vez en las listas del marco muestral. Un
último aspecto que puede suceder es la inclusión de elementos ajenos a la
población de interés.
Para el ejemplo anterior (sobre población), podemos considerar como muestras:
Las micro empresas proveedoras del municipio de Andahuaylas, los medios de
información escritos de Huánuco, los alumnos del quinto grado de la institución
educativa Juan Espinoza Medrano de Andahuaylas, personas solteras que habitan
en la urbanización Señor de los Milagros, las edades de los estudiantes féminas
de la facultad de Contabilidad de la universidad Hermilio Valdizán, etc.
Estadístico: Es un valor que se calcula en base a los datos que se toman de la
muestra, y que se usa para estimar el valor del parámetro. El valor del estadístico
es conocido y varía de acuerdo a la muestra tomada.
6

Características de la muestra:
1. Que comprenda parte de una población y no su totalidad. Esa parte puede
oscilar entre el 5 y el 20 por ciento de la población total. El mayor o menor
porcentaje depende del grado de variabilidad de la población. Cuando la
población es muy dinámica o cambiante, es conveniente tomar una muestra
mayor.
2. Que no haya distorsión en su elección. En este sentido el muestreo aleatorio
es el más confiable que el no aleatorio. Éste se puede prestar a
manipulaciones conscientes o inconscientes al momento de la elección. Por
ello, todo depende de la destreza y honestidad del investigador.
3. Que sea representativa de la población. Las distintas variedades y matices
de la población estén presentes proporcionalmente en la muestra.

1.3. POBLACIONES MUESTREADAS Y POBLACIONES OBJETIVO


La población muestreada es la población de la cual se extrae una o más
muestras. La población objetivo es la población de la cual se desea hacer una
inferencia. Estas dos poblaciones pueden ser las mismas o no. Los
procedimientos de inferencia estadística permiten inferir respecto a las
poblaciones muestreadas (si se utilizó los métodos de muestreo correctos). Sólo
cuando la población muestreada y la población objetivo son las mismas, se
pueden utilizar procedimientos de inferencia estadística para llegar a
conclusiones acerca de la población objetivo.
Por ejemplo, un investigador quiere estimar la efectividad de un método
didáctico para enseñar a niños con retardo mental. La población objetivo está
formado por todos los niños que sufren retardo y no es práctico extraer una
muestra de esta población. Pero, el investigador puede extraer una muestra de
todos los niños con retardo de una Institución Educativa Especial. Estos niños
constituyen la población muestreada y, si se utilizan métodos de muestreo
adecuados, es posible hacer inferencias respecto a esta población muestreada
con base en la información de la muestra. Si el investigador quiere hacer
inferencias acerca de todos los niños con retardo, debe utilizar métodos no
estadísticos.
Si la población muestreada y la población objetivo son idénticas, las inferencias
en torno a la población objetivo se hacen en forma directa. Pero, el investigador
debe estar consciente de que éste no siempre es el caso, a fin de que no caiga en
7

la trampa de hacer inferencias erróneas respecto a una población diferente a la


que ha sido muestreada.
Una muestra será representativa de una población si todos los elementos de la
población tienen la misma posibilidad de integrar la muestra. Por lo tanto, en
primer lugar, será necesario definir la Población que se desea investigar, a fin
de determinar cuál es el marco muestral que se posee. Recién a partir de estos
datos se puede determinar el tamaño de la muestra y elegir el procedimiento
más adecuado para la selección aleatoria y no aleatoria (llamada también:
probabilística o no Probabilística).

1.4. TIPOS DE MUESTREO


Se denomina muestreo a todo proceso que nos permita extraer una muestra de
cierta población. Existen diversos tipos de muestreo, las mismas que nos
permitirá hacer inferencias estadísticas con diversos grados de dificultad de
acuerdo a las condiciones del problema y el objetivo del estudio.
En términos generales, existen dos tipos de muestra: el probabilístico (o
aleatoria) y el no probabilístico (o no aleatorio). La elección más apropiada del
tipo de muestreo depende del problema, de las características de la población y
circunstancias de factibilidad de la Investigación. Para alcanzar mayor rigor lo
conveniente es el tipo probabilística, porque en él existen procedimientos
estadísticamente seguros que permiten inferir los hallazgos en la muestra hacia
la población. Algunos tipos de muestreo que se utilizan con más frecuencia en la
investigación se resumen en la figura 1-2.
Muestreos Probabilísticos Muestreos No Probabilísticos
Simple De sujetos-tipo
Sistemático Por cuotas
Estratificado Opinático o intencionado
Por conglomeración Por conveniencia
Por racimos Por criterio o fines especiales
De etapas múltiples. De sujetos voluntarios

Por áreas Geográficas Accidental


Autos generados

Bola de nieve

Figura 1-2. Clasificación del muestreo probabilística y no probabilística.


8

1.4.1. MUESTREO ALEATORIO (O PROBABILÍSTICO)


Se basa en el principio de que todos los elementos componentes de la población
tienen la misma oportunidad de estar incluidos en una muestra, para lo cual una
vez identificado a la población se le asigna a cada elemento componente una
identificación exclusiva
Los métodos de muestreo probabilísticas son aquellos que se basan en el
principio de equiprobabilidad. Una muestra probabilística es una muestra
extraída de una población de tal forma que cada elemento tiene una probabilidad
conocida de estar incluida en la muestra. Sólo estos métodos de muestreo
probabilístico nos aseguran la representatividad de la muestra extraída, por
tanto, son los más recomendables.
El muestreo probabilístico ofrece la ventaja de estimar objetivamente el grado
de error y de determinar matemáticamente el tamaño de la muestra. No se
requiere tener un conocimiento previo de la población sino simplemente la
cantidad de individuos que la componen. Y Permite proyectar los resultados de
la muestra con un grado conocido de exactitud hacia la población en general.
En resumen, una muestra aleatoria de tamaño n de X es un vector aleatorio
(X1, X2,…Xn), donde las componentes son variables aleatorias independientes y
con la misma distribución que X.
Entre los tipos de muestreo aleatorio destacan: el muestreo aleatorio simple,
muestreo sistemático, muestreo estratificado, muestreo de conglomerados, por
racimos, muestreo en etapas múltiples y muestreo por áreas.

1.4.1.1. Muestreo aleatorio simple


De acuerdo con Webster (1998) “una muestra aleatoria simple es la que resulta
de aplicar un método por el cual todas las muestras posibles de un determinado
tamaño tengan la misma probabilidad de ser elegidas”. Esta definición refleja
que la probabilidad de selección de la unidad de análisis A es independiente de
la probabilidad que tienen el resto de unidades de análisis que integran una
población. Esto significa que tiene implícita la condición de equiprobabilidad
(Glass y Stanley, 1994).
Una muestra aleatoria simple es un conjunto de n elementos extraídos de una
población de manera que, en cada una de las n extracciones cada elemento o
individuo poblacional tiene la misma probabilidad 1/N, de ser uno de las n
elegidas. Bajo este contexto una muestra aparece como un conjunto extraído
9

físicamente de una población realmente existente. Este tipo de muestreo exige


una población infinita o finita. En este libro trabajaremos preferentemente con
poblaciones finitas.
Si no se cumple la condición expresada en el párrafo anterior, se dice que la
muestra es viciada. Seleccionar una muestra aleatoria simple es similar a la
extracción de un bolo en el sorteo de la Tinka. Este procedimiento es atractivo
por su simpleza, pues consiste en fichar a cada uno de los elementos muestrales
y mediante un sorteo sacar las fichas hasta completar el tamaño de la muestra,
pero tiene poca o nula utilidad práctica cuando la población en estudio es muy
grande.
EJEMPLO 1.1. Se desea seleccionar una muestra de 80 personas de una
población de 800 asitentes a un evento, debidamente enumerados.
Solución
Para desarrollar el ejercicio con el Minitab se tiene en la columna población, los
números asignados a los individuos en forma correlativa. Luego, activamos los
comandos: Calc ► Datos Aleatorios ► Muestreo por columnas… Guardar los 80
datos en la columna Muestra, se tiene la ventana de diálogo, figura 1-3.

Figura 1-3. Cuadro de diálogo de Muestreo por Columnas.

Los resultados se almacenarán en la columna muestra (C2), al ejecutar los


comandos, se tiene la muestra conformada por los sujetos numerados con: 120,
207, 742,..., como se muestra en la figura 1-4.
10

Figura 1-4. Salida de resultados mediante el muestro Aleatorio Simple.

El proceso de muestreo aleatorio simple, se sugiere la siguiente secuencia de


acciones:
1. Identificar y definir la población.
2 Enumerar a todas las unidades de análisis que integran la población,
asignándoles un número de identidad o identificación.
3 Determinar el tamaño de muestra óptimo para el estudio.
4 Seleccionar la muestra de manera sistemática utilizando una tabla de números
aleatorios generada por medios computacionales para garantizar que se tiene
un orden aleatorio.
5. Controlar periódicamente el tamaño de la muestra seleccionada, para verificar
el número de sus unidades.
EJEMPLO 1.2. Para obtener una muestra de alumnos se tiene previsto aplicar
una encuesta. Lo primero que se hace es enumerar a todos los alumnos que lo
conforman. Se obtiene una lista de los alumnos matriculados y se le asignan un
número a cada uno de ellos en orden alfabético y ascendente. Suponiendo que
el total de alumnos es de 700 se utilizan los números 1, 2, 3...,700. Se determina
el tamaño de muestra, suponiendo que en este caso es de tamaño 85. Enseguida
se utiliza la tabla de números aleatorios que estén comprendidos desde el 1 hasta
el 700.
1.4.1.2. Muestreo sistemático
Este procedimiento exige, numerar todos los elementos de la población, se
eligen de la población a intervalos uniformes a partir de un listado ordenado. Se
parte de ese número aleatorio i, que es un número elegido al azar, y los
elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k,
11

i+3k,...,i+(n1)k, es decir se toman los individuos de k en k, siendo k el resultado


de dividir el tamaño de la población entre el tamaño de la muestra: k = N/n,
donde n es el tamaño de la muestra y N el tamaño de la población. El número i
que empleamos como punto de partida será un número al azar entre 1 y k.
También, para determinar una muestra aleatoria sistemática, supongamos que
tenemos la lista (tamaño N) de todos los estudiantes de una universidad, los
cuales están ordenados de acuerdo a su código de ingresante y deseamos obtener
una muestra (tamaño n) que estén distribuidos homogéneamente a lo largo de
la lista. Para ello, elegimos aleatoriamente un estudiante de entre los N/n = k
primeros y luego vamos eligiendo sistemáticamente el que está situado k lugares
después del primer elegido, k lugares después del segundo elegido, etc. Como
se muestra en el esquema de la figura 1-5.

Arranque de sorteo
1
2
3
4 Intervalo = N/n k = 1000/100 = 10
5
6
. MUESTRA 3, 13, 23, 33, 43, 53, …
.
.
1000

Figura 1-5. Esquema lógico del muestreo aleatorio sistemático.

Para el proceso de muestreo aleatorio sistemático, se sugiere la siguiente


secuencia de acciones:
x Determinar el número de unidades que conformará la muestra.
x Asegurarse que todos los elementos de la población estén enumerados.
x Calcular el “número de selección sistemática”, que servirá de base para la
selección de la muestra. Se calcula dividiendo la población (N) entre la
muestra (n). Por ejemplo: N/n = 400/80 = 5; en este caso, 5 será el intervalo
para la selección de la muestra.
x Determinar la unidad muestral por la que se iniciará la selección de la muestra;
puede ser al azar o aleatorio.
x Proceder a conformar la muestra. Si al sortear resulta el número 3 y dado que
el “número de selección sistemática” es 5, la muestra integran: 3, 8, 13, …
12

Por ejemplo, al elegir una muestra de 80 alumnos de 1600 ingresantes a una


universidad, se tiene: k = 1600/80 = 20. El primero se elige al azar (muestreo
aleatorio simple) un alumno de los 20 primeros de la lista, supongamos que el
alumno elegido es el 15. Entonces la muestra estará compuesta por 15, 35, 55,
75, 95, …, 1575, 1595.
EJEMPLO 1.3. Encuesta a los estudiantes de la Facultad de Ciencias de la
Salud al finalizar el curso de anatomía, para averiguar sobre los métodos de
enseñanza empleados por los profesores.
Unidad de análisis: estudiante de la Facultad de Ciencias de la Salud
matriculados al finalizar un curso.
Población: Listado de estudiantes matriculados al finalizar el curso (1200
estudiantes).
Definir el tamaño de la muestra: 120 estudiantes.
Seleccionar por sorteo simple a cada uno de los 120 estudiantes
Obtención de la muestra: k = 1200/120 = 10. El primero se elige al azar un
estudiante de los 10 primeros de la lista, supongamos que el estudiante elegido
es el 7. Entonces la muestra estará compuesta por los estudiantes que ocupan el
lugar: 7, 17, 27, 37,…, 1187, 1197.
EJEMPLO 1.4. Para elegir una muestra de 80 desde una población de 800
(ejemplo 1.1) con muestreo aleatoria sistemático con el Minitab, accionamos
los comandos: Calc ► Crear patrones de datos ► Conjunto simple de
números…, se tiene la ventana de diálogo, figura 1-6.

Figura 1-6. Cuadro de diálogo para cálculo de muestra aleatorio sistemático.


Teniendo como primer elemento de la muestra el sujeto 3, se tiene los resultados
que se almacena en la columna M-A-Sistémico (C3), al ejecutar los comandos,
13

se tiene la muestra que varía de 10 en 10, conformada por: 3, 13, 23,..., como se
muestra en la figura 1-7.

Figura 1-7. Salida de los resultados obtenidos mediante Conjunto Simple de Números.

1.4.1.3. Muestreo estratificado


En este tipo de muestreo, se divide a la población en subgrupos o estratos que
tienen alguna característica común; e interesa mantener estos estratos en la
muestra, para que mantenga la misma composición que la población. La
selección de sujetos dentro de cada estrato se realizará aleatoriamente. La
estratificación se suele hacer en función de diferentes variables o características
de interés: género, edad, situación laboral, etc.
Por ejemplo, si se desea efectuar una estratificación por género y se sabe que en
la población la distribución es del 55% de mujeres y 45% de varones, la muestra
ha de mantener esta misma proporción. Por tanto, si el tamaño de la muestra es
de 400, se elegirán aleatoriamente 220 mujeres y 180 hombres.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los
estratos de interés estén representados adecuadamente en la muestra. Cada
estrato funciona independientemente, pudiendo aplicarse dentro de ellos el
muestreo aleatorio simple o el estratificado para elegir los elementos concretos
que formarán parte de la muestra. El uso de este tipo de muestreo es pertinente
cuando la población no es uniforme y tiene estratos, fracciones o partes
especiales que deben tener representación en la muestra. De esta forma, una
muestra estratificada garantiza la representación de cada subgrupo o estrato.
Importancia de la estratificación:
x La estratificación puede producir un límite más pequeño en el error de
estimación para el que se generaría una muestra irrestricta aleatoria del
14

mismo tamaño. Este resultado es verdadero si las mediciones dentro del


estrato se hacen en forma homogénea.
x El costo por observación en la encuesta puede ser reducido mediante la
estratificación de los elementos en grupos adecuadamente elegidos.
x Se pueden obtener estimaciones de parámetros para subgrupos de la
población. Los subgrupos entonces deben ser estratos identificables.
x El número de elementos seleccionado de cada estrato puede ser proporcional
o desproporcional al tamaño del estrato en relación con la población.
POBLACIÓN p MUESTRA
p = ni/N 23
Médicos
0,298 47
230
0,609 1
Enfermeras 470
0.013 ni = p.n 1
Psicólogos 10
0,019 1
Nutricionistas 15
0,013 3
Obstétricos 10
0,041 1
Tecnólogos 32
0,007 n = 77
Farmacéuticos 5
1,00
Total 772

Figura 1-8. Esquema ilustrativo del muestreo estratificado.


Para elección de muestra mediante el muestreo aleatorio estratificado, se debe
tener en cuenta la siguiente secuencia de acciones:
1) Definir la población de estudio.
2) Determinar el tamaño de muestra requerido (n).
3) Establecer los estratos o subgrupos.
4) Determinar la fracción total de muestreo por estrato dividiendo el tamaño del
estrato entre el tamaño de la población de estudio.
5) Multiplicar la fracción total de muestreo por estrato por el tamaño de la
muestra (n) para obtener la cantidad de unidades de análisis de cada estrato
que se integrarán a la unidad muestral.
6) Selección y extracción de la muestra aplicando el procedimiento de muestreo
aleatorio simple, en cada estrato.
EJEMPLO 1.5. Si deseamos determinar una muestra de 1000 alumnos
sabiendo que el 60% acuden a las Instituciones Educativas públicas y el 40 por
ciento acuden a Instituciones Educativas privadas, bastará dividir la población
total de alumnos en dos estratos (alumnos de Instituciones Educativas públicas
y alumnos de Instituciones Educativas privadas) y elegir aleatoriamente 600
entre los primeros y 400 entre los segundos.
15

Tipos de muestras aleatorias estratificadas


La distribución de la muestra en función de los diferentes estratos se denomina
afijación, y puede ser de diferentes tipos:
- Muestreo Estratificado proporcional: La distribución se hace de acuerdo
con el peso (o tamaño) de la población en cada estrato. En este tipo de
muestreo, no basta que cada uno de los elementos Muéstrales tengan la misma
probabilidad de ser escogidos, sino que además guarden la misma proporción
en los distintos estratos o categorías que se presentan en la población y que
son relevantes para los objetivos de la investigación. Lo que aquí se hace es
dividir a la población en subpoblaciones y se selecciona una muestra para cada
una. En este caso al interior de cada estrato se aplica un muestreo aleatorio
simple. Por ejemplo, para obtener una muestra aleatoria de 60 estudiantes de
un colegio integrado de una población total de 1500 estudiantes, de los cuales
750 son de educación secundaria, 500 son de educación primaria y 250 de
educación inicial. Se debe elegir al azar 30 alumnos de educación secundaria,
20 alumnos de educación primaria y 10 de educación inicial.
EJEMPLO 1.6. Diseñamos un cuestionario para indagar las áreas de una
ciudad sobre uso de Internet. Los cuestionarios se aplicarán por entrevistadores
a una muestra de sujetos adultos: varones o mujeres de más de 21 años de edad,
y que vivan en una casa o departamento propio o alquilado de la ciudad. Se
desea tener una muestra de 90 manzanas; a partir de la población N = 500
manzanas existentes en la ciudad dividida en 4 estratos socioeconómicos, que
categoriza a las 500 manzanas según el ingreso mensual promedio de sus
habitantes, como se resume en el siguiente cuadro:
Estrato Número de
manzanas
1 50
2 170
3 200 hn : es la fracción del estrato.
n; tamaño de muestra.
4 80
N: tamaño de la población
T = 500
Estratificación de la muestra:
n 90
hn Ÿ hn
N 500
16

Para distribuir los 90 elementos muestrales, de acuerdo a la distribución de la


población en los 4 estratos socioeconómicos, procedemos
Estrato No. de manzanas hi = 0.18 Muestra
1 50 (0.18 ) 9
2 170 (0.18 ) 31
3 200 (0.18 ) 36
4 80 (0.18 ) 14
N = 500 .n = 90

- Afijación simple. Se utiliza cuando se justifica de acuerdo al objetivo de la


investigación, y consiste en manipular el número de casos a seleccionar en
cada estrato.
- Afijación Proporcional: La distribución se hace de acuerdo con el peso
(tamaño) de la población en cada estrato.
- Afijación Óptima: Se tiene en cuenta la previsible dispersión de los
resultados, de modo que se considera la proporción y la desviación típica.
Tiene poca aplicación ya que no se suele conocer la desviación.
EJEMPLO 1.7. Para estudiar el grado de aceptación que la implantación de
medios y materiales educativos entre los padres de familia de una provincia. Se
selecciona una muestra de 600 sujetos. Según los datos del ministerio de los
10000 niños en edad escolar, 6000 acuden a colegios estatales, 3000 a colegios
privados y 1000 a colegios paraestatales (de administración mixta). Como
estamos interesados en que en nuestra muestra estén representados todos los
tipos de colegio, realizamos un muestreo estratificado empleando como variable
de estratificación el tipo de centro.
Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro,
pero en este caso parece más razonable utilizar una afijación proporcional
pues hay bastante diferencia en el tamaño de los estratos. Por consiguiente,
calculamos que proporción supone cada uno de los estratos respecto de la
población para poder reflejarlo en la muestra.
Colegios estatales: 6000/10000 = 0,60
Colegios privados: 3000/10000 = 0,30
Colegios paraestatales: 1000/10000 = 0,10
Para conocer el tamaño de cada estrato en la muestra no tenemos más que
multiplicar esa proporción por el tamaño muestral.
Colegios estatales: 0,60×600 =360 sujetos
17

Colegios privados: 0,30×600 =180 sujetos


Colegios paraestatales: 0,10×600 = 60 sujetos
EJEMPLO 1.8. Si se tiene una población de 500 personas y nos interesa que la
muestra tenga una proporción del (20%) de la población, entonces se tiene:
Estratos por sexo de la población: 400 varones y 100 mujeres.
Definir la cantidad por estratos de la muestra: 80 varones y 20 mujeres.
Seleccionar por sorteo 80 varones del listado de 400 varones
Seleccionar por sorteo 20 mujeres del listado de 100 mujeres
1.4.1.4. Muestreo aleatorio por conglomeración
Se emplea cuando se desea estudiar una población grande y dispersa, y no se
dispone de ningún listado para poder aplicar las técnicas anteriores. En lugar de
seleccionar sujetos, se empieza por seleccionar subgrupos o “conglomerados” a
los que se da el nombre de “unidades de primera etapa” o “unidades primarias”.
Los conglomerados pueden ser naturales o no. Por ejemplo, las unidades
hospitalarias, los departamentos académicos en una universidad, una caja de
determinado producto, etc., son conglomerados naturales. En otras ocasiones se
pueden utilizar conglomerados no naturales como, por ejemplo, si se quiere
muestrear a un grupo de trabadores respecto a su percepción al clima laboral,
un primer paso consiste en seleccionar una muestra de diversos sectores
laborales, posteriormente se realiza una selección aleatoria de los trabajadores
dentro de cada una de las áreas.
Se divide a la población en grandes grupos, se eligen aleatoriamente algunos de
estos grupos y luego se selecciona una muestra dentro de cada grupo
seleccionado a fin de obtener una muestra final total. Tal como se ilustra en el
esquema.

Opinión de estudiantes del nivel secundario en Huánuco

Selección de las instituciones. Ejemplo: 10 Instituciones Educativas

Selección de los grados: tercero y cuarto

Selección de las unidades muestrales

Figura 1-9. Esquema ilustrativo de muestreo por conglomerados.


18

Así, por ejemplo, para estudiar alguna característica de las mujeres embarazadas
que acuden para el parto a los hospitales públicos de toda una región de un país,
en una primera etapa se elegirían aleatoriamente un número de provincias,
después un número de hospitales de estas provincias, a continuación, un número
de servicios de paritorio de estos hospitales, y finalmente se elegirían, también
de manera aleatoria, el número de mujeres de cada uno de los servicios.
EJEMPLO 1.9. Supongamos que deseamos efectuar un reconocimiento para
determinar los puntos de vista de directores de Instituciones Educativas respecto
a la evaluación docente propuesto por el gobierno central. Si se selecciona una
muestra aleatoria de los directores y personalmente nos comunicamos con cada
uno de ellos, tomaría mucho tiempo y sería sumamente costoso. En vez de ello,
puede emplearse el muestreo por conglomeración subdividiendo un área
extensa en áreas menores, denominadas primarias. Así, suponiendo que se
divida la región en 12 unidades primarias, después se seleccionan al azar cuatro
áreas menores: 3, 5, 12 y 7, concentrando los esfuerzos en éstas. Se podría tomar
una muestra aleatoria de los directores de cada unidad.
EJEMPLO 1.10. En una investigación en la que se trata de conocer el grado de
satisfacción laboral de los profesionales de salud necesitamos una muestra de
700 sujetos. Ante la dificultad de acceder individualmente a estos sujetos se
decide hacer una muestra por conglomerados. Sabiendo que el número de
centros de salud es aproximadamente de 35, los pasos a seguir serían los
siguientes:
1. Recoger un listado de todos centros de salud.
2. Asignar un número a cada uno de ellos.
3. Elegir por muestreo aleatorio simple o sistemático los 20 centros de salud
(700/35=20) que nos proporcionarán los 700 profesionales que necesitamos.
El muestreo por conglomerados es un diseño efectivo para obtener una cantidad
especificada de información al costo mínimo bajo las siguientes condiciones:
◊ No se encuentra disponible o es muy costoso obtener un buen marco que liste
los elementos de la población, mientras que se puede obtener fácilmente un
marco que liste los conglomerados.
19

◊ El costo por obtener observaciones se incrementa con la distancia que separa


los elementos.
Un muestreo por conglomerado en dos etapas se obtiene seleccionando primero
una muestra aleatoria de conglomerados y posteriormente una muestra aleatoria
de los elementos de cada conglomerado muestreado. Por ejemplo, puede
realizarse una encuesta nacional sobre la opinión de los estudiantes
universitarios seleccionando una muestra por conglomerados y posteriormente
seleccionamos una muestra aleatoria irrestricta de cada elemento conglomerado
muestreado.
1.4.1.5. La muestra probabilística por racimos
Cuando el investigador se ve limitado por cursos financieros, por tiempo, por
distancias geográficas o por una combinación de todos y otros obstáculos, se
recurre a otra modalidad de muestreo llamado por racimos.
Se utiliza cuando el investigador está limitado por factores de tiempo, distancia,
fuentes de financiamiento, entre otros; con el fin de reducir los costos, tiempo
y energía, y parte de la consideración de que muchas veces las unidades de
análisis se encuentran encapsuladas o encerradas en determinados lugares
físicos o geográficos a los que se les denomina racimos.
EJEMPLO 1.11. Se selecciona una muestra a partir de una cantidad de grupos
o equipos de trabajo, para ello, se procede a:
Definir la cantidad de grupos (racimos): 240 grupos.
Definir la cantidad de la muestra de los grupos: 8 grupos.
Definir la cantidad a muestrear en cada grupo: 240 ÷ 8 = 30
Seleccionar por sorteo los 8 grupos
Seleccionar por sorteo 30 individuos en cada grupo seleccionado
En el muestreo por racimos es imprescindible diferenciar entre unidad de
análisis entendida como quiénes van a ser medidos y unidad muestral que se
refiere al racimo a través del cual se logra el acceso a la unidad de análisis.
Por ejemplo, si se va a realizar una encuesta sobre las condiciones salariales en
las empresas industriales, la unidad muestral son las industrias y las unidades
de análisis están representadas por los obreros que laboran en ellas.

EJEMPLO 1.12. Se selecciona una muestra a partir de una cantidad de grupos


o equipos de personas que tienen algún oficio u ocupación.
20

Unidad de Análisis Posibles Racimos


Adolescentes Colegios secundarios
Obreros Industrias
Amas de casa Mercados
Niños Colegios primarios
Personajes de televisión Programas de televisión

El muestrear por racimos implica diferencias entre la unidad de análisis y la


unidad muestral. La unidad de análisis se refiere a quiénes vamos a aplicar el
instrumento de medición. La unidad muestral -en este tipo de muestra- se refiere
al racimo a través del cual se logra el acceso a la unidad de análisis. El muestreo
por racimos supone una selección en dos etapas, ambas con procedimientos
probabilísticos. En la primera, se seleccionan los racimos, siguiendo los ya
reseñados pasos de una muestra probabilística simple o estratificada. En la
segunda, y dentro de estos racimos se seleccionan a los sujetos u objetos que
van a ser medidos. Para ello se hace una selección que asegure que todos los
elementos del racimo tienen la misma probabilidad de ser elegidos.

1.4.1.6. La muestra probabilística de etapas múltiples


En el muestreo probabilísticos es necesario comentar que ante lo complejo que,
puede llegar a ser la situación real de muestreo con la que nos enfrentemos es
muy común emplear lo que se denomina muestreo polietápico. Este tipo de
muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una
de ellas el método de muestreo probabilístico más adecuado.
El muestreo por etapas múltiples se basa en un proceso de subdividir unidades
de muestreo. Inicialmente se puede construir unos grupos o conglomerados
llamados unidades primarias de muestreo, luego se dividen en grupos o
conglomerados menores identificados como unidades secundarias de muestreo
y así sucesivamente, hasta satisfacer el criterio del investigador.
EJEMPLO 1.13. Si la universidad tiene 13 facultades, primero se define una
muestra de facultades (por ejemplo 6 facultades). En cada facultad se define una
muestra de grupos de clases, y en cada grupo de clases se define la muestra de
estudiantes a encuestar. Es decir, se seleccionan por sorteo las facultades de
acuerdo al número previsto, los grupos dentro de cada facultad y los estudiantes
dentro de cada grupo.
21

1.4.1.7. Muestreo por áreas geográficas


Aplicada cuando no se dispone de un marco de referencia completo. El área
total se divide en pequeñas áreas, las que son muestreadas. Cada área
seleccionada podrá ser subdivida y enumerada para una nueva selección, si es
necesario y así sucesivamente dando origen al muestreo por etapas.
Se determinan áreas geográficas a partir de planos (por ejemplo, manzanas de
casas de una ciudad). Una vez elegidas al azar las áreas a muestrear, se entrevista
a todos los elementos de esos grupos (por ejemplo, hogares en esas manzanas o
bien en un racimo de dos niveles) se hace un muestreo aleatorio simple de cada
uno de esos grupos, o un muestreo con probabilidad proporcional al tamaño de
cada grupo (por ejemplo, cuando el número de hogares en cada manzana es muy
distinto). Tiene la ventaja de tener que estudiar solamente un reducido número
de grupos y elementos.

1.4.2. MUESTREO NO ALEATORIO O EMPÍRICO


Muchas veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no son eficaces para realizar generalizaciones, pues no se tiene
certeza de que la muestra extraída sea representativa, ya que no todos los sujetos
de la población tienen la misma posibilidad de ser elegidos. En general, se
seleccionan a los sujetos siguiendo determinados criterios procurando que la
muestra sea representativa de acuerdo a las finalidades específicas del estudio.
En las muestras no probabilísticas o dirigidas la elección de los elementos no
depende de la probabilidad, no se puede conocer si todos los miembros de una
población cuentan con la misma probabilidad de formar parte de la muestra, ya
que la selección no se realiza aleatoriamente. Se conocen pocos casos, pero no
en profundidad, por lo tanto, los datos que se extraen de este tipo de estudios no
se pueden extrapolar al total de la población. Este método es el más utilizado en
las investigaciones de tipo cualitativo.
Características
◊ No es posible establecer a priori la probabilidad que tienen los miembros del
universo, de ser seleccionados como parte de la muestra.
◊ El proceso de selección de los miembros de la muestra es subjetivo, a criterio
y voluntad del investigador.
22

◊ Su mayor inconveniente es la desconocida relación entre estimadores y


parámetros, dificultando la estimación de estos últimos.

¿Cuándo aplicar muestreo NO probabilístico?


- Cuando se pretende estudiar una población rara o marginal.
- Cuando no hay un marco disponible para propósitos de muestreo.
- Cuando se considera que no se requieren cifras exactas sobre la
representatividad estadística de los resultados.
Entre los tipos de muestreo no aleatorio, más utilizados en investigaciones
cualitativas, podemos destacar:
1.4.2.1. Muestras de sujetos-tipo
Se basa en grupos de típicos sujetos con relación a una determinada
característica, donde el objetivo es la riqueza, profundidad y calidad de la
información. Se utiliza en estudios exploratorios y en investigaciones de tipo
cualitativa.
EJEMPLO 1.14. Estudiar los valores, reglas y significado de pertenecer a un
círculo de estudios en la universidad. Aquí, los sujetos de estudio, son sólo
sujetos que pertenecen al círculo de estudios.
1.4.2.2. Muestreo por cuotas
Consiste en seleccionar la muestra considerando una serie de características
específicas presentes en la población, por lo que la muestra habrá de tenerlas en
la misma proporción. Las cuotas se establecen a partir de variables consideradas
relevantes: grupos de edad, género, categoría laboral, etc. En este tipo de
muestreo, el investigador debe asegurarse de que la composición de la muestra
final que será utilizada en el estudio cumpla los criterios de cuota de la
investigación. Tiene uso frecuente en la investigación de mercados, sobre todo
en encuestas de opinión. Se basa en el conocimiento de estratos de una
población y de los individuos más representativos de esta; en este tipo de
muestreo se seleccionan cuotas de individuos que reúnen ciertas condiciones;
por ejemplo, 40 afiliados a una entidad financiera que reciben su estado de
cuenta vía telefónica. Una vez especificada la cuota, se eligen los primeros
afiliados que cumplan con estas características.
Las muestras selectas dependen en cierta medida del juicio del entrevistador.
Esto hace que el diseño sea vulnerable, pero si hay buen control, por el aspecto
23

relacionado con el ahorro efectuado en la localización, se puede justificar este


tipo de diseño muestral. Mantiene semejanzas con el muestreo aleatorio
estratificado, pero no tiene el mismo carácter de aleatoriedad. Se divide el
universo en categorías y se señala una cuota proporcional a su magnitud para
formar parte de la muestra. Su elección obedece al parecer del investigador. Es
necesario saber el porcentaje de las partes o estratos identificados en la
población.

Elección de los
individuos a
criterio del
investigador

Estrato 1 Estrato 3

Estrato 2
Figura 1-10. Ilustración pictográfica del muestreo por cuotas.

Pasos a seguir en el muestreo por cuotas


x El primer paso para el muestreo por cuotas no probabilística es dividir a la
población en subgrupos exclusivos.
x Luego, el investigador debe identificar las proporciones de estos subgrupos
en la población. Esta misma proporción será aplicada al proceso de muestreo.
x Por último, seleccionar sujetos de los diversos subgrupos teniendo en cuenta
las proporciones observadas en el paso anterior.
x El último paso asegura que la muestra sea representativa de toda la población.
También permite que el investigador estudie rasgos y características que se
ven en cada subgrupo.
Por lo general, los subgrupos son las características o variables del estudio. El
investigador divide a toda la población en niveles de clase, cruzados con el
género y el nivel socioeconómico. Luego, toma nota de las proporciones de
estos subgrupos en toda la población y luego realizar el proceso de muestreo de
cada subgrupo.
24

Cuándo utilizar muestras por cuotas


x La razón principal por la que los investigadores eligen muestras por cuotas
es que permiten que los investigadores hagan un muestreo de un subgrupo
que es de gran interés para el estudio. Si un estudio tiene como objetivo
investigar una característica o rasgo de un determinado subgrupo, ésta es la
técnica ideal.
x El muestreo por cuotas, también permite que los investigadores observen las
relaciones entre los subgrupos. En algunos estudios, los rasgos de un
determinado subgrupo interactúan con otros rasgos de otro subgrupo. En tales
casos, es necesario que el investigador utilice este tipo de técnica de
muestreo.
Desventajas de las muestras por cuotas
Puede parecer que esta técnica de muestreo es totalmente representativa de la
población. En algunos casos no es así. Debemos tener en cuenta sólo algunos
rasgos seleccionados de la población para formar los subgrupos. En el proceso
de muestreo de estos subgrupos, otros rasgos de la muestra pueden ser
representados por demás. En un estudio que tiene en cuenta el género, el nivel
socioeconómico y la religión como base de los subgrupos, la muestra final
puede tener una representación sesgada de la edad, la raza, el nivel educativo
alcanzado, el estado civil, etc.
EJEMPLO 1.15. Si de los estudiantes de una facultad donde el número de
estudiantes mujeres representan la cuarta parte de los varones y se requiere
entrevistar a 120 estudiantes sobre los métodos de enseñanza que emplean los
profesores. Se les dice a los encuestadores que tienen una cuota de 8 grupos y
que por cada 4 varones encuestados tienen que encuestar a 1 mujer hasta llegar
a la cifra de 120 estudiantes.

1.4.2.3. Muestreo intencionado u opinático


El investigador escoge intencionalmente y no al azar, algunas categorías que él
considera típicas o representativas del fenómeno a estudiar, se podría decir que
prima la intención del investigador de que las categorías o unidades sean
incluidas dentro de la muestra. Este tipo de muestreo se caracteriza por un
esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión
en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización
25

en sondeos preelectorales de zonas que en anteriores votaciones han marcado


tendencias de voto.

1.4.2.4. Muestreo por conveniencia


Es una técnica de muestreo no probabilístico donde los sujetos son
seleccionados de acuerdo a la accesibilidad y proximidad de los sujetos para el
investigador. Los investigadores deciden, según sus criterios de interés y
basándose en los conocimientos que tienen sobre la población, para determinar
qué elementos entrarán a formar parte de la muestra de estudio. En este tipo de
muestreo (no probabilístico) es muy importante definir con claridad los criterios
de inclusión y exclusión, y cumplirlos rigurosamente.

Población
Investigador

Muestra
Figura 1-11. Ilustración pictográfica del muestro por conveniencia.

Los sujetos de una investigación específica, son seleccionados para el estudio,


porque son más fáciles de reclutar y el investigador no está considerando las
características de inclusión de los sujetos que los hace representativos de toda
la población.
El muestreo de conveniencia, actualmente es la más común de todas las técnicas
de muestreo. Muchos investigadores prefieren esta técnica de muestreo, ya que
es rápida, barata, fácil y, sobre todo, los sujetos están disponibles.

Usos de la muestra de conveniencia


i Los investigadores utilizan el muestreo de conveniencia no sólo porque es
fácil de usar, sino porque también tiene otras ventajas para la investigación.
i En Pruebas Piloto, la muestra de conveniencia se suele utilizar ya que
permite al investigador obtener los datos básicos y las tendencias con
respecto a su estudio, sin las complicaciones del uso de una muestra aleatoria.
26

i Esta técnica de muestreo es también útil para documentar que una calidad
particular de una sustancia o fenómeno se produzca dentro de una muestra
dada. Tales pruebas piloto, o de prueba inicial son también muy útiles para
la detección de relaciones entre los fenómenos diferentes.
Algunas críticas sobre el muestreo por conveniencia
i La crítica más obvia acerca del muestreo por conveniencia son los sesgos o
prejuicios del muestreo. Por no demostrar imparcialidad al ser escogida, la
muestra no es representativa de toda la población. Siendo ésta, el mayor
inconveniente al utilizar una muestra por conveniencia, ya que además
conduce a más problemas y críticas.
i El sesgo sistemático proviene de un sesgo de muestreo. Esto se refiere a una
diferencia constante entre los resultados de la muestra y los resultados
teóricos de toda la población. El resultado de un estudio, que utiliza una
muestra de conveniencia, puede tener diferencias significativas con los
resultados de toda la población.
i Los resultados del estudio, obtenidas de muestras elegidas por conveniencia,
no pueden ser generalizados a la población, ni hablar de toda la población.
Esto da lugar a una baja validez externa del estudio.
Por ello, cuando se utiliza el muestreo por conveniencia, es necesario describir
cómo la muestra de las pruebas en la investigación actual sería diferente de la
muestra ideal, seleccionada al azar. También es necesario describir a los
individuos que podrían quedar excluidos durante el proceso de selección o a los
individuos que están sobre representados en la muestra. Esto permitirá a los
lectores de la investigación obtener una buena comprensión de la muestra.
También les permitirá estimar la posible diferencia entre los resultados en una
prueba piloto y los resultados que se podrían obtenerse para representar
correctamente toda la población.
EJEMPLO 1.16. Elección de estudiantes voluntarios como sujetos de la
investigación o mediante el uso de sujetos que se han seleccionado de una
clínica, de una clase o de una institución; por la facilidad que puede tener el
investigador es de acceder a estas instituciones. Un ejemplo más concreto es la
selección de cinco personas de una clase o incluso la selección de los cinco
primeros nombres de la lista de pacientes de una lista en una institución médica.
En esta decisión, el investigador inadvertidamente excluye una gran proporción
27

de la población. Una muestra de conveniencia en una selección de sujetos que


son accesibles para el investigador o una selección de personas que deseen
participar como voluntarios.
1.4.2.5. Muestra por criterio o fines especiales:
Las muestras por fines especiales son muestras por conveniencia, pero en las
que se escogen a aquellos miembros que cumplan con criterios previamente
establecidos que se consideran importantes, (por ejemplo, Sujetos consumidores
de derivados de la maca y la quinua, de sexo femenino entre 20 y 40 años).
1.4.2.6. Muestras de sujetos voluntarios
Se usa en estudios donde se procura que los sujetos sean homogéneos en
determinadas variables, de manera que los resultados o efectos no obedezcan a
diferencias individuales, sino a las condiciones a las que fueron sometidos; los
sujetos de la muestra acceden voluntariamente, sin ser seleccionados, a
participar en la investigación.
EJEMPLO 1.17. Estudio sobre la motivación en el estudiante universitario
aplicando un test específico. Aquí se selecciona, entre los voluntarios que se
presentaron, aquellos que reúnan determinadas características que le de
homogeneidad al grupo (edad, sexo, coeficiente de inteligencia, etc.) para que
las diferencias individuales no afecten los resultados

1.4.2.7. Muestra accidental


Este tipo de muestreo se denomina también “consecutivo”, ya que la selección
de los sujetos de estudio se hace en función de su presencia o no en un lugar y
un momento determinados. Es el caso, por ejemplo, de la inclusión de las
mujeres a medida que van acudiendo al hospital, o el de un encuestador que, en
la calle, entrevista a las personas que pasan en ese momento por el lugar.
Aunque puede parecer similar al muestreo probabilístico, es evidente que no
todas las personas tienen la misma probabilidad de estar en el momento y el
lugar donde se selecciona a los sujetos.

1.4.2.8. Muestra autogenerada


Las muestras autogeneradas son aquellas en las cuales los individuos por si
mismos deciden dar su opinión sobre un tema, (por ejemplo: oyentes de un
28

programa de radio o televisión que se comunican telefónicamente para opinar


sobre el tema tratado).
El análisis de los métodos de muestreo descrito en las secciones anteriores no
incluye todos los procedimientos para tal acción de las que dispone un
investigador. Si se realiza un proyecto de investigación en cualquier área
científica, será necesario la revisión de libros actualizados con relación a la
teoría de muestreo y el diseño muestral.

1.4.2.9. Muestra bola de nieve


Se utiliza cuando la población es difícil de identificar o cuando es complicado
acceder a ella porque tiene ciertas características que no son muy aceptadas
socialmente. Consiste en ir seleccionando los individuos a partir de un solo
elemento o de un grupo reducido, que va conduciendo a otros individuos que
reúnen las características de estudio; éstos, a su vez, conducen a otros y así se
va obteniendo el número de individuos necesario.
La bola de nieve, se localiza a algunos individuos, los cuales nos conducen a
otros, y estos a otros, hasta conseguir una muestra suficiente. Este tipo se emplea
con frecuencia cuando se realizan estudios con poblaciones "marginales",
delincuentes, sectas, determinados tipos de enfermos, etc. Se utiliza cuando los
miembros de la población en estudio se conocen entre sí, para seleccionar una
muestra inicial o básica de individuos y establecer en cada entrevista qué nuevas
personas de la población en estudio han de entrevistarse, para así integrar la
muestra completa.
Premisa
Los miembros de la población en estudio se conocen entre sí.
Esquema formal
En el primer paso (o etapa 0) se selecciona una muestra inicial (de tamaño n)
procedente de una población finita de tamaño N. Cada unidad de la población
tiene la misma probabilidad p de ser elegida independientemente de las demás.
A continuación, se pide a cada uno de los individuos que constituyen dicha
muestra inicial que nombren a otros k individuos de la población, de acuerdo
con el criterio que se establezca. Se tiene así la etapa 1, constituida por los
individuos nombrados en la etapa anterior. Se continúa así hasta que, en las
siguientes etapas, cada persona nombra a k individuos, con lo cual se alcanza
las etapas y se da por terminado el muestreo en bola de nieve.
29

Los investigadores utilizan este método de muestreo si la muestra para el estudio


se torna muy rara o si está limitada a un subgrupo muy pequeño de la población.
Este tipo de técnica de muestreo funciona en cadena. Luego de observar al
primer sujeto, el investigador le pide ayuda a él para identificar a otras personas
que tengan un rasgo de interés similar. Luego, el investigador observa a los
sujetos designados y sigue de la misma manera hasta obtener el número
suficiente de sujetos, los cuales tienen la misma probabilidad de ser
seleccionados. A los individuos que son escogidos, se les pide nominar a otras
personas. La figura 1-12, ilustra el proceso de muestreo de bola de nieve.

Muestra Población

Investigador

Individuos Conocidos de Sujetos que no han


. conocidos conocidos sido estudiados
Figura 1-12: Ilustración pictográfica del proceso de muestreo en bola de nieve.

EJEMPLO 1.18. Problema para aplicar muestreo de bola de nieve


x Un investigador quiere hacer un estudio sobre el comportamiento de los
individuos de una secta secreta. Empieza estudiando a tres integrantes de la
misma que conoce y ellos le van presentando a otros sujetos para incluirlos
en su estudio.
x Un médico ha tratado a un paciente con una enfermedad rara y decide hacer
un estudio sobre ella. Para ello, recurre al paciente, que les va derivando a
sus conocidos con dicha enfermedad y a través del muestreo de bola de
nieve entrevista al número de individuos que precisa.

Tipos de muestreo de bola de nieve


x Muestreo de bola de nieve lineal
30

x Muestreo de bola de nieve no discriminatorio exponencial

x Muestreo de bola de nieve discriminatorio exponencial

Fases del muestreo de bola de nieve: básicamente sigue cuatro etapas:


1. Mapa de la red: Se hace una descripción de la población objetivo de la mejor
forma posible, en éste caso, no importa que “lo mejor posible” sea una
descripción muy vaga.
2. Proceso de referenciación: A un informante clave se le pide nominar y
contactar individuos de la población objetivo. Se obtienen así varios puntos
de partida o contactos iniciales. Para ganar validez científica, se debe de
elegir aleatoriamente entre ellos para comenzar.
3. Entrevista: Cuando la persona es contactada aleatoriamente, se le entrevista
y a su vez se le pide que nomine a otras personas dentro de la población
objetivo.
4. Repitiendo el procedimiento: Cada grupo de nominados representa una
etapa, se forma entonces una línea de respondientes-referenciado-
respondiente, a esta cadena se le denomina la “bola de nieve”.

Ventajas del muestreo de bola de nieve


x El proceso en cadena permite que el investigador llegue a poblaciones que son
difíciles de probar cuando se utilizan otros métodos de muestreo.
x El proceso es barato, simple y rentable.
31

x Esta técnica de muestreo necesita poca planificación y menos mano de obra


que otras técnicas de muestreo.
x Permite agrandar una pequeña muestra inicial.
x Se selecciona la muestra con los individuos que interesan a efectos del estudio.

Desventajas del muestreo de bola de nieve


x Poca representatividad de los resultados y no se pueden hacer inferencias a la
población.
x El investigador tiene poco control sobre el método de muestreo. Los sujetos
que el investigador puede obtener se basan principalmente en los sujetos
observados anteriormente.
x La representatividad de la muestra no está garantizada. El investigador no
tiene ni idea de la verdadera distribución de la población ni de la muestra.
x El sesgo de muestreo se expresa cuando los primeros sujetos tienden a
designar a personas que conocen bien, los sujetos compartan los mismos
rasgos y características y, por lo tanto, la muestra es sólo un pequeño
subgrupo de toda la población.
Aplicaciones generales
x Estudios sociológicos.
x Estudios de mercado.
x Evaluación de proyectos
x Relaciones o redes para estudios sociométricos o de coaliciones.
x Estudio de poblaciones raras: marginales, de élite, etc.

1.5. SELECCIÓN DE UN TAMAÑO DE MUESTRA ADECUADA


1.5.1. Definir el tamaño de la muestra
Cuando se conforma una muestra probabilística se trata de precisar cuál es la
menor cantidad de unidades muestrales necesarias pero suficientes para
garantizar que los resultados puedan extenderse a la población con una alta
probabilidad de acierto.
El tamaño de la muestra debe definirse partiendo de dos criterios: uno, los
recursos disponibles, que fijan el tamaño máximo de la muestra; otro, el
requerimiento del plan de análisis que fija el tamaño mínimo de la muestra.
Lo importante no es la proporción que la muestra representa del total de la
población, sino el tamaño absoluto de la muestra. Por ejemplo, si se tiene 100
32

individuos, se debe tomar al menos el 30% como muestra. Pero si la población


fuese de 40000 individuos, una muestra de 30% representará 12000, 10% será
4000 casos y 1% dará una muestra de 400. En este caso sería adecuada una
muestra de 1%, para realizar un análisis objetivo.
Para la elección de la muestra se debe identificar la unidad de análisis y luego
determinar si la población es infinita o finita. Luego, determinar la muestra
correspondiente, teniendo en cuenta:
- Lo que más domine el investigador o tesista.
- La que sea congruente con el trabajo y la naturaleza de la investigación.
- La que realmente sea creíble, confiable y probable para inferir los resultados,
sobre la población.

1.5.2. Cálculo de muestra para poblaciones grandes (infinitas)


Una población es desconocida o infinita cuando no se expresa el número total
de los elementos que lo conforman. En este caso para el cálculo de la muestra
tendremos la fórmula:
1) Para estimación de la Media
z 2 .V 2
n F. 1-1
E2

n = tamaño necesario de la muestra


z = valor asociado al nivel de confianza de la estimación.
E = error de la estimación
σ2 = varianza de la población (conocida o estimada)

2) para estimar proporciones


z 2 . p.q
n F. 1-2
E2

p.q = Varianza de la población

EJEMPLO 1.19. Se desea estimar, con 95% de confianza, el tiempo promedio


para la fabricación de cierto producto. En un estudio piloto se encontró que la
desviación estándar: s = 1,2 horas. El investigador asume una precisión de 0,25
horas.
Entonces se tiene que:
Confianza: 1  D/2 = 0,95, para el cual: z = 1,96
33

Por dato: s = 1,2 horas y E = 0,25 horas


Cálculo:
Z 12D / 2 s 2 (1,96) 2 (1,2) 2
n 88,5 | 89
E2 (0,25) 2
Para mejorar la precisión de la muestra disminuimos el error de estimación, por
ejemplo: E = 0,2.
Z 12D / 2 s 2 (1,96) 2 (1,2) 2
n 138,3 | 138
E2 (0,2) 2
NOTA. También se puede deducir el tamaño de la muestra utilizando los errores
de muestreo relativo.
2
§V ·
Z 2 ¨ .100 ¸
n ©u ¹ F. 1-3
2
§E ·
¨ .100¸
©u ¹

EJEMPLO 1.20. Se desea conocer el tamaño de la muestra para estimar el


porcentaje de hogares pobres en una provincia, si se sabe que la desviación
estándar de la población es cerca del 20% de la proporción de hogares pobres y
se desea estar seguro en un 95% que la proporción muestral se halle dentro del
5% de la proporción poblacional (z = 1,96).
Solución
Reemplazando valores y resolviendo tenemos lo siguiente:
2
§V ·
Z 2 ¨ .100 ¸
©u ¹ (1,96) 2 (20) 2
n 2
62
§E · 52
¨ .100 ¸
©u ¹
En efecto, si se escoge el tamaño de la muestra igual a 62, tenemos la seguridad
al 95% de confianza de que la proporción muestral se halle dentro del 5% de la
proporción poblacional.
EJEMPLO 1.21. Para el ejemplo anterior, ¿qué pasará, si la desviación
estándar de la población aumenta al 40% de la proporción de hogares pobres?
(1,96) 2 (40) 2
n 246
52
En este caso, el tamaño de la muestra debe ser 246 para tener una seguridad al
95% de confianza que la población muestral se halla dentro del 5% de la
proporción poblacional.
34

¿Qué pasará si se desea estar seguro en un 20% que la proporción muestral se


encuentre dentro del 10% de la proporción poblacional?
(1,96) 2 (20) 2
n 15
10 2
Aquí, el tamaño de la muestra debe ser 15 para tener la seguridad del 95% de
confianza que la proporción muestral se encuentra dentro del 10% de la
proporción poblacional.

1.5.3. Cálculo de muestra para poblaciones pequeñas (poblaciones finitas)


Una población es finita o conocida cuando se conoce el número total de los
elementos que lo constituyen; y es la que con más frecuencia se usa en una
investigación del campo social.
x Si la población es de 100 o menos, es recomendable tomar el total de la
población, como muestra.
x Si la población es inferior a 1000 y los datos son cualitativos, es decir para
análisis de datos provenientes de fenómenos sociales o cuando se utilizan
escalas nominales para verificar la ausencia o presencia del fenómeno a
estudiar, se puede aplicar la fórmula matemático-empírica, como se indica en
la fórmula 1-4.
s2
n' F. 1-4
V2
Siendo:
s2, es la varianza de la muestra determinado en término de probabilidad como
s2 = p.(1 – p), en donde el valor de p varía de acuerdo con el grado de
probabilidad de ocurrencia del fenómeno en estudio.
V2, es la varianza de la población respecto a determinada variable.
N, representa el tamaño de la población
Para la aplicación de esta fórmula, la desviación estándar s de la muestra no
debe ser mayor de 0,01, es decir de 100 casos 99 veces, para que la predicción
sea correcta.
Para refinar el tamaño de la muestra se toma en consideración la fórmula 1-5.
n'
n F. 1-5
1  n' / N
35

EJEMPLO 1.22. ¿Cuál es la cantidad de estudiantes a entrevistar en una


institución educativa con 986 estudiantes para tener un error estándar (o
desviación estándar) menor de 0.015?
Datos
a) Unidad de análisis: Estudiante.
b) Población: estudiantes de la institución educativa (986).
c) Muestra: Cantidad de estudiantes a entrevistar.
Desviación estándar poblacional V = 0,015
V2= varianza de la población V2 = (0,015)2 = 0,000225
s2 = varianza de la muestra s2 = p(1p) = 0,9(10,9) = 0,09
s2 0,09
n' n' 400
V2 0,000225
n' 400
n n 284,56 | 285
1  n' / N 1  400 / 986
Respuesta: para que la investigación se pertinente se debe entrevistar al menos
285 estudiantes.

x Si la población es superior a 1000 se puede aplicar la fórmula:


1) Para calcular tamaño de la muestra n, se utiliza la fórmula 1-6.
N .z 2 .V 2
n F. 1-6
( N  1) E 2  z 2 .V 2

N = Tamaño de la población.
n =Tamaño necesario de la muestra.
Z = Valor asociado al nivel de confianza de la estimación.
Nivel de confianza: 90% 95% 99%
Valor crítico Z : 1,65 1,96 2,58
Si no se tiene su valor, se lo toma en relación al 95% de confianza, este valor se
toma a criterio del investigador.
E = es la precisión o error de estimación, también se dice límite aceptable del
límite muestral que, generalmente cuando no se tiene su valor, suele utilizarse
un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del
investigador.
σ2 =Varianza de la población (conocida o estimada)
La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la
estimación del intervalo de confianza para la media, la cual es:
36

V N n V N n
X Z dP d X Z
n N 1 n N 1

V N n
De donde el error es: E Z
n N 1

De esta fórmula del error de la estimación del intervalo de confianza para la


media se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:
2
§ V N n · V 2 ( N  n)
E2 ¨Z ¸ Z2
¨ N  1 ¸¹ n( N  1)
© n
Z 2V 2 ( N  n)
Multiplicando fracciones: E 2
n( N  1)

Eliminando denominadores: E 2 n( N  1) Z 2V 2 ( N  n)
Eliminando paréntesis y transponiendo: E 2 n.N  E 2 n  Z 2V 2 n Z 2V 2 N
Factor común de n: n( E 2 N  E 2  Z 2V 2 ) Z 2V 2 N
N .z 2 .V 2
Despejando n: n
( N  1) E 2  z 2 .V 2

2) Tamaño de la muestra para estimar proporciones, calculamos con F. 1-7.


2
N .z 2 . p.q §z·
n o n p(1  p)¨ ¸ F. 1-7
( N  1) E 2  z 2 . p.q ©E¹

p es la proporción
p.q = Varianza de la población
Cuando se desconoce la σ2 se pueden seguir varios procedimientos:
◙ Estimarla conjeturalmente,
◙ Estimarla sobre la base de la varianza correspondiente a una variable asociada,
◙ Realizar una prueba piloto,
◙ Calcularla a través de un procedimiento de muestreo secuencial.

EJEMPLO 1.23. Determinar el tamaño de la muestra para un estudio sobre el


promedio de edades de una población de mil estudiantes de una Institución
37

Educativa correspondientes a los tres últimos años de estudios. Se requiere una


precisión de seis meses con un nivel de confianza del 99%, con varianza es 4.
Solución
.n = ?
N = 1000 alumnos de los tres últimos años.
z = 2,58 porque el nivel de confianza es al 99%.
.E = 6 meses = 0,5 años.
V=2
Como la población es conocida usaremos la fórmula 1-6:
N .Z 2 .V 2
n
E 2 ( N  1)  Z 2V 2

Reemplazando valores:
1000(2,58) 2 .( 4)
n 96,34 | 96
(0,5) (1000  1)  (2,58) 2 (4)
2

Respuesta: La muestra debe estar conformado por 96 estudiantes.

EJEMPLO 1.24. Un investigador quiere que el cálculo se halle dentro de 0,10


de la proporción de la población, al 90%, y no hay alguna estimación disponible
para la proporción de población. ¿Cuál es el tamaño requerido de la muestra?
Solución
El valor estimado de la proporción poblacional se encuentra dentro de 0,10, por
lo que E = 0,10. El nivel deseado de confianza es 0,90; lo cual corresponde a un
valor z de 1,65. Ya que no existe ningún cálculo de la proporción de población,
se utiliza 0,50. El tamaño de muestra requerida resulta:
2 2
§ 1,65 · § 1,65 ·
n (0,5)(1  0,5)¨ ¸ (0,5)(0,5)¨ ¸ 68,06250 | 69
© 0,10 ¹ © 0,10 ¹
Respuesta: El investigador necesita una muestra aleatoria de 69 ciudades

1.6. ERROR DE MUESTREO


El error de muestreo es la diferencia entre un valor calculado del estadístico de
la muestra y el valor real del parámetro de la población correspondiente. Este
error puede ser controlado tomando una muestra aleatoria de la población,
suficientemente grande, sin embargo, el costo de esto puede ser limitante. Si las
observaciones son tomadas de una muestra aleatoria, la teoría estadística brinda
38

cálculos probabilísticos del tamaño deseado del error muestral para un


estadístico en particular. Estos usualmente son expresados en términos del error
estándar.
La estimación de un valor de interés, como la media o el porcentaje, estará
generalmente sujeta a una variación entre una muestra y otra. Estas variaciones
en las posibles muestras, teóricamente pueden ser expresadas como errores
muestrales, sin embargo, normalmente, en la práctica el error exacto es
desconocido. El error muestral se refiere a la variación natural existente entre
muestras tomadas de la misma población.
Cuando se utilizan valores muestrales, o estadísticos para estimar valores
poblacionales, o parámetros, pueden ocurrir dos tipos generales de errores: el
error muestral y el error no muestral.
El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se
refiere a una tendencia sistemática inherente a un método de muestreo que da
estimaciones de un parámetro que son, en promedio, menores (sesgo negativo),
o mayores (sesgo positivo) que el parámetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización,
que se refiere a cualquier proceso de selección de una muestra de la población
en el que la selección es imparcial o no está sesgada; una muestra elegida con
procedimientos aleatorios se llama muestra aleatoria.

i El error estándar. Es la desviación estándar de una distribución, mide la


dispersión del error del muestreo que ocurre cuando se muestrea
repetidamente una población.

i Error estándar de la media en poblaciones grandes, se calcula a través de


V
la fórmula V x , donde V es la desviación estándar de la población de la
n
que se extrajo la muestra, y n el tamaño de la muestra.

i Error estándar de la media en poblaciones pequeñas, se calcula a través


V N n
de la fórmula V x , donde V es la desviación estándar de la
n N 1
población de donde se tomó la muestra, n el tamaño de la muestra y N el
tamaño de la población. Si N es grande con respecto a n el factor de corrección
N n
se aproxima a la unidad.
N 1
39

i Error estándar de una proporción muestral, se calcula a través de la


p(1  p)
fórmula V P , donde p es la proporción muestral y n el tamaño de la
n
muestra.

1.7. DISTRIBUCIÓN MUESTRAL DE ALGUNOS ESTADÍSTICOS


Cuando trazamos en histogramas las distribuciones de los estadísticos de
muestras tomadas repetidamente, obtenemos una imagen representativa de la
prevesibilidad del error en el muestreo. A esta distribución llamaremos
distribución muestral. A partir del muestreo repetido, una distribución muestral
es una descripción matemática de todos los resultados posibles del muestreo y
la probabilidad de cada uno.
Una distribución de la población es la distribución de la totalidad de las medidas
individuales de una población, en tanto que una distribución muestral es la
distribución de los valores individuales incluidos en una muestra. En contraste
con estas distribuciones de medidas individuales, una distribución de muestreo
se refiere a la distribución de los diferentes valores que una estadística muestral,
o estimador, podría adoptar en muchas muestras del mismo tamaño.
Muestreo de poblaciones normales
Si la muestra de tamaño n proviene de una población normal, entonces es
razonable esperar que la distribución de toda la muestra que se extrae de esta
población también tenga una distribución normal.

1.7.1. Distribución Normal


Llamada también distribución gaussiana, es la distribución más utilizada y
conocida en el estudio de la estadística paramétrica. Su importancia se debe
fundamentalmente a la frecuencia con la que distintas variables asociadas a
fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución.
La gráfica de una función de densidad tiene una forma acampanada y es
simétrica respecto de un determinado parámetro. Esta curva se conoce como
campana de Gauss, expresada a través de la función de densidad.
Definición. Una variable aleatoria continua tiene una distribución normal si su
función de densidad de probabilidad está dada por:
2
1 § X P ·
1  ¨ ¸
f ( x) e 2© V ¹
, f < X < f, f < P < f, V > 0
V 2S
40

que determina la curva en forma de campana. Así, se dice que una variable
aleatoria X sigue una distribución normal con media P y varianza V2. Que se
denota con X | N(P , V2), siendo su gráfica, lo que muestra la figura 1-13:

Figura 1-13. Curva de distribución normal estándar o campana de Gauss.

La distribución normal posee ciertas propiedades importantes que conviene


destacar:
i Tiene una única moda, que coincide con su media y su mediana.
i La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor
entre f y +f es teóricamente posible. El área total bajo la curva es, por
tanto, igual a 1.
i Es simétrica con respecto a su media, P. Según esto, para este tipo de
variables existe una probabilidad de un 50% de observar un dato mayor que
la media, y un 50% de observar un dato menor.
i La distancia entre la línea trazada en la media y el punto de inflexión de la
curva es igual a una desviación estándar o típica (V). Cuanto mayor sea V,
más aplanada será la curva de la densidad.
i El área bajo la curva comprendida entre los valores situados
aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En
concreto, existe un 95% de posibilidades de observar un valor comprendido
en el intervalo ] P. – 1,96V , P + 1,96V [.
La importancia de esta distribución radica en que permite modelar numerosos
fenómenos naturales, sociales, educativos y psicológicos. Mientras que los
mecanismos que subyacen a gran parte de este tipo de fenómenos son
desconocidos, por la ingente cantidad de variables incontrolables que en ellos
41

intervienen, el uso del modelo normal puede justificarse asumiendo que cada
observación se obtiene como la suma de unas pocas causas independientes.
Distribución Normal Estándar:
Corresponde a una variable con distribución normal estándar de media 0 y de
varianza 1:
1
1  2 z2
f ( z) e , f < Z < f
2S
y cuyas probabilidades P(Z d z) están tabuladas en la tabla denominada normal.
Una variable aleatoria X con distribución normal de media P y varianza V2 puede
ser transformada en una variable normal estándar:

X P
X | N (P , V 2 ) Ÿ Z | N (0,1)
VX
Las áreas de la distribución normal estándar corresponden a probabilidades que
se encuentran tabuladas en las tablas A-1 y A-2 del apéndice, donde se presentan
las áreas bajo la curva entre f y z0, es decir P(Z d z0).

Muestreo de poblaciones no normales


¿Cómo sería la distribución muestral de la media si la población de donde se
extraen las muestras no es normal? En la práctica se toman muestras sin
reemplazo de poblaciones que generalmente son grandes pero cuya forma
exacta y parámetros se desconocen; en consecuencia, uno puede sospechar que
la distribución muestral de la media no tiene una forma básica, pero si el tamaño
n de las muestras es grande, la distribución de la media tendrá forma
acampanada; en este caso se hace uso del teorema del límite central, que se
enuncia como sigue:

Teorema del Límite Central. Sin importar la forma de una puntuación global
de una variable de nivel intervalar o de razón, su distribución muestral será
normal cuando el tamaño de la muestra, n, sea mayor que 121 casos y se centrará
en la media de la población verdadera.
Para explicar, supongamos que una muestra aleatoria de tamaño n
observaciones: x1, x2, x3,…, xn se extrae de una población que tiene media
poblacional P y varianza V2, entonces, si n es suficientemente grande (n > 30),
42

la distribución de muestreo de la media x de la muestra se puede aproximar con


una función de densidad normal.
V2 xP
X | N (P , ) , estandarizando se tiene z | N (0,1)
n V/ n
Uno de los objetivos de la estadística es saber acerca del comportamiento de
parámetros poblacionales tales como: la media ( P ), la varianza ( V 2 ) o la
proporción ( p ). Se extrae una muestra aleatoria de la población y se calcula el
valor de un estadístico correspondiente, por ejemplo, la media muestral ( X ), la
varianza muestral (s) o la proporción muestral ( p̂ ). El valor del estadístico es
aleatorio porque depende de los elementos elegidos en la muestra seleccionada.
Y, por lo tanto, el estadístico tiene una distribución de probabilidad la cual es
llamada la distribución muestral del estadístico.
Ley de los números grandes. Una muestra grande funciona mejor que una
pequeña para el estudio de una población. La ley de los números grandes
establece que cuanto mayor sea el tamaño de la muestra, menor será el error
estándar.

1.7.2. Distribución muestral de medias


Una distribución muestral de medias o una distribución en el muestreo de la
media se definen como el conjunto de todas las medias que se pueden calcular
en todas las muestras posibles que se pueden extraer, con o sin reemplazo, de
una determinada población. Se calcula la media muestral x para cada muestra;
a la colección de todas estas medias muestrales recibe el nombre de distribución
muestral de la media muestral, la que se ilustra en la figura 1-14.

Muestra 1

Muestra 2
..
Muestra 3 ..

Muestra k

Distribución
Población X muestral de

Figura 1-14. Esquema ilustrativo de la distribución de la media muestral.


43

Tomando una muestra aleatoria de tamaño n: (X1, X2, …, Xk), se puede definir
n

X 1  X 2  ...  X n
¦X i
la variable aleatoria X , como: X i 1
, X es la media
n n
muestral de tamaño n.
Para cada valor muestral de tamaño n, x1, x2, …, xn, se tiene el valor de x
n

x1  x 2  ...  x n
¦x i
correspondiente: x i 1
.
n n

Propiedades de la media muestral. Entre las propiedades más importantes de


la media muestral, para una variable aleatoria X con media poblacional P y
varianza poblacional V2, podemos destacar:
a) E (X ) P (la esperanza de la media muestral es la media poblacional).
V2
b) V ( X ) (varianza de la media muestral es la varianza poblacional entre el
n
tamaño de la muestra).
c) Cuando la variable aleatoria X tiene distribución normal, la media muestral
X de tamaño n tiene distribución normal con media P y varianza V 2 / n .
X P
d) Para n suficientemente grande, tiene aproximadamente la distribución
V/ n
normal de media 0 y varianza 1, N(0,1).

Distribución de la Media muestral para poblaciones finitas


Sean x1, x2, x3, …, xn, una sucesión de variables aleatorias independientes,
distribuidos idénticamente, cada una con media poblacional P y varianza V2.
Si la población es infinita o no se conoce la distribución muestral de la media
xP xP
es z y, si la población es finita la distribución es z
V/ n N n
V/ n
N 1

Si es el valor de una variable aleatoria Z cuya distribución se aproxima a la


distribución normal estándar, cuando n o f. Si la población original es normal,
es exactamente igual a la distribución normal estándar de media 0 y varianza 1.
44

EJEMPLO 1.25. El tiempo de espera en la cola para acceder a una consulta


médica en un centro de salud es normal con media de 6 minutos y desviación
estándar 2,5 minutos.
a) Cuál es la probabilidad de que el tiempo promedio de atención para una
muestra de 15 pacientes sea menor de 7 minutos.
b) ¿Cuál es la probabilidad de que el tiempo de atención a un grupo de 15
pacientes sea más de 1 hora 15 minutos?
c) Si el tiempo en que el médico atiende a un grupo de 15 pacientes excede las
dos horas, entonces éste es internado. ¿Cuál es la probabilidad que esto
ocurra?
Solución
Usando el hecho de que el tiempo promedio de atención para una muestra de
tamaño 15 es normal con media 6 y calculando a partir de los datos
V 2,5
VX 0,645 , tendremos:
n 15
76
a) P( X  7) P(Z  ) P( z  1,55) F (1,55) 0,9395 (tabla, apéndice A-2)
0,645

b) Un tiempo de atención de 75 minutos a 15 pacientes equivale a un tiempo


promedio de atención de 75/15 = 5 minutos. Luego, hallamos.
56
P( X ! 5) P(Z ! ) P(Z ! 1,55) 1  0,0605 0,9395 , (tabla, apéndice A-1)
0,645
c) Un tiempo de atención de 120 minutos a 15 pacientes equivale a un tiempo
promedio de atención de 120/15 = 8 minutos por paciente. Luego, debemos
hallar la probabilidad:
86
P( X ! 8) P(Z ! ) P(Z ! 3,10) 1  0,999 0,001, (tabla, apéndice A-2)
0,645

1.7.3. La Varianza muestral


La varianza es el promedio de la suma de los cuadrados de las desviaciones. Se
entiende por desviación la diferencia de una variable respecto a la media. La
colección de todas las desviaciones estándar muestrales se llama distribución
muestral de la desviación estándar muestral, la que se ilustra en la figura 1-15.
45

S1
Muestra 1 .s1
.s2
Muestra 2 S2 .s3
.
Muestra 3 S3 .
.sk
Muestra k
Sk
Distribución
Población X muestral de S

Figura 1-15. Esquema ilustrativo de la distribución de varianza poblacional.

La varianza muestral es una variable aleatoria que se puede definir a partir de una
muestra aleatoria de tamaño n: (X1, X2, …, Xn), mediante:
n

2
¦(X
i 1
i  X )2
S
n 1
Cuyos valores para cada valor muestral x1, x2, …, xn son de la forma:
n

2
¦ (x
i 1
i  x) 2
s
n 1
Propiedades de la varianza muestral. Si X es una variable aleatoria con media P
y varianza poblacional V2, la varianza muestral de tamaño n cumple las siguientes
propiedades:

a) E ( s 2 ) V 2 (la esperanza de la varianza muestral es la varianza poblacional).

b) Si la variable aleatoria X tiene distribución normal, la variable aleatoria


(n  1)S 2
tiene una distribución ji-cuadrado con n1 grados de libertad.
V2
Desviación típica o estándar: Es la raíz cuadrada de la varianza, V V2
Definición. Sea x1, x2, x3, …, xn una muestra aleatoria de n observaciones de una
población finita de media P y desviación estándar V. Entonces la media y la
desviación estándar de la distribución de muestreo de x , denotados por P x y V x ,
respectivamente, son: P x P y V x V .

EJEMPLO 1.26. Consideremos una enlatadora que produce latas de 8 kilogramos


de maíz procesado. Los ingenieros de control de calidad han determinado que el
46

proceso está funcionando correctamente cuando la variación verdadera V2 de la


cantidad de llenado por lata es menos de 0,0025. Se selecciona una muestra
aleatoria de n = 10 latas de producción de un día y se registra la cantidad de llenado
(en kilogramos) para cada una. Lo que interesa es la varianza de la muestra, s2. Si
en verdad V2 = 0,001, calcule la probabilidad de que s2 será mayor que 0,0025.
Suponga que las cantidades de llenado tienen una distribución normal.
Solución
Se desea calcular P(s2 > 0,0025), supongamos que la distribución de llenado tiene
una distribución normal. Para ello, se sabe que:
(n  1) s 2
, tiene una distribución de probabilidad ji-cuadrada con v = n1
2
x V2
grados de libertad, en efecto la probabilidad que buscamos se expresa como:
§ (n  1) s 2 (n  1)(0,0025) · (n  1)(0,0025) ·
¸ P§¨
2
P( s 2 ! 0,0025) P¨¨ ! ¸ x ! ¸
© V V2 V2
2
¹ © ¹
Sustituyendo n = 10 y V2 = 0,001, tenemos
§
P( s 2 ! 0,0025) P¨¨
©
x
2
!
9(0,0025) ·
0,001 ¸¹
¸ P x ! 22,5
2

2 2
En la tabla ji-cuadrado, se tienen los valores x 0,01
21,666 y x
0, 005
23,589 . En

consecuencia la probabilidad que buscamos se encuentra entre D = 0,01 y D =



0,005, es decir: 0,005  P x ! 22,5  0,01 .
2

En efecto, la probabilidad de que la varianza de las cantidades de llenado de
muestra exceda 0,0025 es pequeña (entre 0,0025 y 0,01) cuando la varianza
verdadera de la población, V2 , es igual a 0,001.

1.7.4. Proporción muestral.


Sea X1, X2, …, Xn una muestra aleatoria de tamaño n extraída de la población de
B(1,p) donde p es el porcentaje de éxitos de la población y sea
X 1  X 2  ...  X n X
pˆ , la proporción de éxitos en la muestra siendo X = X1 +
n n
X2 + … + Xn una variable binomial B(n , p), entonces:
Si de una población distribuida Binomialmente con probabilidad de éxito p, se
extrae una muestra aleatoria de tamaño n, entonces se puede mostrar que la
media de X: número de éxitos de la muestra, es P = n.p y que su varianza es V2
47

X
= n.p.q. En consecuencia la proporción muestral pˆ tiene media p y varianza
n
p.q
. Siendo por el Teorema de Límite Central, cuando el tamaño de muestra es
n
X  np pˆ  p
grande, se tiene: z .
npq pq / n

Se distribuye aproximadamente como una normal estándar. La aproximación es


bastante confiable si tanto n.p como n.q mayores que 5. Cuando p es cercano a 0
o 1 se debe tomar un tamaño de muestra más grande para mejorar la
aproximación.

Propiedades de la proporción muestral. Aplicando las propiedades de la media


muestral se tienen las siguientes propiedades para p.
a) E ( pˆ ) p (la esperanza de la varianza muestral es la varianza poblacional).
p(1  p )
b) V ( pˆ ) .
n
c) Cuando el tamaño de la muestra n es suficientemente grande, la distribución de
pˆ  p
la variable z se aproxima a la distribución normal estándar.
pˆ (1  pˆ ) / n

Fórmulas de aproximación Normal a la Binomial. Si X es una Binomial con


parámetros n y p, entonces:
a  0,5  np ·¸
§
1) P( X d a) P( X  a  0,5) P¨¨ Z 
© npq ¸¹
§ a  0,5  np ·¸
2) P(a t X ) P( X ! a  0,5) P¨¨ Z !
© npq ¸¹
§ a  0,5  np b  0,5  np ·¸
2) P(a d X d b) P(a  0,5  X  a  0,5) P¨¨ Z 
© npq npq ¸¹

Simultáneamente se pueden definir fórmulas para aproximar probabilidades


para proporciones muestrales.

EJEMPLO 1.27. Según reportes estadísticos alrededor del 20% de docentes


varones de la región Huánuco ocupan cargos directivos en las instituciones
estatales. Se elige al azar una muestra de 150 docentes de la región Huánuco.
Cuál es la probabilidad de que:
a) Haya a lo más 25 docentes directivos?
48

b) Haya más de 22 pero menos de 35 directivos?


c) Haya por lo menos un 25% de directivos en la muestra?
Solución
Usando aproximación normal a la Binomial, con n.p.q = 24, se tiene que:
25,5  30
a) P( X d 25) P( X  25,5) P( Z  ) P( Z  0,91) 0,1814
24
22,5  30 34,5  30
b) P(22  X d 35) P(22,5  X  34,5) P( Z  )
24 24

= P(1,53  Z  0,91) 0,8186  0,0630 0,7556


37,5  30
c) P( p t 0,25) P( X t 37,5) P( Z ! )
24
= P(Z ! 1,53) 1  P(Z  1,53) 1  0,9370 0,0630

1.7.5. Distribuciones de muestreo relacionados con la distribución normal


Existen muchas distribuciones de muestreo de estadísticas basadas en una
muestra aleatoria de una población o de dos poblaciones consideradas como
normales, las mismas que se resumen a continuación:
◊ Distribución muestral para la media cuando la varianza poblacional es
conocida: Si X1, X2, …, Xn es una muestra aleatoria de tamaño n escogida de
una población normal N(P , V2), donde la varianza poblacional V2 es conocida.
La variable aleatoria:
X P
Z , tiene distribución normal N(0 , 1)
V/ n
◊ Distribución muestral para la media cuando la varianza poblacional es
desconocida: Si X1, X2, …, Xn es una muestra aleatoria de tamaño n escogida
de una población normal N(P , V2), donde la varianza poblacional V2 es
desconocida. La variable aleatoria:
X P
T ,
s/ n
Tiene una distribución t de Student con n1 grados de libertad. La distribución
t es una distribución aproximadamente normal. La tabla de distribución t está
organizada de manera diferente a la tabla de la curva normal y requiere el
cálculo del grado de libertad.
49

Grados de libertad de un conjunto de observaciones, están dados por el


número de valores que pueden ser asignados de forma arbitraria, antes
de que el resto de las variables tomen un valor automáticamente,
producto de establecerse las que son libres, con el fin de compensar e
igualar un resultado el cual se ha conocido previamente. En otros
términos, los grados de libertad son una manera de ajustar las
limitaciones en los cálculos estadísticos. Para pruebas de medias los
grados de libertad se basan en el tamaño de la muestra debido a que el
cálculo de las medias muestrales con medias pequeñas se puede
distorsionar por puntuaciones extremas.

◊ Distribución muestral para diferencia de dos medias con varianzas


poblacionales iguales:
( x 1  x 2 )  ( P1  P 2 ) ( x 1  x 2 )  ( P1  P 2 )
Z , distribución normal N(0, 1).
V V 2 2
1 1
 1 2
V 
n1 n2 n1 n2

◊ Distribución ji cuadrado con (n1) grados de libertad


2 (n  1) s 2
x V2
◊ Distribución t de Student con (n1 + n2  2) grados de libertad

( x1  x 2 )  ( P1  P 2 ) (n1  1) s12  (n 2  1) s 22
t , donde s P2 es la varianza
1 1 n1  n 2  2
sP 
n1 n 2
combinada.

◊ Distribución muestral para diferencia de dos medias con varianzas


poblacionales iguales: V 12 V 22 V 2 diferentes. En este caso la variable
aleatoria:

t
x 1  x 2  P1  P 2 x 1  x 2  P1  P 2 x 1  x 2  P1  P 2
,
V 12 V 22 V2 V2 1 1
  V 
n1 n2 n1 n2 n1 n2
50

◊ Distribución muestral para diferencia de dos medias con varianzas


poblacionales diferentes: V 12 z V 22 . En este caso, la distribución t-student
2
ª sˆ12 sˆ22 º
«  »
tiene g grados de libertad, donde: g « n1 n2 »
ªsˆ1 / n1 º  ªsˆ22 / n2 º
2 2 2

n1  1 n2  1
Si g no es un número entero se redondea al entero más cercano.

◊ Distribución muestral para diferencia de dos proporciones. Dados dos


muestras aleatorias independientes para las variables X e Y de tamaños n1 y
n2 seleccionados de dos poblaciones donde p1 y p2 proporciones de éxitos
respectivos, se tienen las proporciones muestrales:
n1 n2

¦X i
X
¦Y i
Y
p1 i 1
y p2 i 1
n1 n1 n1 n1
Para n1 y n2 suficientemente grandes, la variable aleatoria tiene una
distribución aproximadamente normal N(0 , 1):
( P 1  P 2 )  (S 1  S 2 )
Z
p1 .(1  p1 ) p 2 .(1  p 2 )

n1 n
sˆ12
◊ Distribución muestral para razón de varianzas . Si ŝ12 y ŝ 22 son las
sˆ22
varianzas de dos muestras aleatorias independientes de tamaño n1 y n 2
seleccionados de dos poblaciones normales N ( P1 , V 12 ) y N ( P 2 , V 22 ) , entonces,
sˆ12 V 12
la variable aleatoria: F
sˆ22 V 22

Tiene una distribución F con v1 = ( n1 1) grados de libertad del numerador y v2


= ( n2 1) grados de libertad del denominador.

1.8. USO DEL MINITAB EN DISTRIBUCIÓN MUESTRAL


En MINITAB podemos tratar de corroborar el Teorema del Límite Central a
través de un proceso de simulación.
EJEMPLO 26. Considerando una población constante de: 13, 14, 16, 18, 20,
21, 23, 28, 35, 40, podemos calcular con el Minitab, la media, varianza,
desviación estándar, coeficiente de variación, etc., de esta población.
51

Primero: hallamos las medidas estadísticas de la población, con el Minitab,


ejecutando los siguientes comandos: Estadísticas ► Estadística básica ►
Mostrar estadísticos descriptivos… ► en Variables, seleccionar Población ►
Estadísticas..., se obtiene la ventana de diálogo:

Figura 1-16. Ventana de diálogo para el cálculo de medidas estadísticas.

Luego, en la ventana Sesión aparece los resultados requeridos, como se muestra


en el recuadro.

Estadísticas
EE de la
Variable Media media Desv.Est. Varianza CoefVar Q1 Mediana
Población 22.80 2.84 8.98 80.62 39.38 15.50 20.50

En los resultados podemos notar que: P = 22,80, V2 = 80,62 y V = 8,98


Segundo, calculamos 28 muestras en forma aleatoria de tamaño 4 de la
población en estudio, ejecutando 4 veces la siguiente secuencia: Calc ► Datos
aleatorios ► Muestreo por columnas. Guardar cada una de las 4
observaciones de las muestras en 4 columnas distintas: Datos1, Datos2, Datos3,
y Datos4.
Tercero, se calcula las medias de todas esas muestras usando la opción
Estadísticas por Filas …, del menú Calc y tratamos de ver gráficamente al
menos si hay acercamiento a Normalidad. Asimismo, se debe observar que las
medias de todas estas medias deberían estar cerca de P y varianza normalizada
V2/n.
52

Ejecutando los pasos segundo y tercero se obtiene los 28 elementos de la


muestra y sus respectivas medias, como se muestra a continuación:
Muestra Datos1 Datos2 Datos3 Datos4 Media
1 35 13 20 16 21
2 40 13 28 16 24,25
3 40 21 14 18 23,25
4 16 18 14 14 15,5
5 20 28 21 35 26
6 23 23 23 23 23
7 16 35 23 20 23,5
8 40 35 14 23 28
9 35 20 21 21 24,25
10 16 21 35 14 21,5
11 13 18 18 13 15,5
12 23 40 16 14 23,25
13 14 28 20 14 19
14 20 28 21 23 23
15 16 28 13 16 18,25
16 28 35 13 18 23,5
17 35 35 14 35 29,75
18 28 20 23 35 26,5
19 18 35 40 40 33,25
20 13 35 28 40 29
21 28 35 16 14 23,25
22 16 18 20 16 17,5
23 23 40 13 14 22,5
24 20 18 18 40 24
25 21 14 23 28 21,5
26 40 20 14 16 22,5
27 20 14 21 28 20,75
28 20 18 28 28 23,5

Las medidas estadísticas de la media muestral, calculados, resulta:

Estadísticas
EE de la
Variable Media media Desv.Est. Varianza CoefVar Q1 Mediana
Promedio 23.098 0.757 4.005 16.039 17.34 21.125 23.250

Interpretación: Notar que la media de las medias muestrales es 23,098


que está bien cerca de la media poblacional P = 22,80.
Además la desviación estándar de la media muestral es 4,005 mientras
que V / n es igual a 8,98/2 = 4,49, ambos valores también están
relativamente cerca. El histograma si está alejada de la normalidad.
Si se incrementan el tamaño de las muestras se puede notar una mejor
aproximación a la Normal.
53

El histograma de las medias muestrales obtenidos de los cuatro grupos de datos


de la población es como sigue:

Histograma de Media con Curva Normal


16

14

12

10
Frecuencia

0
15 20 25 30 35
Media

Figura 1-17. Histograma con curva normal de las medias de la muestra obtenida en forma
aleatoria.

OBSERVACIÓN. Las probabilidades pueden ser halladas directamente con el


MINITAB sin necesidad de estandarización.

RESUMEN DEL CAPÍTULO 1


1.1. Existen muchas razones fundadas para tomar muestras de una
población:
A. Con frecuencia la prueba destruye el elemento muestreado y no puede ser
devuelto a la población.
B. Imposibilidad de revisar o localizar todos los elementos de la población.
C. Es posible que resulte prohibitivo el costo de estudiar a todos los elementos
de la población.
D. Los resultados de la muestra pueden dar una estimación del parámetro de
población, lo que nos permite ahorrar dinero y tiempo.
E. Puede necesitarse demasiado tiempo para estar en contacto con todos los
elementos de la población.
54

F. El muestreo repetido revela varios puntos acerca de la naturaleza del error


del muestreo: a) los estadísticos calculados difieren ligeramente de una
muestra a otra; b) un estadístico muestral dado estará ligeramente errado del
valor real de un parámetro de la población; c) el error de muestreo tiene un
patrón y es sistemático, y por lo tanto se puede predecir de forma matemática
a partir de las curvas de probabilidad denominada distribuciones muestrales.

1.2. Existen dos tipos de muestras: La probabilística y la no probabilística


A. Una muestra es probabilística si todos los elementos de la población tiene
probabilidad de ser seleccionadas para la muestra. Entre los muestreos
probabilísticos destacan:
1. En una muestra aleatoria simple todos los elementos de la población tienen
la misma probabilidad de ser seleccionados para la muestra.
2. En una muestra sistemática se selecciona un punto de partida aleatorio, y
luego se selecciona para la muestra cada k-ésimo elemento.
3. En una muestra estratificada la población se divide en varios grupos o
estratos, y después se selecciona una muestra de cada uno.
4. En un muestreo por conglomerado la población se divide en unidades
primarias, después se toman muestras de dichas unidades.
B. Una muestra no probabilística, se basa en el criterio de la persona que realiza
el muestreo. En este tipo de muestro se puede llegar a resultados con sesgo.

1.3. La diferencia entre el parámetro poblacional y el valor estadístico


muestral se denomina error de muestreo. El error muetral deseado, puede
ser generalmente controlado tomando una muestra aleatoria de la población,
suficientemente grande. El error de muestreo se mide en términos
probabilísticos bajo la curva de distribución.

1.4. El tamaño de la muestra se puede determinar tanto para medias como


para proporciones:
A. Los factores que determinan el tamaño de la muestra para una media son:
1. El nivel de confianza deseado z.
2. El máximo error permisible E.
3. La variación en la población (generalmente estimado con s2).
55

B. La fórmula para el tamaño de muestra para una media es:


2
§ z.s · z 2 . p.q
n ¨ ¸ ó n , siendo p.q = Varianza de la población
©E¹ E2

C. Los factores determinantes del tamaño de una muestra para una proporción
son:
x El nivel de confianza deseado, z.
x El máximo error permisible, E.
x Una estimación de proporción de población, si no se cuenta con el valor
estimado, se usa 0,50.
D. La fórmula para elegir tamaño de muestra para una proporción es:
N .z 2 .V 2 §z·
n ó n p(1  p)¨ ¸
( N  1) E 2  z 2 .V 2 ©E¹
E. El factor de corrección de la población finita se aplica si n/N es mayor que
0,05. Siendo este factor:
N n
N 1
1.5. Comprender las distribuciones muestrales como elemento clave al realizar un
análisis estadístico. Las distribuciones muestrales son curvas de probabilidad
que nos permiten calcular el rango de error y el nivel de confianza que
podemos evaluar al utilizar estadísticos de la muestra para sacar conclusiones
acerca de parámetros de la población.
A. Para un tamaño de muestra dado, el valor medio de todas las medias
muestrales posibles seleccionadas de la población, es exactamente igual a la
media poblacional.
B. Existe menos dispersión en la distribución muestral de medias que en la
población.
1. La desviación estándar de la distribución de medias muestrales se denomina
el error estándar de la media.
2. Se calcula mediante la fórmula siguiente:
V
VX
n
3. Error estándar de la proporción muestral, se calcula a través de la fórmula
p(1  p)
VP , donde p es la proporción muestral y n el tamaño de la
n
muestra.
56

C. El teorema del límite central estipula que sin importar la forma de


distribución de las puntuaciones brutas de una variable cuantitativa, la
distribución muestral de medias tendrá una forma normal cuando el tamaño
de la muestra, n, sea mayor que 121. Esta distribución estará centrada en la
media real de la población, adoptando la forma de una curva normal.
1. La aproximación mejora con la elección de muestras más grandes.
2. El muestreo de una población normal lleva directamente a una distribución
normal de las medias muestrales.
D. La ley de números grandes estipula que entre mayor es el tamaño de la
muestra, menor será el error estándar de la distribución muestral. Muestras
grandes con sus errores estándares pequeños proporcionan estimaciones más
precisas de parámetros de la población que las muestras pequeñas.

PROBLEMAS PROPUESTOS Nº 1
1. ¿A nivel macro cuáles son los tipos métodos o técnicas para la selección de
una muestra desde una población?
2. Indique tres razones que obligan muestrear una población para un estudio.
4. ¿Cuál es tipo de muestreo en el qué, todos y cada uno de los elementos de la
población tiene una cierta probabilidad de resultar elegidos para un proceso
de investigación?
5. ¿Cómo se determina el tamaño de una muestra y que porcentaje de la
población debe ser, aproximadamente, para que sea representativo?
6. ¿Qué es una muestra probabilística estratificada y cuándo se utiliza este tipo
de muestra en una investigación?
7. ¿Cuál de los siguientes tipos de muestreo no corresponde muestra
probabilística?
a) Sistemática
b) Por conglomerados
c) Simple
d) Intencionado.
8. ¿Qué es una muestra probabilística por conglomerados y cuándo se utiliza
este tipo de muestra en una investigación?
57

9. ¿En qué consiste el muestreo no probabilística y en qué casos se utiliza este


tipo de muestra en una investigación?
10. ¿Por qué se caracteriza un muestreo en investigación sistemático y en qué
casos es factible su utilización?
11. ¿En qué consiste el muestreo bola de nieve y en qué investigación es
recomendable su aplicación?
12. Si deseo obtener una muestra aleatoria sistemática de 60 individuos a partir
de una población de 300 sujetos, ¿cuál es el proceso que se debe seguir?
13. Se desea estimar, con 90% de confianza, el tiempo promedio para la
fabricación de cierto artefacto. En un estudio Preventivo se encontró una
desviación estándar de 0,8 horas. El investigador asume una precisión de 0,5
horas.
14. ¿En qué consiste el error de muestreo? En caso de que en la muestra la media
es 11 y en la población es 11,25, de qué error podemos hablar.
15. Indique y explique las principales ventajas de la técnica del muestreo
aleatorio o probabilístico en el proceso de investigación.
16. Indique en qué caso se usa el teorema del límite central.
17. Si se quiere escoger una muestra de 25 estudiantes de una población de 150
para acceder a una beca. ¿Qué tipo de muestreo es el más pertinente utilizar?
¿Cómo se debe proceder?
18. Un estudiante de ciencias sociales desea determinar el ingreso medio de los
pobladores de un distrito. El error de estimar la media es menor que 85
Nuevos Soles con un nivel de confianza de 95%. El estudiante encontró un
informe presentado por el INEI que estimaba la desviación estándar en 800
Nuevos Soles. ¿Cuál es el tamaño de la muestra requerida?
19. Determine el tamaño de la muestra que se debe tomar para estimar la media
de las longitudes de los tamaños de los tornillos que produce de una fábrica
con un error no mayor de 0,0233 cm al nivel de confianza del 96%, si, además
se indica que la longitud de los tornillos tiene distribución normal y si la
longitud se desvía de la media a lo más 0,08 con probabilidad de 0,975.
20. Los tiempos de espera en la fila de un proceso de matrícula de una
universidad se distribuyen normalmente con media de 45 minutos y
desviación estándar de 20 minutos. Se elige al azar una muestra 16
estudiantes que se van a matricular.
a. ¿Cuál es la probabilidad de que el tiempo de espera promedio de la muestra
sea mayor que 60 minutos?
58

b. ¿Cuál es la probabilidad de que el tiempo de espera de la muestra sea


mayor que 35 minutos pero menor que 55 minutos?
21. Los tiempos que se demoran los empleados de una fábrica en realizar una
tarea de ensamblaje se distribuye normalmente con una media de 12 minutos
y desviación estándar de 6. Se toma una muestra de 10 empleados.
a. ¿Cuál es la probabilidad de que el tiempo promedio que usan los empleados
para terminar la tarea de ensamblajes sea mayor que 15 pero menor que
17 minutos?
b. Si los 10 empleados tardan menos de una hora y media en terminar la tarea
de ensamblaje, entonces la fábrica recibe un premio. ¿Cuál es la
probabilidad de que esto ocurra?
22. Los pesos de las personas que suben a un ascensor se distribuyen
normalmente con media de igual a 70 y desviación estándar de 18 kg. Un
grupo de 9 personas suben al ascensor.
a. ¿Cuál es la probabilidad que el peso promedio del grupo sea de 63 kg?
b. Si el ascensor tiene una capacidad máxima de 850 kg. ¿Cuál es la
probabilidad de que se exceda esta capacidad con un grupo de 9 personas?
23. En cierta población el peso de los varones se distribuye normalmente, N(70
, 64) y el peso de las mujeres se distribuye normalmente, N(60 , 36).
Eligiéndose aleatoria e independientemente un varón y una mujer, ¿cuál es
la probabilidad de que:
a) la suma de sus pesos sea mayor que 136?
b) la mujer pese más que el varón?
c) el varón pese más que la mujer?
24. Se supone que la distribución de la cantidad de cereal que una máquina
vierte en cajas de tamaño económico, tiene un peso X que se distribuye
normalmente con media 1,2 kg y desviación estándar 0,5 kg. Al elegir una
caja al azar, ¿cuál es la probabilidad de que la caja elegida contenga entre 1,2
y 2,4 kilogramos de cereal?
25. Las estaturas de los pobladores de una comunidad tiene una media de 1,64
y desviación estándar 1,2. Se toma una muestra de 100 personas al azar; halle
la probabilidad de que la media muestral esté entre 1,58 y 1,72 m.
26. En una ciudad cuya población es 28000 se realiza una investigación sobre
el consumo de bebidas alcohólicas se hizo una encuesta, determinándose que
de cada 100 personas 16 son adictos al alcohol. Halle el tamaño de la muestra
con un nivel de significación de 0,1.
59

27. Una persona encargada de recibir remesas de cierto artículo selecciona una
muestra de 320 artículos; si el 4% o más de los artículos son defectuosos se
rechaza el pedido; en caso contrario lo acepta. Halle la probabilidad de
rechazar un pedido si en toda la población el 2% de los artículos son
defectuosos.
28. En un proceso de control de producción se elige una muestra de tamaño 40;
si la proporción de piezas defectuosas en la muestra es p o más. Halle el valor
de p de tal modo, que con probabilidad de 0,9, el proceso se detenga cuando
en toda la población se está fabricando un 10% de defectuosos.
29. Los pesos de las personas que suben a un ascensor se distribuyen
normalmente con media igual a 76 kg y desviación estándar de 12 kg. Un
grupo de 9 personas suben al ascensor.
a) Cuál es la probabilidad de que el peso promedio sea inferior a 60
kilogramos.
b) Si el ascensor tiene una capacidad máxima de 680 kg. ¿Cuál es la
probabilidad de que se exceda esta capacidad con un grupo de 9 personas?
30. En un almacén se van llenando cajas con 25 bolsas de azúcar cada una de
ellas. La elección de las bolsas para llenar las cajas es aleatoria y, éstas ya
llenas, son enviadas aleatoriamente a los diversos comerciantes. El peso neto
de las bolsas se distribuye normalmente con media 1 kg y desviación estándar
0,06 kg. Uno de los comerciantes pesa cualquiera de las cajas que acaba de
recibir. ¿Cuál es la probabilidad de que dicha caja pese: a) menos de 25 kg,
b) más de 25,6 kg, c) menos de 24,8 kg?
31. El control de calidad de cierto tipo de piezas es destructivo. El coste en
nuevos soles de cada pieza destruida al ser sometida al correspondiente
control es 100 veces el valor numérico de su longitud en mm. Esta última se
distribuye normalmente, N(12 , 0,04). ¿Cómo se distribuirá la pérdida media
por pieza inspeccionada (y destruida) a partir de muestras aleatorias de
tamaño 16? ¿Cuál es la probabilidad de que dicha pérdida media sea mayor
que 1,5 nuevos soles?
32. Sea X una variable aleatoria cuyos valores posibles equiprobables son 0, 1,
2, 3, 4, 6. Eligiendo muestras aleatorias simples binarias, calcule la
distribución para la media de X.
33. Lanzamos una moneda al aire tres veces consecutivas y calculamos la media
de las puntuaciones obtenidas (atribuyendo 0 cada cara y 1 a cada sello).
¿Cuál es la distribución muestral para la media de X?
60

34. De una población normal N(P , 5) se extrae una muestra aleatoria simple de
tamaño 41. ¿Cuál es la probabilidad de que la varianza de dicha muestra: a)
sea mayor que 6,5, b) sea menor que 3,6, c) mayor que 3 y menor que 7?
35. Se extrae una muestra aleatoria simple, de tamaño 25, de una población
normal, N(140 , 225) y otra muestra aleatoria simple de tamaño 36, de otra
población normal N(150 , 576). ¿Cuál es la probabilidad de que la media de
la segunda muestra no sea menor que la de la primera, ni la supere en más de
12 puntos?
36. El valor de proporción de población ha de estar entre r0,5, con un nivel de
confianza del 95%. El mejor cálculo de proporción de población es 15. ¿Qué
tamaño se requiere para la muestra?
37. Un procesador de nabos corta la parte superior colindante con las hojas de
cada uno, los lava luego y coloca seis por paquete. Se colocan veinte paquetes
en una caja para su envío. Se revisan algunas cajas para determinar su peso.
El peso promedio por caja fue de 12 kg y la desviación estándar 0,4 kg.
¿Cuántas cajas debe muestrear el procesador un 95% de seguridad de que la
media muestral no difiera de la media poblacional en más de 0,20 kilogramos.


2 Estimación de Parámetros
El proceso de estimación estadística implica encontrar
un valor a partir de los datos de una muestra que
represente una buena aproximación al valor
desconocido de un parámetro poblacional. Puede estar
dada por un único valor experimental (estimación
puntual) o por un conjunto de valores (estimación por
intervalos de confianza).

Estimación puntual de parámetros: métodos y características. Estimación


de intervalos de confianza para un parámetro poblacional: media
poblacional, varianza poblacional, proporción poblacional. Estimación
de intervalos de confianza para dos parámetros poblaciones: Diferencia
de medias, razón de varianzas y diferencia de proporciones.

OBJETIVOS
Al concluir el capítulo estará en condiciones de:
1. Entender y explicar el proceso de estimación puntual de parámetros a
través de sus métodos y características deseables que debe tener un
estimador.
2. Valorar la importancia de la estimación de intervalos de confianza en el
proceso de análisis e interpretación de los resultados de una
investigación.
3. Hallar e interpretar intervalos de confianza para una media poblacional
con varianza conocida.
4. Calcular e interpretar intervalos de confianza para una media
poblacional con varianza desconocida.
5. Analizar e interpretar intervalos de confianza para la diferencia de
medias y diferencia de proporciones de dos poblaciones.
6. Determinar, analizar e interpretar los intervalos de confianza para la
varianza y razón de varianzas poblacionales.
62

2.1. INTRODUCCIÓN
El fin primario de la estadística es hacer inferencias acerca de las poblaciones
(de sus parámetros y de la forma de sus distribuciones) a partir de muestras
extraídas de las mismas. Los problemas inferenciales suelen ser clasificados en
dos grupos: problemas sobre estimación de parámetros y problemas de
comprobación de hipótesis.
En este capítulo abordaremos aspectos referidos a la estimación que es la
primera de las dos áreas generales que comprende la inferencia estadística. El
proceso de estimación implica calcular, a partir de los datos de una muestra
alguna estadística que se ofrece como una aproximación del parámetro
correspondiente de la población de la cual fue extraída la muestra.
La teoría de la estimación se ocupa del estudio de la estimación de parámetros
que consiste en encontrar o determinar el estadístico Tˆ que constituya una
buena estimación del valor de un parámetro desconocido T. Para realizar el
proceso de estimación, primero se supone que una variable aleatoria X tiene una
distribución, pero no se conocen sus parámetros, y luego se toma una muestra
(o muestras) de n observaciones de X para luego identificar qué valor del
estadístico da una buena estimación de los valores desconocidos de los
parámetros.
A través de la estimación se obtiene información de los parámetros bajo el
supuesto de que: primero, muchas poblaciones de interés, aunque finitas, son
muy grandes que el costo de un estudio del 100% sería imposible; y segundo las
poblaciones infinitas son imposibles de examinar completamente. La
estimación de parámetros puede ser puntual o intervalar.
La estimación es el primer problema del cual se ocupa la estadística inferencial,
que puede ser a través de un número simple, generalmente el estadístico
correspondiente llamado estimador puntual, o por medio de dos valores
numéricos que definen un intervalo llamado intervalo de confianza, el cual
contiene al parámetro estimado con cierto grado de confiabilidad.
Para el proceso de estimación se supone una variable aleatoria X, proveniente
de una población, tiene una determinada distribución de probabilidad, luego se
toma una muestra (o muestras) de n observaciones y con los datos de la muestra
se procede estimar los parámetros de dicha población. A los estimadores
generalmente se les denota con la misma letra que al parámetro, pero con un
acento circunflejo o “gorrito”; esto es, si el parámetro fuese T , su estimador
63

sería Tˆ . Cabe hacer notar que es un convenio en estadística el uso de letras


griegas para parámetros y letras latinas para estimadores.

2.2. ESTIMACIÓN PUNTUAL DE PARÁMETROS


DEFINICIÓN. Un estimador puntual es una regla o fórmula que nos dice
cómo calcular una estimación numérica con base en las determinaciones
contenidas en una muestra. El número que resulta del cálculo es una estimación
puntual.
El valor de un estimador proporciona lo que se denomina en estadística una
estimación puntual del valor del parámetro en estudio, que consiste en estimar
el parámetro T a partir de un valor de Tˆ , con tal propósito se toma una muestra
aleatoria, se calcula el valor del estadístico a partir de la información de la
muestra y se considera como el estimador del parámetro desconocido T,
siempre y cuando el uso del estimador sea pertinente.
Así, por ejemplo un estimador puntual de la media poblacional T, es la

estadística media muestral X = Tˆ , cuyo valor numérico x


x1  x 2  ...  x n ¦x i

n n
es la estimación puntual del parámetro T; de manera similar V̂ 2 , estimación de
la varianza V2 que corresponde al valor del estimador s2.
2.2.1. Métodos de estimación puntual
Existen varios métodos diferentes para encontrar estimadores puntuales de
parámetros. Siendo las principales y de más uso en la estadística aplicada, el
método de momentos y el método de máxima verisimilitud.
a. Método de momentos
El método de estimación consiste en utilizar medidas descriptivas numéricas de
una muestra para estimar los parámetros de su población. Por ejemplo, utilizar
la media de la muestra x para estimar la media de la población P. Por lo
definido en la sección anterior el parámetro E(x) P es el primer momento
alrededor del origen (o primer momento de la población). En forma análoga se
1 n
define el primer momento de la muestra, como: x ¦ xi .
ni1

La técnica general de utilizar momentos de muestra para estimar sus momentos


de población correspondiente se denomina método de momentos, que produce
estimadores con las dos propiedades deseables: carencia de sesgo y varianza
mínima.
64

DEFINICIÓN. Representemos con: x1, x2, x3, …, xn, una muestra aleatoria de
tamaño n proveniente de alguna distribución de probabilidad (discreta o
continua). El k-ésimo momento de una variable aleatoria X con respecto al
origen se denota con Pk y se define como Pk = E(xk). Siendo:
P1 = E(X) = P; P2 = E(X 2) = V2 + P2.

El k-ésimo momento de muestra aleatoria de tamaño n con respecto al origen se


n
1
denota con mk y se define como: mk
n ¦x
i 1
k
i . Por ejemplo:

1 n
1 n 2
m1
n ¦x
i 1
i X ; m2 ¦ xi .
ni1
Procedimiento. Elegir como estimadores a aquellas expresiones como
parámetros que son soluciones de las ecuaciones: mk = Pk; para k = 1, 2, 3, 4, 5,
…, a; donde a es el número de parámetros a estimar.
EJEMPLO 2.1. La tasa de respuestas x de las fibras del nervio auditivo de
gatos tiene aproximadamente una distribución de Poisson con media
desconocida x O . Supongamos que se midió la rapidez de las respuestas de las
fibras del nervio auditivo (registrada como número de picos por 200
milisegundos de ráfaga de ruido) en una muestra aleatoria de 10 gatos. Los
datos son: 14,6; 15,1; 13,0; 18.5; 16,2; 11,8; 17,4; 15,8; 14,4; 17,8. Calculemos
la estimación puntual de la rapidez de respuesta media O utilizando el método
del momento.
Solución
El parámetro a estimar es, O, el estimador del momento se obtiene igualando el
primer momento de la población, E(x), al primer momento de la muestra E (x) .
En efecto para la distribución de Poisson, se tiene que E (x) O , en consecuencia
el estimador del momento es Ô x
14,6  15,1  ...  17,8
Para el ejemplo, x 15,46
10
Por lo tanto, la estimación de la rapidez de respuesta media de las fibras del
nervio auditivo, O, es de 15,46 picos por 200 milisegundos de ráfagas de ruido.

b. Método de máxima verisimilitud


El método de máxima verisimilitud y una exposición de las propiedades de los
estimadores, se obtiene seleccionando al azar una muestra de n observaciones,
x1, x2, x3, …, xn, de una variable aleatoria discreta X, y si la probabilidad de P(x)
65

es función de un solo parámetro T, entonces la probabilidad de observar estos n


valores independientes es P(x1, x2, x3, …, xn) = P(x1)P( x2)P(x3) … P(xn). A esta
probabilidad conjunta de los valores de la muestra x1, x2, x3, …, xn, se denomina
la verosimilitud L de la muestra.

DEFINICIÓN:
a. La verisimilitud L de una muestra de n observaciones: x1, x2, x3, …, xn, es la
función de probabilidad conjunta P(x1, x2, x3, …, xn), cuando x1, x2, x3, …, xn,
son variables aleatorias discretas.
b. La verisimilitud L de una muestra de n observaciones: x1, x2, x3, …, xn, es la
función de densidad conjunta f(x1, x2, x3, …, xn), cuando x1, x2, x3, …, xn, son
variables aleatorias continuas.
DEFINICIÓN. Sea L la verisimilitud de una muestra, donde L es una función
de los parámetros T1, T2,…, Tk. Entonces los estimadores de máxima
verosimilitud de T1, T2,…, Tk, son los valores de Tˆ 1, Tˆ 2,…, Tˆ k, que maximizan
L.
Ronald Fisher (1890-1962) demostró que los estimadores de máxima
verosimilitud de las medias y proporciones de las poblaciones poseen varias
propiedades muy deseables. Al aumentar más y más el tamaño de la muestra n,
la distribución de muestreo de un estimador de máxima verosimilitud Tˆ tiende
hacerse más y más normal con una media igual a T y una varianza igual o
menor a la varianza de cualquier otro estimador.
EJEMPLO 2.2. Sea x1, x2, x3, …, xn, una muestra aleatoria seleccionada de una
población exponencial de parámetro E. Para obtener un estimador para E, por el
método de momentos, procedemos: como sólo existe un parámetro de interés, la
solución se halla a partir de m1 = P1. De donde P = X , pero como en una
exponencial E[X] = P = E; entonces el estimador de máxima verosímil de E es
Ê X .

EJEMPLO 2.3. Sea: x1, x2, x3, …, xn, una muestra aleatoria de n observaciones
extraídas de una distribución normal con media P y varianza V2 (discreta o
continua). Entonces:

a) La media muestral X es un estimador insesgado de la media poblacional P,


ya que: E (X ) P . El valor de x y X es la estimación insesgado de P.
66

b) La proporción muestral P̂ es un estimador insesgado de la proporción de


éxitos p de una distribución binomial, por lo que: E (Pˆ ) S .
1 n
c) Por la definición de varianza muestral: s 2 ¦ ( xi  X ) 2 , es un estimador
ni1
n 1 2
sesgado de la varianza poblacional V 2 , ya que E (s 2 ) V
n
n

¦ (x i  X )2
Pero, la estadística, sˆ 2 i 1
, es un estimador insesgado de la varianza
n 1
poblacional V 2 , ya que E ( sˆ 2 ) V 2 .

2.2.2. Propiedades deseables de un estimador puntual


Antes de emplear algún estadístico de la muestra como estimador puntual, se
debe comprobar las propiedades asociadas con los buenos estimadores
puntuales, como: carencia de sesgo, eficiencia, suficiencia y consistencia. Para
ello, usaremos la siguiente notación general:
T: Parámetro poblacional de interés.
Tˆ : Estadístico de la muestra o estimador puntual del parámetro T.
En general, T representa a cualquier parámetro poblacional, como la media,
desviación estándar poblacional, la proporción poblacional, etc.; Tˆ representa el
estimador correspondiente, como la media muestral, desviación estándar
muestral, la proporción muestral.

a. Carencia de sesgo (Insesgado)


Un estimador puntual es insesgado si la media de la distribución muestral del
estadístico (esperanza matemática del estadístico) es igual al parámetro por
estimar; es decir, si Tˆ es un estadístico cualquiera y T es el parámetro
correspondiente y si E (Tˆ) T , entonces Tˆ es un estimador insesgado de T. En
otros términos, el estimador es insesgado si la distribución muestral tiende a la
curva normal o campana de Gauss, es decir, cuando su media es 1 y su varianza
0, para una muestra de tamaño n suficientemente grande.
DEFINICIÓN. Un estimador Tˆ de un parámetro T es insesgado si E (Tˆ) T . Sí
E (Tˆ) z T , se dice que el estimador está sesgado. Así, el estadístico Tˆ es un

estimador insesgado del parámetro, si E Tˆ T , donde E Tˆ es el valor de la
estadística Tˆ .
67

Además de la falta de sesgo, lo que se pretende es que la distribución de


muestreo de un estimador tuviera varianza mínima; es decir, nos gustaría que la
disposición de la distribución de muestreo fuera lo más pequeño posible, de
modo que las estimaciones tiendan a ser cercanas a T.

P=T P zT
a) Estimador A es insesgado b) Estimador B está sesgado
Figura 2-1. Curvas que representan a estimador insesgado y sesgado.

DEFINICIÓN. El estimador insesgado con varianza mínima (EIVM) de un


parámetro T es el estimador Tˆ que tiene la varianza más pequeña de entre todo
los estimadores insesgados.
EJEMPLO 2.4. La proporción muestral p es un estimador insesgado de S, ya
que E(p) = S.

OBSERVACIÓN. Si un estimador Tˆ de un parámetro desconocido T es


sesgado E(Tˆ) z T , se dice que es asintóticamente sesgado si satisface el
siguiente límite: lim E Tˆn T .
n of

EJEMPLO 2.5. Siendo X1, X2, …, Xn una muestra aleatoria con E(Xi) = P y
var(Xi) = V2. Para X como estimador de P , y s2 como estimador de ŝ 2 y este
es un estimador V2. Cumpliéndose las siguientes realaciones:
E (X ) P .

ª
E (s 2 ) E «
¦( X i X )2 º ª
» E«
¦X i
2
2
X »
º 1
¦ E( X 2
i ) E ( X )2
«¬ n »¼ «¬ n »¼ n

§V 2 · n 1 2
(V 2  P 2 )  ¨¨  P 2 ¸¸ V
© n ¹ n

ª º
2
ª
E ( sˆ ) E « ¦( X  X )2 º
i «
» E«
¦( X  X )2 »
i n ª

¦( X i X )2 º
»
n 1 n 1 » n  1 ¬«
¬« ¼» « n. » n ¼»
¬ n ¼
n n 1 2
. V V2
n 1 n
68

b. Consistencia o robustez
Un estimador puntual Tˆ se dice consistente (robusto), si sus valores tienden a
acercarse al parámetro de la población T, a medida que se incrementa el tamaño
de la muestra. Esto quiere decir, que un tamaño de muestra grande tiende a
proporcionar un mejor estimador puntual que un tamaño de muestra pequeña.
De esta forma podemos decir que la media muestral, X , es un estimador
consistente de la media poblacional P. Con razonamiento análogo podemos
llegar a la conclusión de que la proporción muestral p̂ es un estimador
consistente de la proporción poblacional S y, ŝ es un estimador consistente de
la varianza poblacional V.

Por lo general un estimador Tˆ de un parámetro desconocido T es consistente si


satisface el siguiente límite: cumple lim P Tˆn  T  H 1 . Es decir, se dice que un
n of

estimador Tˆ es consistente, si a medida que el tamaño n de la muestra aumenta,


la probabilidad de que el estimador Tˆ se igual al parámetro T tiende a la unidad.
La consistencia se demuestra también verificando los límites:
lim E Tˆn T y lim V Tˆn 0 .
n of n of

EJEMPLO 2.6. Sea X una variable aleatoria que tiene una función de densidad
de probabilidad f(x), con E(x) = P y V(x) = V2. Si de esta población se
selecciona una muestra aleatoria de tamaño n; entonces, X (media) muestral es
un estimador consistente de P.
Solución
V2
En efecto, como E (x) P ; V ( x) , entonces: lim E xn lim P P y
n n of n of

V2
lim V xn lim 0 . Por lo tanto, X un estimador consistente de P.
n of n of n

c. Eficiencia o precisión.
La eficiencia de un estimador se refiere a la precisión que alcanzan los
estadísticos en la estimación de los parámetros, es decir, un estimador será tanto
más eficiente cuanto menos varíe de muestra a muestra de una misma
población. Como la variabilidad de una distribución muestral viene dada por su
error típico, un buen estimador será aquel que menor error típico alcanza. Así,
entre la media y la mediana, la primera es claramente más eficiente.
Un estimador se considera eficiente si en una muestra aleatoria de n elementos,
dos estimadores puntuales Tˆ1 y Tˆ2 diferentes (ambos insesgados) del mismo
69

parámetro poblacional T, se dice que Tˆ1 es un estimador más eficiente que Tˆ2 , si
V( Tˆ1 )< V( Tˆ2 ), Es decir, Tˆ1 es más eficiente que Tˆ2 , en orden a estimar un
parámetro T si la variabilidad de Tˆ1 alrededor de T es menor que la variabilidad
de Tˆ2 alrededor del mismo.
EJEMPLO 2.7. Supongamos que: x1, x2, x3, …, xn, representan una muestra
aleatoria de una población para la cual E ( x1 ) P ; V ( xi ) V 2 . Se sugiere los
estimadores de P, los siguientes:
Pˆ1 P1 , Pˆ 2 12 ( x1  x2 ) ; Pˆ 3 13 x1  x2  x3 , …, Pˆ n 1
n x1  x2  ...  xn

a) Determinar cuál de los estimadores son insesgados


b) De los estimadores insesgados obtenidos en a), ¿cuál estimador es más
eficiente?
Solución
a) Calculando el valor esperado para cada estimador, se tiene:
i E(Pˆ1) E( x1) P ,

i E (Pˆ 2 ) E ( 12 ( x1  x2 )) 1
2
( P  P) P ,
3P
i E ( Pˆ3 ) E ( 12 ( x1  x3  x4 )) 1
2
( P  P  P) zP,
2
i E (Pˆ 4 ) E( X ) P

De lo obtenido se tiene que P̂ 3 es sesgado y todos los demás son insesgados.


b) Para determinar cuál estimador es más eficiente, se debe calcular la
varianza de cada una de ellos. En efecto:
i V ( Pˆ 1 ) V ( x1 ) V 2 ,
V2
i V (Pˆ 2 ) V ( 12 ( x1  x 2 )) 1
4
(V 2  V 2 ) ,
2
V2
i V (Pˆ 4 ) V ( X ) .
4
Analizando resultados, se observa que P̂ 4 es el mejor estimador, pues entre los
tres es el que tiene menor varianza, si n > 2.
d. Suficiencia
Intuitivamente se dice que un estimador es suficiente, si transmite tanta
información de la muestra como sea posible acerca del parámetro, de modo
que se proporciona mayor información por cualquier otro estimador calculado
de la misma muestra: y si se obtiene el valor de un estadístico suficiente los
70

valores de muestra mismos no proporcionan más información sobre el


parámetro. Por ejemplo, tanto la media ( X ) como la mediana y la moda se
pueden usar como estimadores de P; pero, sólo la media ( X ) toma en cuenta
cada valor o toda la información de la muestra, mientras que el centro de
amplitud sólo toma en cuenta el primer y último valor, y la mediana es una
medida de tendencia central de posición. Así, la media es un estimador
suficiente para P; en tanto que la mediana y la moda no lo son.

2.3. ESTIMACIÓN DE INTERVALOS DE CONFIANZA PARA


PARÁMETROS DE UNA POBLACIÓN
Con base en el análisis de los estadísticos en una muestra, un intervalo de
confianza es un rango posible de valores de un parámetro poblacional
expresados con un grado de confianza específico. El objetivo del intervalo de
confianza es proporcionar una estimación intervalar del valor de un parámetro
poblacional desconocido y expresar la seguridad de que el parámetro cae dentro
de ese intervalo. En general un intervalo de confianza responde a la pregunta:
¿Cuál es el valor del parámetro poblacional, más y menos con un poco de error
de muestreo conocido?
Para elaborar un intervalo de confianza, tomamos una estimación puntual y
utilizamos el conocimiento acerca de las distribuciones muestrales para
proyectar un intervalo de error respecto a ésta. La fórmula se establece como
sigue: intervalo de confianza = (estimación puntual) r (término del error).
El nivel de confianza y el nivel de significación (D), están inversamente
relacionados, cuando uno aumenta el otro disminuye. La suma del nivel de
confianza y de significancia es igual a 1 ó 100%. Así, para el nivel de confianza
de 95% el nivel de significancia es de 5% (es decir, D = 0,05).
Estimar un parámetro mediante un intervalo de confianza o intervalo de
confianza, consiste en encontrar un intervalo de longitud pequeña que, con alta
probabilidad, contenga al parámetro en estudio. Los extremos del parámetro se
obtienen en base a valores de la muestra (de variables aleatorias) por lo que no
existe la total seguridad de que el parámetro esté siempre en el intervalo
formado. Por ejemplo, se dirá que la calificación media de las notas de la
asignatura de estadística es de 11 a 16 puntos, es decir 11 d P d 16.
Los extremos del intervalo de confianza se llaman límites de confianza (puntos
críticos). Este nivel indica la proporción esperada de las veces que el intervalo
contendrá al parámetro cuando el muestreo se repite un determinado número de
71

ocasiones. Por ejemplo, si (1D) = 0,97; podemos afirmar que de 100 intervalos
aleatorios que se toman, 97 de las veces contendrá al parámetro y sólo 3 veces
no lo contendrá.
La estimación por intervalos de confianza tiene la siguiente ventaja sobre la
estimación puntual: precisión (dada por la amplitud del intervalo), y
confiabilidad expresada en términos de probabilidad.
DEFINICIÓN. La estimación por intervalos trata de encontrar mediante una
muestra aleatoria dos números L1 y L2 extremos del intervalo de confianza,
tales que P( L1 < T < L2) = 1D; donde T es el parámetro por estimar y
(1D).100% se denomina nivel de confianza.
Si L1 y L2 son funciones de las observaciones para muestras de tamaño n, para
una determinada muestra asumen valores específicos.
DEFINICIÓN. Al conjunto de intervalo de valores posibles se denomina
“intervalo de confianza”, a la probabilidad asociada al intervalo de confianza se
denomina “coeficiente de confianza”, y a los dos valores extremos del intervalo
de confianza se llama “límites de confianza”.
Intervalo aleatorio. Es un intervalo finito o infinito donde por lo menos uno de
sus extremos es una variable aleatoria. Así, por ejemplo:
]f; X[: intervalo infinito con variable aleatoria X.
]X; Y[: intervalo infinito con variable aleatoria X e Y.
] Z; +f[: intervalo infinito con variable aleatoria Z.
Intervalo de confianza: Es el rango de valores posibles de un parámetro
expresado en un grado de confianza específica. Así, para una muestra aleatoria
x1, x2, x3, …, xn, extraída de una población con una función de densidad f(x,T)
y para la funciones L1 = l1(x1, x2, x3, …, xn) y L2 = l2(x1, x2, x3, …, xn) dos
estadísticos tales que L1 < L2. Se dice que I = ]L1; L2[ es un intervalo de
confianza para el parámetro T con coeficiente de confianza (1 – D)100%, si
T  ]L1; L2[ con confianza del (1 – D)100%.
Interpretación teórica del coeficiente de confianza (1D). Si tuviéramos
repetidamente una muestra de tamaño n de la población y estableciéramos un
intervalo de (1D)100% para cada muestra, esperaríamos que el (1D)100% de
los intervalos contuviera el verdadero valor del parámetro. Es decir, si se
obtuviesen 100 muestras de tamaño n de la misma población y se calcula el
intervalo para cada muestra, se espera que el (1D).100% de estos intervalos
contendría el verdadero valor del parámetro T.
72

Nivel de confianza: El nivel o grado de confianza calculado es un


procedimiento estadístico realizado con datos muestrales que producirá un
resultado correcto para la población muestreada.

Cálculo del intervalo de confianza y del nivel de significación


Nivel de confianza = 1 D = 100%  D%
Por tanto, D = 100%  (nivel de confianza)
.donde, D = nivel de significación (o error esperado)

OBSERVACIÓN. Para la distribución Normal Estándar Z, haciendo uso del


Minitab, ilustramos los intervalos al 90%, 95% y 99% de confianza.
x Un 90% de las medias muestrales seleccionadas de una población estará
dentro de 1,645 desviaciones estándares respecto a la media poblacional, P.
Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0.4

0.3
Densidad

0.2
0.9000

0.1

0.0
-1.645 0 1.645
Z

Figura 2-2. Intervalo al 90% de confianza y 10% de significancia.


x Un 95% de las medias muestrales seleccionadas de una población estará
dentro de 1,96 desviaciones estándares respecto a la media poblacional, P.
Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0.4

0.3
Densidad

0.2
0.9500

0.1

0.0
-1.96 0 1.96
Z

Figura 2-3. Intervalo 95% de confianza o 5% de significancia.


73

x Un 99% de las medias muestrales seleccionadas de una población se


encontrará dentro de 2,58 desviaciones estándares respecto a la media
poblacional, P.
Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0.4

0.3
Densidad

0.2
0.9901

0.1

0.0
-2.58 0 2.58
Z

Figura 2-4. Intervalo al 99% de confianza o 1% de significancia.


OBSERVACIÓN. Para la construcción de intervalos de confianza para
parámetros poblacionales con el Minitab, se tiene en cuenta las opciones que se
muestran en la figura 2-5, según el caso:

Figura 2-5. Opciones para el cálculo de intervalos de confianza para parámetros.

2.3.1. Intervalo de confianza para una media poblacional


a) Intervalo de confianza para media P: con varianza (V2) supuesta
conocida
Si x1, x2, …, xn es una muestra aleatoria de tamaño n seleccionada de una
población normal o no, con n grande (n t 30) con media P y con varianza V2
supuesta conocida. Donde el estimador puntual del parámetro P es la media
74

muestral x , y, por el teorema del límite central la distribución de la media x es


aproximadamente normal N(P , V2/n).
xP
Por tanto, según sea el caso, la distribución de la variable aleatoria: z ,
V/ n
es aproximadamente normal N(0 , 1).
Luego, dado el valor 1  D, en la distribución Z, se pueden determinar los
valores r z1D / 2 , tales que: P(z1D/2 < z < z1D/2) = 1  D

xP
Sustituyendo en la probabilidad el valor de z , se tiene:
V/ n
§ xP ·
P¨¨  z1D / 2   z1D / 2 ¸¸ 1  D
© V/ n ¹
De donde, haciendo un despeje algebraico resulta:
§ V V ·
P¨ ( x  z1D / 2 .  P  x  z1D / 2 . ) ¸ 1  D
© n n ¹

Luego, un intervalo de confianza del (1  D)100% para la media poblacional P,


cuando ya se observó la muestra de tamaño n es:
Intervalo de confianza para una media poblacional
V V
x  z1D / 2 .  P  x  z1D / 2 . F. 2-1
n n
º V V ª
P  » x  z1D / 2 . , x  z1D / 2 . «
¼ n n¬

Usualmente en las investigaciones se toman el nivel de significancia: D = 0,1;


0,05 o 0,01, que corresponde a intervalos de confianza del 90, 95 y 99 por
ciento, respectivamente.
De la Figura 2-2, para un nivel de confianza del 90% (para D = 0,1 o 10%), el
V V
intervalo de de confianza para P es: x  1,645.  P  x  1,645. .
n n

De la Figura 2-3, para un nivel de confianza del 95% (D = 0,05 o 5%), un


V V
intervalo de confianza para P es: x  1,96.  P  x  1,96.
n n

De la Figura 2-4, para un nivel de confianza del 99% (D = 0,01 ó 1%), un


V V
intervalo de confianza para P es: x  2,58.  P  x  2,58. .
n n
75

EJEMPLO 2.8. Para estimar el promedio de los sueldos de los docentes


(auxiliares, asociados y principales) de una universidad nacional, se tomó una
muestra de 60 docentes, encontrándose una media de 3860,50 nuevos soles y
una desviación estándar de 15,25 (nuevos soles). Un intervalo de confianza del
95% para estimar la media de los sueldos de todos los docentes de esta
universidad.
Solución
Datos: x 3860,50 soles, n = 60 y s 15,25 soles

Ya que no se conoce la distribución poblacional de los docentes, como la


muestra es grande usaremos la distribución normal Z. Así, para D = 0,05 el
valor de z 1,96 .
(1  D / 2)
En efecto, un intervalo de confianza para P, al nivel de confianza del 95%, es:
s s
x  1,96.  P  x  1,96.
n n
15,25 15,25
3860,50  1,96.  P  3860,50  1,96.
60 60
3860 ,50  3,86  μ  3860 ,50  3,86 .

3856,64 < P < 3864,36


Luego, el intervalo de confianza al nivel del 95% para la media de los sueldos
de todos los docentes de la universidad nacional, es [S/.3856,64, S/.3864,36[
OBSERVACIÓN: Usando el Minitab el intervalo de confianza para P,
obtenemos siguiendo la secuencia: Estadísticas ►Estadística básica ►Z de 1
muestra ► Ingresar los datos resumidos en la ventana de diálogo, se tiene.

Figura 2-6: Ventana de diálogo de 1-zample Z para el ejemplo 2.8.


76

Al accionar en Aceptar se obtiene, en la ventana Sesión:


Error
N Media media IC de 95% para μ
60 3860.50 1.97 (3856.64; 3864.36)
μ: media de Muestra
Desviación estándar conocida = 15.25

EJEMPLO 2.9. Supongamos que la distribución de puntajes en una


prueba de aprovechamiento en matemáticas de los estudiantes de una
institución educativa del nivel secundario admitidos en una universidad en
el año 2017 se distribuye en forma normal. Se extraen una muestra de 40
estudiantes que dieron la prueba con las siguientes notas en el sistema
centesimal:
65,8 56,2 67,9 73,1 71,0 63,1 66,3 65,4 56,5 65,4
66,9 77,2 73,4 65,7 72,1 79,5 80,6 77,7 55,8 58,0
73,8 74,2 70,4 76,7 64,6 72,5 62,4 69,4 77,5 79,7
62,3 68,9 76,2 72,9 73,7 78,0 76,0 64,0 75,0 66,0
Hallar el intervalo de confianza del 95% para el puntaje promedio en la prueba
de aprovechamiento de todos los estudiantes admitidos a la Universidad.
Solución
Para resolver el problema con el Minitab, primero debemos estimar la
desviación estándar V, activando los comandos: Estadísticas ► Estadísticas de
columnas ► Mostrar estadísticos descriptivos… ► Ingresar variable
Aprovechamiento ► Desviación estándar y Aceptar, obteniendo en la ventana
Sesión:

Estadísticas
Variable Desv.Est.
Aprovechamiento 6.85

Luego, para hallar el intervalo de confianza para P, accionamos: Estadísticas


►Estadística básica ► Z de 1 muestra…► seleccionar la variable
aprovechamiento, tendremos la ventana de diálogo que se muestra a
continuación:
77

Figura 2-7: Ventana de diálogo de 1-zample Z para el ejemplo 2.9.

En la ventana Sesión se muestra el resultado, siguiente:

Error E. IC de 95%
N Media Desv.Est. media para μ
40 69.80 6.85 1.08 (67.67; 71.92)
μ: media de Aprovechamiento
Desviación estándar conocida = 6.85

Interpretación: Hay un 95% de confianza de que la media del


puntaje de aprovechamiento académico de los estudiantes de la
institución educativa del nivel secundario que dieron la prueba
caiga en el intervalo ] 67,67 puntos, 71,92 puntos [.

b) Intervalo de confianza para media P: con varianza poblacional (V2)


supuesta desconocida
Si la población es aproximadamente normal y x1, x2, …, xn constituyen una
muestra pequeña de tamaño n, donde la varianza se supone desconocida, siendo
las medias y varianzas muestrales lo que se indica en F.2-2.
Media y varianzas muestrales:
n n

¦x
i 1
i
2
¦ (x
i 1
i  x) 2 F. 2-2
x , sˆ
n n 1
xP
Entonces la variable aleatoria: t , tiene distribución t de Student con n1
sˆ / n
grados de libertad, esto es T a t(n1).
xP
Sustituyendo el valor de t , se tiene:
sˆ / n
78

§ xP ·
P¨¨  t1D / 2 (n  1)   t1D / 2 (n  1) ¸¸ 1  D
© sˆ / n ¹
De donde, haciendo un despeje algebraico resulta el intervalo de confianza del
(1D)100%:
Intervalo de confianza para la media
poblacional: F. 2-3
sˆ sˆ
( x  t1D / 2 .(n  1)  P  x  t1D / 2 (n  1). )
n n
donde t (1D / 2) t teórico es la abscisa de la distribución t-Student con n1 grados de
libertad.-
EJEMPLO 2.10. Una muestra aleatoria de 25 alumnos de educación
secundaria responde a una prueba de comunicación matemática, obteniéndose
una media de 74 y una desviación estándar de 3,5. ¿Entre qué límites se hallará
la capacidad de comunicación matemática promedio de los alumnos de
educación secundaria, con un nivel de confianza de 0,95? Suponga que los
puntajes medios de la prueba de comunicación matemática se distribuyen
normalmente.
Solución
Como D = 0,05, se tiene que D/2 = 0,025, en la tabla t de Student buscaremos el
valor teórico de t1D/2 ( n1) = t0,975 ( 24) = 2,064, según la tabla B del apéndice.
Teniendo como dato de la muestra s = 3,5 y x 74 .
Hallamos el intervalo de confianza al 95% para P, como sigue:
sˆ sˆ
x  t1D / 2; (n  1).  P  x  t1D / 2 (n  1).
n n
3,5 3,5
74  2,064.  P  74  2,064.
25 25
3,5 3,5
74  2,064.  P  74  2,064.
5 5
74  1,4448  P  74  1,4448 Ÿ 72,5552 < P < 75,4448.

Respuesta: la verdadera capacidad en comunicación matemática de los alumnos


de educación secundaria, con un nivel de confianza de 95%, se encuentra entre
las notas de 72,555 y 75,445.
EJEMPLO 2.11. Un cardiólogo desea hallar un intervalo de confianza del 94%
de confianza para el nivel de colesterol promedio de todos los pacientes que
presentan problemas cardiacos. Para esto asume que la distribución de los
79

niveles de colesterol es normal, y se analiza una muestra de 24 pacientes con


problemas cardiacos, tomados al azar, que son los siguientes.
217, 223, 225, 245, 238, 216, 217, 226, 202, 233, 235, 242, 219, 221, 234, 199,
236, 248, 218, 224, 229, 215, 205, 213.
Solución
Para hallar con el Minitab el intervalo de confianza para P, seguimos la
secuencia: Estadísticas ►Estadística básica ►t de 1 Muestra. Seleccionamos
la variable Colesterol, accionando Opciones… en Nivel de confianza escribir
94,0 y oprimiendo Aceptar / Aceptar. Se tiene la ventana de la figura 2-8.

Figura 2-8, Ventana de diálogo de t de 1 Muestra para el ejemplo 2.11.

En la ventana Sesión se muestra el resultado, siguiente:

Error E. IC de 94% para


N Media Desv.Est. media μ
24 224.17 13.05 2.66 (218.90; 229.44)
μ: media de Colesterol

Interpretación: Hay un 94% de confianza de que el nivel de


colesterol de todos los pacientes con problemas cardiacos caiga
entre 218,90 y 229,44.

2.3.2. Intervalo de confianza para una proporción


Con frecuencia el trabajo estadístico en una investigación es la proporción (o
porcentaje) de ocurrencia de un evento, por ejemplo: el porcentaje de alumnos
que aprobaron un examen, el porcentaje de votantes que favorecen a un
candidato en una elección, parte de una población que está afectado por una
enfermedad, etc. Para este propósito es necesario definir una variable aleatoria
80

X que indique el número de veces que ocurre el evento en una muestra: x1, x2,
x3,…, xn. de tamaño n, y con probabilidad de éxito p, y el tamaño de la muestra
pˆ  S
es grande, tal que n.p > 5, entonces: z , se distribuye
p(1  p) / n
aproximadamente como una normal estándar. Cuando p es cercano a 0 o 1 se
debe tomar un tamaño de muestra más grande para que la aproximación sea
buena.
x
Aquí p representa la proporción poblacional que se desea estimar, y pˆ es la
n
proporción muestral.
Un intervalo de confianza aproximado del (1  D)100% para la proporción
poblacional S, es:
Intervalo de confianza para una proporción poblacional:
pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z1D / 2  S  pˆ  z1D / 2 ó F. 2-4
n n
§ pˆ (1  pˆ ) pˆ (1  pˆ ) ·
P¨¨ pˆ  z1D / 2 .  S  pˆ  z1D / 2 . ¸ 1D
¸
© n n ¹
Donde p̂ es el estimador del parámetro proporción, S; el valor z1D / 2 es el
percentil de la distribución normal, cuyo valor se halla en la tabla normal
N(0 , 1).
EJEMPLO 2.12. Se llevó a cabo una encuesta para estudiar los hábitos y
actitud hacia la salud dental de cierta población urbana de adultos. De los 400
adultos entrevistados, 240 de ellos dijeron que se sometía regularmente a una
revisión dental dos veces por año. Halle un intervalo de confianza del 95% y del
99% para la proporción de individuos de la población muestreada que se somete
a una revisión dental dos veces al año.
Solución
La muestra total es de 400 adultos y la proporción que se somete a revisión
dental dos veces al año es:
x 240
p 0,60 .
n 400
a) Un intervalo de confianza al 95%, para la proporción poblacional S es:
p(1  p) p(1  p)
p  1,96.  S  p  1,96.
n n
81

0,60(0,40) 0,60(0,40)
A 0,60  1,96.  S  0,60  1,96.
400 400

0,60  0,048  S  0,60  0,048 Ÿ 0,552 < S < 0,648


Resultado: el intervalo de confianza al nivel del 95% de confianza para la
proporción de individuos de la población muestreada que se someten al chequeo
dental es ]55,2% , 64,8%[.
b) Un intervalo de confianza al nivel del 99%, para la proporción poblacional S
es:
p(1  p) p(1  p)
p  2,58.  S  p  2,58.
n n

0,60(0,40) 0,60(0,40)
0,60  2,58.  S  0,60  2,58.
400 400

0,60(0,40) 0,60(0,40)
0,60  2,58.  S  0,60  2,58.
400 400

0,60  0,063  S  0,60  0,063 Ÿ 0,537 < S < 0,663


Resultado: el intervalo al nivel del 99% de confianza para la proporción de
individuos de la población muestreada que se someten al chequeo dental se
encuentran en el intervalo] 53,5%, 66,3% [.

EJEMPLO 2.13. En el año 2016 en una provincia ubicada al sur del Perú, se
reportó que 4 de cada 10 personas piensan que se debe incrementar la seguridad
ciudadana en el país. En una encuesta posterior hecha en el año 2017 a 980
personas de la misma provincia se encontró que 730 de ellos consideren que
debería incrementarse la seguridad ciudadana en el país. Halle un intervalo de
confianza del 97% para la proporción poblacional en el año 2016. Según la
información que se tiene, ¿existe evidencia de que la opinión de la gente en el
2017 ha cambiado con respecto al 2016? ¿Por qué?
Solución
Los datos del problema son suficientes para hallar el intervalo de confianza para
S, con el Minitab. Para ello, se sigue la secuencia: Estadísticas ►Estadística
básica ►1-proporción… obteniéndose ventanas, figura 2-9.
82

Figura 2-9. Ventana de diálogo de 1-proporción para el ejemplo 2.13.

Los resultados que reporta Minitab en la ventana Sesión, son:

N Evento Muestra p IC de 97% para p


10 4 0.400000 (0.104679; 0.763411)

N Evento Muestra p IC de 97% para p


980 730 0.744898 (0.713322; 0.774702)

Interpretación: Existe una suficiente evidencia de que la proporción


de personas que están a favor de incrementar la seguridad al 97%
de confianza ha variado del año 2016 al año 2017 del intervalo
]10,47% , 76,34%[ al intervalo ]71,33% , 77, 47%[.

2.3.3. Intervalo de confianza para la varianza poblacional (V2)


n

2
¦ (x i  x) 2
Se sabe que la varianza muestral se calcula mediante s i 1
como
n 1
estimador puntual de la varianza poblacional V2.
Al seleccionar una muestra aleatoria simple de tamaño n de una población
(n  1) s 2
normal, la expresión , tiene una distribución Chi-cuadrada con n  1
V2
grados de libertad.
2
Usando la distribución Chi-cuadrada es no simétrica, y los percentiles xD /2
y
2
x 1D / 2
son de tal manera que cada una de las áreas se indican en la siguiente
figura sean iguales a D/2.
83

1 D

D/2 D/2
2 2
x
D /2
(n  1) x 1D / 2
(n  1)

Figura 2-10: distribución Chi-cuadrada con n1 grados de libertad.

2 (n  1)s 2 2
Partiendo de la probabilidad: P( xD / 2   x ) 1D
V2 1D / 2

Se puede llegar a establecer que un intervalo de confianza del 100(1D)% para


la varianza poblacional V2 es de la forma 2-2.

Intervalo de confianza para una varianza poblacional:


(n  1) sˆ 2 (n  1) sˆ 2
 V 2
 ó
x12D / 2 (n  1) xD2 / 2 (n  1) F. 2-2
ª (n  1) sˆ 2 (n  1) sˆ 2 º
P« 2 V 2  2 » 1D
¬ x1D / 2 (n  1) xD / 2 (n  1) ¼
2 2
Donde xD /2
(n  1) y x
1D / 2
(n  1) son valores de la tabla de distribución Chi-
cuadrada con (n  1) grados de libertad con áreas a la izquierda y a la derecha
de D/2, respectivamente.

EJEMPLO 2.14. Una muestra aleatoria de 18 docentes en ejercicio de


educación primaria que han rendido un examen en el área lógico matemático,
obtuvieron una media de 62 puntos y varianza de 16 puntos2. Suponiendo que
las calificaciones se distribuyen normalmente, construya el intervalo de
confianza para la varianza poblacional de puntajes, V2, con un nivel de
confianza de 0,90.
Solución
Datos: n = 18, s2. = 16 puntos2, x 62 ptos
Para el nivel de confianza 1 D = 0,90, los valores de los percentiles de la
distribución Chi-cuadrada con n1 = 17 grados de libertad se tiene el intervalo:
84

(n  1) sˆ 2 (n  1) sˆ 2
 V 2

x12D / 2 (n  1) xD2 / 2 (n  1)

2 2
En la tabla Chi-cuadrada: x 0,05
(17) 8,67 y x 0,95
(17) 27,59 . Reemplazando valores,

(17)(16) (17)(16)
obtenemos V2  , de donde: 9,86  V 2  31,37
27,59 8,67

Conclusión: con el nivel de confianza del 90%, la varianza poblacional de los


puntajes se encuentra en el intervalo ]9,86 puntos2 y 31,37 puntos2[.

EJEMPLO 2.15. Los siguientes datos representan el espesor de la membrana


del plasma (medido en angstrom) de 22 especies de una planta: 80, 90, 85, 82,
75, 58, 70, 84, 87, 81, 88, 61, 73, 84, 63, 70, 78, 95, 77, 52, 85, 66.
Hallar el intervalo de confianza al 95% para la varianza y desviación estándar.
Solución
En este caso n = 22 y D = 0,05. Luego el intervalo de confianza del 95% para V2
será de la forma:
º 2 ª
» 21.s , 21.s 2 « ……. (*)
» 2
(21)
2
(21) «
x
¼ 0,975 x 0, 025 ¬
Con el Minitab, la varianza muestral s2, calculamos usando la opción
Estadísticas ► Estadística básica ► 1-Variaza… ►seleccionando la variable
Plasma. Se tiene la ventana de diálogo de la figura 2-11:

Figura 2-11: Ventana de diálogo: cálculo intervalo de confianza, para ejemplo 2.15.
85

Los resultados que reporta Minitab en la ventana Sesión, son:


Prueba e IC para una varianza: Plasma
Método
σ: desviación estándar de Plasma
El método de Bonett es válido para cualquier distribución continua.
El método de chi-cuadrada solo es válido para la distribución normal.
IC de 95% IC de 95%
para σ para σ
N Desv.Est. Varianza Bonett Chi-cuadrada
22 11.3 127 (8.6; 16.1) (8.7; 16.1)

Interpretación. El intervalo de confianza para la varianza


poblacional varía de 76 a 259, es decir, la variabilidad del plasma
en la planta se encuentra en el intervalo: ]76; 259[ para la varianza,
y ]8,7; 16,1[ para la desviación estándar.

2.4. ESTIMACIÓN DE INTERVALOS DE CONFIANZA PARA


RELACIÓN ENTRE PARÁMETROS DE DOS POBLACIONES
2.4.1. Intervalo de confianza para la diferencia de dos medias ( P1  P 2 )

Si se desea estimar la diferencia de medias poblacionales ( P1  P 2 ), con una


confianza del (1  D)100% basado en las muestras de tamaños n1 y n2, esto
equivale a encontrar dos valores a y b tales que ( (P1  P2 )  @a , b> con una
confianza del (1  D)100%. Como se trata de dos distribuciones de muestreo
asociados a las medias muestrales x 1 y x 2 , se presentan diferentes casos para la
obtención del intervalo de confianza.
a. Varianzas V 12 y V 22 supuestas conocidas y muestras independientes
Si los tamaños de dos muestras independientes de tamaño suficientemente
grandes n1 y n2 (n1 > 30 y n2 > 30), y las poblaciones de donde provienen las
variables presentan una distribución aproximadamente normal, con varianzas
V 12 y V 22 supuestas conocidas. En este caso se emplea la distribución normal
estándar, el intervalo de confianza con una confianza del (1  D)100%, se
obtiene mediante F.2-6.
Intervalo de confianza para diferencias de medias:
V 12 V 22 V2 V2
( x1  x 2 )  z C .   P1  P 2  ( x 1  x 2 )  z C . 1  2 F. 2-6
n1 n2 n1 n2
86

donde, zC z1D / 2 se obtiene de la tabla normal N(0, 1), tal que


P>Z  z1D / 2 @ 1  D / 2 , cuya ilustración del intervalo de confianza se muestra en la
siguiente figura 2-12.

1–D

D/2 D/2
zc zc
Figura 2-12. Ilustración del Intervalo de confianza para la distribución normal Z

EJEMPLO 2.16. En un estudio practicado a niños con problemas de lento


aprendizaje, 22 niñas y 20 niños después de combinar escuela y terapia, se
sometieron a un test que constatan los logros. Se desea conocer la diferencia
entre los puntajes medios de niñas y niños. El puntaje medio de los niños es 68
y de las niñas es 62. Suponiendo que los puntajes de los niños en
circunstancias similares siguen una distribución normal con desviación
estándar de los varones es 11 y de las mujeres 10. Calcule:
a) El intervalo de confianza del 95% para: P1  P 2
b) El intervalo de confianza del 90% para: P1  P 2
c) El intervalo de confianza del 99% para: P1  P 2
Solución
Varones: n1 = 20, x1 68 , s1 = 11
Mujeres: n2 = 22, x 2 62 , s2 = 10.
a) El intervalo de confianza del 95% para: P1  P 2

s12 s 22 s2 s2
( x 1  x 2 )  1,96   P1  P 2  ( x 1  x 2 )  1,96 1  2
n1 n 2 n1 n 2

121 100 121 100


(68  62)  1,96   P1  P 2  (68  62)  1,96 
20 22 20 22

6  1,96 10,5954545  P1  P 2  6  1,96 10,5954545

6  6,38  P1  P 2  6  6,38 Ÿ  0,38  P1  P 2  12,38


87

Respuesta: el intervalo de confianza aproximado del 95% para la diferencia


P1  P 2 es ]0,38 , 12,38[. Dado que P1  P 2 = 0 ]0,38 , 12,38[, no hay
diferencia significativa en el aprendizaje entre las niñas y niños al combinar
terapia y escuela. Por lo tanto, se puede tomar cualquiera de ellos.
b) El intervalo de confianza del 90% para: P1  P 2
s12 s 22 s2 s2
( x 1  x 2 )  1,64.   P1  P 2  ( x 1  x 2 )  1,64. 1  2
n1 n 2 n1 n 2

121 100 121 100


(68  62)  1,64   P1  P 2  (68  62)  1,64 
20 22 20 22
6  1,64 10,59545 ...  P1  P 2  6  1,64 10,59545 ...

6  5,34  P1  P 2  6  5,34 Ÿ 0,66  P1  P 2  11,34


Resultado: el intervalo de confianza aproximado del 90% para P1  P 2 está en
el ]0,66; 11,34[. Como P1  P 2 = 0  ]0,66 , 11,34[, existe diferencia
significativa en el aprendizaje entre las niñas y niños al combinar terapia y
escuela.
c) El intervalo de confianza del 99% para: P1  P 2
s12 s 22 s2 s2
( x 1  x 2 )  2,58.   P1  P 2  ( x 1  x 2 )  2,58. 1  2
n1 n 2 n1 n 2

s11 s 22 s2 s2
( x 1  x 2 )  2,58   P1  P 2  ( x 1  x 2 )  2,58 1  2
n1 n 2 n1 n 2
121 100 121 100
(68  62)  2,58   P1  P 2  (68  62)  2,58 
20 22 20 22

6  2,58 10,5954545  P1  P 2  6  2,58 10,5954545

6  8,398  P1  P 2  5  8,398 Ÿ  2,398  P1  P 2  13,398

Luego, el intervalo de confianza aproximado del 99% para P1  P 2 está en el


]2,398 , 13,398[. Puesto que P1  P 2 = 0  ]2,398 , 13,398[, no hay
diferencia significativa en el aprendizaje entre las niñas y niños al combinar
terapia y escuela. Por lo tanto, se puede tomar cualquiera de ellos.
b. Intervalo de confianza para varianzas poblacionales desconocidas
Para las poblaciones de donde provienen las variables presentan distribución
normal y sus varianzas poblacionales son desconocidas, con muestras
pequeñas (n1 < 30 y n2 < 30). Se utiliza la distribución t de Student pero los
88

grados de libertad y las fórmulas que se utilizan en su cálculo no son las


mismas, presentándose los siguientes casos:
b.1. Muestras independientes y varianzas poblacionales desconocidas e
iguales ( V 12 = V 22 )
Hallar el intervalo de confianza implica encontrar dos valores a y b tales que (
( P1  P2 )  @a , b> con una confianza del (1  D)100%. Haciendo uso de la
distribución t de Student con (n1 + n2  2) grados de libertad, el intervalo:
Intervalo de confianza para diferencias de medias:
§1 1· §1 1·
( x 1  x 2 )  t C . s C2 .¨¨  ¸¸  P1  P 2  ( x 1  x 2 )  t C . s C2 .¨¨  ¸¸ F. 2-7
© 1 2¹
n n © n1 n 2 ¹
donde:
(n1  1) sˆ12  (n 2  1) sˆ 22
sˆC2 , es el estimador de la varianza poblacional a partir de
n1  n 2  2
(n1  1) sˆ12  (n 2  1) sˆ 22
sˆC2 , varianza muestral ponderada o combinada
n1  n 2  2
Siendo la gráfica de la distribución como se muestra en la figura 2-13.

1 D

D/2 D/2
tc tc
Figura 2-13. Ilustración del Intervalo de confianza para la distribución t-Student.

EJEMPLO 2.17. Con el fin de comparar los promedios de tiempo en que los
trabajadores de una Institución Educativa de dos turnos diferentes Mañana y
Tarde, realizan una tarea, se registraron los tiempos en minutos
correspondientes a 9 trabajadores de cada uno de los turnos.
Para el turno mañana, se obtuvo: 32, 37, 35, 28, 41, 44, 35, 31, 34.
Para el turno tarde, se obtuvo: 35, 31, 29, 25, 34, 40, 27, 32, 31.
89

Encontrar un intervalo de confianza del 95% para la diferencia entre las medias
de los tiempos de las tareas realizadas por los trabajadores de los turnos tarde y
mañana.
Solución
Supongamos que los tiempos se distribuyen normalmente y que las varianzas de
los mismos son iguales. Haciendo uso del Minitab, para encontrar las medias y
varianzas de las muestras seguimos las opciones: Estadísticas ► Estadística
básica ►Mostrar estadísticas descriptivas… ►Estadísticas…, obtenemos:

Estadísticos Turno Mañana Turno Tarde


.n 9 9
Media 35,22 31,56
Desv-Estándar 4,94 4,48
Varianza 24,44 20,03
Se calcula el valor de la varianza combinada
(n1  1) s12  (n 2  1) s 22 8(24,44)  8(20,03)
s c2
n1  n 2  2 16

195,20  160,56 355,76


22,24
16 16
Luego, el intervalo del 95% confianza para la diferencia de las medias
poblacionales y t C t1D / 2, (16) 2,12 es:

§1 1 · §1 1 ·
( x1  x 2 )  t s 2 ¨  ¸  P  P  ( x1  x 2 )  t s 2 ¨  ¸
C 1 ¨n n ¸ 1 2 C 2 ¨ n n ¸
© 1 2¹ © 1 2¹

§1 1· §1 1·
(35,22  31,56)  (2,12) 22,24.¨  ¸  P  P  (35,22  31,56)  (2,12) 22,24.¨  ¸
©9 9¹ 1 2 ©9 9¹
3,66  (2,12)(2,21)  P  P  3,66  (2,12)(2,21) .
1 2
 1,07  P1  P 2  8,35
En efecto, con un nivel de confianza del 95%, la diferencia de los tiempos
medios de las tareas realizadas para todos los trabajadores de la institución
educativa, mañana y tarde, se encuentra en el intervalo ]1,07 , 8,35[.
EJEMPLO 2.18. En un estudio de factores que se consideran responsables de
los efectos adversos del alcoholismo sobre la reproducción humana, se midieron
los niveles de alcohol en el organismo de 15 mujeres embarazadas que
consumían alcohol y una muestra aleatoria independiente de 14 mujeres
normales. Los resultados fueron los siguientes:
Normales: 8, 12, 23, 11, 10, 13, 15, 22, 9, 20, 13, 15, 17, 14.
90

Alcohólicas: 30, 32, 20, 18, 33, 25, 17, 22, 31, 27, 16, 18, 24, 27, 29.
Construya un intervalo de confianza del 95% para la diferencia entre la media
de las poblaciones. ¿Es probable que el nivel medio de alcohol registrado sea
mayor entre las alcohólicas que entre las mujeres normales? ¿Por qué se
llegaría a esta conclusión?
Solución
Para estimar la diferencia de medias para poblaciones independientes con el
Minitab, se sigue los comandos: Estadísticas ► Estadística básica ► t de 2
muestras… ►Cada muestra está en su columna► se ingresan los datos en la
ventana de diálogo como muestra la figura 2-14.

Figura 2-14: Ventana de diálogo de t de 2 muestras, para el ejemplo 2.18.

Los resultados que reporta Minitab en la ventana Sesión, son:

Prueba T e IC de dos muestras: Alcohólicas; Normales


Método
μΌ: media de Alcohólicas
μ΍: media de Normales
Diferencia: μΌ - μ΍
No se presupuso igualdad de varianzas para este análisis.
Estadísticas descriptivas
Error E.
Muestra N Media Desv.Est. media
Alcohólicas 15 24.60 5.82 1.5
Normales 14 14.43 4.65 1.2
Estimación de la diferencia
IC de 95%
para la
Diferencia diferencia
10.17 (6.16; 14.18)
91

Interpretación: Existe un 95% de confianza de que la media de la


diferencia de la cantidad de alcohol entre mujeres alcohólicas y normales
estén en el intervalo ]6,16 , 14,18[. Es decir, el nivel de alcohol
registrado en las alcohólicas es diferente (mayor) que en las normales,
pues la diferencia de medias no puede ser igual a cero.

b.2. Muestras independientes y varianzas poblacionales desconocidas y


diferentes o heterogéneas ( V 12 z V 22 )
Para este caso, hallar el intervalo de confianza implica encontrar dos valores a
y b tales que ( (P1  P2 )  @a , b> con una confianza del (1  D)100%. Haciendo
uso de la distribución t de Student con (gl) grados de libertad, se tiene el
intervalo:
Intervalo de confianza para diferencia de medias:
s12 s22 s2 s2 F. 2-8
( x1  x 2 )  t1D / 2 .gl   P1  P2  ( x1  x 2 )  t1D / 2 .gl 1  2
n1 n2 n1 n2

Donde
Grado de libertad para muestra de varianzas diferentes

gl
>s 2
1 / n1 )  ( s 22 / n 2 @
2

F. 2-9
( s / n1 ) 2 ( s 22 / n 2 ) 2
2
1

n1  1 n2 1
Como el grado de libertad (gl) nunca resulta entero, debemos aproximar al
entero mayor más cercano.
EJEMPLO 2.19. Se hace un estudio para comparar el tiempo que tardan los
varones y mujeres para resolver un examen objetivo de ciencias sociales. Las
experiencias anteriores indican que la distribución del tiempo tanto para varones
como mujeres es normal con varianzas diferentes. En una muestra aleatoria de 9
varones y 8 mujeres se detectó los siguientes tiempos en minutos para resolver
el cuestionario.
Varones: 25, 55, 20, 50, 48, 36, 44, 60, 34
Mujeres: 32, 40, 32, 40, 32, 34, 30, 42
Mediante un intervalo de confianza del 95% para la verdadera diferencia de los
promedios de tiempo de varones y mujeres, ¿se puede concluir que los varones
emplean mayor tiempo que las mujeres para resolver el examen?
Solución
Sean X1 y X2 las variables aleatorias que representan los tiempos empleados por
varones y mujeres, respectivamente.
92

Haciendo uso del Minitab, tenemos los siguientes estadísticos:


n1 9 , x1 41,33 , sˆ1 13,54 , n1 8 , x1 35,25 , sˆ1 4,65 ,
En efecto, el grado de libertad es:

gl
>(s 2
1 / n1 )  ( s 22 / n 2 ) @
2
>(13,54) 2
/ 9  (4,65) 2 / 8@ 2

10,06 | 11
2 2
( s / n1 ) ( s / n 2 )
1

2
2
2
>(13,54) / 9@  >(4,65) / 8@
2 2 2 2

n1  1 n2 1 9 1 8 1
En efecto, para 1D = 0,95 y gl = 11, se tiene: t 0,975 (11) 2,201
Reemplazando los datos dados y los obtenidos en la fórmula:
(41,33  35,25)  2,201 23,073  P1  P2  (41,33  35,25)  2,201 23,073
6,08  10,57  P1  P2  6,08  10,57 Ÿ  4,49  P1  P2  16,65

Conclusión, dado que: P1  P2 = 0  ]4,49 , 16,65[, podemos concluir que


P1 = P2, por tanto, los tiempos promedios de varones y mujeres son
aproximadamente iguales.
Para desarrollar el problema con el Minitab, se acciona los comandos:
Estadísticas ► Estadística básica ► t de 2 muestras… ►Cada muestra está
en su columna► ingresamos Muestra 1: Varones, Muestra 2: Mujeres, como
se muestra en la ventana de diálogo de la figura 2-15.

Figura 2-15: Ventana de diálogo de t de 2 muestras, para el ejemplo 2.19.


Al activar Aceptar,
p en la ventana Sesión aparecerá
p lo siguiente:
g
Muestra N Media Desv.Est. Error E.media
Varones 9 41.3 13.5 4.5
Mujeres 8 35.25 4.65 1.6
Estimación de la diferencia
IC de 95%
para la
Diferencia diferencia
6.08 (-4.62; 16.78)
93

Interpretación: Existe un 95% de confianza de que la media del tiempo


que demoran en resolver el examen los varones y mujeres se ubican en el
intervalo ]4,62; 16,78[. Es decir, no existe diferencia significativa en el
tiempo que demoran en la resolución de problemas varones y mujeres,
pues la diferencia de medias puede ser igual a cero.

b.3. Intervalo de confianza para muestras de datos pareados o dependientes


Sean d y ŝ d la media y la desviación estándar de una muestra aleatoria de n
diferencias de pares de datos provenientes de una población normal con
varianza V d2 supuesta desconocida. Utilizando la distribución t-student con
n1 grados de libertad, tenemos el intervalo de confianza del (1 D)100% para
Pd P1  P2 es:
Intervalo de confianza para diferencia de medias de dato
pareados
sˆ d sˆ F. 2-10
d  t1D / 2 (n  1)  P1  P 2  d  t1D / 2 (n  1) d
n n
EJEMPLO 2.20. Un médico desea investigar si una droga tiene el efecto de
bajar la presión sanguínea en los usuarios. El médico eligió al azar a 14
pacientes mujeres y les tomó la presión luego, les recetó la medicina por un
período de 5 meses y al final del mismo nuevamente les tomó la presión
sanguínea. Siendo los resultados los que se detallan a continuación:
Antes: 71, 80, 72, 76, 79, 76, 72, 78, 82, 64, 77, 92, 74, 68
Después: 68, 72, 62, 70, 61, 66, 68, 52, 64, 72, 74, 65, 74, 72
Solución
Para estimar la diferencia de medias para poblaciones independientes con el
Minitab, se acciona los comandos: Estadísticas ► Estadística básica ► t
Pareada… ►Cada muestra está en su columna ► columnas Antes y
Después, como muestra la ventana de diálogo de la figura 2-16.

Figura 2-16: Ventana de diálogo de t pareada …, para el ejemplo 2.20.


94

Al activar Aceptar, en la ventana Sesión aparecerá lo siguiente:

IC y Prueba T pareada: Antes; Después


Estadísticas descriptivas
Muestra N Media Desv.Est. Error E. media
Antes 14 75.79 6.74 1.80
Después 14 67.14 6.10 1.63
Estimación de la diferencia pareada
Error
estándar IC de 95%
de la para la
Media Desv.Est. media diferencia_μ
8.64 10.46 2.79 (2.61; 14.68)
diferencia_μ: media de (Antes - Después)

Interpretación: Hay un 95% de confianza de que la medias


pareadas antes y después del tratamiento con el medicamento se
ubican en el intervalo ]2,61 ; 14,68[.

2.4.2. Intervalo de confianza para diferencia entre proporciones ( S 1  S 2 )


Para estimar el intervalo de confianza para la diferencia de proporciones
poblacionales S 1  S 2 con una confianza del (1  D)100% basados en muestras
de tamaño grande (n1 t 30 y n2 t 30), esto equivale a encontrar dos valores a y
b tales que: (S1  S 2 )  @a , b> con una confianza del (1  D)100%.
Intervalo de confianza para diferencia de proporciones:
pq p q pq p q F. 2-11
( p1  p2 )  c 1 1  2 2  S1  S 2  ( p1  p2 )  c 1 1  2 2
n1 n2 n1 n2

el valor de c = z1D / 2 se halla en la tabla normal N(0 , 1).


x1 x2
donde p1 , p2 , q1 1  p1 , q2 1  p 2 , se distribuye aproximadamente
n1 n2
como una normal estándar cuando n1 y n2 son grandes.
También para muestras suficientemente grandes con distribución
aproximadamente normal se puede hacer la estimación común para
n1 p1  n 2 p 2
S 1 S 2 S a través de: p . Resultando el intervalo de confianza del
n1  n 2
(1  D)100% para la distribución de proporciones, con F.2-12.
Intervalo de confianza para diferencia de proporciones
( p1  p 2 )  z1D / 2 s C  S 1  S 2  ( p1  p 2 )  z1D / 2 s C F. 2-12
95

ª1 1º
donde: sC p(1  p) «  » .
¬ n1 n2 ¼

OBSERVACIÓN. Si el intervalo de confianza calculado contiene al cero,


entonces se concluye que las proporciones son iguales en ambas poblaciones, en
caso contrario se dice que son diferentes.
EJEMPLO 2.21: Se desea comparar los efectos de dos tratamientos sobre los
tiempos medios de recuperación de pacientes con cierta enfermedad.
Doscientos fueron divididos aleatoriamente en dos grupos de 98 y 102,
respectivamente. Del primer grupo que recibieron el tratamiento habitual, 76 se
recuperaron en un plazo de tres días; del segundo grupo, que fueron tratados
con un nuevo método, 90 se recuperaron en tres días. El médico quiere estimar
un intervalo de confianza para la diferencia real entre las proporciones de las
poblaciones que pudieron recuperarse en un plazo de tres días al 90 y 95% de
confianza.
Solución
Consideremos:
S1: Proporción de pacientes que reciben el tratamiento habitual.
S2: Proporción de pacientes tratados con un nuevo método.
.p1: Proporción de pacientes que reciben el tratamiento habitual y se recuperan.
.p2: Proporción de pacientes tratados con un nuevo método y se recuperan.
76 90
donde p1 0,78 ; p 2 0,88 ;
98 102

p2  p1 0,88  0,78 0,10 ,


n1 p1  n2 p2 98(0,78)  102(0,88) 166,2
p 0,831 ,
n1  n2 200 200

Desviación estándar combinada:

ª1 1 º ª1 1 º
sC p(1  p) «  » (0,831)(0,169) «  » 0,053
¬ n1 n2 ¼ ¬ 98 102 ¼

a) Para un nivel de confianza del 90%, en la tabla normal se encuentra que


z1D / 2 1,645
En este caso, el intervalo de confianza del (1  D)100% de confianza para
S 1  S 2 es de la forma:
( p1  p2 )  z1D / 2 sC  S 2  S1  ( p1  p2 )  z1D / 2 sC
96

(0,10)  (1,645)(0,053)  S 2  S1  (0,10)  (1,645)(0,053)


(0,10)  0,0872  S 2  S1  (0,10)  0,0872 Ÿ 0,013  S 2  S1  0,1872

En efecto, con un nivel de confianza de 90%, la diferencia entre el porcentaje


de pacientes que se trataron en forma tradicional y con el nuevo método, se
encuentran en el intervalo ]1,3% , 18,7%[
b) Para un nivel de confianza del 95%, en la tabla normal se encuentra que
z1D / 2 1,96
En este caso, el intervalo de confianza del (1  D)100% de confianza para
S 1  S 2 es de la forma:
( p1  p2 )  z1D / 2 sC  S 2  S1  ( p1  p2 )  z1D / 2 sC
(0,10)  (1,96)(0,053)  S 2  S1  (0,10)  (1,96)(0,053)

(0,10)  0,104  S 2  S1  (0,10)  0,104 Ÿ  0,004  S 2  S1  0,204

Resultado, con un nivel de confianza de 95%, la diferencia entre los porcentaje


de pacientes que se trataron en forma tradicional y con el nuevo método, se
encuentra en el intervalo ]0,4% , 20,4%[.
Calculemos el intervalo de confianza para la diferencia: S 1  S 2 , con el
Minitab. Para ello, se sigue la secuencia: Estadísticas ►Estadística básica ►
2-Proporciones... ►seleccionar Datos resumidos, ingresar los datos del
problema como en la ventana de diálogo de la figura 2-18.

Figura 2-18. Ventana de diálogo de 2- proporciones para el ejemplo 2.21.

Digitando 90,0 en opciones y activando Aceptar ►Aceptar, se obtiene en la


ventana Sesión, los datos y el intervalo que se muestra en siguiente resumen:
97

Al activar Aceptar, en la ventana Sesión aparecerá lo siguiente:

Prueba e IC para dos proporciones


Método
pΌ: proporción donde Muestra 1 = Evento
p΍: proporción donde Muestra 2 = Evento
Diferencia: pΌ - p΍
Estimación de la diferencia
IC de 95% para la
Diferencia diferencia
0.116340 (0.032520; 0.200160)

Interpretación: Existe una suficiente evidencia para concluir


que la diferencia de proporción de pacientes que se
recuperaron con el tratamiento al 95% de confianza se
encuentran en el intervalo ]3,25%, 20,02%[.

OBSERVACIÓN: La diferencia que existe entre los intervalos calculados en


forma mecánica y con el Minitab, se debe a las aproximaciones que se realizan
en el cálculo mecánico. Siendo el resultado más eficaz el hallado con el
Minitab.

2.4.3. Intervalo de confianza para la razón de varianzas poblacionales


normales
La construcción del intervalo de confianza para V 12 / V 22 , con (1D)100% de
confianza basado en muestras de tamaño n1 y n2; es decir encontrar los
valores a y b, tales que con una confianza de (1D)100%. En este caso se usa
la distribución F, siendo el grado de libertad r1y r2, donde r1 n1  1 y
r2 n2  1, estos valores para la cola izquierda y derecha son respectivamente:
1 1
FD / 2 (r2 , r1 ) y F1D / 2 (r2 , r1 ) . Siendo el intervalo de
F1D / 2 (r1 , r2 ) FD / 2 (r1 , r2 )
confianza para el cociente lo que se muestra en la fórmula 2.13.

Intervalo de confianza para razón de varianzas


poblacionales:
sˆ12 V 2 sˆ 2 F. 2-13
F (r , r )  1  1 F (r , r )
ˆs22 D / 2 2 1 V 22 sˆ22 1D / 2 2 1
98

1D

D/2 D/2

FD / 2 (r2 , r1 ) F1D / 2 (r2 , r1 )


Figura 2-19. Intervalo de confianza de la razón de varianzas V 12 / V 22

Para construir el intervalo de confianza para el cociente de dos varianzas


poblacionales se coloca la varianza muestral mayor en el numerador del
estadístico F. En la notación que adoptaremos ŝ12 representará la varianza
muestral más grande y ŝ 22 a la varianza muestral menor de dos muestras
independientes de tamaños n1 y n2, respectivamente de dos poblaciones
normales. Entonces el intervalo de confianza al (1  D)100% para V 12 / V 22 ,
sˆ12 V 2 sˆ 2
resulta: FD / 2 (r2 , r1 )  12  12 F1D / 2 (r2 , r1 )
sˆ22
V 2 sˆ2

OBSERVACIÓN:
Si el intervalo de confianza para V 12 / V 22 contiene el valor uno, se concluye que
las varianzas son iguales.
Si el intervalo de confianza para V 12 / V 22 no contiene el valor uno, entonces
podemos tener un (1  D).100% de confianza que V 12 z V 22 .

Cuatro pasos para hallar el intervalo de confianza al (1  D)100%


para V 12 / V 22 ,
1. Encuentre el valor de s12 / s 22 , asegurándose de que la varianza
muestral mayor se encuentre en el numerador de la razón F.
2. Calcule el valor FD / 2 (n1  1, n2  1) con la fórmula 2-13. Asegúrese de
que n1 representa el tamaño de la muestra con varianza V 12
3. Encuentre el valor F1D / 2 (n1  1, n 2  1) con la fórmula 2-13. Asegúrese
de que n2 representa el tamaño de la muestra con varianza V 22 .
4. Localice los intervalos de confianza L1 y L2.
99

EJEMPLO 2.22. Un grupo de investigadores selecciona una muestra aleatoria


de tamaño 21 a partir de una población de adultos aparentemente sin
problemas dentales (muestra 1), así como una muestra aleatoria simple de
tamaño 16 de una población de pacientes con problemas dentales (muestra 2).
La variable interés fue el tiempo de reacción a un estímulo en particular. Si la
varianza de la muestra 1 es 1600 y de la muestra 2 es 1225. Se desea formar
un intervalo de confianza del 95% para el cociente: V 12 / V 22 .
Para desarrollar el problema tenemos la siguiente información:
n1 = 21, n2 = 16, s12 1600 , s 22 1225
Grado de libertad de la primera muestra r1 = (n1 – 1)= 20
Grado de libertad de la segunda muestra r2 = (n2 – 1)= 15
D = 0,05

Solución
Recurriendo a la tabla F, se tiene:
F1D / 2 (r1, r2 ) F1D / 2 (20, 15) F0,975(20,15) 2,76 .

F1D / 2 (r2 , r1) F1D / 2 (15, 20) F0,975(15, 20) 2,57 .

1 1 1
Como FD / 2 (r2 , r1 ) 0,362 , reemplazando valores en:
F1D / 2 (r1, r2 ) F1D / 2 (20, 15) 2,76

sˆ12 V 2 sˆ 2
FD / 2 (r2 , r1 )  12  12 F1D / 2 (r2 , r1 ) , se tiene:
sˆ22
V 2 sˆ2

1600 1 V 2 1600 V2
( )  12  (2,57) Ÿ 0,473  12  3,36 .
1225 2,76 V 2 1225 V2
Luego, el intervalo de confianza para la razón de varianzas poblacionales es el
intervalo ]0,473 , 3,36[, en este caso el cociente de varianzas puede ser uno; es
decir las varianzas pueden ser iguales.
Para resolver el ejemplo 2.22 con el Minitab accionamos los comandos:
Estadísticas ►Estadística básica ► 2-Varianzas... ► ingresando los datos
del problema tendremos la ventana de diálogo de la figura 2-21.
100

Figura 2-21. Ventana de diálogo de 2-Varianzas para el ejemplo 2.22.

Activando Aceptar ►Aceptar, se obtiene en la ventana Sesión, el siguiente


intervalo:
Prueba e IC para dos varianzas
Método
σ₁²: varianza de Muestra 1
σ₂²: varianza de Muestra 2
Relación: σ₁²/σ₂²
Se utilizó el método F. Este método es exacto sólo para datos normales.
Relación de desviaciones estándar
Relación IC de 95% para la
estimada relación usando F
1.14286 (0.688; 1.833)

Interpretación: Existe una suficiente evidencia para concluir que la


cociente de las desviaciones estándar de los pacientes sin problemas
dentales y con problemas dentales, al 95% de confianza se encuentran en
el intervalo ]0,688; 1,833[. Mientras que el cociente de varianza se halla
en el intervalo ]0,47; 3,36[.

EJEMPLO 2.23: Los pesos de los artículos producidos en dos procesos de


fabricación distintos se distribuyen normalmente. Construya el intervalo de
confianza del 90% para V 12 / V 22 , sabiendo que n1 15 y s12 33 , n2 42 y s22 16
Solución
Para hallar el intervalo de confianza para V 12 / V 22 , con el Minitab se acciona
los comandos: Estadísticas ►Estadística básica ► 2-Varianzas...
101

►seleccionar Varianza de la muestra, ingresar los datos del problema y


obtenemos la ventana de diálogo de la figura 2-22.

Figura 2-22. Ventana de diálogo de 2-Varianzas para el ejemplo 2.23.

Digitando 90,0 en opciones y activando Aceptar ►Aceptar, se obtiene en la


ventana Sesión, el siguiente intervalo:

Prueba de IC para dos varianzas


Método
σΌ²: varianza de Muestra 1
σ΍²: varianza de Muestra 2
Relación: σΌ²/σ΍²

Relación de varianzas
IC de 90%
para la
Relación relación
estimada usando F
2.0625 (1.063; 4.668)

Interpretación: Existe suficiente evidencia para concluir que la cociente


de las desviaciones estándar de los pesos de los artículos al 90% de
confianza se encuentran en el intervalo ]1,063; 4,668[. Mientras que el
cociente de sus varianzas se encuentra en el intervalo ]1,13; 21,79[.
102

RESUMEN DEL CAPÍTULO 2


I. Una estimación puntual es un estadístico de la muestra proporcionado sin
indicar un rango de error y se debe considerar con precaución. Esto se hace
aparente mediante el muestreo repetido, que es el procedimiento de tomar una
muestra y calcular sus estadísticos y después tomar una segunda muestra, una
tercera, etc.
II. Con base en el análisis de los estadísticos en una muestra, un intervalo de
confianza es un rango posible de valores de un parámetro poblacional
expresados con un grado de confianza específico. El objetivo del intervalo de
confianza es proporcionar una estimación intercalar del valor de un parámetro
poblacional desconocido y expresar la seguridad que tenemos de que el
parámetro cae dentro de ese intervalo. En general un intervalo de confianza
responde a la pregunta: ¿Cuál es el valor del parámetro poblacional, más y
menos un error de muestreo conocido?
A. Los factores que constituyen un intervalo de confianza para una media
son:
1. El número de observaciones en la muestra, n.
2. La variabilidad en la población, que generalmente se estima mediante la
desviación estándar de la muestra, s.
3. El nivel de confianza que está representado por el valor z.
B. Para elaborar un intervalo de confianza, tomamos una estimación puntual y
utilizamos el conocimiento acerca de las distribuciones muestrales para
proyectar un intervalo de error respecto a ésta. La fórmula se establece
como sigue: intervalo de confianza = (estimación puntual) r (término del
error). Así tenemos:
Intervalo de confianza del (1D)100% para la media poblacional P, cuando
ya se observó la muestra grande de tamaño n es:
V V º V V ª
x  z1D / 2 .  P  x  z1D / 2 . ó » x  z1D / 2 . , x  z1D / 2 . «
n n ¼ n n¬

El intervalo de confianza para la media poblacional P del (1D)100% de


confianza para muestras pequeñas es: ( x  t1D / 2;n 1. ˆ  P  x  t1D / 2;n 1. ˆ ) ,
s s
n n
donde t(1D / 2) tteórico es la abscisa de la distribución t-Student con n1 grados
de libertad.
103

C. Los factores que determinan un intervalo de confianza para una proporción


son:
1. La aproximación mejora con muestras más grandes.
2. El número de observaciones en la muestra, n.
3. El valor de p que se obtiene dividiendo el número de éxitos en la
muestra, X, entre el número de observaciones en la misma, n.
4. El nivel de confianza que está representado por el valor z.
Un intervalo de confianza aproximado del (1  D)100% para la proporción
poblacional S, se obtiene a través de:
pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z1D / 2 .  S  pˆ  z1D / 2 . ó
n n
§ pˆ (1  pˆ ) pˆ (1  pˆ ) ·
P¨¨ pˆ  z1D / 2 .  S  pˆ  z1D / 2 . ¸ 1D
¸
© n n ¹
D. Se puede llegar a establecer que un intervalo de confianza del 100(1D)%
para la varianza poblacional V2 es de la forma:
(n  1) sˆ2 (n  1) sˆ2 § (n  1) sˆ2 (n  1) sˆ2 ·¸
V2  ó P¨ V2  1D
(n  1) (n  1) ¨ (n  1) ¸¹
x 1D / 2 D /2x © 1D / 2 (n  1)
x D /2 x
E. Intervalo de confianza para la relación entre dos parámetros poblacionales.
En este caso se consideran:
Intervalo de confianza del (1  D)100% para la diferencia de medias para
muestras grandes, mayores que 30.
V12 V 22 V2 V2
( x1  x 2 )  zC   P1  P2  ( x1  x 2 )  zC 1  2
n1 n2 n1 n2

La estimación del intervalo de confianza del (1  D)100% para la diferencia de


medias, P1  P 2 , es:
§1 1· §1 1·
( x1  x 2 )  tC sC2 ¨¨  ¸¸  P1  P2  ( x1  x 2 )  tC sC2 ¨¨  ¸¸ .
© n1 n2 ¹ © n1 n2 ¹

El intervalo de confianza del (1  D)100% para estimar la diferencia, P1  P 2 ,


de datos pareados, es:
sˆd sˆ
d  t1D / 2 (n  1)  P1  P2  d  t1D / 2 (n  1) d
n n
El intervalo de confianza del (1  D)100% para estimar la diferencia de
proporciones S 1  S 2 , es:
pˆ1qˆ1 pˆ 2qˆ2 pˆ qˆ pˆ qˆ
( p1  p2 )  z1D / 2   S1  S 2  ( p1  p2 )  z1D / 2 1 1  2 2
n1 n2 n1 n2
104

El intervalo de confianza del (1  D)100% para estimar la razón entre


varianzas poblacionales V 12 / V 22 , es:
sˆ12 1 V 2 sˆ2 1
( ) 1  1 ( )
sˆ22 F1D / 2 (r1, r2 ) V 22 sˆ22 FD / 2 (r1, r2 )

III. El nivel de confianza y el nivel de significación (D), están inversamente


relacionados, cuando uno aumenta el otro disminuye. El nivel de confianza
más el nivel de significancia dan una unidad o el 100%. Así, para el nivel de
confianza de 95% el nivel de significancia es de 5% (es decir, D = 0,05).
IV. Un error estándar grande ocurre cuando n es pequeña o cuando la desviación
estándar de la muestra es grande.
V. Un intervalo de confianza de una media poblacional se calcula cuando la
variable de interés (X) es de nivel de medición intercalar o de razón.
VI. Con variables nominales y ordinales, los intervalos de confianza
proporcionan una estimación dentro de un rango de error de la proporción de
una población que cae en la categoría de “éxito” de la variable. Para un
intervalo de confianza para una proporción poblacional, el tamaño de la
muestra debe ser suficientemente grande tal que p.n t 5, resultando en una
distribución muestral que es normal en forma.
VII. La precisión de un intervalo de confianza (es decir, un ancho) es la
diferencia entre el L1 y L2. Cuanto mayor sea el nivel de confianza, menos
preciso será el intervalo. Cuanto mayor sea la muestra, más preciso será el
intervalo de confianza.
VIII. Para obtener un alto grado de precisión y mantener un alto nivel de
confianza, un intervalo debe utilizar una muestra suficientemente grande, tal
que produzca un error estándar pequeño, y por tanto, un intervalo de
confianza más preciso. El tamaño de la muestra se puede elegir para ajustarse
a un nivel de confianza y rango de error deseados.
105

PROBLEMAS PROPUESTOS Nº 2

1. Mundialmente está reconocido que aquellos niños que tienen un coeficiente


intelectual igual o superior a 125 son superdotados. En una institución
educativa existen cuatro secciones del tercer grado. De este grupo de alumnos
se tomó al azar una muestra de 35 alumnos y se encontró que el coeficiente
intelectual promedio es de 116,5, con una desviación estándar de 14,2.
a) Si se sabe que, en la muestra, el coeficiente intelectual se distribuye
normalmente, ¿cuántos niños se pueden considerar superdotados?
b) Utilice la muestra tomada para estimar el coeficiente intelectual promedio
de los alumnos del tercer grado de dicha institución educativa.
c) Sugiera rangos que puedan clasificar a los niños como subnormales,
normales y súper dotados.
2. Para una muestra aleatoria de 10 estudiantes matriculados en la asignatura de
Matemática Básica se tiene los tiempos en horas semanales que se dedican a
practicar: 5, 8, 10, 7, 6, 9, 9, 11, 13, 8.
a) Defina la variable de interés.
b) Caracterice la media poblacional y la varianza poblacional.
c) ¿Cuál es el valor de la estimación puntual de la media de la población?
Interprete.
d) ¿Cuál es el valor de la estimación puntual de la desviación estándar de la
población? Interprete.
5. Para estimar la media del consumo (en nuevos soles) de la cafetería para
docentes de una universidad, se tomó una muestra de 40 profesores. Suponga
una desviación estándar de 4 nuevos soles. Si la media en la muestra fue 25
nuevos soles semanales. ¿Cuál fue el intervalo de confianza del 95% para el
consumo medio poblacional?
6. Para determinar la rentabilidad de un nuevo restaurante ubicado en un distrito,
un investigador observó durante 45 días, las ganancias del mismo.
Encontrando que la ganancia media es S/. 280.00 diarios con una desviación
estándar de S/. 32.00 diarios. ¿Cuál es la ganancia promedio, con un nivel de
confianza del 90%?
7. En una muestra aleatoria de 20 pacientes internados en un hospital del
MINSA, se encontró en sus pesos una media de 63 kg y una desviación
106

estándar de 4 kg. Encuentre el intervalo de confianza del 90% para la media de


todos los pesos, suponiendo que se distribuyen normalmente.
8. El encargado del archivo de la historia clínica delos pacientes de un hospital
extrajo al azar una muestra de 120 historiales de pacientes y encontró que el
15% tenían datos erróneos del paciente. Halle el intervalo de confianza del 90,
95 y 99 por ciento para la proporción real de historias clínicas con datos
erróneos.
9. En un estudio de 300 accidentes de tránsito en las carreteras del Perú, 90 de
ellos tuvieron consecuencias fatales. Con base a esta muestra construya un
intervalo del 90% de confianza para aproximar la proporción de todos los
accidentes de tránsito en las carreteras del Perú tuvieron consecuencias fatales.
10. Un estudio de 560 reclamaciones de devolución de impuesto a un municipio
demostró que 324 dieron lugar a pagos adicionales. Construya un intervalo del
95% de confianza para aproximar la verdadera proporción de todas las
reclamaciones de devolución de impuestos al municipio.
11. Cuando se fumigaron las plantaciones de coca en el alto huallaga, 36 de 60
hectáreas quedaron improductivas para cultivos alternativos; construya un
intervalo de 97% de confianza para la verdadera proporción de hectáreas de
terreno no aptos para cultivo alternativo como consecuencia de la fumigación.
12. En una muestra de 320 estudiantes universitarios que fueron preguntados
sobre si practican algún deporte físico, 215 respondieron afirmativamente;
construya un intervalo del 99% de confianza para la verdadera proporción de
estudiantes universitarios que practican algún deporte físico.
13. En una encuesta aleatoria realizada en zonas marginales de una ciudad, 684
de entre 800 familias indicaron que toman leche en el desayuno al menos dos
veces por semana. Construya un intervalo del 93% de confianza para
aproximar la verdadera proporción de familias que al menos desayunan leche
dos veces a la semana.
14. A una muestra aleatoria de 130 alumnos de la universidad, se le preguntó si
estudiaron computación e informática, 65 respondieron que Si, 50
respondieron que No y 15 no opinaron.
a) ¿Cuál es el valor de la estimación puntual de la proporción de la población
que responde Si?
b) ¿Cuál es el valor de la estimación puntual de la proporción de la población
que responde No?
c) Encuentre el intervalo de confianza de 90% para la proporción poblacional
que respondió sí.
107

15. Un investigador encuestó a una muestra aleatoria de 400 adultos para pedir su
opinión sobre la calidad de la educación universitaria, obteniéndose las
siguientes respuestas:
135 adultos: la calidad educativa está mejorando
167 adultos: la calidad educativa permanece igual.
98: adultos: la calidad educativa está empeorando.
Encuentre la estimación puntual de los siguientes parámetros de la población:
a. La proporción de adultos que opinan que la calidad de la educación está
mejorando.
b. La proporción de adultos que opinan que la calidad educativa permanece
igual.
c. La proporción de adultos que piensan que la calidad educativa ha
empeorado.
16. Una muestra de 24 estudiantes de Educación se ha administrado una prueba
de estadística, en la que se ha obtenido una media de 14 puntos con varianza
3,2 puntos2. Suponiendo que las calificaciones se distribuyen normalmente,
construya el intervalo de confianza para la varianza poblacional, V 2 , con un
nivel de confianza del 90%.
17. Se escoge una muestra aleatoria de 12 tiendas y se encuentra que las ventas
de la semana de un determinado producto de consumo diario tiene una
desviación estándar de 5,8 nuevos soles. Suponiendo que las ventas del
producto tienen una distribución normal. Estimar: a) la varianza, b) la
desviación estándar poblacional mediante el intervalo de confianza del 95%.
18. En un centro de estética, durante el último semestre, se emplearon dos
tratamientos diferentes para reducir el peso (T1 y T2). El tratamiento T1 es
aplicado a un grupo G1, mientras el tratamiento T2 es aplicado a un grupo G2.
Ambos grupos están formados por adultos cuyas edades oscilan entre 25 y 35
años, que tienen problemas de obesidad. El tratamiento T1 es sustancialmente
más costoso que el tratamiento T2. El médico del centro quiere determinar al
95% de confianza entre qué valores se puede esperar que esté la diferencia en
los pesos medios rebajados después de los tratamientos que debe ofrecer el
centro. Al final de la aplicación de los tratamientos se obtuvieron los
resultados:
Muestra 1: Tamaño 50 adultos, media 17,2 kg y s = 3,7 kg.
Muestra 2: Tamaño 48 adultos, media 16,4 kg y s = 3,4 kg.
19. El coordinador académico del centro preuniversitario de la UNHEVAL tiene
la percepción de que el rendimiento académico durante el primer año de
108

estudios en la universidad, de los alumnos ingresantes a través de la institución


que dirige, ha sufrido cambios en los últimos años. Para confirmar su
percepción llevó a cabo un estudio, para este propósito escogió una muestra
aleatoria de 120 alumnos que ingresaron el año 2016 a través del centro
preuniversitario y pidió al sistema de matrícula el rendimiento de cada uno de
estos alumnos durante ciclo 2017-II. Para dicha muestra tuvo un rendimiento
promedio de 13,8 puntos con desviación estándar 0,6 puntos. Asumiendo que
las notas se distribuyen normalmente encuentre el intervalo de confianza del
96% para la media poblacional del rendimiento.
20. Antes de aplicar la enseñanza hipermedial de la física en el quinto grado de
secundaria, el rendimiento promedio era de 12,3 puntos. Para determinar si la
hipermedia ha sido efectiva en el incremento del rendimiento de los alumnos,
se evaluaron al azar 85 alumnos después de aplicar la nueva metodología
durante un semestre, obteniéndose un rendimiento promedio de 14,1 puntos
con desviación estándar 2,5 puntos. Encuentre el intervalo de confianza del
95% para el rendimiento promedio.
21. Un investigador en educación sostuvo que el módulo didáctico empleado en
la enseñanza de Estadística es uno de los factores que influye y determina en
el proceso de enseñanza-aprendizaje, donde el módulo utilizado incide en el
aprendizaje de los alumnos. Para verificar su hipótesis realiza el siguiente
experimento: Durante un semestre se llevó a cabo el trabajo lectivo para dos
grupos de estudiantes de la misma carrera, empleando dos módulos (A y B) de
característica diferenciadas; al administrar un examen al finalizar el
tratamiento se obtuvo los calificativos:
Método A: 14, 13, 12, 10, 9, 13, 14, 11, 15.
Método B: 16, 18, 17, 14, 17, 15, 16, 15, 16.
Suponiendo que las muestras provienen de poblaciones normales con
varianzas iguales, construya el intervalo de confianza del 90% para la
diferencia de las muestras poblacionales.
22. En un estudio realizado por un grupo de investigadores acerca de las
diferencias salariales entre varones y mujeres se dio a conocer que una de las
razones para que el salario de los varones sea mayor que los salarios de las
mujeres es que, los varones tienden a acumular más años de experiencia que
las mujeres. Al tomar dos muestras aleatorias independientes se encontró:
Varones: x1 15,8 años de trabajo, s1 = 6,4, n1 = 90
Mujeres: x 2 12,4 años de trabajo, , s2 = 4,3, n2 = 75.
109

a) ¿Cuál es la estimación puntual de la diferencia de medias poblacionales de


los salarios de varones y mujeres?
b) Encuentre el intervalo de confianza del 90% para la diferencia entre las dos
medias poblacionales.
23. El encargado de compras de una cadena de farmacias tiene que escoger entre
dos tipos de crema dental A y B, selecciona dos muestras independientes de 10
cientos de cada tipo y comprueba el porcentaje unidades con deficiencias en
cada tipo al hacer un control de calidad:
A: 6, 4, 7, 5, 8, 5, 9, 8, 6, 7.
B: 5, 6, 7, 8, 7, 9, 8, 10, 9, 8.
Estimar mediante un intervalo de confianza del 98% la diferencia promedio
entre las unidades con defectos, por ciento de crema dental, de los dos tipos.
24. Desde el siglo pasado numerosos educadores y pedagogos se han interesado
por los métodos de enseñanza de lenguas extranjeras. Hoy, que se hace
imperante aprender un idioma distinto al nativo, se le da mucha importancia a
la efectividad de tales métodos. Con la finalidad de comparar los métodos de
dos centros especializados en idiomas, un profesor de lenguas modernas
adelantó un estudio que examinaba la calidad del idioma que 39 estudiantes de
cada centro habían aprendido. Los exámenes, cuyos calificaciones sobre 70
resultaron distribuirse de una forma aproximadamente normal, arrojaron los
siguientes resultados: Centro 1, media = 54,2 y s = 5,4; Centro 2,: media 60,4
y s = 3,7.
a) Existen muchas personas que afirman que el Centro 1 es mejor que el
Centro 2. ¿Esto es cierto? Justifique su respuesta.
b) Se espera que la diferencia en cuanto a la efectividad de los dos métodos
estuviese entre 2,1 y 0,4. ¿Lo encontrado en el estudio confirma esta
expectativa?
c) Entre qué valores está la diferencia de las medias de los dos métodos.
25. En julio del año 2015, 120 personas de una muestra aleatoria de 300
aprobaban la gestión del alcalde del distrito. Cinco meses después la mitad de
otra muestra aleatoria de tamaño 500, independiente de la anterior, rechazaba la
gestión del alcalde. Con un intervalo de confianza del 96%, ¿podemos concluir
que el alcalde es aceptado en julio y diciembre?
26. A la Dirección Regional de Educación le interesa comparar la calidad de
trabajo que se realiza en las ugeles de las provincias A y B. Se seleccionan
muestras aleatorias de expedientes de docentes que trabajan en las áreas rurales
110

de la provincia A y B, solicitan traslado a la capital provincial, para obtener un


intervalo de confianza para la diferencia entre las proporciones de expedientes
con errores en las zonas rurales. La tabla resume el número total de expedientes
y el número de expedientes con errores en una de las ugeles provinciales.
Expedientes Ugel A Ugel B
Número de expedientes analizados 220 280
Número de expedientes con 30 25
errores
Con un 97% de confianza, ¿podemos concluir que el número de expedientes
con errores no son significativamente diferentes en las ugeles A y B?
27. Una manera de medir la satisfacción laboral de un grupo de profesores es en
cuanto a la desviación estándar del sueldo que perciben. Las instituciones
públicas afirman ser más homogéneas que las privadas, respecto al sueldo que
pagan. Para verificar esa afirmación, se escoge una muestra aleatoria de 12
profesores que laboran en la institución pública, y 13 de privadas.
Obteniéndose una dispersión de s = 48 en el público y s = 36 en el privado,
¿cuál sería la conclusión si se utiliza un intervalo del 95% de confianza para el
cociente de varianzas?
28. Se analizan estadísticamente los índices de ataques cardiacos de dos muestras
de 24 pacientes cada uno, que padecían infarto al miocardio. Las varianzas de
las muestras fueron 12 y 10. Construya el intervalo de confianza del 90% para
la razón de las varianzas de las poblaciones en estudio.
3 Prueba de Hipótesis
Una hipótesis estadística es una proposición o supuesto
acerca de los parámetros de una o más poblaciones con el
propósito de poner a prueba la verdad de la aseveración a
partir de datos empíricos utilizando estrategias y técnicas
adecuadas para la obtención de respuestas generalizables a
la población objeto de la investigación.

Introducción. Prueba de hipótesis. Tipos de prueba de hipótesis. Pasos


o estrategia en una prueba de hipótesis. Prueba de hipótesis para un
parámetro poblacional. Prueba de hipótesis para dos parámetros
poblaciones.

OBJETIVOS
Al final de este capítulo estarás en condiciones de:
1. Definir que es una hipótesis e identificar los tipos de hipótesis.
2. Describir la estrategia o pasos a seguir en una prueba de hipótesis.
3. Distinguir una prueba de hipótesis unilateral (o de una cola) y bilateral
(o de dos colas) para muestras pequeñas y muestras grandes.
4. Realizar pruebas de hipótesis respecto a una media poblacional y a una
proporción poblacional, para muestras grandes.
5. Realizar pruebas de hipótesis respecto a la diferencia entre dos medias
poblacionales y dos proporciones de población, para muestras grandes.
6. Describir las características de la prueba t de Student.
7. Realizar pruebas de hipótesis respecto a una media poblacional para
muestras pequeñas.
8. Realizar pruebas de hipótesis respecto a la diferencia entre dos medias
poblacionales con muestras independientes.
9. Realizar pruebas de hipótesis respecto a la diferencia de medias entre
observaciones pareadas (o en pares).
112

3.1. INTRODUCCIÓN
Hipótesis (del latín hypothĕsis), que a su vez deriva de un concepto griego, es
algo que se supone y a lo que se le otorga un cierto grado de posibilidad para
extraer de ello un efecto o una consecuencia. Es una idea que puede no ser
verdadera, basada en unos datos que sirve de base para iniciar una investigación
o una argumentación. Su valor reside en la capacidad para establecer más
relaciones entre los hechos y explicar por qué se producen. Normalmente se
plantean primero las razones claras por las que uno cree que algo es posible. Este
método se usa en el método científico, para luego comprobar las hipótesis a través
de los experimentos.
Una hipótesis puede usarse como una propuesta provisional que no se pretende
demostrar estrictamente, o puede ser una predicción que debe ser verificada por
el método. En el primer caso, el nivel de veracidad que se otorga a una hipótesis
dependerá de la medida en que los datos empíricos apoyan lo afirmado en la
hipótesis. Esto es lo que se conoce como contrastación empírica de la hipótesis o
bien proceso de validación de la hipótesis. Este proceso puede realizarse
mediante confirmación (para las hipótesis universales) o mediante verificación
(para las hipótesis existenciales).
Importancia
Las hipótesis son el punto de enlace entre la teoría y la observación. Su
importancia es que dan rumbo a la investigación al sugerir los pasos y
procedimientos que deben darse en la búsqueda del conocimiento. Cuando una
hipótesis de investigación ha sido bien elaborada, y en ella se observa claramente
la relación o vínculo entre dos o más variables, es factible que el investigador
pueda:

x Elaborar el objetivo, o conjunto de objetivos, que desea alcanzar en el


desarrollo de la investigación.

x Seleccionar el tipo de diseño de investigación factible con el problema


planteado.

x Seleccionar el método, los instrumentos y las técnicas de investigación


acordes con el problema que se desea resolver.
113

x Seleccionar los recursos, tanto humanos como materiales, que se emplearán


para llevar a cabo con pertinencia, un proceso de investigación.
La prueba de hipótesis es el segundo tema del que se ocupa la estadística
inferencial, ya que va permitir la aceptación o el rechazo de las conjeturas
planteadas en el proceso de investigación mediante la denominación de hipótesis
nula e hipótesis alternativa.
Para la prueba de hipótesis paramétrica con el Minitab 18, una vez que se ingresa
al programa y accionando en el menú principal: Estadísticas ► Estadísticas
básicas, podemos observar distintas opciones para la prueba de hipótesis como
se muestra la figura 3-1.

Figura 3-1. Pantalla del Minitab 18, para distintas pruebas de hipótesis.

3.2 HIPÓTESIS ESTADÍSTICA


Una hipótesis estadística es una aseveración acerca de la forma de distribución
de una variable aleatoria sobre los valores de los parámetros de una población,
que puede ser verdadero o no. También se puede decir que la hipótesis estadística
es la cuantificación de la hipótesis científica. En general la hipótesis se refiere a
los parámetros para las poblaciones sobre quienes se hace la proposición. Por
ejemplo, el docente de una Institución Educativa puede suponer que el índice
académico de los alumnos de su institución es superior a 14, el administrador de
un hospital puede suponer que en promedio es internado en el hospital 25
pacientes cada semana, un médico puede suponer que cierto medicamento será
eficaz en un noventa por ciento en los casos que se utilice. Por medio de las
114

pruebas de hipótesis se determina si tales proposiciones son compatibles con los


datos disponibles.
Las hipótesis de investigación o científica conducen directamente a la hipótesis
estadística que es una proposición respecto a uno o varios parámetros de la
población, puede ser simple o compuesta. Diremos que es simple, cuando la
proposición caracteriza completamente a la distribución de la variable aleatoria
para un único valor del parámetro; mientras que la compuesta contempla un
intervalo de valores para el parámetro.

3.3 CLASES DE HIPÓTESIS


El propósito teórico de una prueba de hipótesis es corroborar la teoría probando
ideas contra hechos. Una forma sencilla de especificar con precisión un
procedimiento de prueba de hipótesis es determinando las hipótesis estadísticas;
a estas se les llama hipótesis nula (H0) e hipótesis alternativa (H1). Estas hipótesis
deben ser formuladas antes de seleccionar los datos.
La prueba de hipótesis parte del principio (o supuesto) de que H0 es verdadero,
siendo el objetivo de la prueba de hipótesis rechazar la aseveración que se plantea
en (H0).
3.3.1 La hipótesis nula (H0)

La afirmación que está establecida y que se espera sea rechazada después de hacer
una prueba estadística es llamada hipótesis nula y se le representa por H0. Es la
hipótesis que es aceptada provisionalmente como verdadera y es sometida a
comprobación experimental. Es la primera afirmación que se va a someter a
prueba para ser aceptada o rechazada. Debe representar lo conocido e indica que
todo se mantiene igual. Por ejemplo, es una hipótesis nula: “el coeficiente
intelectual medio de los adultos de una región del país es 98”. En principio, se
acepta CI = 98 y seguiremos manteniendo provisionalmente como verdadero tal
hipótesis, mientras los resultados experimentales no nos obliguen a rechazarlo.
3.3.2 La hipótesis alternativa (H1)

La afirmación que se espera sea aceptada después de hacer una prueba estadística
se llama hipótesis alternativa y se representa por H1. Esta hipótesis está ligado
a la hipótesis de trabajo de la investigación. Esta hipótesis es aceptada si H0 es
115

rechazada. H1 representa el cambio, lo novedoso, lo revolucionario, lo que se


sospecha, etc.
La hipótesis nula (H0) y alternativa (H1) son mutuamente excluyentes. Sus
planteamientos son opuestos y al final del proceso si se acepta H1 se rechaza H0
y viceversa si se rechaza H1 se acepta H0.
OBSERVACIÓN. La hipótesis nula o alternativa se denomina simple si sólo
asume valores exactos para todos los parámetros desconocidos de la ley de
probabilidad asumida, y se denomina compuesta si asume más de un valor para
todos los parámetros desconocidos de la ley de probabilidad asumida. Así, por
ejemplo, será simple la hipótesis estadística “P = 40, V2 = 5”, como media y
varianza de una distribución normal; mientras serán compuestas, las hipótesis
estadísticas: “P > 43”, “V2 = 7”, “P z 38”, “V2 < 6”son las medias y varianzas de
una distribución normal. Serán también compuestas las hipótesis estadísticas “U
z 0,45”, “U < 0,75”, donde U es la probabilidad de éxito en cada prueba de una
distribución binomial.

3.4 PRUEBA DE HIPÓTESIS


Es uno de los procedimientos más importantes de la inferencia estadística cuyo
objetivo es emitir un juicio sobre la diferencia existente entre el estadístico
calculado y un parámetro poblacional. La prueba de hipótesis se basa en la
evidencia muestral y la teoría de probabilidad; que se emplea para determinar si
la hipótesis es una afirmación razonable. El proceso de prueba de hipótesis se
realiza en base a los datos de la muestra, para contrastar la verdad o falsedad de
la hipótesis, al que denominamos prueba de hipótesis, prueba de significación o
dócima de hipótesis. En otras palabras, contrastar una hipótesis estadísticamente,
es juzgar si cierta propiedad supuesta para una población es compatible con lo
observado en una muestra de ella. Ayuda al investigador: educador, médico,
administrador, ingeniero y otros, a tomar una decisión en torno a la población,
como una conclusión de los resultados obtenidos de una muestra de ella.
Una prueba estadística es una fórmula, basada en una distribución del estimador
del parámetro que aparece en la hipótesis y que va permitir tomar una decisión
acerca de aceptar o rechazar la hipótesis nula. También se asume como una
partición de la curva de distribución de probabilidad que representa al espacio
116

muestral, en dos partes, llamadas la región de rechazo (o región crítica) y la


región de aceptación (o región no crítica)
3.4.1 Tipos de prueba de hipótesis
Existen tres tipos de prueba de hipótesis para parámetros poblacionales, cada
uno identificado por la forma como se formulan H0 y H1.
Prueba de cola izquierda o inferior
Las hipótesis se formulan de la forma:
H0: T = T0
H1: T < T0
Existe un punto crítico y se rechaza H0, si Tˆ < c.

c
Figura 3-2. Curva normal para una prueba unilateral (o de cola) hacia izquierda

Prueba de cola derecha o superior


Las hipótesis se formulan de la forma:
H0: T = T0
H1: T > T0
Existe un punto crítico y se rechaza H0, si Tˆ > c.

c
Figura 3-3. Curva normal para una prueba unilateral (o de cola) hacia derecha.
117

Prueba de dos colas o bilateral


Las hipótesis se formulan de la forma:
H0: T = T0
H1: T z T0
Existe un punto crítico y se rechaza H0, si Tˆ < c2 o Tˆ > c1.

c1 c2
Figura 3-4. Curva normal para una prueba bilateral (o de dos colas).

3.4.2 Procedimiento para realizar la prueba de hipótesis referente a un


parámetro (T)
En la estrategia de la prueba de hipótesis se consideran diversos números de
pasos, por su operatividad, en el presente texto se sugiere seis pasos
secuenciales de acciones y decisiones para llegar a probar una hipótesis. Siendo
el sexto paso para tomar la decisión estadística de rechazar o no la hipótesis
nula. El propósito de la prueba de hipótesis no es cuestionar el valor calculado
del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre
estadístico calculado desde la muestra y un valor planteado del parámetro.

Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):


Cualquier investigación estadística implica la existencia de hipótesis o
afirmaciones acerca de la población o poblaciones que se estudian.
La hipótesis nula (H0) se refiere siempre a un valor especificado del parámetro
de población, no a un estadístico de muestra. La letra H significa hipótesis y el
subíndice cero no hay diferencia. Por lo general, una hipótesis nula es un
enunciado de “ningún cambio” o “ninguna diferencia”. Nos guía para
seleccionar una distribución muestral para una prueba de hipótesis. A menudo,
la hipótesis nula es la negación o inversión de la hipótesis de investigación. El
118

planteamiento de la hipótesis nula siempre contiene un signo de igualdad con


respecto al valor especificado del parámetro.
Por ejemplo, para inferir un parámetro poblacional se plantea: H0: T = T0: los
parámetros poblacionales son iguales.
La hipótesis alternativa (H1) es la que aborda directamente el problema de
investigación, el cual aceptaremos si se rechaza la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia
suficiente de que la hipótesis nula es falsa. Se le conoce también como la
hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca
contiene un signo de igualdad con respecto al valor especificado del parámetro.
Por ejemplo, para inferir parámetros se suele plantear: H1: T z T0, H1: T > T0 o
H1: T < T0.
Paso 2. Selección del nivel de significación: Es la probabilidad de rechazar la
hipótesis nula cuando es verdadera, a esto se le llama error de tipo 1, algunos
autores denominan nivel de riesgo en vez de nivel de significación, y se denota
con la letra griega alpha (D). “Tradicionalmente se utiliza nivel de significación
de 0,05 para investigaciones sobre consumo o uso de servicios (educación,
salud, entre otros), el de 0,01 para el aseguramiento de calidad y precisión, y el
de 0,10 para encuestas de opinión y políticas”.
En resumen, el nivel de significación es el riesgo que se asume acerca de
rechazar la hipótesis nula, cuando en realidad debe aceptarse por ser verdadera.
Paso 3. Seleccionar el estadístico de prueba: Es una fórmula para medir
efectos estadísticos de una prueba en unidades de error estándar. Estas fórmulas
se utilizan en conjunto con las curvas de probabilidad y las tablas estadísticas.
Como regla, existen muchos valores posibles que pueden asumir la estadística
de prueba y el valor particular observado depende de la muestra particular
extraída; de acuerdo a la certeza en su elección, será un eficiente productor de
decisiones, ya que la decisión de rechazar o no la hipótesis nula depende de la
magnitud de la estadística de prueba.
El valor determinado a partir de la información muestral se utiliza para
determinar si se rechaza la hipótesis nula, existen muchos estadísticos de
prueba, siendo los más utilizados en pruebas paramétricas, los estadísticos
normal z y t de Student. La elección de uno de estos depende de ciertos criterios
y la naturaleza de los datos.
119

Paso 4. Formular la regla de decisión: Establece las condiciones específicas


en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la
hipótesis nula. La región de rechazo define la ubicación de todos los valores que
son tan grandes o tan pequeños, donde la probabilidad de que se presenten bajo
la suposición de que la hipótesis nula es verdadera, es muy remota
Valor crítico: La distribución de muestreo del estadístico de prueba se divide
en dos regiones, una región de rechazo (conocida como región crítica) y una
región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la
región de aceptación, no se puede rechazar la hipótesis nula. El punto crítico,
es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula. El área de rechazo define la
ubicación de todos los valores que son demasiado grandes o demasiado
pequeños, por lo que la probabilidad de que se rechace la hipótesis nula es alta.
Paso 5. Cálculo del estadístico de prueba: A partir de los datos contenidos en
la muestra, se calcula un valor de la estadística de prueba y se compara con las
regiones de aceptación, para el rechazo o no rechazo de la hipótesis nula que ya
fueron especificados en el paso 4.
Es un valor, determinado a partir de la información muestral, que se utiliza para
aceptar o rechazar la hipótesis nula.
Paso 6. Decisión estadística: Una vez calculado el estadístico de prueba, se
compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis
nula. Tenga presente que en una prueba de hipótesis sólo se puede tomar una de
las dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que
siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería
haberse rechazado (error tipo I). También existe la posibilidad de que la
hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
Aquí decidimos rechazar o no rechazar la hipótesis nula. Se rechaza si el valor
calculado del estadístico de prueba cae en la región de rechazo, y no se rechaza
si el valor calculado del estadístico de prueba cae en la región de aceptación.

3.5 ERRORES EN LA PRUEBA DE HIPÓTESIS


En una prueba de hipótesis se pueden presentar las siguientes situaciones:
1. Rechazar una H0 siendo esta verdadera (decisión incorrecta)
2. Aceptar una H0 siendo esta verdadera (decisión correcta)
3. Rechazar una H0 que resulta falsa (decisión correcta)
120

4. Aceptar una H0 que resulta falsa (decisión incorrecta)


El rechazo de una H0 que es verdadero se llama error de tipo I, y la aceptación de
una H0 que es falsa se denomina error de tipo II. Estas dos decisiones incorrectas
y las dos decisiones correctas se resumen en el siguiente cuadro.
Siendo H0 la hipótesis nula y H1 hipótesis alternativa, los dos tipos de error
podemos resumir en el cuadro siguiente:

Decisión H0 verdadera H0 falsa


Aceptamos H0 Decisión correcta Error del tipo II
Probabilidad: 1D. Probabilidad (E).
Rechazamos H0 Error del tipo I Decisión correcta
Probabilidad (D) Probabilidad 1E.
El responsable de la toma de decisiones debe reducir al máximo la probabilidad
de cometer estos dos tipos de errores, que en la práctica no es fácil, ya que la
probabilidad de cometer estos dos tipos de errores son inversamente
proporcionales para cualquier tipo de prueba y tamaño de muestra n fijo. Por ello,
que cuanto menor es el riesgo de cometer un error de tipo I, tanto mayor es la
probabilidad de cometer un error de tipo II, y viceversa.
DEFINICIÓN. Es la máxima probabilidad de cometer un error de tipo I, es decir,
la probabilidad máxima de rechazar H0 siendo esta verdadera. El nivel de
significación se denota con D.
DEFINICIÓN. La potencia de una prueba es la probabilidad de tomar la
decisión acertada, de rechazar H0 cuando ésta es falsa o de aceptar H1 cuando es
verdadera, es decir, la potencia de una prueba se calcula por (1 E).

3.6. PRUEBA DE HIPÓTESIS PARA UN PARÁMETRO POBLACIONAL


El propósito de toda investigación más allá de describir el comportamiento de
la variable que se estudia en una muestra para generalizar o inferir los hallazgos
a la población.
Los datos casi siempre son recolectados de una muestra y sus medidas
importantes como la media y la varianza muestral reciben el nombre de
estadísticos. Por otro lado, las medidas representativas de la población, media
poblacional y varianza poblacional, que por lo general no se conocen, reciben
el nombre de parámetros.
En una prueba de hipótesis se presentan tres casos: prueba unilateral (o con cola)
hacia la derecha, unilateral (o con cola) hacia la izquierda, y la prueba bilateral.
121

Verificar la validez de una hipótesis consiste en la comparación del valor teórico


que se obtiene en la tabla y el valor del estadístico calculado a partir de los datos
de una muestra.
OBSERVACIÓN: En el Minitab, el SPSS y otros programas estadísticos, para
probar hipótesis se usa un valor decimal muy pequeña, llamado “P valor” o “P-
value”
DEFINICIÓN. El P-value llamado el nivel de significación observado, es el
valor de D para rechazar la hipótesis nula, representa a la probabilidad de tener
un valor, del estadístico calculado, más extremo (más grande o más pequeño)
que el observado.

Por ejemplo, para probar el valor del parámetro P, con varianza poblacional
conocida, se usa la distribución normal Z, y para una prueba de unilateral con
cola hacia derecha, si ocurre que zcalc < zcrítico, entonces no se rechaza la hipótesis
nula H0. Este concepto se ilustra en la figura 3-5.

p>D

p<D
zcrítico

Figura 3-5. Región crítica de aceptación y rechazo de H0 en la curva Z.

Como ésta es una prueba de cola hacia derecha su región de rechazo se


encuentran a la derecha del punto crítico y por tanto la hipótesis nula no puede
ser rechazada porque zcalc < zcrítico. Equivalentemente, el P-value nos da la
misma decisión al usar el criterio: P-value > D.
En términos generales, los valores altos del p-value están relacionados con la
decisión de no rechazar la hipótesis nula, mientras que los valores bajos de p-
value están asociados con el rechazo de la H0.
122

Cuando realiza la prueba de hipótesis, la mayoría de los programas estadísticos


proporcionan el p-value, para que el usuario tome la decisión de rechazar o
aceptar la hipótesis nula H0, al compararlo con el nivel de significación: D.
El criterio de decisión al comparar con el valor de D es:
x Si p-value es menor que D, entonces se rechaza la H0.
x Si p-value es mayor o igual que D, entonces no se rechaza la H0.
OBSERVACIÓN. En el procedimiento de una prueba de hipótesis para una media con
el Minitab, a diferencia del procedimiento tradicional de seis pasos, se puede llevar sólo
en dos pasos:
Primero, se formulan la hipótesis nula y alternativa al igual que en el procedimiento
tradicional.
Segundo, se compara el p-value que proporciona el Software Minitab con el valor D,
basándose la decisión bajo el criterio p-value.
a) Cuando en la hipótesis alternativa H1: (valor calculado) > (valor teórico) y la
probabilidad de rechazar la hipótesis nula siendo ésta verdadera es D = 0,05; se
plantea que P(Z > z) = 0,05 y en la tabla normal estándar se encuentra z = 1,645.
Es decir P(Z > 1,645) = 0,05; siendo la región crítica el intervalo ]1,645 , +f[

0,95

Figura 3-6. Punto crítico para una prueba unilateral derecha de Z, al 95% de confianza.

b) Cuando en la hipótesis alternativa H1: el (valor calculado)<(valor teórico) y


la probabilidad de rechazar la hipótesis nula siendo ésta verdadera es
D=0,05; se plantea que P(Z< z)=0,05 y en la tabla normal estándar se
encuentra z= 1,645. Es decir P(Z < 1,645) = 0,05; siendo la región crítica
el intervalo ]f , 1,645[
123

0,95

Figura 3-7. Punto crítico para una prueba unilateral izquierda de Z, al 95% de confianza.

c) Cuando la hipótesis alternativa H1: el (valor calculado) z (valor teórico) y la


probabilidad de rechazar la hipótesis nula H0, siendo esta verdadera es D = 0,05;
se plantea que P( «Z« > z) = P(Z > z) + P(Z < z) = 0,05 y en la tabla normal estándar
se encuentra z = 1,96. Es decir:

P( «Z« > 1,96) = P(Z > 1,96) + P(Z < 1,96) = 0,05; siendo la región crítica el
intervalo ] f , 1,96[ ‰ ]1,96 , +f[.

0,95

Figura 3-8. Punto crítico para una prueba bilateral para Z, al 95% de confianza.

OBSERVACIÓN. Para la prueba de hipótesis con el Minitab 18, ejecutan los


siguientes comandos: Estadísticas ► Estadística básica, luego se elige: z de 1
Muestra…, t de 1 Muestra…), t de 2 muestras…, t pareada…), 1
Proporción…) y 2 Proporciones…, según la prueba de hipótesis a realizar, de
la pantalla que se muestra en la figura 3-1.
124

3.6.1. Prueba para la media poblacional: Muestra grande y desviación


estándar poblacional supuesta conocida.
En el método clásico, se evalúa la prueba estadística de Z y al valor obtenido se
llama Z calculado (zcalc). Por otro lado el nivel de significación D dado
determina una región de rechazo y una de aceptación. Si zcalc cae en la región
de rechazo, entonces se concluye que hay suficiente evidencia estadística para
rechazar la hipótesis nula basada en los resultados de una muestra tomada.
Las fórmulas para la prueba de hipótesis se resumen en el siguiente cuadro:

Caso I Caso II Caso III


H0: P t Po H0: P = Po H0: P d Po
H1: P < Po H1: P z Po H1: P > Po

Estadístico de prueba

Decisión
Si Zcalc < Z1D, Si «Zcalc«> Z1D/2, Si Zcalc > –Z1D
se rechaza H0 se rechaza H0 se rechaza H0

Una prueba de hipótesis, se dice que es unidimensional (o de una cola) cuando la


hipótesis alterna indica una dirección (ya sea >, o bien <), según se indica en el
cuadro, el signo es unilateral a derecha (caso III) o unilateral a izquierda (caso I).
Mientras la prueba bilateral no indica dirección (caso II) del cuadro.
La hipótesis nula y alternativa en una prueba unilateral (o de una cola), se enuncia
del siguiente modo:
H0: El ingreso promedio de varones es menor o igual que el ingreso promedio de
mujeres.
H1: El ingreso promedio de los varones es mayor que el ingreso promedio de
mujeres.
La hipótesis nula y alternativa en una prueba de dos colas, (bilateral) se enuncia
del siguiente modo:
H0: No hay diferencia entre el ingreso promedio de varones y el ingreso promedio
de mujeres.
H1: Hay diferencia entre el ingreso promedio de varones y el ingreso promedio
de mujeres.
125

EJEMPLO 3.1. Un instituto de mecanografía anuncia que sus alumnos pueden


llegar a escribir en promedio más de 75 palabras por minuto al finalizar sus
estudios. Se examinó a una muestra de 60 egresados recientes y los resultados
mostraron un promedio de 78 palabras por minuto con una desviación estándar
de 6,5 palabras por minuto. ¿Fue significativo el anuncio hecho por la academia,
para D = 0,01?

Solución
Paso 1. Planteo de hipótesis nula y alterna:
H0: P d 75 (el número de palabras escritas por minuto no pasan de 75)
H1: P > 75 (el número de palabras escritas por minuto es más de 75).

Paso 2. Nivel de significación: D = 0,01.


X P X P
Paso 3. El estadístico de prueba es: Z
V V/ n
x
Paso 4. Determinación de la región de rechazo y de aceptación de la hipótesis
H0. Se usa la Z, pues n = 60. En la fijación de la hipótesis alternativa P > 75, la
prueba es unilateral a derecha, siendo el valor crítico zteórico = 2,65 y el intervalo
crítico o de rechazo ]2,65 , +f[.

Paso 5. Cálculo del estadístico de prueba: Teniendo en cuenta los datos:


P 0 75 , n = 60, X = 78 y V = s = 6,5.
Entonces:
X  Po 78  75 3
Z 3,57
calc V/ n 6,5 / 60 0,84
Paso 6. Decisión estadística: Como el valor calculado: Zcalc = 3,57 > 2,65.
Rechazamos la hipótesis nula; es decir, los egresados del Instituto de
mecanografía escriben en promedio más de 75 palabras por minuto.
Para resolver el EJEMPLO 3.1, haciendo uso del Minitab.
Ejecutemos los siguientes comandos:
Estadísticas ► Estadística básica ► elegir Z de 1 muestra… ► seleccionar
Datos resumidos ► activar el botón Opciones…► escribir en Nivel de
confianza 99,0 y en hipótesis alterna: Media > media hipotética ► Aceptar
/Aceptar.
126

Figura 3-9. Ventana de diálogo para prueba de hipótesis para el problema, ejemplo 3.1.

En la ventana Sesión se muestra el siguiente resultado:


Prueba
Hipótesis nula H΋: μ = 75
Hipótesis alterna HΌ: μ > 75
Valor Z Valor p
3.58 0.000

Interpretación: El valor de p = 0,000, es menor que el nivel de


significación D = 0,01; por lo tanto, se rechaza la hipótesis nula y
acepta la alternativa, es decir, los egresados del Instituto de
mecanografía escriben en promedio más de 75 palabras por minuto,
con un nivel de confianza del 99%.

EJEMPLO 3.2. Un profesor que desarrolla la asignatura de bioestadística


piensa que el aprovechamiento de los alumnos ha disminuido desde el año 2016,
donde la media de todos los puntajes en el sistema centesimal fue de 70 puntos.
¿A qué conclusión llega el profesor después de hacer la prueba de hipótesis con
los datos obtenidos en el año 2017 de 40 alumnos, para D = 0,05?
65 56 68 73 71 66 64 69
65 57 65 67 71 73 76 73
66 72 80 64 62 58 65 71
64 71 77 64 72 63 69 69
62 62 63 68 69 68 71 74
Solución
Paso 1. Planteo de hipótesis nula y alterna:
H0: P = 70 (el puntaje promedio de aprovechamiento es igual a 70 puntos)
127

H1: P < 70 (el profesor piensa que el puntaje promedio ha disminuido o es


inferior de 70 puntos).
Paso2. Nivel de significación: D = 0,05.
X P X P
Paso 3. El estadístico de prueba: Z
V V/ n
x
Paso 4. Determinación de la región de rechazo y la de aceptación. Se usa la Z,
pues n = 40. En la fijación de la hipótesis alternativa P < 70, la prueba es
unilateral a izquierda, siendo el valor crítico zteórico = 1,645 y el intervalo de
rechazo ]f , 1,645[.
Paso 5. Cálculo del estadístico de prueba: de la información dada se tiene que:
P 0 70 , n = 40 y de los datos se obtiene X 67,325 y V =s = 5,325.
Tenemos:
X  P o 67,575  70  2,425
Z calc 2,88
V / n 5,325 / 40 0,842
Paso 6. Decisión estadística: Como el valor calculado: Zcalc = 2,88 < 1,645.
Se rechaza la hipótesis nula; es decir, la opinión del profesor de que el puntaje
promedio ha disminuido del año 2016 al año 2017, es correcta con una
confianza del 95%.
Para resolver el EJEMPLO 3.2, haciendo uso del Minitab.
Ejecutemos los siguientes comandos:
Estadísticas ► Estadística básica ► elegir z de 1 muestra… ► seleccionar
variable Bioestadística ► activar el botón Opciones…► seleccionar en Nivel
de confianza 95,0 y en hipótesis alterna: Media < media hipotética ► Aceptar
/Aceptar.

Figura 3-10. Ventana de diálogo para prueba de hipótesis con datos del ejemplo 3.2.
128

En la ventana Sesión se muestra el siguiente resultado:

Z de una muestra: Bioestadística


Prueba
Hipótesis nula H΋: μ = 70
Hipótesis alterna HΌ: μ < 70
Valor Z Valor p
-2.88 0.002

Interpretación: El valor de p = 0,002 es menor que el nivel de


significación D = 0,05, por lo tanto se rechaza la hipótesis nula y se
concluye de que si hay evidencia estadística de que el puntaje
promedio ha disminuido del año 2016 al año 2017, siendo lo afirmado
por el profesor correcta, con una confiabilidad del 95%.

3.6.2. Prueba para la media poblacional: Muestra pequeña y desviación


estándar poblacional supuesta desconocida.
Si de una población normal con media P y desviación estándar V se extrae una
muestra pequeña de tamaño n, (n < 30), se distribuye como una t de Student con
n1 grados de libertad. Esta expresión es la base para hacer inferencia estadística
para la media de la población normal cuando la desviación estándar muestral s es
desconocida y debe calcularse.
La distribución t de Student es bastante similar a la distribución normal o
distribución Z, con la diferencia que se aproxima más lentamente al eje
horizontal. El parámetro de esta distribución se llama grados de libertad, y
podemos notar que a medida que el grado de libertad aumenta la curva de la t y
de la normal estándar se asemejan más. Los grados de libertad guardan relación
o dependen del número de datos de la muestra y el número de estimaciones de
parámetros que aparecen en la misma. Por cada estimación de parámetro que
aparece en la fórmula se pierde un grado de libertad.

Propiedad. Si de una población normal con media P y desviación estándar V se


extrae una muestra de tamaño n con desviación estándar s, entonces el estadístico:
xP
de prueba t , se distribuye como una t de Student con n – 1 grados de
s/ n
libertad.
Las fórmulas para la prueba de hipótesis se resumen en el cuadro:
129

Caso I Caso II Caso III


H0: P t Po H0: P = Po H0: P d Po
H1: P < Po H1: P z Po H1: P > Po

Estadístico de prueba
x  Po
t calc
s/ n
Decisión
Si tcalc < t1D(n1) Si «tcalc«> t1D/2 (n1), Si tcalc > –t1D (n1)
se rechaza H0 se rechaza H0 se rechaza H0

Una prueba se dice que es de una cola cuando la hipótesis alterna indica una
dirección (ya sea >, o bien <), según indica en el cuadro el signo de la cola, es a
derecha (caso III) o es a izquierda (caso I). Mientras la prueba de dos colas no
indica dirección (caso II) del cuadro.

EJEMPLO 3.3. En un estudio de diagnóstico se ha determinado que el nivel de


colesterol promedio en pacientes con problemas cardiacos es de 225. Un
cardiólogo conjetura que en realidad el nivel de colesterol es mayor y para probar
su afirmación analiza la muestra de 24 pacientes tomados al azar. Para ello asume
que la distribución de los niveles de colesterol es normal con una desviación
estándar 13, y un nivel de significancia del 10%.
217, 223, 225, 245, 238, 216, 217, 226, 202, 233, 235, 242, 219, 221, 234, 199,
236, 248, 218, 224, 229, 215, 205, 213.
¿Habrá suficiente evidencia estadística para apoyar la afirmación del
cardiólogo? Justificar su respuesta.
Solución
Paso 1. Planteo de hipótesis nula y alternativa:

H0: P = 225 (el nivel de colesterol promedio es 225)

H1: P > 225 (el cardiólogo piensa que el nivel promedio de colesterol es mayor
de 225).

Paso2. Nivel de significación: D = 0,1.


X P
Paso 3. El estadístico de prueba: t
s/ n
130

Paso 4. Determinación de la región de rechazo y la de aceptación de la H0. Se


usa la t de Student con n  1 = 23 grados de libertad, la prueba es unilateral a
derecha, siendo el valor crítico en t0,90(23) = 1,319 y el intervalo o región de
rechazo es ]1,32 , +f[.
Paso 5. Cálculo del estadístico de prueba: Teniendo en cuenta los datos:
P = 225, n = 24, s = 13, X = 224,17 y D = 0,10.
Entonces:
X P 225  224,17 0,83
t calc 0,313
s/ n 13 / 24 2,65

Paso 6. Decisión estadística: Como el valor calculado: tcalc = 0,313 < 1,319. No
se rechaza la hipótesis nula; es decir, el nivel de colesterol promedio de los
pacientes es en promedio de 225, con un nivel de confianza del 90%.

Para resolver el EJEMPLO 3.3, con el Minitab


Ejecutemos los siguientes comandos: Estadísticas ► Estadística básica ►
elegir t de 1 muestra ► seleccionar Colesterol ► activar el botón
Opciones…► escribir en Nivel de confianza 90,0 y en Hipótesis alterna: Media
> media hipotética ►Aceptar/Aceptar.

Figura 3-11. Ventana de diálogo de t de 1 muestra para el ejemplo 3.3.

En la ventana Sesión se muestra el siguiente resultado:


Prueba
Hipótesis nula H΋: μ = 225
Hipótesis alterna HΌ: μ > 225
Valor T Valor p
-0.31 0.621
131

Interpretación: El valor de p = 0,621 es mayor que el valor del nivel


de significación D = 0,10, no se rechaza la hipótesis nula y se puede
concluir: que el nivel de colesterol promedio de los pacientes con
problemas cardiacos es igual 225. O sea los resultados obtenidos no
apoyan a la afirmación del cardiólogo, con un nivel de confianza del
90%.

EJEMPLO 3.4. En un estudio de neonatos en una ciudad, se constató que la


estatura promedio de un neonato es 40 cm, se cree como consecuencia de algunos
tratamientos durante la gestación estas estaturas varían. La hipótesis nula es que
no hay cambios en la longitud media (P = 40). La hipótesis alterna es que ha
ocurrido un cambio (P z 40). Pruebe esta hipótesis nivel de significación de 0,02.
Si las estaturas de doce neonatos seleccionados aleatoriamente son: 42, 39, 41,
45, 43, 40, 46, 42, 43, 37, 38, 44.
Solución
Formulemos la hipótesis nula y alternativa:
H0: P = 40 (la estatura promedio del neonato es de 40 cm)
H1: P z 40 (la estatura promedio del neonato no es 40 cm).
Procedamos a probar la hipótesis en forma directa usando el Minitab, para ello,
activamos los siguientes comandos.
Estadísticas ►Estadística básica ► elegir t de 1 muestra… ► seleccionar
Neonato ► activar el botón Opciones…► escribimos en Nivel de confianza
98,0, seleccionar en Hipótesis alterna, Media z media hipotética ► Aceptar /
Aceptar.

Figura 3-12. Ventana de diálogo de t de 1 muestra para el ejemplo 3.4.


132

Veremos en la ventana Sesión, los siguientes resultados.


Prueba
Hipótesis nula H΋: μ = 40
Hipótesis alterna HΌ: μ ≠ 40
Valor T Valor p
2.08 0.062

Interpretación: El valor de p = 0,062 > D = 0,02, NO se rechaza


la hipótesis nula y se concluye que la estatura promedio de los
neonatos en la ciudad es aproximadamente de 40 cm, con un 98%
de confianza.

3.6.3. Prueba para una proporción poblacional: Muestra grande y


desviación estándar poblacional supuesta conocida.
Para estimar una proporción (o porcentaje) de ocurrencia de un evento, por
ejemplo el porcentaje de estudiantes que practican fútbol en una universidad, el
porcentaje de votantes que favorecen a un cierto candidato, etc. Se necesita
definir una variable aleatoria X que indique el número de veces que ocurre el
evento en una muestra de tamaño n y con probabilidad de éxito p. Esta prueba
procede si el tamaño de muestra es grande, para n.p > 5, de acuerdo al cuadro:

Caso I Caso II Caso III


H0: S t So H0: S = So H0: S d So
H1: S < So H1: S z So H1: S > So

Prueba Estadística
pˆ  S o
Z calc
p.(1  p) / n
Decisión
Si Zcalc < Z1D, Si «Zcalc «> Z1D/2, Si Zcalc > –Z1D,
se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.5. Se afirma que en el último ciclo de estudios de una universidad


privada, no más del 30% de alumnos trabajan y estudian. Para verificar esta
sentencia se toma una muestra aleatoria de 300 alumnos del último ciclo de
estudios donde se encontró que trabajan y estudian 75. De acuerdo a lo
expresado ¿Se puede seguir manteniendo la afirmación que no más del 30% de
estudiantes trabajan y estudian con un 95% de seguridad?
133

Solución
Paso 1. Formulación de hipótesis nula y la alternativa:
H0: S t 0,30 (los alumnos del último ciclo que trabajan y estudian es mayor o
igual al 30% del total).
H1: S < 0,30 (los alumnos del último ciclo que trabajan y estudian es inferior al
30% del total).
Paso 2. Nivel de significación: D = 0,05 = 5%.
pˆ  S
Paso 3. El estadístico de pruebas: Z
p(1  p)
n
Paso 4. Determinación de la región de rechazo de H0: De acuerdo a la hipótesis
alternativa S < 0,30 la prueba es unilateral, de una cola a la izquierda. Usamos
la distribución normal: 1  D = 1  0,05 = 0,95; luego Z0,95 = 1,64, como la cola
es a la izquierda, por simetría zteórica = 1,64.

Paso 5. Cálculo del estadístico de prueba:


75
En el problema tenemos: S = 0,30, pˆ 0,25 , p = 0,30 y n = 300
300
0,25  0,30  0,05
Z 1,889 | 1,9
(0,30)(0,70) 0,21
300 300
Paso 6. Toma de decisión. Como el valor del estadístico de prueba zcalc = 1,9
< 1,64 cae en la región de crítica, se rechaza la hipótesis nula y se acepta la
hipótesis alternativa. Es decir, con este resultado queda fundamentada la
afirmación de que los alumnos del último ciclo de estudios de una universidad
privada trabajan y estudian en no más del 30% a un nivel de confianza del
95%.

Para resolver el EJEMPLO 3.5, con el Minitab.


Iniciamos activando los siguientes comandos: Estadísticas ► Estadística
básica ► elegir 1-Proporción… ► en Número de eventos digitamos 75, en
Número de ensayos: 300, y en Proporción hipotética: 0,30 ► activar el botón
Opciones…► escribimos en Nivel de confianza 95,0 y en Hipótesis alterna
seleccionar Proporción < proporción hipotética, como se muestra en la figura
3.13.
134

Figura 3-13. Ventana de diálogo de 1-Proportion para el ejemplo 3.5.


Accionando Aceptar/Aceptar, obtenemos en la ventana Sesión:
Prueba
Hipótesis nula H΋: p = 0.3
Hipótesis alterna HΌ: p < 0.3
Valor Z Valor p
-1.89 0.029

Interpretación: Observamos que el valor de “p” calculado desde


los datos: 0,029 que es inferior al nivel de significancia 0,05, se
rechaza la hipótesis nula. Es decir, el número de alumnos del
último ciclo que trabajan y estudian es inferior al 30% del total a
un nivel de confianza del 95%.

EJEMPLO 3.6. Un hospital afirma que el 25% de los nacimientos que ocurren
allí son por cesárea. Un médico que trabaja en dicho hospital piensa que ese
porcentaje es mayor. Para comprobar su afirmación recolecta información de
los 32 nacimientos que ocurrieron durante una semana, al 95% de confianza con
los siguientes datos:
cesárea normal cesárea normal normal normal normal cesárea
normal cesárea normal cesárea normal normal normal normal
normal cesárea normal normal cesárea normal normal cesárea
normal cesárea normal cesárea normal cesárea normal normal
¿Existe suficiente evidencia estadística para apoyar la afirmación del médico?
Solución
Una vez planteado las hipótesis nulas y alternativa:
135

H0: S d 0,25 (menor o igual del 25% de partos son por cesárea)
H1: S > 0,25 (más del 25% por cesárea y menos del 75% de los partos son
normales).
Solución:
Para resolver el problema del EJEMPLO 3.5, con el Minitab.
Accionamos los comandos: Estadísticas ►Estadística básica ► elegir 1
proporción… ► seleccionar parto ► activar el botón Opciones…►
escribimos en Nivel de confianza 95,0, seleccionar en Hipótesis alterna, Media
> media hipotética ► Aceptar / Aceptar.

Figura 3-14. Ventana de diálogo de 1-proporción para el ejemplo 3.6

El contenido de la ventana Sesión, resulta:


Prueba e IC para una proporción: Parto
Prueba
Hipótesis nula H΋: p = 0.25
Hipótesis alterna HΌ: p > 0.25
Valor Z Valor p
4.90 0.000

Interpretación: Observamos que el valor de p = 0,00 es menor que


el nivel de significancia 0,05, por lo tanto se rechaza la hipótesis
nula. Es decir, hay evidencia suficiente para concluir que la
afirmación del médico (más del 25% de partos son por cesárea) es
correcta, con 95% de confianza.
136

3.6.4. Prueba de hipótesis para una varianza poblacional


La fórmula para la prueba de hipótesis es como se resume en el cuadro:
Caso I Caso II Caso III
H0: V t V 0 H0: V V 02 V 2 d V 02
2 2 2
H0:
H1: V 2  V 02 H1: V 2 z V 02 H1: V 2 ! V 02
Estadístico de prueba
2 (n  1).s 2
x con n – 1 gl
calc
V 02
Decisión
2 2 2 2 2 2 2 2
Si x calc
 x
1D
Si xcalc  x
1D / 2
ò x calc
! x 1D / 2
Si x calc
! x
1D

se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.7. Los siguientes datos representan el espesor de la membrana del


plasma (medido en angstrom) de 22 especies de plantas:
80, 90, 85, 82, 75, 58, 70, 84, 87, 81, 88, 61, 73, 84, 63, 70, 78, 95, 77, 52, 85,
66.
Probar si hay suficiente evidencia para concluir que la varianza poblacional sea
mayor que 100, con un nivel de significancia del 5 por ciento
Solución
Paso 1. Planteo de hipótesis nula y la alternativa:
H0: V2 d 100 (la varianza poblacional es menor o igual a 100).
H1: V2 > 100 (la varianza poblacional es mayor que 100).
Paso 2. Nivel de significación: D = 0,05 = 5%.
2 (n  1).s 2
Paso 3. El estadístico de prueba: x , con 22 – 1 = 21 gl.
V 02
Paso 4. Determinación de la región de rechazo de H0: Como el valor teórico de
la Chi-cuadrada con 21 grados de libertad al 0,05 de significancia es
2 2
x 0, 95
(21) 32,67 . La región de rechazo de la hipótesis nula H0 es: x ! 32,67 .

Paso 5. Cálculo del estadístico de prueba, de los datos que se dan, se tiene que
la varianza muestral es s2 127,02 , luego:
2 (22  1).(127,02) 2667 ,42
x cal 26,6742
100 100
137

Paso 6. Toma de decisión. Como el valor del estadístico de prueba zcalc =


26,6742 < 32,67 cae en la región de aceptación (de no rechazo) de la hipótesis
nula. Por consiguiente No hay evidencia suficiente para decir que la varianza
poblacional es mayor que 100, con 95% de confianza.

Resolución del Ejemplo 3.7, con el Minitab.


Se accionan los comandos: Estadísticas ►Estadística básica ► elegir 1
varianza… ► variable Plasma ► escribir en Desviación estándar hipotética 10
► activar el botón Opciones…► escribir Nivel de confianza 95,0, seleccionar
en Hipótesis alterna: Varianza ► Varianza hipotética ► Aceptar / Aceptar.

Figura 3-15. Ventana de diálogo de 1-varianza para el ejemplo 3.7


El contenido de la ventana Sesión, resulta:

Prueba para una varianza: Plasma


Prueba
Hipótesis nula H΋: σ² = 100
Hipótesis alterna HΌ : σ² > 100
Estadística
Método de prueba GL Valor p
Bonett — — 0.176
Chi-cuadrada 26.63 21 0.183

Interpretación: Observamos que el valor de p = 0,183 es mayor


que el nivel de significancia 0,05, por lo tanto, no se rechaza la
hipótesis nula. Es decir, no existe evidencia para afirmar que la
varianza es mayor que 100, con 95% de confianza.
138

3.7. PRUEBA DE HIPÓTESIS PARA COMPARACIÓN DE DOS


PARÁMETROS POBLACIONES
En muchas investigaciones se suelen comparar los estadísticos de dos
poblaciones para tomar decisión acerca de la hipótesis. Entre las comparaciones
destacan el de las medias P1 y P 2 , cuyos usos podemos destacar en:

i Educación: Comparar las calificaciones de las pruebas resultantes de dos


métodos de enseñanza para elegir el mejor.
i Medicina: Determinar cuál de dos tratamientos es más efectivo para curar
cierta enfermedad.
i Deportes: Comparar dos estrategias defensivas en el fútbol examinando la
delantera del contendor.
i Leyes: Comparar dos normas municipales de una ciudad en cuanto al tiempo
promedio de su aplicación y efectividad.
i Ciencia: Comparar el uso de nuevos paradigmas o descubrimientos frente a
lo antiguo, respecto a su viabilidad.
i Religión: Comparar actitudes o comportamiento de las personas creyentes
frente a la lectura de las citas bíblicas.
i Fabricación: Comparar rendimiento de artefactos o máquinas en función del
tiempo de uso.
i Agricultura: Comparar dos tipos de fertilizantes respecto a la cosecha
producida bajo su uso durante un período agrícola.

3.7.1. Prueba de hipótesis para diferencia de medias de dos poblaciones:


varianzas V 1 y V 2 supuestas conocidas
2 2

Si los tamaños de las muestras n1 y n2 extraídos de dos poblaciones son


suficientemente grandes (independientes de tamaños (n1 t 30 y n2 t 30), un
estimador puntual de la diferencia de medias P1  P 2 es la estadística X 1  X 2
cuyo valor x 1  x 2 es la estimación puntual, entonces la estadística X 1  X 2 es
aproximadamente normal N ( P1  P 2 , V 1 / n1  V 2 / n 2 ) .
2 2

Si x 1 y x 2 son valores de X 1 y X 2 las medias que resultan de dos muestras


independientes de tamaños n1 y n2 seleccionadas de dos poblaciones con
139

varianzas V 1 y V 2 supuestas conocidas, en este caso para la prueba de hipótesis


2 2

se usa el estadístico de prueba que están resumidas en el cuadro:

Caso I Caso II Caso III


H0: P1 t P2 H0: P1 = P2 H0: P1 d P2
H1: P1 < P2 H1: P1 z P2 H1: P1 > P2
Estadístico de prueba
(X1  X 2)
z
calc
V2 V2
1  2
n n
1 2
Decisión
Si zcalc < Z1D, Si Zcalc < –z1D/2 ó Zcal > z1D/2 Si Zcalc > –z1D
se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.8. La compañía de servicios de neumáticos, ha efectuado un


estudio sobre la distancia que recorren en su vehículo a dos grupos
ocupacionales. En una muestra de 35 ingenieros, el número promedio de
kilómetros recorridos al año fue de 14500 con una desviación estándar de 3200
km; mientras en una muestra de 40 médicos, el kilometraje fue de 13450 con
una desviación estándar de 1950 km. ¿Se puede afirmar que los kilómetros
recorrido por los ingenieros y médicos son diferentes, para D = 0,05?
Solución
En el enunciado del problema, tenemos los siguientes datos:
X1 14500 V1 = 3200 n1 = 35
X2 13450 V2 = 1950 n2 = 40

Paso 1. Hipótesis nula e hipótesis alternativa:


H0: El recorrido en kilómetros de los ingenieros y médicos son iguales: P1 = P2
H1: El recorrido en kilómetros de los ingenieros y médicos son diferentes: P1 z
P2.
Paso 2. Nivel de significación: D = 0,05
Paso 3. Estadístico de prueba: z X1  X 2
V2 V2
1  2
n n
1 2
140

Paso 4. Región crítica: Con el nivel de significación D = 0,05 y para una prueba
de hipótesis bilateral, el valor teórico de Z es z1D/2 = 1,96.

Luego, la región crítica para Z es el intervalo R.C. = { z < 1,96 , z > 1,96}

Paso 5. Cálculo del estadístico de prueba:


X1  X 2 14500  13450 1050
z calc 1,68
s2
s 2
(3200 ) 2
(1950 ) 2 622,6
1
 2

n1 n2 35 40

Paso 6. Decisión: Puesto que zcalc = 1,68 < 1,96, no se rechaza la hipótesis nula;
y podemos concluir, con un nivel confianza del 95% los kilómetros recorridos
que hacen los ingenieros y los médicos son aproximadamente iguales.
OBSERVACIÓN: En el Minitab no se contempla la prueba de hipótesis para
la diferencia de dos medias en la distribución Z.
3.7.2. Comparación entre dos medias poblacionales usando muestras
independientes con varianzas desconocidas supuestas iguales
Supongamos que se tiene dos poblaciones distribuidas normalmente con medias
desconocidas P1 y P2 respectivamente. Se puede aplicar una prueba t de Student
para comparar las medias de dichas poblaciones basándonos en dos muestras
independientes tomadas en ellas. Para una muestra de tamaño n1 , media x 1 y
2 2
varianza s1 y una segunda muestra de tamaño n2 , media x 2 y varianza s 2 .

Para varianzas poblacionales son iguales ( V 1 V 22 V 2 ) el estadístico de prueba


2

es:
(X 1  X 2)
t cal
§1 1·
S C ¨¨  ¸¸
© n1 n2 ¹
Se distribuye como una t con n1  n2  2 grados de libertad. En este caso la
varianza poblacional muestral V es estimada por una varianza combinada de
2

las varianzas de las dos muestras tomadas, a través de la siguiente fórmula:

(n1  1) s12  (n1  1) s 22


S C2
n1  n2  2
La fórmula para el cálculo de estadístico de prueba, se resume en el cuadro de la
siguiente página:
141

Caso I Caso II Caso III


H0: P1 t P2 H0: P1 = P2 H0: P1 d P2
H1: P1 < P2 H1: P1 z P2 H1: P1 > P2
Estadístico de prueba
(X 1  X 2 )
t calc con n1 + n2 – 2 grados de libertad
§1 1 ·
sC ¨¨  ¸¸
© n1 n2 ¹
Decisión
Si tcalc < t1D, Si tcalc < t1D/2 ó tcal > –t1D/2, Si tcalc > –t1D,
se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.9. Una muestra de calificación en un examen presentado en la


asignatura de estadística es:
Varones: 14,4 13,8 19,6 13,2 17,0 15,2 15,8 16,0 15,4
Mujeres: 16,2 13,4 18,0 15,6 16,2 16,0 15,2 16,8
Al nivel de significación del 0,01, ¿la calificación media de las mujeres es más
alta que la calificación media de los varones?
Solución
Al calcular algunos estadísticos necesarios tenemos:
Mujeres X m 15,93 sm = 1,32 n= 9

Varones X v 15,60 sv = 1,90 n=8


Paso 1. Hipótesis nula e hipótesis alternativa:
H0: La calificación medía de las mujeres es menor o igual que de los varones:
Pm d Pv
H1: La calificación media de las mujeres es mayor al de los varones: Pm > Pv.

Paso 2. Nivel de significación: D = 0,01


(X 1  X 2 )
Paso 3. Estadístico de prueba: t
§1 1 ·
S C2 .¨¨  ¸¸
© 1
n n 2 ¹

Paso 4. Región crítica: Con el nivel de significación D = 0,01 y para una prueba
de hipótesis unilateral con cola a derecha de T es t(1D)(15) = 2,602.

Luego, la región crítica para t es el intervalo R.C. = ] 2,602 , +f[


142

Paso 5. Cálculo del estadístico de prueba:


Calculamos la varianza combinada:

(nm  1) s m2  (nv  1) s v2 (8  1)(1,32) 2  (9  1)(1,90) 2


S C2
n1  n2  2 892

(7)(1,7424 )  (8)(3,61) 41,0768


| 2,74
15 15

(X 1  X 2 ) 15,93  15,60 0,33


t calc 0,413
§1 1 · §1 1· 0,80
S C2 .¨¨  ¸¸ (2,74)¨  ¸
© 1
n n 2 ¹ ©8 9¹

Paso 6. Decisión: Puesto que zcalc = 0,413 < 2,602, no se rechaza la hipótesis
nula. En efecto, se puede concluir con riesgo de 1% (o 99% de confianza) que
los calificativos obtenido por las mujeres en el curso de estadística es menor o
igual a los calificativos obtenido por los varones.

Desarrollo del EJEMPLO 3.9 usando el Minitab.


Para esto procedemos a ejecutar los siguientes comandos:
Estadísticas ► Estadística básica ► elegir t de 2 muestras … ► seleccionar
como Muestra 1: la variable Mujeres y Muestra 2: la variable Varones y ►
activamos Opciones… digitamos en Nivel de confianza: 99,0, y seleccionamos
Diferencia > media hipotética. Luego Aceptar/Aceptar en la ventana de
diálogo que se muestra en la figura 3-16.

Figura 3-16. Ventana de diálogo de t de 2 muestras… para el ejemplo 3.9.

El resultado que obtenemos en la ventana Sesión, es el siguiente:


143

Prueba T de dos muestras: mujeres, varones


Prueba
Hipótesis nula H΋: μΌ - μ΍ = 0
Hipótesis alterna HΌ: μΌ - μ΍ > 0
Valor T GL Valor p
0.40 15 0.346

Interpretación: El “p = 0,346” es mayor que el nivel de significancia


0,01, por lo tanto no rechazamos la hipótesis nula; es decir a un 99%
de confianza no hay evidencia de que los calificativos en estadística
obtenido por las mujeres sea mayor que de los varones.

EJEMPLO 3.10. Al administrar una prueba de matemática a los alumnos del


quinto grado de secundaria de las instituciones educativas privadas y públicas
de una ciudad se obtuvieron los siguientes calificativos:
Alumn. Calificativo Insti.Educ.
1 58 estatal
2 64 estatal
3 64 privada
4 70 estatal
5 77 privada
6 64 privada
7 72 privada
8 63 privada
9 69 estatal
10 62 estatal
11 62 estatal
12 63 estatal
13 70 privada
14 69 estatal
15 65 privada
Se desea comparar si los estudiantes de Instituciones Educativas Estatales y
Privadas tienen diferente rendimiento en la asignatura de Matemática, con una
confiabilidad del 95%.
Solución
Paso 1. Hipótesis nula e hipótesis alternativa:
H0: El rendimiento académico de los alumnos de IE estatal y privada son
iguales: P1 = P2
H1: El rendimiento académico de los alumnos de IE estatal y privada son
diferentes: P1 z P2.
144

Para resolver el EJEMPLO 3.10 usando el Minitab.


Activamos los siguientes comandos: Estadísticas ► Estadísticas básicas ►
elegir t de 2 muestras… ► en Muestras seleccionamos la variable
Calificativos y en Subíndices seleccionamos Insti.Educ. ► siendo la ventana
de diálogo lo que muestra la figura 3-17:

Figura 3-17. Ventana de diálogo de t de 2 muestras para el ejemplo 3.10.

Los resultados que se obtienen en la ventana Sesión, son los siguientes:


Prueba T e IC de dos muestras: Calificativo; Insti.Educa.
Método
μΌ: media de Calificativo cuando Insti.Educa. = estatal
μ΍: media de Calificativo cuando Insti.Educa. = privada
Diferencia: μΌ - μ΍
Prueba
Hipótesis nula H΋: μΌ - μ΍ = 0
Hipótesis alterna HΌ: μΌ - μ΍ ≠ 0
Valor T GL Valor p
-1.31 13 0.212

Interpretación: Como el valor P = 0,212 es mayor que el nivel de


significancia 0,05, no se rechaza la hipótesis nula y se concluye que
no hay evidencia de que los alumnos de las instituciones educativas
estatales y privadas tengan rendimientos académico diferentes, con un
nivel de confianza del 95%. Notemos que el grado de libertad de la t
es 13.

Eligiendo la opción Gráficas de la ventana de diálogo, se tiene el diagrama de


caja de datos de los dos grupos como aparece en la siguiente figura 3-18.
145

Gráfica de caja de Calificativo

76

72
Calificativo

68

64

60

estatal privada
Insti.Educa.

Figura 3-18. Comparación de los grupos usando diagrama de caja de datos.

Interpretación: En el Diagrama de caja de datos de la figura 3-18, se


puede apreciar una marcada diferencia entre las medianas (representadas
por las líneas dentro de la caja), y las medias (representadas por los
puntos al interior de caja) de los grupos. Mientras en variabilidad los dos
grupos son similares, pues los dos diagramas tienen alargamiento similar.

3.7.3. Prueba de hipótesis para datos Pareados


En este caso se tratan de comparar dos métodos o tratamientos pero, se quiere
que las unidades experimentales sean los más parecidos posibles para evitar la
influencia de otros factores en la comparación, el valor del estadístico de prueba
t, se calcula a través de:
d
t
sd / n
donde d es la media de las diferencias, s d es la desviación estándar de las
diferencias muestrales, y n es el tamaño de la muestra.
La fórmula para hallar la prueba de hipótesis de datos pareados, es:
Caso I Caso II Caso III
H0: Pd t 0 H0: Pd = 0 H0: Pd d 0
H1: Pd < 0 H1: Pd z 0 H1: Pd > 0

Estadístico de prueba
d P
t calc , n – 1 grados de libertad
s/ n
Decisión
Si tcalc < t1D, Si tcalc > t1D/2 ó tcalc < -t1D/2, Si tcalc > -t1D
se rechaza H0 se rechaza H0 se rechaza H0
146

Para la prueba de hipótesis de datos pareados con el Minitab, se sigue la


secuencia Estadísticas ►Estadística básica ► t pareada se hacen inferencias
para muestras pareadas, como se muestra en la figura 3-19.

Figura 3-19. Ventana de diálogo de t -pareada del menú Estadísticas

EJEMPLO 3.11. Con la finalidad de reducir la producción defectuosa se


calibra las 10 máquinas que se utilizarán para encapsular. A continuación se
presenta la información de los productos defectuosos (en unidades) antes y
después de la calibración. Utilice D = 0,05 para probar que la calibración tuvo
efectos positivos en la reducción del número de defectuosos. Los datos
registrados se presentan a continuación:
MÁQUINAS 1 2 3 4 5 6 7 8 9 10
Antes 73 77 68 62 72 80 76 64 70 72
Después 68 72 64 60 71 77 74 60 64 68
Cálculos previos
Antes Después Diferencias: d d2
73 68 5 25
77 72 5 25
68 64 4 16
62 60 2 4
72 71 1 1
80 77 3 9
76 74 2 4
64 60 4 16
70 64 6 36
72 68 4 16
36 152

Solución
De la tabla:
147

1,497
.n = 10, 6d = 36, Sd = 1,497, d 3,6 y error estándar Sd 0,47
n 10

Paso 1. Planteo de hipótesis nula y alternativa:


H0: Pd d 0 (la calibración no tuvo efectos en la reducción de máquinas con
defectos)
H1: Pd >0 (la calibración tuvo efectos positivos en la reducción de defectos en
la máquina)
Paso 2. Nivel de significación: D = 0,05
d  Pd
Paso 3. Estadístico de prueba: t , con los supuestos que la población (d
Sd / n
) se distribuye normalmente, la muestra se ha elegido al azar.
Paso 4. Región crítica: t0,95(9) 1,833 , entonces, si (tcalc d 1,833) se acepta H0, en
caso contrario se rechaza.
d  Pd 3,6  0
Paso 5. Cálculo del estadístico de prueba: tcalc 7,66
sd / n 0,47

Paso 6. Toma de decisión:


Como tcalc = 7,66 > 1,883. Se rechaza la hipótesis nula y se acepta la hipótesis
alternativa. Es decir, que la calibración de las máquinas tuvo efectos positivos
en la reducción de productos defectuosos, al 95% de confianza.

EJEMPLO 3.12. Quince pacientes del corazón se sometieron a un régimen de


dieta especial para perder peso. Se registraron sus pesos en kilogramos, antes
de empezar la dieta y después de un mes de seguirla. Siendo los pesos:
Antes: 62, 66, 65, 88, 76, 57, 60, 59, 54, 68, 69, 63, 60, 56, 84
Después: 57, 62, 63, 78, 75, 58, 60, 52, 53, 65, 66, 59, 58, 57, 75.
Suponga que las diferencias de los pesos se distribuyen normalmente. Para un
nivel de significación de 0,1; realice la prueba de hipótesis para determinar si la
dieta es efectiva.
Solución
Si Pd representa la media poblacional de las diferencias, entonces
H0: Pd = 0 (la dieta aplicada no causa efecto alguno)
H1: Pd z 0 (la aplicación de la dieta fue efectiva, el peso antes de la dieta era
mayor y después de la misma bajó).
148

Probemos la hipótesis del ejemplo 3.13 usando el Minitab.


Para esto procedemos a activar los siguientes comandos: Estadísticas ►
Estadística básica ► elegir t pareada… ► en Muestra 1 seleccionamos la
columna Peso-antes y en Muestra 2 seleccionamos Peso-después ► activando
Opciones… escribir 90,0 en Nivel de confianza ► seleccionado Diferencia z
diferencia hipotética ► Aceptar/Aceptar, se tiene:

Figura 3-20. Ventana de diálogo de t pareada para el ejemplo 3.12.

Los resultados que obtendremos en la ventana Sesión serán como sigue:

Prueba, para t-pareada


Hipótesis nula H΋: diferencia_μ = 0
Hipótesis alterna HΌ: diferencia_μ ≠ 0
Valor T Valor p
3.78 0.002

Interpretación: El valor p = 0,002 es menor que el nivel de


significancia 0,1; entonces rechazamos la hipótesis nula y
concluimos de que la aplicación de la dieta fue efectiva en la
disminución del peso del paciente, con el 90% de confianza.

3.7.4. Prueba de hipótesis para comparación de dos proporciones (en


poblaciones independientes)
Algunas veces se hacen comparaciones de una proporción con que ocurre un
mismo evento en dos poblaciones distintas. Esto conlleva a hacer inferencias
acerca de la diferencia S 1  S 2 . Supongamos que de una de las poblaciones
saquemos una muestra de tamaño n1 y que en ella ocurre el evento X1 veces y
149

de la segunda población sacamos una muestra de tamaño n2, y que en ella ocurre
el evento X2 veces.
Los parámetros que son las proporciones poblacionales tienen estimadores en
X1 X2
cada una de las muestras: p1 y p2 , cuando las muestras son
n1 n2
( p1  p2 )  (S 1  S 2 )
suficientemente grandes, la estadística, z tiene una
§1 1·
p(1  p)¨¨  ¸¸
© n1 n2 ¹
n1 . p1  n2 . p2
distribución aproximadamente normal donde p
n1  n1
Si la hipótesis nula es verdadera, una estimación común de S 1 S 2 S , es
n1 . p1  n2 . p 2
p y podemos usar como el estadístico de prueba
n1  n1
( p1  p 2 )
z
1 1
p(1  p)(  )
n1 n2
La fórmula para el cálculo de estadístico de prueba, se resume en el cuadro:
Caso I Caso II Caso III
H0: S1 t S 2 H0: S1 = S2 H0: S1 d S2
H1: S1 < S2 H1: S1 z S2 H1: S1 > S2

Estadístico de prueba
( p1  p2 )
z calc
1 1
p.(1  p)(  )
n1 n2
Decisión
Si Zcalc < Z1D, Si Zcalc > Z1D/2 ó Zcalc < -Z1D/2, Si Zcalc > -Z1D,
se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.13. El administrador de la cadena de restaurantes “Las Delicias”,


ha hecho una encuesta entre los clientes en dos ciudades, para averiguar si les
gustaría que en el menú se incluyan sándwiches de jamón y queso. De las 500
personas encuestadas en la ciudad, 200 contestaron afirmativamente, mientras
150 de las 300 en una ciudad cercana también contestaron afirmativamente. El
administrador quiere saber si, en un nivel de 0,05 esos resultados son
significativamente diferentes.
150

Solución
S 1 : Proporción de la población 1
S 2 : Proporción de la población 2
p1 : Proporción de la muestra observada en la población 1.
p2 : Proporción de la muestra observada en la población 2.

Cálculos prévios:
200 150
p1 0,40 n1 = 500 y p2 0,50 n2 = 300
500 300
n1 . p1  n2 . p2 500(0,40)  300(0,50)
p 0,4375
n1  n2 500  300

Paso 1. Hipótesis nula e hipótesis alterna.


H0: S1 = S2 (Los resultados de la encuesta no son diferentes)
H1: S1 z S2. (Los resultados de la encuesta son significativamente diferentes)
Paso 2. Nivel de significación: D = 0,05.
( p1  p 2 )
Paso 3. Estadístico de prueba: z
1 1
p(1  p).(  )
n1 n2
Paso 4. Región crítica: Con el nivel de significación D = 0,05 y para una prueba
de hipótesis bilateral, el valor teórico de Z es z1D/2 = 1,96.
Luego la región crítica para Z es el intervalo R.C. = { z < 1,96 o z > 1,96}
Paso 5. Cálculo del estadístico de prueba:
Estadística de prueba, valor calculado:
( p1  p 2 ) 0,40  0,50
z calc 2,86
1 1 § 1 1 ·
p.(1  p)(  ) 0,44(0,56)¨  ¸
n1 n2 © 500 300 ¹
Paso 6. Decisión: Puesto que zcalc = 2,86 < 1,96, rechazamos la hipótesis
nula H0, y podemos afirmar que con riesgo de 5% (o confianza del 95%), los
resultados de la encuesta en las dos ciudades son significativamente diferentes.
EJEMPLO 3.14. Un médico ha sugerido que un ataque cardiaco es menos
probable que ocurra en personas que practican alguna clase de deporte. Se elige
una muestra al azar de 450 varones, de los cuales 150 practican alguna clase de
deporte y de ellos sólo 12 han sufrido un ataque cardiaco. De los 300 que no
practican deportes 28 han sufrido ataques cardiacos. Probar si los resultados de
las muestras apoyan lo sugerido por el médico. Use D = 0,05
151

Solución
Identifiquemos la Hipótesis nula e hipótesis alternativa:
H0: S1 = S2 (la probabilidad de sufrir ataque cardiaco de los que practican
deporte y de los que no lo hacen son iguales)
H1: S1 < S2 (las probabilidades de sufrir ataque cardiaco de los que practican
deporte es menor de los que no lo hacen)
En Minitab, para realizar la inferencia acerca de la diferencia de dos
proporciones se siguen la secuencia Estadísticas ► Estadística básica ► 2
proporciones ► activando la ventana Datos resumidos. Luego, activando l
ventana de diálogo y seleccionamos la opción diferencia < diferencia hipotética,
obtenemos la ventana de la figura 3.21.

Figura 3-21. Ventana de diálogo de 2 Proporciones para el ejemplo 3.14.

Accionando en Aceptar / Aceptar, los resultados que obtendremos en la ventana


Sesión serán como sigue:
Prueba
Hipótesis nula H΋: pΌ - p΍ = 0
Hipótesis alterna HΌ: pΌ - p΍ < 0
Método Valor Z Valor p
Aproximación normal -0.48 0.316
Exacta de Fisher 0.391

Interpretación: En el resultado aparece el estimado de la diferencia


de las dos proporciones, en la prueba estadística para igualdad de
proporciones se tiene que el valor p = 0,316 es mucho mayor que 0,05.
Se rechaza la hipótesis nula; y se concluye que no hay evidencia
suficiente para afirmar que la probabilidad de sufrir un ataque
cardiaco por los deportistas sea menor a los que no practican
deportes, con un 95% de confianza.
152

OBSERVACIÓN: existen tres maneras de ingresar los datos para hacer esta
prueba estadística:
El primer caso es cuando los datos están en dos columnas, en la primera columna
van las secuencias de éxitos y fracasos y, en la segunda se identifica a qué grupo
pertenece cada uno de ellos y se usa Muestras en una columna.
El segundo caso es cuando la secuenciación de éxitos y fracasos de cada grupo
va en columnas distintas y se usa Muestras en diferentes columnas.
En el tercer caso se dan los totales de éxitos y los tamaños de cada grupo y se
usa Datos resumidos. En el ejemplo 3.14 se utilizó esta última opción.

EJEMPLO 3.15. El presidente de la Comisión de Admisión de una universidad


piensa que el porcentaje de estudiantes admitidos a dicha universidad durante el
último proceso de admisión es mayor de los postulantes que provienen de las
instituciones educativas privadas, respecto a los que vienen de instituciones
educativas estatales. Él basa su afirmación en una muestra de 30 postulantes
tomados al azar, tal como se menciona:
privada (si), pública (si), pública (no), pública (si), pública (no),
privada (si), privada (si), privada (si), privada (no), privada (si),
pública (no), pública (no), pública (no), pública (si), pública (si),
privada (si), privada (si), privada (si), privada (no), privada (si),
privada (no), privada (si), privada (si), privada (no), privada (si)
privada (si), privada (si), pública (no), pública (no), pública (no).
¿Habrá suficiente evidencia para apoyar la afirmación del presidente de
admisión?
Solución
Sea S1 la proporción de estudiantes admitidos proveniente de una institución
educativa privada, S2 la proporción de estudiantes admitidos proveniente de una
institución educativa estatal. Entonces las hipótesis nula y alterna serían:

H0: S1 = S2 (la proporción de estudiantes admitidos que provienen de las


instituciones educativas privadas es igual a los que provienen de las
instituciones educativas estatales)
153

H1: S1 > S2 (la proporción de estudiantes admitidos que provienen de las


institución educativa privadas es mayor a los que provienen de las
institución educativa estatales)
Con el Minitab, activando los comandos: Estadísticas ► Estadística básica ►
2 Proporciones… ► activar la ventana Ambas muestras están en una columna
► ingresar la variable Admitido en Muestras y la variable IE en ID de
muestras. Luego, seleccionando en Opciones…, elegir Diferencia > diferencia
hipotética, accedemos a la ventana de diálogo de la figura 3-22.

Figura 3-22. Ventana de diálogo de 2 Proporciones para el ejemplo 3.15.

Oprimiendo Aceptar/Aceptar, en la ventana Sesión, aparece los resultados:


Prueba
Hipótesis nula H΋: pΌ - p΍ = 0
Hipótesis alterna HΌ: pΌ - p΍ > 0
Método Valor Z Valor p
Aproximación normal 2.65 0.004
Exacta de Fisher 0.020
La aproximación normal puede ser inexacta para muestras pequeñas.

Interpretación: Como el valor p = 0,004 < 0,05, rechazamos la hipótesis


nula y concluimos que las evidencias apoyan a la afirmación del presidente
de la Comisión de Admisión; es decir, de los estudiantes admitidos a la
universidad, los que provienen de instituciones educativas privadas es
mayor a los que provienen de las instituciones educativas públicas; con
una confiabilidad del 95%.
154

3.7.5. Prueba de hipótesis para cociente de varianzas


Si X1 y X2 son variables aleatorias independientes con distribuciones N P1 , V 1
2


y N P 2 , V 2 , respectivamente, lo que se trata de probar es la hipótesis nula
2

H 0 : V 12 V 22 (que es equivalente a H 0 V12 / V 22 1 ) frente a la hipótesis

alternativa H 1 : V 1 z V 2 . Cuando la hipótesis nula es verdadera, el estadístico


2 2

S12
F tiene la distribución F-Snedecor con (n1  1) y (n2  1) grados de
S 22
libertad.
La estadística de prueba basada en los valores observados de las muestras
independientes xi de la variable X1 y xj de la variable X2, respectivamente resulta
s12
Fcalc , la cual se comparará con el valor teórico de la abscisa de la
s22
distribución F con (n1  1) y (n2  1) grados de libertad.
Se rechazará la hipótesis nula si el valor del estadístico calculado se encuentra
ya sea en la cola superior o en la cola inferior correspondiente a D/2, de la
distribución F-Snedecor, con (n1  1) y (n2  1) grados de libertad.
La fórmula para la prueba de hipótesis es como se resume en el cuadro:
Caso I Caso II Caso III
H0: V 1 V 2
2 2
H0: V 1 t V 2 V 12 d V 22
2 2
H0:
H1: V 12  V 22 H1: V 1 z V 2
2 2
H1: V 12 ! V 22
Estadístico de prueba
S12
Fcalc
S 22
con n1– 1 gl en el numerador y n2 – 1 gl en el denominador
Decisión
Si Fcalc  F1D Si Fcalc  F1D / 2 o Fcalc ! F1D / 2 Si Fcalc ! F1D
se rechaza H0 se rechaza H0 se rechaza H0

EJEMPLO 3.16. Un fabricante de bicicletas pone en prueba dos nuevos métodos


de ensamblaje de todo el sistema respecto al tiempo en minutos, con los
resultados siguientes:
Método 1 Método 2
n1 31 n2 25
s12 25 s 22 12
155

Realice una prueba de hipótesis para determinar si existe diferencia entre las
varianzas de los tiempos de ensamblaje para los dos métodos.
Paso 1. Hipótesis nula e hipótesis alternativa
H0: V 1 V 22 (las varianzas de los dos métodos son iguales)
2

H1: V 1 ! V 2 (las varianzas de los dos métodos son diferentes)


2 2

Paso 2. Nivel de significación: D = 0,1.


S12
Paso 3. Estadístico de prueba: F
S 22
Paso 4. Región crítica: Con 30 y 24 grados de libertad: F0,95 (30 , 24) 1,94
Luego la región crítica para F es el intervalo R.C. = { F < 1,94 o F > 1,94}

Paso 5. Cálculo del estadístico de prueba:


Estadística de prueba, valor calculado:
25
Fcalc 2,08
12

Paso 6. Decisión: Puesto que Fcalc = 2,08 > 1,94, rechazamos la hipótesis nula
H0, es decir las varianzas del tiempo de ensamblaje mediante los dos métodos
son diferentes
Para resolver el EJEMPLO 3.16 con el Minitab:
Activamos los comandos Estadísticas ► Estadística básica ► 2 Varianzas…
► activar Varianzas de la muestra ► activar Opciones…, digitar 90,0 y activar
Relación z relación hipotética, como se muestra en la figara 3-23.

Figura 3-23. Ventana de diálogo de 2 Varianzas para el ejemplo 3.16.


156

Oprimiendo Aceptar/Aceptar, en la ventana Sesión, aparece los resultados:


Prueba
Hipótesis nula H΋: σΌ / σ΍ = 1
Hipótesis alterna HΌ: σΌ / σ΍ ≠ 1
Nivel de significancia α = 0.1
Estadística
Método de prueba GL1 GL2 Valor p
F 2.08 30 24 0.069

Interpretación: Como el valor P = 0,069 < 0,10, rechazamos la


hipótesis nula; es decir, las varianzas de los dos grupos son
diferentes, con una confiabilidad del 95%.

EJEMPLO 3.17. El siguiente ejemplo trata de comparar las varianzas de los


puntajes de aprovechamiento de los estudiantes de enfermería y obstetricia en la
asignatura de bioestadística, al 95% de confianza.
Alumno Notas Especialidad
1 15 enfermería
2 13 enfermería
3 14 obstetricia
4 15 enfermería
5 16 obstetricia
6 13 obstetricia
7 15 obstetricia
8 17 obstetricia
9 12 enfermería
10 13 enfermería
11 14 enfermería
12 13 enfermería
13 16 obstetricia
14 15 enfermería
Solución
Las hipótesis nula y alternativa son las siguientes:
H0: V 1 V 2 (las varianzas de los puntajes de aprovechamiento de los
2 2

estudiantes de obstetricia y enfermería son iguales)


H1: V 1 ! V 2 (las varianzas de los puntajes de aprovechamiento de los
2 2

estudiantes de obstetricia y enfermería no son iguales)


En el Minitab, la ventana de diálogo es como muestra la figura 3-24.
157

Figura 3-24. Ventana de diálogo de Prueba de varianzas iguales para el ejemplo 3.17.
Oprimiendo Aceptar/Aceptar, en la ventana Sesión, aparece los resultados:
Prueba
Hipótesis nula H΋: σΌ / σ΍ = 1
Hipótesis alterna HΌ: σΌ / σ΍ ≠ 1
Nivel de significancia α = 0.05
Estadística
Método de prueba GL1 GL2 Valor p
F 0.63 7 5 0.553

Además aparece una gráfica mostrando los intervalos de confianza para cada
uno de las desviaciones estándar y una comparación de la variabilidad de escala
como aparece en la figura 3-25.

Figura 3-25. Intervalos de confianza y gráfica de cajas para varianzas en el ejemplo 3.17.

Interpretación: Como el valor P= 0,553 es mayor que 0,05, aceptamos


la hipótesis nula y se concluye que las notas en la prueba de bioestadística
de los estudiantes de enfermería y obstetricia tienen igual varianza, al
95% de confianza. Esta conclusión corrobora el gráfico de cajas de ambos
grupos que tienen aproximadamente el mismo alargamiento.
158

RESUMEN DEL CAPÍTULO 3


I. Una hipótesis es una predicción acerca de la relación entre dos variables que
afirma que la diferencia entre las mediciones de una variable independiente
corresponderá a diferencias entre mediciones de una variable dependiente. El
propósito teórico de una prueba de hipótesis es corroborar la teoría probando
ideas contra hechos.
II. El propósito estadístico de una prueba de hipótesis es determinar si los efectos
estadísticos de una muestra indican: 1) efectos reales en la población o 2) error
muestral. Los estadísticos de una muestra sólo son herramientas para sacar
conclusiones acerca de una población. Es la población acerca de la cual
finalmente hacemos declaraciones. El objetivo de la prueba de hipótesis es
comprobar la validez de afirmaciones sobre parámetro poblacional.
Una relación estadística entre dos variables afirma que las mediciones de una
variable tienden a fluctuar en congruencia con las mediciones de la otra, lo cual
convierte a una de las variables en un buen predictor de la otra. La variable
predictora es la variable independiente y la variable respuesta es la variable
dependiente.

III. Los procedimientos que se utilizan para la prueba en cuestión son:


A. Plantear la hipótesis nula (H0) y la alternativa (H1).
B. Seleccionar el nivel de significancia.
1. El nivel de significancia es la probabilidad de rechazar una hipótesis nula
verdadera.
2. Los niveles de significancia empleados más frecuentes son 0,01, 0,05 y
0,10; pero es posible cualquier valor entre 0 y 1.
C. Seleccionar el estadístico de prueba.
1. Tal concepto es el valor determinado a partir de la información de la
muestra que se utiliza para decidir si se rechaza la hipótesis nula.
2. La distribución normal estándar, Z, se utiliza como el valor de estadístico
de prueba para muestras grandes, mayores que 30.
D. Plantear las reglas de decisión.
1. La regla de decisión indica la condición cuando se rechaza la hipótesis
nula.
159

2. En una prueba de bilateral, la región de rechazo se divide igualmente entre


la extremidad de valores superior o de los valores inferiores.
3. En una prueba de unilateral (de una cola) la región de rechazo se encuentra
en extremos de valores superiores o de valores inferiores.

E. Seleccionar una muestra, calcular el valor estadístico de prueba, tomar una


decisión acerca de la hipótesis nula e interpretar el resultado.

IV. Un valor P de la probabilidad de que el valor estadístico de prueba sea tan


grande o más que el obtenido, cuando la hipótesis nula es verdadera.

V. Prueba de una hipótesis respecto a la media poblacional.


5.1. La distribución t de Student sirve como valor de estadístico de prueba
cuando:
A. La población muestreada se acerca a una distribución normal.
B. La desviación estándar de la población no se conoce.
C. La muestra contiene menos de 30 observaciones.
5.2. Las características de la distribución t de Student son:
A. Es una distribución continua.
B. Tiene la forma de campana extendida y es simétrica.
C. Es más extensa que la distribución normal estándar.
D. Hay una familia de distribuciones t, dependiendo del número de grados de
libertad.
5.3. En una prueba de una muestra, se compara una media muestral simple con
una media poblacional.
A. Si se conoce la desviación estándar de la población, V, el valor estadístico
de prueba se aproxima a la distribución normal, Z, y se determina mediante:
X P
z a N(0 , 1)
V/ n
Donde X es la media muestral, P es la media poblacional y n es el número
de observaciones en la muestra es grande (mayor que 30).

B. Si no se conoce la desviación estándar de la población, V, se introduce la


desviación estándar de la muestra, s, cuando n es menor que 30, y se tiene:
160

X P
t
s/ n
Donde X es la media muestral, P es la media poblacional, s es la desviación
estándar muesttral y n es el número de observaciones en la muestra y el grado
de libertad es n – 1.

VI. Prueba de hipótesis acerca de dos medias poblacionales


En una prueba de dos muestras se comparan las dos medias muestrales, para
determinar si la muestra provino de dos poblaciones de muestras iguales.
A. Las suposiciones requeridas son:
1. Ambas poblaciones están distribuidas normalmente.
2. Las poblaciones son independientes.
3. Las desviaciones estándar son las mismas en ambas poblaciones.
B. Debido a que se considera que las poblaciones tienen desviaciones
estándares iguales, se combinan las desviaciones estándares de la muestra.
1. La fórmula para la varianza combinada, es:
(n1  1) s12  (n1  1) s 22
S P2
n1  n2  1
donde n1 y n2 representan a los tamaños de las muestras, s1 y s2 a las dos
desviaciones estándares muestrales.
2. El valor del estadístico de prueba se calcula mediante la fórmula:
X1  X 2
t
§1 1 ·
S P2 ¨¨  ¸¸
© n1 n2 ¹
2
donde X 1 y X 2 representan a las dos medias muestrales independientes, S P a
la varianza muestral combinada, y, n1 y n2 a los dos tamaños de muestra.
A. El objetivo es determinar si existe una diferencia entre dos medias
muestrales.
B. Ambas muestras deben ser mayor que 30.
C. El valor estadístico de prueba es:
X1  X 2
z
s12 s 22

n1 n2
VII. Prueba de hipótesis respecto a una relación proporcional.
161

A. Tanto np como n(1 – p) deben ser al menos 5.


p S
B. El valor estadístico de prueba es: z
p (1  p )
n
VIII. Prueba de hipótesis respecto a una relación proporcional.
A. Las dos proporciones muestrales se combinan por medio de la siguiente
fórmula:
n p n p
p pc 1 1 2 2 .
n1  n2
B. El valor del estadístico de prueba es:
p1  p 2 p1  p 2
Z
p.(1  p) p.(1  p) §1 1·
 p.(1  p).¨¨  ¸¸
n1 n2 © n1 n2 ¹
IX. Es importante distinguir entre la significancia práctica y estadística. Una
prueba de hipótesis determina la significancia estadística en términos de un
probable error de muestreo. La significancia práctica tiene que ver con el
hecho de que un hallazgo estadísticamente significativo en realidad signifique
algo en las aplicaciones de los resultados a la realidad.

X. Existen cuatro aspectos de las relaciones estadísticas: a) existencia: sobre la


base del análisis estadístico de una muestra, ¿podemos concluir que existe una
relación entre dos variables entre todos los individuos de la población?; b)
dirección: ¿puede esperarse que la variable dependiente aumente o disminuya
conforme la variable independiente se incrementa?; c) fuerza: ¿en qué grado
se reducen los errores al predecir las puntuaciones de una variable dependiente
cuando una variable independiente se utiliza como variable predictora?; d)
naturaleza (de los resultados): en términos cotidianos o prácticos, Sólo dos
aspectos de una relación se aplican a una prueba de diferencia de medias de dos
grupos, la existencia y la naturaleza.
162

PROBLEMAS PROPUESTOS Nº 3
Prueba Z
1. El administrador de un centro de salud quisiera saber si el tiempo medio
invertido por los pacientes en la sala de espera es mayor que 25 minutos. Una
muestra de 100 pacientes permaneció, 30 minutos entre el centro de triaje y la
atención por el médico especialista. La desviación estándar de la muestra es
de 10 y D = 0,05.
2. Se efectuó un experimento con roedores para estudiar los efectos de cierta
cirugía. Después de la cirugía los roedores fueron entrenados para realizar una
serie de tareas y se calificó a cada uno de ellos en base a su desempeño. El
puntaje medio de los 25 roedores utilizados en el experimento fue 80 con una
desviación estándar de 9. ¿Éstos datos proveen la suficiente evidencia para
indicar que la media de la población es menor que 85? Considere D = 0,05.
3. Una encuesta a 64 laboratorios médicos reveló que el precio medio cobrado
por realizar cierta prueba es de S/. 100.00 con una desviación estándar de S/.
30. ¿Proveen estos datos la suficiente información para indicar que la media
de la población es mayor que 90 al 95% de confianza?
4. Se desea saber si es posible concluir que el consumo medio diario de calorías
de la población rural del departamento de Huánuco es menos de 1900 calorías.
Una muestra de 400 individuos produjo un consumo medio de 1880 y una
desviación estándar de 110, con D = 0,05.
5. Antes de la capacitación de los docentes en las TIC a través de un programa
del ministerio de educación en un distrito del departamento de Apurímac, el
rendimiento promedio de los alumnos del primer grado de secundaria fue de
12,4 puntos. Para determinar si la capacitación docente tuvo efectos positivos
en el proceso enseñanza-aprendizaje de los docentes capacitados se refleja en
el rendimiento académico de los alumnos se observaron al azar 120 alumnos,
dirigidos por los docentes capacitados, obteniéndose un rendimiento promedio
de 13,6 puntos con desviación estándar de 2,2 puntos. Al nivel de significancia
del 0,05 ¿se podría decir que existe evidencia de que el rendimiento promedio
ha aumentado?
6. A partir de los datos de una muestra aleatoria simple. De 100 alumnos
seleccionados en una universidad nacional, se averiguó que los gastos diarios
en promedio es de S/. 42.00, si se considera una desviación estándar de la
163

población de S/. 4.00. ¿Proporcionan estos datos suficiente evidencia como


para decir que la media es diferente de S/. 40.00, considerando un margen de
error del 10%?
Prueba t de Student
7. El Director del centro preuniversitario de una universidad estatal tiene la
percepción de que el rendimiento académico durante el primer año de estudios
en la universidad, de los alumnos ingresantes a través de la institución que
dirige mejora año a año. Sabe históricamente que los alumnos del primer año
han tenido un rendimiento promedio de 13,2 puntos. Para confirmar su
percepción lleva a cabo un estudio, escogiendo una muestra aleatoria de 25
alumnos que ingresaron el año 2009 a través del centro preuniversitario que
dirige, al final del año lectivo 2009. Para dicha muestra obtuvo un rendimiento
promedio de 14 con desviación estándar 0,42 puntos. ¿Existe suficiente
evidencia para decir que es cierta la percepción del Director del centro
preuniversitario? Suponga que la distribución es normal y use D = 0,10.
8. Las cajas de un cierto tipo de cereal procesado por una fábrica deben tener un
contenido promedio de 160 gramos. Por una queja ante el policía municipal de
que tales cajas de cereal tienen menos contenido, un inspector tomó una
muestra de 10 cajas encontrando los siguientes pesos del cereal en gramos:
157, 156, 163, 158, 159, 162, 155, 158, 161, 159.
¿Es razonable que el inspector multe al fabricante? Utilice un nivel de
significación del 5% y suponga que los contenidos tienen una distribución
normal.
9. Una muestra de 20 profesores universitarios aparentemente sanos proporcionó
los siguientes valores de capacidad respiratoria máxima. ¿Es posible concluir
que la media máxima de respiración es de 110 litros por minuto? 132, 33, 98,
108, 67, 169, 54, 203, 190, 133, 96, 30, 187, 22, 63, 160, 84, 110, 156, 136.
Considere D = 0,01. ¿Qué supuestos debe cumplir?
10. Los siguientes datos son las presiones sistólicas sanguíneas (en mm Hg) de
14 pacientes sometidos a terapia medicamentosa contra la hipertensión: 182,
153, 178, 157, 195, 162, 144, 175, 151, 118, 148, 139, 150, 170. ¿Es posible
concluir en base a estos datos que la media de la población es menor que 165?
Considere D = 0,05. ¿Qué supuestos debe cumplir?
Prueba de proporciones
164

11. Se plantean las hipótesis siguientes: H0: S d 0,70 y H1: S > 0,70. En una
muestra de 100 observaciones se reveló que p = 0,75 al nivel de significancia
de 0,05. ¿Puede rechazarse la hipótesis nula?
a) Establezca la regla de decisión.
b) Calcule el valor del estadístico de prueba.
c) Cuál es la decisión respecto a la hipótesis nula.
12. Se plantean las hipótesis siguientes: H0: S = 0,45 y H1: S z 0,45. Una muestra
de 120 observaciones reveló que p = 0,35 al nivel de significancia de 0,05.
¿Puede rechazarse la hipótesis nula?
a) Establezca la regla de decisión.
b) Calcule el valor del estadístico de prueba.
c) ¿Cuál es la decisión respecto a la hipótesis nula?
13. Suponga que hay interés por saber qué proporción de la población de
conductores de tico utilizan con regularidad el cinturón de seguridad del
asiento. En una encuesta a 200 conductores adultos 15 de ellos dijeron que
regularmente utilizan el cinturón de seguridad. ¿Es posible concluir a partir de
estos datos que, en la población muestreada, la proporción de que utilizan
regularmente el cinturón de seguridad del asiento no es del 0,50, para D = 0,1?
14. Una muestra de 100 empleados de un hospital, los cuales habían estado en
contacto con sangre y sus derivados, fue examinada para averiguar si
presentaban evidencia sexológica de hepatitis B. Se encontró que 23 de ellos
presentaron resultados positivos. ¿Es posible concluir a partir de estos datos
que la proporción de individuos que presentaron resultados positivos en la
población muestreada es mayor que 0,15? Sea D = 0,05.
Prueba de hipótesis para relación entre dos poblaciones:
15. Una muestra de 40 observaciones se selecciona de una población, la media
muestral es 102 y la desviación estándar es 5. Otra muestra de 50
observaciones se selecciona de una segunda población, la media muestral es
98 y desviación estándar 6. Realice la siguiente prueba de hipótesis utilizando
el nivel de significación de 0,05.
H0: P1 = P2 y H1: P1 z P2.
a) ¿Es ésta una prueba de una cola o dos colas?, b) Enuncie la regla de
decisión?, c) Calcule el estadístico de prueba, d) Cual es la decisión
respecto a H0?
16. Una muestra de 65 observaciones se seleccionó de una población, con media
muestral de 2,67 y desviación estándar 0,75. Otra muestra de 55 observaciones
165

que se toma de una segunda población tiene media muestral de 2,59 y


desviación estándar 0,66. Efectúa la siguiente prueba de hipótesis utilizando
el nivel de significación de 0,1.
H0: P1 d P2 y H1: P1 >P2.
a) ¿Es ésta una prueba de una cola o dos colas?, b) Enuncie la regla de decisión?,
c) Calcule el estadístico de prueba, d) Cual es la decisión respecto a H0?
17. En una investigación realizada en las carreras profesionales de una
universidad, la población objetivo estuvo integrada por los alumnos
matriculados en las carreras de ingeniería, economía y odontología que en el
año lectivo 2017 fueron en total 1200 alumnos.
Las variables estudiadas fueron:
Rendimiento en la prueba de física.
Rendimiento en la prueba de matemática.
Rendimiento en la prueba de filosofía.

Carrera Número de Notas


alumnos Media Desviación
muestral estándar
Ingeniería 35 13,8 3,4
Economía 40 13,2 2,8
Odontología 55 14,0 3,6
Total 130

Suponiendo normalidad en la distribución, se puede concluir que:


a) ¿El rendimiento académico de los alumnos de ingeniería es mayor
rendimiento de los alumnos de economía, al 95% de confianza?
b) ¿El rendimiento académico de los alumnos de economía es inferior
rendimiento de los alumnos de odontología, al 90% de confianza?
c) ¿El rendimiento académico de los alumnos de odontología es diferente al
rendimiento de los alumnos de ingeniería, al 99% de confianza?
18. Setenta pacientes que sufren epilepsia se dividieron al azar en dos grupos
iguales A y B. El grupo A recibió un tratamiento que incluye dosis diarias de
vitamina D. El grupo B el mismo tratamiento en base a placebo a cuenta de la
vitamina D. el número promedio de ataques convulsivos observados durante
el período de tratamientos en los grupos fueron de 16 y 24, con varianzas de 9
y 12, respectivamente. ¿Estos datos proporcionan evidencia suficiente para
concluir que la vitamina D es efectiva para disminuir el número de ataques
convulsivos? Considere, D = 0,05.
Prueba t de Student
166

19. ¿Es posible concluir que los niños crónicamente enfermos tienden, en
promedio, a tener menos confianza en sí mismos que los niños sanos? Se toma
una prueba para estimar la confianza en sí mismos a 16 niños crónicamente
enfermos y a 21 niños sanos. Los puntajes medios y desviaciones estándar
fueron los siguientes de los niños enfermos fueron: 22,5 y 4,2, y de los sanos
27 y 3,3, respectivamente; considere nivel de significancia 0,10.
20. En una investigación realizada en las carreras profesionales de una
universidad, la población objetivo estuvo integrada por los alumnos
matriculados en las carreras de obstetricia, educación y administración y que
en el año lectivo 2016 fueron en total de 1400 alumnos.
Las variables estudiadas fueron:
Rendimiento en la prueba de psicología.
Rendimiento en la prueba de matemática.
Rendimiento en la prueba de estadística.
Carrera Número de Notas
alumnos Media Desviación
muestral estándar
Administración 20 12,8 2,4
Educación 16 13,0 1,8
Obstetricia 14 13,5 1,6
Total 50

Suponiendo normalidad, se puede concluir con un nivel de significación:


a) ¿El rendimiento académico de los alumnos de administración superior al
rendimiento de los alumnos de educación, al 94% de confianza?
b) ¿El rendimiento académico de los alumnos de obstetricia es superior al
rendimiento de los alumnos de educación, al 93% de confianza?
c) ¿El rendimiento académico de los alumnos de obstetricia y de administración
son diferentes, al 97% de confianza?
21. Un grupo de investigadores colectó datos acerca de las concentraciones de
amilasa en muestra de individuos sanos y hospitalizados. Desean saber si es
posible concluir que las poblaciones son distintas. Los datos son las muestras
de la amilasa de 16 individuos sanos y 23 individuos hospitalizados. Las
medias son: 120 unidades/ml y 96 unidades/ml, respectivamente, y las
desviaciones estándar son 35 unidades/ml y 30 unidades/ml,
respectivamente. Considere nivel de significancia de 0,05.
22. Varios investigadores desean saber si es posible concluir que dos poblaciones
de niños difieren respecto a la edad promedio en la cual pueden caminar por si
solos. Los investigadores obtuvieron los siguientes datos durante un mes:
167

Muestra de población A: 9,0; 9,5; 10,0; 13,0; 11,0; 14,0, 10,0; 9,5; 12,0; 8,5
Muestra de la población B: 9,5; 13,5; 14,0; 13,5; 12,5; 14,5; 12,0; 13,5; 12,0.
Considere nivel de confianza del 95%.
23. Una prueba diseñada para medir las actitudes de las madres en cuanto al
trabajo de parto y expulsión se aplicó a dos grupos de nuevas madres. La
muestra 1 (asistentes) concurrieron a clases de instrucción prenatal impartidas
en el departamento de salud. La muestra 2 (ausentes) no asistieron a dichas
clases. El tamaño de las muestras, medias y desviaciones estándar de los
puntajes de las pruebas son las siguientes: 18; 4,8; 2 y 25; 3,5; 2,5.
¿Proporcionan estos datos la evidencia suficiente para indicar que los
asistentes en promedio, tienen puntajes más elevados que los ausentes con un
riesgo de 0,05?
24. Se midieron las concentraciones de cortisol en dos grupos de mujeres al
momento de dar a luz. Al grupo 1 se le aplicó una operación cesárea de
urgencia después de inducido el parto. Las del grupo 2 dieron a luz mediante
operación cesárea o vía vaginal después de presentarse el trabajo de parto
espontáneamente. El tamaño de las muestras, medias y desviaciones estándar
de los niveles de consumo son las siguientes: 12; 445; 65 y 15; 640; 75.
¿Proporcionan estos datos la evidencia suficiente para indicar que existe una
diferencia en las concentraciones medias del cortisol en las dos poblaciones
al 0,05 de riesgo?
25. Una empresa cortadora de césped. Se proponen dos procedimientos para
instalar el motor en el armazón de una cortadora. La pregunta es: ¿Existe
alguna diferencia en el tiempo medio para montar los motores en las
armazones de las segadoras? Los métodos desarrollados por dos empresas se
designan como procedimiento 1 y procedimiento 2. Para evaluar los dos
métodos propuestos se decidió efectuar un estudio de movimientos y
tiempos. Una muestra de 7 empleados se aplicó el procedimiento 1, y otra de
8 empleados se aplicó el procedimiento 2. Los resultados en minutos se
muestran a continuación:
Procedimiento 1: 2, 4, 9, 3, 2, 5, 8
Procedimiento 2: 3, 7, 5, 8, 4, 3, 4, 9
¿Existe diferencia en los tiempos medios de montaje? Utilice el nivel de
significación de 0,10?
Prueba de proporciones
26. Si las hipótesis nula y alterna son: H0: S1 = S2 y H1: S1 z S2.
168

Una muestra de 200 observaciones de la primera población indicó que X1 es


170. Una muestra de 150 observaciones de la segunda población dio por
resultado una X2 de 120. Utilice el nivel de significancia de 0,05.
a) Exprese la regla de decisión,
b) Calcule la relación proporcional combinada,
c) Determine el valor del estadístico de prueba,
d) ¿Cuál es su decisión respecto a la hipótesis nula?
27. En un estudio para comparar un nuevo tratamiento para la migraña con el
tratamiento habitual, 77 de los 100 individuos que recibieron el tratamiento
habitual respondieron favorablemente. De los 100 individuos que recibieron
nuevo tratamiento, 88 respondieron satisfactoriamente. ¿Proporcionan estos
datos la evidencia suficiente para afirmar que el nuevo tratamiento es más
efectivo que la habitual? Utilice el nivel de significancia de 0,01.
28. El promotor de un programa educativo afirma que el programa tiene mayor
acogida de los varones que mujeres, pero los ejecutivos del programa
consideran que tanto las mujeres y varones tienen el mismo interés. Si en una
muestra aleatoria de 60 varones y 80 mujeres revelaron que 18 mujeres y 15
varones tienen interés por el programa. ¿Puede considerarse significativa la
diferencia al 5%?
4 Diseños Experimentales
El Análisis de Varianza es el procedimiento que se utiliza
para comparar la variabilidad o diferencias que se dan
entre los grupos con las diferencias que existen dentro de
cada grupo. Si las diferencias son significativas se
concluye que se trata de poblaciones distintas en relación
a las características investigadas.

La distribución F de Fisher. Análisis de la Varianza (ANOVA). Análisis


de varianza con un solo factor. Comparaciones múltiples de un solo
factor. Análisis de varianza de dos factores (o de clasificación doble).
Modelos con interacción entre bloques y factores.

OBJETIVOS
Al concluir este capítulo, estará en condiciones de:
1. Identificar la distribución de F de Fisher para aplicar en la prueba de
hipótesis de variables y datos asociados.
2. Analizar las bondades y limitaciones del Análisis de Varianza (ANOVA)
en el proceso de investigación.
3. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
un solo factor para bloques aleatorizados.
4. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
un solo factor para comparaciones múltiples.
5. Realizar pruebas de hipótesis de diseños experimentales (ANOVA) de
dos factores o bloques aleatorizados.
6. Analizar modelos de interacción en diseños de clasificación doble.
170

4.1. INTRODUCCIÓN
El estudio de diseños experimentales se origina en el Reino Unido y, en sus
primeros años, estuvo asociado exclusivamente a los experimentos agrícolas.
La necesidad de diseño de experimentos en la agricultura era evidente se
requería un año completo para obtener una sola observación del rendimiento de
una nueva variedad de trigo. La necesidad de ahorrar tiempo y dinero condujo
a buscar fuentes de obtener más información con muestras más pequeñas.
Motivaciones similares dieron pie a la aceptación y amplio uso de este campo
de estudio en todas las áreas de la experimentación científica. El diseño de
experimentos indica claramente su asociación temprana con las ciencias
biológicas.
Las variables independientes que están relacionados con una variable de
respuesta se denominan factores. El grado de intensidad que un factor asume
en un experimento se denomina nivel. Se usa el término de tratamiento para
describir las combinaciones factor-nivel que se incluirán en el experimento;
porque los experimentos consisten en tratar o hacer algo para alterar la
naturaleza de la unidad experimental, el objeto sobre el cual se hace una
medición. Así podemos resumir, que:
i Las variables independientes relacionadas con una variable de respuesta se
denominan factores.
i El grado de intensidad de un factor o factores se denomina nivel.
i El tratamiento es una combinación específica de niveles de los factores que
intervienen en un experimento.
Un diseño de experimento implica los siguientes cuatro pasos:
1. Seleccionar los factores que se incluirán en los experimentos que son el
objeto de estudio. Por lo general los parámetros considerados son las medias
de las poblaciones asociadas a las combinaciones factor-nivel (o
tratamientos).
2. Escoger el instrumento (combinaciones factor-nivel) que se incluirán en el
experimento.
3. Determinar el número de observaciones (tamaño de muestra) que se harán
para cada tratamiento.
4. Planear la forma en que se asignarán los tratamientos a las unidades
experimentales. Es decir, determinar que diseño se usará.
171

El análisis de varianza en el Minitab18, se obtiene accionando el menú:


Estadísticas ►ANOVA, obtenemos la ventana de diálogo que se muestra en la
figura 4.1.

Figura 4-1. Pantalla del Minitab 18 para el Análisis de Varianza (ANOVA)

4.2. LA DISTRIBUCIÓN F
La denominación de distribución F, se debe a Ronald Fisher, uno de los
fundadores de la ciencia estadística moderna. Esta distribución se utiliza como
un estadístico de prueba en varios casos. Sirve para probar si dos muestras
provienen de poblaciones con varianzas iguales, pero su uso principal es cuando
se desea probar simultáneamente varias medias poblacionales. Esta comparación
simultánea de varias medias se denomina análisis de varianza (ANOVA), que
proviene del inglés “analysis of variance”. Para éstos dos tipos de usos de la F
para la prueba de hipótesis, supone que los datos deben ser de razón o intervalar.

V 22 .s12
Los valores del coeficiente F , se distribuye según una función de
V 12 .s 22
densidad de probabilidad que está definida para todo número real positivo mayor
que cero, pero que se anula para cualquier otro valor, y, depende de las variables
aleatorias en análisis y sus correspondientes grados de libertad.
Si las varianzas poblacionales son dos, se tiene:
s12
F F.4-1
s22

Una vez establecido en número de grados de libertad, que actúan como


parámetros, se construye de distribución de F. Así, por ejemplo, para el gráfico
172

de la figura 4-2 se ha elegido arbitrariamente grados de libertad 12 y 6, con 0,05


de significancia.

Figura 4-2. Curva de la distribución F0,95(12 , 6) de Fisher.

¿Cuáles son las características de la distribución F?


1. Existe una familia de distribuciones F. Un elemento específico de la familia
queda determinado por dos parámetros, los grados de libertad (gl) en el
numerador y los grados de libertad en el denominador. Por ejemplo, la gráfica
de la figura 4-3 muestra la distribución F con 27 grados de libertad en el
numerador y 24 grados en el denominador, y otra curva F con 15 grados de
libertad en el numerador y 6 grados de libertad en el denominador, así las
curvas varía de acuerdo al grado de libertad.

Figura 4-3. Dos curvas de distribución F de Fisher.


173

2. La distribución es continua y su valor es siempre positivo


3. La distribución F tiene sesgo asimetría positiva (o sesgo a derecha.)
4. Sus valores aumenta de 0 a más. A medida que aumenta el valor de F, la curva
se aproxima al eje X, siendo este eje una asíntota para la curva.
OBSERVACIÓN. Existen tablas especiales para los distintos valores críticos
D = 0,05 y D = 0,01, diferentes combinaciones de grados de libertad, las mismas
que se pueden hallar en forma directa mediante el Minitab 18 y otros software
estadísticos, sin necesidad de hacer uso de tablas.

4.3. COMPARACIÓN DE DOS VARIANZAS POBLACIONALES


La distribución F de Fisher utilizaremos en esta sección para probar la hipótesis
de que la varianza de una población normal con la varianza de otras población
normal. Así, esta prueba nos indicará si una población normal tiene más variación
que otra.
Independientemente de lo que se desee de determinar si una población tiene más
varianza que otra, para someter a una prueba de hipótesis, primero se plantea la
hipótesis nula. En ella, se asume que la varianza de una población normal, V 12 , es
igual a la varianza de otra población también normal, V 22 . Siendo la hipótesis
alternativa que las varianzas difieren. Esta prueba de hipótesis se simboliza como:
H0: V 12 V 22
H1: V 12 z V 22
Para realizar la prueba de hipótesis se consigna dos muestras aleatorias de n1 y
n2 observaciones provenientes de dos poblaciones. El valor del estadístico de
prueba es s12 / s22 siendo s12 y s22 las varianzas muestrales respectivas. Si la
hipótesis nula es verdadera (H0: V 12 V 22 ), el valor del estadístico de prueba sigue
una distribución F con n1  1 y n2  1 grados de libertad. Para reducir el tamaño de
la tabla de los valores críticos, la varianza muestral más grande se coloca en el
numerador, así la razón siempre resulta mayor que 1,0. Por lo tanto, el valor
crítico de la cola de valores superiores es el único que se necesita. El valor crítico
se obtiene dividiendo entre dos el valor del nivel de significancia (D/2). Luego,
se busca un número adecuado del grado de libertad.
174

EJEMPLO 4.1. De dos poblaciones normales con desviaciones estándar de 11 y


6, respectivamente, se extraen dos muestras aleatorias independientes con 9 y 11.
Se desea hacer un estudio para ambas poblaciones y después comparar los
resultados. Utilizando un nivel de significación de 0,1. ¿Existe una diferencia en
la variabilidad que muestra ambas poblaciones?
Solución
Datos: V 1 13 , V 2 6 , n1 9 y n2 11
Usando los seis pasos usuales para la prueba de hipótesis se tiene:
Paso 1. Formulación de la hipótesis nula y alternativa.
H0: V 12 V 22 , la variabilidad de las dos poblaciones son iguales.
H1: V 12 z V 22 , las poblaciones tienen varianzas diferentes.
Paso 2. Nivel de significancia: D = 0,1, para prueba bilateral.
Paso 3. Estadístico de prueba, es el cociente de varianzas: s12 / s22
Paso 4. Valores críticos: Se toman en cuenta los grados de libertad: n1–1 = 9–1
= 8 y n2 – 1 = 11 – 1 = 10, para el numerador y denominador, respectivamente,
el valor crítico es 3,072. Es decir, si la razón de las varianzas muestrales, s12 / s22 ,
es mayor que 3,072 se rechaza la hipótesis nula.

Figura 4-4. Región de rechazo de H0 para el ejemplo 4.1 en la curva F.

Paso 5. Cálculo del estadístico de prueba, según la fórmula F.4-1, se tiene:


s12 132 169
F 4,694 .
.s22 62 36
175

Paso 6. Decisión: Como 4,694 > 3,072, se rechaza la hipótesis nula; es decir, las
varianzas poblacionales son diferentes.

4.4. ANOVA
El análisis de varianza (ANOVA) se aplica para comparar tres o más medias
grupales. En lugar de comparar cada media grupal con las demás (como se hace
en la prueba t de Student), el ANOVA compara cada media grupal con la media
total, que es la media para todos los casos en la muestra.
En el ANOVA, las diferencias entre cada media grupal y la media total
constituyen los efectos de la prueba, y reciben el nombre de efectos principales.
Cuando los efectos principales son cero, no existen diferencias entre las medias.
En la prueba de hipótesis, la hipótesis nula establece que las medias son iguales,
lo cual quiere decir que los efectos principales son iguales a cero.
El ANOVA hipotetiza acerca de las diferencias entre medias, pero sus
calificativos se basan en la aplicación de la varianza con respecto a la media total.
Pues la diferencia entre una puntuación individual y la media total constituye una
puntuación de desviación; determina la factibilidad de decir qué parte de una
puntuación de la desviación individual puede explicarse por la pertenencia del
individuo a una categoría (o grupo) de la variable independiente. Así, el foco en
el ANOVA consiste en la explicación de las puntuaciones de desviación, que se
elevan al cuadrado y se promedian para obtener la varianza. De donde toma el
nombre de análisis de varianza.
Con el ANOVA, el rechazo de la hipótesis nula simplemente indica que por lo
menos dos de las medias grupales son significativamente diferentes. Las pruebas
de rango determinan específicamente qué pares de medias difieren entre sí. Las
pruebas de rango establecen qué tanta diferencia entre medias resulta
estadísticamente significativa.
En resumen, cuando se desea explicar una prueba de significación para contrastar
las medias de más de dos muestras se recurre al análisis de varianza, que viene a
ser, una técnica para comprobar la asociación entre una escala nominal y una
escala intercalar, de tal modo que se ponga en evidencia el efecto de los
tratamientos experimentales sobre una característica de una población. La prueba
ANOVA, parte de los siguientes supuestos:
1. Los elementos de la población deben estar distribuidos normalmente.
176

2. Las muestras que se analizan deben proceder de una misma población.


3. Las muestras deben ser aleatorias e independientes.
4. La hipótesis nula deben estar referidas a la igualdad de medias de las
poblaciones.
En la prueba de hipótesis para el ANOVA, los seis pasos a seguir son:
Paso 1. Formulación de hipótesis nula y alterna
H0: Las medias de los grupos son iguales
H1: Al menos una de las medias grupales difiere de los demás
Paso2. Determinar el nivel de significación.
Paso 3. Elegir el estadístico de Prueba.
Paso 4. Identificar la región de rechazo de hipótesis nula (valor teórico de F).
Paso 5. Calcular el estadístico F a partir de los datos de la muestra ( Fcalc: valor
calculado de F).
Paso 6. Toma de Decisión, de rechazo o aceptación de la hipótesis nula.

4.5. DISEÑOS EXPERIMENTALES DE CLASIFICACIÓN SIMPLE (de un


factor)
4.5.1. Cálculo del ANOVA de un criterio para muestras de igual tamaño:
El ANOVA de un criterio para muestras de igual tamaño nos permite enunciar
las hipótesis formuladas del modo siguiente:

H0: Los k grupos tienen medias poblacionales iguales: (P1 = P2 = P3 = …=Pk)


H1: Al menos un grupo tiene distinta media poblacional que los demás.
El método del ANOVA con un factor o criterio requiere del cálculo de dos
estimaciones independientes para V 2 , la varianza poblacional común. Estas dos
estimaciones denotaremos con S EM
2
y S IM
2
.
2
S EM : Se denomina estimación de la varianza entre muestras.
2
S IM : Se denomina estimación de la varianza al interior de las muestras.
El estadístico entonces resulta S EM
2 2
/ S IM y tiene la distribución muestral que sigue
es la distribución F.

Estadístico F, para el ANOVA de un factor o criterio:


2
S EM F.4-2
F 2
S IM
177

Para el ANOVA de un criterio tenemos k muestras de datos como se ilustra en la


tabla:
Muestra 1 Muestra 2 Muestra 3 ... Muestra k
Media muestral x1 x2 x3 … xk
Desviación s1 s2 s3 …. sk
estándar muestral
Tamaño de la n1 n2 n3 …. nk
muestra
La varianza poblacional V 2 , se estima a partir del promedio de la varianza de
las k muestras, la que se denomina estimación de varianza al interior de las
muestras.
Estimación de varianzas al interior de las muestras:
2
S IM
s12  s 22  s 32  ...  s k2 s i2¦ F.4-3
k k
El grado de libertad al interior de la muestra calculamos del siguiente modo:
gl IM .( n  1)  (n  1)  (n  1)  (n  1)  ....  (n  1) k.( n  1)
En efecto,

El grado de libertad para varianza al interior de la muestra


2
S IM , es: gl IM k.( n  1) F. 4-4
Donde k representa al número de muestras y n el tamaño de
cada muestra.
La media de la muestra de k medias muestrales se denomina la gran media y se
denota por: X , y se calcula mediante:
Gran media:

X
x1  x 2  x 3  ...  x k ¦x i F. 4-5
k k

El cálculo de la varianza de las k medias muestrales, se hace según la tabla:


Media muestral Media muestral  X (Media muestral  X )2
x1 x1  X ( x1  X ) 2
x2 x2  X (x 2  X ) 2
x3 x3  X (x 3  X ) 2
. .
.
. .
.
. .
.
xk xk  X
(x k  X ) 2

Siendo la varianza de la muestra de k medias muestrales se obtiene de la suma


de la última columna de la tabla dividida entre k–1, y denota con S EM
2
, es decir:
178

2
S EM
>
n. ( x1  X ) 2  ( x 2  X ) 2  ( x 3  X ) 2  ...  ( x k  X ) 2 @
k 1
Abreviando la fórmula anterior:

La varianza de los k medias muestrales:


2
S EM
n ¦ (x i  X )2 F.4-6
k 1

Como la muestra de medias tiene k elementos, la estimación de la varianza entre


muestras S EM
2
tiene k–1 grados de libertad asociados a ella, que simbolizamos
con: gl EM . Abreviando la fórmula:
2
Grados de libertad de S EM
gl EM k 1 F.4-7
donde k es el número de muestras

La distribución se comporta como F. El valor crítico (o valor teórico) para


determinar la regla de decisión denotaremos con F1– D(k – 1, n.(k – 1)) se obtiene
a partir de la tabla F del Apéndice D, o calculando directamente con el Minitab.
Abreviando la fórmula F.4-8,
Valor crítico para la prueba F:
F1– D(k – 1, n.(k – 1)) F.4-8
donde el número de grados de libertad del numerador es k – 1 y
para el denominador n.(k – 1), siendo D el nivel de significancia.

EJEMPLO 4.2. Se realizó un estudio para conocer en cuánto tiempo, en


minutos, tardan los estudiantes universitarios de Educación, Derecho y Salud, en
resolver un examen de una asignatura común para las tres carreras profesionales.
De cada carrera se escogió al azar 8 estudiantes. Las mismas que se listan a
continuación:
Nro. Educación Derecho Salud
1 21 18 19
2 25 19 28
3 17 22 24
4 16 24 21
5 19 23 25
6 22 20 24
7 18 21 25
8 26 25 20
Utilizando como nivel de significación 0,05, ponemos a prueba la hipótesis para
la diferencia de medias para el tiempo dados en la tabla para las tres carreras.
179

Solución
Paso 1. Hipótesis nula y alterna. Si denominamos PE, PD y PS a los tiempos
medios que demoran en resolver el examen los alumnos de educación, derecho
y salud, respectivamente, entonces la formulación de la hipótesis, sería:

H0: El tiempo que demoran en resolver el examen son iguales: PE = PD = PS.


H1: Al menos dos de los tiempos medios poblacionales no son iguales.
Paso 2. Nivel de significación: D = 0,05.
2
S EM
Paso 3. Estadístico de prueba: F 2
S IM
Paso 4. Regla de decisión. El valor crítico de F, según la tabla del apéndice D,
es: 3,47.
Luego la región de rechazo de la hipótesis nula es el intervalo ]3,47 ; +f[
Paso 5. Cálculo del estadístico de prueba. Los estadísticos muestrales de
Educación, Derecho y Salud, resultan:

Educación Derecho Salud


.n1 = 8 .n2 = 8 .n3 = 8
x1 = 20,5 x 2 21,5 x3 23,25
s12 = 13,43 s22 = 6,00 s32 = 9,07

Calculamos S IM
2
con la fórmula, pertinente:
2 s12  s 22  s32 13,43  6,00  9,07 28,50
S IM 9,5
3 3 3
Calculemos grado de libertad:
gl IM k.( n  1) 3(8  1) 21

Calculemos la gran media y la varianza entre muestras:


x1  x 2  x 3 20,5  21,5  23,25
X 21,75
k 3
Varianza entre muestras:
2
S EM
>
8 (20,5  21,75) 2  (21,5  21,75) 2  (23,25  21,75) 2 @ 31
15,5
3 1 2
Calculamos el grado de libertad entre muestras:
gl EM k 1 3 1 2

Cálculo del valor de F:


2
S EM 15,5
F 2
1,635
S IM 9,5
180

6. Decisión. Como el valor del estadístico de prueba, Fcalc = 1,635 < 3,47, no
rechazamos la hipótesis nula, y concluimos que los tiempos medios que
demoran en resolver el examen los tres grupos de estudio son iguales.
Desarrollo del EJEMPLO 4.2 con el MINITAB
Para hacer la prueba de hipótesis para anova de un solo factor, accionamos en:
Estadísticas ► ANOVA ► Un solo factor… ►Los datos en columna separa
para cada nivel, ingresar, Educación Derecho Salud ► en Opciones activar
Pruebas. Luego, aparece lo que se muestra en la figura 4-5.

Figura 4-5. Ventana de diálogo de un solo factor para el ejemplo 4.2.

Accionando Aceptar/Aceptar, la ventana Sesión se muestra, lo siguiente:


Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 31.00 15.500 1.63 0.219
Error 21 199.50 9.500
Total 23 230.50

Interpretación: Como 0,219 > 0,05 no se rechaza la hipótesis


nula. Es decir, con 95% de confianza se puede afirmar que los
tiempos que demoran en resolver el examen los tres grupos
aproximadamente son iguales.

4.4.2. Cálculo del ANOVA de un factor criterio para muestras de distinto


tamaño:
En un modelo experimental de clasificación simple se trata se comparar varios
grupos, denominados Métodos o Tratamientos. Para ello se usa una variable de
respuesta Y, que es medida en cada uno de los grupos. Los grupos pueden ser
también los niveles de una variable cualitativa que se denomina factor.
181

Los datos recolectados se resumen en el formato siguiente:


Grupo 1 Grupo 2 Grupo 3 … Grupo k
X11 X21 X31 … Xk3
X12 X22 X32 … Xk2
X13 X23 X33 … Xk3
….. … …. … …
X1n1 X2n2 X3n3 … Xknk.
C1 C2 C3 Ck = T

La tabla indica que hay k muestras (o grupos), donde el Grupo 1 tiene n1


observaciones, el Grupo 2 tiene n2 observaciones, y así sucesivamente y el
tamaño de cada una de ellas es ni. La suma de todos los totales de las columnas
se denomina el gran total y representaremos con T, siendo T ¦ X ¦C ij i
.Al

número total de observaciones denotaremos con N ¦n i . Si el gran total se


divide entre el número de medidas u observaciones, entonces el cociente T/N se
llama la gran media y se denota por T . Se calcula mediante F.4-9.
Fórmula para calcular la gran media
T F.4-9
T
N

La suma de los cuadrados respecto de las desviaciones respecto a la gran media


se designa como la suma de los cuadrados para el total y denotamos por SCT.
Esto es:
Suma de cuadrados para el total
SCT ¦( X ij  T ) 2 F.4-10

Fórmulas para el cálculo de la suma de cuadrados, para muestras (o


grupos) de diferentes tamaños
La suma de cuadrados del total SCT se calcula mediante la fórmula F-4-11.
Fórmula de para calcular SCT
T2 F.4-11
SCT ¦
X ij2 
N
, donde N ni¦
La suma de cuadrados entre los Grupos (o Muestras) SCG, se calcula por:
Fórmula para SCG
C12 C 22 C k2 T 2 F.4-12
SCG   
n1 n 2 n k N

La suma de cuadrados del Error, llamado también Suma de Cuadrados


dentro o en el interior de la muestra o de los grupos.
182

Fórmula para SCI


SCI = SCT – SCG
F.4-13

Cada una de las tres sumas de cuadrados, SCT, SCG y SCI, tienen los grados de
libertad asociados a cada uno de ellos, dados por F.4-14.
Grados de Libertad
MCT : gl N  1
F.4-14
SCG : gl k  1
SCI : gl N  k

El cuadrado medio entre las muestras (o grupos) CMG, se calcula mediante:


Cuadrado medio entre muestras
F.4-15
SCG
CMG
k 1
El cuadrado medio al interior (o dentro) de las muestras (o grupos) CMI, está
dado por:
Cuadrado medio al interior de la muestra
F.4-16
SCI
CMI
N k
Tanto CMG como CMI son estimaciones de varianzas, CMG indica la varianza
entre muestras y CMI la variación al interior de las mismas. El valor del
estadístico de prueba F se calcula mediante:
Valor del estadístico F
F.4-17
CMG
F
CMI
Si la F calculada es mayor que una F con k – 1 y N – k al nivel de significación dada se
rechaza la hipótesis nula y se acepta la hipótesis alterna.

Los valores indicados en las diferentes fórmulas, podemos resumir en la siguiente tabla
de análisis de varianza para un factor:

Fuentes de Grados de Suma de Cuadrados F


variación libertad cuadrados medios
Entre .k – 1 SCG SCG CMG
CMG
Grupos k 1 CMI
Interior del .N – k SCI SCI
CMI
Grupo N k
Total N–1 SCT
183

EJEMPLO 4.3. Se desea comparar tres métodos de enseñanza A, B y C, se


elige al azar una muestra de estudiantes de cada método y se aplica una prueba
de salida común para los tres grupos. Obteniéndose los siguientes resultados:
Método A X 12j Método B X 22 j Método C X 32 j
18 324 15 225 13 169
09 81 17 289 14 196
12 144 18 324 16 256
10 100 16 256 15 225
13 169 15 225 16 256
14 196 19 361
18 324
C1 = 76 1014 C2 = 118 2004 C3 = 74 1102
Al nivel de significación de 0,05 ¿se puede concluir que existe una diferencia
significativa entre los calificativos obtenidos con el uso de los tres métodos?
Solución
Paso 1. Hipótesis nula y alterna. Si denominamos: P,A, PB y PC las medias
poblacionales de los calificativos obtenidos con los métodos A, B y C,
respectivamente, entonces la formulación de la hipótesis, sería:
H0: Calificativos obtenidos por los tres métodos son iguales: PA = PB = PC.
H1: Al menos dos medias de calificativos mediante los métodos son distintas.
Paso 2. Nivel de significación: D = 0,05.
CMG
Paso 3. Estadístico de prueba: F
CMI
Paso 4. Regla de decisión: Se sabe que k = 3 y N = 18, entonces el valor crítico
de F, según la tabla es: F1D (k  1.( N  k )) F0,95 (2,15) 3,68 , luego la región de
rechazo de la hipótesis nula es el intervalo ]3,68 , +f[
Paso 5. Cálculo del estadístico de prueba. Los estadísticos muestrales obtenidos
con el método A, método B y método C, resultan:
De la tabla resumen se tiene:
T = C1 + C2 + C3 = 76 + 118 + 74 = 268
N = n1 + n2 + n3 = 6 + 7 + 5 = 18

¦X 2
ij 1014  2004  1102 4120

La suma de cuadrados del total es:


T2 2682
SCT ¦X 2
ij 
N
4120 
18
129,78

Suma de cuadrados entre muestras o grupos


184

C i2 T2 76 2 1182 74 2 2682
SCG ¦n i

N 6

7

5

18
56,78

El cuadrado medio entre las muestras o grupos será:


SCG 56,78 56,78
CMG 28,39
k 1 32 2
Suma de Cuadrados en el interior (o dentro) de la muestra o de Grupos, se
calcula por la diferencia: SCI = 129,78 – 56,78 = 73.
El cuadrado medio al interior de las muestras está dado por:
SCI 73 73
CMI 4,867
N k 18  3 15
CMG 28,39
F 5,833
CMI 4,867
Paso 6. Decisión: Como el valor del estadístico de prueba de Fisher calculado
es: F = 5,833 >3,68, rechazamos la hipótesis nula, y concluimos que las medias
de los resultados obtenidos mediante los tres métodos son diferentes.
Desarrollo del EJEMPLO 4.3 con el MINITAB
Para hacer inferencia acerca de la diferencia de dos proporciones se siguen la
secuencia: Estadísticas ► ANOVA ► Un solo factor (Despilado); luego
ingresando los datos de los tres métodos. La ventana de diálogo se completa
como se muestra en la figura 4-6.

Figura 4-6. Ventana de diálogo de un solo factor (Despilado) para el ejemplo 4.3.
185

Accionando Aceptar/Aceptar, la ventana Sesión se muestra, lo siguiente:

Medias
Factor N Media Desv.Est. IC de 95%
Método A 6 12.67 3.20 (10.75; 14.59)
Método B 7 16.857 1.574 (15.080; 18.634)
Método C 5 14.800 1.304 (12.697; 16.903)
Desv.Est. agrupada = 2.20591

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 56.79 28.394 5.84 0.013
Error 15 72.99 4.866
Total 17 129.78

Interpretación: Como el valor de p = 0,013 es menor que 0,05. Se


rechaza la hipótesis nula; es decir, al menos con uno de los métodos de
enseñanza los calificativos de los estudiantes es distinto a los otros.
También aparecen los intervalos de confianza para las medias de los tres
grupos y no se observa una superposición entre intervalos de confianza
para los métodos A y B, lo que ratifica el rechazo de la hipótesis nula.

También podemos hacer una comparación gráfica de los grupos oprimiendo el


botón Gráfica…, lo cual produce una sub ventana, como se muestra en la figura:

Figura 4-6. Ventana de diálogo para elegir la gráfica en un Anova de un solo factor.
186

Eligiendo Gráfica de Cajas y de Intervalos, para los datos del ejemplo 4.3, se
muestra en la figura 4-7.

Figura 4-7. Diagrama de cajas para comparar la eficacia de los métodos del ejemplo 4.3.

Interpretación: La posición de la media y mediana sugiere que aun


cuando los métodos B y C no están tan distantes, existe una diferencia
muy marcada entre los métodos A y B, la misma que nos induce a
rechazar la hipótesis de igualdad de medias. Notemos que la
variabilidad del método A es mucho mayor a los otros dos métodos.

Para la opción Un solo factor…, los datos deben ser ingresados en dos columnas,
una de ellas conteniendo el valor de la variable cuantitativa nota, y la otra donde
se indiquen los métodos utilizados. Para el ejemplo 4.3, sería como sigue:

Notas Método Notas Método


18 A 16 B
09 A 15 B
12 A 19 B
10 A 18 C
13 A 13 C
14 A 14 C
15 B 16 C
17 B 15 C
18 B 16 C
La ventana de diálogo se completa, como se muestra en la figura 4-8:
187

Figura 4-8. Ventana de diálogo para la opción Un solo factor de ANOVA.

Y el contenido de la ventana Sesión resulta ser el mismo que se calculó en la


solución anterior.

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 56.79 28.394 5.84 0.013
Error 15 72.99 4.866
Total 17 129.78

OBSERVACIÓN: También es posible convertir datos de grupos que aparecen


en varias columnas, a datos de dos columnas, tal como acabamos de ver en este
ejemplo, para esto es preciso hacer un stack.

4.6. COMPARACIONES MÚLTIPLES (Bloques Aleatorizados)


Una vez que se ha rechazado que todos los grupos son iguales, hay que determinar
cuál de ellos son compatibles entre sí. Existen muchos métodos para hacer estas
comparaciones, siendo los más usados los métodos Tukey y Fisher. Todos ellos
son similares y aplican el siguiente criterio:
Los grupos i y j son comparables entre sí, si se cumple:
[(media del grupo i)  (media del grupo j )] > Valor crítico.

La diferencia entre todos ellos está en ¿cómo se calcula el valor crítico?


En MINITAB las pruebas de comparaciones múltiples se obtienen oprimiendo
el botón Comparación de Un solo factor. Cuya ventana de diálogo se muestra
en la figura 4-9.
188

Figura 4-9. Ventana de diálogo para comparación de un factor


En esta sección, sólo estudiaremos el método Turkey, en donde para calcular
el valor crítico se usan los valores de la distribución del rango estandarizado,
y el método de Fisher que hace uso de los valores de la distribución t en el
cálculo del valor crítico. Usando este criterio los resultados para los datos del
ejemplo 4.3, obtendremos lo que se muestra a continuación:

Comparaciones en parejas de Tukey


Agrupar información utilizando método de Tukey y confianza de 95%
Método N Media Agrupación
B 7 16.857 A
C 5 14.800 A B
A 6 12.67 B
Las medias que no comparten una letra son significativamente diferentes.
Pruebas simultáneas de Tukey para diferencias de las medias
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
B-A 4.19 1.23 (1.01; 7.38) 3.41 0.010
C-A 2.13 1.34 (-1.33; 5.60) 1.60 0.277
C-B -2.06 1.29 (-5.41; 1.29) -1.59 0.279
Nivel de confianza individual = 97.97%

Interpretación. Por cada combinación de grupos aparecen los límites


inferiores y superiores de los intervalos de confianza para la diferencia
poblacional de las dos medidas. Si los límites de los intervalos son de signos
diferentes, entonces, los grupos son comparables, en caso contrario no. Esto
equivale decir, si el cero está contenido o no en el intervalo. Para el ejemplo
4.3 en estudio el método Turkey nos indica que los métodos A y C son
comparables al igual que el método B y C, mientras que A y B no lo son.
189

EJEMPLO 4.4. Los siguientes datos representan una muestra de los tiempos
de sobrevivencia, en semanas, a varios tipos de cáncer después de haber sido
diagnosticado, en una ciudad capital de región:

Estómago Pulmón Colon Ovario Seno


25 18 70 70 77
37 23 12 35 25
19 14 15 32 22
84 30 22 34 100
18 12 46 44 18
30 19 30 23 88
28 66 26 16
33 25 48 44
20 17 24 60
18 10 55
12 32
18 42
22 18
24 20
32 30

Hacer un análisis de varianza para probar si hay igual tiempo de sobrevivencia


para los diversos tipos de cáncer. Aplicar los métodos de comparaciones
múltiples de Tukey y Fisher, para identificar los tipos de cáncer con tiempos de
sobrevivencia similares.
Solución
Paso 1. Planteo de hipótesis nula y alternativa:
H0: Los tiempos promedio de sobrevivencia de los pacientes diagnosticados con
cáncer de estómago, pulmón, colon, ovario y seno son similares o iguales.
H1: Los tiempos promedio de sobrevivencia de los pacientes diagnosticados de
cáncer, de al menos de uno de los tipos es distinto a los demás.
Para resolver en forma directa con el Minitab. Primero ingresemos los datos en
dos columnas: sobrevivencia, que contiene el tiempo de sobrevivencia del
paciente en los cinco órganos donde el cáncer es detectado. Luego, se sigue la
secuencia: Estadísticas ► ANOVA ►un solo factor… y oprimimos el botón
comparaciones…, eligiendo Turkey, obtendremos los siguientes resultados en
la ventana Sesión.
190

ANOVA de un solo factor: Estómago; Pulmón; Colon; Ovario; Seno


Método
Hipótesis nula Todas las medias son iguales
Hipótesis alterna No todas las medias son iguales
Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.

Información del factor


Factor Niveles Valores
Factor 5 Estómago; Pulmón; Colon; Ovario; Seno

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 4 3800 950.0 2.37 0.065
Error 50 20008 400.2
Total 54 23808

Medias
Factor N Media Desv.Est. IC de 95%
Estómago 15 28.00 16.95 (17.63; 38.37)
Pulmón 10 24.40 16.09 (11.69; 37.11)
Colon 6 32.50 22.05 (16.10; 48.90)
Ovario 15 35.53 14.20 (25.16; 45.91)
Seno 9 50.0 32.4 (36.6; 63.4)
Desv.Est. agrupada = 20.0038

Pruebas simultáneas de Tukey para diferencias de las medias


Dif.de las EE de Valor p
Diferencia de niveles medias diferencia IC de 95% Valor T ajustado
Pulmón - Estómago -3.60 8.17 (-26.70; 19.50) -0.44 0.992
Colon - Estómago 4.50 9.66 (-22.83; 31.83) 0.47 0.990
Ovario - Estómago 7.53 7.30 (-13.13; 28.19) 1.03 0.840
Seno - Estómago 22.00 8.43 (-1.86; 45.86) 2.61 0.084
Colon - Pulmón 8.1 10.3 (-21.1; 37.3) 0.78 0.934
Ovario - Pulmón 11.13 8.17 (-11.97; 34.23) 1.36 0.653
Seno - Pulmón 25.60 9.19 (-0.40; 51.60) 2.79 0.056
Ovario - Colon 3.03 9.66 (-24.30; 30.36) 0.31 0.998
Seno - Colon 17.5 10.5 (-12.3; 47.3) 1.66 0.468
Seno - Ovario 14.47 8.43 (-9.39; 38.32) 1.72 0.434

Nivel de confianza individual = 99.33%


191

Figura 4-10. Gráfico de cajas para los datos del ejemplo 4-4.

Interpretación: El valor de p = 0,065, nos indica el no rechazo a las


justas de la hipótesis nula. Podemos concluir que el tiempo de
sobrevivencia de los pacientes con cinto tipos de cáncer son
aproximadamente iguales (o la sobrevivencia de los pacientes es
similar).
Del gráfico de caja y de acuerdo al método Turkey:
El tiempo promedio de sobrevivencia para el cáncer de Estómago es
similar al del pulmón, al colon y al ovario, pero no al seno.
El tiempo promedio de sobrevivencia para el cáncer de pulmón es similar
al del estómago y al del colon, pero no al del seno y ovario...
El tiempo promedio de sobrevivencia al cáncer del colon es similar al
del estómago, del ovario y al pulmón, pero no al del seno.
El tiempo promedio de sobre vivencia para el cáncer de ovario es similar
al del cáncer al pulmón, al colon y del seno.
El tiempo promedio de sobrevivencia para el cáncer de senos es similar
al cáncer a los ovarios, pero no es similar al del pulmón ni al del ovario.

En resumen: Los cáncer al pulmón, estómago, ovario y colon tienen


tiempos de sobre vivencia similares, formando una categoría inferior. El
cáncer al ovario y al seno tiene tiempos de sobrevivencia similares,
formando una categoría superior.
192

4.6. ANÁLISIS DE VARIANZA DE DOS FACTORES (clasificación doble)


En este caso se trata de comparar métodos, pero teniendo en cuenta un segundo
factor el cual podría afectar la comparación de los mismos. Los datos de un
experimento de clasificación doble con dos observaciones por celdas, deben ser
recolectadas del modo siguiente:
Grupo 1 Grupo 2 Grupo k R
Bloque 1 X21 X31 …… Xk3 R1
Bloque 2 X22 X32 …… Xk2 R2
….. X23 X33 …… Xk3 R3
… … …. …… … ..
Bloque n X2n2 X3n3 …… Xknk. Rn
C C1 C2 Ck T

Existen dos formas de analizar los datos para una prueba de hipótesis:
H0: P1 = P2 = ….. = Pk (los k grupos tienen medias poblacionales iguales) versus
H1: Al menos un grupo tiene media poblacional distinta al de los otros y,
H0: P1 = P1 = ….. = Pn (los n bloques tienen medias poblacionales iguales)
versus
H1: Al menos un bloque tiene media poblacional distinta al de los otros.
La prueba estadística es la prueba de F, la cual es obtenida al completar la tabla
de análisis de varianza.
Cuando hay más de dos muestras dependientes involucrados, diremos que los
datos forman bloques más que parejas; estos bloques juegan el mismo papel que
en el experimento con dos muestras. Las medidas en un bloque dado son
relativamente homogéneas respecto a alguna condición. El diseño básico de un
experimento que utiliza bloques se denomina diseño de bloques. Si la aplicación
de los tratamientos es aleatoria dentro de cada bloque, el diseño experimental se
denomina diseño de bloques aleatorizados.
El estadístico F se usa como el estadístico de prueba para probar la hipótesis nula.
Para muestras de igual tamaño el estadístico de prueba F se define como:
Valor del estadístico F para dos bloques
SCG /(k  1)
F.4-18
F
SCE / k (n  1)

Mientras menor sea el valor de SCE, mayor será el valor de F y mayor la


posibilidad de rechazar la hipótesis nula.
193

Si el tamaño de las muestras es el mismo (igual a n), la suma de cuadrados para


el grupo o tratamiento se obtiene mediante la fórmula:

Suma de cuadrados entre grupos


F.4-19
Ci2 T 2
SCG ¦ n

N

La suma de los cuadrados para los grupos o tratamientos, SCG tiene (k – 1) grados
de libertad asociados.
La fórmula para SCBl se obtiene tomando el número de columnas en vez de los
totales el número de filas:
Suma de cuadrados entre bloques
F.4-20
R 2j T2
SCBl ¦ k

N

La suma de cuadrados para bloques tiene (n – 1) grados de libertad asociados.

Como SCT = SCG + SCBl + SCE, la suma de cuadrados del error se encuentra
restando:
Suma de cuadrados del error
F.4-21
SCE = SCT – SCG – SCBl

En la siguiente, se resume todos los elementos que son posibles calcular, para
el ANOVA con dos factores o bloques. Esta tabla está diseñado para k grupos,
n bloques y c observaciones en cada celda, cuyo formato es:
Fuentes de Grados de Suma de Cuadrados F
Variación Libertad Cuadrados Medios
Entre Grupos SCG CMG
.k – 1 SCG CMG
k 1 CME
SCBl
Entre .n – 1 SCBl CMBl
n 1 CMBl
Bloques CME
SCE
Error (k – 1)(n – 1) SCE CME
(k  1)(n  1)

Total .kn – 1 SCT


Donde:
CMG, es el cuadrado medio de grupos.
194

CMBl, es el cuadrado medio de los bloques.


CME, es el cuadrado medio del error.
Si la F calculada es mayor que una F teórica con k–1 y (k – 1)(n – 1) al nivel de
significación D, entonces se rechaza la hipótesis nula de igualdad de medias de
grupos y si la F calculada de los datos es mayor que una F teórica con n –1 y (k
– 1)(n – 1) al nivel de significación D, entonces se rechaza la hipótesis nula de
igualdad de bloques.
EJEMPLO 4.5 La atención de pacientes que necesitan de tratamiento quirúrgico
en tres hospitales durante los días hábiles de la semana son los siguientes:

Día Minsa Essalud Clínica


Lunes 19 25 25
Martes 19 23 23
Miércoles 18 22 23
Jueves 14 21 13
Viernes 12 22 14

Determinar si la diferencia de medias entre los tres hospitales es significativa,


al 0,05 de significancia.
Solución
Paso 1. Hipótesis nula y alterna:
Factor Hospital:
H0: Las media de pacientes que necesitan tratamiento quirúrgico en los tres
centros de salud son iguales: Pmin = Pessal = Pclín.
H1: Al menos en dos centros de salud la media de pacientes que requieren de
tratamiento quirúrgico es diferente.
Factor día:
H0: Plun = P mar = P mier = P juev = P vier.
H1: Al menos dos bloques tienen medias diferentes.
Paso 2. Nivel de significación: D = 0,05.
CMG CMBl
Paso 3. Estadístico de prueba: F y F
CME CME
Paso 4. Regla de decisión. El valor crítico de F, según la tabla es:
F1D (k  1, (k  1)(n  1)F0,95 (2,8) 4,46 . Luego la región de rechazo de la hipótesis nula
es el intervalo ]4,46 , +f[.
195

Paso 5. Cálculo del estadístico de prueba. Los estadísticos muestrales de Minsa,


Essalud y Clínicas, resultan:
Día Minsa Essalud Clínica R
Lunes 19 25 25 69
Martes 19 23 23 65
Miércoles 18 22 23 63
Jueves 14 21 13 48
Viernes 12 22 14 48
C 82 113 98 293
Hallemos suma de cuadrados totales (SCT)
T2 2932
SCT ¦x 2
ij 
N
192  252  252  ..  142 
15
5997  5723,27 273,73

Localicemos SCG, con la fórmula:


Ci2 T2 822  1132  982 2932 29097
SCG ¦n 
N 5

15 5
 5723,27 96,13

Calculemos SCBl, usando la fórmula:


R 2j T2 692  652  632  482  482 2932
SCBl ¦k 
N 5

15
131,07 .

Encontramos SCE, aplicando la fórmula:


SCE = SCT – SCG – SCBl = 273,73 – 96,13 – 131,07 = 46,59
Obtenemos los grados de libertad correspondientes:
glG = k – 1 = 3 – 1 = 2.
glBl = n – 1 = 5 – 1 = 4
glE = (k – 1)(n – 1) = (3 – 1)(5 – 1) = (2)(4) = 8
Usando la tabla resumen, hallamos los cuadrados medios:
SCG 96,13
CMG 48,03
k 1 3
SCBl 131,07
CMBl 32,77
n 1 4
SCE 46,53
CME 5,82
(k  1)(n  1) 8

Conclusión 1:
Para los grupos, el valor teórico de F es F0,95 (2,8) 4,46 . Y el valor calculado de
Fcalc, para probar los grupos (la diferencia entre la media de intervenciones
quirúrgicas en los hospitales) es:
CMG 48,07
Fcalc 8,26
CMR 5,82
196

Paso 6. Decisión 1: como 8,26 > 4,46, podemos concluir que al menos dos
hospitales tienen promedios diferentes de intervenciones quirúrgicas realizadas
por semana.

Conclusión 2.
Para los Bloques, el valor teórico de F es F0,05 (4,8) 3,84 . Y el valor calculado de
Fcalc, para probar los bloques (diferencia entre la media de las intervenciones
quirúrgicas realizadas en los días de la semana) es:
CMBl 32,77
Fcalc 5,63
CMR 5,82
Decisión 2: como 5,63 > 3,84, rechazamos la hipótesis nula, y podemos concluir
que al menos dos días difieren en el promedio de intervenciones quirúrgicas
realizadas.

EJEMPLO 4.6 Se trata de comparar tres métodos de enseñanza (A, B y C)


tomando en cuenta además el factor turno (mañana, tarde y noche), es decir el
momento del día en que se dan clases. Y los datos que se obtienen son como
sigue:
Horas Método A Método B Método C
Mañana (m) 80 65 66
78 79 49
Tarde (t) 69 50 35
72 58 58
Noche (n) 73 60 46
74 65 55

Solución
Para resolver el problema en el Minitab 18, ingresemos los datos dados en tres
columnas:
Nota Método Turno Nota Método Turno
80 A m 58 B t
78 A m 60 B n
69 A t 65 B n
72 A t 66 C m
73 A n 49 C m
74 A n 35 C t
65 B m 58 C t
79 B m 46 C n
50 B t 55 C n
Paso 1. Hipótesis nula y alterna: se formulan para factor turno y método.
197

Factor Método
H0: No existe diferencia entre los tres métodos de enseñanza.
H1: Al menos uno de los métodos de enseñanza tiene un rendimiento distinto a
los otros, y
Factor Turnos
H0: El rendimiento académico de los estudiantes en los tres turnos son iguales.
H1: Al menos en uno de los turnos los estudiantes tienen rendimiento diferente
a los otros dos turnos.
Desarrollo del EJEMPLO 4.6 con el MINITAB
Eligiendo la secuencia: Estadísticas ►ANOVA ►Anova balanceado,
obtenemos en la ventana de diálogo de la figura 4-11.

Figura 4-11. Ventana de diálogo para la opción Análisis de medias… del menú ANOVA
para el ejemplo 4.6.

Los resultados que se obtienen en la ventana Sesión, es el siguiente:


ANOVA: nota vs. método; turno
Información del factor
Factor Tipo Niveles Valores
metodo Fijo 3 a; b; c
turno Fijo 3 m; n; t
Análisis de varianza de nota
Fuente GL SC MC F P
metodo 2 1564.1 782.06 15.68 0.000
turno 2 473.4 236.72 4.75 0.028
Error 13 648.2 49.86
Total 17 2685.8
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
7.06139 75.86% 68.44%
198

Otra alternativa es usar la opción Modelo Lineal General… del menú


ANOVA, la misma que permite analizar diseños de clasificación doble, sin
tomar en cuenta si el número de observaciones son iguales o no por celda,
además tiene la opción que permite hacer comparaciones múltiples, figura 4-12.

Figura 4-12. Ventana de diálogo para la opción Modelo Lineal General del menú ANOVA.
Los resultados calculados en la ventana Sesión son los siguientes:

Modelo lineal general: nota vs. método; turno


Información del factor
Factor Tipo Niveles Valores
metodo Fijo 3 A; B; C
turno Fijo 3 m; n; t
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
metodo 2 1610.8 805.39 13.19 0.001
turno 2 546.8 273.39 4.48 0.033
Error 13 793.6 61.04
Falta de ajuste 4 122.6 30.64 0.41 0.797
Error puro 9 671.0 74.56
Total 17 2951.1
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 61.78 1.84 33.55 0.000
metodo
A 12.56 2.60 4.82 0.000 1.33
B -2.28 2.60 -0.87 0.398 1.33
turno
m 7.72 2.60 2.97 0.011 1.33
n -2.94 2.60 -1.13 0.279 1.33
199

Interpretación: Viendo los p = 0,000 < 0,05, correspondiente a los tres


factores se llega a la conclusión de que al menos con uno de los métodos
de enseñanza el rendimiento es distinto, y que al menos en uno de los
turnos los alumnos rinden distinto a los otros dos turnos.

Oprimiendo el botón Comparaciones… se puede hacer comparaciones de


medias de dos factores. La ventana de diálogo se muestra en la figura 4-13.

Figura 4-13. Ventana de diálogo para la opción Comparaciones del Modelo lineal general
del menú ANOVA.

Los resultados calculados que se muestran en la ventana Sesión, son los


siguientes:

Comparaciones para nota


Comparaciones por parejas de Tukey: método
Agrupar información utilizando el método de Tukey y una confianza de 95%
metodo N Media Agrupación
a 6 74.3333 A
b 6 62.8333 B
c 6 51.5000 C
Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia
de metodo Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
b-a -11.50 4.08 (-22.25; -0.75) -2.82 0.036
c-a -22.83 4.08 (-33.59; -12.08) -5.60 0.000
c-b -11.33 4.08 (-22.09; -0.58) -2.78 0.039
Nivel de confianza individual = 97.95%
200

Comparaciones por parejas de Tukey: turno


Agrupar información utilizando el método de Tukey y una confianza de 95%
turno N Media Agrupación
m 6 69.5000 A
n 6 62.1667 A B
t 6 57.0000 B
Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia
de turno Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
n-m -7.33 4.08 (-18.09; 3.42) -1.80 0.208
t-m -12.50 4.08 (-23.25; -1.75) -3.07 0.023
t-n -5.17 4.08 (-15.92; 5.59) -1.27 0.437
Nivel de confianza individual = 97.95%

Interpretación: Según los resultados obtenidos, el método A es comparable con


el B, pero no con el C. el método B es comparable con el C. El turno de la mañana
es comparable con el turno de la noche. El turno de la noche es comparable con
el turno de la tarde.

4.7. MODELOS CON INTERACCIÓN


Es un diseño de clasificación doble, algunas veces es conveniente cotejar si
existe un efecto combinado de ambos factores en la variación de la variable
respuesta, este efecto es llamado Interacción.
El efecto interacción puede ser detectado gráficamente, usando los llamados
Gráfica de Interacción.
La ventana de diálogo de la opción Gráfica de interacciones de ANOVA para
los datos del ejemplo anterior, completamos como muestra en la figura 4-14.

Figura 4-14. Ventana de gráfica de efectos principales y de interacciones del ejemplo 4.6.
201

La siguiente figura muestra la Gráfica de efectos principales.

Figura 4-15. Gráfica de efectos principales para variables del ejemplo 4.6.

La siguiente figura muestra la Gráfica de Interacción.

Figura 4-16. Representación Gráfica de la Interacciones para el ejemplo 4.6.

Interpretación: Si existe cierto paralelismo entre las líneas,


entonces existe muy poca interacción. Si las líneas se cruzan,
entonces existe interacción. En el ejemplo se observa que no existe
interacción entre los factores.
202

RESUMEN DEL CAPÍTULO 4

4.1. El análisis de varianza (ANOVA) se aplica para comparar tres o más medias
grupales. En lugar de comparar cada media grupal con las demás (como
haríamos en una prueba t), el ANOVA compara cada media grupal con la
media total, que es la media para todos los casos en la muestra
4.2. En el ANOVA, la diferencia entre la media grupal y la media total
constituyen los efectos de la prueba y se denominan efectos principales.
Cuando los efectos principales son cero, no existe diferencia entre las medias.
En la hipótesis nula establece que las medias son iguales, lo que es lo mismo
decir que los efectos principales son iguales a cero.
4.3. El ANOVA hipotetiza acerca de la diferencia entre medias, pero sus cálculos
se basan en la explicación de la varianza de la media total o gran media.
Recordemos, que la diferencia entre una puntuación individual y la media total
constituye una puntuación de desviación. El ANOVA determina si resulta
factible decir qué parte de una puntuación individual puede explicarse por la
pertenencia del individuo a una categoría (o grupo) de la variable
independiente. Por consiguiente, el meollo en el ANOVA consiste en la
explicación de las puntuaciones de desviación. Las puntaciones de desviación
se elevan al cuadrado y se promedian para obtener la varianza. De ahí el
nombre de análisis de varianza.
4.4. El modelo lineal general establece que la mejor predicción de cualquier
variable dependiente, Y, es su media total más un ajuste para los efectos de una
variable independiente, X. Una proporción individual se descompone del modo
siguiente: Y = la media total más el efecto explicado, estas partes individuales
de una puntuación se elevan al cuadrado, se suman y se promedian entre los
grados de libertad para obtener las varianzas para todos los casos. La razón de
la varianza explicada y la no explicada, comprende la razón F, que es el
estadístico de prueba para el ANOVA. Los cálculos para el ANOVA se
resumen en una tabla de fuentes de variación.
4.5. El valor de la probabilidad se determina utilizando curvas de distribución, F,
que se encuentra en el anexo D, o en forma directa mediante el Minitab o el
SPSS.
203

4.6. Entre los aspectos importantes para la relación en el ANOVA, podemos


destacar: a) la existencia se determina utilizando la razón F para probar la
hipótesis nula relacionada con la igualdad de medias grupales, cuando se
rechaza H0 existe una relación, b) la dirección no es aplicable porque la
variable dependiente es nominal, c) se dice que existe una relación fuerte
cuando se tiene una alta proporción de la varianza total en la variable
dependiente de intervalo o de razón que se explica por la variable de
agrupación, d) las aplicaciones prácticas se describen mediante: 1) las mejores
estimaciones a nivel de los grupos reportando la media total, medias grupales
y los efectos principales, 2) proporcionando las mejores estimaciones para los
individuos, 3) utilizando pruebas de rango para especificar qué medias
grupales son significativamente diferentes de otras.
4.7. Con el ANOVA, el rechazo de la hipótesis nula simplemente indica que por
lo menos dos de las medias grupales son significativamente diferentes. Las
pruebas de rango determinan específicamente qué pares de medias defieren
entre sí. Las pruebas de rango establecen qué tanta diferencia entre las medias
resulta estadísticamente significativa.
4.8. La falacia ecológica es el error que consiste en obtener conclusiones de un
comportamiento individual sobre la base de un análisis de grupos. Porque, un
individuo pertenece a un grupo con determinada media, no significa que todos
los individuos se ajusten a esta puntuación. Los estadísticos muestrales se
aplican a un grupo y no a una unidad de análisis
204

PROBLEMAS PROPUESTOS Nº 4
1. Se toma una muestra de producción de 40 líneas donde se han sembrado cuatro
variedades de papa y se observan los siguientes resultados:
Variedades de papa
Var. 1 Var 2 Var 3 Var 4
30 30 24 36
25 29 26 37
28 27 27 35
32 36 38 36
40 37 35 35
30 35 36 48
34 55 40 41
38 53 46 42
36 31 34 50
29 33 31 39
a) Habrá diferencia entre las producciones promedio de cada variedad de papa.
Escriba y compruebe sus resultados.
b) Haga un diagrama de cajas para comparar las producciones promedio por
variedad. Comente la gráfica.
2. Un profesor pidió a sus alumnos del curso de estadística que evaluaran su
actividad de enseñanza como excelente, bueno, regular y deficiente, referido a
calificaciones de 1 a 20. El profesor recopiló la información, obteniéndose los
resultados que se muestran en la tabla.
Calificaciones obtenidas
Grupo A Grupo B Grupo C Grupo D
19 15 14 18
18 14 15 14
17 16 15 15
16 17 16 13
14 18 17 15
17 13 13 14
15 14 14 12
Utilizando el ANOVA y D = 0,01, ¿Existe una diferencia en los calificativos
promedio de los alumnos de cada uno de las cuatro categorías de evaluación?
3. Las preguntas de una prueba de rendimiento académico para el ingreso a una
universidad se dividen en cuatro formas diferentes, llamadas temas: A, B, C y
D. De un grupo de postulantes a una misma carrera profesional se extraen
muestras al azar de puntajes de rendimiento en cada tema. Examine si la
división realizada hace más fácil o difícil por los menos uno de los temas, con
un nivel de confianza de 0,95. Los puntajes muestrales por temas se resumen
en la siguiente tabla.
205

A B C D
57 55 46 53
55 66 43 51
43 44 55 56
45 48 52 46
48 52 50 48
56 60 48 52
66 57 64
52 59
4. Los datos adjuntos representan la producción de tomates por parcela obtenidos
utilizando tres fertilizantes diferentes. Siete parcelas fueron abonadas con el
fertilizante A, ocho con el B y 6 con el C.
A B C
30,6 40 42,4
32,0 39,6 42,5
28,3 35,3 36,0
306 33,0 36,4
28,0 35,3 37,2
27,5 33,7 38,4
33,2 37,4
39,2
Use el ANOVA y D = 0,05 para determinar si hay diferencia entre las
producciones de tomates utilizando los tres fertilizantes,

5. Los siguientes datos representan el nivel de colesterol para consumidores de


tres tipos de carne.
Res Cerdo Pollo
231 235 239
208 287 212
251 289 211
180 152 205
228 181 200
256 172 190
238 150 198
214 170 217
214 198 205
228 217 170
168 164 174
175 199 212
181 215 188
214 260 205
211 177 170
a) ¿Habrá diferencia entre niveles de colesterol entre los tres tipos de
consumidores? Escriba y compruebe sus resultados.
b) Haga un diagrama de cajas para comparar el nivel de colesterol por tipo
de consumidor. Comenta la gráfica.
206

6. Un profesor experimenta tres métodos didácticos para la enseñanza de una


asignatura. Para este propósito elige aleatoriamente tres grupos de seis
estudiantes cada uno. Después de enseñar cada uno de los tres grupos con
métodos diferentes avalúa a los alumnos a través de una única prueba su nivel
de aprendizaje, obteniendo los siguientes calificativos en escala de 0 a 100,
como se resume en el siguiente cuadro.

Método 1 Método 2 Método 3


78 83 73
63 87 79
72 70 83
59 94 60
75 91 75
55 88 66
a) ¿Existe diferencia significativa en los calificativos según el método
empleado por el docente al 5% de significancia?
b) ¿Existe diferencia significativa en los calificativos según el método
empleado por el docente al 1% de significancia?
7. Se hace un experimento para probar el efecto de 5 diferentes dietas en pavos.
Se asigna al azar 6 pavos a cada una de las 5 dietas y se les alimenta por un
período fijo de tiempo. Luego se registró la ganancia en peso en kilogramos.
Siendo los resultados como siguen:

Dieta A Dieta B Dieta C Dieta D Dieta E


3,20 4,40 5,30 5,50 7,50
2,20 3,90 5,50 5,80 7,60
2,00 3,60 6,20 6,20 7,30
3,40 5,60 6,40 6,40 7.10
2,80 4,50 6,80 5,20 7,80
3,60 5,30 5,70 6,10 7,20
a) Pruebe que la ganancia en pesos es la misma con todas las dietas. Justifique
su respuesta.
b) Haga comparaciones múltiples para detectar qué dieta produce igual
ganancia en peso. Comente sus resultados.
8. Los siguientes datos representan el nivel de Sarcoidosis en cinco grupos de
pacientes.
A B C D E
100 62 125 80 113
72 54 130 50 103
61 40 132 70 128
65 37 102 75 116
66 27 150 43 125
56 40 132 80 128
207

75 58 133 75 114
53 64 115 50 92
78 38 134 72 115
76 86 160 90 93
84 45 133 78 114
86 42 158 88 118
a) Pruebe si los niveles de sarcoidosis son los mismos para los cinco grupos de
pacientes. Justifique su respuesta.
b) Haga comparaciones múltiples para detectar qué grupo de pacientes tienen
igual número de sarcoidosis. Comente sus resultados.

9. Se seleccionaron al azar directores de tres niveles educativos, 8 de inicial, 10


de primaria y 9 de secundaria de una capital provincial, y se desea probar si
tienen el mismo conocimiento sobre enfermedades respiratorias. Los
resultados de un test para medir dichos conocimientos son los siguientes:
Inicial Primaria Secundaria
64 64 56
60 65 42
62 52 32
58 50 30
52 44 28
46 40 26
36 30 24
38 34 22
28 20
32
a) Pruebe si los directores de los tres niveles educativos tienen igual
conocimiento de las enfermedades respiratorias.
b) Use comparaciones múltiples para comparar los tres grupos. Comente los
hallazgos.
c) Compare los tres grupos mediante la gráfica de cajas. Comente la gráfica.

10. Considerando los datos de bloques aleatorizados que se consideran a


continuación:
Bloques Grupos
1 2 3
Bloque 1 18 14 14
Bloque 2 10 12 18
Bloque 3 5 7 5
Bloque 4 12 16 15
Con los datos dados complete una tabla para el resumen del ANOVA de dos
criterios.
208

11. Una misma prueba de 60 preguntas es presentada en cuatro formas diferentes


de ordenación a los alumnos de cinco instituciones educativas diferentes. Se
desea investigar si el orden de las preguntas o el factor institución educativa
influyen en el éxito académico de los estudiantes. Una muestra aleatoria de los
puntajes de evaluación se resume en el siguiente cuadro:
Institución TEMAS
Educativa A B C D
1 45 56 50 48
2 59 48 57 42
3 55 60 65 68
4 50 42 52 56
5 49 53 54 62
Aplique la prueba F a las filas y columnas al 0,05 de significancia.

12. Las empresas fabricantes de alimentos utilizan cuatro laboratorios, A, B, C y


D, para hacer análisis nutricionales de sus productos. Los datos que se exhiben
son los contenidos de grasa, en gramos, de dos cucharadas en tres muestras de
tipos similares de crema de cacahuete

Crema de Laboratorios
cacahuete A B C D
Muestra 1 16,5 18.0 17,0 16,8
Muestra 2 16 15,5 15,8 16,2
Muestra 3 16,2 16,4 16 16,8
Analice los datos realizando un ANOVA de dos criterios y use un nivel de
significancia de 0,05 para ambos casos.

13. Una fábrica de alimentos envasados desea probar la efectividad de cuatro


tipos de envases en cinco ciudades diferentes. Para ello, el departamento de
ventas reporta las siguientes cantidades en miles de soles de la última venta
semanal, que se resume en el siguiente cuadro:
Fábrica CIUDADES
A B C D E
1 22 28 25 30 35
2 40 56 48 52 55
3 38 44 42 45 50
4 30 33 38 35 44
Aplique la prueba F a las filas y columnas al 0,01 de significancia.

14. Los datos que se muestran a continuación representan los calificativos finales
obtenidos por cuatro alumnos en las asignaturas de biología (B), Estadística
(E), física (F) y Lengua (L)
209

Alumnos Asignaturas
B E F L
1 15 14 13 15
2 14 18 15 16
3 12 14 12 18
4 13 15 11 14
Someta a prueba la hipótesis de que las asignaturas representan la misma
dificultad, usando un nivel de significancia de 0,05 para ambos casos.
15. En un esfuerzo para extender sus servicios una autoridad municipal de tránsito
realizó un experimento para determinar cuál de las cuatro rutas es mejor para
desplazarse del centro de la ciudad a la sede de la universidad, los siguientes
datos indican el tiempo de recorrido a lo largo de cada una de las rutas
Días Ruta
1 2 3 4
Lunes 10 11 11 11
Martes 12 12 13 13
Miércoles 11 13 14 12
Jueves 12 12 15 14
Viernes 14 13 16 14
Analice los datos realizando un ANOVA de dos criterios y use un nivel de
significancia de 0,05 para ambos casos.

16. La enfermera supervisora del centro de salud desea analizar el efecto del turno
(u hora del día en la duración de las visitas) realizadas por cuatro enfermeras.
Se conjetura que las diferencias individuales entre las enfermeras podrían ser
grandes, por lo que utilizó a las enfermeras como un factor de formación de
bloques, recolectando la siguiente información.
Enfermera Duración de visita según la hora del día
Madrugada Media Inicio de Media
mañana la tarde tarde
A 26 27 30 24
B 30 32 28 20
C 35 40 35 30
D 22 20 22 12
¿Proporciona estos datos evidencia suficiente para indicar una diferencia en la
duración de visitas en las diferentes horas del día? Considere D = 0,05.
17. Cuatro individuos participaron en un experimento para comparar tres
métodos de liberación de tensión nerviosa. Cada persona fue puesta en una
situación de tensión nerviosa en tres ocasiones diferentes. Por cada vez se
utilizó un método diferente para reducir la tensión nerviosa en cada individuo.
La variable de respuesta es el total de reducción del nivel de tensión nerviosa
210

antes y después de la aplicación del tratamiento. Siendo los resultados, los


siguientes
Individuo Tratamiento (Método)
A B C
1 17 27 23
2 16 21 24
3 18 23 25
4 29 29 36
¿Es posible concluir a partir de los datos que los tres métodos de tratamiento
difieren en efectividad a un nivel de significancia de 0,05?
18. Una panadería desea saber si hay efecto de la posición (abajo, en medio,
arriba), en que se colocan en los anaqueles, y el ancho de los anaqueles
(angosto, normal y ancho), en la venta de sus panes. Se registran el número de
bolsas de panes vendidas diariamente en 24 lugares de venta, y los datos que
se obtienen son:
Posición Ancho del Anaquel
Angosto Normal Ancho
Abajo 35 47 46
40 50 41
En medio 48 63 68
42 44 66
Arriba 33 41 42
30 35 40
a) Haga una prueba de análisis de varianza para probar la hipótesis de que los
promedios de ventas son los mismos para cada posición. Comente sus
resultados.
b) Hacer una gráfica o diagrama de cajas para comparar los promedios de
ventas según la posición, comente la gráfica obtenida.
c) Hacer comparaciones de medias para identificar las posiciones en los
anaqueles que producen en promedio, iguales ventas de los panes.
d) Hacer un diseño de clasificación doble para determinar si hay un efecto
del ancho del anaquel en las ventas promedio según la posición. ¿A qué
conclusión se arriba?
5 Regresión y Correlación
Los fenómenos de la realidad están de alguna forma
relacionados, siempre es posible determinar alguna
dependencia funcional entre ellos. Frecuentemente
estamos encandilados con correlaciones de intensidades
diversas. Gracias a la estadística somos capaces de
administrar las predicciones y las correlaciones en los
fenómenos la realidad.

Diagramas de dispersión. Regresión lineal simple. Coeficiente de


correlación. Coeficiente de determinación. Error estándar de
Estimación. Intervalo de Confianza y de Predicción. Prueba de
Hipótesis. Regresión no lineal. Regresión Lineal Múltiple.

OBJETIVOS
Al concluir este capítulo, estaremos en condiciones de:
1. Graficar e interpretar el diagrama de dispersión en el plano cartesiano
bidimensional.
2. Determinar la ecuación de la recta de regresión lineal simple,
identificando la variable independiente y variable dependiente.
3. Calcular y explicar la interpretación del coeficiente de correlación de
Pearson, y el coeficiente de determinación.
4. Determinar e interpretar el error estándar, el intervalo de confianza y
de predicción.
5. Realizar pruebas de hipótesis a partir del coeficiente de correlación de
Pearson muestral y poblacional.
6. Determinar modelos no lineales a partir de datos cuantitativos y luego
predecir el comportamiento de las variables interactuantes.
7. Hallar la ecuación de regresión lineal múltiple interpretando la
relación entre las variables independientes y dependientes con el
Minitab.
212

5.1. INTRODUCCIÓN
En este capítulo estudiaremos la relación entre dos variables cuantitativas, y la
determinación de una ecuación que permita calcular el valor de una variable
basada en la otra. La identificación de las variables en relación, depende de la
lógica y de lo que el investigador desea medir. Así por ejemplo, número de
comidas servidas y el costo por comida, ritmo cardiaca por minuto y el nivel de
ansiedad, la relación que existe entre los calificativos y el número de horas
dedicados al estudio, número de empleados en una fábrica y unidades producidos
por hora, número de espots o avisos televisivos y el número de ventas de una
tienda en un día, número de agentes de policía y número de delitos, número de
hectáreas de bosques quemados y número de fauna muerta, etc. Las variables que
se relacionan los llamaremos independiente y otra dependiente.
La variable dependiente Y, que depende de uno o más variables independientes
X1, X2,…, Xn, como por ejemplo el ingreso familiar depende: del grado de
instrucción, de los hábitos de vida, del género y del tiempo de labor. Existen dos
formas de estudio de asociación entre variables a partir de una muestra aleatoria.
La primera forma, es determinar una relación funcional de la variable
dependiente Y con respecto a uno o más variables independientes con el fin de
predecir valores de Y, se denomina análisis de regresión.
La segunda forma, medir el grado de relación entre las variables, mediante un
coeficiente o índice. A esta técnica se llama correlación. Que consiste en
examinar primero el coeficiente de correlación entre las variables X e Y, que
puede servir de base para pronosticar valores de Y en función de valores de X.
Entre los valores de X y de Y no existe una relación de causalidad. En este sentido,
las predicciones que se hacen estadísticamente son de carácter formal, atendiendo
sólo a la intensidad de la asociación de dos variables continuas que no pueden ser
manipuladas experimentalmente.
Los métodos de regresión y correlación entre variables se clasifican por el
número de variables independientes, en simple y múltiple. Se llama simple, si
hay una sola variable independiente; si hay dos o más variables independientes
se llama análisis de regresión múltiple. Por el tipo de función matemática que se
puede ajustar a los datos, la asociación de las variables puede ser lineal o no lineal
como por ejemplo, parábola, polinomio, exponencial, logarítmica, etc.
213

Para el análisis de Regresión y Correlación con el MINITAB 18, al hacer doble


clic en el icono , se obtiene la pantalla del Minitab y accionando el menú:
Estadísticas ►Regresión, obtenemos la ventana de diálogo que se muestra en
la figura 5-1.

Figura 5-1. Pantalla del Minitab 18 para el Análisis de Regresión.

5.2. ANÁLISIS DE REGRESIÓN LINEAL SIMPLE


DEFINICICÓN. Se denomina diagrama de dispersión (o nube de puntos), a las
gráficas que representan los valores (xn , yn) de las variables X e Y en el sistema
cartesiano que se utiliza para visualizar la relación entre las variables y a partir
de dicha relación conocer en qué medida se mantiene el aumento o disminución
de una variable a partir del aumento de otra variable o viceversa.
Así, para: x1, x2, …, xn, valores de la variable X y para: y1, y2, …, yn, valores de
la variable Y. En los ejes X e Y se construyen las parejas (x1 , y1), (x2 , y2) …,
(xn , yn) valores de la variable bidimensional XuY. Estas relaciones se pueden
ubicar en una de los cuatro casos que se ilustran en la figura 5-2.
Y Y

X X
a) Relación lineal positiva o directa. b) Relación lineal negativa o inversa.
214

Y Y

X X
c) No hay relación lineal entre X e Y d) Relación No Lineal entre X e Y

Figura 5-2. Tendencias más conocidos de los diagramas de dispersión

DEFINICIÓN. Se denomina variable dependiente a la variable que se calcula.


Por lo general en un análisis de correlación está representado por Y.
DEFINICIÓN. Se denomina variable independiente a la que proporciona las
bases para el cálculo. Es llamado variable de predicción, se representa con X.
Para hallar la covarianza, la recta de regresión lineal y también el coeficiente de
correlación a partir del conjunto de datos ^x1 , x 2 ,..., x n `, correspondientes a la
variable X, y el conjunto de datos ^y1 , y 2 ,..., y n ` de la variable Y. Debemos hacer
previamente algunos cálculos auxiliares, como se muestra en la tabla:
Individuos xi yi xi2 yi2 x1 . y i
1 x1 y1 x12 y12 x1. y1
2 x2 y2 x22 y22 x2 y 2
3 x3 y3 x3 y3
x32 y32
... ... ...
…. ... ...
xn yn xn y n
n xn2 yn2
n n n n n

Total ¦x
i 1
i ¦y
i 1
i ¦x
i 1
2
i ¦y
i 1
2
i ¦x y
i 1
i i

Donde:
n : es el número de pares de observaciones (o tamaño de la muestra).
n

¦x
i 1
i : Suma de los n valores de la variable X.
n

¦y
i 1
i : Suma de los n valores de la variable Y.
n

¦x
i 1
2
i : Suma de los cuadrados de los valores de la variable X.
215

n
(¦ xi ) 2 : Cuadrado de la suma de los valores de la variable X.
i 1
n

¦y
i 1
2
i : Suma de los cuadrados de valores de la variable Y.
n
(¦ y i ) 2 : Cuadrado de la suma de los valores de la variable Y.
i 1
n

¦x y
i 1
i i : Suma de los productos de los valores de las variables X e Y.

Los métodos estadísticos descriptivos son válidos en cada variable, pues cada
variable tiene media, desviación estándar, etc. Lo nuevo del tema, es que, con los
datos en pareja se pueden medir la dispersión conjunta con respecto a las medias
de la pareja ( X , Y ) mediante la covarianza.

5.3. REGRESIÓN LINEAL SIMPLE


Consideremos los datos de dos variables X e Y, las cuales se relacionan siguiendo
una tendencia lineal, que puede ser detectada haciendo un diagrama de dispersión
o nube de puntos de los datos. La tendencia lineal significa que los puntos están
dispuestos alrededor de una línea recta, desviándose por una cantidad aleatoria
de la misma. En este caso, asumimos que se trata de predecir comportamiento de
Y usando X.
Para hallar la recta de regresión lineal simple (o de ajuste) usaremos el método
de mínimos cuadrados que consiste en obtener la ecuación de reta L: y = a + bx,
de manera que la suma de los cuadrados de las diferencias de las ordenadas yi,
de los puntos (xi , yi) y de las ordenadas yˆ i a  b.xi de los puntos ( x i , a  b.xi )

que están en la recta, sea mínima. En este proceso se trata de obtener a y b de


manera que el valor de la suma de los cuadrados:
n n
SSE = ¦e ¦(y
i 1
2
i
i 1
i  a  bxi ) 2 , sea mínima.

Donde:
Y es llamada variable de respuesta o dependiente
X es llamada variable predictora o independiente.
.a es el intercepto de la línea en el eje Y,
216

.b es la pendiente de la línea de regresión, llamada también coeficiente de


regresión para predecir la variable Y.
.e es el error aleatorio, el cual se supone que tiene media 0 y varianza constante
V2 = 1.
Y
Línea de regresión para
predecir Y

Usando técnicas de cálculo diferencial para minimizar la suma de cuadrados se


obtiene un sistema de variables a y b, como se muestra en la fórmula 5-1:

Ecuación de mínimos cuadrados


n n

¦y
i 1
i a.n  b¦ xi
i 1
F.5-1
n n n

¦ x .y
i 1
i i a ¦ xi  b¦ xi2
i 1 i 1

Desarrollando el sistema de ecuaciones se obtienen los valores de los


coeficientes de regresión a y b (o simplemente las constantes a y b)

Coeficientes de Regresión Lineal


n n n n

¦ y .¦ x  ¦ x .¦ x y
i 1
i
i 1
2
i
i 1
i
i 1
i i
a 2
n § ·
n. ¦x 2
i ¨
¨ ¦ x ¸¸ i
F.5-2
i 1 © ¹
n n n
n ¦x y ¦x ¦y
i 1
i i
i 1
i
i 1
i
b 2
n
§ ·n
n ¦x
i 1
2
i
© i
¦
 ¨¨ xi ¸¸
1 ¹
También se cumple:

Cálculo del coeficiente a desde b.


a Y  bX F.5-3
217

Interpretación de los coeficientes de regresión:

La constante a indica el valor promedio de la variable respuesta Y cuando X es


cero.
El valor de b indica el cambio promedio en la variable respuesta Y cuando X
aumenta en una unidad adicional.
La recta de regresión nos permite, basándonos en los datos muestrales, calcular
el valor de una variable Y, que se denota con yi; correspondiente a un valor dado
xi de la variable X; para este propósito es suficiente reemplazar el valor xi en la
recta de regresión para encontrar el valor estimado de Y, que se escribe como ŷ i

En el análisis de regresión nuestro propósito es encontrar un estimador a de (D)


y otro estimador b de (E) o, lo que es equivalente, una recta estimadora:
Yˆi a  bX i
.de la recta E(Yˆi ) D  E .X i , para obtener la ecuación general, fórmula 5-4.
Ecuación de Regresión Lineal
F.5-4
Y D  E .X i

EJEMPLO 5.1. En la tabla se resume las llamadas telefónicas de invitación y


número de asistentes captados al evento académico de 10 integrantes del comité
organizador del evento.
Organizadores Llamadas telefónicas Número de asistentes al
(X) evento (Y)
Rufino 10 15
Fermín 20 30
Arnulfo 10 20
Melecio 15 30
Sebastián 5 15
Julia 5 20
Cipriano 10 20
Rodrigo 10 25
Andrés 10 15
Yaneth 15 35
a) Dibuje el diagrama de dispersión.
b) Determine la ecuación de la línea de regresión para pronosticar el número de
asistentes al evento.
c) Estime el número de asistentes que se podrían captar al efectuar 25 llamadas
de invitación.
218

Solución
a) Dibujo del diagrama de dispersión
Con en Minitab ejecutando los comandos siguientes: Gráfica ► Gráfica de
dispersión ► Con regresión ► Aceptar ► colocar en X la variable Llamadas
de Invitación y en la variable Y Asistentes al Evento ► Aceptar. Se obtiene
el siguiente gráfico de la figura 5-3.

Figura 5-3. Diagrama de dispersión de llamadas vs. asistentes

b) Ecuación de la línea de regresión para pronosticar el número de asistentes al


evento en función de las llamadas realizadas.
Haciendo los cálculos necesarios para la ecuación de regresión lineal de
mínimos cuadrados, se tiene,

Organizadores Llamadas Asistentes xi2 x1 . y i


xi yi
Rufino 10 15 100 150
Fermín 20 30 400 600
Arnulfo 10 20 100 200
Malecio 15 30 225 450
Sebastián 5 15 25 75
Julia 5 20 25 100
Cipliano 10 20 100 200
Rodrigo 10 25 100 250
Andrés 10 15 100 150
Yaneth 15 35 225 525
Total: 6 110 225 1400 2700

Cálculo de los coeficientes a y b.


219

10 10 10 10

¦ y .¦ x  ¦ x .¦ x y
i 1
i
i 1
2
i
i 1
i
i 1
i i
(225)(1400)  (110)(2700)
a 2
10 § 10 · 10.(1400)  (110) 2
n. ¦x 2
i ¨
¨ ¦ x ¸¸ i
i 1 © ¹
315000  297000 18000
9,47
14000  12100 1900
10 10 10

¦ x y  ¦ x .¦ y
n.
i 1
i i
i 1
i
i 1
i
10.( 2700)  (110)(225)
b 2
10 § 10 · 10.(1400)  (110) 2
¦
n. xi2  ¨
¨ ¦ xi ¸
¸
i 1 © ¹
27000  24750 2250
1,842
14000  12100 1900
Luego, la ecuación de regresión resultante, es: Y = 9,47 + 1,84X.

c) Estime el número de asistentes al realizar 25 llamadas telefónicas.


Y’ = 9,47 + (1,84)(25) = 9,47 + 46 = 55,47 | 55.
Es decir, al realizar 25 llamadas de invitación se pueden captar 55 asistentes.

Desarrollo del EJEMPLO 5.1 con el MINITAB 18:


Ejecutar los comandos: Menú: Estadísticas ►Regresión ►Regresión… ►
seleccionar en la opción Respuesta: Asistentes al evento y en Predictores:
Llamadas de Invitación ► Aceptar.

Figura 5-4. Ventana de diálogo para análisis de regresión con datos del Ejemplo 5.1.
Luego, en la ventana Sesión, aparecerá la ecuación:

Ecuación de regresión
Asistentes al evento = 9.47 + 1.184 Llamadas de invitación
220

Que es igual al obtenido mediante la fórmula de mínimos cuadrados.


EJEMPLO 5.2. Los calificativos obtenidos por un grupo de alumnos del quinto
grado de educación secundaria y los calificativos obtenidos al finalizar el primer
semestre de estudios universitarios, se resumen en la tabla:
Notas 01 02 03 04 05 06 07 08 09
Secundaria 16 13 15 12 11 16 14 12 17
Superior 15 11 17 14 11 14 15 12 13

a) Determine la ecuación de la línea de regresión para pronosticar las notas al


finalizar el primer semestre en la universidad con respecto a las notas del
quinto grado de secundaria.
b) Dibuje el diagrama de dispersión y su ecuación correspondiente.
Solución
Para hallar la ecuación de Regresión con el MINITAB 18, se procede:
Activar Menú: Estadísticas ►Regresión ► Regresión… ► Seleccionar en
la opción Respuesta: Superior y en Predictor: Secundaria ► Aceptar. En la
ventana Sesión, obtendremos la ecuación:

Análisis de regresión: Superior vs. Secundaria


La ecuación de regresión es
Superior = 6.556 + 0.5000 Secundaria

Otra manera de obtener la ecuación de la recta de Regresión Lineal


conjuntamente con el diagrama de dispersión con el Minitab es:
Accionando los comandos: Estadísticas ► Regresión ► Gráfica de línea
ajustada ►seleccionamos en Respuesta (Y) notas en Superior y en Predictor
(X) notas en Secundaria ► activar Lineal, como muestra la ventana de diálogo:

Figura 5-5. Ventana de diálogo para Gráfica de línea ajustada en análisis de regresión.
221

En la salida se muestra la ecuación y gráfica correspondiente, figura 5-6.

Diagrama 5-6. Diagrama de dispersión y ecuación de regresión lineal del ejemplo 5.2.

5.4. ANÁLISIS DE CORRELACIÓN LINEAL


El análisis de correlación es un conjunto de técnicas estadísticas empleadas para
medir la intensidad de la asociación entre dos variables cuantitativas. El objetivo
primordial del análisis de correlación consiste en determinar qué tan intensa es
la relación entre dos variables. El primer paso en este análisis es mostrar el
diagrama de dispersión o nube de puntos.
El análisis de correlación es un conjunto de técnicas estadísticas empleados para
medir la intensidad de la asociación entre dos variables. En el análisis de
correlación lineal podemos destacar tres tipos generales de disposición de los
datos: correlación positiva, correlación negativa y correlación nula. Tal como se
ilustran en la figura 5-7:
Y Y Y

X X X
a) Correlación negativa b) Correlación positiva c) Correlación nula
Figura 5-7. Ilustración de las posibles formas de correlación entre dos variables.
222

5.4.1. Correlación positiva o directa


Diremos que la correlación entre dos variables X e Y es directa o positiva (la
constante b de la recta de regresión es positiva), cuando la variación de sus
valores está en razón directa. Es decir, el aumento de los valores de la variable
X implica el aumento de la variable Y, o que la disminución de la variable X
implica la disminución de la variable Y.
EJEMPLO 5.3. En el siguiente cuadro se resume los calificativos obtenidos
por un grupo de alumnos universitarios en las asignaturas de Matemática y
Estadística en el rango de 0 a 50 puntos:
Asignaturas Calificativos
Matemática 13 16 24 32 35 48 16 26 40
Estadística 12 20 30 33 42 40 35 22 50

Determine el tipo de correlación que existe entre los calificativos de las dos
asignaturas.
Solución
Para ilustrar el diagrama de dispersión de puntuaciones en Estadística y
Matemática con el Minitab ejecutamos los comandos:
Gráfica ► Gráfica de dispersión… ► Con línea ajustada ► Aceptar ►
colocar en el eje X la variable Estadística y en eje Y la variable Matemática
► Aceptar. Obtendremos el gráfico de la figura 5-8.

Gráfica 5-8. Disposición de puntos de una correlación lineal positiva.

Como se puede apreciar, frente al aumento de puntuaciones en Matemática (Y)


también aumenta las puntuaciones en Estadística (X); en consecuencia, según
223

los datos que se exhiben estamos hablando de una correlación directa o positiva
entre X e Y.

5.4.2. Correlación negativa o inversa


Diremos que la correlación entre dos variables X e Y es inversa o negativa (la
constante b de la recta de regresión es negativa), cuando están correlacionados
negativamente o que la variación de sus valores está en razón inversa. Es decir,
si los valores de la variable X aumentan implica la disminución de la variable Y,
o que la disminución de la variable X implica el aumento de la variable Y.
EJEMPLO 5.4. En el siguiente cuadro se resume los calificativos obtenidos
por un grupo de alumnos de educación secundaria en las asignaturas de
Literatura y física en el rango de 0 a 100 puntos:
Asignaturas Calificativos
Literatura 15 30 38 40 60 65 70 80 85
Física 60 30 74 50 70 15 40 20 10

Solución
Para graficar el diagrama de dispersión de puntuaciones en Física y Literatura
con el Minitab, se ejecutan los comandos: Gráfica ► Gráfica de dispersión…
► Con regresión ► Aceptar ► Colocar en el eje X la variable Física y en
eje Y la variable Literatura ► Aceptar. Obtendremos el siguiente gráfico.

Figura 5-9. Diagrama de dispersión de una correlación lineal negativa entre física y
literatura del ejemplo 5.4.
224

Como se puede apreciar, frente al aumento de puntuaciones en Literatura (Y)


disminuye las puntuaciones en Física (X); en consecuencia, según los datos que
se exhiben estamos hablando de una correlación inversa o negativa entre X e Y.

5.4.3. Correlación nula


Es cuando las variables no están correlacionadas linealmente entre si, es decir
no es posible obtener una recta de regresión adecuada que ajuste a todos los
puntos de ella.
EJEMPLO 5.5. En el siguiente cuadro se resume los calificativos obtenidos
Arte y Biología de un grupo de alumnos de educación secundaria en un rango
de 0 a 50 puntos:
Asignaturas Calificativos
Arte 4 8 8 16 16 28 33 28 35 35
Biología 20 15 35 7 40 8 15 40 20 35

Solución
El diagrama de dispersión de puntuaciones en Biología y Arte; con el Minitab,
ejecutando los comandos: Gráfica ► Gráfica de dispersión… ► Con
regresión ► Aceptar, colocando en el eje X la variable Biología y en eje Y la
variable Arte ►Aceptar. Obtendremos el siguiente gráfico.

Figura 5-10. Los puntos de una correlación lineal nula entre arte y biología del ejemplo 5.7.

Como se puede apreciar en el diagrama de dispersión no existe una relación


lineal entre las puntuaciones en Arte (Y) y en Biología (X).
225

5.5. COEFICIENTE DE CORRELACIÓN DE PEARSON


Propuesta por Kart Pearson en el año 1900, describe la intensidad de la relación
entre dos conjuntos de variables intervalares o de razón. Se le denota por r, se
le llama también coeficiente de Pearson en honor a su creador. Puede tomar
cualquier valor de 1 hasta +1. Un coeficiente de correlación de 1 indica que
la relación entre las variables X e Y es perfecta negativa, mientras que 1, indica
una correlación perfecta positiva.
Obtención del coeficiente
El objetivo del análisis de correlación de Pearson es medir la intensidad de la
asociación que existe entre dos variables cuantitativas. Al mismo tiempo,
representa la magnitud lineal entre dos variables.
Entre algunas preguntas que pueden desprenderse con el coeficiente de
correlación de Pearson son los siguientes:

x ¿Los alumnos que practican más horas de matemática que otros, tienden a
tener mejor éxito académico en el área?

x ¿Está directamente relacionado el tiempo de servicio de un empleado estatal


con el sueldo que percibe mensualmente?

x ¿Los estudiantes que tienen altos coeficientes de inteligencia tienden a tener


calificativos altos en los cursos de arte y religión?

x ¿La tasa de mortalidad en las comunidades alto andinas están relacionadas con
el friaje que se tiene en la estación de invierno?

Para calcular el valor numérico del coeficiente de correlación de Pearson r,


1 d rxy d 1, se utiliza la fórmula 5-5.

Coeficiente de correlación de Pearson


n n n
n ¦x y ¦x ¦y
i i i i
rxy i 1 i 1 i 1 F.5-5
ª n 2 n
2º ª
n n

¦ ¦ 2
¦
«n xi  ( xi ) » u «n yi  ( yi ) »
¬ i1 i 1 ¼ ¬ i1 i 1 ¼
¦

Otra forma de identificar el coeficiente de correlación es mediante las fórmulas:


226

El coeficiente de correlación muestral, rxy, es:


S F.5-6
rxy b X
SY

El coeficiente de correlación poblacional, U, es:


VX F.5-7
U E
VY

coeficiente de correlación de Pearson, rxy , es:


n

S XY
¦ x y  n.( X )(Y )
i 1
i i
F.5-8
rxy
S X .SY ªn 2 º ªn 2 º
¦
¬i 1
¦
« xi  n( X )» u « yi  n.(Y )»
¼ ¬i 1 ¼

Donde: SX: es la desviación estándar de los valores de la variable X


SY: es la desviación estándar de los valores de la variable Y.
Interpretación
El valor del coeficiente de correlación de Pearson, r, toma valores entre 1 y
+1, desde el cual deducimos, que:
Si rxy > 0, existe correlación directa o positiva,
Si rxy < 0, existe correlación inversa o negativa,
Si rxy = +1, existe correlación perfecta positiva,
Si rxy = 1, existe correlación perfecta negativa,
Si rxy = 0, no existe correlación alguna.
Dando mejor precisión a las interpretaciones, podemos señalar:
Si 0 < rxy < 0,20, existe una correlación positiva o directa, muy baja,
Si 0,20 d rxy < 0,40, existe una correlación positiva o directa, baja,
Si 0,40 d rxy < 0,70, existe una correlación positiva o directa moderada,
Si 0,70 d rxy < 1,00, existe una correlación positiva o directa, fuerte o muy
buena,
Si r = 1, existe una correlación perfecta positiva.
Si 0,20 d rxy < 0, existe una correlación negativa o inversa, muy baja,
Si 0,40 d rxy < 0,20, existe una correlación inversa o inversa, baja,
Si 0,70 d rxy < 0,40, existe una correlación negativa o inversa, moderada,
227

Si 1,00 d rxy < 0,70, existe una correlación inversa o negativa, fuerte muy
buena,
Si rxy = 1, existe una correlación negativa perfecta.

EJEMPLO 5.6. En el siguiente cuadro se resume los calificativos obtenidos


por un grupo de alumnos de educación secundaria en las asignaturas de
Literatura y Física en el rango de 0 a 100 puntos, se resume en la siguiente tabla:
Alumno Literatura Física xi2 yi2 x1 . y i
xi yi
1 15 60 225 3600 900
2 30 30 900 900 900
3 38 74 1444 5476 2812
4 40 50 1600 2500 2000
5 60 70 3600 4900 4200
6 65 15 4225 225 975
7 70 40 4900 1600 2800
8 80 20 6400 400 1600
9 85 10 7225 100 850
Total 483 369 30519 19701 17037

Consideramos las variables:


X: Calificativos en Literatura
Y: Calificativos en Física
Obtengamos el coeficiente de correlación en la fórmula original, para lo cual
realizamos los cálculos auxiliares que se resumen en la tabla anterior.
9 9 9
9.¦x y ¦x ¦y
i 1
i i
i 1
i
i 1
i
rxy
ª 9
2º ª
9 9

9

¦2
¦ 2
¦
«9. xi  ( xi ) » u «9. yi  ( yi ) »
¬ i1 i 1 ¼ ¬ i1 i 1 ¼
¦

9.(17037)  (483).(369)  24894


>9.(30519)  (483) @u >9.(19701)  (369) @
rxy
2 2 (41382)(41148)

24894
 0,6033
41264 ,834

Cálculo del Coeficiente de correlación del ejemplo 5.6 con el Minitab


Para calcular el coeficiente de correlación con el Minitab 18, debemos ejecutar
los siguientes comandos: Estadísticas ► Estadísticas básicas ►
228

Correlación… ► en la ventana de variables ingresamos Literatura y Física.


Obteniéndose en la ventana Sesión, el siguiente resultado:

Correlación: Literatura; Física


Correlaciones
Correlación de Pearson -0.603

El valor de 0,603, significa que existe una correlación negativa o inversa


moderada, entre los calificativos obtenidos en Literaturay Física de los alumnos
del nivel secundario.

EJEMPLO 5.7. Para una muestra aleatoria de 8 trabajadores administrativos


de una universidad estatal se dispone de la siguiente información con respecto
al Sueldo que perciben (Y) y el Tiempo de Servicio (X) en la Institución. Se
resume en la tabla:
Administrativos 1 2 3 4 5 6 7 8
T. de Servicio (X) 8 7 6 12 4 10 18 15
Sueldo (Y) 1400 1100 1200 1700 1000 1600 1750 1550

Determine el coeficiente de correlación de Pearson entre el tiempo de servicios


y el sueldo.
Solución
Para calcular el Coeficiente de Correlación con el Minitab, accionamos los
siguientes comandos: Estadísticas ► Estadísticas básicas ► Correlación…,
luego, seleccionar en la ventana Variables: Tiempo y Sueldo, como se muestra
en la figura 5-11.

Figura 5-11. Ventana de Diálogo para obtener el coeficiente de correlación del ejemplo 5.7.
229

En la ventana Sesión se obtiene el siguiente resultado:

Correlación: Tiempo; Sueldo


Correlaciones
Correlación de Pearson 0.874

El valor de rxy = 0,874, significa existe una correlación positiva de moderada


a muy buena entre el tiempo de servicios y el sueldo percibido del trabajador
administrativo de la universidad.

EJEMPLO 5.8. Para los calificativos en las asignaturas de Arte y Biología (del
ejemplo 5.5) el coeficiente de correlación de Pearson con el Minitab,
calculamos, accionando, en los comandos: Estadísticas ► Estadísticas
básicas ► Correlación…, luego, seleccionar en la ventana Variables: Arte y
Biología, luego obtenemos en la ventana Sesión, lo que se muestra a
continuación:

Correlación: Arte; Biología


Correlaciones
Correlación de Pearson 0.027

El valor de rxy = 0,027, significa que la correlación entre las calificaciones


obtenidas den Biología y en Arte es casi nula o no existe.

5.6. COEFICIENTE DE DETERMINACIÓN


El coeficiente de determinación se calcula elevando al cuadrado el coeficiente
de correlación r, es decir r2. Se le define como la porción de la variación total
en la variable dependiente Y, que se explica a través de la variación en la variable
independiente X del modelo.
El coeficiente de determinación, r2, multiplicado por 100, indica el porcentaje
de variación de la variable dependiente que es explicado por las variables
independientes del modelo, se le conoce como una medida de la bondad del
modelo de regresión hallado. Se calcula por:
Coeficiente de Determinación
SSR SSE F.5-9
R2 1
SST SST
230

Donde:
SSR 6(Yˆ  Y ) 2 , representa la suma de cuadrados debido a la regresión

SSE (Y  Yˆ ) 2 , representa la suma de la variación del error.

SST (Y  Y ) , representa la suma de cuadrados del total.


El coeficiente de determinación varía entre 0 y 1, aunque es muy común
expresarlo en porcentaje. Un (r2) mayor que 70% indica una buena asociación
lineal entre las variables X e Y, donde a partir de X se puede predecir Y.
También (r2) indica el porcentaje de la variabilidad de la variable de respuesta
Y, es explicada por su relación lineal con X, mientras más alto sea este valor,
mejor es la predicción de Y usando X.

INTERPRETACIÓN:
NOTA. El valor 1  r2 se denomina coeficiente de alineación, e indica el
porcentaje de variaciones observadas que son explicadas por el modelo.
EJEMPLO 5.9.
Para el ejemplo 5.6 de esta sección, el coeficiente de determinación sería:
r2 = (0,603)2 = 0,364,
y su coeficiente de alineación correspondiente es:
1 – r2 = 1 – 0,364 = 0,636 = 63,6%

Para el ejemplo 5.7 de esta sección, el coeficiente de determinación sería:


r2 = (0,874)2 = 0,764,
y su coeficiente de alineación correspondiente es:
1 – r2 = 1 – 0,764= 0,236 = 23,6%

5.7. ERRROR ESTÁNDAR DE ESTIMACIÓN


El error muestral se refiere en términos más generales al fenómeno de la
variación entre muestras. Cuando este no es mencionado se considera que el
margen de error base es el 0.02% (0.2 para muestreo paralelo y 2 para muestreo
directo). El error de estimación es la medida de la dispersión de los valores
observados con respecto a la línea de regresión. El error estándar de estimación
se determina aplicando la siguiente ecuación:
231

Podemos notar que esta fórmula es muy similar al de la desviación estándar de


una muestra.
Error Estándar:
6(Y  Yˆ ) 2 F.5-10
SY . X
n2

Otra fórmula equivalente para determinar el error estándar, de uso menos


frecuente, es:

Error Estándar de estimación:


6Y 2  a.(6Y )  b.(6X .Y ) F.5-11
SY . X
n2

Por ejemplo, para las llamadas telefónicas (Ejemplo 5.1) de invitación y la


inscripción para asistir al evento académico se obtuvo la ecuación de regresión
de mínimos cuadrados:
Yˆ 9,474  1,184 X
Donde Y se refiere al número de inscritos en el evento, y X a la cantidad de
llamadas telefónicas hechas. Evaluaremos el error estándar de estimación como
una medida de cuán bien se adaptan los valores a la recta de regresión. Para lo
cual se tiene los datos resumidos en la siguiente tabla:
Organizadores Asistentes Asistentes Desviación (Y  Yˆ ) 2
reales (Y) Calculado( Ŷ ) (Y  Yˆ )
Rufino 15 21,314 –6,314 39,867
Fermín 30 33,154 –3,154 9,948
Arnulfo 20 21,314 –1,314 1,726
Melecio 30 27,234 2,766 7,651
Sebastián 15 15,394 –0,394 0,016
Julia 20 15,394 4,606 21,215
Cipriano 20 21,314 –1,314 1,726
Rodrigo 25 21,314 3,686 13,586
Andrés 15 21,314 –6,314 39,866
Yaneth 35 27,234 7,766 60,311
Total: 6 225 0,000 195,912

Aplicando la fórmula [5-10], obtenemos el error de estándar de estimación:


6(Y  Yˆ ) 195,912
SY . X 4,95
n2 10  2

5.8. INTERVALO DE CONFIANZA PARA EL VALOR MEDIO E


INTERVALO DE PREDICCIÓN
Dado el valor de la variable X se puede hallar un intervalo de confianza para el
valor medio de todos los valores Y correspondientes a dicho valor y también el
232

intervalo de confianza para el valor estimado de Y que correspondería a un valor


de X dado, éste último se denomina intervalo de predicción.
Entre los valores de las variables X y los valores de la variable Y, podemos
establecer dos tipos de estimaciones. El primero, denominado intervalo de
confianza, presenta el valor medio de Y para un valor dado de X. El segundo
tipo se conoce con el nombre de intervalo de predicción que nos informa acerca
de la gama de valores de Y para cierto valor de X.
Para determinar el intervalo de confianza del valor medio de la variable Y para
un valor dado de la variable X, utilizaremos la fórmula 5-12.

Intervalo Confidencial. para la media de Y, dado X:


1 ( X 0  X )2
Yˆ 'rt (1D / 2) .(n  2) sYX .  F.5-12
n (6X i ) 2
6X i2 
n

Yˆ : Es el valor pronosticado o estimado para cualquier valor de Y seleccionado.


X 0 : Cualquier valor seleccionado de la variable X.
X : es la media de los valores de la variable X.
.n: es el número de observaciones.
SYX : es el error estándar de estimación.
.t: es el valor teórico de la distribución t de Student, con n – 2 grados de libertad.
El intervalo de confianza es más corto cuando X 0 X y la longitud del
intervalo crece cuando X 0 se aleja de X .
Es más riesgoso hacer predicciones para un solo valor que para un valor medio,
por esta razón el intervalo de predicción de Y, es más ancho que el intervalo de
confianza para el valor medio.
Para determinar el intervalo de predicción para un valor particular de Y dado
cierto valor de X, se modifica la fórmula del intervalo de confianza, agregando
una unidad a la expresión en el interior del símbolo del radical. Resultando la
fórmula 5-13.

Intervalo de predicción de Y, dado un valor de X:


1 (X 0  X )2
Yˆ 'rt (1D / 2) .(n  2) sYX . 1   F.5-13
n (6X i ) 2
6X i2 
n
233

EJEMPLO 5.10. Para el ejemplo de organizadores del evento académico


regional. Determinemos un intervalo de confianza para los 10 docentes que
invitaron telefónicamente para el evento y que cada uno de ellos de acuerdo a
las llamadas realizadas captó un número de participantes.
Solución
Previamente, efectuamos los cálculos necesarios para determinar el intervalo de
confianza y el intervalo de predicción.
Organizadores Llamadas Asistentes xi2 yi2 x1 . y i
xi yi
Rufino 10 15 100 225 150
Fermín 20 30 200 900 600
Arnulfo 10 20 100 400 200
Melecio 15 30 225 900 450
Sebastián 5 15 25 225 75
Julia 5 20 25 400 100
Cipriano 10 20 100 400 200
Rodrigo 10 25 100 625 250
Andrés 10 15 100 225 150
Yaneth 15 35 225 1225 525
Total: 6 110 225 1400 5525 2700
El primer paso es determinar el número de asistentes que se desea captar un
miembro de la comisión organizadora si se realizan 14 llamadas. Esto es:
Yˆ 9,474  1,184 X 9,474  1,184(14) 26,05
Para determinar el valor de t necesitamos en primer término el grado de libertad.
Siendo para este caso: n – 2 = 10 – 2 = 8. Establecemos el nivel de confianza
del 95%. Según la tabla B del apéndice, el valor buscado al 0,95 de confianza
es 2,306. Según los cálculos hechos en la tabla anterior, se tienen:
En la sección anterior obtuvimos que el error estándar de estimación es SYX =
4,95, X0 = 14, 6Xi = 110
6X i 110
6X2 = 1400, X 11 .
n 10

a) Introduciendo estos valores calculados en la fórmula [5-12], determinamos el


intervalo de confianza.

1 ( X 0  X )2
I.C: = Yˆ 'rtD / 2 .sYX . 
n (6X i ) 2
6X i2 
n
234

1 (14  11) 2
= 26,05 r 2,306 .(4,95). 
10 (110 ) 2
1400 
10
= 26,05 r 4,382
En consecuencia el intervalo confidencial al 95% para todos los organizadores
del evento académico que realizan 14 llamadas telefónicas es de 22,12 hasta
30,43. Pero como los datos son discretos se redondean los valores.
Luego, si un organizador realiza 14 llamadas, puede esperar captar 26
participantes y es posible que el número de asistentes sean de 22 a 31 personas.
b) Introduciendo estos valores calculados en la fórmula [5-13], y los valores
correspondientes identificados, determinamos el intervalo de predicción al
95% de confianza.
1 (X 0  X )2
I.P.: = Yˆ 'rtD / 2 .sYX . 1  
n (6X i ) 2
6X i2 
n
1 (14  11) 2
= 26,05 r 2,306.(4,95). 1  
10 (110) 2
1400 
10
= 26,05 r 12,23
Desarrollado, podemos decir que el intervalo es de 13,82 hasta 38,28 personas
asistentes. Podemos concluir que el número de personas asistentes al evento se
encuentran aproximadamente entre 13 y 39 para un organizador del evento en
particular.
Observemos que, este intervalo es mayor que el intervalo de todos los
organizadores que hicieron 14 llamadas de invitación.
Desarrollo del EJEMPLO 5.10, usando el MINITAB:
Para hallar el intervalo de confianza procedemos activar: Estadísticas ►
Regresión ► Regresión… ►Predecir ► verificar en Columna de valores:
Llamadas, y en la Respuesta: Asistentes ► accionando en el botón
Opciones… ► 95 en Nivel de confianza ►Aceptar.
En la ventana Sesión aparecerá el intervalo de confianza y de predicción:
Predicción
EE de
Ajuste ajuste IC de 95% IP de 95%
21.3158 1.60613 (17.6121; 25.0195) (9.31432; 33.3173)
235

OBSERVACIÓN: Los intervalos calculados con el MINITAB ratifican los


hallados utilizando las fórmulas [5-12] y [5-13], respectivamente.
Para graficar el intervalo de confianza, accionamos los siguientes comandos:
Estadísticas ► Regresión ►Gráfica de línea ajustada… ► seleccionar en
Predictor: Llamadas, y en la Respuesta: Asistentes ► accionando en el botón
Opciones…► Aceptar, se tiene la ventana de diálogo de la figura 5-12.

Figura 5-12. Ventana de diálogo para las bandas del intervalo de confianza.

Figura 5-13. Bandas de Confianza para el valor medio y el valor predicho de Y.

OBSERVACIÓN. Las bandas de confianza son anchas en los extremos y


angosto en el centro. En realidad las bandas se angostan cuando los valores de
X que se toman están cerca de la media X .
236

7.9. PRUEBA DE HIPÓTESIS


Luego de obtener el coeficiente de correlación de Pearson, podemos plantearnos
preguntas como el siguiente ¿Es estadísticamente significativa la relación entre
el coeficiente intelectual y el aprendizaje de los estudiantes universitarios? ¿Es
estadísticamente significativa la relación entre el número de invitaciones
telefónicas y el número de asistentes al evento académico?
El valor del coeficiente de correlación de Pearson r, está sujeto a las variaciones
muestrales. Un valor positivo o negativo de r no implica necesariamente el
correspondiente valor positivo o negativo de U. La hipótesis estadística que
debemos probar es U = 0 contra U z 0.

Probar que U = 0 es equivalente a probar que E = 0 en la ecuación de regresión,


VX
ya que existe la relación U E . Por lo tanto, si se rechaza (o no se rechaza)
VY
que E=0 , entonces se rechaza (o no se rechaza) que U=0 .

Prueba t para el coeficiente de correlación de Pearson


n2 F.5-14
t rxy . con n – 2 grados de libertad.
1  rxy2

Los pasos que seguiremos para pruebas de hipótesis relativas al coeficiente de


correlación de Pearson, son:
Paso 1. Postular la hipótesis de investigación como hipótesis alternativa, y la
negación de ésta como hipótesis nula, que escribimos:

H0: U = 0 (la correlación entre las poblaciones no existe, o es nula)


H1: U z 0. (la correlación entre las poblaciones existe, o no es nula)
Donde U es el coeficiente de correlación poblacional entre las dos variables.

Paso 2. Decidir el nivel de significación, D.

Paso 3. Determinación del estadístico de prueba, en función del coeficiente


de correlación muestral y bajo la hipótesis nula, que tiene una distribución t de
Student con (n–2) grados de libertad. Cuyo resultado usaremos para contrastar
la hipótesis nula frente a la hipótesis alternativa.
Paso 4. Determinación de la Región Crítica, la prueba siempre es bilalteral
en consecuencia la región crítica a considerar es el intervalo ]f,  tteórico[ ‰
237

]tteórico, +f[, donde “tteórico,” es la abscisa de la distribución t-Student con (n – 2)


grados de libertad, donde P(t(n2) < tteórico) = 1 D/2

Así por ejemplo, si elegimos el nivel de significancia D = 0,05 y el tamaño de


la muestra es 19, se cumple: P(t(17) < tteórico) = 0,95. Luego, su valor en la tabla
de t-Student resulta: 1,740.
Paso 5. Cálculo del estadístico de prueba.
Paso 6. Decisión. Rechazar la hipótesis nula de que no existe relación entre las
variables cuando tcal cae en la región de rechazo de la hipótesis nula.

EJEMPLO 5.11. A partir de los datos del Ejemplo 5.6, se desea probar si existe
relación entre las notas de la asignatura de Literatura y Física
Solución
PASO 1. Planteo de la hipótesis nula y la hipótesis alterna:
H0: U = 0 (Existe correlación débil entre las notas en Literatura y Física)
H1: U z 0. (Existe correlación intensa entre las notas en Literatura y Física)

PASO 2. Nivel de significación, D = 0,05


PASO 3. Estadístico de prueba, t de Student con n – 2 = 9 – 2 = 7 grados de
libertad, para rxy = 0,603

PASO 4. La región crítica, al 95% de confianza es: t0,975(7) 2,365

Figura 5-14. Región crítica en la distribución t de Sudent con 7 grados de libertad al 95% de
confianza.
238

Paso 5. Cálculo del estadístico de prueba:


n2 92
tcalc rxy . (0,603). 1,999
1  rxy2 1  (0,603) 2

PASO 6. Toma de decisión:


Puesto que tcalc = –1,999 > –2,365, cae en la región de aceptación de H0, no se
rechaza la hipótesis nula. Es decir, las notas de Literatura y Física no están
correlacionadas de manera intensa (o que tienen correlación débil).
Usando el Minitab 18, se obtiene como resultado lo que muestra el cuadro:

Análisis de regresión: Literatura vs. Física


La ecuación de regresión es
Literatura = 78.47 - 0.6050 Física
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
20.4402 36.39% 27.31%
Análisis de Varianza
Fuente GL SC MC F P
Regresión 1 1673.39 1673.39 4.01 0.085
Error 7 2924.61 417.80
Total 8 4598.00

Interpretación: Como el “p-value”= 0,085 es mayor que 0,05 no


rechazamos la hipótesis nula. Es decir que no existe correlación
entre los calificativos de Literatura y Física (o tienen correlación
nula).

EJEMPLO 5.12. En una muestra aleatoria simple de 28 personas el coeficiente


de correlación de Pearson entre la habilidad manual y su inteligencia abstracta
resulta 0,40. ¿Es posible que en la población el coeficiente de correlación entre
dichas variables resulte no nulo?
Solución
Paso 1. Planteo de la hipótesis nula y la hipótesis alternativa:
H0: U = 0 (la correlación entre la habilidad manual y la inteligencia abstracta es
débil o nula)
H1: U z 0. (la correlación entre la habilidad manual y la inteligencia abstracta es
intensa)
Paso 2. Nivel de significación: D = 0,05
Paso 3. Estadístico de prueba: t de Student con n – 2 = 28 – 2 = 26 grados de
libertad.
239

Paso 4. La región crítica: Al 95% de confianza es: t0,975(26) 2,056

Figura 5-15. Región crítica en la distribución t de Sudent con 26 g.l. al 95% de confianza.

Paso 5. Cálculo del estadístico de prueba:


n2 28  2
t calc r. 0,40. 2,225
1 r2 1  (0,4) 2
Paso 6. Toma de decisión:
Puesto que tcalc = 2,225 > 2,056, cae en la región crítica, en consecuencia,
rechazamos la hipótesis nula y se acepta la hipótesis alternativa. Es decir, la
correlación entre la habilidad manual y la inteligencia abstracta es fuerte o
intensa.

7.10. MÉTODOS NO LINEALES Y TRANSFORMACIÓN


Un modelo cuadrático entre dos variables tiene a forma de un polinomio de
grado dos, como se muestra en F.5-15:

Ecuación de correlación cuadrática


F.5-15
Y = a + bX + c.X2

Donde a, b y c son constantes a estimar. Usando la técnica de mínimos


cuadrados se pueden obtener fórmulas explícitas para calcular a, b y c.
Para obtener la ecuación del modelo cuadrático en MINITAB se elige la opción
Cuadrático en la ventana de diálogo de Gráfica de línea ajustada que es una
opción del menú Regresión. Resultando lo que se muestra en la figura [5-16].
240

Figura 5-16. Ventana de diálogo para hacer una regresión cuadrática

EJEMPLO 5.13. Se desea hallar un modelo cuadrático que permita predecir el


precio de un terreno de una urbanización (Y) basado en el área de la misma.
Para este propósito se cuenta con 10 datos recolectados en forma aleatoria, como
se muestra en la tabla.
Terreno Área (m2) Precio ($)
1 300 17800
2 160 12600
3 200 13400
4 130 12500
5 200 14200
6 190 15400
7 240 14600
8 120 12900
9 180 13500
10 130 11800
11 200 15000
12 180 14200
13 110 12000
14 300 20000
15 200 14100
Al accionar en Aceptar en la ventana de diálogo de la figura [5-16], a partir de
los datos del ejemplo 5.13, en la ventana Sesión obtenemos:

Análisis de regresión polinomial: Precio vs. Área


La ecuación de regresión es
Precio = 12177 - 12.57 Área + 0.1147 Área^2
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
853.457 87.08% 84.93%
Análisis de varianza secuencial
Fuente GL SC F P
Lineal 1 56320733 64.61 0.000
Cuadrático 1 2591933 3.56 0.084
241

Siendo el gráfico correspondiente lo que muestra la figura 5-17.

Figura 5-17. Regresión cuadrática que relaciona área del terreno y su precio.

Interpretación: El modelo cuadrático es 84,93%, comparando con el resultado


que se obtendría en el modelo lineal que es 81,96%, se ha ganado 2,97% de
confiabilidad, el cual es un aumento medianamente significativo y se puede usar
el modelo cuadrático para hacer inferencias. Pero también uno podría optar
por el modelo lineal que es más fácil.

Considerando el intervalo de confianza y de predicción de precio y área de


terreno para el modelo cuadrático, obtenemos lo que muestra en la figura 5-18.

Figura 5-18. Intervalo de confianza y de predicción para el precio y área, ejemplo 5.12.

OBSERVACIÓN: También se pueden tratar modelos polinómicos más


generales (el modelo cúbico es lo que sigue al cuadrático), pero como las
gráficas de las funciones cúbicas presentan muchas alteraciones en su
comportamiento, no son muy adecuadas para usarlos.
242

7.11. REGRESIÓN LINEAL MÚLTIPLE


En un modelo de regresión lineal múltiple, la variable dependiente o respuesta
(Y) es una función de dos o más variables independientes. Un modelo para n
variables independientes podemos expresar así:
Y = f(X1, X2, X3, …Xn)
El modelo de regresión lineal múltiple tiene la ecuación de la figura 5-17:

Ecuación de regresión lineal con 2 variables independientes


Y E 0  E1 X 1  E 2 X 2  e F.5-16

donde:
Y: es la variable aleatoria denominada variable dependiente.
X1, X2: son las dos variables independientes

E0: es la intercepto de Y, o sea, la ordenada del punto en la intersección con el


eje Y.

E es el coeficiente de correlación:

E1: en el cambio neto en Y para cada cambio unitario en X1, manteniendo X2


constante. Se denomina también coeficiente de regresión parcial o neta.

E2: en el cambio neto en Y para cada cambio unitario en X2, manteniendo X1


constante. Se denomina también coeficiente de regresión parcial o simplemente
coeficiente de regresión.
.ei: error aleatorio, mide el desajuste entre la realidad y el modelo.
Esta ecuación es muy similar a la ecuación de regresión lineal simple, excepto
qué agregamos una variable independiente.

Para estimar los parámetros E0, E1, E2, se toma una muestra de valores
yi , x1i , x2i , i = 1, 2, n; y para cada elemento de la muestra se tiene el siguiente
sistema de ecuaciones, yi E 0  E1 x1i  E 2 x2i  ei , donde yi es el i-ésimo valor
de la variable Y, x1i y x2i, los i-ésimos valores de las variables independientes X1
y X2; por lo que ei yi  E 0  E1 x1i  E 2 x2i . Luego, se usa el método de mínimos
cuadrados, buscando los valores E1 y E2 que hagan mínima los valores de E0, E1,
243

E2 que hagan mínima la suma de los cuadrados de los errores, es decir que
minimicen ¦e 2
i .

La solución conduce a un sistema de ecuaciones denominadas ecuaciones


normales, haciendo uso de algunas ideas de álgebra de matrices.

Así, Yˆ Eˆ0  Eˆ1 X 1  Eˆ 2 X 2 es la ecuación de la recta de regresión múltiple


ajustada por el método de mínimos cuadrados, donde Ê 0 , Ê1 , Ê 2 son los
estimadores de E0, E1 y E2, respectivamente.
Se puede aumentar el número de variables independientes, denotadas por X1,
X2 y X3, resulta la ecuación general de regresión.

Ecuación de correlación lineal con 3 variables independientes


Y E 0  E1 X 1  E 2 X 2  E 3 X 3 F.5-17

Esto se puede ampliar para cualquier número de variables independientes: X1,


X2, …, Xn, siendo la ecuación general de regresión múltiple:

Ecuación de correlación lineal con n variables independientes


Y E 0  E 1 X 1  E 2 X 2  E 3 X 3  ...  E k X k F.5-18

EJEMPLO 7.14. Para una muestra de 12 estudiantes se tiene información,


como se muestra en la siguiente tabla. Ajustar la recta de regresión múltiple
usando el método de mínimos cuadrados.
Nro Coeficiente de Tiempo de Índice académico
Intelig. (X1) Estudio (X2) (Y)
1 110 8 1.0
2 112 10 1.6
3 118 6 1.2
4 119 13 2.1
5 122 14 2.6
6 125 6 1.8
7 127 13 2.6
8 130 12 2.0
9 132 13 3.2
10 134 11 2.6
11 135 12 3.0
12 138 18 3.6

a) Halle la recta de regresión lineal.


b) El coeficiente de determinación.
244

Solución
Para desarrollar este problema con el MINITAB, la ventana de diálogo de
Regresión completamos como se muestra en la siguiente figura.

Figura 5-19. Ventana de diálogo para la regresión múltiple del ejemplo 5.13.

En el Minitab, selecciona en Respuesta la variable dependiente Índice


Académico (I-Académico), mientras que en la ventana Predictor se
seleccionan las variables independientes: Coeficiente de inteligencia (C-
Inteligencia) y Tiempo de Estudio (T-Estudio).
Al oprimir Aceptar, en la ventana Sesión se exhibe el siguiente contenido.
Análisis de regresión: I-Académico vs. C-Inteligencia; T-Estudio
Coeficientes
Término Coef EE-coef. Valor T Valor p FIV
Constante -5.30 1.19 -4.44 0.002
C-Inteligencia 0.0499 0.0107 4.65 0.001 1.47
T-Estudio 0.1175 0.0284 4.13 0.003 1.47
Ecuación de regresión
I-Académico = -5.30 + 0.0499 C-Inteligencia + 0.1175 T-Estudio
Ajustes y diagnósticos para observaciones poco comunes
Resid
Obs I-Académico Ajuste Resid est.
8 2.000 2.595 -0.595 -2.35 R

Interpretación: El coeficiente de una variable predictora indica el cambio


promedio de la variable de respuesta I-Académico cuando se incrementa en
una unidad la variable predictora asumiendo que las otras variables
permanecen constantes. En este ejemplo, el aumento promedio de I-
Académico es 0,0499 por cada punto adicional en la parte de C-Inteligencia,
asumiendo que la otra variable permanece constante asumimos el aumento
promedio en 0,117 por cada punto adicional en T-Estudio, asumiendo que la
otra variable permanece constante.
245

RESUMEN DEL CAPÍTULO 5

5.1. Un diagrama de dispersión (o nube de puntos) es un medio gráfico que se


emplea para mostrar la relación entre dos variables.
A. La variable dependiente se escaliza en el eje Y, y es la variable que se estima.
B. La variable independiente se escaliza en el eje X, y es la variable utilizada
como estimador.

5.2. La recta de regresión de mínimos cuadrados es de la forma: Y’ = a + bX.


A. Y’ es el valor calculado de Y para un valor seleccionado de X.
B. a es la constante o intercepción de la recta con el eje vertical.
1. Es el valor de Y’ cuando X = 0.
2. a se calcula usando la siguiente ecuación:

a
¦Y  b ¦ X Y  bX
n n
C. b es la pendiente de la recta.
1. Indica la magnitud del cambio en Y’ para una variación de valor 1en X.
2. Un valor positivo para b indica una relación directa entre las dos variables,
y uno negativo, una relación inversa.
3. El signo de b y el signo de r, el coeficiente de correlación, siempre son
iguales.
4. b se calcula en la siguiente ecuación:
n n n
n(¦ x i y i )  (¦ x i )(¦ y i )
i 1 i 1 i 1
b n n
n( ¦ x )  (¦ x i ) 2
2
i
i 1 i 1

D. X es el valor de la variable independiente.

5.3. El coeficiente de correlación mide la intensidad de la asociación entre dos


variables.
A. Ambas variables deben ser al menos la escala de intervalos de medición.
B. El coeficiente de correlación puede variar desde 1 hasta 1.
C. Si la correlación entre las variables es 0, no hay asociación entre ellas.
D. Un valor 1,00 indica una correlación positiva perfecta, y una de 1,00, una
correlación negativa perfecta.
246

E. El signo positivo indica que hay una relación directa entre las variables, y
un signo negativo, que hay una relación inversa.
F. Se designa con una letra r se obtiene mediante la siguiente ecuación:
n n n
n ¦x y ¦x ¦y
i 1
i i
i 1
i
i 1
i
rxy
ª n 2 n
2º ª
n n

¦ ¦ 2
«n xi  ( xi ) » u «n yi  ( yi ) »
¬ i1 i 1 ¼ ¬ i1 i 1 ¼
¦ ¦
C. El siguiente valor estadístico de prueba sirve para determinar si la
correlación en la población es diferente de cero.
rxy . n  2
T
1  rxy2

5.4. El coeficiente de determinación es la porción fraccionaria del cambio en una


variable que es explicada por la otra.
A. Varía de 0 a 1.
B. Es el cuadrado del coeficiente de correlación.

5.5. En el análisis de regresión se calcula una variable con base en otra variable.
A. La variable que se evalúa es la variable dependiente.
B. La variable que se emplea para realizar la estimación es la variable
independiente.
1. La relación entre las variables debe ser lineal.
2. Tanto la variable dependiente como la independiente deben ser de escala
de intervalo o de razón.
3. El criterio de mínimos cuadrados se utiliza para determinar la ecuación de
regresión.

5.6. El error estándar de estimación mide la variación alrededor de la línea de


regresión.
A. Está en las mismas unidades que la variable dependiente.
B. Se basa en las desviaciones al cuadrado respecto de la recta de regresión.
C. Valores pequeños indican que los puntos se agrupan cerca de la citada recta.
D. Se calcula usando la siguiente fórmula:
247

6(Y  Yˆ )
SY .X
n2

5.7. La inferencia acerca de la regresión lineal se basa en las siguientes


consideraciones.
A. Para un valor X, los valores de Y se distribuyen de forma normal respecto
de la línea de regresión.
B. La desviación estándar de cada una de las distribuciones normales es la
misma para todos los valores de X y se calcula por medio del error de
estimación.
C. Las desviaciones respecto de la línea de regresión son independientes, sin
ningún modelo referente al tamaño o la dirección.
5.8. Existen dos tipos de estimaciones de intervalos:
A. En un intervalo de confianza, el valor medio de Y se calcula para un valor
dado de X.
1. Se evalúa por medio de la fórmula:
1 ( X 0  X )2
Yˆ 'rtD / 2 .sYX . 
n (6X i ) 2
6X i2 
n
2. La amplitud del intervalo es afectada por el nivel de confianza, la magnitud
del error estándar de estimación y el tamaño de la muestra, así como por el
valor de la variable independiente.

B. En un intervalo de predicción, el valor individual de Y se calcula para un


valor de X.
1. Se obtiene mediante la siguiente fórmula:
1 (X 0  X )2
Yˆ 'rtD / 2 .sYX . 1  
n (6X i ) 2
6X i2 
n
2. La diferencia entre las dos últimas fórmulas es el número 1 bajo el radical.
a) El intervalo de predicción será más amplio que el intervalo de confianza.
b) El intervalo de predicción se basa también en el nivel de confianza, el
tamaño del error estándar de estimación, la dimensión de la muestra y el
valor de la variable independiente.
248

5.9. El análisis de regresión y correlación múltiples se basa en las siguientes


consideraciones:
A. Existe una correlación lineal entre las variables independientes y la variable
dependiente
B. La variable dependiente es cuantitativa continua y escalizada por intervalo.
C. La variación residual es la misma para todos los valores ajustados de Y.
D. Los residuos están distribuidos en forma normal.
E. Las observaciones sucesivas de las variables dependientes no están
correlacionados.
249

PROBLEMAS PROPUESTOS Nº 5

1. Se hizo un estudio a un grupo de niños adictos a la televisión con riesgo de


desarrollar obesidad. Se recolectó datos de una muestra de 8 niños. Los
siguientes datos indican la cantidad de horas que los niños en estudio ven
televisión cada semana, la edad, el peso y el número de horas expuestas a ver
televisión.
a. Traza el diagrama de dispersión de tomando la variable edad versus peso
del niño, y calcule el coeficiente de correlación para estas dos variables y
la línea de regresión lineal.
b. Traza el diagrama de dispersión de los puntos regresionados de la horas de
TV por semana y edad, calcule el coeficiente de correlación para estas dos
variables y la línea de regresión lineal.
Niño Hs de TV por Peso (kg-f) Edad
semana (años)
1 9 30 9
2 14 40 10
3 20 45 10
4 18 38 9
5 12 36 10
6 14 40 11
7 19 45 10
8 12 35 9

2. Se aplica una prueba de ubicación de matemática a todos los alumnos del


primer grado que están ingresando a la educación secundaria. No se admiten
a los que obtienen calificación inferior a 35 en el curso de regular de
matemática y se les coloca en una sección de nivelación. Las calificaciones
del examen inicial y el examen final de 20 alumnos que tomaron el curso
regular fueron los siguientes:
Examen de Calificativo Examen de Calificativo
ubicación del curso ubicación del curso
50 53 90 54
35 41 80 91
35 61 60 48
40 56 60 71
55 68 60 71
65 36 40 47
35 11 55 53
60 70 50 68
90 79 65 57
35 99 50 79
250

a) Dibuje el diagrama de dispersión.


b) Encuentre la ecuación de la línea de regresión para pronosticar los
calificativos del curso a partir de la prueba de ubicación.
c) Grafique la línea de ajuste del diagrama de dispersión.
d) Si 60 sería el calificativo mínimo de pase ¿debajo de qué calificativo
obtenido en la prueba de ubicación se les debe negar el ingreso al curso
regular del primer grado?
3. Las emisiones electromagnéticas radiadas por dispositivos digitales se deben
medir en sitio de prueba de campo abierto. A fin de medir la aceptabilidad de
un sitio de prueba es preciso medir la atenuación del sitio (es decir la pérdida
de transmisión desde la entrada de un dipolo de media onda hasta la salida de
otro cuando ambos dipolos se colocan sobre el plano de tierra). Un estudio
realizado en un sitio de prueba, produjo los siguientes datos de atenuación de
sitio (en decibeles) y frecuencia de transmisión (en megahertz) para dipolos
a una distancia de 3 metros:
Frecuencia de Atenuación de
Transmisión sitio
(X) MHz (Y) dBL
30 11,5
50 15,8
100 18,2
150 22,6
200 26,2
250 27,1
300 29,5
350 30,7
400 32,4
450 33,2
500 34,4

a) Dibuje el diagrama de dispersión para los datos


b) Encuentre la línea de mínimos cuadrados que relacione la atenuación del
sitio Y con la frecuencia de transmisión X.
c) Trace la línea de mínimos cuadrados sobre el diagrama de dispersión.
d) Interprete los valores de E0 y E1.
e) Predecir un valor de atenuación para una frecuencia dada

4. Se desea hallar la línea de regresión que permita predecir el precio de un


terreno (Y) basado en el área de la misma (X), para este propósito se
recolectaron 15 datos.
251

Terreno Área (m2) Precio (S/.)


1 300 17900
2 160 12650
3 200 13450
4 130 12500
5 200 14200
6 195 16400
7 240 14600
8 120 12900
9 180 13500
10 124 11850
11 200 16000
12 180 15200
13 110 12250
14 300 22000
15 200 14100
a) Halle el coeficiente de correlación de Pearson e interprete.
b) Halle el coeficiente de determinación e interprete.
c) Determine la ecuación de la línea de regresión para pronosticar el precio
del terreno en función de su área

5. En una ciudad se eligen 15 personas al azar y se anota su salario mensual (X)


y la cantidad que ahorran mensualmente (Y)

Salario (X) Ahorro Salario Ahorro (Y)


(Y) (X)
800 150 2300 750
850 100 2500 680
900 280 2700 900
1200 400 3000 800
1500 350 3200 850
1700 500 3500 1200
1900 635 5000 1000
2000 600
a) Hallar la línea de regresión e interpretar los coeficientes de la línea de
regresión.
b) Trazar la línea de regresión encima del diagrama de puntos.
c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado.
d) Hacer una regresión que pase por el origen e interpretar la pendiente.
e) Asigne un valor adecuado a la variable predictora y halle el intervalo de
confianza del 90% para el valor de la variable, dé respuesta e interprete el
resultado.
252

f) Asigne un valor adecuado a la variable predictora y halle el intervalo de


confianza del 95% para un valor individual de la variable, dé respuesta e
interprete el resultado.
g) Obtenga las bandas de confianza para el valor medio y de predicción y
explique para qué se usan.
h) Interprete el coeficiente de determinación.
i) Hacer un análisis de residuales y comentar los resultados.
j) Hacer la regresión cuadrática y compara con la línea de regresión.
6. Los siguientes valores son los niveles de testosterona en el plasma y la edad
de los prisioneros que sufren su primera condena por crímenes violentos y
por agresión, tomados de una muestra de reos jóvenes:
Concentración Edad Concentración Edad del
de testosterona del reo de testosterona reo
1300 21 1200 28
1000 22 600 30
1150 23 700 31
1400 24 750 29
1050 26 620 34
800 26 500 35
900 26 450 38
700 27

¿Proporcionan estos datos la evidencia suficiente que las dos variables están
correlacionados? Utilice un nivel de significancia de 0,05.

7. Los siguientes valores representan al flujo sanguíneo pulmonar y el volumen


sanguíneo pulmonar registrado a 14 niños con enfermedad congénita del
corazón.

VSP FSP VSP FSP


(ml ( m2) (L/min ( m2) (ml ( m2) (L/min ( m2)
165 4,4 520 8,2
276 3,5 220 5,8
380 6,4 290 5,2
410 15,2 230 3,8
300 12,2 370 4,4
420 13,8 530 10,4
580 8,8 510 16,0
Encuentre la ecuación de regresión que describe la relación lineal entre las dos
variables.
Determine el coeficiente de determinación e interprete.
Pruebe la hipótesis con t de Student, con un nivel de significación de 0,05.
253

8. Las estaturas X en pulgadas, y los pesos Y, en libras, para ocho atletas son los
siguientes::
Estatura (X): 70 67 69 74 72 75 73 70
Peso (Y) : 173 163 195 196 167 220 191 175
a) Determine el coeficiente de correlación de Pearson r, y el coeficiente de
determinación.
b) Haga la prueba para determinar si los pesos se relacionan con las estaturas.
c) Ponga en prueba la hipótesis nula H0: U d 0 contra la hipótesis alternativa H1
U > 0: , haciendo uso de la fórmula [5-13] para D = 0,05.
9. El número de horas de estudio invertido en el semestre y las calificaciones
finales en el curso de estadística de una muestra de 8 alumnos, fueron:
Horas de estudio: 14 16 22 20 18 16 18 22
Calificación: 12 13 15 15 17 11 14 16
a) Determine la recta de regresión de la calificación sobre el número de horas
de estudio invertidos.
b) Calcule el coeficiente de correlación y determine si es significativo al nivel
del 5% la asociación existente.
10. La población en miles de siete ciudades (X) y el correspondiente número de
médicos para la atención primaria de salud (Y) están dadas en::
X: 19 26 38 16 30 21 28
Y: 200 230 350 200 260 250 220
a) ¿Los datos satisfacen un modelo de regresión lineal?
b) Construya un intervalo del 95% de confianza para E.
c) Use la prueba de t y D = 0,05 para determinar si el modelo lineal es
apropiado para los datos.
11. Con los siguientes datos muestrales: Coeficiente de Inteligencia (X) y nota en el
examen (Y):
CI (X): 123 112 95 100 108 118 120 125 135
N(Y): 16 12 11 12 14 15 16 15 17
a) Halle la ecuación de regresión muestral de Y en X.
b) Determine el coeficiente de correlación entre X e Y.
c) Utilizando t-Student pruebe la hipótesis para D = 0,05.
12. Los calificativos de un grupo de estudiantes en el examen parcial (X) y
examen final (Y) fueron:
EP (X): 11 08 10 14 09 15 16 11 17 12
EF (Y): 16 14 13 14 11 12 15 12 15 16
a) Halle la ecuación de regresión muestra de Y en X.
b) Determine el coeficiente de correlación entre X e Y.
254

c) Utilizando t-Student pruebe la hipótesis para D = 0,05.


12. Los siguientes datos corresponden a 10 ciudades seleccionados
aleatoriamente. ¿Qué tipo y nivel de relación existe entre el grado de
desnutrición y el nivel educativo de los padres de familia de una ciudad?
Porcentaje de Nivel medio
niños desnutridos educativo
2,3 11,7
1,5 12,2
2,1 11,3
2,3 11,1
1,4 12,2
1,9 12,0
1,6 12,3
1,7 12,4
1,5 12,5
1,7 11,6

13. Los siguientes datos ficticios corresponden a un estudio de niños de 10 años


de edad, así como de sus madres.
Niño Calorías Peso de la Peso del Ejercicios
diarias madre (kg) hijo (kg) diarios (min)
1 2,206 55 30 24
2 2,246 75 34 23
3 2,211 45 27 23
4 2,203 85 40 22
5 2,229 120 38 22
6 2,223 53 32 23
7 2,241 70 35 24
8 2,233 80 37 24
9 2,219 65 29 22

a. Traza el diagrama de dispersión del peso del niño regresionado a partir del
peso de la madre.
b. Determine si existe una relación entre los pesos de la madre, y el peso del
niño.
c. Calcule el coeficiente de correlación de Pearson y la ecuación de la línea
de regresión.
d. Lleva a cabo la prueba de hipótesis de que existe una relación entre estas
dos variables y aborda los aspectos adecuados de la relación.
e. Halle la ecuación de regresión de la caloría versus (peso del hijo y el tiempo
de ejercicios que realiza)
255

14. La función de inversión neta total de toda la economía se ajusta al modelo


Y = AXB en donde Y equivale a la inversión neta, X a la tasa de interés, y A,
B son constantes. Se tiene la siguiente muestra:
X: 12 8 10 7 6 5 5
Y: 4 5 6 7 8 9 19
a) Determine la ecuación de regresión de mínimos cuadrados.
b) Predecir la inversión cuando la tasa de interés sea 8 por ciento.
15. Ajuste la ecuación de la forma Y = a + bX2 a los datos:
X: 10 8 10 7 6 5 11
Y: 40 60 95 50 36 24 100
16. Ajuste la ecuación de la forma Y = a + b/X a los datos:
X: 12 8 10 7 6 5 5
Y: 4 5 6 7 8 9 19
17. Encuentre el modelo de regresión lineal múltiple para los siguientes datos y
halle el valor de Y para los valores 12 y 15, 10 y 20; de las variables
independientes:
Y X1 X2
30 28 10
45 43 12
52 48 14
55 52 15
70 60 17
75 63 21

18. La Dirección de personal de una universidad utilizó una muestra de 10


empleados en un estudio para determinar la relación entre el comportamiento
hacia el trabajo Y, y las calificaciones de 4 pruebas. Obteniendo los siguientes
datos:
Y X1 X2 X3 X4
11 50 71 39 43
15 65 73 38 45
17 70 76 43 49
18 75 80 43 56
19 80 84 48 60
25 88 86 47 62
21 78 81 45 58
16 69 72 42 48
14 58 68 42 46
20 81 85 47 61

a) Halle la ecuación de regresión muestral.


b) Pruebe la significación del modelo de regresión múltiple al nivel del 10%.
256

19. Dada la siguiente información:


Y: medida de severidad de la enfermedad respiratoria.
X1: años de educación.
X2: número de personas en el edificio donde vive la persona.
X3: medida de la calidad del aire (un número grande indica pobre calidad)
X4: nivel de nutrición.
X5: 0 abstemio y, 1 bebedor.
Y X1 X2 X3 X4 X5
40 7 25 22 94 0
67 7 33 61 18 1
30 6 19 30 103 0
71 15 29 50 17 1
47 11 21 43 109 0
53 10 24 54 0 1
39 8 21 28 33 0
55 14 22 35 21 1
47 10 26 22 76 0
56 9 32 43 97 1
43 8 22 48 104 0
41 8 19 27 37 0
51 9 28 32 87 1
48 8 22 62 131 0
36 8 19 37 53 0
a. Halle la regresión lineal múltiple. Comente los coeficientes.
b. Haga un análisis de residuales y comentar sus resultados.
c. Aplicar el método “stepwise” para elegir el mejor modelo. Comentar los
resultados.
d. Aplique el método de “Los mejores subconjuntos” para elegir el mejor
modelo. Comente sus resultados (Utilice el Minitab)


6 Prueba de hipótesis para


medidas de asociación
Los coeficientes de asociación por si solos no indican
influencia o causalidad, es decir una variable influya o
sea causa de otra, pero constituyen una de las condiciones
para que se puedan establecer una relación de causalidad
entre las variables en cuestión

Prueba de hipótesis para variables dicotómicas: coeficiente Phi, coeficiente


Biserial-puntual, coeficiente Tetracórico, coeficiente Biserial. Asociación de
variables ordinales: coeficiente de Spearman, de Kendall, de Goodman.
Asociación de variables nominales: coeficiente de Yule, coeficiente Chi-
cuadrada. Coeficiente de contingencia.

OBJETIVOS
Al concluir este capítulo, estará en condiciones de:
1. Determinar los coeficientes de asociación y realizar la prueba de
hipótesis con coeficientes de asociación para variables dicotómicas
y dicotomizadas: Biserial-Puntual y Biserial.
2. Determinar los coeficientes de asociación y realizar la prueba de
hipótesis con coeficientes de asociación para variables dicotómicas
y dicotomizadas: Phi, Tetracórica.
3. Calcular el coeficiente de asociación y realizar prueba de hipótesis
con el coeficiente de asociación para variables ordinales: Spearman.
4. Calcular el coeficiente de asociación y realizar prueba de hipótesis
con el coeficiente de asociación para variables ordinales: Kendall y
Goodman.
5. Calcular el coeficiente de asociación para variables ordinales: Yule,
Chi-cuadrada y de contingencia
258

6.1. INTRODUCCIÓN
En muchas investigaciones se tienen que resolver estadísticamente la existencia
de asociaciones o relaciones entre variables definidas en una población, a partir
de los resultados obtenidos en una muestra proveniente de ella. Por ejemplo,
podemos estudiar las relación entre el género y grado de instrucción de los
habitantes de un distrito, entre el género y el éxito académico en el curso de
estadística en los estudios de pregrado, entre el sueldo y el tiempo de servicio de
un trabajador, el costo del cemento en función del área de carretera que se va
asfaltar, la relación entre el tiempo de servicios de un docente y la eficiencia en
el desarrollo de una asignatura, el número de horas trabajadas en una fábrica y la
cantidad de unidades de artículo producidos, etc. En los casos mencionados nos
basaremos en los valores encontrados en una muestra representativa, para luego
analizar si dichos valores son significativos.
Para poder abordar con pertinencia y eficiencia un problema o situación
planteada, primero presentaremos la metodología para calcular el coeficiente de
correlación en la muestra y luego las metodologías correspondientes a pruebas de
hipótesis para el parámetro poblacional.
En este capítulo nos limitaremos a exponer los correspondientes estadísticos
junto con su distribución muestral y a comprobar la hipótesis nula, H0: U* = 0,
siendo U* el coeficiente de correlación que se trate en cada caso; debido a que
ésta suele ser la hipótesis propuesta para su comprobación en la mayoría de las
veces.

6.2. PRUEBA DE HIPÓTESIS PARA ASOCIACIÓN ENTRE VARIABLES


DICOTÓMICAS O DICOTOMIZADAS

Las variables dicotómicas son aquellas que por su naturaleza sólo pueden
manifestarse según dos modalidades, tales como: género (varón-mujer), estado
vital (vivo-muerto), etc.
Las variables dicotomizadas, son aquellas que por su propio naturaleza pueden
manifestarse según muchas modalidades, pero para su análisis se reagrupa sólo
en dos modalidades, como: aprovechamiento escolar (aprobado-desaprobado),
estatura (bajo-alto), número de hijos (inferior a tres, superior a 2), etc.
259

6.2.1. Prueba de hipótesis para el coeficiente biserial-puntual: U bp

A. Coeficiente de correlación Biserial puntual r bp

El coeficiente de correlación biserial-puntual se usa cuando una de las variables


es cualitativa dicotómica y la otra es cuantitativa (nivel intervalar o de razón).
Por ejemplo, podemos estar interesados en saber la relación entre el género (Y) y
la estatura (X) de un grupo de estudiantes.
Para hallar el coeficiente de correlación biserial-puntual muestral, debemos
identificar en la información que se tiene a disposición,
Y: Una variable dicotómica (de valores 1 y 0),
X: Una variable cuantitativa continua.
Cuyo cálculo lo realizamos mediante la fórmula F.6-1:

X1  X 0 n 0 .n1
r bp
SX n(n  1)
F. 6-1

Donde
X 1 , es la media de las puntuaciones de la variable X para los que la variable Y
tiene puntaje 1.
X 0 , es la media de las puntuaciones de la variable X para los que la variable Y
tiene puntaje 0.
S X , es la desviación estándar (muestral) de los valores de la variable X.
n1 , número de unos en la variable Y.
n0 , número de ceros en la variable Y.
El coeficiente biserial puntual para una variable continua y otra dicotómica,
supuesta X continua, también podemos calcular mediante la fórmula F.6-2:

X1  X 0
r bp
p.q F. 6-2
SX

.p: es la proporción de unos en Y.


.q = 1 – p: es proporción de ceros en Y.

B. Proceso de prueba de hipótesis:


Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):
La hipótesis nula (H0) Indica que no existe asociación entre las dos variables
poblacionales en estudio, la misma que denotaremos con : H0: U bp
0.
260

La hipótesis alternativa (H1) indica que existe asociación entre las dos variables
en estudio, la misma que escribiremos: H1: U bp
z 0.

Paso 2. Selección del nivel de significación: la probabilidad de rechazar la


hipótesis nula cuando es verdadera, a esto se le llama error de tipo 1, que puede
ser: D = 0,05, 0,01 o 0,10.

Paso 3. Seleccionar el estadístico de prueba: Bajo la hipótesis nula y para un


tamaño de muestra de tamaño menor que 20, el estadístico de prueba es:

Estadístico de prueba de coeficiente Biserial Puntual


rbp n  2 F. 6-3
t
1  rbp2

que tiene una distribución aproximadamente normal con media 0 y varianza 1

Paso 4. Formular la regla de decisión: En la tabla B del apéndice o directamente


con el Minitab, calculamos el valor teórico de t para n – 2 grados de libertad, al
que llamamos valor teórico t1-D / 2 (n  2) para la toma de decisiones.

Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de


correlación .rbp obtenido en los datos de la muestra y bajo la hipótesis nula
rbp n  2
calculamos el estadístico de prueba t calc , con una distribución
1  rbp2

aproximadamente normal, N(0 , 1)


Paso 6. Decisión estadística: Si el valor del estadístico de prueba, cae en la
región crítica, se rechaza la hipótesis nula, en caso contrario no se rechaza.

EJEMPLO 6.1. En el siguiente cuadro se presentan los datos de la variable


género (masculino: 1, femenino: 0) y peso (en kg.) de 14 niños del primer grado
de secundaria de una Institución educativa estatal de una la localidad.
Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Género 1 0 0 1 1 0 1 1 0 1 1 0 1 0
Peso 35 40 39 45 49 36 36 39 37 44 48 38 40 35
¿Podemos afirmar que existe asociación entre el género y el peso de los niños de
la población considerada?
261

Solución
Haciendo un cuadro resumen, realizamos los cálculos auxiliares con miras a
obtener el coeficiente de correlación Biserial-Puntual.
Niño Género (Y) Peso (X) X0 X1
1 1 35 - 35
2 0 40 40 -
3 0 33 33 -
4 1 45 - 45
5 1 49 - 49
6 0 36 36 -
7 1 36 - 36
8 1 39 - 39
9 0 37 37 -
10 1 44 - 44
11 1 48 - 48
12 0 38 38 -
13 1 40 - 40
14 0 32 32 -

Realicemos los cálculos auxiliares, para luego obtener el valor del coeficiente
de correlación Biserial-Puntual.
35  45  49  36  39  44  48  40 336
X1 42
8 8

40  33  36  37  38  32 216
X0 36
6 6

n1 8, n0 6 y SX 5,30

42  36 (8)(6) 6 48
r (1,132 )(0,513) 0,58
bp
5,30 14.(13) 5,30 182

¿El coeficiente de correlación biserial puntual hallado en la muestra, es


estadísticamente significativa? Para responder a la interrogante formulada
procedamos a realizar la prueba de hipótesis:
Paso 1. Formulación de hipótesis nula e hipótesis alternativa.
H0: No existe asociación entre el género y el peso en la población de niños de
primer grado : H0: U bp
0.

H1: Existe asociación entre el género y el peso en la población de niños de


primer grado: H1: U z 0 .
bp

Paso 2. Nivel de significación: D = 0,05.


262

rbp n  2
Paso 3. Estadístico de prueba: es: t , que tiene una distribución
1  rbp2
aproximadamente normal con media 0 y varianza 1
Paso 4. Regla de decisión: En la tabla t-Student (del apéndice B) el valor teórico
para t1D/2(12)= t0,975(12) es 2,18. Luego, la región de rechazo es el intervalo:
]2,18 , +v[.
Paso 5. Cálculo del valor estadístico de prueba:
(0,58) 12 (0,58)(3,464 )
tcalc 2,465 .
1  (0,58) 2 0,815

Paso 6. Decisión estadística: Como tcalc 2,465 ! 2,18 cae en la región de rechazo
de la hipótesis nula, se acepta la hipótesis alterna. Es decir, existe asociación
entre el género y el peso en la población de niños de primer grado

6.2.2. Prueba de hipótesis para el coeficiente de correlación Phi: U I


.
A. Coeficiente de correlación Phi: rI
El coeficiente Phi utilizaremos cuando deseamos hallar la asociación existente
entre dos variables dicotómicas de tipo cualitativo. Por ejemplo, si deseamos
establecer la relación existente entre Institución Educativa y el ingreso a la
universidad, entre el género del estudiante y la elección de una autoridad
universitaria, aceptación de una asignatura del plan de estudios y la aprobación
de la misma durante el estudio, etc.
Para el cálculo del coeficiente de correlación Phi muestral, es preciso tener
identificado los siguientes elementos:
X: variable dicotómica con valores 0 y 1.
Y: variable dicotómica con valores 0 y 1.
a+c: suma de puntuaciones 1 en la variable Y,
b+d: suma de puntuaciones 0 en la variable X,
a+b: suma de puntuaciones 1 en la variable Y,
c+d: suma de puntuaciones 0 en la variable X,
a.d: Producto de la entrada (1,1) y la entrada (0,0),
b.c: Producto de la entrada (0,1) y la entrada (1,0).
Los datos se tabulan en una tabla de doble entrada (tabla resumen donde se
muestra la ocurrencia de las puntuaciones en dos variables), como se muestra a
continuación:
263

Valor de la Valor de la Total


variable X variable Y
1 0
1 a b a+b
0 c d c+d
Total a+c b+d
El valor del coeficiente, I podemos calcular mediante la fórmula F.6-4:

a.d  bc
I F. 6-4
(a  c)(b  d )(a  b)(c  d )

En esta condición, el coeficiente toma el valor 1 sólo cuando (a+b) y (c+d)


son iguales (consecuentemente a = b) en una tabla de contingencia de 2 por 2;
es decir, cuando la proporción de unos es la misma en X y en Y. La desventaja
de la correlación Phi, es que Y no puede predecirse perfectamente a partir de X.
El coeficiente de correlación Phi, también podemos calcular teniendo en cuenta:
X: Variable dicotómica con valores 0 y 1.
Y: Variable dicotómica con valores 0 y 1.
Px: Proporción de puntuaciones 1 en la variable X,
Qx: Proporción de puntuaciones 0 en la variable X,
Py: Proporción de puntuaciones 1 en la variable Y,
Qy: Proporción de puntuaciones 0 en la variable Y,
Pxy: Proporción de puntuaciones 1 tanto en la variable X como en variable Y.
Mediante la siguiente fórmula [F.6-5]:
Coeficiente de correlación Phi
Pxy  Px .Py F. 6-5
rI
Px .Q x .Py .Q y

B. Proceso de prueba de hipótesis:


La prueba Phi utilizaremos cuando deseamos hallar la asociación existente
entre dos variables dicotómicas de tipo cualitativo. Por ejemplo, si deseamos
establecer la relación existente entre institución educativa y el ingreso a la
universidad, entre el género del estudiante y la elección de una autoridad
universitaria, aceptación de una asignatura del plan de estudio y la aprobación
de la misma durante el estudio, etc.
Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):
264

H0: indica que no existe asociación entre las dos variables en estudio, la misma
que denotaremos con : H0: U Ii
0.

H1: indica que existe asociación entre las dos variables en estudio, la misma que
escribiremos: H1: U I
z 0.

Paso 2. Selección del nivel de significación: la probabilidad de rechazar la


hipótesis nula cuando es verdadera, a esto se le llama error de tipo 1, que puede
ser: D = 0,05, 0,01 o 0,10.

Paso 3. Seleccionar el estadístico de prueba: Bajo la hipótesis nula y para un


tamaño de muestra mayor que 20, el estadístico de prueba es:

Estadístico de prueba para coeficiente Phi


Z n .rI F. 6-5

que tiene una distribución aproximadamente normal con media 0 y varianza 1


Paso 4. Formular la regla de decisión: En la tabla A del apéndice, con el
Minitab, calculamos el valor teórico de Z para el nivel de significación
correspondiente, al que llamamos valor teórico Z teór . Luego, la región de rechazo
(o crítica) será: @ f, zteór> ‰ @zteór,f> .

Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de


correlación I obtenido en los datos de la muestra y bajo la hipótesis nula se
calcula el estadístico de prueba; Z calc n .rI . (donde .rI es el coeficiente phi,

referido a la muestra) con distribución aproximadamente normal, N(0 , 1)


Paso 6. Decisión estadística: Si el valor del estadístico de prueba, cae en el
intervalo indicado, se rechaza la hipótesis nula, en caso contrario no se rechaza.
EJEMPLO 6.2. Se ha hecho un estudio a un grupo de 27 postulantes a la carrera
de ingeniería provenientes de Instituciones Educativas (IE) Privadas y Estatales,
cuyos resultados finales después del proceso de selección se resumen en la
siguiente tabla.
Donde X: IE de procedencia, Y: resultado del examen de admisión.
X: 1: procede de IE estatal, 0: Procede de IE privado;
Y: 1: ingresa a ingeniería, 0: no ingresa a ingeniería.
265

Nro. IE (xi). Resultado (yi) Nro. IE (xi). Resultado (yi)


1 0 0 15 0 0
2 1 1 16 1 1
3 0 0 17 0 0
4 1 1 18 1 1
5 1 1 19 0 0
6 0 0 20 1 1
7 1 0 21 1 0
8 1 1 22 0 0
9 1 0 23 0 1
10 0 1 24 1 0
11 0 0 25 1 1
12 1 1 26 1 1
13 0 0 27 0 0
14 1 1

A. Encontremos el coeficiente de correlación Phi y realiza la prueba de


hipótesis correspondiente.
Solución
La información dada resumimos en la siguiente tabla

Valores de la Valores de la variable X Total


variable Y 0 (IE privada) 1 (IE estatal)
1 (ingresa) 2 11 13
0 (no ingresa) 10 4 14
Total 12 15 27
Calculamos las proporciones correspondientes en la muestra:
15 12 13
Px 0,5556 Qx 0,4444 Py 0,4815
27 27 27
14 11
Qy 0,5185 Pxy 0,41
27 27
Reemplazando los valores de las proporciones en la fórmula 5-4:
0,41  ((0,5556).(0,4815) 0,1425
rI 0,574
(0,5556).(0,444)(0,4815)(0,5185) 0,2483

El coeficiente de correlación Phi entre la IE de procedencia y el resultado del


postulante es 0,574. y para ver su significancia estadística, procedemos a
realizar la prueba de hipótesis.
B. Proceso de prueba de hipótesis:
Paso 1. Planteo de las hipótesis:
266

Hipótesis nula (H0: U I


0 : No existe asociación entre la institución educativa

de procedencia y el resultado del examen de admisión a la universidad.


Hipótesis alternativa (H1: U I
z 0 . Existe asociación entre la institución

educativa de procedencia y el resultado del examen de admisión a la


universidad.
Paso 2. Nivel de significación: D = 0,05.
Paso 3. Estadístico de prueba: Z n .rI .

Paso 4. Regla de decisión: Para un nivel de significación de 0,05, la región de


rechazo o crítica será: @ f,  1,96> ‰ @1,96 ,  f> .

Paso 5. Cálculo del estadístico: Z calc n  2 , rI 27.(0,574) 2,98

Paso 6. Decisión estadística: Como Z calc 2,98 > 1,96 se rechaza la hipótesis
nula, es decir, existe asociación entre la institución educativa de procedencia y
el resultado del examen de admisión a la universidad.

6.2.3. Prueba de hipótesis para el coeficiente de correlación biserial


La prueba biserial se hace uso cuando las dos variables en estudio tienen
distribuciones normales subyacentes, donde una de ellas ha sido
dicotomizada. Por ejemplo, esta prueba se puede usar cuando queremos
relacionar el tiempo que los estudiantes demoran en resolver un problema (X) y
la habilidad que tiene para resolver dicho problema (Y). Para este propósito, el
profesor anota el tiempo (X) que cada estudiante demora en resolver un
problema, pero la variable Y no lo califica con una nota, sino sólo se limita a
anotar con (1) en caso que aprobó o llegó a la respuesta correcta y anota (0) en
caso de que no aprobó o llegó a una solución incorrecta.

A. Coeficiente de correlación Biserial muestral r b :


Sean las variables Y dicotomizadas (0 y 1) y la variable X dicotomizada o no.
X 0 : es la media de las puntuaciones de la variable X para quienes la variable Y
tiene puntuación 0.
X 1 : es la media de las puntuaciones de la variable X para quienes la variable Y
tiene puntuación 1.
S x : desviación estándar de la variable X.
n1 : número de unos en Y,
267

n0 : número de ceros en Y.
u : ordenada de cada punto en la distribución a partir del cual se obtiene el
porcentaje 100(n1/n) del área bajo la curva normal n1  n0 n .

Luego, el coeficiente de correlación Biserial muestral obtendremos, mediante:

Coeficiente de correlación Biserial Muestral


F. 6-6
X 1  X 0 §¨ n1 .n0 ·
¸
rb
S x ¨© u.n n(n  1) ¸¹

Cuando el valor del coeficiente resulta menor que –1 o mayor que 1, significa
que no es cierto que las puntuaciones X, categorizadas tienen distribución
normal subyacente o que las fluctuaciones de muestreo cuando n es pequeño,
produciendo una distribución de X aplanada o platicúrtica.

B. Prueba de hipótesis
Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis y la hipótesis alternativa
La hipótesis nula (H0) se postula que no existe asociación entre las dos
variables de la población en estudio, que denotaremos con: H0: U b
0.

La hipótesis alternativa (H1) indica que existe asociación entre las dos
variables de la población en estudio, la misma que escribiremos: H1: U b
z0.

Paso 2. Selección del nivel de significación: la probabilidad de rechazar la


hipótesis nula cuando es verdadera,, que puede ser: D = 0,05, 0,01 o 0,10.
Paso 3. Selección del estadístico de prueba: Bajo la hipótesis nula y para un
tamaño de muestra mayor que 20, la distribución del coeficiente rS es
n1 .n 0 1
aproximadamente normal con media cero y desviación estándar: . , el
n u.n
estadístico de prueba es:
Estadístico de prueba biserial Muestral
rb
Z F. 6-7
n1 .n 0 1
.
n u.n
Que se comporta como una distribución normal unitaria para contrastar que el
coeficiente U b poblacional vale cero
268

Paso 4. Formulación la regla de decisión: En la tabla, con el Minitab o SPSS,


en concordancia de los datos provenientes de la muestra se calcula el valor
crítico de Z que se representan Z1-D/2 , denominado el punto crítico.

Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de


correlación rb obtenido en los datos de la muestra y bajo la hipótesis nula se
rb s .
calcula el estadístico de prueba; z calc , con los valores de los datos
n1 .n 0 1
.
n u.n
provenientes de la muestra
Paso 6. Decisión estadística: Si el valor del estadístico de prueba z calc , cae en
la región crítica, se rechaza la hipótesis nula, en caso contrario no se rechaza.

EJEMPLO 5.3. Los datos que se presentan en el cuadro es la información de


20 estudiantes referido al tiempo que demoran en resolver un problema de
estadística en minutos (X) y la obtención de la respuesta (Y).

Alumno Tiempo (X). Soluc.Y) Alumno Tiempo (X). Soluc.(Y)


1 25 0 11 22 1
2 20 1 12 28 1
3 30 1 13 19 0
4 26 1 14 24 1
5 16 0 15 29 0
6 22 1 16 25 1
7 24 0 17 21 1
8 27 1 18 18 0
9 18 1 10 17 1
10 17 0 20 23 0

Solución
Consideremos:
X: tiempo que demoran los estudiantes en resolver cada pregunta en minutos
Y: 1 = solución correcta, 0: solución incorrecta.
Creamos las variables ficticias X1 y X0 con las notas de los que resolvieron las
preguntas de manera correcta e incorrecta, respectivamente. Para luego calcular
su media y desviación estándar del tiempo que demoran en resolver la pregunta,
sin tomar en cuenta si llegaron o no a la respuesta correcta. Los datos obtenidos
se resumen en la siguiente tabla.
269

Alumno Tiemp(X). Soluc.(Y) A1. A0.


1 25 0 - 25
2 20 1 20 -
3 30 1 30 -
4 26 1 26 -
5 16 0 - 16
6 22 1 22 -
7 24 0 - 24
8 27 1 27 -
9 18 1 18 -
10 17 0 - 17
11 22 1 22 -
12 28 1 28 -
13 19 0 - 19
14 24 1 24 -
15 29 0 - 29
16 25 1 25 -
17 21 1 21 -
18 18 0 - 18
10 17 1 17 -
20 23 0 - 23
Total 441 280 161

Cálculo del coeficiente Biserial: De los datos de la tabla, se tiene:


n1 12 n0 8 n 20 x1 23,33 x0 20,125 SX 4,286

Para hallar el valor de la ordenada de la distribución normal, usaremos la tabla


A-2 y F del apéndice, para él se tiene la probabilidad y el valor de u:
12
P( Z  z ) 0,6 Ÿ z = 0,25, siendo u | 0,3867, con lo cual completamos los
20
datos para calcular el coeficiente de correlación biserial:
23,33  21,28 §¨ (12)(8) ·
¸
r b
4,286 ¨ (0,3867 )(20) (20)(19) ¸ (0,4783)(0,64) | 0,3
© ¹
¿Es significativamente diferente de cero el coeficiente biserial calculado? Para
responder esta pregunta hacemos la prueba de hipótesis.

B. Proceso de prueba de hipótesis:


Paso 1. Formulación de las hipótesis:
Hipótesis nula (H0: U b
0 : No existe asociación entre el tiempo que demora el

estudiante en resolver el problema y la respuesta obtenida.


Hipótesis alternativa (H1: U b
z 0 . Existe asociación entre el tiempo que
demora el estudiante en resolver el problema y la respuesta obtenida.
Paso 2. Nivel de significación: D = 0,05.
270

rb .
Paso 3. Estadístico de prueba: z
n1 .n0 1
.
n u.n
Paso 4. Regla de decisión: Para un nivel de significación de 0,05, en la curva
normal encontramos Zteórico = 1,96, siendo la región de rechazo de H0: @1,96 ,  f>
Paso 5. Cálculo del estadístico de prueba:
A partir de los datos del problema y cálculos realizados, se tiene:
rb . 0,3 0,3
zcalc 1,06
n1.n0 1 12(8) 1 0,283
. .
n u.n 20 (0,3867 (20)
Paso 6. Decisión estadística: Como Z calc 1,06 < 1,96: No rechaza la hipótesis
nula, es decir, NO existe asociación entre el tiempo que demora en resolver el
problema y la solución obtenida (o el coeficiente de correlación entre el tiempo
que demora en resolver el problemas y la respuesta obtenida es cero).

6.2.4. Prueba de hipótesis para el coeficiente de correlación tetracórica: U tr

Se utiliza en situaciones donde dos variables cuantitativas de naturaleza


normal han sido dicotomizados. Así por ejemplo, un docente mide la
capacidad de comprensión lectora de los ingresantes a la universidad considera
que es un rango normalmente distribuido; pero el ítem formulado sólo permite
identificar al grupo que corresponda correctamente, al que se le asigna
puntuación 1 y al que responda en forma incorrecta , se le asigna un 0.

A. Coeficiente de correlación Tetracórica: rtr


Consideremos la estatura de 500 ingresantes a la universidad se distribuyen
normalmente, pero le asignamos un puntaje 1 a los que tienen estatura de 160
cm a más, y le asignamos 0 a los que tienen estatura inferior a 160 cm.
Para calcular el coeficiente de correlación muestral, para el caso descrito
podemos considerar:
X: variable con distribución que ha sido dicotomizada
X = 1 estatura mayor o igual a 160 cm.
X = 0 estatura menor que 160 cm.
Y: variable con dstribución normal que ha sido dicotomizada.
Y = 1: respuesta correcta
Y = 0: Respuesta incorrecta.
271

La información preparada, se resume en una tabla bidimensional:

ÍTEM (Y) ÍTEM (X) Total


0 1
1 .a b .a + b
0 .c d .c + d
Total .a + c .b + d
b.c
Calculamos el cociente y luego se ubica el valor en la tabla E del Apéndice,
a.d
donde se encuentran funciones del cociente obtenido:
b.c
x Si el cociente es mayor que 1, de la tabla obtenemos directamente el valor
a.d
del coeficiente tetracórico, en la columna rtr .
b.c
x Si el cociente es menor que 1, en la tabla leemos la columna (ad ) /(bc) y el
a.d
valor rtr del coeficiente tetracórico resulta negativo

B. Prueba de hipótesis
Para la prueba de hipótesis, seguiremos los siguientes pasos:
Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):
La hipótesis nula (H0) postula que no existe asociación entre las dos variables
de la población en estudio, la misma que denotaremos con : H0: U tr
0.

La hipótesis alternativa (H1) indica que existe asociación entre las dos
variables de la población en estudio, la misma que escribiremos: H1: U tr
z 0.

Paso 2. Selección del nivel de significación: la probabilidad de rechazar la


hipótesis nula cuando es verdadera, que puede ser: D = 0,05 o 0,01.
Paso 3. Seleccionar el estadístico de prueba: Bajo la hipótesis nula y para un
tamaño de muestra mayor que 20, la distribución del coeficiente r tr
es
aproximadamente normal con media cero y desviación estándar:
Px .Q x .Py .Q y 1
 , donde:
n P1 .P 2
Px: es la proporción de puntuaciones (1) en la variable dicotomizada X,
Qy: es la proporción de puntuaciones (1) en la variable dicotomizada Y,
P x : es la ordenada de la curva normal unitaria correspondiente a la puntuación
Z en el cual se halla la proporción Px del área según la tabla A y F, del apéndice.
272

P y es la ordenada de la curva normal unitaria correspondiente a la puntuación

Z en el cual se halla la proporción Py del área según la tabla A y F, del apéndice..


Bajo las condiciones dadas, para un tamaño de muestra relativamente grande, el
estadístico de contraste, es:

Estadístico de prueba Tetracórica


rtr F. 6-8
z
Px .Qx .Py .Q y 1
.
n P1.P 2

que es comparable con una distribución normal, con miras a contrastar la


hipótesis nula.
Paso 4. Formular la regla de decisión: En la tabla, con el Minitab o SPSS,
calculamos el valor teórico de t en el caso de que la muestra sea inferior a 20, o
la distribución normal Z para una muestra superior a 20, y un nivel de
significación, al que llamamos valor teórico t teo o Z teo , respectivamente.

Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de


correlación rt obtenido en los datos de la muestra y bajo la hipótesis nula se
U tr
calcula el estadístico, zcalc , según corresponda
Px .Qx .Py .Q y 1
.
n P1.P 2
Paso 6. Decisión estadística: Si el valor del estadístico de prueba, cae en la
región crítica, se rechaza la hipótesis nula, en caso contrario no se rechaza.

EJEMPLO 6.4. A un grupo de 44 estudiantes se evalúa en la asignatura de


estadística para comprobar el aprendizaje y se le asigna 1 a la respuesta correcta
y 0 a la respuesta incorrecta. Si se denota con X la primera pregunta y con Y la
segunda pregunta, se obtuvieron resultados como se resumen en la siguiente
tabla bidimensional. Calcule el coeficiente de asociación tetracórica y pruebe la
hipótesis.
Ítem (Y) Ítem (X) Total
0 1
1 4 17 21
0 18 5 23
Total 22 22 44
273

Solución
En la tabla identificamos: a = 4, b = 17, c = 18 y d = 5, con estos valores
b.c 17 u 118
calculamos el cociente 15,3 , según la tabla E, el valor 15,3, el
a.d 4u5
coeficiente de correlación tetracórico se obtiene del cociente bc/ad. Y de los
b.c
datos de tendremos: 15,3 Ÿ rtr 0,8
a.d

¿Es estadísticamente significativo el valor encontrado? Para responder a la


interrogante, procedemos a la prueba de hipótesis.
Proceso de prueba de hipótesis:
Paso 1. Formulación de hipótesis nula y alternativa:
Hipótesis nula (H0) indica que no existe asociación entre las respuestas de la
primera pregunta y de la segunda pregunta, denotado por: H0: U tr
0.

Hipótesis alternativa (H1) indica que existe asociación entre las respuestas de
la primera pregunta y de la segunda pregunta, que se escribe: H1: U tr
z 0.

Paso 2. Nivel de significación: D = 0,05.


Paso 3. Estadístico de prueba: Bajo la hipótesis nula y para un tamaño de
rtr
muestra mayor que 20, la distribución del coeficiente: z
Px .Qx .Py .Q y 1
.
n P1.P 2
Paso 4. Regla de decisión: Para un nivel de significación de 0,05, en la curva
normal encontramos Z teo 1,96 , siendo la región de rechazo o crítica: @1,96 ,  f>
Paso 5. Cálculo del estadístico de prueba:
Con los datos de la tabla obtenemos
22 21 22 23
Px 0,5 PY 0,477 Qx 0,5 QY 0,523
44 44 44 44
Por otro lado, usando la tabla A-2 y F del apéndice obtenemos que las ordenadas
de la curva normal unitaria:
Px 0,5 , z = 0,00 y P x 0,3989 y para Py 0,477 , z = 0,06 y P y 0,3982

Los datos obtenidos son suficientes para hallar el estadístico de prueba:


274

0,8 0,8
zcalc 6,4
(0,5)(0,5)(0,477)(0,523) 1 0,125
.
44 (0,3989)(3982)

Paso 6. Decisión estadística: Como zcalc 6,4 ! 1,96 , se rechaza la hipótesis nula;
es decir, existe asociación entre las respuestas de la primera pregunta y de la
segunda pregunta.

6.3. PRUEBA DE HIPÓTESIS PARA ASOCIACIÓN ENTRE VARIABLES


ORDINALES
De acuerdo a la teoría desarrollada, una variable es llamada ordinal cuando a lo
largo de ella únicamente podemos ordenar un conjunto de datos, es decir, sólo
podemos decir cuál es primero, cual es segundo, …, cuál es el último. Pero no
podemos atribuirles auténticos números que nos permitan establecer qué
distancias existen entre el primero y el segundo, entre el segundo y el tercero,
etc. Pues, en esta sección desarrollaremos tres coeficientes de asociación para
variables ordinales.

6.3.1. Prueba de hipótesis para coeficiente de correlación de Spearman, U s

A. Coeficiente de correlación de Spearman rs :


El coeficiente de correlación de Spearman, (ρ (rho) o rs ), es una medida de
asociación (o interdependencia) entre dos variables aleatorias cualitativas o
cuantitativas continuas con un nivel de medición ordinal o ordinalizados,
cuyos valores no debe exceder de 30. Para su fórmula se parte del supuesto de
que si no existe diferencia de lugar, para cada sujeto en dos series de resultados,
la correlación sería perfecta. Para calcular ρ, los datos son ordenados y
reemplazados por su respectivo orden. ... N es el número de parejas de datos.
El coeficiente de correlación Spearman se utiliza convirtiendo los datos
originales en posiciones o rangos. Y cuando se emiten juicios para clasificar
individuos o cosas, con una muestra superior a 10. Se sustenta en dos series de
n posiciones o rangos consecutivos independientes, que va de 1 hasta n, se
conoce con el nombre de coeficiente de correlación de rangos ordenados donde
las variables a correlacionar X e Y deben ser de escala o nivel ordinal.
Por ejemplo, el orden de mérito de aprovechamiento académico de 30
estudiantes en un salón de clases, se le asigna 1 al que alcanzó el más alto
275

puntaje, posición 2 al segundo, y así sucesivamente, hasta la posición 30 que se


asigna al que alcanzó el puntaje más bajo.
Independientemente de cómo se originaron las puntuaciones: 1, 2, 3, …, n–
1, n; podemos correlacionar dos series de rangos para los mismos individuos.
Para calcular el coeficiente de correlación muestral de Spearman, es preciso
tener en cuenta los siguientes aspectos:
X1, X2, …, Xn: rangos asignados a la variable X,
Y1, Y2, …, Yn: rangos asignados a la variable Y,
n: tamaño de muestra o número de sujetos,
Xi – Yi: diferencia entre los rangos asignados a la variable X y el rango asignado
a la variable Y de la i-ésima persona.
De existir dos o más rangos iguales (o empatados) los rangos de cada uno de
estos son iguales al promedio de los rangos que los correspondería en el caso de
que fueran diferentes. Así por ejemplo, si las edades de un grupo de alumnos
universitarios fueran: 17, 18, 19, 19, 20, 21, 23, los rangos asignados deben ser:
1, 2, 3,5, 3,5, 5, 6 y 7.
La fórmula para calcular el coeficiente de correlación de Spearman, se calcula
mediante:

Coeficiente de correlación de Spearman


6¦ ( X i  Yi ) 6¦ d i F. 6-9
2 3

1 1
r S

n. n  1
2

n. n  1
2

donde di es la diferencia entre los correspondientes valores de Xi – Yi, n es el
número de parejas.
Propiedades:
El coeficiente de rangos de Spearman es una medida de asociación de dos
variables según escala ordinal, su valor puede variar de 1 hasta 1, un valor
cero indica que no hay asociación entre las variables y un 1 indica que la
asociación es negativa perfecta, y un valor 1 indica que la asociación es positiva
perfecta
Cada objeto ocupa el mismo lugar en ambas variables (el que es primero en X,
es primero en Y; el que es segundo en X, lo es, también en Y, y así sucesivamente
hasta el último en X, es el último en Y).
276

Cada objeto ocupa un lugar opuesto en ambas variables (el que es primero en
X, es último en Y; el que es segundo en X, es penúltimo en Y, y así
sucesivamente hasta el último en X, es el primero en Y).

B. Proceso de prueba de hipótesis:


Paso 1. Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1):
En la hipótesis nula (H0) se postula que no existe asociación entre las dos
variables en estudio, la misma que denotaremos con : H0: U S
0.

En la hipótesis alternativa (H1) indica que existe asociación entre las dos
variables en estudio, la misma que escribiremos: H1: U S
z0.

Paso 2. Selección del nivel de significación: la probabilidad de rechazar la


hipótesis nula cuando es verdadera,, que puede ser: D = 0,05, 0,01 o 0,10.
Paso 3. Seleccionar el estadístico de prueba: Bajo la hipótesis nula y para un
tamaño de muestra inferior que 20, el estadístico de prueba es:
Estadístico de prueba con coeficiente de Spearman
r n2
t S F.6-10
1  rS2
con (n – 2) grados de libertad.
En caso de que la muestra sea superior a 20, el estadístico de prueba a considerar
es:
Estadístico de prueba con coeficiente de Spearman
rs
Z F.6-11
1/ n  1
con distribución aproximadamente normal, N(0 , 1).

Paso 4. Formular la regla de decisión: En la tabla o con el Minitab, calculamos


el valor téorico de t en caso de que la muestra sea inferior a 20, o la distribución
normal Z para el nivel de significación correspondiente, al que llamamos valor
teórico t teo o Z teo , respectivamente.

Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de


correlación rS obtenido en los datos de la muestra y bajo la hipótesis nula se
rs . n  2 rs
calcula el estadístico de prueba; t calc . O Z calc , según
1  rs2 1 / n 1

corresponda
277

Paso 6. Decisión estadística: Si el valor del estadístico de prueba, cae en la


región crítica, se rechaza la hipótesis nula, en caso contrario no se rechaza.
EJEMPLO 6.5. La siguiente tabla resume los calificativos obtenidos por un
grupo de 12 alumnos de pregrado en el examen parcial y el examen final de la
asignatura de Matemática Básica:
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Exam P 15 10 16 09 14 17 11 13 08 12 07 12,5
Exam F 15 12 17 07 13,5 12 10 11 09 13 08 14

A. Obtención del coeficiente de correlación de Spearman


Para calcular el coeficiente de correlación de Spearman ordenamos por rangos
los valores (notas) obtenidas en el examen parcial y el examen final, como se
resume en la tabla.
Alumno ExamenP ExamenF .di d i2
1 15 15 0 0
2 10 12 –2 4
3 16 17 –1 1
4 09 07 2 4
5 12 13,5 –1,5 2,25
6 16 12 4 16
7 11 10 1 1
8 13 11 2 4
9 08 09 –1 1
10 12 13 –1 1
11 07 08 –1 1
12 12,5 14 –1,5 2,25
Total 37,50

Sustituyendo los valores obtenidos en la fórmula, se obtiene el valor de rs .

6(37,50) 225
r 1 1 1  0,131 0,869
S
12(12 2  1) 1716

¿El coeficiente de correlación r S


0,869 entre los calificativos del examen

parcial y examen final es significativo? Para responder a la interrogante,


procedamos a probar la hipótesis.

B. Proceso de Prueba de hipótesis.


Paso 1. Determinación de la hipótesis nula e hipótesis alternativa:
Hipótesis nula: No existe asociación entre los calificativos obtenidos en el
examen parcial y el examen final : H0: U S
0.
278

Hipótesis alternativa Existe asociación entre los calificativos obtenidos en el


examen parcial y el examen final H1: U S
z0.

Paso 2. Nivel de significación: D = 0,05

Paso 3. Estadístico de prueba: Como el tamaño de muestra es inferior a 20, el


rS n  2
estadístico de prueba es: t con (n – 2) grados de libertad .con
1  rS2

distribución aproximadamente normal, N(0 , 1).


Paso 4. Regla de decisión: Según los datos de la tabla t de Student el valor
crítico es t0,95(10) = 1,81, siendo el intervalo de rechazo de H0: ]1,812 , +f[.
Paso 5. Cálculo del estadístico de prueba: con el valor del coeficiente de
correlación rS obtenido en los datos de la muestra y bajo la hipótesis nula se
0,869.. 12  2 (0,869)(3,16)
calcula el estadístico de prueba; t calc 2,461 .
1  (0,869) 2s 1,116

Paso 6. Decisión estadística: Como t calc 2,461 > 1,812, rechazamos la hipótesis
nula, es decir: existe asociación entre los calificativos del examen parcial y el
examen final.
Desarrollo del EJEMPLO 6.5, con el Minitab:
Ejecutando los comandos: Estadísticas ► Estadísticas básicas ►
Correlación… ► Seleccionar las variables ExamenP y ExamenF ► Activar
Rho de Spearman, se tiene la ventana de la figura 6-2:

Figura 6-2. Ventana de diálogo para prueba con coeficiente de Spearman del ejemplo 6.5.
279

Luego, activando Aceptar / Aceptar, en la ventana sesión se obtiene:

Rho de Spearman: ExamenP; ExamenF


Correlaciones
Rho de Spearman 0.761
Valor p 0.004

Decisión estadística: Como valor p = 0,004 es menor que


0,05 se rechaza la hipótesis nula; es decir, existe asociación
entre los calificativos del examen parcial y final.

6.3.2. Prueba de hipótesis para coeficiente de correlación de Kendall, UW


A. Coeficiente de correlación simple por rangos de Kendall: W k
Kendall en 1970 plantea considerar que el orden de n objetos en una variable y
su orden en otra variable e intenta medir el grado de correspondencia entre dos
órdenes, con frecuencia se toma en cuenta como una alternativa a la correlación
de Spearman.
Supongamos n unidades de análisis y dos variables X e Y. Elegimos dos
personas A y B. Si A es superior a B en X e inferior a B en Y, o inferior a B en
X y superior a B en Y, diremos que se da una inversión. Si, por el contrario, A
es superior a B en X y superior a B en Y, o inferior a B en X e inferior a B en Y,
diremos que no se da una inversión. Haciendo la misma comparación con todos
los pares posibles, es decir con n.(n – 1)/2 ya que este es el número de pares que
se pueden formar para los n elementos de manera que cada par difiera de los
restantes al menos en uno de sus elementos. Llamamos P al número de no
inversiones y Q al número de inversiones. El coeficiente parcial de Kendall, se
obtiene de manera simple mediante, la fórmula:

Coeficiente de asociación de Kendal


PQ PQ F.6-12
W
P  Q 1 n(n  1)
2

donde:
W (tau) = coeficiente de correlación de Kendall.
280

P: número de no inversiones.
Q: número de inversiones.
n = tamaño de la muestra en parejas de variables
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre
dos ordenaciones de una distribución normal bivariante.

B. Estadístico de prueba:
El estadístico de contraste de la hipótesis nula se calcula mediante:

Prueba de Hipótesis para el coeficiente de Kendall


Wk F.6-13
Z
2(2n  5)
9n(n  1)

con distribución aproximadamente normal, N(0 , 1), para n t 10 y donde W k es


el coeficiente de correlación de Kendall referido a la muestra.
Fórmula para determinar el nivel de significancia mediante el valor Z:
donde:
Z = valor Z de la distribución normal.
W k = coeficiente de correlación de Kendall.
n = tamaño de la muestra.
Pasos:
1. Alinear las observaciones del rango menor al mayor de la variable
independiente (X), de manera que se deje el rango que corresponde a la pareja
de la variable dependiente (Y).
2. Obtener la puntuación efectiva (S) en la variable dependiente, en función del
orden de ocurrencia de los rangos de Y con respecto a X.
3. Contar el número de parejas y aplicar la fórmula.
4. Calcular el nivel de significancia en función del valor Z, de acuerdo con la
ecuación, presentada anteriormente.
5. Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud en la
tabla de coeficientes de correlación según nivel de significación de 0.05 y
0.01.
281

6. Decidir si se acepta o rechaza la hipótesis nula, según si el estadístico de


prueba calculado cae en la región de rechazo o de aceptación.
EJEMPLO 6.6. Un investigador está interesado en saber si el desarrollo mental
de un niño se asocia a la educación formal de la madre. De esta manera, obtiene
la calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos
aleatoriamente y se informa del grado de escolaridad de las madres.
Grado de instrucción Desarrollo mental
de la madre (X) De los niños (Y)
Universidad inconclusa: A 90
Secundaria inconclusa: B 87
Estudio ocupacional: C 89
Educación técnica: D 84
Primaria concluida: E 85
Secundaria concluida: F 92
Universitaria concluida: G 91

Comparemos A con las seis restantes: AB(90-87): I, AC(90-89): I, AD(90-


92): NI, AE(90-85): I, AF(90-84): I, AG(90-91): NI.
Comparemos B con las cincos restantes: BC(87-89): NI, BD(87-92): NI,
BE(87-85): I, BF(87-84): I, BG(87-91): NI.
Comparemos C con las cuatro restantes: CD(89-84): I, CE(89-85): I, CF(89-
92): NI, CG(89-91): NI.
Comparemos D con las tres restantes: DE(84-85): NI, DF(84-92): NI, DG(84-
91): NI.
Comparemos E con las dos restantes: EF(85-92): NI, EG(85-91): NI.
Comparemos F con el que queda: FG(92-91): I.
Sumando, tenemos:
Número de no inversiones (NI): 2 + 3 + 2 + 3 + + 2 = 12 = P
Número de inversiones (I): 4 + 2+ 2 + 0 + 1 = 9 = Q
Luego, el coeficiente de asociación de Kendall es:
12  9 3 1
W 0,143
12  9 21 7
Proceso de Prueba de hipótesis.
Paso 1. Hipótesis nula e hipótesis alternativa:
282

x Hipótesis nula (H0). La asociación entre las variables educación formal de la


madre y desarrollo mental de los hijos no es significativa, ni hay correlación.

x Hipótesis alterna (H1). El desarrollo mental de los hijos es una variable


dependiente de la educación formal de la madre; por lo tanto, existe una
asociación significativa.

Paso 2. Nivel de significación: D = 0,05


Paso 3. Estadístico de prueba: Como el tamaño de muestra es inferior que 20,
Wk
el estadístico de prueba es: Z , n es el número de datos.
2(2n  5)
9n(n  1)

Paso 4. Regla de decisión: Según los datos de la tabla t de Student el valor


crítico es Z0,05 = 1,96, siendo el intervalo de rechazo de H0: [1,96 , +f[.
Paso 5. Cálculo del estadístico de prueba: Con el valor del coeficiente de
correlación rS obtenido en los datos de la muestra y bajo la hipótesis nula se
0,143 0,143
calcula el estadístico de prueba: Z calc 0,45 .
2, (2 u 7  5) 0,317
9 u 7(7  1)
Paso 6. Decisión estadística: Como Zcalc = 0,45 < 1,96, no se rechaza hipótesis
nula, es decir: la asociación entre educación formal de la madre y desarrollo
mental de los hijos no es significativa.

6.3.3. Prueba de hipótesis para el coeficiente de correlación Goodman y


Kruskal
A. Coeficiente de correlación de Goodman y Kruskal J
Cuando la muestra está compuesto de muchas observaciones y son muy pocos
los valores ordinales alcanzables, el número de empates resulta muy grande el
número de empates. En este caso se usa el coeficiente de asociación de
Goodman y Kruskal.
Si llamamos n s , n d y ne el número de pares semejantes, diferentes y empatados,
respectivamente, con nd /(n  ne ) ns /(ns  nd ) . Supuesto esto,
nd /(n  ne ) nd /(ns  nd ) será la proporción de pares semejantes dentro de los pares
no empatados. A su vez n s  n d  ne n será la proporción de los pares diferentes
dentro de los pares no empatados. El coeficiente de asociación se obtiene
mediante la fórmula:
283

Coeficiente de correlación de Goodman


ns nd ns  nd F.6-14
J 
nd  ns nd  ns ns  nd

Si la proporción de observaciones dentro de la casilla se mantiene constante, la


gamma de Goodman y Kruskall también se mantiene constante,
independientemente del tamaño de la muestra.
Los valores del gamma de Goodman y Kruskall son menor o igual que 1, y
mayor o igual que 1, así, si todos los pares son no empatados son semejantes
ns  0 d
J 1 . Si todos los pares no empatados son diferentes se tiene
ns  0 d
ns  0 d
J 1 . El signo depende de que n s sea mayor o menor que n d
ns  0 d

EJEMPLO 6.7. Supongamos que dos variables: “nivel social” X y “nivel


económico” Y. consideremos ambas variables en tres categorías: Nivel bajo (B),
nivel medio (M) y nivel alto (A). Esto significa que tanto en X como en Y sólo
son posibles tres valores ordinales distintos. Para ello, sean 45 personas
distribuidas como en la tabla.
X
B M A Total
A 1g 4 h 8i 13
Y M 6d 9e 5f 20
B 7a 3 b 2 c 12
Total 14 16 15 45
Según la tabla, el número de pares semejantes será:
(7).(9 + 5 + 4 +8) = 182
(3).(5 + 8) = 39
(6).(4 + 8) = 72
(9),(8) = 72
365
Según la tabla, el número de pares discrepante será:
(2).(6 + 9 + 1 +4) = 40
(3).(6 + 1) = 21
(6).(1 + 4) = 25
(9),(1) = 9
95
Cálculo de los pares empatados con datos de la tabla, son
284

a) Las dos personas del par pertenecen al mismo nivel en X:


(7)(6+1) + (6)(1) + (3)(9+4) + (9)(4) + (2)(5+8) + (5)(8) = 196
b) Las dos personas del par pertenecen al mismo nivel en Y:
(7)(3+2) + (3)(2) + (6)(9+5) + (9)(5) + (1)(4+8) + (4)(8) = 214
c) Las dos personas del par pertenecen al mismo nivel en X y en Y. Para ello,
hacemos la combinación binaria formada por las personas de las 9 celdas de
§ 7· § 3· § 2· § 6· § 9· § 5· § 1· § 4· § 8·
la tabla: ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸  ¨¨ ¸¸ 120
© 2¹ © 2¹ © 2¹ © 2¹ © 2¹ © 2¹ © 2¹ © 2¹ © 2¹
Suma de los resultados obtenidos:
Pares semejantes: 365
Pares diferentes 95
Pares empatados solo en X: 196
Pares empatados solo en Y: 214
Pares empatados en X y en Y: 120 .
Suma total: 990
OBSERVACIÓN: La suma total de 990 equivale al número de pares posibles
distintos que se pueden formar en base a la tabla del ejemplo.
Lo cálculos realizados nos indica que ns 365 y nd 95 .
365  95
Luego, el coeficiente de asociación de Goodman es: J 0,587 .
365  95
EJEMPLO 5.8. Se hizo un estudio sobre la relación del prejuicio anti gay y la
sexualidad utilitaria (es decir, usada como instrumento para conseguir
beneficios materiales o económicos) en un grupo de 225 estudiantes varones
jóvenes de 15 a 18 años. Los resultados se resumen en la tabla:
Prejuicios
Bajo Alto Total
Sexualidad Alta 74 68 142
utilitaria Baja 64 19 83
Total 138 87 225

Con los datos de la tabla calculamos el coeficiente de asociación de Goodman,


como sigue:

(64)(68)  (19)(74) 4352  1406 2946


J 0,512
(64)(68)  (19)(74) 4352  1406 5758
285

6.4. PRUEBA DE HIPÓTESIS PARA ASOCIACIÓN ENTRE


VARIABLES NOMINALES
De acuerdo a la teoría desarrollada, una variable es llamada nominal cuando a
lo largo de ella sólo es posible categoría no ordenada, es decir categorías cuyas
posiciones pueden ser intercambiamos arbitrariamente.
6.4.1. Prueba de hipótesis con coeficiente Q de Yule
A. Coeficiente Q de Yule
Este coeficiente se aplica cuando se tienen dos variables nominales, cada uno
de ellas sólo con dos categorías. Por ejemplo, las variables nominales: religión
con dos categorías (católico y evangélico) y género con dos categorías
(masculinas y femeninas). La información se resume en una tabla de doble
entrada de la forma:
Religión
A1 (Catol) A2 (Evan)
Género B2 (M) (A1, B2) (A2, B2) (B2)
B1 (F) (A1, B1) (A2, B1) (B1)
(A1) (A2) N
Según la tabla, tendríamos las siguientes lecturas:
(A1, B1): número de católicos de género femenino.
(A1, B2): número de católicos de género masculino.
(A2, B1): número de evangélicos de género femenino.
(A2, B2): número de evangélicos de género masculino.
(A1): número de católicos y (A2): número de evangélicos
(B1): número de féminas y (B2): número de varones
En este caso el índice o coeficiente de asociación d. se calcula, mediante:
Coeficiente de asociación de Yule
( A1 , B1 ).( A2 , B2 )  ( A1 , B2 ).( A2 , B1 ) F.6-15
Q
( A1 , B1 ).( A2 , B2 )  ( A1 , B2 ).( A2 , B1 )

EJEMPLO 6.9. Las información procedente de una muestra de 200 personas


adultas, respecto a la profesión religiosa y género se resumen en la siguiente
tabla.
Religión
Católico Evangélico
Género B2 (M) 30 50 80
B1 (F) 95 25 120
125 75 200
Existe asociación entre las dos variables:
286

Solución
Según los datos de la tabla, el coeficiente Q de Yule, sería:
95 u 50  25 u 30 4750  750 4000
Q 0,727 .
595 u 50  25 u 30 4750  750 5500
OBSERVACIÓN: El signo de Q depende de la organización del cuadro
resumen de frecuencias, supuestos los mismos datos. Así, si cambiamos la
posición de las filas, el coeficiente Q sólo se altera en el signo.

6.4.2. Coeficiente X2
El coeficiente X2, se verá con detalle en el capítulo 7, En esta sección
calcularemos el valor del coeficiente sólo para dos variables que tienen dos
categorías., donde tendremos los datos en una tabla de la forma:
A B (a + b)
C D (c + d)
(a+ c) (b + d) n
En la tabla: a, b, c y d son las cuatro frecuencias empíricas y n = a + b + c + d.
(a  b)(a  c) (a  b)(b  d ) (c  d )(a  c)
y los valores que se obtiene mediante: , , y
n n n
(c  d )(b  d )
se denominan frecuencias teóricas o esperadas.
n
Bajo estas condiciones el valor de X2, se calcula mediante:

Coeficiente de asociación X2,


2 (n).(cb  ad ) 2 F.6-16
x (a  b)(c  d )(a  c)(b  d )

2
EJEMPLO 6.10. A partir de los datos de la tabla, calcule el coeficiente x
2 10 12
4 4 8
6 14 20

Usando la fórmula (6-16), tenemos:


2 (20).(4 u 10  2 u 4) 2 20480
x 2,54
(12)(8)(6)(14) 8064

OBSERVACIÓN. La teoría relacionada con la X2 se explicará con detalle en


el capítulo 7, donde se estudia la prueba de hipótesis para datos categóricos.
287

6.4.3. Coeficiente de contingencia C


El coeficiente de Contingencia que es una medida de correlación entre dos
variables cuyos valores se registran en una tabla de contingencia, se calcula
mediante la fórmula F.6-17.
Coeficiente de contingencia C,
x2 F.6-17
C
n  x2

El calor del coeficiente de contingencia C es siempre mayor o igual a cero e


inferior a 1.

EJEMPLO 6.11. El coeficiente de contingencia para el ejemplo 10, sería:


x2 2,54
C 0,1127 0,336
n  x2 20  2,54
288

RESUMEN DEL CAPÍTULO 6


I. Datos dicotómicos o dicotomizados
.A. Prueba de hipótesis para el coeficiente de correlación Biserial Puntual
El Coeficiente de correlación Biserial Puntual se calcula a través de
X1  X 0 n 0 .n1
r , siendo el estadístico de prueba correspondiente:
bp
SX n(n  1)
rbp n  2
t
1  rbp2
B. Prueba de hipótesis para el coeficiente de correlación Phi
Pxy  Px .Py
El Coeficiente de correlación Phi se obtiene a partir de: rI ,o
Px .Q x .Py .Q y
b.c  a.d
mediante rI y el valor del estadístico de prueba
(a  c)(b  d )(a  d )(c  d )
mediante: Z n .rI .

C. Prueba de hipótesis para el coeficiente de correlación biserial


X1  X 0 § n1 .n0 ·
El Coeficiente de correlación biserial Muestral es ¨ ¸ y el
r b
Sx ¨ u.n n(n  1) ¸
© ¹
rb
estadístico de prueba correspondiente es Z
n1 .n 0 1
.
n u.n
D. Prueba de hipótesis para el coeficiente de correlación tetracórica: U tr
rt
El Estadístico de prueba tetracórica es: z
Px .Qx .Py .Q y 1
.
n P1.P 2

II. PRUEBA DE HIPÓTESIS PARA ASOCIACIÓN ENTRE VARIABLES


ORDINALES
A. Prueba para el coeficiente de correlación de Spearman, U s

A.1: El valor coeficiente de correlación de Spearman varía de –1 hasta 1.


1. Un valor 0 del coeficiente indica que no hay asociación entre las variables.
2. Un valor –1 indica una correlación negativa perfecta, y un valor 1 es una
correlación positiva perfecta.
¦ d . Si el tamaño
2
6
A.2. El valor se calcula a partir de la fórmula: 1
r S r S
n. n  1
2

de la muestra es de 10 a 20, se puede realizar la prueba de hipótesis mediante


289

rS n  2
la fórmula: t , siendo la entidad estadística de prueba la t, con n – 2
1  rS2
grados de libertad. mientras, si el número de datos es mayor que 20, se utiliza
rs
la fórmula: z .
1 / n 1

B. Prueba de hipótesis para el coeficiente de correlación de Kendall, UW


El coeficiente de correlación de Kendall se obtiene mediante:
PQ PQ Wk
W , y el estadístico de prueba es: Z
PQ 1 2(2n  5)
n(n  1)
2 9n(n  1)

C. Prueba de hipótesis para el coeficiente de correlación Goodman y


Kruskal
ns nd ns  nd
El coeficiente de Correlación de Goodman es: J 
nd  ns nd  ns ns  nd

III. Prueba de hipótesis para asociación entre variables nominales


( A1 , B1 ).( A2 , B2 )  ( A1 , B2 ).( A2 , B1 )
A. Coeficiente de correlación de Yule: Q
( A1 , B1 ).( A2 , B2 )  ( A1 , B2 ).( A2 , B1 )
2 (n).(cb  ad ) 2
B. Coeficiente Chi-cuadrada: x (a  b)(c  d )(a  c)(b  d )

x2
C. Coeficiente de contingencia: C
n  x2
290

PROBLEMAS PROPUESTOS Nº 6
1. Calcular el coeficiente de Correlación de Spearman y hacer la prueba de
hipótesis para el tiempo de experiencia y el número de ventas realizadas que
se resumen en la tabla:
Experiencia(X) 3 4 6 7 8 12 15 20 22 26
Ventas (Y) 9 12 16 19 23 29 34 37 40 45
2. Se ha observado que los alumnos que inician los estudios en universidades
privadas tienen mucha dificultad en adaptarse al nuevo nivel educativo,
produciéndose deserción en muchos casos. A continuación se presenta los
resultados al seguimiento de 22 estudiantes de la carrera de Ingeniería Civil
de la UAP-Huánuco que se matricularon en el semestre 2010-I y
abandonaron el curso de Cálculo Diferencial. Encuentre el coeficiente de
correlación Phi y realice la prueba de hipótesis correspondiente.
X: Condición socio económica 1: alta, 0: baja.
Y: permanencia en el curso 1: permanece en el curso hasta el final
0: abandona el curso

Alumno Cond.(X). Perm.(Y) Alumno Cond.(X). Perm..(Y)


1 1 1 12 0 1
2 1 0 13 1 0
3 0 1 14 1 1
4 1 1 15 0 0
5 0 0 16 1 1
6 1 1 17 1 0
7 0 1 18 1 1
8 1 0 19 0 0
9 1 1 20 0 1
10 1 0 21 1 0
11 0 1 22 1 1
3. Los datos que se presentan en el cuadro es la información de 20 estudiantes
referido al tiempo que demoran en resolver un problema de estadística en
minutos (X) y la obtención de la respuesta (Y).

Alumno Tiemp(X). Soluc.(Y) Alumno Tiemp(X). Soluc.(Y)


1 25 0 11 22 0
2 20 1 12 28 1
3 30 0 13 17 0
4 16 1 14 19 1
5 15 1 15 29 0
6 22 1 16 25 1
7 24 0 17 21 1
8 27 1 18 18 0
9 18 1 10 17 1
10 17 1 20 23 0
291

4. A un grupo de 60 estudiantes con dos ítems de aptitud estadística se le asigna


1 a la respuesta correcta y 0 a la respuesta incorrecta. Si se denota con X la
primera pregunta y con Y la segunda pregunta, se obtuvieron resultados como
se resumen en la siguiente tabla bidimensional. Calcule el coeficiente de
asociación tetrócratica y pruebe la hipótesis.
Ítem Ítem (X) Total
(Y) 0 1
1 14 8 22
0 16 12 28
Total 30 20 50

5. Según la estadística demográfica del departamento de Huanuco del 2005 al


2010, los índices de nupciandad y mortalidad por cada 1000 habitantes de las
11 provincias del departamento fueron los que se indican en la tabla
siguiente. Calcule la correlación Rho de Spearman entre ambas índices y
haga la prueba de hipótesis correspondiente:

Provincias Tasa de nupciandad Tasa de mortalidad


por 1000 habitantes por 1000 habitantes
Ambo 35 12
Lauricocha 55 18
Dos de mayo 48 20
Yarowilca 29 26
Huamalies 60 33
Puerto Inca 40 25
Pachitea 42 28
Marañón 36 17
Hacaybamba 45 27
Tingo María 65 30

6. Supongamos que 200 personas se encuentran repartidas según el cuadro


siguiente:
Religión
Católico Evangélico
Género B2 (M) 30 50 80
B1 (F) 95 25 120
125 75 200
Determine el coeficiente de asociación y realice la prueba de hipótesis
correspondiente.
7. De una población de alumnos del nivel primario se seleccionó una muestra
de 120 alumnos, 60 de las cuales tenían algún conocimiento del idioma
quechua y los otros 60 no tenían ningún conocimiento del quechua. Se aplicó
una prueba de retención de dígitos y vocabulario con los siguientes
resultados:
292

QUECHUA RETENCIÓN DE DÍGITOS


Mala (0) Buena (1) TOTAL
Conocen (1) 28 32 60
No conocen (0) 34 26 60
TOTAL 62 58 120

QUECHUA RETENCIÓN DE VOCABULARIO


Mala (0) Buena (1) TOTAL
Conocen (1) 24 36 60
No conocen (0) 40 20 60
TOTAL 64 56 120
a) Calcule e interprete el coeficiente de asociación Phi entre el idioma y la
retención de dígitos.
b) Es estadísticamente significativo el valor encontrado para D = 0,05?
c) Calcule e interprete el coeficiente de asociación Phi entre el idioma y la
retención de vocabulario.
d) Es estadísticamente significativo el valor encontrado para D = 0,10?

8. De una muestra de 200 estudiantes se escogió datos dicotomizados en


ejecución de lectura X y en lateralidad Y (consistencia con el cual se emplea
un solo lado ojo-mano-pie). Los datos se dieron en forma de juicios de
ejecución: mala lectura (0), buena lectura (1) y consistencia en el uso de un
solo lado del cuerpo alta (1), baja (0). Siendo los resultados obtenidos, los
siguientes:
LATERALIDAD EJECUCIÓN DE LECTURA
Mala (0) Buena (1) TOTAL
Alta (1) 26 53 78
Baja (0) 38 83 122
TOTAL 64 136 200
Suponga que las dos variables subyacentes a ambas dicotómicas son continuas.
a) Calcule el coeficiente de asociación Tetracórica entre ejecución de lectura y
lateralidad.
b) Es estadísticamente significativo el valor encontrado para D = 0,01?

9. En una investigación sociológica se han obtenido los siguientes resultados


respecto a la incidencia de las enfermedades mentales entre trabajadores
administrativos y docentes de una institución educativa.
Enfermedad Puesto de trabajo
mental Administrativos Docentes
Si 5 10
No 40 25
Total 45 35
Halle e interprete el coeficiente de asociación Phi, luego pruebe la hipótesis.
293

10. En una investigación sociológica en una en un distrito andino para contrastar


la hipótesis de que la fecundidad familiar aumenta con el aumento del nivel
educativo, en una muestra de 360 familias, obteniéndose la siguiente
información.
Alfabetización Fecundidad Familiar
Alto Bajo
(Nº hijos >3) (Nº hijos <3)
Analfabetos 140 70
Alfabetizados 30 120
Total 170 190
Calcule e interprete el coeficiente de asociación Phi, luego pruebe la hipótesis.

11. En un estudio sobre el prestigio de las profesiones se estableció una escala


de jerarquía previa por jueces al efecto, y luego se pidió a una muestra de 50
personas de un distrito que las ordenaran según su criterio. Señale las
variables de la tabla, indique el coeficiente apropiado para hallar la
asociación entre ellas, calcule e interprete.
Profesiones Rango de expertos Rango empíricos
Medicina 10 8
Abogacía 9 10
Ingeniería 8 6
Arquitectura 7 5
Enfermería 6 3
Agronomía 5 8
Agronomía 4 9
Educación 3 7
Veterinaria 2 2
Obstetricia 1 1

12. En la tabla se resume los coeficientes de inteligencia (CI) y las horas de


televisión por semana (HTS) de 10 estudiantes universitarios

Nº 1 2 3 4 5 6 7 8 9 10
CI 106 86 100 100 99 103 97 113 113 110
HTS 7 0 28 50 28 28 20 12 7 17

Calcule el coeficiente de asociación de Spearman y luego realice la prueba de


hipótesis correspondiente. Ordene los datos correspondientes al CI en forma
ascendente y crear columnas adicionales para completar los datos que
permitan la prueba de hipótesis.

13. En la tabla se resume en nivel socioeconómico (X) y el rendimiento escolar


(Y) de un grupo de 200 alumnos:
294

Y X
Bajo Medio Alto Total
Malo 32 30 3 65
Regular 30 45 7 82
Bueno 8 25 20 53
Total 70 100 30 200
Calcule e interprete el coeficiente de asociación de Goodman y Kruskal
Según los datos de la tabla:
ns = 32(45+7+25+20) + 30 (7+20) + 30(25+20) + 45(20) = 6164
nd = 3(30+45+8+25) + 30(3+8) + 7(8+25) + 45(8) = 2055

13. Calcule el coeficiente de asociación Q de Yule a partir de los datos que se


exhiben en la tabla:
a) b) c)
15 30 20 40 25 30
10 4 30 15 40 18

14. En una investigación comparativa del nivel educativo entre creyentes


católicos y el resto de la población, en un distrito alejado de la selva peruana,
se obtuvieron los siguientes resultados:

Nivel educativo No católico Católico


Analfabeto 5 7
Primaria 200 40
Secundaria 10 85

Halle e interprete la asociación entre ambas variables a través del coeficiente de


Q de Yule.

15. Calcule el coeficiente de asociación X 2 a partir de los datos que se exhiben


en la tabla:
a) b) c)
2 3 10 6 4 22 19 7
4 4 5 12 3 3 3 2
3 6 0 2 8 1 3 40

16. Calcule el coeficiente de contingencia C a partir de los datos expuestos en


el cuadro del ejercicio 14.
7
Análisis de datos
categóricos
Las variables categóricas clasifican a los sujetos
distribuyéndolos en grupos, de acuerdo a algún
atributo previamente establecido” y no admiten una
escala de medición numérica, además de establecerse
bajo la condición de excluyentes, es decir, una
categoría no puede entrar en la otra. Aquí se ubican
las variables nominales y ordinales.

Introducción. Prueba de bondad de ajuste para frecuencias esperadas


iguales y desiguales. Limitaciones de la Chi cuadrada. Análisis de
tabla de contingencia: de independencia y de homogeneidad.

OBJETIVOS:
Al terminar el presente capítulo estará en condiciones de:

1. Identificar las características de la distribución Chi cuadrada.


2. Calcular las frecuentas esperadas a partir de los datos resumidos en una
tabla de doble entrada (frecuencias observadas).
2. Realizar pruebas de hipótesis comparando un conjunto de observaciones
de frecuencias y una distribución esperada.
3. Desarrollar pruebas de hipótesis de normalidad aplicando la distribución
Chi cuadrada, para determinar si están relacionados dos criterios de
clasificación.
4. Realizar la prueba de hipótesis para determinar si están relacionados dos
criterios de clasificación: Pruebas de independencia y de
homogeneidad.
5. Realizar la prueba de hipótesis en tablas de contingencia 2u2: Prueba
exacta de Fisher, McNemar y Prueba de Cochran-Mantel-Haenszel
(CMH).
296

7.1. INTRODUCCIÓN
En los capítulos anteriores se abordaron estudios de datos en escala intervalar y
de razón, como peso, ingreso, nota, edad, etc. Sin embargo, una buena cantidad
de investigaciones, fundamentalmente, en el ámbito de las ciencias complejas
(ciencias de la sociedad), muchas variables de estatus como género, raza, grado
de instrucción, grupo sanguíneo, tienen un nivel de medición nominal. La prueba
Chi-cuadrada, se basa en los cálculos realizados de una tabla de doble entrada (o
cruzada), permite analizar la relación entre dos variables nominales (o
categóricas).
El análisis estadístico con datos ordinales y nominales se basa en el estudio de la
relación o asociación que existe entre las características o categorías a través del
cual están identificadas las variables en estudio.
En este capítulo se cubre la aplicación de la prueba Chi-cuadrada en pruebas de
bondad de ajuste, y las pruebas de hipótesis que se relacionan con las pruebas de
contingencia que prueba el nivel de relación o asociación (independencia u
homogeneidad) existente entre dos variables categóricas haciendo uso de las
tablas cruzadas (o de doble entrada) para resumir datos y la distribución Chi
cuadrada para hacer la prueba correspondiente.
Para el análisis de datos categóricos con el MINITAB 18, se hace doble clic en
el icono , luego en la pantalla del Minitab accionamos los comandos:
Estadísticas ►Tablas, luego se elige las opciones que muestra la pantalla,
según necesite:

Figura 7-1. Pantalla del Minitab 18 para el análisis de datos categóricos.


297

7.2. LA DISTRIBUCIÓN CHI-CUADRADA


En realidad, la distribución Chi-cuadrada es la distribución muestral de s2. Es decir, si
se extraen todas las muestras posibles de una población normal y a cada muestra se le
calcula su varianza, se obtendrá la distribución muestral de varianzas.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el


estadístico X2. Si se elige una muestra de tamaño n de una población normal con
(n  1) s 2
varianza V2, el estadístico: , tiene una distribución muestral que es una
V2
distribución Chi-cuadrada con gl = n 1 grados de libertad y se denota X2 (X es la
minúscula de la letra griega ji). El estadístico Chi-cuadrada está dado por fórmula 7-1:

Distribución Chi-cuadrada
2 (n  1) s 2 F.7-1
x V2
donde n es el tamaño de la muestra, s2 la varianza muestral y V2 la varianza de la
población de donde se extrajo la muestra. El estadístico Chi-cuadrada también se
puede dar con la siguiente lo que se expresa en la fórmula 7-2.
Distribución Chi-cuadrada desarrollada
n

2
¦ (x
i 1
i  x) 2 F. 7-2
x V 2

7.2.1. Propiedades matemáticas de la distribución Chi-cuadrada.


1. F2 es siempre mayor o igual que cero, porque es una suma de cuadrados.
2. La forma de una distribución F2 depende del gl = n1. En consecuencia, hay
un número infinito de distribuciones F2
3. El área bajo una curva Chi-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones F2 no son simétricas. Tienen colas estrechas que se
extienden a la derecha; es decir, están sesgadas a la derecha.
5. Cuando n > 2, la media de una distribución F2 es igual al grado de libertad o
n1 y la varianza es igual a 2(gl) o 2(n1).
298

6. El valor modal de una distribución F2 se da en el valor (gl = 2, para n = 3) y


0 para gl = 1.
7. La distribución tiene sesgo positivo y cuando los grados de libertad (gl)
aumentan se aproxima a la distribución normal, como muestra la figura 7-2.

Figura 7-2. Gráfica de la Chi cuadrada con varios grados de libertad.

La distribución Chi-cuadrada no es simétrica. En la siguiente gráfica se muestra


la gráfica de una F2 con 9 grados de libertad.

Región de rechazo

0 C
Figura 7-3: Gráfica de Chi-cuadrada con 9 grados de libertad.

7.2.2. Usos de Chi-cuadrada


a) Para hacer inferencias acerca de la varianza poblacional: a nivel de intervalos
de confianza y prueba de hipótesis para la varianza poblacional.
b) Para hacer la prueba de bondad de ajuste, es decir, para probar si un conjunto
de datos dado sigue una distribución pre-determinada.
c) Para hacer análisis de tablas de contingencia (pruebas de independencia y
homogeneidad).
299

7.2.3. Limitaciones de Chi-cuadrada


En general, al comprobar una hipótesis de relación entre dos variables
nominales, debemos tener en cuenta:
1. Que exista una población con una muestra representativa de ésta.
2. Se tienen dos variables, las dos con un nivel de medición nominal u ordinal.
3. La frecuencia esperada de cada celda o casilla en tabla cruzada es por lo
menos 5.

7.3. TABLAS DE CONTINGENCIA


7.3.1. Tablas bidimensionales para dos variables cualitativas
Una muestra de n individuos en quienes se han observado las variables X e Y, se
denota con X1, X2, …Xk los k niveles o modalidades de X y con Y1, Y2, …, Yr los
niveles o modalidades de Y. La distribución de los individuos considerando las
dos características, se resume en una tabla de doble entrada o una tabla
bidimensional; donde, los niveles de una de las variables ocupan la posición de
las filas y los niveles de la otra variable ocupan la posición de las columnas y
los valores dentro de la tabla (o celdas) son las frecuencias absolutas conjuntas,
como se resume en la siguiente tabla.
X Y (columnas)
Filas 1 2 ….. j ……. C Total
1 O11 O12 O1j O1c .r1
2 O21 O22 O2j O2c .r2
…. … … … … … … …
i Oi1 Oi2 Oij Oic .ri
…. … … … … … … …
r Or1 Or2 Orj Orc .rr
Total .c1 .c2 .cj cc .n
donde:
Oij: es el número de elementos de las modalidades ri y cj, denominado
frecuencias absolutas conjuntas.
ri: es el número de elementos de las modalidades X, denominada i-ésima
frecuencia marginal.
cj: es el número de elementos de las modalidades Y, denominado j-ésima
frecuencia marginal.
Eligiendo X como variable fila e Y como variable columna se cumplen:
300

Propiedades de frecuencias observadas en tabla de contingencia


r c r c c r F.7-4
¦O
i 1
ij Cj, ¦Oj 1
ij ri , ¦¦O ¦c ¦ r
i 1 j 1
ij
i 1
j
j 1
i n

Luego, elaboramos la tabla de las frecuencias esperadas con los siguientes


elementos:

X Y
1 2 ….. j ……. C Total
1 E11 E12 E1j E1c .r1
2 E21 E22 E2j E2c .r2
…. … … … … … … …
i E i1 Ei2 Eij Eic .ri
…. … … … … … … …
r Er1 E r2 Erj Erc .rr
Total .c1 .c2 .cj cc .n

Donde:
Cálculo de frecuencia esperada
ri u c j F.7-5
Eij
n

OBSERVACIÓN. Las frecuencias esperadas conjuntas se calculan y se


comparan con las frecuencias observadas reales en las celdas de una tabla de
doble entrada. Las frecuencias esperadas son frecuencias que se presentarán si
no existe una relación entre las dos variables nominales. Cuando las frecuencias
observadas y las esperadas son las mismas, dado un error de muestreo por
exceso o defecto, no existe una relación y la ecuación de la Chi-cuadrada resulta
igual a cero. Por lo tanto, la hipótesis nula consiste en que la Chi-cuadrada es
igual a cero. La distribución muestral es la distribución de la Chi-cuadrada, en
la que los grados de libertad se determinan por medio del número de columnas
y filas de la tabla de doble entrada: gl = (r – 1).(c – 1).
7.3.2. Coeficiente de contingencia en la muestra
En la presentación general de una tabla de contingencia para dos variables
cualitativas se tiene:
.n: tamaño de la muestra
Oij: frecuencia absoluta conjunta que corresponde al i-ésimo nivel de la fila,
como muestra la fórmula 7-6.
Estadístico de prueba Chi-cuadrada
r c (Oij  E ij ) 2 r c Oij2 F.7-6
x ¦¦ ¦¦ E
2
n
i 1 j 1 E ij i 1 j 1 ij
301

7.3.3. Prueba de hipótesis:


Para realizar la prueba de hipótesis con datos categóricos, podemos seguir los
pasos siguientes:
Paso 1. Se plantea independencia entre la variable fila y la variable columna de
la tabla de contingencia. La misma que simbolizaremos con:
H0: Las variables fila y columna son independientes.
H1: Las variables fila y columna no son independientes.

Paso 2. Elegir el nivel de significación, D.


r c (Oij  E ij ) 2
x ¦¦
2
Paso 3. Estadístico de prueba. Con fórmula: tiene
j 1 i 1 E ij

distribución Chi-cuadrada con (r1)(c1) grados de libertad, donde r es el


número de niveles de la variable fila y c es el número de niveles de la variable
columna.
Paso 4. Región crítica. Con el nivel de significación fijado, con un nivel de
confianza de (1D),100% y gl = (r1)(c1) grados de libertad se calcula el valor
teórico de la distribución: x D >(r 1).(c 1)@, en la tabla Chi-cuadrada.
(1 )

Paso 5: Cálculo de estadístico de prueba. Con los datos de la muestra y bajo la


2
hipótesis nula se calcula el valor del estadístico de prueba x cal
.

Paso 6: Toma de Decisión. Si el valor del estadístico de prueba, es mayor que

x D >(r 1).(c 1)@ se rechaza la hipótesis nula.


(1 )

7.4. PRUEBA CHI-CUADRADA PARA COMPARACIÓN DE DOS O MÁS


PROPORCIONES
En esta sección nos interesa poner a prueba las hipótesis nulas de la forma:
H0 = p1 = p2 = p3 = .. = pk.
donde k > 2 y pi representa la proporción de éxitos en la i-esima población
binomial. Para cada una de estas hipótesis nulas, la hipótesis alternativa es:
Hi: Al menos dos proporciones poblacionales son distintas.
Las dos variables de clasificación para problemas de este tipo son la categoría de
resultados: éxito o fracaso y el número de la muestra, (con k niveles). Una tabla
de contingencia de dos niveles toma la forma siguiente:
302

Muestra 1 Muestra 2 ….. Muestra c Total


Éxito .r1
Fracaso .r2
Total .c1 .c2 ….. .cc

OBSERVACIÓN:
El grado de libertad para el estadístico de prueba Chi-cuadrada para proporciones
es: gl = (c1)(r1), siendo c el número de columnas y r el número de filas.
Los supuestos para la prueba Chi-cuadrada son:
x Al menos 80% de las frecuencias esperadas en las celdas deben ser de 5 o más.
x No debe haber frecuencias esperadas menores que 1.
EJEMPLO 7.1. Un candidato a una alcaldía distrital está interesado en saber si
la proporción de votantes a su favor es la misma en tres urbanizaciones. Para
este propósito, consiguió una muestra aleatoria de opiniones de votantes en cada
urbanización y obtuvo los resultados que se muestran en la tabla adjunta:
Urbanización A Urbanización B Urbanización C
A favor 46 48 42
Total 120 125 110
¿Indican estos datos que la proporción verdadera de votantes a favor difieren
entre las urbanizaciones, a un nivel de significación de 0,05?
Solución
Paso 1: Planteo de las hipótesis
H0: Todas las proporciones son iguales: p1 = p2 = p3 = .. = pk.
Hi: Al menos dos proporciones poblacionales son distintas.
Paso 2. Nivel de significación D = 0,05.
Paso 3: Estadístico de prueba: para comparación de proporciones es:
r c (Oij  E ij ) 2 r c Oij2 ri u c j
x ¦¦ ¦¦ E
2
 n , donde: Eij
i 1 j 1 E ij i 1 j 1 ij
n

Paso 4. Región crítica. La distribución Chi-cuadrada con gl = (c1)(r1) =


(21)(31) = 2, el valor teórico es x 0, 95
(2) 5,991 , cuyo valor se encuentra en la

tabla Chi-cuadrada, ver tabla 3 del apéndice.


Paso 5: Cálculo de estadístico de prueba. Construyendo la tabla con los datos
de votantes por urbanización, tenemos:
303

Opinión Urbanización Urbanización Urbanización Total


A B C
A favor 46 (45,97) 48 (47,89) 42 (42,14) 136
En contra 74 (74,03) 77 (77,11) 68 (67,86) 219
Total 120 125 110 355 = n

Identifiquemos las frecuencias observadas: O11 = 46, O12 = 48, O13 = 42, O21 =
74, O22 = 77, O23 = 68, r1 = 136, r2 = 219, c1 = 120, c2 = 125, c3 = 110.

Calculamos las frecuencias esperadas, para adherir en la tabla entre paréntesis,


de la manera, siguiente:
r1 u c1 (120)(136) r2 u c1 (120)(219)
E11 45,97 , E 21 74,03
n 355 n 355
r1 u c 2 (125)(136) r2 u c 2 (125)(219)
E12 47,89 , E 22 77,11
n 355 n 355
r1 u c3 (110)(136) r2 u c3 (120)(219)
E13 42,14 , E 23 67,86 .
n 355 n 355
Entonces:
Oij2 46 2 48 2 42 2 74 2 77 2 68 2
¦E
2
x n       355
cal
ij 45,97 47,89 42,14 74,03 77,11 67,86
A 355,0013  355 0,0013
2
Paso 6: Toma de Decisión. Como x cal
0,0013  5,991 , la decisión es no rechazar
la hipótesis nula. Es decir, que las proporciones poblacionales son iguales.

Resolución del EJEMPLO 7.1 con el Minitab


Llenamos los datos de la tabla de contingencia en dos filas y tres columnas:

Accionando los comandos en el menú principal: Estadísticas ► Tablas ►


Prueba Chi-cuadrada para asociación… y seleccionar (datos resumidos en
una tabla de dos factores) obtenemos la ventana de diálogo, figura 7-4.
304

Figura 7-4: Ventana de diálogo para resolución del ejemplo 7.1.

Accionando Aceptar, la ventana Sesión se muestra, lo siguiente:


Filas: Opinión Columnas: Urbanización
Urbanización A Urbanización B Urbanización C Todo
A favor 46 48 42 136
45.97 47.89 42.14
En contra 74 77 68 219
74.03 77.11 67.86
Todo 120 125 110 355
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 0.001 2 0.999
Relación de verosimilitud 0.001 2 0.999

Interpretación: El valor de P = 0,999 es mayor que 0,05, concluimos que


la hipótesis nula es aceptada; es decir, las proporciones poblacionales son
iguales.

EJEMPLO 7.2. Una muestra de 3000 objetos se clasifico según el turno de su


producción: mañana, tarde y noche y según su calidad en defectuoso o no
defectuoso como se resume en la siguiente tabla:
Turnos
Calidad Mañana Tarde Noche Total
Defectuosos 25 47 48 120
No defectuosos 975 953 952 2880
Total 1000 1000 1000 3000
305

Solución
Sean p1, p2, p3 los porcentajes de objetos defectuosos para los tres turnos: de
mañana, tarde y noche respectivamente.
1. Hipótesis:
H0: p1 = p2 = p3 y
H1: p1, p2, p3 no son iguales.

2. Nivel de significación: D = 0,05


r c (Oij  E ij ) 2
x ¦¦
2
3. Estadístico de prueba: , que se distribuye
i 1 j 1 E ij
aproximadamente como Chi-cuadrada con gl = (r – 1)(c – 1) = (2 – 1)(3 – 1)
= 2 grados de libertad.

4. Región crítica: Para el nivel de significación D = 0,05 y 2 grados de libertad


2
el valor crítico de la prueba es: x 0.95
(2) 5,99 . Se rechazará Ho si el valor
calculado de Chi-cuadrada es mayor que 5,99.
5. Cálculos: Las frecuencias observadas y esperadas (en paréntesis) se dan en
la siguiente tabla:
Calidad TURNOS Total
Mañana Tarde Noche
Defectuoso 25 (40) 47(40) 48(40) 120
No defectuoso 975(960) 953(960) 952(960) 2880
Total 1000 1000 1000 3000

r c (Oij  E ij ) 2
¦¦
2
x cal
i 1 j 1 E ij

(25  40) 2 (47  40) 2 (48  40) 2 (975  960) 2


   +
40 40 40 960
(953  960) 2 (952  960) 2
  8,802
960 960
2
6. Decisión: dado que x cal
8,802 ! 5,99 , debemos rechazar la hipótesis nula H0.
Es decir, la proporción de los defectuosos no son iguales.

Resolución del EJEMPLO 7.2 con el Minitab


Llenamos los datos de la tabla de contingencia en dos filas y tres columnas:
306

Accionando los comandos en el menú principal: Estadísticas ► Tablas ►


Prueba Chi-cuadrada para asociación… y seleccionar (datos resumidos en
una tabla de dos factores) obtenemos la ventana de diálogo, figura 7-5.

Figura 7-5: Ventana de diálogo para resolución del ejemplo 7.2.

Accionando en Aceptar, la ventana Sesión se muestra, lo siguiente:


Filas: Calidad Columnas: Turno
Mañana Tarde Noche Todo
Defectuoso 25 47 48 120
40 40 40
No defectuoso 975 953 952 2880
960 960 960
Todo 1000 1000 1000 3000

Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 8.802 2 0.012
Relación de verosimilitud 9.513 2 0.009

Interpretación: El valor de p = 0,012 es menor que 0,05,


concluimos que la hipótesis nula es rechazada; es decir, las
proporciones de defectos en los turnos de trabajo son diferentes.
307

EJEMPLO 7.3. Se supone que se tienen datos experimentales correspondientes


a 300 individuos de los que se ha recogido el valor que presentan en dos
variables cualitativas Var1 (de 2 niveles: Cat-1, Cat-2) y Var2 (de 4 niveles:
Grupo 1, Grupo 2, Grupo 3, Grupo 4), para comparar la distribución por grupos
entre las categorías. Los datos se presentan en la Tabla:
Var1 / Var2 Cat-1 Cat-2 Total
Grupo 1 62 (63,0) 88 (87,0) 150
Grupo 2 46 (46,2) 64 (63,8) 110
Grupo 3 12 (13,4) 20 (18.6) 32
Grupo 4 6 (3,4) 2 (4,6) 8
TOTAL 126 174 300
Solución
1. Hipótesis:
H0: No hay diferencia, en la distribución por grupos y entre las categorías.
H1: Hay diferencia, en la distribución por grupos y entre las categorías.
2. Nivel de significación: D = 0,05
r C (Oij  Eij ) 2
x ¦¦
2
3. Estadística: , que se distribuye aproximadamente como
i 1 j 1 Eij
Chi-cuadrada con (41)(21) = 3 grados de libertad.

4. Región crítica: Para el nivel de significación D = 0,05 y 3 grados de libertad


2
el valor crítico de la prueba es: x0.95
(3) 7,82 . Se rechazará H0 si el valor

calculado de Chi-cuadrada es mayor de 7,82.

Figura 7-6. Región crítica de Chi-cuadrada con 3 grados de libertad.


308

5. Cálculo: Para el nivel de significación D = 0,05 y 5 grados de libertad el valor


ri u c j 126 u 150
Frecuencias Esperadas: Eij , Por ejemplo: E11 63 , las
n 300
mismas que se completaron entre paréntesis en la tabla de datos anterior.
Entonces:
Oij2 62 2 88 2 46 2 64 2 12 2 20 2 6 2 2 2
¦E
2
x n         300
cal
ij 63 87 46,2 63,8 13,4 18,6 3,4 4,6

303,738  300 3,738


2
6. Decisión: dado que x cal
3,738  7,81 , no podemos rechazar la hipótesis nula.

Es decir, no hay diferencia, en la distribución por grupos, entre las categorías.

Resolución del EJEMPLO 7.3 con el Minitab


Llenamos los datos de la tabla de contingencia en cuatro filas y dos columnas:

Accionando los comandos en el menú principal: Estadísticas ► Tablas ►


Prueba Chi-cuadrada para asociación… y seleccionar (datos resumidos en
una tabla de dos factores) ► Aceptar, en la ventana Sesión se obtiene.
Filas: Grupos Columnas: Categoría
Cat-1 Cat-2 Todo
1 62 88 150
63.00 87.00
2 46 64 110
46.20 63.80
3 12 20 32
13.44 18.56
4 6 2 8
3.36 4.64
Todo 126 174 300
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 3.871 3 0.276
Relación de verosimilitud 3.890 3 0.274
309

Interpretación: El valor de p = 0,276 es mayor que 0,05,


concluimos que la hipótesis nula no es rechazada; es decir, no hay
diferencia, en la distribución por grupos entre categorías.

7.5. PRUEBAS MULTINOMIALES CON EL ESTADÍSTICO DE PRUEBA


CHI-CUADRADA
Las pruebas multinomiales viene a ser la generalización de las pruebas
binomiales desarrolladas en la sección anterior. Se refieren a datos cualitativos
con más de dos categorías de resultados distintos. Para esta aplicación se extrae
una sola muestra de una población multinomial con m categorías distintas para
determinar si las categorías se dan en proporciones iguales a valores
especificados.
Las propiedades de un experimento multinomial incluyen:
x El experimento consta de n intentos.
x Cada intento da lugar a uno de entre m resultados.
x Cada intento es independiente.
x La probabilidad de cada resultado permanece constante de un intento a otro,
y la suma de las m probabilidades es 1.

Los siguientes son ejemplos de poblaciones multinomiales:


1. Los resultados de lanzar un dado y ver el número de puntos en la parte
superior.
2. La respuesta a una pregunta de una encuesta que admite como respuesta:
MALO, BUENO o REGULAR.
3. Los resultados finales en término de calificaciones cualitativas usando las
letras: A, B, C, D o E.
4. La clasificación de las sectas religiosas, como: católico, evangélico, mormón
o pentecostés.
Donde las hipótesis nulas posibles para cada uno, pueden ser:
1. H0: p1 = p2 = p3 = p4 = p5 = p6 = 1/6.
2. H0: p1 = 0,3, p2 = 0,5, p3 = 0,2.
3. H0: pA = 0,2, pB = 0,1, pC = 0,3, pD = 0,2, pE = 0,2.
4. H0: pC = 0,3, pE = 0,2, pM = 0,3, pP = 0,2.
Notar que, en las hipótesis planteadas, las probabilidades suman siempre 1.
310

OBSERVACIÓN: El grado de libertad en experimentos multinomiales es


menor en uno al número de categoría posibles correspondiente a los resultados
del experimento multinomial. Es decir, gl = (número de categorías de los
resultados) – 1.

EJEMPLO 7.4. Una familia que se dedicada a criar aves tuvo hace dos años
gallinas, patos, pavos y codornices en porcentajes de 40, 20, 25 y 15,
respectivamente. ¿Ha cambiado la distribución de las aves a lo largo de dos
años, si una muestra reciente proporcionó las cantidades siguientes de cada ave?
Utilice nivel de confianza del 95%.
Gallinas Patos Pavos Codornices
210 115 175 100
Solución
Paso 1: Planteo de las hipótesis.
Sea pG = porcentaje de gallinas, p P = porcentaje de patos, pV = porcentaje de
pavos y pC = porcentaje de codornices.
H0 = pG = 0,40, pP = 0,20, pV = 0,25, pC = 0,15,
Hi: Al menos uno de los porcentajes de producción de aves ha variado.

Paso 2. Nivel de significación: D = 0,05.


Paso 3: Estadístico de prueba: para comparación de proporciones según la
fórmula [7-3], es:
Oij2 ri u c j
x ¦E
2
 n , donde : Eij
ij
n

Paso 4. Región crítica. La distribución Chi-cuadrada con un grado de libertad


gl = (número de categorías) 1 = 4–1 = 3, el valor teórico es x
0, 95
(3) 7,815 ,

cuyo valor se encuentra en la tabla Chi-cuadrada.


Paso 5: Cálculo de estadístico de prueba. Como la suma total de las aves de
corral es:
. n = 210 + 115 + 175 + 100 = 600
Para obtener las frecuencias esperadas multiplicamos el número total de aves
por los porcentajes supuestos, esto es:
E11 (600)(0,40) 240
E12 (600)(0,20) 120
311

E13 (600)(0,25) 150


E14 (600)(0,15) 90
Las frecuencias esperadas halladas podemos visualizar en la tabla resumen en
negrita y entre paréntesis.
Gallinas Patos Pavos Codornices
210 (240) 115 (120) 175 (150) 100(90)

Para facilitar cálculos, organicemos la tabla del siguiente modo:


Oij2
Celda Oij Eij
E ij
1 210 240 183,75
2 115 120 110,21
3 175 150 204,167
4 100 90 111,11..
Suma 609,2267
Entonces, el valor del estadístico de prueba es:
Oij2
¦E
2
x cal
 n 609,2267  600 9,2267
ij
2
Paso 6: Toma de Decisión. Como x cal
9,2277 ! 7,815 , se rechaza la hipótesis
nula, es decir, que la distribución original de las aves ha cambiado durante el
período mencionado.
Resolución del EJEMPLO 7.4 con el Minitab
Accionando los comandos en el menú principal: Estadísticas ► Tablas ►
Prueba Chi-cuadrada de bondad de ajuste (una variable) ingresando la
variable correspondiente ► Aceptar, en la ventana Sesión se obtiene.
Conteos observados y esperados
Proporción Contribución a
Categoría Observado de prueba Esperado chi-cuadrada
Gallinas 210 0.25 150 24.0000
Pavos 115 0.25 150 8.1667
Patos 175 0.25 150 4.1667
Codornices 100 0.25 150 16.6667

Prueba de chi-cuadrada
N GL Chi-cuad. Valor p
600 3 53 0.000

Interpretación: El valor de p = 0,000 es menor que 0,05, se rechaza la


hipótesis nula. Es decir, que la distribución inicial de las aves ha sufrido
cambio.
312

7.6. PRUEBA DE INDEPENDENCIA


La prueba de Independencia se efectúa para probar si hay asociación entre dos
variables categóricas A y B. En otros términos, consiste en probar la hipótesis
nula que indica que dos criterios de clasificación son independientes cuando se
aplican al mismo conjunto de entidades. Se dice que dos criterios de
clasificación son independientes si la distribución de un criterio es la misma, sin
importar cuál es la distribución del otro.
En casos en las variables cualitativos como los que se muestran a continuación,
se hacen uso de la prueba de independencia:

i ¿Están relacionados los hábitos de lectura con la posición socioeconómica?

i ¿Estas relacionados las calificaciones obtenidas en una asignatura con el


número de inasistencias a clases en dicha asignatura?

i ¿Es independiente la opinión entre la política ambiental y la política educativa


del gobierno?

i ¿Es independiente el género de una persona de su preferencia por los colores?

i ¿Está relacionado el género con la carrera profesional del estudiante?

i ¿Están relacionadas las enfermedades del corazón con la influenza?

i ¿Son independientes el tamaño de la familia y el nivel de educación de los


padres?
i ¿Está relacionado la contaminación ambiental con el incremento de
enfermedades a la piel?
i ¿Está relacionado el nivel educativo con el nivel de pandillaje adolescente?
Otra forma de expresar si dos variables son independientes, es diciendo, que no
se afectan entre sí; es decir que no están asociados ni relacionados. Pero, es
preciso tener en cuenta que: dos variables pueden estar correlacionados sin ser
independientes, pero todas las variables independientes no están
correlacionados.
Para las pruebas de independencia, las hipótesis son:
H0: No hay asociación entre las variables A y B (es decir son independientes),
H1: Las dos variables de clasificación están asociadas (o son dependientes).
313

o
H0: Las variables fila y columna son independientes.
H1: Las variables fila y columna no son independientes.
El valor del estadístico de prueba, calculamos mediante:
c r (Oij  E ij ) 2 Oij2
x ¦¦ x ¦E
2 2
, o simplemente con n
j 1 i 1 E ij ij

El grado de libertad correspondiente se obtiene mediante: gl = (r – 1).(c – 1).


2 2
La hipótesis Nula H0, se rechaza si xcalc ! x1D , o equivalentemente si el “P-
valor” es menor que 0,05; en caso contrario se aceptará o al menos no se
rechazará H0.

EJEMPLO 7.5. En un proceso de producción se registró el número de objetos


defectuosos clasificándolos para turnos de producción y por máquinas de
producción. Las frecuencias observadas se registran en tabla de contingencia
3u3. Verificar al nivel de significación D = 0,05 si el número de objetos
defectuosos producidos por las máquinas es independiente de los turnos de
producción.
Máquinas
Turnos A B C Total
Mañana 75 90 85 250
Tarde 70 85 70 225
Noche 95 85 75 255
Total 240 260 230 730

Solución
Paso 1. Formulación de hipótesis nula y alternativa:
H0: El número de objetos defectuosos producido por las máquinas no dependen
de los turnos.
H1: El número de objetos defectuosos producido por las máquinas si dependen
de los turnos.
Paso 2. Nivel de significación: D = 0,05
r C (Oij  Eij ) 2
x ¦¦
2
Paso 3. Estadístico de prueba: , se distribuye
i 1 j 1 Eij
aproximadamente como Chi-cuadrada con gl = (r–1)(c–1) = (3 – 1)(3 – 1) =
4 grados de libertad.
314

Paso 4. Región crítica: Para el nivel de significación D = 0,05 y 4 grados de


libertad el valor crítico de la prueba según la tabla 3 del apéndice es:
2
x 0.95
(4) 9,49 . Se rechazará H0 si el valor calculado de Chi-cuadrada es mayor
de 9,49; figura 7-7.

Figura 7-7. Región crítica de Chi-cuadrada con 4 grados de libertad.

Paso 5. Cálculos del estadístico de prueba: Sólo se necesitan calcular las


frecuencias esperadas de 4 celdas, las otras frecuencias esperadas se
encuentran por sustracción debido a que la suma de las frecuencias esperadas
en cualquier fila o columna debe dar el total marginal. Las frecuencias
observadas y esperadas se muestran en la tabla:
Máquinas
Turnos A B C Total
Mañana 75(82,19) 90(89,04) 85(78,77) 250
Tarde 70(73,97) 85(80,14) 70(70.89) 225
Noche 95(83,84) 85(90,82) 75(80,34) 255
Total 240 260 230 730

r c (Oij  E ij ) 2
¦¦
2
x cal
i 1 j 1 E ij

(75  82,19) 2 (90  89,04) 2 (85  78,77) 2 (70  73,97) 2


  
82,19 89,04 78,77 73,97

(85  80,14) 2 (70  70,89) 2 (95  83,84) 2


  
80,14 70,89 83,84
315

(85  90,82) 2 (75  80,34) 2


  3,87
90,82 80,34

Paso 6. Decisión: Para el nivel de significación D = 0,05 y 4 grados de libertad


2
la Chi-cuadrada calculada es: x
.cal
3,87  9,49 . No se rechazará H0. Es decir,
que el número de objetos defectuosos producido por las máquinas no depende
de los turnos.
Resolución del EJEMPLO 7.5 con el Minitab
Llenamos los datos de la tabla de contingencia en tres filas y en tres columnas:

Accionando los comandos en el menú principal: Estadísticas ► Tablas ►


Prueba Chi-cuadrada para asociación… y seleccionar (datos resumidos en
una tabla de dos factores) ► Aceptar, en la ventana Sesión se obtiene.

Filas: Turnos Columnas: Máquinas


A B C Todo
Mañana 75 90 85 250
82.19 89.04 78.77
Tarde 70 85 70 225
73.97 80.14 70.89
Noche 95 85 75 255
83.84 90.82 80.34
Todo 240 260 230 730
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 3.868 4 0.424
Relación de verosimilitud 3.827 4 0.430

Interpretación: El valor de p = 0,424 es mayor que 0,05,


concluimos que la hipótesis nula no es rechazada; es decir, el
número de objetos defectuosos producido por las máquinas no
dependen de los turnos.

EJEMPLO 7.6. Una ONG desea investigar si ¿una persona liberado de una
prisión se integra mejor a la vida civil si regresa a su ciudad natal o si va a vivir
a otro lugar? En otros términos: ¿existe relación entre el ajuste de la vida civil
y el lugar de residencia después de la liberación?
316

Para este propósito los psicólogos de la ONG entrevistaron a 200 ex reclusos,


seleccionados al azar, utilizando una serie de preguntas, según sus respuestas
clasifican el ajuste de cada individuo como: excelente, bueno, regular e
insatisfactorio. Las clasificaciones de los 200 ex reclusos resultaron como se
muestra en la tabla:

Lugar Integración a la vida civil


Excelente Buena Regular Insatisfactorio Total
Ciudad de origen 27 35 33 25 120
Otra ciudad 13 15 27 25 80
Total 40 50 60 50 200

Solución
Paso 1. Formulación de la hipótesis nula y la alternativa:
Ho: No existe relación entre el ajuste de la vida civil y el lugar donde radique
el individuo después de salir de prisión.
H1: Existe relación entre el ajuste a la vida civil y el lugar donde resida la
persona después de salir de prisión.
Completando los siguientes pasos para la prueba con el Minitab
Llenamos los datos de la tabla de contingencia en cuatro columnas:

Accionando los comandos en el menú principal: Estadísticas ► Tablas ►


Prueba Chi-cuadrada para asociación… y seleccionar (datos resumidos en
una tabla de dos factores) ► Aceptar, en la ventana Sesión se obtiene.
Filas: Lugar Columnas: Integración a la vida civil
Excelente Bueno Regular Insatisfactorio Todo
Ciudad de origen 27 35 33 25 120
24 30 36 30
Otra ciudad 13 15 27 25 80
16 20 24 20
Todo 40 50 60 50 200

Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 5.729 3 0.126
Relación de verosimilitud 5.780 3 0.123
317

Interpretación: El valor de p = 0,126 es mayor que 0,05, concluimos que


la hipótesis nula no es rechazada; es decir, no existe relación entre el ajuste
a la vida civil y el lugar donde resida en individuo después de salir en
libertad.

EJEMPLO 7.7: Se tienen los resultados de una encuesta aplicada a 50 personas


que habitan en un distrito de los estratos Alto, Medio y Bajo, recogiendo su
opinión respecto a la iniciativa de renovación por mitades del parlamento a
medio mandato, para tratar de establecer si hay relación entre la opinión referido
a la iniciativa en los tres estratos considerados.

Reforma Estrato Reforma Estrato


electoral social electoral social
A favor Alto En contra Medio
En contra Alto Abstención Alto
A favor Bajo Abstención Alto
En contra Medio A favor Alto
A favor Alto En contra Bajo
Abstención Bajo Abstención Medio
A favor Medio A favor Alto
En contra Alto En contra Bajo
Abstención Bajo En contra Medio
A favor Alto En contra Alto
En contra Bajo Abstención Bajo
Abstención Medio Abstención Medio
Abstención Alto A favor Alto
A favor Bajo En contra Alto
En contra Medio Abstención Alto
Abstención Alto A favor Bajo
A favor Bajo En contra Medio
A favor Medio A favor Alto
Abstención Bajo Abstención Bajo
A favor Bajo A favor Medio
En contra Medio A favor Alto
Abstención Alto Abstención Bajo
A favor Alto A favor Medio
A favor Medio En contra Bajo
Abstención Alto A favor Medio

Elaboremos una tabla de doble entrada con la información donde la variable


opinión esté en las filas y el estrato social esté en las columnas. Luego, pruebe
la hipótesis sobre la independencia de la opinión respecto al estrato social.
Solución
Paso 1. Formulación de la hipótesis nula y alternativa:
318

H0: La opinión del entrevistado es independiente de su estrato social del que


proviene.
H1: La opinión del entrevistado y su estrato social del que proviene están
relacionados.

Desarrollo del EJEMPLO 7.7 con el MINITAB 18.


Para desarrollar el problema con el MINITAB, en la base de datos abierto,
ejecutamos los comando: Estadísticas ► Tablas ► Tabulación cruzada y
Chi-cuadra…: Elegir en Para filas la variable Reforma electoral y como para
columnas la variable Estrato social, se tiene la figura 7-8.

Figura 7-8. Ventana de diálogo de la opción Tabulación cruzada, ejemplo 7.7.


Los resultados que aparecerán en la ventana Sesión son las siguientes:
Reforma Estrato Social
Electoral Alto Bajo Medio Total
A favor 9 5 6 20
Abstención 7 6 3 16
En contra 4 4 6 14
Total 20 15 15 50
Activando Análisis de Chi-cuadra… ► Prueba Chi cuadrada ► Aceptar /
Aceptar, obtenemos el resultado que se muestra a continuación.
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 2.561 4 0.634
Relación de verosimilitud 2.607 4 0.626
4 celda(s) con conteos esperados menores que 5.

Interpretación: El valor p = 0,634 es mayor que 0,05,


concluimos que la hipótesis nula no es rechazada, es decir no
hay relación entre la opinión de entrevistado referente a la
reforma electoral y el estrato social del que proviene.
319

7.7. PRUEBA DE HOMOGENEIDAD


La prueba de Homogeneidad es una generalización de la prueba de igualdad
de dos proporciones. Se trata de probar si para cada nivel de la variable B, la
proporción con respecto a cada nivel de la variable A es la misma.
Con la prueba de homogeneidad se busca determinar si dos o más muestras
independientes provienen de la misma población o de poblaciones diferentes,
con respecto a algunos criterios de clasificación. Para esta prueba, los datos
muestrales se registran en tablas cruzadas de filas y columnas. La totalidad de
filas y columnas son cantidades aleatorias que no están bajo el control del
investigador. Las muestras extraídas en estas condiciones es una sola muestra
tomada de una misma población
La hipótesis nula y alternativa de la prueba de homogeneidad es
respectivamente:
H0: Hay homogeneidad entre los grupos respecto a las categorías de la variable
(hay igualdad entre la proporción de elementos de cada grupo que caen en la
misma categoría de la variable) o (las muestras aleatorias provienen de una
misma población o son homogéneas.)
H1: No hay homogeneidad (la proporción de elementos de cada grupo que caen
en la misma categoría de la variable difieren) o (las muestras aleatorias no
provienen de una misma población o no son homogéneas.
OBSERVACIÓN: Para el proceso de prueba de hipótesis de la homogeneidad
usaremos los mismos seis pasos preestablecidos para este proceso.
En general se selecciona una muestra de cada población en estudio y los
sujetos se clasifican de acuerdo a una característica de interés.
El estadístico de prueba, que se usa en la prueba de homogeneidad, es la misma
que se usa para la prueba de independencia :
r c (Oij  E ij ) 2
x ¦¦
2

i 1 j 1 E ij
2 2
Y se rechaza H0, si x ! x D (r  1)(c  1)
1

EJEMPLO 7.8. Se efectuó un estudio en tres universidades: U-Alfa, U-Beta y


U-Omega, para determinar la preferencia de los estudiantes por la práctica de
tres tipos de deportes: Fútbol, básquet y vóley. Una muestra aleatoria de 500
estudiantes a dado el resultado de la tabla que sigue.
320

Universidades
Deportes U-Alfa U-Beta U-Omega Total
Fútbol 80 70 100 250
Básquet 90 60 30 180
Voley 30 20 20 70
Total 200 150 150 500
A partir de estos datos determinamos si las tres universidades son homogéneas
con respecto a sus preferencias en los tres deportes. Utilizamos el nivel de
significación D = 0,05.

Solución
Paso 1. Formulación de hipótesis:
H0: Para cada deporte, las proporciones de preferencias en las tres
universidades son homogéneas.
H1: Al menos para un deporte, las proporciones de preferencias en las tres
universidades no son homogéneas.
Paso 2. Nivel de significación: D = 0,05
r c (Oij  E ij ) 2
x ¦¦
2
Paso 3. Estadístico de prueba: , que se distribuye
i 1 j 1 E ij
aproximadamente como Chi-cuadrada con gl = (r–1)(c–1) = (3–1)(3 –1) = 4
grados de libertad.
Paso 4. Región crítica: Para el nivel de significación D = 0,05 y 4 grados de
2
libertad el valor crítico según la tabla C del apéndice es: x 0.95
(4) 9,49 . Se
rechazará H0 si el valor calculado de Chi-cuadrada es mayor de 9,49.
Paso 5. Cálculos: Las frecuencias observadas y esperadas se dan en la tabla:
Universidades
Deportes U-alfa U-Beta U-Omega Total
Fútbol 80 (100) 70 (75) 100 (75) 250
Básquet 90 (72) 60 (54) 30 (54) 180
Voley 30 (28) 20 (21) 20 (21) 70
Total 200 150 150 500
3 3 (Oij  E ij ) 2
(80  100) 2 (70  75) 2 (100  75) 2 (90  72) 2 (60  54) 2
¦¦
2
x    
cal
i 1 j 1 E ij 100 75 75 72 54
(30  54) 2 (30  28) 2 (20  21) 2 (20  21) 2
    28,74 .
54 28 21 21
2
Paso 6. Decisión: dado que x cal
28,74 ! 9,49 , se debe rechazar H0. Es decir, al
menos para un deporte, la proporción de preferencias en las tres
universidades no son homogéneas.
321

Desarrollo del EJEMPLO 7.8 con el MINITAB 18.


Disponemos en la ventana de trabajo la siguiente información.

Accionando en: Estadísticas ► Tablas ► Prueba Chi-cuadrada para


asociación… y seleccionar (datos resumidos en una tabla de dos factores)
► Aceptar, en la ventana Sesión se obtiene.
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 28.738 4 0.000
Relación de verosimilitud 29.953 4 0.000

Interpretación: El valor p = 0,000 es menor que 0,05,


concluimos que la hipótesis nula es rechazada; es decir, al
menos para un deporte, la preferencia de los estudiantes no es
homogénea con un nivel de significancia del 95%.

EJEMPLO 7.9. Para determinar la conciencia pública y preocupación por la


polución atmosférica, se entrevistó a una muestra de 40 residentes en cada una
de 3 conos de una ciudad ubicada en la costa del pacífico. La pregunta fue: ¿es
la contaminación atmosférica un problema en su vecindario?
Conos No Si Duda No sabe total
Norte 5 (8,67) 31 (24,0) 2 (4,33) 2 (3,0) 40
Sur 10 (8,67) 21 (24,0) 4 (4,33) 5 (3,0) 40
Este 11 (8,67) 20 (24,0) 7 (4,33) 2 (3,0) 40
TOTAL 26 72 13 9 120

Solución
Paso 1. Formulación de la hipótesis nula y alternativa:
H0: las tres poblaciones de residentes son homogéneas con respecto al
conocimiento de los problemas de la contaminación atmosférica.
H1: las tres poblaciones no son homogéneas con respecto al conocimiento de
los problemas de la contaminación atmosférica.
Paso 2. Nivel de significación: D = 0,05
322

r c (Oij  E ij ) 2
x ¦¦
2
Paso 3. Elección del estadístico de prueba: , que se
i 1 j 1 E ij
distribuye aproximadamente como Chi-cuadrada con un grado de libertad
gl = (r–1)(c–1) = (3–1)(4– 1) = 6.

Paso 4. Región crítica: Para D = 0,05 y gl = 6 el valor crítico de la prueba es:


2
x 0.95
(6) 12,6 . Se rechazará H0 si el valor calculado de Chi-cuadrada es mayor
de 12,6.
Paso 5. Cálculos: De las frecuencias observadas y esperadas obtenemos:
3 4 (Oij  E ij ) 2 (5  8,67) 2 (2  3) 2
¦¦
2
x  ..  10,391
cal
i 1 j 1 E ij 8,67 3
2
Paso 6. Decisión: dado que x cal
10,391  12,6 , no hay evidencia de rechazar la
hipótesis nula con un 95% de confianza. Es decir, las tres poblaciones tienen
un conocimiento homogéneo de problemas de contaminación atmosférica.
Desarrollo del EJEMPLO 7.9 con el Minitab
Llenamos los datos de la tabla de contingencia en cuatro columnas:

Accionando en: Estadísticas ► Tablas ► Prueba Chi-cuadrada para


asociación… y seleccionar (datos resumidos en una tabla de dos factores)
► Aceptar, en la ventana Sesión obtenemos.
Filas: Conos Columnas: Nivel de conocimiento
No Si Duda No sabe Todo
Norte 5 31 2 2 40
8.667 24.000 4.333 3.000
Sur 10 21 4 5 40
8.667 24.000 4.333 3.000
Este 11 20 7 2 40
8.667 24.000 4.333 3.000
Todo 26 72 13 9 120
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 10.391 6 0.109
Relación de verosimilitud 10.419 6 0.108
323

Interpretación: El valor de p = 0,109 es mayor que 0,05, no se rechaza


la hipótesis nula. Es decir, las tres poblaciones conocen en forma
homogénea los problemas ambientales.

EJEMPLO 7.10. Se tiene la siguiente información proveniente de una encuesta


aplicada a un grupo de personas en su opinión sobre el uso de la píldora del día
siguientes y la región de procedencia.
Opinión sobre Lugar Opinión sobre Lugar
uso Píldora uso Píldora
A favor Costa En contra Sierra
En contra Sierra No opina Costa
A favor Sierra No opina Sierra
En contra Selva A favor Costa
No opina Costa En contra Selva
No opina Sierra No opina Selva
A favor Sierra A favor Costa
En contra Costa En contra Sierra
No opina Sierra No opina Costa
A favor Sierra En contra Selva
En contra Selva No opina Costa
No opina Selva No opina Sierra
No opina Costa A favor Costa
A favor Costa A favor Costa
En contra Costa No opina Sierra
No opina Selva A favor Selva
A favor Costa En contra Selva
A favor Sierra No opina Costa
No opina Sierra No opina Sierra
A favor Costa A favor Sierra
A favor Costa En contra Selva
No opina Sierra No opina Costa
A favor Selva A favor Costa
En contra Costa En contra Sierra
No opina Sierra No opina Selva
A favor Sierra No opina Selva
En contra Selva A favor Costa
En contra Sierra No opina Costa
No opina Selva A favor Sierra
A favor Costa En contra Sierra

Solución
Usemos el Minitab para desarrollar el problema.
Paso 1. Formulación de hipótesis nula y alternativa:
H0: Sobre el uso de la píldora del día siguiente la proporción de opiniones en
las tres regiones son homogéneas.
324

H1: Sobre el uso de la píldora del día siguiente la proporción de opiniones en


las tres regiones no son homogéneas.
Desarrollo del EJEMPLO 7.10 con el MINITAB
Para desarrollar el problema con el Minitab, en la base de datos abierto,
ejecutamos los comando: Estadísticas ► Tablas ► Tabulación cruzada y
Chi-cuadrada…: ingresar en Filas la variable Opinión y en columnas la
variable Lugar ►activar Chi-cuadrada… ► Análisis de chi-cuadrada ►
Aceptar/Aceptar. La ventana de diálogo en Minitab se completa como sigue:

Figura 7-9. Ventana de diálogo de la opción Tabulación cruzada, ejemplo 7.10.


Los resultados que aparecerán en la ventana Sesión son las siguientes:
Opinión Regiones del Perú (Lugar)
Costa Selva Sierra Total
A favor 12 2 7 21
En contra 3 7 6 16
8 6 9 23
No opina
Total 23 15 22 60

Filas: Opinión Columnas: Lugar


Costa Selva Sierra Todo
A favor 12 2 7 21
En contra 3 7 6 16
No opina 8 6 9 23
Todo 23 15 22 60
Prueba de chi-cuadrada
Chi-cuadrada GL Valor p
Pearson 7.992 4 0.092
Relación de verosimilitud 8.327 4 0.080

Interpretación: El valor de p = 0,092 es mayor que 0,05 no se


rechaza la hipótesis nula. Es decir, la opinión sobre el uso de píldora
en las tres regiones del país es homogénea.
325

7.8. PRUEBA DE VARIABLES CATEGÓRICAS DE CON TABLAS DE 2u2


Estas pruebas son una versión simplificada de la prueba Chi-cuadrada, pues
tienen un grado de libertad igual a 1. Destacando entre estas la prueba exacta de
Fisher, Prueba de McNemar y la prueba de Cochran-Mantel-Haenszel para
tablas múltiples; como se muestra en la figura 7-10.

Figura 7-10. Ventana de diálogo para prueba exacta de Fisher, McNemar y CMH.

7.8.1. Prueba exacta de Fisher


El test exacto de Fisher es una prueba de significación estadística utilizada en el
análisis de tablas de contingencia. Aunque en la práctica se emplea cuando los
tamaños de muestra son pequeños, también es válido para todos los tamaños de
muestra.
El valor p de la prueba exacta de Fisher es exacto para todos los tamaños de
muestra, mientras que los resultados de la prueba de chi-cuadrada que
examina las mismas hipótesis pueden ser inexactos cuando los conteos de
celda son pequeños. ... La prueba exacta de Fisher se basa en la distribución
hipergeométrica. La prueba exacta de Fisher permite analizar una tabla de
contingencia 2u2 y probar si la variable de fila y la variable de columna son
independientes.
Siendo las hipótesis que se plantean tienen la siguiente estructura:
H0: la variable de fila y la variable de columna son independientes.
H1: la variable de fila y la variable de columna no son independientes.
326

Para realizar la prueba exacta de Fisher,


elija Estadísticas ► Tablas ► Tabulación cruzada y Chi-cuadrada y haga
clic en Otras estadísticas Prueba exacta de Fisher
EJEMPLO 7.11. Si queremos utilizar la prueba exacta de Fisher para analizar
la siguiente tabla de contingencia de resultados electorales con el fin de
determinar si los votos son independientes del género de los votantes.

Género Candidatos
Candidato A Candidato B
Mujer 18 50
Varón 42 70

Hipótesis nula y alternativa:


H0: El género del elector es independiente de la escogencia del candidato.
H1: El género del elector no es independiente de la escogencia del candidato.

Para resolver el ejemplo X con el Minitba, accionamos en: Estadísticas ►


Tablas ► Tabulación curzada y Chi-cuadrada… ► ingresar los datos ►
Prueba exacta Fisher ► Aceptar/Aceptar, en la ventana se obtiene.

Filas: Género Columnas: Candidatos


Candidato-A Candidato-B Todo
Mujer 18 50 68
26.47 73.53 100.00
Varón 42 70 112
37.50 62.50 100.00
Todo 60 120 180
33.33 66.67 100.00
Prueba exacta de Fisher
Valor p
0.144368

Interpretación: El valor de p = 0,1444 es mayor que 0,05 no se


rechaza la hipótesis nula. Es decir, NO hay evidencia suficiente para
indicar que el género de un elector afecta su escogencia en las
elecciones al 95% de confianza.

7.8.2. Prueba de McNemar


En estadística, la prueba de McNemar es una prueba utilizada en datos
nominales emparejados. Se aplica a tablas de contingencia 2 × 2 con un rasgo
327

dicotómico, con pares de sujetos emparejados, para determinar si las frecuencias


marginales de fila y columna son iguales.
Sirve para medidas de manipulación (experimentales) y observacionales; trata
de un estudio longitudinal por tratarse de comparación de dos medidas. En la
dócima de McNemar los resultados se presentan en una tabla 2u2 en la siguiente
forma:
Respuestas antes Respuestas después
Correcta después Incorrecta después
Correctas antes A (0,0) B (0,1)
Incorrectas antes C (1,0) D (0,1)

La prueba de McNemar determina si las proporciones pareadas son diferentes.


Por ejemplo, podemos utilizar la prueba de McNemar para determinar si un
programa de capacitación cambia la proporción de participantes que contestan
correctamente una pregunta.
En una prueba de McNemar, las hipótesis son:
H0: Los cambios se deben al azar
H1: los cambios se deben al tratamiento.
Las frecuencias observadas se distribuyen según Chi-cuadrada y el estadístico
de prueba no lo da la ecuación siguiente:
Estadístico de prueba para McNemar
ሺȁ࡭ െ ࡰȁ െ ૚ሻ૛
ࢄ૛ ൌ
F.7-6
‫ۯ‬൅۲

Donde A y D son las frecuencias observadas de las celdas donde se identifican


los cambios ya sea producto del azar o debido al experimento.

EJEMPLO 7.12. A un grupo de 40 trabajadores, se observó que 15 presentaban


síntomas de estrés laboral. El psicólogo de la empresa ordenó que cada
trabajador tomase un descanso matinal de 10 a 20 minutos diarios. Luego de 2
semanas de seguimiento se observó que 12 de los 15 trabajadores ya no
presentaron esos síntomas, pero de los sanos ahora había 2 con síntomas de
estrés. ¿Tuvo efecto el descanso matinal sobre el estrés?
Las hipótesis son:
H0: Los cambios se deben al azar
H1: los cambios se deben al tratamiento y no al azar.
328

Solución
Resumen de la información
Después
Sin estrés Con estrés Total
Antes Con estrés 12 3 15
Sin estrés 23 2 25
35 5

Según la tabla resumen:


Cambio de con estrés a sano: A = 12
Cambio de sin estrés (sano) a estrés: D = 2.
donde A y D son las frecuencias observadas de las celdas donde hubo cambios,
es decir, las trabajadores que cambiaron de estado (estrés osano o sano o
estrés).
Las frecuencias observadas se distribuyen según Chi-cuadrado y reeplazando
valores en la fórmula 7-6, obtenemos:

ሺȁ࡭ െ ࡰȁ െ ૚ሻ૛ ሺȁ૚૛ െ ૛ȁ െ ૚ሻ૛ ૡ૚


ࢄ૛ ൌ ൌ ൌ ൌ ૞ǡ ૠૢ
‫ۯ‬൅۲ ૚૛ ൅ ૛ ૚૝

Según el valor de la tabla 3, Chi-cuadra del apéndice, se tiene 5,79 > 3,84. Por
tanto se rechaza la hipótesis nula. Por tanto, los cambios (proporción de curados
del estrés) se deben al tratamiento y no al zar con un nivel de confianza del 95%.

Para resolver el EJEMPLO 7.12 con el Minitba, accionamos en: Estadísticas


► Tablas ► Tabulación curzada y Chi-cuadrada… ► ingresar los datos ►
Prueba McNemar ► Aceptar/Aceptar, en la ventana se obtiene.

Prueba de McNemar
Diferencia
estimada IC de 95% P
-0.500 (-0.721; -0.279) 0.000
Diferencia = p (Antes = Sin estrés) - p (Después = con estrés)

Interpretación: El valor de p = 0,000 es menor que 0,05 se rechaza


la hipótesis nula. Es decir, la curación del estrés no se debe al azar,
sino al tratamiento hecho a los pacientes, con un nivel de confianza
del 95%.
329

OBSERVACIÓN: También puede ingresar datos sin procesar, siempre y


cuando ambas columnas contengan exactamente 2 valores únicos (véase la nota
más abajo). La siguiente tabla muestra los mismos datos de la tabla anterior
ingresados sin procesar. Cada fila indica cómo respondió un participante antes
y después de recibir capacitación.

EJEMPLO 7.13. Se ha evaluado un grupo de personas con problemas de


depresión y han sido sometidas a un tratamiento, donde los pacientes unos
mejoraron y otros no, tal como se resume en la tabla.

Antes Después Antes Después Antes Después


Depresión Depresión Depresión Depresión No depresión Depresión
Depresión Depresión Depresión Depresión No depresión Depresión
Depresión Depresión Depresión No depresión No depresión No depresión
Depresión Depresión Depresión No depresión Depresión Depresión
Depresión No depresión Depresión No depresión No depresión No depresión
Depresión Depresión Depresión Depresión Depresión No depresión
No depresión No depresión No depresión No depresión No depresión No depresión
No depresión No depresión Depresión Depresión No depresión Depresión
No depresión No depresión No depresión No depresión Depresión No depresión
¿El estado de depresión ha cambiado después del tratamiento?
Solución:
Paso 1. Formulación de Hipótesis nula y alternativa.
H0: El estado de depresión no ha cambiado después de realizar la evaluación en
el período de tratamiento.
H1: El estado de depresión ha cambiado después de realizar la evaluación en el
período de tratamiento.
Con el minitab obtenemos la siguiente información:

Filas: Antes Columnas: Después


depresión No depresión Todo
depresión 11 6 17
39.29 21.43 60.71
no depresión 3 8 11
10.71 28.57 39.29
Todo 14 14 28
50.00 50.00 100.00
Prueba de McNemar
Diferencia
estimada IC de 95% P
0.107 (-0.135; 0.349) 0.508
Diferencia = p (Antes = depresión) - p (Después = depresión)
330

Interpretación: El valor de p = 0,508 es mayor que 0,05 NO se


rechaza la hipótesis nula. Es decir, el estado de depresión no ha
cambiado después de realizar la evaluación en el período de
tratamiento.

7.8.3. Prueba de Cochran-Mantel-Haenszel (CMH)


La prueba CMH se utiliza para probar la asociación condicional de dos variables
binarias en presencia de una tercera variable categórica. Por ejemplo, usted está
analizando los resultados de una elección en tres estados diferentes entre los
candidatos A y B. La primera tabla muestra los votos de los tres estados
combinados, tabulados según el género.
La prueba CMH evalúa el grado de asociación entre la variable fila y la varaible
columna. Calcula una relación de probabilidades comunes en todas las tablas y
un valor p para evaluar su significancia.

Siendo las hipótesis que se plantean tienen la siguiente estructura:


H0: la variable de fila y la variable de columna son independientes.
H1: la variable de fila y la variable de columna están asociadas.
EJEMPLO 7.18. En la siguiente tabla se resume las preferencias hacia los
candidatos X e Y que tienen los electores clasificados según estado civil.
Estado Candidato-X Candidato-Y
Soltero 940 720
Casado 735 695

¿El estado civil del elector está asociado al voto por un determinado candidato?
Solución
La prueba CMH evalúa el grado de asociación entre el voto y el estado civil, al
tiempo que controla el estado de residencia. Calcula una relación de
probabilidades comunes en todas las tablas y un valor p para evaluar su
significancia.
Formulación de la hipótesis nula y alternativa:
H0: El estado civil y la opción de voto hacia un candidato son independientes.
H1: El estado civil y la opción de voto por un candidato están asociados.
Para resolver el EJEMPLO 7.18 con el Minitba, accionamos en: Estadísticas
► Tablas ► Tabulación curzada y Chi-cuadrada… ► ingresar los datos ►
Prueba de Cochran-Mantel-Haenszel ► Aceptar/Aceptar, en la ventana
Sesión, obtendremos.
331

Filas: Estado Civil Columnas: Candidatos


Candidato-X Candidato-Y Todo
soltero 940 720 1660
30.42 23.30 53.72
casado 735 695 1430
23.79 22.49 46.28
Todo 1675 1415 3090
54.21 45.79 100.00
Prueba de Cochran-Mantel-Haenszel
Relación de
probabilidades
común Estadístico CMH GL Valor p
1.23450 8.24640 1 0.0040833
Resultados de todas las tablas de 2x2

Interpretación: El valor de p = 0,0041 es menor que 0,05 se


rechaza la hipótesis nula y se acepta la hipótesis alternativa. Es decir,
el estado de depresión no ha cambiado después de realizar la
evaluación en el período de tratamiento.

La prueba CMH también calcula un valor p para evaluar la significancia


estadística de la relación de probabilidades comunes: el valor p de 0.55 es
insignificante. Por lo tanto, usted concluye que, aunque el voto y el género
parecen estar asociados en la tabla combinada, el análisis del estado de
residencia revela que el voto y el género son independientes, dentro de cada
estado. Es posible que la verdadera diferencia en los patrones de votación tenga
que ver con los estados, no con el género. Un análisis más detallado debería
centrarse en el efecto que tiene el estado de residencia de un elector sobre su
voto, porque esta prueba CMH determinó que el efecto del género no es
estadísticamente significativo.
332

RESUMEN DEL CAPÍTULO 7

1.1. En la investigación de las ciencias complejas (ciencias de la sociedad), muchas


variables de estatus como género, raza, grado de instrucción, grupo sanguíneo,
tienen un nivel de medición nominal. La prueba Chi-cuadrada, que se basa en
los cálculos realizados de una tabla de doble entrada (o cruzada), permite
analizar la relación entre dos variables nominales.
1.2. Los cálculos para la prueba Chi-cuadrada se llevan a cabo utilizando una
tabulación cruzada, la cual contiene las frecuencias de las ocurrencias conjuntas
de las categorías de dos variables nominales u ordinales. Las categorías de la
variable independiente (X) se colocan en la columna de la tabla cruzada y las
de la variable dependiente (Y) en las filas de la tabla cruzada.
1.3. Las frecuencias esperadas se calculan y se comparan con las frecuencias
observadas reales en las celdas de una tabla de doble entrada. Las frecuencias
esperadas son frecuencias que se presentarán si no existe una relación entre las
dos variables nominales. Cuando las frecuencias observadas y las esperadas
son las mismas, dado un error de muestreo por exceso o defecto, no existe una
relación y la ecuación de la Chi-cuadrada resulta igual a cero. Por lo tanto, la
hipótesis nula consiste en que la Chi-cuadrada es igual a cero.
1.4. La distribución muestral es la distribución Chi-cuadrada, en la que los grados
de libertad se determinan por medio del número de columnas y filas de la tabla
de doble entrada: gl = (r – 1)(c – 1).
Las observaciones esperadas se calculan mediante:
ri u .c j
Eij
n
r c (Oij  E ij ) 2
x ¦¦
2
y el valor del estadístico Chi-cuadrada es:
j 1 i 1 E ij
2
O
x ¦E
2
o su equivalente: n
ij

ij

1.5. El valor de la prueba se obtiene comparando el valor calculado de la Chi-


cuadrada con los valores críticos del estadístico Chi-cuadrada que se ubican en
la tabla C: X2 en el apéndice 3, o se calcula directamente con el Minitab.
333

1.6. Aspectos relevantes de una relación para la prueba Chi-cuadrada: a) la prueba


de H0 está relacionada con el hecho de que X2 = 0; es decir, que no existe
ninguna relación entre X e Y. Si la H0 se rechaza, existe una relación. b) La
dirección no es aplicable, porque las variables son de nivel nominal. c) La
fuerza normalmente no se reporta, ya que las medidas que existen resultan
inadecuadas y plagadas de posibles errores. d) Las aplicaciones prácticas se
describen reportando las diferencias entre las frecuencias observadas y
esperadas en el caso de una pareja de casillas destacadas y calculando los
porcentajes de columna para las casillas seleccionadas.
334

GRUPO DE EJERCICIOS Nº 7

1. Se encuestaron a 40 ciudadanos referido a la municipalización de la educación


básica entre los votantes de la segunda vuelta de las elecciones Regionales.
Organiza los datos que se presentan en forma de tabla cruzada. Prueba la
hipótesis relacionada de que existe una diferencia significativa en el grado de
apoyo a la municipalización de la educación básica entre quienes votarían por
Hechos y no Palabras (ENP) y por Somos Perú (SP) en las elecciones
regionales del 2010. Considere nivel de significación de 0,05 y use el Minitab.
ENP (Si), ENP (No), SP (No), SP (No), ENP (No), ENP (Si), SP (No), ENP
(Si), ENP (Si), SP (Si), ENP (Si), ENP (No), SP (No), ENP (Si), ENP (Si),
SP (No), ENP (Si), SP (No), SP (Si), ENP (No), ENP (Si), SP (Si), ENP (Si),
ENP (No), SP (No), ENP (Si), SP (No), ENP (Si), SP (Si), SP (No), ENP
(Si), SP (Si), ENP (Si), SP (Si), SP (No), ENP (Si), ENP (Si), SP (No), SP
(No), ENP (Si), ENP (Si).
2. Se tiene una muestra de docentes que participan en un programa de
capacitación que otorga el Ministerio de Educación, para quienes se registra las
variables género y nivel magisterial. Tabule la información en una tabla de
doble entrada donde la variable género está representada en las filas y la
variable nivel magisterial en las columnas. Prueba la hipótesis relacionada de
a que el género del docente capacitado es independiente del nivel magisterial
en que se encuentra a un nivel de significancia del 5%. Haciendo uso del
Minitab.
Género Nivel Género Nivel Género Nivel
M I F II M II
F II M II M I
M II F I M III
M III F I F II
F I M I M II
F I F III F I
M II M I F I
F II F II M II
F I M II F I
F II F I M III
M III F III F II
F I M II M II
F II M II F I
M II F I M I
F I F I F I
F I M I M II
M I F I F II
F II F II M II
F II M I F I
M I F II F I
335

3. Se tiene la siguiente información proveniente de una muestra de 150


estudiantes de una universidad según género y carrera profesional elegida (CP)
para proseguir con los estudios universitarios.
Género CP Género CP Género CP Género CP Género CP Género CP
F E M O M E M O F E F P
F O M E F P F E M P M P
M E F P M P M P F P F O
M P M P F O F P F O M E
F P F O M E M O M E F P
M O M E F P F E F P M E
F E F P M E F P M E F O
M P M E F O M E F O M F
F E F O F E F O M E F E
M O M E M P F O F P F P
F P F E F P M E M P M E
M E M O M O F E F O F P
F P F E F E M P M E M M
M E F P M P F P F P F E
F O M P F E F E M E M P
F P F O M O M O F O M E
M E F E F O M P M P M O
F P F P M P F O F O F P
M E F E F O M P M P M O
M O M O F E F O F O F E
M E M O M O M P F E F O
F E F E M O F E M O M O
M E M F F P M E F O F E
F P F E M O M O M E F P
F P M E F E F P M O F O

Donde:
Género: masculino (M), feminino (F)
Carrera Profesional: Odontología (O), Enfermería (E), Psicología (P)
¿A un nivel de significancia de 0,05 se puede afirmar que el género es
independiente de carrera profesional elegida por el estudiante?
4. Se selecciona una muestra de electores de un distrito y se les clasifica de
acuerdo al nivel de ingreso económico, en: Bajo, Media y Alto; y según su
opinión respecto a la revocatoria del alcalde en: a favor, en contra e
indiferente. Los resultados obtenidos se resumen en la siguiente tabla.
Opinión Ingresos
Bajo Medio Alto
A favor 100 100 60
En contra 50 40 70
Indiferente 30 50 90
336

¿A cuántas personas se encuestaron? ¿Son independientes la opinión de


los votantes y su nivel de ingreso? Considere nivel de significación de
5%.

5. Se hizo un estudio para determinar si el tamaño de la familia en el


departamento de Huanuco depende del nivel educativo del padre. El
resultado del estudio del nivel de educación y el número de hijos se resume
en la tabla:
Nivel Tamaño de la familia
Educativo 0ó1 2 3 4 5 o más
Analfabeto 4 8 10 15 40
Primaria 16 15 20 25 30
Secundaria 40 23 15 20 15
Superior 20 8 6 4 5

¿Se puede inferir que el tamaño de la familia es independiente del nivel


educativo del padre? Utilice nivel de significación del 10%.
6. Quinientos empleados de una empresa que fabrica cierto producto,
sospechoso de estar asociados con alteraciones respiratorias, se clasificaron
en forma cruzada con base a su grado de exposición al producto y si tenían o
no los síntomas de tales alteraciones respiratorias. Los resultados se muestran
en la siguiente tabla:
Síntomas Alto limitado Sin exposición Total
presentes Conocida
Si 185 33 17 235
No 120 73 72 265
Total 500
¿Proporcionan estos datos la evidencia suficiente para indicar que, en un nivel
de significación de 0,1, existe una relación entre el grado de exposición y la
presencia de los síntomas de alteraciones respiratorias?
7. Quinientos niños de una Institución educativa primaria fueron clasificados en
forma cruzada de acuerdo con el grupo socioeconómico al que pertenece y a
la ausencia o presencia de caries dental. Los resultados fueron los siguientes:

Caries en los dientes Alto Medio alto Medio bajo Bajo Total
Presente 8 24 32 27 91
Ausente 42 121 138 108 409
Total 500
¿Son compatibles estos datos con la hipótesis de que la presencia de caries
dental no está relacionada con los grupos socioeconómicos?
337

8. Un grupo de 350 adultos que participaron en una encuesta de salud, se les


preguntó si llevaban o no una dieta. Las respuestas (por géneros) fueron los
siguientes:
Síntomas presentes Masculino Femenino Total
A dieta 14 25 39
Sin dieta 159 152 311
Total 173 177 350

¿Sugieren estos datos que al estar a dieta depende del género? Considere un
nivel de significancia de 0,05.
9. Una muestra de 500 estudiantes de pregrado participó en un estudio de cierto
grupo de enfermedades comunes. La tabla siguiente presenta la clasificación
de los estudiantes de acuerdo a su principal campo de estudio y el nivel de
conocimiento del grupo de enfermedades:
Área de estudio Masculino Femenino Total
Medicina 31 91
Otro 19 359
Total 50 450 500

¿Sugieren estos datos que existe una relación entre el conocimiento del grupo
de enfermedades y el principal campo de estudio de los estudiantes del
pregrado del cual se extrajo una muestra?
10. Una muestra de 150 portadores crónicos de cierto antígeno y una muestra
de 500 no portadores revelaron la siguiente distribución de grupos
sanguíneos:
Grupo Género Total
Sanguíneo Portadores crónicos No portadores
O 72 230 302
A 54 192 246
B 16 63 79
AB 8 15 23
Total 150 500 650
¿Es posible concluir, a partir de estos datos, que las dos poblaciones de las
cuales se tomaron las muestras difieren con relación a la distribución del
grupo sanguíneos, al 5% de significancia?

11. En una encuesta a niños menores de 15 años que viven en la periferia de una
ciudad se clasificaron de acuerdo al grupo étnico al que pertenecen y su nivel
de hemoglobina. Con los siguientes resultados:
338

Grupo étnico 10 o mayor De 9 a 9,9 < que 9 Total


A 80 100 20
B 99 190 40
C 70 30 66
Total
Con un nivel de significación de 0,05 ¿proporcionan estos datos la evidencia
suficiente para concluir que las dos variables están relacionadas?
12. El gerente de ventas de un supermercado desea determinar si las ventas de
cuatro productos de consumo familiar diario depende de la clase de clientes
clasificados en cuatro grupos ocupacionales. Una muestra aleatoria de las
ventas realizadas suministra la siguiente información:
Grupo de Productos
clientes A B C D
Profesionales 35 30 60 50
comerciantes 150 50 120 70
Obreros 130 30 100 60
Amas de casa 40 20 25 40
¿Podemos concluir que las ventas de los cuatro tipos de productos son
homogéneas entre los cuatro grupos de clientes, con unos niveles de
significación de 0,05?
13. El director de un diario de circulación regional realiza un estudio sobre el
tipo de relación entre el lugar de residencia del lector y la parte del periódico
que lee primero. Para ello, a través de un instrumento de colecta de datos se
obtuvo la siguiente información.
Lugar de Sección del periódico
residencia Política Deporte Cultural
Urbano 30 50 25
Periferia 40 60 20
Rural 20 30 15
Con un nivel de significación de 0,05 ¿estos datos indican que el lugar de
residencia es independiente de la preferencia de la lectura de la sección del
periódico?
14. En un estudio para determinar si las opiniones sobre la apertura de una
institución educativa están relacionadas con la profesión, se obtuvo la tabla
de contingencia de datos de 3x3, como se consigna en la tabla:
Opinión Profesión
Profesor Abogado Ingeniero
A favor 100 12 20
Se opone 6 58 54
No opina 14 30 26
339

Haga una prueba de hipótesis con D = 0,05 si la opinión está relacionada con
la profesión.
15. En un estudio para determinar la relación entre la habilidad y el interés por
la investigación, una muestra aleatoria de estudiantes universitarios produjo
el siguiente resultado:
Habilidad Interés
Poco Mediano Mucho
Alta 15 20 25
Media 10 25 20
Baja 30 35 15
Haga una prueba de hipótesis para determinar si el interés y la habilidad para
la investigación son dependientes. Use D = 0,05.
16. Una afirmación generalizada sobre la aceptación de los profesores por los
estudiantes está relacionada con los calificativos que éstos tienen en los
exámenes. Para poner a prueba esta afirmación un directivo recabó los
siguientes datos:
Aceptabilidad Calificativos
A B C D
Sobresaliente 13 20 15 12
Bueno 20 48 50 25
Regular 25 30 45 12

Ponga a prueba la afirmación al 0,01 y 0,1 de significancia.


17. Se hizo un diagnóstico del nivel de caries dental a un grupo de 60 niños, 50
adolescentes y 70 adultos, para ello acudieron al centro odontológico para
hacerse un diagnóstico integral de la caries dental que llevan consigo.
Pacientes Alternativas de tratamiento
Limpieza Endodoncia Extracción
Niños 40 15 5
Adolescentes 20 30 10
Adultos 12 18 30
Se puede afirmar a un nivel de significancia del 5% que la edad y la posibilidad
de cura son los mismos.
18. El criterio que se utiliza para evaluar a los empleados que trabajan en la
sección ensamblaje de una fábrica es el número de piezas defectuosos por
cada 1000 producidos. El departamento de control de calidad desea averiguar
si hay una relación entre los años de experiencia en el puesto y la tasa de
defectos. ¿Existe una relación entre los defectos en el ensamblaje y los años
de experiencia en el rubro? Utlice D = 0,05.
340

Tasa de Años de experiencia del empleado


defectos 1a2 3a5 6 a más
Alta 6 9 10
Media 9 19 22
Baja 7 8 11

19. Un investigador de la asociación entre el grupo sanguíneo en el sistema A-


B-O, y la raza de un conjunto de sujetos obtuvo la siguiente tabla de
contingencia.
Raza Grupo sanguíneo
A B O AB
Nativo 160 130 120 80
Mestizo 82 50 44 36
Criollo 38 20 26 24
Determine si existe una asociación entre el grupo sanguíneo y la raza a un nivel
de significancia de 0,10 y calcule el coeficiente de contingencia.

20. El siguiente cuadro resume la relación de ingresantes y no ingresantes a la


universidad provenientes de cinco departamentos del Perú.
Departamentos Condición
Ingresó No ingreso
Apurimac 12 44
Junín 24 30
Pasco 16 43
Huánuco 14 40
Ucayali 8 52

Determine si existe una asociación entre la condición de ingreso o no ingreso


y los departamentos de procedencia a un nivel de confianza 0,99 y calcule el
coeficiente de contingencia.


8 Pruebas no Paramétricas
Las pruebas No Paramétricas o de libre distribución
consisten en sacar conclusiones directamente de las
observaciones muestrales, sin formular los supuestos
acerca del tipo de distribución de la población del que
provienen.

Prueba de signos para una sola muestra. Prueba de rangos con signo de
Wilcoxon para una muestra. Prueba de rangos con signo de Wilcoxon para
dos muestras dependientes. Prueba U de Mann-Whitney para dos
muestras independientes. Prueba de Kruskal-wallis para k muestras
independientes. Prueba Friedman. Prueba de corridas.

OBJETIVOS:
Al terminar el presente capítulo estarás en condiciones de:
1. Identificar algunas pruebas de hipótesis estadísticas que no requieren
los supuestos de normalidad.
2. Analizar las características de las pruebas no paramétricas, identificando
sus ventajas y desventajas en el proceso de investigación.
3. Realizar pruebas de signos para una muestra de tamaño grande,
haciendo uso del Minitab.
4. Efectuar una prueba de hipótesis para muestras dependientes y para
suma de rangos de Wilcoxon, haciendo uso del Minitab.
5. Desarrollar la prueba Kruskal-Wallis para comparar dos o más grupos
independientes, con ayuda del Minitab.
6. Desarrollar las pruebas de Mann-Withney para dos muestras
independientes, haciendo uso del Minitab.
7. Desarrollar las pruebas de Friedman para diseño de bloques
aleatorizados haciendo uso del Minitab.
8. Desarrollar la prueba de corridas para una sola muestra.
342

8.1. INTRODUCCIÓN
A diferencia de las pruebas de hipótesis paramétricas, por lo general se asume
que se distribuye normalmente. En las pruebas no paramétricas no se requiere
asumir la normalidad de la población y la mayoría de ellos se basa sólo en el
ordenamiento de los datos. Para el análisis estadístico de los datos existen dos
posibles mecanismos: los datos se pueden transformar de tal manera que sigan
una distribución normal, como se trató en capítulos anteriores; o bien, se puede
acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto
a la distribución de probabilidad a partir del cual fueron obtenidos los datos, y
por ello se denominan pruebas no paramétricas (distribution free), mientras
que las pruebas que suponen una distribución de probabilidad determinada para
los datos se denominan pruebas paramétricas.
Los procedimientos no paramétricos (o de distribución libre), que actualmente
se utilizan con marcada frecuencia en el análisis de datos. Existiendo muchas
aplicaciones en las ciencias sociales, en salud y la ingeniería donde los datos se
reportan no como valores en una escala continua, sino preferentemente en
niveles de medición nominal u ordinal, donde no intervienen suposiciones con
respecto a la distribución de la población de origen, las mismas que facilitan la
asignación de rangos a los datos. Por ello, los diversos análisis no paramétricos
descritos en esta unidad implican un análisis basado en los rangos, cuyo cálculo
de valores resulta simple y muy atractivos por su esencia intuitiva
Un ejemplo donde es practicable la prueba no paramétrica es: dos expertos
podrían dar rango a cinco marcas de artefactos para una premiación,
asignándole un rango 1 a la marca que se cree que tiene la mejor calidad global,
un rango 2 a la segunda mejor, y así sucesivamente.
Aplicando la prueba paramétrica y no paramétrica al mismo conjunto de datos,
podemos decir según el resultado que se obtiene, que es más robusta la prueba
paramétrica. Pero, se debe tener en cuenta que las suposiciones de normalidad
con frecuencia son injustificables y no siempre se tienen las mediciones
cuantitativas. Como alternativa a este inconveniente podemos usar algunos
procedimientos no paramétricos, para acomodar una variedad más amplia de
situaciones experimentales; por lo general la certeza de la eficiencia de las
técnicas no paramétricas son muy cercanas o iguales a los correspondientes
procedimientos paramétricos.
343

Para ingresar a pruebas no paramétricas con el MINITAB 18, accionamos doble


en el icono , en la pantalla del Minitab accionamos los comandos: Estadísticas
►No paramétricos, luego se elige uno de los estadísticos según la naturaleza
de los datos o del problema, de las opciones de la figura 8.1.

Figura 8-1. Pantalla del Minitab 18, con distribuciones para pruebas no paramétricas.

8.2. ¿QUÉ SON PRUEBAS NO PARAMÉTRICAS?


Se denominan pruebas no paramétricas aquellas que no presuponen una
distribución de probabilidad para los datos, por ello se conocen también como
de distribución libre (free distribution). En la mayor parte de ellas los resultados
estadísticos se derivan únicamente a partir de procedimientos de ordenación y
recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos
con muestras pequeñas (n d 10) en las que se desconoce si es válido suponer la
normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos
para corroborar los resultados obtenidos a partir de la utilización de la teoría
basada en la normal.
344

En estos casos se emplea como parámetro de centralización la mediana, que es


aquel punto donde los valores de una variable X están el 50% de las veces por
debajo y el 50% de las veces por encima; del valor de la mediana.
Las pruebas no paramétricas son aplicables en la prueba de hipótesis a los
niveles de medición nominal u ordinal, llamados también libres de
distribución, que quiere decir no intervienen suposiciones con respecto a la
distribución de la población de origen. Estas pruebas libres de distribución son
de aplicación relativamente fáciles y, por lo general, la realización de cálculos
es simple.
Características:
Entre las características de las pruebas estadísticas no paramétricas, podemos
destacar:
1. En este tipo de prueba no se cumplen las suposiciones requeridas por otras
técnicas usadas, por lo general llamadas pruebas paramétricas.
2. No imponen a la distribución de las poblaciones de las que se suponen
extraídas las muestras, condiciones tan restrictivas como las impuestas por la
mayoría de las técnicas; es decir, o exigen que la distribución de población
tenga una forma específica determinada (normal, por ejemplo) ni sus
parámetros verifiquen ciertas condiciones (varianza conocida, varianzas
iguales, por ejemplo).
3. Los estadísticos de contraste se determinan independientemente de cual sea
la distribución de la población, pero que cumpla con alguna condición, por
ejemplo, se puede exigir que sea continua.
4. Para determinar la distribución muestral de los estadísticos de contraste, nos
basta con conocer el orden de las observaciones (sin hacer intervenir
explícitamente sus valores numéricos) y, a veces, sólo se necesita conocer
cuántas de ellas se encuentran en ciertas categorías no ordenadas (sin hacer
intervenir las puntuaciones asignadas a las observaciones, ni el orden de las
mismas), en forma explícita.
5. Posibilita la conversión de datos cualitativos (medidos en escala nominal u
ordinal) mediante procesos estadísticos en información útil para la toma de
decisiones.
345

Ventajas e inconvenientes en el uso de pruebas paramétricas:


Ventajas
Las pruebas no paramétricas tienen varias ventajas con respecto a las pruebas
paramétricas:
1. Por lo general, son fáciles de usar y entender.
2. Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramétricas.
3. Se pueden usar con muestras pequeñas, pues la distribución muestral de los
estadísticos de contraste es determinable con un número pequeño de
observaciones.
4. Se pueden usar con datos cualitativos, que pueden estar a niveles de medida
ordinal y también nominal.
5. Los cálculos numéricos exigidos en estas pruebas son más sencillos que las
correspondientes en las técnicas paramétricas. Sin que esta afirmación sea
general, especialmente cuando el tamaño de la muestra sea grande.
6. Sus estadísticos de prueba son determinables mediante operaciones
matemáticas elementales (en algunos casos basta con el análisis
combinatorio).
Desventajas o inconvenientes:
1. A veces, ignoran, desperdician o pierden información. Pues dejan de utilizar
mucha información contenida en las observaciones al no operar
explícitamente con las puntuaciones, como tales, sino con sus ordenaciones
o meramente con el modo como están agrupados dentro de las categorías no
ordenadas.
2. Son menos eficientes y potentes que las paramétricas. Es decir, si se verifican
las condiciones exigidas por una prueba paramétrica y en su lugar usamos
una prueba no paramétrica, la probabilidad de rechazar la hipótesis nula
siendo falsa es menor, valiéndose de la técnica no paramétrica que la
paramétrica, en el supuesto que la muestra tiene el mismo tamaño en ambos
casos (incurriendo con más frecuencia en un error de tipo II).
346

3. Las pruebas no paramétricas son pruebas estadísticas que no hacen


suposiciones sobre la constitución o distribución de la población que se
muestrea, muchas veces se apoyan en distribuciones muestrales como la
normal o la Chi cuadrada.

8.3. PRUEBAS NO PARAMÉTRICAS PARA UNA SOLA MUESTRA


8.3.1. Prueba de signos para una sola muestra

La prueba de signos es apropiada cuando es necesario analizar datos pareados


para determinar si dos medias poblacionales son diferentes.
Se utiliza para hacer pruebas de hipótesis acerca de la mediana de una población,
que se sustenta en la distribución binomial con probabilidad de éxito p = 1/2 ya
que la probabilidad de que un dato sea mayor o menor que la mediana es 1/2.
Para calcular se determina la diferencia de los datos respecto a la mediana y se
cuentan los positivos y negativos.
En el proceso de prueba de hipótesis se considera como hipótesis nula H0: La
Mediana poblacional es igual a un valor dado, y como hipótesis alternativa H1:
La mediana es menor (mayor o distinta) del valor dado. Donde cada par de
datos en la muestra se reemplaza por un signo (+) o (), se omite la diferencia
cero; en el análisis se usa la muestra de signo resultante.
El estadístico de prueba es el número de signos +, y tiene una distribución
muestral que es binomial. La aproximación normal a la binomial se usa para
determinar valores críticos cuando n t 10, se usa:
En estas condiciones el estadístico de prueba para la prueba de signos es:
Estadístico de prueba para Signos.
2x  n F.8-1
Z
n

donde:
.x representa el número de signos positivos al comparar los valores de los datos.
.n es el número de rangos con signo negativo.

EJEMPLO 8.1. A continuación se presentan los datos correspondientes a los


pesos (en kg-f) de 15 adolescentes sometidos a una dieta para bajar de peso
durante un mes.
347

Antes 70 56 63 64 66 68 66 58 55 57 52 63 70 58 68
Después 65 54 60 62 68 66 64 60 55 54 51 62 67 55 68

Determine si la dieta fue efectiva con un nivel de significancia de 0,01.


Solución
Paso 1. Planteamiento de las hipótesis:
H0: La dieta aplicada a los adolescentes no ha sido efectiva.
H1: La dieta aplicada a los adolescentes ha sido efectiva.
Paso 2. Obtención de la región crítica.
Para D = 0,01, el valor teórico de Z, con una cola resulta: z0,99 2,33 .

Paso 3. Cálculo del estadístico de prueba.


Identificando los signos desde los datos dados, en la siguiente tabla:

Adolescente Peso antes Peso después Signo


1 70 65 +
2 56 54 +
3 63 60 +
4 64 62 +
5 66 68 
6 68 66 +
7 66 64 +
8 58 60 
9 55 55 0
10 57 54 +
11 52 51 +
12 63 62 +
13 70 67 +
14 58 55 +
15 68 68 0
Como el interés en esta prueba sólo es el signo + o  (binomial), excluimos del
análisis los datos de los adolescentes números 9 y 15.
El número de signos es n = 13 y el número de signos + es x = 11, usando la
fórmula 8-1, calculamos el estadístico de prueba:
2x  n 2(11)  13 9
z 2,5 .
n 13 3,6
Paso 4. Toma de decisión:
Como z 2,5 ! z0,99 2,33 , la dieta aplicada ha sido efectiva en la disminución del
peso de los adolescentes.
348

Desarrollo del EJEMPLO 8.1, usando el Minitab.


Estadísticas ► No paramétricos ► Activar la opción Prueba de signos para
una muestra… ► Ingresar variables: Antes y Después ► Aceptar.
Obtenemos los resultados qque se obtienen en el recuadro.
Intervalo de confianza de 99% para η
Confianza
Muestra IC para η lograda Posición
Antes (57; 68) 96.48% (4; 12)
(56.2937; 68) 99.00% Interpolación
(56; 68) 99.26% (3; 13)
Después (55; 66) 96.48% (4; 12)
(54.2937; 66.7063) 99.00% Interpolación
(54; 67) 99.26% (3; 13)

Interpretación. Como los extremos de los intervalos de interpolación


tienen el mismo signo, se rechaza la hipótesis nula y se acepta la
hipótesis alternativa. Es decir, la aplicación de la dieta ha sido efectiva
para la disminución del peso de los adolescentes.

8.3.2. Prueba de rangos con signos de Wilcoxon


Es usada para hacer pruebas de hipótesis acerca de la mediana. El valor se
calcula a partir del siguiente procedimiento:
• Se resta de cada dato el valor de la mediana que se considera en la hipótesis
nula.
• Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las
mismas (o sea en valor absoluto).
En el caso de haber empate se asigna un rango promedio a todas las diferencias
empatadas, es decir, se les asigna el rango:
menor rango de grupo de empate  mayor rango del grupo empate
número de empates
El estadístico W de Wilcoxon será la suma de los rangos correspondientes a las
diferencias positivas.
A diferencia de la prueba de los signos, la prueba de rangos con signos de
Wilcoxon, se toma en cuenta la magnitud de las diferencias de los datos respecto
a la mediana. Los pasos a seguir son:
i Se ordenan las diferencias por valor absoluto
i Diferencias positivas tienen un signo ( + )
349

i Diferencias negativas tienen un signo (  )


i Se suman las diferencias con signo (+) y las diferencias con signo ()
Si el número de diferencias no es cero, y el tamaño de la muestra n es mayor 15
(n > 15), entonces la distribución muestral de W es aproximadamente normal, en
este caso la media y la desviación estándar de la distribución muestral para W,
están dadas en las fórmulas 8-2 y 8-3.
Media del estadístico W
n(n  1) F.8-2
PW
4

Desviación estándar del estadístico W


n(n  1)(2n  1) F.8-3
VW
24

Y el estadístico de prueba correspondiente para los cálculos realizados mediante


las fórmulas 8-2 y 8-3, obtenemos con la fórmula 8-4.
Estadístico de prueba, para n t 15
W  PW F.8-4
Z
VW

OBSERVACIÓN. Cuando el tamaño de muestra n, es mayor que 15 se usa la


aproximación normal para hallar el “p-value” de la prueba, pues se puede mostrar
que el estadístico de Wilcoxon se aproxima a una normal con media igual a
n.(n+1)/4 y varianza n.(n+1)(2n+1)/24, cuando no hay empates.
Mientras si n < 15, se usa la distribución t de Student.
Asimismo, se aplica un factor de corrección por continuidad igual a 1/2, pues se
está aproximando una distribución discreta por una continua. En caso de haber
empates la varianza sufre una ligera modificación, en caso de no existir empates
se obtiene mediante la fórmula 8-5.
Suma de rangos de Wilcoxon
n(n  1) 1
W  F.8-5
Z 4 2
n(n  1).(2n  1)
24

donde:
.n: Es el número de datos no empatados de la muestra.
W: Es la suma de los rangos de la primera población.
350

EJEMPLO 8.2. Probar si los tiempos de sobrevivencia (en años) de 12 personas


que se han sometido a trasplante del corazón son los siguientes: 5,0, 3,0, 4,8,
6,0, 2,7, 3,5, 7,5, 11, 8, 12, 2,0, 13. Probar si los datos de tiempo de vida
después del trasplante sugieren que la mediana sea distinta de 7 años.
Solución
Paso 1. Planteamiento de las hipótesis:
H0: El tiempo de sobre vivencia de las personas sometidas a trasplante del
corazón es igual 7 años: Me = 7.
H1: La mediana del tiempo de sobrevivencia de las personas sometidas trasplante
del corazón es distinta de 7 años: Me z 7.
Paso 2. Obtención de la región crítica.
Para D = 0,05, el valor teórico de T, con una cola resulta: t0,95 (11) 2,015

Paso 3. Cálculo del estadístico de prueba.

Nº Tiempo Diferencia Rango de Rangos Rangos


(x  7) ~ x  7~ Positivos Negativos
1 5,0 –2 4 4
2 3,0 –4 7,5 7,5
3 4,8 – 2,2 5 5
4 6,0 –1 2,5 2,5
5 2,7 – 4,3 9 9
6 3,5 – 3,5 6 6
7 7,5 0,5 1 1
8 11,0 4 7,5 7,5
9 8,0 1 2,5 2,5
10 12,0 5 10,5 10,5
11 2,0 –5 10,5 10,5
12 13,0 6 12 12
W = 33,5 44,5

OBSERVACIÓN: de los valores de –5 y 5 que se registran en la columna 2, se


obtiene el valor 10,5 de la columna 3, de la semisuma: (10+11)/2 = 10,5.
Cálculos:
n(n  1) 12(12  1)) 12(13)
PW 39
4 4 4

n(n  1)(2n  1) 12(12  1)(2 u 12  1) 12(13)(25)


VW 12,75
24 24 24

Como los valores del rango n es menor que 15, usando la fórmula F.8-4, el
estadístico de prueba a tomar es la t, siendo el resultado:
351

W  PW 33,5  39
t calc 0,43
VW 12,75
Paso 4. Toma de decisión.
Como tcalc = 0,43 > 2,015, NO se rechaza la hipótesis nula y podemos concluir
que el tiempo de sobre vivencia del paciente es igual a 7 años.

Desarrollo del EJEMPLO 8.2, usando el Minitab.


Estadísticas ► No paramétricos ► Activar la opción Wilcoxon de una
muestra ► Ingresar variables: Sobrevivencia, obtenemos la figura 8-2.

Figura 8-2. Ventana de diálogo de Prueba de 1 muestra-Wilcoxon del ejemplo 8.2.

En la ventana Sesión obtenemos el resultado siguiente:


Prueba
Hipótesis nula H΋: η = 7
Hipótesis alterna HΌ: η ≠ 7
Número
de Estadística
Muestra prueba de Wilcoxon Valor p
Sobrevivencia 12 33.50 0.695

Interpretación: Como el p = 0,695 es mayor que 0,05, no se


rechaza la hipótesis nula. Es decir, el tiempo de sobrevivencia
de las personas es igual a 7 años.
352

8.4. PRUEBA PARA DOS O MÁS MUESTRAS INDEPENDIENTES


8.4.1. Prueba de rangos con signos de Wilcoxon
Esta prueba es una alternativa a la prueba t de Student, ya que la prueba t
requiere de dos poblaciones que estén distribuidas en forma normal y que tengan
iguales varianzas poblacionales. Esta condición no es necesaria para la prueba
de rangos de Wilcoxon, que utiliza las magnitudes de las diferencias entre las
mediciones y el valor de la mediana poblacional propuesta en la hipótesis nula.
EJEMPLO 8.3. El Huerto es un recreo campestre ubicado en la periferia de la
ciudad de Huánuco. El dueño, decidió antes del aniversario de la ciudad hacer
una encuesta a 15 comensales para que calificaran en una escala de 1 al 20 sobre
una nueva sazón del plato de picante de Cuy y la presentación actual con la
finalidad de hacer algunas mejoras en su preparación y atención, cuyos
resultados se resumen en la siguiente tabla.
Comensal Nuevo Actual Comensal Nuevo Actual
Julia 13 12 Andrés 17 10
Rodrigo 11 15 Raúl 18 10
Cláudio 11 4 Arturo 16 12
Martha 16 10 Alfonso 8 5
Dora 18 12 Bernardo 4 10
María 9 16 María 7 9
Rita 13 5 Mauro 15 8
Alberto 6 11
Las muestras son independientes o están relacionadas, toda vez que, a los
encuestados se les pide que clasifiquen ambas sazones de picante de Cuy. De
tal manera que se pueda calcular la diferencia entre la nueva sazón y sazón
actual, el valor que resulta de participantes que favorecen a una de las sazones
respecto al otro.
Solución
Paso 1. Planteo de la hipótesis nula y alterna.
Hipótesis nula (H0): No hay diferencia entre las entre la sazón actual y la nueva
sazón del picante de cuy.
Hipótesis Alternativa (H1): La nueva sazón del picante de cuy resulta mejor
que la sazón actual.
Paso 2. En base a los datos de la muestra se realizan cálculos para obtener el
estadístico de prueba.
353

Los pasos necesarios para realizar una prueba de rangos de Wilcoxon, son las
siguientes:
1. Calcular la diferencia entre la evaluación de la nueva sazón nueva y la sasón
actual para cada participante.
2. Considerar las diferencias positivas y negativas. Si resulta cero las diferencias
de las notas asignadas no se toman en cuenta y se reduce el número en la
muestra.
3. Determinar el valor absoluto de las diferencias calculados en la columna 4,
que se ubican en la quinta columna.
4. Se ordenan las diferencias de menor a mayor, por ejemplo, el primer
encuestado dio una nota 13 a la nueva sazón 11 a la actual, al cual se le asigna
el rango 1, por tratarse del valor menor. La siguiente diferencia absoluta es 3,
al cual se le asigna rango 2 y así sucesivamente.
Comensal Nueva Sazón Diferencia Rango
Sazón Actual Diferencia absoluta Con signos
(después) (antes) W+ W–
Julia 13 11 2 2 1 -
Rodrigo 11 15 –3 3 - 2
Claudio 11 4 7 7 6 -
Martha 16 10 6 6 5 -
Dora 18 13 5 5 4 -
Maria 9 16 –7 7 6
Rita 13 5 8 8 7 -
Alberto 6 11 –5 5 - 4
Andrés 17 10 7 7 6 -
Raúl 18 10 8 8 7 -
Arturo 16 12 4 4 3 -
Alfonso 8 5 3 3 2 -
Bernardo 4 14 –10 10 - 9
María 7 9 –2 2 - 1
Mauro 17 8 9 9 8 -
Total 56 22
5. A cada rango asignado en la columna 6 se le da el mismo signo de la
diferencia original, y los resultados se muestran en la columna 7. Por ejemplo,
el segundo participante tiene una diferencia de calificación de –3 y un rango
de 2, este valor se localiza en la sección W– de la columna 7.
6. La suma de todos los valores de las columnas W+ y W–. El total de los rangos
positivos es 56 y el total de los rangos negativos es 22. La menor de las dos
sumas de rangos se utiliza como el estadístico de prueba W. Es decir; W = min{
W+ . W–}
354

De los datos de la tabla, se tiene: n = 15


n(n  1) 15(15  1)
Suma total de rangos: 120
2 2

Suma de rangos positivos: W+ = 56


Suma de rangos negativos: W– = 22
Estadístico de prueba: W = min{ W+ , W– } = min{56, 22} = 22

Paso 3. Obtención de la región crítica: para n = 15 y D = 0,05.

En la tabla G del apéndice, el valor de d = 25, siendo la región crítica W d 25.


Paso 4. Decisión:
Como W = 22 < 25 = d, se rechaza la hipótesis nula. Es decir, según las
observaciones muestrales, las evaluaciones del nuevo sabor con la nueva sazón
es mejor que el sabor con la sazón actual.
EJEMPLO 8.4. Se desea probar si el rendimiento en una prueba de
aprovechamiento en el curso de matemática es mejor que la prueba de
aprovechamiento en el curso biología. Para ello se toma una muestra de los
resultados de 20 estudiantes.
Nº Matemática Biología Diferencia Magnitud
1 66 60 6 6
2 56 62 –6 6
3 68 59 9 9
4 74 64 10 10
5 71 63 8 8
6 63 62 1 1
7 66 58 8 8
8 65 60 5 5
9 56 67 –11 11
10 65 58 7 7
11 67 69 –2 2
2 75 64 11 11
13 70 67 3 3
14 65 60 5 5
15 72 64 8 8
16 79 72 7 7
17 63 67 –4 4
18 61 69 –8 8
19 59 61 –2 2
20 42 49 –7 7
Desarrollo del EJEMPLO 8.4, usando el Minitab 18.
355

Para proceder a la prueba de hipótesis con el Minitab, calculamos la magnitud


de las diferencias de notas en matemática y biología, y aplicamos la prueba de
Wilcoxon.
Paso 1. Planteamiento de las hipótesis
H0: El aprovechamiento en el curso de matemática y biología son iguales; es
decir: Mm = Mc.
H1: El aprovechamiento en matemática es diferente que el aprovechamiento en
biología; es decir, Mm ≠ Mc.
Paso 2. Obtención de la región crítica.
Para D = 0,05, o nivel de confianza del 95%. Procedemos la prueba con el
Minitab.
Estadísticas ► No parametricos ► Wilcoxon de 1 muestra…►
seleccionando Diferencia y obtenemos la ventana de diálogo de la figura 8-3.

Figura 8-3. Ventana de dialogo para Wilcoxon para 1 muestra para el ejemplo 8.4.
En la ventana Sesión aparece el resultado siguiente:
Prueba
Hipótesis nula H΋: η = 0
Hipótesis alterna HΌ: η > 0
Número
de Estadística
Muestra prueba de Wilcoxon Valor p
Diferencia 20 210.00 0.000

Interpretación: Como el Valor p = 0,000 es menor que 0,05, se


rechaza la hipótesis nula, y se concluye que existe evidencia
estadística que el aprovechamiento académico logrado en
Matemática es superior al logrado en Biología.
356

8.4.2. Prueba de U de Mann-Whitnney


Esta prueba fue propuesta por Mann-Whitney en 1947. La prueba llamada
también prueba U de Mann-Whitney está diseñada para analizar una variable
proveniente de dos poblaciones independientes que tienen la misma media o
mediana. Esta prueba se usa cuando se quiere comparar dos poblaciones usando
muestras independientes, es decir; es una prueba alterna a la prueba de t de
Student para comparar dos medias. La hipótesis nula es que la mediana de las
dos poblaciones son iguales y la hipótesis alterna puede ser que la mediana de
la población 1 sea mayor (menor o distinta) de la mediana de la población 2.
La prueba de la suma de los rangos involucra la asignación de rangos a los
datos después de que las muestras han sido combinadas, se juntan los datos de
las dos muestras y se ordenan de mayor a menor. En el caso de repeticiones, a
los datos repetidos se les asigna el promedio de los rangos que les corresponde.
Por ejemplo, si las observaciones tercera, cuarta y quinta se les asigna el rango
de cuatro a cada uno de ellos. Después de asignar el rango a los datos,
escogemos la muestra menor y encontramos la suma de los rangos, denotado
por W para esa muestra. Si ambas muestras son del mismo tamaño se usa cada
uno para determinar la W de los rangos.

Supuestos
La prueba Mann-Whitney se basa en los siguientes supuestos:
x Existe una muestra aleatoria simple, de tamaño n1 extraída de una población
P1 y otra muestra aleatoria de tamaño n2, extraída de otra población P2,
utilizados en el análisis son seleccionados en forma independiente.
x La variable de interés es continua.
x La escala de medición observada es ordinal, intervalar o de razón.
x Las dos poblaciones en estudio difieren sólo con respecto a su posición.
La prueba de la suma de los rangos se basa en el estadístico U definido por la
fórmula 8-6.

Estadístico de prueba para la prueba de suma de

݊ଵ ሺ݊ଵ ൅ ͳሻ
rangos suma de los rangos F.8-6

ܷൌܹെ
ʹ
357

n1 (n1  1)
Donde n1 es el tamaño de la muestra menor. El número es el mínimo
2
valor que puede tomar W, y el estadístico U mide las distancias entre W y su
valor mínimo. El estadístico U está estrecha y directamente relacionado con W.
Si el estadístico de prueba U es grande, también lo es W y la muestra usada para
generar W corresponderá a la población con la media mayor.
Si las muestras provienen de poblaciones continuas e idénticas y no hay
repeticiones en los rangos, entonces la distribución muestral de U tiene una
media y una desviación estándar dada por la fórmula 8-7:
Media y desviación estándar para el estadístico U
n1.n2
PU
2
F.8-7
n1.n2 (n1  n2  1)
VU
12

Donde:
n1: Es el número de observaciones de la muestra más pequeña.
n2: Es el número de observaciones de la muestra más grande
W: Es la suma de los rangos de la primera población
Si n1 es mayor a 8, la distribución muestral de U es aproximadamente normal,
obteniéndose el estadístico z, mediante la fórmula 8-8.

Fórmula para hallar valor de z


U  PU F.8-8
z
VU

Pasos para la prueba o contraste de Hipótesis:


PASO 1: Planteo de la hipótesis nula e hipótesis alterna.
Hipótesis Nula, H0: P1 P2 (las dos poblaciones son iguales).
Hipótesis Alterna, H1: P1 z P2 , (las dos poblaciones son diferentes).

Muestras: Son ambas independientes. Cada observación es independiente de


todas las restantes.
PASO 2. Procedimiento para la obtención del estadístico de prueba.
Para calcular el estadístico de prueba se procede del siguiente modo:
1. Se combinan las dos muestras (de tamaños n1 y n2).
358

2. Las n1 + n2 observaciones son organizadas en forma ascendente (desde la más


pequeña hasta el más grande.)
3. Se asignan los rangos a cada una de las n1 + n2 observaciones teniendo en
cuenta a qué muestra pertenecen. Si dos o más observaciones tienen el mismo
valor (son iguales) se obtiene el promedio de los rangos que ocupan dichas
observaciones en el ordenamiento y este promedio es asignado a cada una de
las observaciones empatadas.
4. Obtener la suma de los rangos asignados a la muestra de menor número de
n
elementos (después de haber combinado las muestras). W ¦X
i 1
i .

PASO 3. Valores críticos:


Los valores críticos para la estadística de prueba U, para tamaños n1 = 2, 3, 4,
…, 20 y n2 = 2, 3, 4, …, 20; y distintos valores de p = 0,001, 0,005, 0,01, 0,025,
0,05 y 0,10 (nivel de significación nominal).

Paso 4. La regla de decisión está en función a la hipótesis alternativa


planteada. Y pueden estar formulas en cualquiera de las tres formas de plantear.
Luego, se procede a tomar las decisiones en función del valor teórico de la
región crítica y el estadístico calculado.
EJEMPLO 8.5. Once profesores de educación secundaria y doce profesores de
educación primaria se evaluaron sobre una base de 100 puntos el nivel de
comprensión lectora en el proceso de evaluación para nombramiento docente.
Obteniéndose los siguientes resultados:
Secundaria (S) 62 69 78 82 70 75 82 80 77 86 58
Primaria (P) 65 75 59 56 83 74 64 56 80 70 60 65
¿En base a esta información podemos concluir que el puntaje obtenido por los
profesores de educación Secundaria es diferente al obtenido por los profesores
de educación primaria, con respecto a las respuestas en la prueba de selección
para nombramiento?
Solución
Población en estudio son:
Población 1: Profesores de educación secundaria.
Población 2: Profesores de educación primaria.
359

Variable de interés: Puntaje asignado en la revisión de evaluación para


nombramiento desarrollado por el profesor.
PASO 1: Planteamiento de las hipótesis.
Hipótesis nula: El puntaje medio obtenido por los profesores de educación
primaria es igual al obtenido por profesores de educación secundaria. Es decir,
H0: M1 = M2
Hipótesis alternativa: El puntaje medio obtenido por los profesores de
educación primaria no es igual al obtenido por profesores de educación
secundaria. Es decir: H1: M1 z M2
PASO 2. Obtención de la región crítica:
El valor crítico para el nivel de significación D = 0,05, es z0,95 r1,96 .
PASO 3: Cálculo del estadístico de prueba.
Ordenando los datos en forma ascendente, se tiene la tabla:

Nº Nota Rango Nivel Nº Nota Rango Nivel


1 56 1,5 P 13 74 13 P
2 56 1,5 P 14 75 (14,5) S
3 58 (3) S 15 75 14,5 P
4 59 4 P 16 77 (16) S
5 60 5 P 17 78 (17) S
6 62 (6) S 18 80 (18,5) S
7 64 7 P 19 80 18,5 P
8 65 8,5 P 20 82 (20,5) S
9 65 8,5 P 21 82 (20,5) S
10 69 (10) S 22 83 22 P
11 70 11,5 P 23 86 (23) S
12 70 (11,5) S
Como la muestra de educación secundaria (n1 = 11) es menor que la muestra de
educación primaria (n2 = 12), la suma de rangos W para la muestra de educación
secundaria están escritas en la tabla en negrita y entre paréntesis, resulta:
W = 3 + 6 + 10 + 11,5 + 14,5 + 16 + 17 + 18,5 + 20,5 + 20,5 + 23 = 160,5
El valor del estadístico de prueba U, encontramos mediante la fórmula 8-6.
ͳͳሺͳͳ ൅ ͳሻ
ܷ ൌ ͳ͸Ͳǡͷ െ ൌ ͳ͸Ͳǡͷ െ ͸͸ ൌ ͻͶǡͷ
ʹ
La media de la distribución de U se encuentra aplicando la fórmula 8-7.
n1 .n2 (11)(12)
PU 66
2 2
360

y su desviación estándar mediante la fórmula:


n1 .n2 (n1  n2  1) (11)(12)(11  12  1)
VU 264 16,25
12 12

Como ni > 8, la distribución muestral de U es aproximadamente normal y su


estadístico Z para U sería:
ܷ െ ߤ௎ ͻͶǡͷ െ ͸͸
ܼൌ ൌ ൌ ͳǡ͹ͷ
ߪ௎ ͳ͸ǡʹͷ

Paso 4. Decisión: Los valores críticos son: 1,96 y 1,96, como el valor de Zcalc
= 1,75 < 1,96, no se rechaza la hipótesis nula. Por lo tanto, no existe diferencia
significativa entre los calificativos de los profesores educación primaria y los
profesores de educación secundaria.
EJEMPLO 8.6. Los siguientes valores son los tiempos (en minutos) de
permanencia en la sala de operaciones de 20 personas sometidas al mismo
procedimiento quirúrgico 10 de los primeros fueron pacientes del hospital A y
10 al hospital B. Como se muestra en la tabla:

Hospital A 35 39 33 39 41 29 30 36 45 31
Hospital B 45 38 42 50 48 51 32 37 46 40

En base a estos datos, ¿es posible concluir que los pacientes del hospital B
tienden a permanecer más que los pacientes del hospital A?, considere nivel de
significancia 0,1.
Solución

Población en estudio son:


Población 1: Pacientes sometidos a operación quirúrgica en el hospital A.
Población 2: Pacientes sometidos a operación quirúrgica en el hospital B.
Variable de interés: Tiempo de duración de la intervención quirúrgica de los
pacientes.
Paso 1: Planteamiento de las hipótesis:
Hipótesis nula: La permanencia de los pacientes en el hospital A y hospital B
no son diferentes. Es decir, H0: MA = MB.
361

Hipótesis alternativa: La permanencia de los pacientes en el hospital A y


hospital B son diferentes. Es decir: H1: MA z MB
Paso 2. Obtención de la región crítica:
A partir de los datos que se tiene, según la tabla A del apéndice, para n1 10
, n2 10 y D = 0,1 los valores críticos: z0,9 r1,645

Paso 3: Cálculo del estadístico de prueba.


Ordenando los datos en forma ascendente, se tiene la tabla:
Nº Datos Rango Muestra Nº Datos Rango Muestra
1 29 (1) A 11 39 (10,5) A
2 30 (2) A 12 40 12 B
3 31 (3) A 13 41 (13) A
4 32 4 B 14 42 14 B
5 33 (5) A 15 45 (15,5) A
6 35 (6) A 16 45 15,5 B
7 36 (7) A 17 46 17 B
8 37 8 B 18 48 18 B
9 38 9 B 19 50 19 B
10 39 (10,5) A 20 51 22 B

Como el número de pacientes en ambos hospitales son iguales (n1 = n2 = 10), la suma
de rangos W para la muestra del hospital A escritas en la tabla en negrita y entre
paréntesis, resulta:
W = 1 + 2 + 3 + 5 + 6 + 7 + 10,5 + 10,5 + 13 + 15,5 = 73,5
El valor del estadístico de prueba U, encontramos mediante la fórmula 8-6.
݊ଵ ሺ݊ଵ ൅ ͳሻ ͳͲሺͳͲ ൅ ͳሻ
ܷൌܹെ ൌ ͹͵ǡͷ െ ൌ ͳͺǡͷ
ʹ ʹ
La media de la distribución de U se encuentra aplicando la fórmula 8-7.
n1 .n2 (10)(10)
PU 50
2 2
y su desviación estándar mediante la fórmula:
n1 .n2 (n1  n2  1) (10)(10)(10  10  1)
VU 175 13,23
12 12
Como ni > 8, la distribución muestral de U es aproximadamente normal y su
estadístico Z para U sería:
ܷ െ ߤ௎ ͳͺǡͷ െ ͷͲ
ܼൌ ൌ ൌ െʹǡ͵ͺͳ
ߪ௎ ͳ͵ǡʹ͵
362

Paso 4. Decisión:
Como zcalc = 2,381 < 1,645, se rechaza la hipótesis nula. Por lo tanto, existe
diferencia significativa entre los tiempos de permanencia de los pacientes en los
hospitales A y B.

Desarrollo del EJEMPLO 8.6, con el Minitab.


Para este propósito accionamos los siguientes Comandos:
Estadísticas ► No paramétricos ► Activar la opción Mann Whitney ►
Ingresar en Primera muestra la variable Hospital A, y en Segunda muestra la
variable Hospital B ► Aceptar. Obtenemos la ventana de la figura 8-4.

Figura 8-4: Ventana de diálogo para la prueba Mann-Whitney del ejemplo 8.6.

La ventana Sesión muestra los siguientes resultados:

Estimación de la diferencia
IC para la Confianza
Diferencia diferencia lograda
-7 (-15; 1) 99.09%
Prueba
Hipótesis nula H΋: ηΌ - η΍ = 0
Hipótesis alterna HΌ: ηΌ - η΍ ≠ 0
Método Valor W Valor p
No ajustado para empates 73.50 0.019
Ajustado para empates 73.50 0.019

Interpretación: Como el Valor p = 0,0190 es menor que 0,1, se


rechaza la hipótesis nula, y se concluye que existe evidencia
estadística de que la permanencia de los pacientes en los
hospitales A y B son diferentes.
363

8.4.3. Prueba de Kruskal-Wallis (k Muestras Independientes)


La prueba de Kruskal-Wallis basada en los rangos de las observaciones es el
procedimiento alternativo a la prueba F Snedecor-Fisher (o análisis de la
varianza) que no dependa de la hipótesis de normalidad.
Es una alternativa a la prueba F de Fisher para eel análisis de varianza para
diseños de clasificación simple. En este caso, se comparan varios grupos pero
usando la mediana de cada una de ellos, en lugar de las medias. Es decir, la
Hipótesis nula es H0: La mediana de las k poblaciones consideradas son iguales
y la alterna H1: Al menos una de las poblaciones tiene mediana distinta a las
otras. La prueba estadística H se calcula hallando primero los rangos de cada
uno de los k grupos, pero considerando todos los grupos en uno solo. En caso
de haber datos empatados, se asigna un rango promedio a cada dato del grupo
empatado.
La prueba de Kruskal-Wallis es utilizado para detectar diferencias en las
medidas de posición de tres o más poblaciones basándose en muestras aleatorias
independientes. Esta prueba como otras pruebas no paramétricas tienen la
característica de utilizar los rangos de las observaciones que conforman las
muestras.
Supuestos:
1. Los datos disponibles para el análisis consisten de k muestras independientes
de tamaños n1, n2, .. nk, respectivamente.
2. Las observaciones son independientes dentro de cada muestra y entre
muestras.
3. La variable de interés es continua.
4. La escala de medición al menos es ordinal.
5. Las poblaciones desde las cuales se han seleccionado las muestras son
idénticas excepto para una diferencia en al menos de una de ellas.
Hipótesis
La hipótesis nula asociada al problema de k muestras es la que plantea que las
k muestras han sido seleccionadas de poblaciones idénticas:
H0: F1(x) = F2(x) = … = Fk(x), para todo x.
H1: Al menos una de las Fi(x) es diferente
Con un nivel de significación D.
364

Procedimiento para obtener el estadístico de prueba


1. Se combinan las n = n1 + n2 + …+ nk observaciones de las muestras, ordenadas
en forma ascendente.
2. Se asigna el correspondiente rango a cada una de las observaciones ordenadas.
Si existen observaciones empatadas, se sustituyen los rangos de las
observaciones empatadas por el promedio de los rangos de éstas.
3. Se calcula Ri, que representa a la suma de los rangos de las ni observaciones
que conforman la i-ésima muestra.
4. Se obtiene la estadística de prueba en base a los cálculos realizados
anteriormente.
Estadístico de prueba:
Sea ni (i = 1, 2, 3, …, k) el número de observaciones en la i-ésima muestra.
Primero se combinan todas las muestras k y se arreglan las n = n1+ n2 + … nk
observaciones en orden ascendente, sustituyendo el rango apropiado de 1, 2, 3,
…, n para cada observación. En el caso de empates (observaciones idénticas),
se reemplazan las observaciones por las medias de los rangos que las
observaciones tendrían si fueran diferentes. La suma de los rangos
correspondientes a las n observaciones en la muestra i se representan por la
variable aleatoria Ri. Para probar una hipótesis nula H0 de que k muestras
independientes provienen de poblaciones idénticas. Luego se considera el
estadístico que se muestran en las fórmulas 8-9 y 8-10.
12 k
Ri2
h
n(n  1)
¦n
i 1 i
 3(n  1) F.8-9

O en forma explícita

h
12 ª (
«
¦R ) 1
2


( ¦R 2
)2
 ..... 
( ¦R )2 º
k
»  3(n  1) F.8-10
n(n  1) « n1 n2 nk »¼
¬

Donde
.k = número de muestras.
.ni = número de observaciones de la i-ésima muestra.
.n = número total de observaciones en las k muestras combinadas.
Ri = suma de los rangos de la i-ésima muestra.
2
Si h cae en la región crítica: h ! xD con v = k – 1 grados de libertad, se rechaza
H0 al nivel de significancia D; de otra manera se acepta H0.
365

EJEMPLO 8.7. Los datos que se resumen en la siguiente tabla representan las
tasas porcentuales de divorcio por cada 100 personas casadas para muestras de
ciudades en las tres regiones del Perú:
Costa Sierra Selva
2,8 2,1 2,1
5,0 2,4 4,2
7,2 3,5 4,3
8,3 7,0 4,8
10,0 12,1 6,4
13,2 13,6 6,6
13,6 14,9 8,4
15,6 8,9
Solución
Paso 1: Planteamiento de las hipótesis:
Hipótesis nula: Las tres regiones no defieren en la tasa de divorcio de sus
ciudadanos casados. Es decir, H0: F1(x) = F2(x) = F3(x)
Hipótesis alternativa: Al menos en una de las regiones la tasa de divorcio de
sus ciudadanos casados es diferente. Es decir, F1(x) z Fj(x). Con un nivel de
significación D = 0,05.
Paso 2: Obtención de la región crítica:
Según la tabla Chi-cuadrada del apéndice para x 0,95
(2) 5,991 . La región crítica

está conformada por: H > 5,991

Paso 3: Cálculo de estadístico de prueba:


En base a las observaciones de las tres muestras se calcula el valor del
estadístico de prueba.
COSTA SIERRA SELVA
Datos Rango Datos Rango Datos Rango
2,8 4 2,1 1,5 2,1 1,5
5,0 9 2,4 3 4,2 6
7,2 13 3,5 5 4,3 7
8,3 14 7,0 12 4,8 8
10,0 17 12,1 18 6,4 10
13,2 19 13,6 20,5 6,6 11
13,6 20,5 14,9 22 8,4 15
15,6 23 8,9 16

De los datos de la tabla determinamos: ni y Ri para cada región.


366

Costa: n1 7 , R1 = 4 + 9 + 13 + 14 + 17 + 19 + 20,5= 96,5.


Sierra: n2 8 , R2 = 1,5 + 3 + 5 + 12 + 18 + 20,5 + 22 + 23 = 104
Selva: n3 8 , R3 = 1,5+6+7+8+10+11+15+16 = 74.5
El número total de observaciones es: n n1  n2  n3 23
Reemplazando en el estadístico de prueba valores calculados:
12 k
Ri2 12 3 Ri2
H ¦
n(n  1) i 1 ni
 3(n  1) ¦  3(23  1)
23(24) i 1 ni
Desarrollando con los datos reemplazados:

ͳʹ ሺͻ͸ǡͷሻଶ ሺͳͲͶሻଶ ሺ͹Ͷǡͷሻଶ
‫ܪ‬ൌ ෍ቈ ൅ ൅ ቉ െ ͹ʹ ൌ ͹͵ǡ͵ͻ െ ͹ʹ ൌ ͳǡ͵ͻ
ʹ͵ሺʹͶሻ ͹ ͺ ͺ
௜ୀଵ

Paso 4: Decisión:
El valor del estadístico: H = 1,39, se encuentra en la región de no rechazo de la
hipótesis nula, puesto que: H = 1,39 < 7,99 = X0,952(2).
Por lo tanto, podemos concluir que no hay evidencia estadística de que el
promedio de la tasa de divorcio difieran en las tres regiones del país, con un
nivel de confianza del 95%.
Desarrollo del EJEMPLO 8.7 con el Minitab 18
Para este propósito accionamos los siguientes Comandos:
Estadísticas ► No paramétricas ► Activar la opción Kruskal Wallis… ►
Ingresar en Respuesta la variable cuantitativa tasa de divorcio (TD) y en Factor
la variable cualitativa región, y obtenemos la ventana de la figura 8-5.

Figura 8-5: Ventana de diálogo para la prueba Kruskal-Wallis del ejemplo 8.7
En la ventana Sesión, se obtiene los siguientes resultados:
367

Prueba de Kruskal-Wallis: TD vs. Región


Estadísticas descriptivas
Región N Mediana Clasificación de medias Valor Z
Costa 7 8.30 13.8 0.84
Selva 8 5.60 9.3 -1.39
Sierra 8 9.55 13.1 0.58
General 23 12.0
Prueba
Hipótesis nula H΋: Todas las medianas son iguales
Hipótesis alterna HΌ: Al menos una mediana es diferente
Método GL Valor H Valor p
No ajustado para empates 2 1.96 0.375
Ajustado
Ajustado para empates 2 1.96 0.375

Interpretación: Como el Valor p = 0,375 es mayor que 0,05,


no se rechaza la hipótesis nula, y se concluye que las tasas
de divorcio en las tres regiones no tienen diferencia
significativa.

EJEMPLO 8.8. En base a las calificaciones obtenidas por cuatro grupos de


aspirantes a directores para dirigir Instituciones Educativas, un investigador está
interesado en conocer si existe diferencia en las calificaciones medias de las
poblaciones de estudio. Siendo las calificaciones los siguientes:

Grupo A Grupo B Grupo C Grupo D


82 72 56 91
89 66 75 86
80 80 64 77
76 78 59 85
78 69 80
66 76 73
87

Solución
PASO 1: Planteamiento de las hipótesis:
Hipótesis nula: Las cuatro poblaciones tienen calificaciones medias idénticas.
Es decir, H0: F1(x) = F2(x) = F3(x) = F4(x)

Hipótesis alternativa: La calificación media de al menos una de las


poblaciones es diferente.

PASO 2: Nivel de significación: D = 0,05.


368

PASO 3: Obtención de la región crítica:


Según la tabla C (Ji-cuadrado) del apéndice para x0,95
(3) 7,81 . La región crítica

está conformada por: H > 7,81.


PASO 4: Cálculo de estadístico de prueba:
En base a las observaciones de las cuatro muestras se calcula el valor del
estadístico de prueba.
GRUPO A GRUPO B GRUPO C GRUPO D
Notas Rango Notas Rango Notas Rango Notas Rango
82 18 72 7 56 1 91 23
89 22 66 4,5 75 9 86 20
80 16 80 16 64 3 77 12
76 10,5 78 13,5 59 2 85 19
78 13,5 69 6 80 16 93 24
66 4,5 76 10,5 73 8
87 21
n1=6 R1 = 84,5 n7=7 R2 = 78,5 n1=6 R3 = 39 n4=5 R4 = 98
Estadístico de prueba y reemplazo de datos
12 k
Ri2 12 4 Ri2
H ¦
n(n  1) i 1 ni
 3(n  1) ¦  3(24  1)
24(25) i 1 ni
Desarrollando con los datos reemplazados:

12 4 ª (84,5) 2 (78,5) 2 (39) 2 (98) 2 º


H ¦«
24(25) i 1 ¬ 6

7

6

5 ¼
»  75 9,8924 | 9,9

Paso 5: Decisión:
El valor teórico del estadístico es H = 9,9, este valor se encuentra en la región
de rechazo puesto que: H = 9,9 > 7,71 = X0,95(3)
Por lo tanto, la hipótesis nula es rechazada y puede concluirse que las cuatro
poblaciones analizadas tienen calificaciones diferentes.
Desarrollo del EJEMPLO 8.8 con el Minitab.
Para este propósito accionamos los siguientes comandos:
Estadísticas ► No paramétricas ► Activar la opción Kruskal Wallis… ►
Ingresar en Respuesta la variable cuantitativa Notas y en Factor la variable
cualitativa Grupo. Obtendremos la ventana de diálogo de la figura 8-6.
369

Figura 8-6: Ventana de diálogo para la prueba Kruskal-Wallis del ejemplo 8.8

Al accionar en Aceptar, la ventana Sesión muestra los siguientes resultados:

Prueba
Hipótesis nula H΋: Todas las medianas son iguales
Hipótesis alterna HΌ: Al menos una mediana es diferente
Método GL Valor H Valor p
No ajustado para empates 3 8.28 0.041
Ajustado
Ajustado para empates 3 8.31 0.040
La aproximación de chi-cuadrada podría no ser exacta cuando algunos tamaños de
muestra sean menores que 5.

Interpretación: Como el p-value = 0,04 es menor que 0,05, se


rechaza la hipótesis nula, y se concluye que existe evidencia
estadística los calificativos obtenidos son diferentes al menos en
dos de los grupos.

8.5. PRUEBA PARA K MUESTRAS DE FRIEDMAN


La prueba de Friedman se utiliza para analizar datos que tienen un diseño de
bloques aleatorizados y es una alternativa útil cuando no se cumple el supuesto
de normalidad.
La prueba de Friedman es similar al de Kursal-Wallis; diferenciándose en la
forma como se asignan los rangos. En la prueba de Kursal-Wallis, los k grupos
de tratamiento se suelen combinar en un grupo grande, asignándose los rangos
en forma ascendente. En la prueba de Friedman los rangos son asignados a las
k medidas en cada bloque. Cuando hay repetición a cada valor repetido se le
370

asigna el promedio de los rangos correspondiente a las posiciones repetidas.


Cada bloque (fila) de rangos debe ser necesariamente una permutación de los
enteros de uno hasta k.
El estadístico de prueba de Friedman S mide las discrepancias entre la media de
los rangos dentro de cada muestra R j y la media (k + 1)/2. El estadístico de
prueba para la prueba de Friedman está dado por la fórmula 8-11.
2
12 n § k  1·
S ¦ ¨ R j  2 ¸¹
k (k  1) ©
F.8-11

Donde:
.n es el número de bloques.
.k el número de muestras (o tratamientos).
R j es la media de los rangos del j-ésimo grupo de tratamiento.
Si n > 5, la distribución muestral de S es aproximadamente una distribución
chi-cuadrada, con k – 1 grados de libertad. En este caso, el estadístico de prueba
S podemos calcular mediante la fórmula 8-12.

Fórmula de cálculo para la S de Friedman


12 F.8-12
S
n.k .(k  1)
¦ R 2j  3n(k  1)

EJEMPLO 8.9. Se hizo una comparación a los graduados de cinco carreras


profesionales diferentes de cuatro universidades con respecto a sus sueldos
iniciales en el primer trabajo después de su graduación. Los resultados en
nuevos soles fueron los siguientes:
Carreras Universidades
Univ-A Univ-B Univ-C Univ-D
Odontología 2860 2990 2810 2750
Ingeniería 2690 2940 2910 2850
Contabilidad 2200 1850 1590 2310
Enfermería 1800 1560 1630 1930
Obstetricia 2130 1850 1610 2100

Ponga a prueba si hay diferencia en la media de los sueldos iniciales de los


graduados de las cuatro universidades, para D = 0,01.

Solución
PASO 1: Planteamiento de las hipótesis:
371

Hipótesis nula: Los sueldos iniciales de los graduados de las cuatro


universidades son iguales. Es decir: P1 P 2 P 3 P 4

Hipótesis alternativa: Al menos los sueldos de los graduados de dos


universidades son diferentes.

PASO 2: Nivel de significación: según dato del problema: D = 0,01.


PASO 3: Obtención de la región crítica:
Según la (tabla C) de la distribución Ji-cuadrado del apéndice para
2 2
x0,99
(4  1) x 0,99
(3) 11,35 . La región crítica o de rechazo de la hipótesis nula está

conformada por: S > 11,35.


Paso 4: Cálculo de estadístico de prueba:
Ordenemos los datos dentro de cada carrera profesional, obteniendo los rangos
tal como se muestra en la tabla:
Carreras Univ A Rango Univ B Rango Univ C Rango Univ D Rango
Odontología 2860 3 2990 4 2810 2 2750 1
Ingeniería 2690 1 2940 4 2910 3 2850 2
Contabilidad 2200 3 1850 2 1590 1 2310 4
Enfermería 1800 3 1560 1 1630 2 1930 4
Obstetricia 2130 4 1850 2 1610 1 2100 3
Rangos R1=14 R2=13 R3=9 R3=14

La suma de rangos para cada universidad se aprecia en la última fila de la tabla.


Para el cálculo del estadístico de prueba S, usamos el estadístico de prueba de la
fórmula [8-12], donde, para n =5 y k = 4, es:
12 k
S ¦
n.k (k  1) i 1
Ri2  3n(k  1)

12
(5)(4)(5)

142  132  92  142  3(5)(5)

3
642  75 77,04  75 2,04
25
Paso 5: Decisión:
El valor del estadístico calculado S = 2,04 < 11,35, se encuentra en la región de
aceptación de la hipótesis nula.
Por lo tanto, la hipótesis nula no es rechazada y puede concluirse que no existe
diferencia entre los sueldos iniciales para los egresados de las cuatro
universidades.
372

Desarrollo del EJEMPLO 8.9 con el Minitab.


Previa asignación de códigos: odontología (1), ingeniería (2), contabilidad (3),
enfermería (4) y obstetricia (5); luego, ingresando la variable sueldo en el
Minitab. Accionamos en forma secuencial los siguientes comandos:
Estadísticas ► No paramétricas ► Activar la opción Friedman… ►
Ingresar en Respuesta la variable sueldo, en Tratamiento la variable
universidad y en Bloques la variable carreras, se tiene la ventana de diálogo
de la figura 8-6.

Figura 8-7: Ventana de diálogo para la prueba de Friedman del ejemplo 8.9

La ventana Sesión muestra los siguientes resultados:

Prueba de Friedman: Sueldo vs. Universidad; Carrera


Método
Tratamiento = Universidad
Bloque = Carrera
Estadísticas descriptivas
Universidad N Mediana Suma de clasificaciones
Univ-D 5 2191.25 14.0
Univ-A 5 2101.25 14.0
Univ-B 5 1948.75 13.0
Univ-C 5 1863.75 9.0
General 20 2026.25
Prueba
Hipótesis nula H΋: Todos los efectos del tratamiento son cero
Hipótesis alterna HΌ: No todos los efectos del tratamiento son cero
GL Chi-cuadrada Valor p
3 2.04 0.564
373

Interpretación: Como el Valor p = 0,564 es mayor que 0,01, NO se


rechaza la hipótesis nula, y se concluye que no existe evidencia
estadística de que los sueldos iniciales de los graduados de las cinco
carreras profesionales sean diferentes (los sueldos iniciales son
iguales o se diferencian en cero).

8.6. PRUEBA DE CORRIDAS DE UNA SOLA MUESTRA


Se utiliza para determinar secuencias, patrones sistemáticos, cambios
secuenciales, etc., que denoten tendencias predecibles.
La secuencias de estudio, pueden ser los cambios en los índices de la bolsa
de valores, las decisiones de compra de los consumidores en una
presentación, los niveles de consumo después de una campaña de publicidad,
los votos hacia un candidato después de un debate televisado, etc.
Para el tema de estudio, se asigna un signo + para un "éxito", y un
signo - para un "fracaso". De esta forma se tiene una cadena de + y de -. Por
ejemplo, para la siguiente secuencia de + y de -:

Cada grupo de + y de - se identifica como una corrida. En la secuencia


mostrada existen 19 observaciones, 9 corridas, 10 "éxitos"(signos +), 9
"fracasos"(signos –)
El número de corridas en una secuencia se usa como un estadístico para
determinar si existe aleatoriedad o no, en una secuencia de observaciones.
Los patrones de + y – no aleatorios muestran movimientos persistentes en la
misma dirección (tendencias que continúan durante muchos períodos. Esta
clase de patrones sistemáticos produce muy pocas corridas. Por ejemplo, en
la siguiente secuencia de 13 observaciones hay solamente dos corridas:

Patrones no aleatorios que exhiben una excesiva frecuencia de cambios


abruptos en dirección, resulta en una superabundancia de corridas. Por
ejemplo, en la siguiente frecuencia de 13 observaciones hay 13 corridas:
374

Para cualquier secuencia, el menor número de secuencias es de 2. La mayor


cantidad de corridas que puede existir es dos veces el número de
observaciones en la más pequeña de las dos categorías.
Calculo de la probabilidad de un número específico de corridas (R) para
una secuencia
Si el número de observaciones es mayor de 20, y el número de + y – son cada
uno mayor de 10, la distribución de probabilidad de R se puede aproximar a
la distribución normal, y en consecuencia se puede usar la tabla de áreas bajo
la curva normal (Tabla Z).
El estadístico R puede probar que demasiadas corridas o muy pocas en una
muestra indican que intervino algo más que el azar cuando seleccionaron los
elementos.
Aproximando la distribución normal a la distribución hipergeométrica, R
tiene una media o valor esperado que se obtiene mediante la fórmula 8-13.

ʹ݊ଵ Ǥ ݊ଶ
Media corrida o racha

ߤோ ൌ ൅ͳ
݊ଵ ൅ ݊ଶ
F. 8-13

donde
n1: número de signos positivos.
n2: número de signos negativos

La desviación estándar del estadístico R se calcula con la fórmula 8-14.

Desviación o error estándar de R


ʹ݊ଵ Ǥ ݊ଶ ሺʹ݊ଵ Ǥ ݊ଶ െ ݊ଵ െ ݊ଶ ሻ
ߪோ ൌ ඨ
F. 8-14
ሺ݊ଵ ൅ ݊ଶ ሻଶ Ǥ ሺ݊ଵ ൅ ݊ଶିଵ ሻ

Para estandarizar el estadístico de la muestra R, se utiliza la fórmula 8-15.

ܴ െ ߤோ
Estandarización del estadístico de la muestra R

ܼൌ
ߪோ
F. 8-15

Donde R, representa el número de corridas o rachas


Si n1 y n2 son mayores de 20, se puede usar la Tabla de Valores Bajo la Curva Normal
para calcular la probabilidad de R (número de corridas)
375

Procedimiento de prueba de hipótesis


Paso 1. Se enuncian la hipótesis nula y alternativa:
La hipótesis nula (H0):"El patrón secuencial (corridas) está de acuerdo a un
proceso aleatorio"
La hipótesis alternativa (H1):"El patrón secuencial (corridas) es un proceso no
aleatorio"
Los otros pasos son similares a las pruebas estudiadas anteriormente.
EJEMPO 8.10. En un sorteo que se realiza cada mes para determinar que
personas harán limpieza de un local cultural de la localidad, se inspecciona una
muestra de la urna que contiene fichas asignadas con el número 1 y con el
número 2 (1 personas que harán limpieza, 2 para personas que no), la secuencia
de fichas extraídas fue la siguientes.
1, 1, 2, 2, 2, 1, 2, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2.
Usando el nivel de significancia de 0,05, pruebe la aleatoriedad de esta
secuencia ¿Hay algo respecto a este problema que lo induzca a creer que hay
mayor cantidad de bolas con el número 1 o el número 2?
Solución
Identificando las corridas
1, 1, 2, 2, 2, 1, 2, 1, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2.
.n1 - número de ocurrencias del tipo 1o 11
.n2 - número de ocurrencias del tipo 2 o 14
R- número de corridas o 12
Una corrida (o racha) es una secuencia de ocurrencias idénticas precedidas y
seguidas de ocurrencias diferentes.
Formulación de hipótesis nula y alternativa:
En una prueba de corridas para una sola muestra, no es adecuado formular las
hipótesis con símbolos:
H0: La muestra sigue una secuencia aleatoria.
H1: la muestra no sigue una secuencia aleatoria.
Nivel de significancia de 0,05.

ʹሺͳͳሻሺͳͶሻ ͵Ͳͺ
Reemplazando los datos en la fórmula 8-13, tenemos:
ߤோ ൌ ൅ͳൌ ൅ ͳ ൌ ͳ͵ǡ͵ʹ
ͳͳ ൅ ͳͶ ʹͷ

La desviación estándar del estadístico R se calcula con la fórmula 8-14.


376

ʹǤͳͳǤͳͶǤ ሺʹǤͳͳǤͳͶ െ ͳͳ െ ͳͶሻ ͺ͹ͳ͸Ͷ ͺ͹ͳ͸Ͷ


ߪோ ൌ ඨ ൌඨ ൌඨ ൌ ͷǡͺͳ
ሺͳͳ ൅ ͳͶሻଶ Ǥ ሺͳͳ ൅ ͳͶ െ ͳሻ ͳͷͲͲͲ ͳͷͲͲͲ

Estandarización del estadístico de la muestra R, según la fórmula 8-15, resulta.


ͳʹ െ ͳ͵ǡ͵ʹ െͳǡ͵ʹ
ܼൌ ൌ ൌ െͲǡʹʹ͹
ͷǡͺͳ ͷǡͺͳ
Decisión: como el valor del estadístico calculado S = –1,96 < –0,227, se
encuentra en la región de aceptación de la hipótesis nula. No se rechaza la
hipótesis nula y podemos concluir que la muestra sigue una distribución
aproximadamente aleatoria, al 95% de confianza.
Desarrollo del EJEMPLO 8.10 con el Minitab.
Accionamos en forma secuencial los siguientes comandos:
Estadísticas ► No paramétricas ► Activar la opción Prueba de corridas…
► Ingresar la variable de análisis de corridas, figura 8-8.

Figura 8-8: Ventana de diálogo para la prueba de corridas, del ejemplo 8.10

La ventana Sesión muestra los siguientes resultados:


Prueba
Hipótesis nula H΋: El orden de los datos es aleatorio
Hipótesis alterna HΌ: El orden de los datos no es aleatorio
Número de corridas
Observado Esperado Valor p
12 13.32 0.584

Interpretación: Como el Valor p = 0,584 es mayor que 0,05, NO se


rechaza la hipótesis nula, y se concluye que la muestra expresado en
corridas sigue una distribución aleatoria.
377

RESUMEN DEL CAPÍTULO 8


I. La prueba no paramétrica de signos:
A. No es necesario hacer consideraciones con respecto a la forma de las dos
poblaciones.
B. Se basa en muestras en pares o dependientes.
C. Para muestras pequeñas se determina el número de signos +, o signo  y se
recurre a la distribución binomial para el valor crítico.
D. En muestras grandes (mayores que 10) se emplea la distribución normal
2x  n
estándar y la fórmula siguiente: Z .
n
II. La prueba del valor mediano se utiliza para la prueba acerca de la mediana
de una población.
A. Se aplica la aproximación normal en la distribución binomial.
B. Se usa la distribución z como el valor estadístico de prueba.
C. El valor Z se calcula a partir de la fórmula que sigue, donde X es el número
de observaciones (o datos) por arriba o por debajo de la mediana.
(X r 0,50)  P
z
V
III. La prueba de rangos con signo de Wilcoxon W:
A. Los datos cuando menos deben estar en escala ordinal y las muestras deben
ser dependientes.
B. Los pasos para realizar la prueba de hipótesis son:
1. Se asignan rangos a las diferencias absolutas entre las observaciones
relacionadas.
2. Se reconocen los empates y se asignan signos apropiados a los rangos.
3. Se efectúan la suma de rangos positivos y negativos.
4. La menor de las dos sumas es el valor del T calculado.
5. Consultando el valor crítico en el apéndice 6.tabla G, se toma la decisión
de rechazar a H0.
IV. Para una muestra n mayor o igual a 15, la distribución muestral de Wilcoxon
W es aproximadamente normal, en este caso la media y la desviación estándar
de la distribución muestral W, están dadas en las fórmulas
n(n  1)
Media de la distribución muestral: PW
4
n(n  1)(2n  1)
Varianza de la distribución muestral: V W
24
W  PW
El estadístico de prueba: z
VW
378

V. La prueba de suma de rangos de Mann Whitney se usa para determinar si dos


muestras independientes surgieron de una misma población.
A. No se requiere ninguna consideración a la forma de la población
B. Para aplicar esta prueba, los datos al menos deben estar en la escala ordinal.
C. Cada muestra al menos debe contener ocho observaciones.
D. Para determinar el valor del estadístico de prueba W, se asignan rangos a
todos los datos de menor a mayor, como si fuera una sola población.
E. Se determina la suma de rangos para cada uno de las dos muestras.
F. El estadístico de prueba z, se calcula a partir de U, que es la suma de los
rangos para la población 1, a partir de
݊ Ǥ ሺ݊ ൅ ݊ଵ ൅ ͳ
ܹെ ଵ ଵ
ܼൌ ʹ
ට ଵ ଶ ଵ ݊ଶ ൅ ͳሻ
݊ Ǥ ݊ ሺ݊ ൅
ͳʹ
VI. La prueba de Kruskal Wallis:
A. No se requiere ninguna consideración a la forma de la población
B. Las muestras deben ser independientes y al menos deben estar en la escala
ordinal.
C. Se utiliza para probar si varias poblaciones son independientes.
D. Se asignan rangos a las observaciones muestrales desde el más pequeño hasta
el más grande, cono si fueran un solo grupo.
E. El valor del estadístico de prueba se calcula mediante la siguiente fórmula:

12 «
ª ¦ R ¦ R
1
2
2
2
¦ R k
2
º
»  3(n  1)
H   .... 
n(n  1) « n1 n2 nk »
¬ ¼
VII. La prueba de Friedman se utiliza para analizar datos que tienen un diseño
de bloques aleatorizados. La prueba de Friedman es una alternativa útil
cuando no se cumple el supuesto de normalidad. El valor del estadístico de
prueba se calcula mediante la siguiente fórmula:
12
S
n.k .(k  1)
¦ R 2j  3n(k  1)
VIII. La prueba de corridas o de rachas, mediante:
Media corrida o racha: ߤோ ൌ భ మ ൅ ͳ
ଶ௡ Ǥ௡
௡భ ା௡మ

Desviación o error estándar de R: ߪோ ൌ ට


ଶ௡భ Ǥ௡మ ሺଶ௡భ Ǥ௡మ ି௡భ ି௡మ ሻ
ሺ௡భ ା௡మ ሻమ Ǥሺ௡భ ା௡మషభ ሻ

Estandarización del estadístico de la muestra R: ܼ ൌ


ோିఓೃ
ఙೃ
379

PROBLEMAS PROPUESTOS Nº 8

1. En un hospital oncológico se llevan estadísticas respecto al tiempo, en días, de


la supervivencia de los pacientes de cáncer, a partir de la fecha diagnosticada.
Los resultados en una muestra de 25 pacientes fueron los siguientes: 42, 45, 51,
46, 250, 81, 180, 63, 365, 640, 180, 450, 125, 70, 120, 350, 440, 222, 280, 200,
560, 820, 456, 124, 150.
Use una prueba no paramétrica para probar que la mediana del tiempo de
supervivencia de pacientes con cáncer es mayor que 240 días. Escriba las
hipótesis y comenta sus resultados.
2. Los datos que a continuación se muestran representan el número de minutos que
los pacientes deben esperar en la antesala para acceder a una consulta médica:
22, 30, 31, 40, 37, 25, 29, 14, 30, 17, 23, 32, 20, 40, 28, 26, 33, 25, 34 y 21.
Verificar el cumplimiento de la norma de salud de más de 25 minutos de
permanencia antes de ser atendido.
3. Una muestra aleatoria de 20 docentes universitarios aparentemente sanos
proporcionó los siguientes valores de capacidad respiratoria máxima.
Concentración (mg/100ml) de glucosa en la sangre, siendo los resultados: 130,
90, 105, 110, 155, 200, 180, 130, 95, 40, 150, 184, 65, 155, 88, 112, 109, 150,
140, 122.
Con un nivel de significación de 0,01, ¿es posible concluir que la mediana de
la capacidad respiratoria máxima es diferente de 111 litros por minuto?
4. Los siguientes datos corresponde al coeficiente intelectual de una muestra
aleatoria de 25 niños de una institución educativa rural: 98, 92, 101, 100, 104,
107, 90, 95, 92, 96, 104, 106, 102, 105, 100, 99, 101, 103, 109, 100, 110, 95,
104, 115, 118, 110, 113, 97, 115, 108.
Para un nivel de significación de 0,05, ¿es posible concluir a partir de estos
datos, que la población no sigue una distribución normal para media 105?
5. El jefe de personal de una universidad, piensa que, el número de ausencias
injustificadas del personal docentes es menor que a la de los administrativos.
Para ello, se elige al azar 10 docentes y 12 administrativos, y se registran sus
ausencias injustificadas durante un año:
Docentes: 20, 14, 19, 22, 25, 30, 17, 24, 18, 35
Administrativos: 37, 29, 48, 18, 30, 26, 36, 24, 19, 40, 28, 33
380

Con un nivel de significancia de 0,01, determine si el promedio de inasistencias


del personal docente y administrativo son diferentes.

6. Un profesor de álgebra enseña a resolver un sistema de ecuaciones por dos


métodos diferentes. Para determinar si el método A es mejor que el método B,
enseñó a los dos grupos mediante los dos métodos y al terminar la unidad de
sistema de ecuaciones, todos los estudiantes rindieron el mismo examen, siendo
sus calificativos obtenidos los se expresa a continuación:
Método A: 65, 68, 59, 86, 95, 70, 99, 97, 80, 69
Método B: 58, 65, 81, 62, 96, 60, 55, 70, 63, 84
Con un nivel de significancia de 0,05, determine si la calificación promedio
para los estudiantes que aprendieron a resolver el sistema de ecuaciones por el
método A es mayor que a los que aprendieron por el método B.

7. Un psicólogo está interesado en tener evidencia suficiente para concluir que la


calificación de destreza manual promedio en estudiantes discapacitados es
diferente de 45 puntos. Para llevar a cabo su estudio se selecciona una muestra
aleatoria de 18 estudiantes discapacitados y registra sus calificaciones de
destreza manual. La información que se obtiene es la siguiente:
33 53 22 40 24 56
28 38 42 35 52 52
47 41 32 20 42 34
¿Los datos son concordantes con la propuesta del psicólogo para D = 0,05?

8. El rendimiento en la prueba de aprovechamiento académico en matemática de


los estudiantes de instituciones educativas privadas y públicas son los que se
mencionan a continuación:
Pública: 58, 64, 63, 69, 61, 62, 63.
Privada: 65, 77, 64, 72, 69, 70, 71, 75
Se puede concluir que el rendimiento en aprovechamiento académico en
matemática es diferente en las instituciones públicas y privadas a un 95% de
confianza.
9. En tres departamentos del Perú se investiga el grado de propensión al ahorro de
sus habitantes. Para verificar si la disposición al ahorro es similar en dichos
departamentos se tiene una muestra de cada una de ellas. Obteniéndose la
siguiente información:
381

Muestra de Muestra de Muestra de


departamento departamento 2 departamento 3
1
0,25 0,12 0,12
0,33 0,18 0,28
0,15 0,30 0,22
0,09 0,08
0,20
Se puede concluir que el grado de propensión al ahorro en los tres
departamentos es distintos con un nivel de significación de 0,05.

10. El director de personal de una universidad piensa que el número de tardanzas


del personal administrativo es menor al de los docentes. Para ello se eligen al
azar 7 administrativos y 10 docentes y se registran tardanzas durante un
semestre académico:
Administrativos: 10, 7, 9, 11, 12, 15, 8.
Docentes: 18, 14, 24, 9, 13, 20, 12, 11, 14, 15.
Al probar la hipótesis del director de personal con una prueba no paramétrica a
un nivel de significancia de 0,05, ¿a qué conclusión se llega?

11. Se selecciona al azar profesionales de tres carreras: 8 abogados, 10 profesores


y 9 contadores, se desea probar si poseen el mismo conocimiento sobre
enfermedades mentales. Al aplicarles un test para medir el conocimiento del
tema los resultados fueron los siguientes:
Abogados: 64, 60, 60, 58, 52, 46, 36, 38.
Profesores: 64, 64, 52, 52, 44, 40, 28, 32, 28, 30.
Contadores: 56, 42, 30, 30, 28, 28, 18, 22, 16
Escribir la hipótesis a probar. Use una prueba no paramétrica para probar la
hipótesis al 98% de confianza. Dar una conclusión.
12. Se desea comparar tres métodos de enseñanza A, B y C, se elige al azar una
muestra de estudiantes de cada método y sus calificativos.
Método A Método B Método C
89 78 64
45 85 69
59 93 82
46 81 74
64 79 79
71 96 70
62 94
88
382

Usar la prueba Kruskal-Wallis para comparar los métodos de enseñanza A, B


y C a un nivel de significancia de 0,05.

13. El director de una institución educativa integrada ha notado el aumento en la


inasistencia de alumnos a sus clases en los niveles primario y secundario, como
se muestra en el cuadro. Está particularmente interesado en determinar en cuál
de los niveles educativos hay mayor inasistencia de los alumnos durante un mes
lectivo. Para ello hace el seguimiento de la asistencia durante ocho días en el
nivel primario y nueve días en el nivel secundario. Al nivel de significancia de
0,05, ¿se puede concluir que hay más inasistencia en los alumnos del nivel
secundario?
Secundaria Primaria Secundaria Primaria
20 24 38 18
28 26 45 32
18 18 42 40
32 17 48
22 30

14. Se hizo un estudio para comparar la efectividad de cuatro fertilizantes


diferentes sobre el crecimiento de 20 plantas del mismo tamaño
aproximadamente. Cada fertilizante se usó en cinco plantas elegidas
aleatoriamente, registrándose el crecimiento en centímetros después de tres
semanas en cada planta, las que se resumen en la tabla:
A B C D
20,5 13,0 17,6 16,8
16,2 16,0 17,8 15,4
16,9 15,4 21,1 14,0
17,2 16,5 20.5 13,4
18,5 13,6 18,4 12,4
Con un nivel de significación de 0,05 determine si existe diferencia
significativa de los fertilizantes en términos del crecimiento promedio.

15. Una autoridad regional de salud realizó un experimento para determinar cuál
entre las cuatro rutas deben tomarse desde la gerencia hasta la sede del centro
de salud. Los datos que se dan indican los tiempos de recorrido en minutos, a lo
largo de cada una de las cuatro rutas:
Día Ruta 1 Ruta 2 Ruta 3 Ruta 4
Lunes 20 22 22 24
Martes 23 24 26 26
Miércoles 22 25 27 25
Jueves 27 23 30 27
Viernes 28 26 30 27
383

Ponga a prueba si hay diferencia entre los tiempos promedios de recorrido para
las cuatro rutas para D = 0,05.

16. A continuación se tienen las sentencias promedio, en años, dados a los


culpables en tres modalidades de proceso judicial según los delitos cometidos.
Delito Decisión Decisión Confesión
Fiscal del Juez culpabilidad
Asesinato 30 23 16
Robo en calle 16 17 12
Violación 20 16 13
Asalto con agravantes 15 10 8
Robo en casa 12 7 8
Tráfico de drogas 10 12 7
Hurto 6 6 6
Con 0,05 de significancia y según la prueba de Friedman, ¿podemos afirmar que hay
diferencia en la media de las sentencias según los tres procesos judiciales?

17. El dueño de una ferretería de una provincia del Perú realiza un experimento
para determinar si hay diferencia en las ventas semanales promedio de tres de
sus vendedores. Los datos siguientes indican las ventas realizadas por los tres
vendedores en nuevos soles durante siete semanas consecutivas
Semana Vendedores
A B C
1 2760 2870 2640
2 3120 2930 3030
3 2880 2840 2800
4 3060 2980 2870
5 3000 3100 3230
6 2840 2990 2960
7 3090 2950 3110
Mediante la prueba de Friedman y con 0,05 de significancia ¿el dueño puede
concluir que hay una diferencia en la media de la venta de los tres vendedores
y en de las ventas por semana?
18. Los siguientes datos representan el número de horas que dos tipos diferentes
de calculadoras científicas de bolsillo operan antes de que se requiera
recargarlas.
Calculadora A: 5,5 5,6 6,3 4,6 5,3 5,0 6,2 5,8 5,1
Calculadora B: 3,8 4,8 4,3 4,2 4,0 4,9 4,5 5,2 4,5
Utilicen la prueba de suma de rangos a un nivel de significancia de 0,01 para
determinar si la calculadora A opera más tiempo que la calculadora B con una
batería a plena carga
384

19. Con el objeto de verificar el contenido de Alquitrán, se prueban muestras


aleatorias de cuatro marcas de cigarrillos, las siguientes cifras corresponden, en
miligramos, al alquitrán encontrado en 16 cigarrillos probados.
Marca A Marca B Marca C Marca D
14 16 16 17
10 18 15 20
11 14 14 19
13 15 12 21

Utilice la prueba de Kruskal-Wallis, al nivel de significancia de 0,05, para


probar si existe una diferencia significativa en el contenido del alquitrán en las
4 marcas de cigarros
20. Se selecciona una muestra aleatoria de 18 adultos que viven en un pequeño
pueblo para estimar la proporción de votantes a favor de cierto candidato para
alcalde. A cada individuo se le pregunta si es profesional. Al hacer que S y N
representan las respuestas de si y no a la pregunta acerca de su educación, se
obtuvo como respuesta la siguiente secuencia: N N N S S N S S N S N N N N
SSNNSS

18. Se selecciona una muestra aleatoria de 18 adultos que viven en un pequeño


pueblo para estimar la proporción de votantes a favor de cierto candidato para
alcalde. A cada individuo se le pregunta si es profesional. Al hacer que S y N
representan las respuestas de si y no a la pregunta acerca de su educación, se
obtuvo como respuesta la siguiente secuencia: N N N S S N S S N S N N N N
SSNNSS
Utilice la prueba de corridas, al nivel de significancia de 0,1, para determinar
la secuencia que apoya la afirmación de que la muestra ha sido seleccionada al
azar.
385

APÉNDICE

1.TABLA A-1: DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR

La tabla de áreas 1 – D y valores Z1– D = c,


con P(Z < c) = 1 – D, donde Z tiene una
distribución N(0 , 1)

Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
–3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
–3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
–3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
–3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
–3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
–2.9 .0019 .0018 .0017 .0017 .0016 .0016 .0015 .0015 .0014 .0014
–2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
–2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
–2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
–2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
–2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
–2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
–2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
–2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
–2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
–1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
–1.8 .0359 .0352 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
–1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
–1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
–1 .5 .0668 .0655 .0643 .0630 .0618 .0606 ' .0594 .0582 .0571 .0559
–1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681
–1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
–1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
–1.1 .1357 .1335 .1314 .1292 .1271 .125! .1230 .1210 .1190 .1170
–1 .0 .1587 .1562 ..1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
–0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
–0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
–0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
–0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
–0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
–0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
–0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
–0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
–0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
–0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
386

TABLA A-2: DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR

La tabla de areas 1 – D y valores


Z1– D = c, con P(Z < c) = 1 – D,
donde Z tiene una distribución
N(0,1)

Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
11 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9278 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 ,9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
387

2. TABLA B: DE DISTRIBUCIÓN t - Student

Valores de área 1 – D bajo la curva normal


y valores t1– D = c, con P(T < c) = 1 – D,
donde T tiene una distribución t-Student con
gl grados de libertad

gl 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995

1 1,000 1,376 1,963 3,078 6,314 12.706 31,.821 63,657


2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,7 65 0,978 1,250 1,638 2,353 2,182 4,541 5,841
4 0,741 0,941 1,190 1,533 2,132 2,776 3.747 4,604
5 0,727 0,920 1,156 1,47 6 2,015 2,571 3,365 4,032
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499
8 0,706 0,889 1,108 1,3 97 1,860 2,306 2,896 3,355
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 .2,947
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 .2,921
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831
22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,683 855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,683. 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,681 0,851 1,050 1,303 1,684 .021 2,423 2,704
60 0,679 0,848 1,046 1,296 1,671 2,000 2,390 2,660
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617
∞ 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576
388

3. TABLA C: DE DISTRIBUCIÓN CHI-CUADRADA

Tabla de áreas 1 – D y valores c = X 12D ,


tales que P(X < c) = 1 – D, donde X tiene una
distribución X2 con r grados de libertad

1– D
r 0,005 0,010 0,025 0,500 0,100 0,900 0,950 0,975 0,990 0,995
1 0.0000 0.0002 0.0010 0.0039 0.0158 2.71 3.84 5.02 6.64 7.88
2 0.0100 0.0201 0.0506 0. 103 0.211 4.61 5.99 7.38 9.21 10.60
3 0.072 0.115 0.216 0. 352 0.584 6.25 7.82 9.35 11.35 12.84
4 0.207 0.297 0.484 0. 711 1.064 7.78 9.49 11.14 13.28 14.86
5 0.412 0.554 0.831 1.145 1.61 9.24 11.07 12.83 15.09 16.75

6 0.576 0.872 1.24 1.64 2.20 10 .65 12.59 14.45 16.81 18.55
7 0.389 1.24 1.69 2.17 2.83 12 .02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.54 20.09 21.96
9 1.74 2.09 2.70 3 33 4.17 14. 68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19

11 2.60 3.05 3.82 4.58 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 б.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23 .69 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80

16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.27 7.01 8.23 9.39 10.87 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00

21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41. 40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42. 80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44. 18
24 9.89 10.86 12.40 13.85 15. 66 33.20 36.42 39.36 42.98 45. 56
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46. 93

26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11. 81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49. 64
28 12.46 13.57 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.2 6 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20. 60 40.26 43.77 46.98 50.89 53.67

40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27. 99 29.71 32.36 34.76 37. 69 63.17 67.50 71. 42 76.15 79.49
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
70 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95. 02 100.4 104.2
80 51.17 53.54 57.15 60.33 64.28 96.58 101.9 106.6 112.3 116.3

90 59.20 61.75 65.65 69.13 73.29 107.6 113 .1 118.1 124.1 128.3
100 67.33 70.06 74.22 77.93 82.36 118.5 124 .3 129.6 135. 8 140.2
389

4. TABLA D-1: DISTRIBUCIÓN DE PROBABILIDADES F

La tabla de área 1 – D y valores c F1D (r1 , r2 ) ,


tales que P(F < c) = 1 – D, donde r1 y r2 son los
grados de libertad FD (r1 , r2 ) 1 / F1D (r1 , r2 )

.r1
1-D .r2 1 2 3 4 5 6 7 8 9 10 12 15 20 120
. 95 1 161 200 216 225 230 234 237 239 241 242 244 246 248 253
.975 648 800 864 900 922 937 948 957 963 969 977 985 993 1014
'
. 95 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5
.975 2 38.5 39. 39.2 39.2 39. 39. 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5
0 3 3
.99 98.5 99. 99.2 99.2 99. 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5
0 3
.995 199 199 199 199 199 199 199 199 199 199 199 199 199 199
.95 10.1 9.55 9.28 9.12 9.01 8,94 8.8 8,8 80. 8.79 8.74 8.70 8.6 8.55
9 5 81 6
.975 3 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 13.9
. 99 34.1 30. 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.2
8
.995 55.6 49.8 47.5 46.2 45.4 44.8 44.4 44.1 43.9 43.7 43.4 43.1 42.8 42.0
.95 6.71 6.94 б.5 6.3 6.26 6.16 6.0 6.04 6.0 5.96 5.91 5.8 5.8 5.66
9 9 9 0 6 0
.975 4 12.2 10.6 9.9 9.6 9.3 9,2 9.07 8.9 8.9 8.84 8.75 8.6 8.5 8.31
8 0 6 8 8 6 6
.99 21.2 18.0TABLA 15.5DE15.2
D-2:
16.7 16.0 DISTRIBUCIÓN
15.0 14. 8 14.8 F 14.5 14.4 14.2 14.0 13.6
.995 31.3 26.9 24.3 23.2 22.5 22 21.6 21.4 21.4 21.0 20.7 20.4 20.0 19.5
.0
. 95 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.40
.975 5 10.0 8.43 7.76 7.39 7.15 6.9 6.8 6.76 6.6 6.62 6.52 6.43 6.3 6.07
8 5 8 3
. 99 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.8 9.72 9.55 9.11
9
.995 22.8 18.3 16.5 15.6 14.9 14.5 14.2 14.0 13.8 13.6 13.4 13.1 13.9 12.3
.95 5.99 5.14 4.76 4.53 4,39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.70
.975 6 8.81 7.26 6.60 6.23 5,99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 4.90
.99 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 6.97
.995 18.6 14.5 12.9 12.0 11.5 11.1 10.8 10.6 10.4 10.2 10.0 9.81 9.59 9.00
.95 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.27
.975 7 8.07 6.54 5.89 5.52 5,29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.20
.99 12.2 9.55 8.45 7.85 7,46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 5.74
.995 16.2 12.4 10.9 10.1 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.19
.95 5.32 4.46 4.07 3.84 3.69 3,58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 2.97
.975 8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.73
.99 11.3 8, 65 7.59 7,01 б.63 6.37 6.18 б.03 5.91 5.81 5.67 5.52 5.36 4.95
.995 1.4.7 11.0 9.60 8,81 8.30 7.95 7.69 7,5 7.34 7.21 7.01 6.81 6.61 6.06
.95 5.12 4.26 3.86 3.63 3 .48 3,37 3.29 3 .23 3.18 3.14 3.07 3.01 2.94 2.75
.975 9 7.21 5.71 5.08 4..72 4.48 4,32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.39
.99 10.6 8.02 6.99 642 6.48 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.40
.995 13.6 10.1 8.72 7 . 96 7 .06 7.13 6.88 6.69 0.54 6.42 6.23 6.03 5.83 5.30
390

TABLA D-2: DISTRIBUCIÓN DE PROBABILIDADES F

La tabla de área 1 – D y valores c F1D (r1 , r2 ) ,


tales que P(F < c) = 1 – D, donde r1 y r2 son los
grados de libertad FD (r1 , r2 ) 1 / F1D (r1 , r2 )

.r1
1-∞ .r2 1 2 3 4 5 6 7 8 9 10 12 15 20 120
.95 4.964.5 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.84 2.77 2.58
.975 10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.14
.99 10.07.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.00
. 995 12.89.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 4.75
.95 4.753.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.34
.975 12 6.55 8.10 4.47 4.12 3.89 .073 3.61 3.51 3.44 3.37 3.28 3.18 3.07 2.79
.99 9.336.93 5.95 4.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.45
. 995 11.88.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.01
.95 4.543.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.11
.975 15 6.20 4.77 4.15 3.80 3.50 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.46
.99 8.686.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 2.96
. 995 10.87.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.37
.95 20 4.353.49 3.10 2.87 2.71 2.60 2.51 2.54 2.39 2.35 2.28 2.2 2.12 1.90
.975 5.874.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.16
.99 8.105.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.52
. 995 9.946.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 2.81
.95 TABLA
4.17 3.32 2.92 D-2: DE DISTRIBUCIÓN
2.69 2.53 F
2.42 2.33 2.77 2.21 2.16 2.09 2.01 1.93 1.68
.975 30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 1.87
.99 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.11
. 995 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.30
.95 4.00 3.12 2.76 2.53 2.37 2.25 2.17 2.10 1.04 1.99 1.92 1.84 1.75 1.47
.975 60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.58
.99 7.06 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 1.73
. 995 8.49 5.80 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 1.83
.95 3.92 3.07 2.68 2.45 2.99 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.35
.975 120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.95 1.82 1.43
.99 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.53
. 995 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 1.61
.95 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.22
.975 ∞ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.27
.99 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.32
. 995 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.36
391

bc ad
5. TABLA E: DETERMINACIÓN DE r PARA DIVERSOS VALORES DE Y ,A
ad bc
PARTIR DE UNA TABLA DE CONTINGENCIA DE CUATRO ENTRADAS

rt bc ad rt bc ad rt bc ad rt bc ad
ó ó ó ó
ad bc ad bc ad bc ad bc
0,00 1,000 0,26 1,941-1,993 0,51 4,068-4,205 0,76 11,513-12,177
0,01 1,013-1,039 0,27 1,994-2,048 0,52 4,206-4,351 0,77 12,178-12,905
0,02 1,040-1,066 0,28 2,049-2,105 0,53 4,352-4,503 0,78 12,906-13,707
0,03 1,067-1,093 0,29 2,106-2,164 0,54 4,504-4,662 0,79 13.708-14,592
0,04 1,094-1,122 0,30 2,165-2,225 0,55 4,663-4,830 0,80 14,593-15,574
0,05 1,123-1,151 0,31 2,226-2,288 0,56 4,831-5,007 0,81 15,575-16,670
0,06 1,152-1,180 0,32 2,289-2,353 0,57 5,008-5,192 0,82 16,671-17,899
0,07 1,181-1,211 0,33 2,254-2,421 0,58 5,193-5,388 0,83 17,900-19,287
0,08 1,212-1,242 0,34 2,422-2,491 0,59 5,589-5,595 0,84 19,288-20,865
0,09 1,243-1,275 0,35 2,492-2,563 0,60 5,596-5,813 0,85 20,866-22,674
0,10 1,276-1,308 0,36 2,564-2,638 0,61 5,814-6,043 0,86 22,675-24,766
0,11 1,309-1,342 0,37 2,639-2,716 0,62 6,044-6,288 0,87 24,767-27,212
0,12 1,343-1,377 0,38 2,717-2,797 0,63 6,289-6,547 0,88 27,213-30,105
0,13 1,378-1,413 0,39 2,798-2,881 0,64 6,548-6,822 0,89 30,106-33,577
0,14 1,414-1,450 0,40 2,882-2,968 0,65 6,823-7,115 0,90 33,578-37,815
0,15 1,451-1,488 0,41 2,969-3,059 0,66 7,116-7,428 0,91 37,816-43,096
0,16 1,489-1,528 0,42 3,060-3,153 0,67 7,429-7,761 0,92 43,097-49,846
0,17 1,529-1,568 0,43 3,154-3,251 0,68 7,762-8,117 0,93 49,847-58,758
0,18 1,569-1,610 0,44 3,252-3,353 0,69 8,118-8,499 0,94 58,759-71,035
0,19 1,611-1,653 0,45 3,354-3,460 0,70 8,500-8,910 0,95 71,036-88,964
0,20 1,654-1,697 0,46 3,461-3,571 0,71 8,911-8,351 0,96 88,965-117,479-
0,21 1,698-1,743 0,47 3,572-3,687 0,72 8,352-9,828 0,97 117,480-169,503
0,22 1,744-1,790 0,48 3,688-3,808 0,73 9,829-10,344 0,98 169,504-292,864
0,23 1,791-1,838 0,49 3,809-3,935 0,74 10.345-10,903 0,99 292,865-923,687
0,24 1,839-1,888 0,50 3,936-4,067 0,75 10,904-11,512 1 923,688 -
0,25 1,889-1,940

Los valores de esta tabla fueron calculados por Tomas O. Marguire


Si bc/ad es mayor que 1, se lee directamente en la tabla el valor de rt. Si ad/bc es mayor que
1, se busca bajo los valores de ad/bc y el valor de rt, es negativo.
392

6. TABLA F:
ABSCISAS Y ORDENADAS DE LA TABLA DE DISTRIBUCIÓN NORMAL Z

.Z. Ordenada(u) Z Ordenada(u) Z Ordenada(u) Z Ordenada(u)


0,00 0,3989 r0,35 0,3752 r0,70 0,3123 r1,05 0,2299
r0,01 0,3989 r0,36 0,3739 r0,71 0,3101 r1,06 0,2275
r0,02 0,3989 r0,37 0,3725 r0,72 0,3079 r1,07 0,2251
r0,03 0,3988 r0,38 0,3712 r0,73 0,3056 r1,08 0,2227
r0,04 0,3986 r0,39 0,3697 r0,74 0,3034 r1,09 0,2203
r0,05 0,3984 r0,40 0,3683 r0,75 0,3011 r1,10 0,2179
r0,06 0,3982 r0,41 0,3668 r0,76 0,2989 r1,11 0,2155
r0,07 0,398 r0,42 0,3653 r0,77 0,2966 r1,12 0,2131
r0,08 0,3977 r0,43 0,3637 r0,78 0,2943 r1,13 0,2107
r0,09 0,3973 r0,44 0,3621 r0,79 0,292 r1,14 0,2083
r0,10 0,397 r0,45 0,3605 r0,8 0,2897 r1,15 0,2059
r0,11 0,3965 r0,46 0,3589 r0,81 0,2874 r1,16 0,2036
r0,12 0,3961 r0,47 0,3572 r0,82 0,285 r1,17 0,2012
r0,13 0,3956 r0,48 0,3555 r0,83 0,2827 r1,18 0,1989
r0,14 0,3951 r0,49 0,3538 r0,84 0,2803 r1,19 0,1965
r0,15 0,3945 r0,50 0,3521 r0,85 0,278 r1,2 0,1942
r0,16 0,3939 r0,51 0,3503 r0,86 0,2756 1r,21 0,1919
r0,17 0,3932 r0,52 0,3485 r0,87 0,2732 r1,22 0,1895
r0,18 0,3925 r0,53 0,3467 r0,88 0,2709 r1,23 0,1872
r0,19 0,3918 r0,54 0,3448 r0,89 0,2685 r1,24 0,1849
r0,20 0,391 r0,55 0,3429 r0,90 0,2661 r1,25 0,1826
r0,21 0,3902 r0,56 0,341 r0,91 0,2637 r1,26 0,1804
r0,22 0,3894 r0,57 0,3391 r0,92 0,2613 r1,27 0,1781
r0,23 0,3885 r0,58 0,3372 r0,93 0,2589 r1,28 0,1758
r0,24 0,3876 r0,59 0,3352 r0,94 0,2565 r1,29 0,1736
r0,25 0,3867 r0,60 0,3332 r0,95 0,2541 r1,3 0,1714
r0,26 0,3857 r0,61 0,3312 r0,96 0,2516 r1,31 0,1691
r0,27 0,3847 r0,62 0,3292 r0,97 0,2492 r1,32 0,1669
r0,28 0,3836 r0,63 0,3271 r0,98 0,2468 r1,33 0,1647
r0,29 0,3825 r0,64 0,3251 r0,99 0,2444 r1,34 0,1626
r0,30 0,3814 r0,65 0,323 r1,00 0,242 r1,35 0,1604
r0,31 0,3802 r0,66 0,3209 r1,01 0,2396 r1,36 0,1582
r0,32 0,379 r0,67 0,3187 r1,02 0,2371 r1,37 0,1561
r0,33 0,3778 r0,68 0,3166 r1,03 0,2347 r1,38 0,1539
r0,34 0,3765 r0,69 0,3144 r1,04 0,2323 r1,39 0,1518
r0,35 0,3752 r0,70 0,3123 r1,05 0,2299 r1,4 0,1497
393

Z Ordenada(u) Z Ordenada(u) Z Ordenada(u) Z Ordenada(u)


r1,41 0,1476 r1,81 0,0775 r2,21 0,0347 r2,61 0,0132
r1,42 0,1456 r1,82 0,0761 r2,22 0,0339 r2,62 0,0129
r1,43 0,1435 r1,83 0,0748 r2,23 0,0332 r2,63 0,0126
r1,44 0,1415 r1,84 0,0734 r2,24 0,0325 r2,64 0,0122
r1,45 0,1394 r1,85 0,0721 r2,25 0,0317 r2,65 0,0119
r1,46 0,1374 r1,86 0,0707 r2,26 0,031 r2,66 0,0116
r1,47 0,1354 r1,87 0,0694 r2,27 0,0303 r2,67 0,0113
r1,48 0,1224 r1,88 0,0681 r2,28 0,297 r2,68 0,011
r1,49 0,1315 r1,89 0,0669 r2,29 0,029 r2,69 0,0107
r1,50 0,1295 r1,90 0,0656 r2,30 0,0283 r2,70 0,0104
r1,51 0,1276 r1,91 0,0644 r2,31 0,0277 r2,71 0,0101
r1,52 0,1257 r1,92 0,0632 r2,32 0,027 r2,72 0,0099
r1,53 0,1238 r1,93 0,062 r2,33 0,0264 r2,73 0,0096
r1,54 0,1219 r1,94 0,0608 r2,34 0,0258 r2,74 0,0093
r1,55 0,12 r1,95 0,05996 r2,35 0,0252 r2,75 0,0091
r1,56 0,1182 r1,96 0,0584 r2,36 0,0246 r2,76 0,0088
r1,57 0,1163 r1,97 0,0573 r2,37 0,0241 r2,77 0,0086
r1,58 0,1145 r1,98 0,0562 r2,38 0,0235 r2,78 0,0084
r1,59 0,1127 r1,99 0,0551 r2,39 0,0229 r2,79 0,0081
r1,60 0,1109 r2,00 0,054 r2,40 0,0224 r2,80 0,0079
r1,61 0,1092 r2,01 0,0529 r2,41 0,0219 r2,81 0,0077
r1,62 0,1074 r2,02 0,0519 r2,42 0,0213 r2,82 0,0075
r1,63 0,1057 r2,03 0,0508 r2,43 0,0208 r2,83 0,0073
r1,64 0,104 r2,04 0,0498 r2,44 0,0203 r2,84 0,0071
r1,65 0,1023 r2,05 0,0488 r2,45 0,0198 r2,85 0,0069
r1,66 0,1006 r2,06 0,0478 r2,46 0,0194 r2,86 0,0067
r1,67 0,0989 r2,07 0,0468 r2,47 0,0189 r2,87 0,0065
r1,68 0,0973 r2,08 0,0459 r2,48 0,0184 r2,88 0,0063
r1,69 0,0957 r2,09 0,0449 r2,49 0,018 r2,89 0,0061
r1,70 0,094 r2,10 0,044 r2,50 0,0175 r2,90 0,006
r1,71 0,0925 r2,11 0,0431 r2,51 0,0171 r2,91 0,0068
r1,72 0,0909 r2,12 0,0422 r2,52 0,0167 r2,92 0,0056
r1,73 0,0893 r2,13 0,0413 r2,53 0,0163 r2,93 0,0055
r1,74 0,0878 r2,14 0,4004 r2,54 0,0158 r2,94 0,0053
r1,75 0,0863 r2,15 0,0395 r2,55 0,0154 r2,95 0,0051
r1,76 0,0848 r2,16 0,0387 r2,56 0,0151 r2,96 0,005
r1,77 0,833 r2,17 0,0379 r2,57 0,0147 r2,97 0,0048
r1,78 0,0818 r2,18 0,0371 r2,58 0,0143 r2,98 0,0047
r1,79 0,0804 r2,19 0,0363 r2,59 0,0139 r2,99 0,0046
r1,80 0,079 r2,20 0,0355 r2,60 0,0136 r3,00 0,0044
394

7. TABLA G: VALORES T DE WILCOXON

Valores críticos de rangos con signo de Wilcoxon, 2D representa el nivel de


significación para una prueba unilateral, mientras que D para una prueba bilateral.

.n 2D 0,15 0,10 0,05 0.04 0,03 0,02 0,01


D 0,075 0,050 0,025 0,020 0,015 0,010 0,005
4 0
5 1 0
6 2 2 0 0
7 4 3 2 1 0 0
8 7 5 3 3 2 1 0
9 9 8 5 5 4 3 1
10 12 10 8 7 6 5 3
11 16 13 10 9 8 7 5
12 19 17 13 12 11 9 7
13 24 21 17 16 14 12 9
14 28 25 21 19 18 15 12
15 33 30 25 23 21 19 15
16 39 35 29 28 26 23 19
17 45 41 34 33 30 27 23
18 51 47 40 38 35 32 27
19 58 53 46 43 41 37 32
20 65 60 52 50 47 43 37
21 73 67 58 56 53 49 42
22 81 75 65 63 59 55 48
23 89 83 73 70 66 62 54
24 98 91 81 78 74 69 61
25 108 100 89 86 82 76 68
26 118 110 98 94 90 84 75
27 128 119 107 103 99 92 83
28 138 130 116 112 108 101 91
29 150 140 126 122 117 110 100
30 161 151 137 132 127 120 109
31 173 163 147 143 137 130 118
32 186 175 159 154 148 140 128
33 199 187 170 165 159 151 138
34 212 200 182 177 171 162 148
35 226 213 195 189 182 173 159
40 302 286 264 257 249 238 220
50 487 466 434 425 413 397 373
60 718 690 648 636 620 600 567
70 995 960 907 891 872 846 805
80 1318 1276 1211 1192 1192 1136 1086
90 1688 1638 1560 1537 1537 1471 1410
100 2105 2045 1955 1928 1894 1850 1779

Fuente: “Extended Tables of the Wilcoxon Matched-Pair Signed Rank Statistic” Journal of
the American Statical Association.
395

BIBLIOGRAFÍA
[1]. Anderson, D. et al (2008). Estadística para administración y economía. México
D.F.: Cogage Learning.
[2]. Berenson, M. y Levine, D. (1996). Estadística Básica en Administración, Conceptos
y Aplicaciones. México D.F.: Prentice Hall.
[3]. Box, G. (2001). Estadística para investigadores. Introduccón al diseño de
experimentos, análisis de datos y construcción de modelos. Barcelona:
Editorial Reverté S.A.
[4]. Chué, J. (2009). Estadística descriptiva y probabilidades. Lima: Fondo Editorial de
la Universidad de Lima.
[5]. Córdova, M. (1999). Estadística descriptiva e inferencial. Lima: Publicaciones
MOSHERA S.R.L.
[6]. Daniel, W. (1996) Bioestadística. Base para el análisis de las ciencias de la salud.
México: Noriega Editores.
[7] Daniel, W. (1995) Estadística con aplicaciones a las ciencias sociales y a la
educación. Bogotá: McGraw-Hill Latinoamericana.
[8]. Elorza, H. (2001). Estadística para las ciencias sociales, del comportamiento y de
la salud. México: Cengage Learning.
[9]. Gaita, C. (2009). Matemáticas para no matemáticos. Lima: Pontificia Universidad
Católica del Perú.
[10] Gómez, D. y Otros (2005) Introducción a la Inferencia Estadística. Lima: Fondo
Editorial de la UNMSM.
[11]. Kasmier, L. J. (2000). Estadística aplicada a la administración y a la economía.
México D.F.: Mcgraw-Hill.
[12]. Lind, D., Marchal, W. & Mason, R. (2004). Estadística para Administración y
Economía. México D.F.: Alfa Omega.
[13]. Levin, R. y Rubin, D. (2004). Estadística para administración y economía. México
D.F.: Pearson Educación.
[14]. Martínez, C. (2008). Estadística y muestreo. Colombia, ECOE Ediciones.
[15]. Mendenhall, W. y Beaber, R. (2001). Introducción a la probabilidad y estadística.
México: Cengage Learning.
[16]. Spiegel, M. (1987). Teoría y problemas de estadística. México D.F.: McGraw-
Hill.
[17] Veliz, C. (1993) Estadística, aplicacicones. Lima: Copyright.
[18] Walpole, R. (1993). Probabilidad y Estadística. México D.F.: McGRAW /
Interamericana de México.
[19]. Weiner, R. (1996). Estadística. México: Compañía Editorial Continental S.A.

También podría gustarte