Está en la página 1de 262

DISCAPACIDAD E INTEGRIDAD

Manual Autoformativo Interactivo

Estadística Aplicada
Doris Pilar Toykin Urbina
César Fernando Solís Lavado

1
Datos de catalogación bibliográfica
TOYKIN URBINA Doris Pilar, SOLÍS LAVADO César Fernando
Estadística Aplicada: manual autoformativo interactivo / Doris
Pilar Toykin Urbina, César Fernando Solís Lavado. -- Huancayo:
Universidad Continental, 2019

Datos de catalogación del Cendoc

Estadística Aplicada. Manual Autoformativo Interactivo


Doris Pilar Toykin Urbina
César Fernando Solís Lavado
Primera edición digital

Huancayo, octubre de 2019

De esta edición
© Universidad Continental
Av. San Carlos 1980, Huancayo-Perú
Teléfono: (51 64) 481-430 anexo 7361
Correo electrónico: recursosucvirtual@continental.edu.pe
http://www.continental.edu.pe/

Versión e-book
Disponible en http://repositorio.continental.edu.pe/
ISBN electrónico N.° 978-612-4196-

Dirección: Emma Barrios Ipenza


Edición: Miguel Ángel Córdova Solís
Miriam Ponce Gonzáles
Asistente de edición: Paúl Juan Gómez Herrera
Asesor didáctico: Fabio Contreras Ore
Corrección de textos: Juan Guillermo Gensollen Sorados
Diseño y diagramación: Alexander Frank Vivanco Matos

Todos los derechos reservados. Cada autor es responsable del contenido de su propio texto.

Este manual autoformativo no puede ser reproducido, total ni parcialmente, ni registrado en o transmitido
por un sistema de recuperación de información, en ninguna forma ni por ningún medio sea mecánico, foto-
químico, electrónico, magnético, electro-óptico, por fotocopia, o cualquier otro medio, sin el permiso previo
de la Universidad Continental.
ÍNDICE

Introducción 11

Organización de la asignatura 13

Resultado de aprendizaje de la asignatura 13

Unidades didácticas 13

Tiempo mínimo de estudio 13

U-I
ESTIMACIÓN DE PARÁMETROS 15
Diagrama de organización de la unidad I 15

Organización de los aprendizajes 15

Tema n.° 1: Muestreo 16

1. Definiciones básicas 16
1.1 Datos 16
1.2 Unidad de análisis 16
1.3 Estadística 16
1.4 Población 16
1.5 Muestra 16
1.6 Parámetro 16
1.7 Estadístico 17
2. Tipos de datos 17
3. Diseño de experimentos 17
3.1 Definiciones 17
4. Muestreo 18
4.1 Tipos de muestreo 19
4.1.1 Muestreo probabilístico 19
4.1.2 Muestreo no probabilístico 20
4.2. Errores de muestreo 23

Actividad n.° 1 24

Tema n.° 2: Distribuciones muestrales 25

1. Definición de distribuciones muestrales 25


1.1 Distribuciones muestrales de proporciones 25
1.2 Distribuciones muestrales de las medias 28
1.3 Distribución chi-cuadrada 33
1.4 Distribución t 37

Lectura seleccionada n.° 1 41

Actividad n.° 2 41

Actividad n.° 3 42

Tema n.° 3: Estimadores 44

1. Estimación puntual 44
2. Propiedades de los estimadores 45
2.1 Estimadores insesgados 45
2.2 Varianza y error cuadrático medio de un estimador puntual 46
3. Método de máxima verosimilitud 47

Tema n.° 4: Intervalos de confianza para un parámetro 49

1. Intervalo de confianza 49
1.1 Intervalo de confianza para una porción de una población 49
2. Margen de error 54
3. Intervalo de confianza para una media de población 56
3.1 Intervalo de confianza para una media de población con
varianza conocida 56
3.2 Intervalo de confianza para la media de una distribución con
varianza desconocida 59
3.3 Intervalo de confianza para la varianza poblacional 62

Actividad n.° 4 65

Tema n.° 5: Intervalos de confianza para dos parámetros 67

1. Intervalos de confianza para dos proporciones 67


2. Intervalos de confianza para dos medias 70

Lectura seleccionada n.° 2 72

Actividad n.° 5 72

Actividad n.° 6 73

Glosario de la Unidad I 75

Bibliografía de la Unidad I 76
Autoevaluación n.° 1 77

U - II PRUEBA DE HIPÓTESIS Y PRUEBAS NO PARAMÉTRICAS 79

Diagrama de organización de la unidad II 79

Organización de los aprendizajes 79

Tema n.° 1: Hipótesis y tipos de pruebas de hipótesis 80

1. Hipótesis 80
1.1 Prueba de hipótesis 80
1.2 Componente de una prueba de hipótesis 80
1.2.1 Hipótesis nula 80
1.2.2 Hipótesis alternativa 81
1.3 Estadístico de prueba 81
1.4 Región crítica, nivel de significancia, valor crítico y valor P 82
1.5 Tipos de errores 84
1.6 Potencia de una prueba de hipótesis 85
1.7 Tipos de prueba de hipótesis 85
1.7.1 Pruebas de hipótesis bilaterales 85
1.7.2 Pruebas de hipótesis unilaterales 86

Actividad n.° 7 90

Tema n.° 2: Métodos para realizar pruebas de hipótesis 92

1. Método del valor P 92


2. Método tradicional 94
3. Método de intervalos de confianza 95

Tema n.° 3: Prueba de hipótesis para una muestra 97

1. Prueba de hipótesis sobre una proporción poblacional p 97


2. Prueba de hipótesis respecto a la media, σ conocida 100
3. Prueba de hipótesis respecto a la media, σ desconocida 104
4. Prueba de hipótesis respecto de una varianza 108

Lectura seleccionada n.° 3 114

Actividad n.° 8 114

Actividad n.° 9 114


Tema n.° 4: Prueba de hipótesis para dos muestras 118

1. Prueba de hipótesis sobre dos proporciones poblacionales p 118


2. Prueba de hipótesis respecto a dos medias independientes, σ1 y σ2
conocidas 122
3. Prueba de hipótesis respecto a dos medias independientes, σ1 y σ2
desconocidas 125
4. Prueba de hipótesis respecto a dos varianzas 131

Lectura seleccionada n.° 4 136

Actividad n.° 10 136

Actividad n.° 11 136

Tema n.° 5: Pruebas de bondad, tablas de contingencias 139

1. Prueba de bondad 139

Tema n.° 6: Pruebas de independencia y homogeneidad 144

1. Prueba de independencia 144


2. Prueba de homogeneidad 146

Actividad n.° 12 148

Glosario de la Unidad II 151

Bibliografía de la Unidad II 153

Autoevaluación n.° 2 154

U - III ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL Y SERIES DE


TIEMPO 155

Diagrama de organización de la unidad III 155

Organización de los aprendizajes 155

Tema n.° 1: Análisis de correlación 156

1. Análisis de correlación 156


1.1 Propiedades 157
1.2 Prueba de hipótesis de correlación 157
1.3 Estadístico de prueba: t de Student 158

Actividad n.° 13 161

Tema n.° 2: Construcción del modelo lineal de regresión 163

1. Ecuación de regresión 163


2. Intervalo de predicción para una Y individual 166

Actividad n.° 14 169

Tema n.° 3: Regresión múltiple. Análisis de multicolinealidad 170

1. Regresión múltiple 170


2. Coeficiente múltiple de determinación ajustado 171

Actividad n.° 15 174

Tema n.° 4: Validación de modelos 176

1. Modelo matemático 176


2. Reglas básicas para la creación de un buen modelo matemático 177

Actividad n.° 16 180

Tema n.° 5: Modelos de series de tiempo 182

1. Series de tiempo 182


2. Componentes de las series de tiempo 183
2.1 La tendencia (T) 183
2.2 Las fluctuaciones cíclicas (C) 184
2.3 Las variaciones estacionales (E) 184
2.4 Movimientos irregulares (I) 184
3. Modelos de series de tiempo 184
3.1 Modelo aditivo 184
3.2 Modelo multiplicativo 185
4. Análisis de tendencias 185
4.1 Tendencia lineal 186
4.2 Tendencia no lineal 186
5. Métodos de suavizamiento de la serie 186
5.1 Promedio móvil 186
5.2 Promedios móviles ponderados 189
5.3 Suavizamiento exponencial 189

Actividad n.° 17 191


Lectura seleccionada n.° 5 194

Actividad n.° 18 194

Glosario de la Unidad III 195

Bibliografía de la Unidad III 197

Autoevaluación n.° 3 198

U - IV DISEÑOS EXPERIMENTALES Y CONTROL ESTADÍSTICO DE


PROCESOS 201

Diagrama de organización de la unidad IV 201

Organización de los aprendizajes 201

Tema n.° 1: Diseño de experimentos. Definiciones y principios básicos 202

1. Diseños experimentales 203


1.1 Definición 203
1.2 Tipos de diseños 203
1.3 Objetivo de un diseño de experimentos 204
1.4 Diseño experimental completamente aleatorio 205
1.4.1 Ventajas de los diseños completamente aleatorios 205
1.4.2 Hipótesis de un diseño completamente al azar 206

Actividad n.° 19 207

Tema n.° 2: Prueba para la diferencia de medias (ANOVA) 208

1. Análisis de varianza de un factor (o en una dirección) 209

Actividad n.° 20 213

Tema n.° 3: Experimento factorial AxB (ANOVA en dos direcciones) 215

Actividad n.° 21 220

Tema n.° 4: Gráficos de control para la variación y la media 222

1. Datos de proceso 222


2. Gráfica de rachas 222
3. Interpretación de una gráfica de rachas 222
4. Fuentes de variación 226
4.1 Variación aleatoria 226
4.2 Variación asignable 227
4.3 Gráfica R 227

Actividad n.° 22 229

Tema n.° 5: Gráficas de control para atributos 230

1. Gráfica de control de p 230


2. Diagrama de c con barra 232

Actividad n.° 23 234

Lectura seleccionada n.° 6 234

Actividad n.° 24 234

Glosario de la Unidad IV 235

Bibliografía de la Unidad IV 236

Autoevaluación n.° 4 237

Anexos 239
INTRODUCCIÓN

S
egún el Diccionario de la lengua definiciones, características y ejemplos que
española, de la Real Academia le permitan resolver dos tipos de situaciones
Española, “inferir” significa “sacar una que se generan en una investigación: la
consecuencia o deducir algo de otra estimación y el contraste de hipótesis, que
cosa”. El principal objetivo de la Estadística serán desarrollados en las unidades I y II,
consiste en poder decir algo con respecto a mostrando los diversos métodos estadísticos
un gran conjunto de personas, mediciones más útiles y viables aplicados a situaciones del
u otros entes (población) con base en las campo profesional. Además, en la Unidad III
observaciones hechas sobre solo un parte se desarrollarán dos técnicas estadísticas de
(muestra) de dicho gran conjunto. gran importancia: análisis de regresión y de
correlación enfocados en algunos campos
La capacidad para “decir algo” sobre de aplicación. Finalmente, en la Unidad IV
poblaciones con base en muestras se se verán diseños experimentales y controles
apoya en el supuesto según algún modelo estadísticos de procesos de aplicación de
de probabilidad que permite explicar la estadística para analizar datos, así como
las características del fenómeno en estudiar y vigilar la habilidad y desempeño
observación. Al conjunto de procedimientos en un proceso. Esto, organizado a través de
estadísticos en los que interviene la un diagrama que muestra la frecuencia con
aplicación de modelos de probabilidades que ocurren distintos valores o mediciones
y mediante los cuales se realiza alguna de resultados de los procesos.
afirmación sobre poblaciones con base en
la información producida por muestras se La estadística está incluida como una
le llama Inferencia Estadística o Estadística materia en muchos planes de estudio
Inferencial. en diversas profesiones y forma parte de
especializaciones y posgrados en distintas
El presente manual autoformativo de disciplinas. Es, de hecho, casi imposible
Estadística Aplicada está diseñado para que un profesional no haya recibido en
que el estudiante pueda adquirir los formación al menos un curso de estadística,
fundamentos necesarios para realizar los lo cual relieva la importancia de esta
procesos relacionados con la inferencia y asignatura, porque nos provee de métodos
análisis de poblaciones sobre la base de y técnicas útiles para nuestro quehacer
la información recogida por las muestras profesional.
respectivas. En este manual encontrará las

Los autores
12
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

ORGANIZACIÓN DE LA ASIGNATURA

Resultado de aprendizaje de la asignatura


Al término de la asignatura, el estudiante será capaz de interpretar data aplicando métodos y técnicas
de la estadística inferencial y de pronóstico para la toma de decisiones.

Unidades didácticas
UNIDAD I UNIDAD II UNIDAD III UNIDAD IV
Análisis de correlación y Diseños experimentales
Prueba de hipótesis y pruebas
Estimación de parámetros regresión lineal y series de y control estadístico de
no paramétricas
tiempo procesos

Resultado de aprendizaje Resultado de aprendizaje Resultado de aprendizaje Resultado de aprendizaje


Al finalizar la unidad, el Al finalizar la unidad, el Al finalizar la unidad, el Al finalizar la unidad, el
estudiante será capaz de estudiante será capaz de estudiante será capaz de, estudiante será capaz de
estimar los parámetros realizar pruebas de hipótesis interpretar pronósticos interpretar los resultados
poblacionales con datos y pruebas no paramétricas utilizando el análisis de del diseño experimental y
provenientes de una o dos para una y dos poblaciones correlación, regresión y de control estadístico de
poblaciones. a partir de situaciones modelos de series de tiempo. procesos, mediante pruebas
estadísticas reales. de comparación y de dos
factores.

Tiempo mínimo de estudio


UNIDAD I UNIDAD II UNIDAD III UNIDAD IV
Semana 1 y 2 Semana 3 y 4 Semana 5 y 6 Semana 7 y 8

24 horas 24 horas 24 horas 24 horas

13
14
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

UNIDAD I
ESTIMACIÓN DE PARÁMETROS
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I

CONTENIDOS EJEMPLOS ACTIVIDADES

AUTO EVALUACIÓN BIBLIOGRAFÍA

ORGANIZACIÓN DE LOS APRENDIZAJES


RESULTADO DE APRENDIZAJE: Al finalizar la unidad, el estudiante será capaz de estimar los parámetros
poblacionales con datos provenientes de una o dos poblaciones.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema n.° 1: Muestreos ✓ Identifica las características del ✓ Valora la importan-
1. Definiciones básicas muestreo cia de muestreo y
2. Muestreo ✓ Distingue los métodos de mues- de la estimación
3. Tipos de muestreo treo. de parámetros e
3.1. Muestreos probabilísticos ✓ Identifica las distribuciones interpreta correcta-
3.2. Muestreos no probabilísticos muestrales. mente los resultados
4. Errores de muestreo ✓ Identifica valores críticos. para una buena
✓ Identifica y discrimina los diver- toma de decisiones.
Tema n.° 2: Distribuciones muestrales sos casos de intervalos de con-
1. Distribuciones muestrales de proporciones fianza para un parámetro
2. Distribuciones de medias - teorema de límite ✓ Calcula intervalos de confianza
3. Distribución chi-cuadrada para un parámetro.
4. Distribución t Student ✓ Identifica y discrimina los diver-
sos casos de intervalos de con-
Lectura seleccionada n.° 1: fianza para dos parámetros.
“¿Cómo identificamos límites de seguridad para los pasaje- ✓ Calcula intervalos de confianza
ros?” (Triola, 2009) para dos parámetros.

Tema n.° 3: Estimadores Actividad n.° 1


1. Estimador puntual
2. Propiedades de los estimadores Actividad n.° 2
2.1. Estimadores insesgados Los estudiantes participan en el
2.2. Varianza de errores cuadráticos medios de un estima- foro de discusión sobre la lectura
dor puntual “¿Cómo identificamos límites de
3. Método de máxima verosimilitud seguridad para los pasajeros?”.

Tema n.°4: Intervalo de confianza para un parámetro Actividad n.° 3


1. Intervalo de confianza Resuelve los ejercicios propuestos
2. Intervalo de confianza para una porción de una población
3. Intervalo de confianza para una media de población Actividad n.° 4
3.1. Intervalo de confianza para una media de población Resuelve los ejercicios propuestos
con varianza conocida.
3.2. Intervalo de confianza para una media de población Actividad n.° 5
con varianza desconocida – t student Los estudiantes participan en el
3.3. Intervalo de confianza para varianza conocida pobla- foro de discusión sobre la lectura
cional - chi cuadrada “¿Funciona la terapia de contac-
to?”.
Tema n.° 5: Intervalo de confianza para dos parámetros
1. Intervalo de confianza para una porción de una población Actividad n.° 6
2. Intervalo de confianza para una media de población Resuelve los ejercicios propuestos

Lectura seleccionada n.° 2: Producto académico n. °1


“¿Funciona la terapia de contacto?” (Triola, 2009).

Autoevaluación n.° 1

15
Muestreo
Tema n.° 1

El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de


estudiarlos y poder caracterizar el total de la población. Imaginemos que queremos saber algo de un
universo o población; por ejemplo, qué porcentaje de los habitantes de Perú fuman habitualmente.
Una de las formas de obtener ese dato sería contactarnos con todos los habitantes de Perú (31 151 643
habitantes) y preguntarles si fuman o no. La otra forma sería seleccionar un subconjunto de personas
(por ejemplo, 1500 personas), preguntarles si fuman, y usar esta información como una aproximación
de la información que se busca. Bueno, este grupo de 1500 personas que me permiten conocer mejor
cómo se comporta el total de peruanos frente al consumo de cigarros, es una muestra, y la forma en
que se selecciona es el muestreo.

Para poder entender y desarrollar la técnica del muestreo, debemos conocer algunas definiciones
básicas que nos permitan comprender la magnitud del tema por desarrollar.

1. Definiciones básicas

1.1. Datos

Son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas).

1.2. Unidad de análisis

También llamada elemento de la población, es aquella unidad indivisible de la que se obtiene el


dato estadístico.

1.3. Estadística

Es un conjunto de métodos para plantear estudios y experimentos, obtener datos y luego organi-
zar, resumir, presentar, analizar interpretar y llegar a conclusiones basadas en los datos.

1.4. Población

Es el conjunto completo de todos los elementos (puntuaciones, personas, animales, medidas, et-
cétera) que se van a estudiar. El conjunto es completo porque incluye a todos los sujetos que se
estudiarán. Cuando el número de elementos que conforman la población es limitado, se dice que
la población es finita; en cambio, cuando el número de elementos de una población es ilimitado
o bien muy grande para considerarlo como tal, se tiene una población infinita.

1.5. Muestra

Es un subconjunto de miembros seleccionados de una población. Para que una muestra sea re-
presentativa, y por lo tanto útil, debe reflejar las similitudes y diferencias encontradas en la pobla-
ción, ejemplificar las características de la misma.

1.6. Parámetro

Es una medición numérica que describe algunas características de una población. También se le
denomina estadísticos muestrales. Se denota con las letras mayúsculas griegas, como, por ejem-
plo, Media poblacional: µ ; Desviación estándar: σ ; Varianza: σ .
2

16
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

1.7. Estadístico

Es una medición numérica que describe algunas características de una muestra. Se denota con
las letras minúsculas latinas, como, por ejemplo, Media aritmética: X ; Desviación estándar: S ; Va-
2
rianza: S .

2. Tipos de datos

™ Datos cualitativos:

Datos categóricos o de atributos; se dividen en diferentes categorías que se distinguen por


algunas características no numéricas.

™ Datos cuantitativos:

Consiste en números que representan conteos o mediciones. Los datos cuantitativos se des-
criben con mayor detalle si se distinguen entre dos tipos: discretos (resultan cuando el número
de los valores posibles es un número finito o un número que “puede contarse”, es decir, se
representan con valores posibles: 0, 1, 2, 3, …) y continuos (resultan de un infinito de posibles
valores que corresponden a alguna escala continua que cubre un rango de valores sin hue-
cos, interrupciones o saltos).

3. Diseño de experimentos

De todas las definiciones, el concepto de una muestra aleatoria simple es esencialmente importante
por el papel que tiene en este manual y en la estadística en general. Es así, que los métodos estadísti-
cos se rigen por los datos. Por lo regular, obtenemos datos de dos fuentes distintas: los estudios obser-
vacionales y experimentales.

3.1. Definiciones

En un espacio observacional, vemos y medimos características específicas, pero no intentamos


modificar a los sujetos que estamos estudiando.

En un experimento aplicamos algunos tratamientos y luego procedemos a observar sus efectos


sobre los sujetos (en los experimentos, a los sujetos se les denominan unidades experimentales).

17
Estudios
estadísticos

Estudio observacional: Experimento:


Observa y mide pero ¿Sólo Aplica algún
no modifica. hace observaciones tratamiento.
o modifico de
alguna forma a los
sujetos?
Tiempo Tiempo
pasado futuro
¿Cuándo
Elementos clave en el diseño de
se hacen las
observaciones? experimentos:
1. Controlar el efecto de las
variables a través de estudio
Un momento a ciegas, bloques, diseño
Estudio en el tiempo experimental completamente
retrospectivo (a aleatorio, diseño experimental
control de casa): rigurosamente controlado.
Va al pasado a 2. Réplica.
reunir datos de Estudio 3. Aleatoriedad.
algún periodo transversal:
anterior. Los datos
se miden en
una punto del Estudio prospectivo (o
tiempo. longitudinal o cohorte:
Va adelante en el
tiempo y observa a
grupos que comparten
factores comunes,
como fumadores y no
fumadores.

Figura 1. Tipos de estudios estadísticos. Tomado de Estadística, por Mario Triola, 2009, p. 22.

En un estudio transversal, los datos se observan, miden y reúnen en un solo momento.

En un estudio retrospectivo (o de control de casos), los datos se toman del pasado (mediante el
examen de registros, entrevistas y otros).

En un estudio prospectivo (o longitudinal o de cohorte), los datos se reunirán en el futuro y se to-


man de grupos (llamados cohortes) que comparten factores comunes (Triola, 2009, p. 22).

4. Muestreo

Cuando no es posible o conveniente realizar un censo (analizar a todos los elementos con la finalidad
de hacer inferencias sobre la muestra de una población), se selecciona a una muestra, es decir, a lo
que se entiende como una parte representativa de la población.

18
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

El muestreo es, por lo tanto, una herramienta de la investigación científica, cuya función básica es
determinar qué parte de una población debe examinarse, con la finalidad de hacer inferencias sobre
ella. La muestra debe lograr una representación adecuada de la población, en la que se reproduz-
can de mejor manera los rasgos esenciales que son importantes para la investigación.

Los errores más comunes que se pueden cometer son:

™ Hacer conclusiones muy generales a partir de la observación de solo una parte de la pobla-
ción; se denomina error de muestreo.

™ Hacer conclusiones sobre una población mucho más grande que la de la muestra original; se
denomina error de inferencia.

4.1. Tipos de muestreo

Existen diferentes criterios de clasificación de los tipos de muestreo, aunque en general se dividen
en dos grandes grupos: método de muestreo probabilístico y de muestreo no probabilístico.

4.1.1. Muestreo probabilístico

Los métodos de muestreo probabilístico son aquellos que se basan en el principio de la equipro-
babilidad. Es decir, en los que todos los individuos tienen la misma probabilidad de ser seleccio-
nados para formar parte de una muestra (muestra aleatoria), y, por consiguiente, todas las posi-
bles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas (muestra aleatoria
simple). Esto implica seleccionar miembros de una población de forma que cada miembro tenga
una posibilidad conocida de ser elegido (muestra probabilística). Solo estos métodos de muestreos
probabilísticos nos aseguran la representatividad de la muestra extraída y son, por lo tanto, más
recomendables. A continuación, mencionaremos los métodos probabilísticos más importantes.

4.1.1.1. Muestreo aleatorio simple

Las características que definen el muestreo aleatorio simple son dos:

™ Cada miembro de la población tiene la misma probabilidad de ser seleccionado.

™ En la selección de los miembros de la muestra, cada uno de los elementos de la población


son independientes de los otros.

4.1.1.2. Muestreo sistemático

En este método, se elige un punto de partida y luego se selecciona cada k-enésimo elemento de
la población.

4.1.1.3. Muestreo por conglomerados o racimos

En este tipo de muestreo primero se divide el área de la población en secciones (o conglome-


rados), y luego se elige al azar algunos de estos conglomerados; después elegimos a todos los
miembros de los conglomerados seleccionados.

19
4.1.1.4. Muestreo estratificado

En este método, se subdivide a la población en al menos dos subgrupos (o estratos) diferentes, de


manera que los sujetos que pertenecen al mismo subgrupo compartan las mismas características
(como género o edad); luego obtenemos una muestra de cada subgrupo (o estrato).

4.1.1.5. Muestreo de aceptación

Este muestreo es una aplicación del muestreo aleatorio en el control de calidad en la industria. Se
da en cualquier relación cliente-proveedor, ya que en diferentes empresas o en el interior de ellas,
se requiere este tipo de medidas.

4.1.2. Muestreo no probabilístico

La manera más fácil de obtener una muestra es, simplemente, elegirla, sin ningún mecanismo
aleatorio. Su utilización se justifica por la comodidad y economía, pero tiene el inconveniente de
que no hay una teoría que le permita tener intervalos de confianza. Mencionemos los casos más
comunes.

4.1.2.1. Muestreo por cuotas

En este método se divide la población en dos grupos o cuotas de acuerdo con ciertas caracte-
rísticas o variables. Después, se determinan las proporciones en cada grupo de acuerdo con la
representación que tiene en la población. Pueden hacerse combinaciones de las cuotas (sexo y
estado civil; profesión e ingreso, etc.). En la selección de los casos interviene el criterio o juicio del
investigador.

4.1.2.2. Muestreo autoselectivo

Cuando la gente participa en una exploración y responde voluntariamente a una edición impresa
de un periódico o de una revista, o hace una llamada telefónica a un medio de comunicación
como la radio, la televisión o internet, conforman lo que se llama muestra autoselectiva. La gente
que toma el cuidado de responder puede no ser representativa de la población.

4.1.2.3. Muestreo de juicio o selección intencional

Cuando se tiene una población pequeña pero heterogénea, el investigador inspecciona la tota-
lidad de esta y selecciona una muestra que considera representativa, es decir, unidades que a su
parecer se acercan al promedio de la población.

20
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Muestreo aleatorio:
Cada miembro de la población
tiene la misma probabilidad de
resultar seleccionado. /1 a me-
nudo se usan computadoras
para generar números telefóni-
cos aleatorios.

Muestreo aleatorio simple:


Se selecciona una muestra de
n sujetos, de manera que cada
posible muestra del mismo ta-
maño n tenga la misma posibili-
dad de ser elegida.

Muestreo sistemático:
Se selecciona un punto de par-
tida, después se elige cada
k-ésimo (por ejemplo, cada
quincuagésimo) elemento de la
población.

¡Oye!
¿Crees en
la pena de
muerte?
Muestreo de conveniencia:
Se utilizan resultados que son
fáciles de obtener.

Mujeres Hombres

Muestreo estratificado:
Se subdivide a la población en al
menos dos subgrupos (o estra-
tos diferentes), de manera que /
os sujetos del mismo subgrupo
compartan las mismas carac-
terísticas (como el género o la
categoría de edad), y después
se obtiene una muestra de cada
subgrupo.

Muestreo por conglomera-


dos:
Se divide el área de la población
en secciones (o conglomera-
dos), luego se eligen al azar al-
gunos de estos conglomerados,
y después se elige a todos los
Entrevistas con todos los votantes miembros de /os conglomera-
en los distritos sombreados. dos seleccionados.

Figura 2. Tipos de muestreo. Tomado de Estadística, por Mario Triola, 2009, p. 28.

21
Ejemplo n.° 1: En la Universidad Nacional Mayor de San Marcos, 120 alumnos obtendrán el bachi-
ller. Se quiere extraer una muestra de 30 alumnos. Explique cómo se obtiene el muestreo aleatorio
simple y el muestreo aleatorio sistemático.

Solución para el muestreo aleatorio simple:

1.° Se numeran los alumnos del 1 al 120.


2.° Se sortean 30 números de entre los 120.
3.° La muestra estará formada por los 30 alumnos a los que les correspondan los números obte-
nidos.

Solución para el muestreo aleatorio sistemático:

1.° Se numeran los alumnos del 1 al 120.


2.° Se calcula el intervalo constante entre cada individuo

N ( población ) 120
⇒ = = 4
n (muetra) 30

3.° Seleccione un número de 1 al 4. Suponga que sale 3. El primer alumno seleccionado para la
muestra será el número 3, luego los siguientes alumnos se obtendrían sumando 3, hasta llegar
a tener los 30 alumnos.

4.° Finalmente, los alumnos seleccionados para la muestra serían los que les corresponden los
números 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78,
81, 84, 87, 90.

Ejemplo n.° 2: Los alumnos del 8° semestre de Psicología quieren estudiar el % de la población que
fuma en Perú y deciden que la edad puede ser un buen criterio para estratificar (es decir, piensan
que existen diferencias importantes en el hábito de fumar dependiendo de la edad). Por lo tanto,
definen 3 estratos: menores de 20 años, de 20 a 44 años y mayores de 44 años. Teniendo en cuenta
datos oficiales de la Organización Mundial de la Salud, determine el tamaño de cada estrato para
una muestra de unas 1 000 personas teniendo en cuenta un muestreo estratificado proporcionado
y un muestreo estratificado uniforme.

Datos oficiales de la Organización Mundial de la Salud:

a) Estrato 1: población peruana menor de 19 años: 42,4 millones (41,0%)


b) Estrato 2: población peruana de 20 a 44 años: 37,6 millones (36,3%)
c) Estrato 3: población peruana mayor de 44 años: 23,5 millones (22,7%)

Solución utilizando el muestreo estratificado proporcionado:

En este caso, la muestra deberá tener estratos que guarden las mismas proporciones observadas
en la población. Para una muestra de 1000 personas, los estratos deben tener un tamaño como
se indica en el cuadro.

Estratos Población Proporción Muestra


1 (menos de 19 años) 42,4 M 41,0% 410
2 (de 20 a 44 años) 37,6 M 36,3% 363
3 (mayores de 44 años) 23,5 M 22,7% 227

22
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Solución utilizando el muestreo estratificado uniforme:

En este caso, la muestra deberá tener estratos del mismo tamaño, sin importar el peso que tienen
estos estratos en la población. Para una muestra de 1000 personas, los estratos deben tener un
tamaño como se indica en el cuadro.

Estratos Población Proporción Muestra


1 (menos de 19 años) 42,4 M 41,0% 334
2 (de 20 a 44 años) 37,6 M 36,3% 333
3 (mayores de 44 años) 23,5 M 22,7% 333

4.2. Errores de muestreo

No importa lo bien que usted planee y ejecute el proceso de recolección de muestras, es proba-
ble que ocurra un error en los resultados.

Un error de muestreo es la diferencia entre el resultado de una muestra y el verdadero resultado


de la población. Este error es, en consecuencia, de las fluctuaciones por el azar.

Un error que no es de muestreo sucede cuando los datos muestrales se obtienen, registran o ana-
lizan de forma incorrecta (como cuando se selecciona una muestra sesgada, cuando se usa un
instrumento de medición defectuoso o cuando se copian los datos de forma incorrecta).

Ejemplo n.° 3: Una empresa constructora adquiere cierta cantidad de bolsas de cemento Portland
Blanco para terminar los acabados de una importante obra civil, de la cual se tomó una muestra
de 200 bolsas y se encontró que 9 de ellas no cumplían con las especificaciones técnicas. Con una
confianza del 95%, calcule el error de la muestra.

Solución: Del enunciado se tiene que n = 200 y (1 - α) = 0,95 ⇒ Z = 1,96

∧ 9 ∧
P
Luego calculamos:= = 0, 045  1 − 0, 45 =
q= 0, 955
200
∧ ∧
pq
Para hallar el error muestral aplicamos: E = z
n

0, 045 × 0,955
E 1,96 ×
=
 200
E = 0, 0287

 El error muestral es del 2,87%.

23
Actividad n.° 1
Instrucción: De las siguientes preguntas, conteste y fundamente su respuesta.

1. ¿Cuál es la diferencia entre una muestra aleatoria y una muestra aleatoria simple?

2. ¿Cuál es la diferencia entre un estudio observacional y un experimento?

3. Determine si las siguientes descripciones corresponden a un estudio observable o experimen-


tal.

a) Ha surgido una gran controversia en torno a estudios de pacientes con sífilis que no han
recibido un tratamiento que los habría curado. Su salud fue vigilada por años después de
que se descubrió que padecían esa enfermedad.

b) A los pasajeros de un barco de crucero se les dan brazaletes magnéticos, que aceptan
usar en un intento por disminuir o eliminar los efectos del mareo.

4. Identifique qué tipo de muestreo les corresponde a las siguientes situaciones:

a) Un investigador de la Universidad Johns Hopkins obtiene datos sobre los efectos del alco-
hol al conducir, examinando informes de accidentes automovilísticos de los cinco años.

b) Un economista reúne datos de ingreso al seleccionar y entrevistar actualmente a un gru-


po de sujetos; después se remonta al pasado para ver si tuvieron la sabiduría de tomar un
curso de estadísticas entre 1980 y 2005.

c) En épocas de elecciones presidenciales, los medios noticiosos organizan una encuesta de


salida en la que se eligen estaciones de sondeo al azar y se encuesta a todos los votantes
conforme abandonen el lugar.

d) Un experto en marketing de MTV está planeando una encuesta en la que se elegirá a 500
personas al azar de cada uno de los siguientes grupos de edad: 10-19,20-29 y así sucesiva-
mente.

e) El autor encuestó a todos sus estudiantes para obtener datos muestrales que consistían en
el número de tarjetas de crédito que posee cada uno.

f) La Universidad de Newport, motivada por un estudiante que murió en estado de ebriedad,


realizó una investigación de estudiantes que beben seleccionando al azar 10 diferentes
salones de clase y entrevistando a todos los estudiantes en cada uno de esos grupos.

24
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Distribuciones muestrales
Tema n.° 2

La inferencia estadística trata básicamente con generalizaciones y predicciones. Por ejemplo, pode-
mos afirmar con base en opiniones de varias personas entrevistadas en el simulacro de votación GFK
- Segunda vuelta realizado el 25 de mayo del 2016, que en las próximas elecciones presidenciales en
Perú el 45,4% de electores votarán por la candidata Keiko Fujimori, y por PPK el 41,5%; blanco/vicia-
do,13% (*). En este caso, tratamos con una muestra aleatoria de opiniones de una población finita
muy grande.

Podemos afirmar que el costo promedio para construir una piscina está entre 4 a 4,5 millones de soles,
con base en las estimaciones de tres contratistas seleccionados al azar de 30 que construyen piscinas
residenciales actualmente. La población que será muestreada aquí es finita pero muy pequeña.

Por otro lado, un empresario de cierta compañía calcula la media de 40 bebidas y obtiene 236 cc,
y con base en este valor decide que la maquina aún sirve bebidas con un contenido promedio de
µ = 240 CC. Las 40 bebidas representan una muestra de la población infinita de posibles bebidas que
esta máquina servirá. En cada uno de estos ejemplos, calculamos una estadística a partir de una
muestra seleccionada de la población, y de estas estadísticas hacemos varias afirmaciones con res-
pecto a los valores de los parámetros de la población que pueden ser ciertos o no.

El funcionario de la compañía toma la decisión de que la máquina despachadora sirve bebidas con
un contenido promedio de 240 cc, aunque la media de la muestra fue 236 cc, porque sabe de la
teoría de muestreo que es probable que ocurra tal valor de la muestra. De hecho, si realizamos prue-
bas similares, digamos cada hora, esperaríamos que los valores del promedio estén por arriba y por
debajo de µ = 240 CC. Solamente cuando el promedio es considerablemente distinto de 240 cc,
el funcionario de la compañía iniciaría una acción para ajustar la máquina. Todo lo citado permite
abordar un tema de mucha importancia para la toma de decisiones sobre una población en estudio,
con base en la información contenida en una muestra aleatoria de esta. Se trata del estudio de una
distribución de probabilidades, que desarrollaremos en las siguientes secciones.

1. Definición de distribuciones muestrales

La media muestral es una estadística; esto es, una variable aleatoria que depende de los resultados
obtenidos de cada muestra particular. Dado que una estadística es una variable aleatoria, entonces
tiene una distribución de probabilidades. La distribución de probabilidades de una estadística recibe
el nombre de distribución muestral.

Una distribución muestral de una estadística es la distribución de todos los valores de esta estadística
cuando se obtienen todas las muestras posibles del mismo tamaño de una misma población. En es-
pecífico, analizaremos la distribución muestral de la proporción y la distribución muestral de la media.

La distribución muestral de una estadística (como una porción muestral o una media muestral) es la
distribución de todos los valores del estadístico cuando se obtienen todas las muestras posibles del mis-
mo tamaño n de la misma población. (La distribución muestral de una estadística se representa como
la distribución de probabilidades en el formato de tabla, histograma de probabilidad o fórmula).

1.1. Distribuciones muestrales de proporciones

La distribución muestral de la proporción es la distribución de probabilidades de porciones mues-


trales, donde todas las muestras tienen el mismo tamaño muestral n y provienen de la misma po-
blación.

25
Ejemplo n.° 1: Distribución muestral de la proporción de niñas en dos nacimientos.

Solución:

Se tiene el siguiente espacio muestral: Ω = {hh, hm, mh, mm}.


De donde las probabilidades son:
hh La probabilidad de 0 niñas es de 0,25 (es decir, ¼ es igual a 0,25)
hm  La probabilidad de 1 niño es de 0,50 (es decir, 2/4 es igual a 0,50)
mh La probabilidad de 1 niña es de 0,50 (es decir, 2/4 es igual a 0,50)
mm La probabilidad de 2 niñas es de 0,25 (es decir, ¼ es igual a 0,25)

Número de

niñas en 2 Probabilidad

nacimientos

X P(x)
0 0.25
1 0.50
2 0.25

Distribución muestral de la proporción


de niñas en 2 nacimientos

Histograma de
Tabla
proporcionalidad
Proporción de 0.7
0.6
niñas en 2 Probabilidad
Proporcionalidad

0.5
nacimientos 0.4 0.50
0.3
0.2
0.25 0.25
0.1
X P(x)
0
0 0,25 1.00 2.0 3.00
0,5 0,50 P(X) 0 0,5 1
1 0,25 Proporción de las niñas en dos
nacimientos

Figura 3. Ejemplo de una distribución muestral de proporciones. Tomada de Estadística por Triola,
2009.

26
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 2: En una fábrica de pasteles se detectó que el 3% de su producción habitual habían
salido defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica. Calcule la probabi-
lidad de que encuentre más del 5% de pasteles defectuosos.

Solución: Como estamos tomando una muestra de tamaño n = 500, de una población donde la
proporción de pasteles defectuosos es de p = 0,03, podemos usar la distribución muestral de pro-
porciones, que se ajusta a una normal.

 0,03(1 − 0,03) 
 p(1 − p)  N 0,03, 
N  p,  Remplazando valores se tiene que:  500
n  

N ( 0,03,0,0076 )

 0, 05 − 0, 03 
P( p > 0,5) = PZ >
=
 0, 0076 
P( p > 0, 05) =
=P ( Z > 2, 63)
Resolviendo: 1 − P ( Z > 2, 63)
P( p > 0, 05) =
P( p > 0, 05) =
1 − 0,9957
Tabla de la distribución normal N(0,1) para probabilidad acumulada inferior
µ = Media
P( p > 0, 05) =
0, 0043
− z2
1 z0

2π ∫−∞tipificado la variable y se ha hecho uso de la


σ = Desviación
Recuerde que paratípicaobtener
P ( Z P(z z0) =
> 2,≤63 ) , hemos e 2 dz
tabla de la N (0,1). x − µ
Tipificación: z0 = 0 z0
σ
z0 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 z0
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,0
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,1
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,2
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,3
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,4
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,5
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,6
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,7
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,8
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 0,9
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,0
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,1
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,2
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,3
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,4
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,5
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,6
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,7
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,8
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 1,9
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,0
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,1
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,2
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,3
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,4
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,5
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,6
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,7
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,8
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 2,9
Figura 4. Ejemplo
3,0 0,99865 0,99869de0,99874
ubicación en la0,99882
0,99878 tabla. 0,99886
Tomada0,99889
de Estadística por Triola,
0,99893 0,99896 2009 3,0
0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,1
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,2
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,3
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,4 27
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,5
La probabilidad de que encuentre más del 5% de pasteles defectuosos es de 0,43%.

Propiedades de la distribución de proporciones muestrales:

™ Las proporciones muestrales tienden a coincidir con el valor de la proporción poblacional, es


decir, todas las proporciones muestrales posibles tienen una media igual a la proporción po-
blacional.

™ En ciertas condiciones, la distribución de la proporción muestral puede aproximarse por medio


de una distribución normal.

1.2. Distribuciones muestrales de las medias

Considérese la determinación de la distribución de muestreo de la media muestral X .

Supóngase que se selecciona una muestra aleatoria de tamaño n de una población simple de

una población con una media µ y varianza σ2 .


X1 + X2 + ... + Xn
Sea la media muestral: X= , tiene una distribución normal con media
n
2 2 2 2
µ + µ + ... + µ =
σ + σ +
2 ... + σ σ
µx = =µ y varianza σ =
n n2
x
n
Si se muestra una población que tiene una distribución de probabilidad desconocida, la distribu-
ción de muestreo de la media muestral seguirá siendo aproximadamente normal con una media
2
µ y varianza σ /n , si el tamaño de la muestra n es grande. Este es uno de los teoremas más
útiles en estadística; se le conoce como el teorema del límite central.

El teorema del límite central

Si X1 ,X2 ,...,Xn es una muestra aleatoria de tamaño n tomada de una población (finita o infinita)
con media µ y varianza finita σ2 , y si X es la media muestral, entonces la forma límite de la

x−µ
distribución de: z=
σ/ n
Cuando n → ∞ , es la distribución normal estándar.
Aplicación del teorema del límite central en una población

Ejemplo n.° 3: Según el Minsa, en el último año el peso de los recién nacidos en el Hospital Materno
Infantil de Huancayo se ha distribuido según la ley de media μ = 3100 g y desviación típica σ = 150

28
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

g. ¿Cuál será la probabilidad de que la media de una muestra de 100 recién nacidos en dicho
hospital sea superior a 3130 g?

Solución: Del enunciado se tienen los siguientes datos:

μ = 3100 g σ = 150 g n =100

Para determinar la probabilidad pedida se tiene que calcular la media, la desviación típica de la
media muestral y la probabilidad pedida.

1.° Cálculo de la media y la desviación típica de la media muestral:


Población: N (μ, σ) ⇒ N (3100, 150)
Muestra:

⇒ La media muestral será: x = µ = 3 100

⇒La desviación típica:

∴ N ( 3 100,15 )

(
2.° Cálculo de la probabilidad pedida: P x > 3 130 )
Como la distribución muestral es una normal N (3100, 150)

x − 3 100
Tipificando: Z =
15
Resolviendo:

3130 − 3100 
( )
P x > 3130 =P  Z >
 15


P ( x > 3130 ) =P( Z > 2)

P ( x > 3130 ) =1 − P( Z ≤ 2)

P ( x > 3130 ) =1 − 0, 9772

P ( x > 3130 ) =0, 0228

La probabilidad de que la media de una muestra de 100 recién nacidos en el Hospital Materno
Infantil de Huancayo sea superior a 3130 gr es de 2,28%.

Ejemplo n.° 4: Sea la variable aleatoria X, tiene la distribución uniforme continua.

1 / 2, 4 ≤ x ≤ 6
f (x) = 
 0, en cualquier otro caso
Encuentre la distribución de la media muestral de una muestra aleatoria de tamaño n = 40.

29
( 6 − 4=
)
2
2 1
Solución: La media y la varianza de X son:=
µ 5 y σ=
12 3

El teorema del límite central indica que la distribución de X es aproximadamente normal con me-
σ2 1 1
dia µ =5 σ2x= = = . La siguiente figura presenta las distribuciones de X y X .
n 3 ( 40 )  120

4 5 6 X

1
σ2 =
x
120

Figura 5. Distribución de X y X . Tomada de Applied statistics and probability for engineers, por
Montgomery y Runger, 2013.

Definición de error estándar

Error estándar de una estadística es la desviación estándar de su distribución de muestras. Si el


error estándar involucra parámetros desconocidos cuyos valores pueden estimarse, la sustitución
de estas estimaciones en el error estándar da como resultado un error estándar estimado.

Este error estándar da alguna idea sobre la precisión de la estimación. Si la media muestral X se

utiliza como estimador puntual de la media de la población µ , el error estándar de X mide cuán
precisamente estima a µ.

2
Considere una distribución normal con una media µ y varianza σ . Ahora la distribución de X
σ
es normal con media µ y varianza σ2 / n , de modo que el error estándar de X es σX = .
n
Si no se sabe qué valor tiene σ pero sustituye la desviación estándar muestral S en la ecuación

S
anterior, entonces el error estándar estimado de X es σX =
n
30
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 5: El jefe de Recursos Humanos de la empresa minera Volcan elaboró la siguiente tabla
en la que se muestra la antigüedad en años en el trabajo de tres ingenieros de minas.

Ingenieros de minas Antigüedad (Años)


Carlos 6
Pedro 4
Manuel 2

Suponga, además, que se seleccionan muestras aleatorias de tamaño 2 sin reemplazo. Calcule el
error estándar o la desviación estándar de la distribución muestral.

Solución: Como las muestras son aleatorias de tamaño 2, entonces se puede construir la siguiente
tabla con todas las muestras posibles y sus respectivas medias muestrales:

Muestra Antigüedad (Años) Media muestral


Carlos, Pedro 6, 4 5
Carlos, Manuel 6, 2 4
Manuel, Pedro 2, 4 3

De la tabla adjunta se obtienen los siguientes datos:

2+4+6 5+4+3
La media poblacional: µ = = 4 La media de la distribución muestral: µ x = =4
3 3

de la población: σ
(6 − 4) 2 + (4 − 4) 2 + (2 − 4) 2
La desviación estándar
= = 1, 63
3

El error estándar o la desviación estándar de la distribución muestral:

(5 − 4) 2 + (4 − 4) 2 + (3 − 4) 2
=σx = 0,816
3
Definición de la aplicación del teorema del límite central en dos poblaciones independientes

Si se tienen dos poblaciones independientes con medias µ1 y µ2 , varianzas σ12 y σ22 y si X1 y

X2 son las medidas muestrales de dos muestras aleatorias independientes de tamaño n1 y n2 de

Z=
(
X1 − X2 − µ1 −µ 2 )
estas poblaciones; entonces la distribución de muestreo de es aproxi-
σ12 σ22
+
n1 n2
madamente normal estándar, si se aplican las condiciones del teorema del límite central. Si las dos
poblaciones, entonces la distribución de muestreo de Z es, de manera exacta, normal estándar.

31
Ejemplo n.° 6: La vida de un componente utilizado en la turbina de una aeronave es una varia-
ble aleatoria con media 5000 horas y desviación estándar de 40 horas. La distribución de la vida
eficaz es muy próxima a una distribución normal. El fabricante de la turbina introduce una mejora
en el proceso de fabricación de este componente, que aumenta el tiempo de vida útil promedio
a 5050 horas y disminuye la desviación estándar a 30 horas. Supóngase que se toma del proceso
“antiguo” una muestra aleatoria de n1 = 16 componentes, y una muestra aleatoria del proceso
“mejorado” de n2 = 25 componentes. ¿Cuál es la probabilidad de que la diferencia entre las

dos medias muestrales X1 − X2 sea menos que 25 horas? Supóngase que los procesos antiguos y
mejorados pueden considerarse como poblaciones independientes.

Solución: Del problema se extrae lo siguiente:

µ1 =5 000 horas µ 2 =5 050 horas


S1 = 40 horas S2 = 30 horas
n1 = 16 componentes y n2 = 25 componentes

(
P X2 − X1 ≥ 25 =
? )
Luego:

La distribución de X1 es normal con una media y desviación estándar siguiente µ1 =5000 horas ;
S1 40
σ=
1 = = 10 horas
n1 16

La distribución de X2 es normal con una media y desviación estándar siguiente: µ 2 =5000 horas ;
S2 30
σ=
2 = = 6 horas
n2 25

Donde la distribución de X2 − X1 es normal con:

Medias µ2 =
− µ1 5050 − 5000
= 50 horas

σ22 σ12
=( 6 ) + ( 10 ) = 136 horas2
2 2
Varianzas: = +
n2 n1
La siguiente figura contiene una gráfica de esta distribución de muestreo.

Entonces, la probabilidad de que X2 − X1 ≥ 25 corresponde a la parte sombreada de la distribu-


ción normal de esta figura.

0 25 50 75 100 x2 x1

Figura 6. Distribución de muestreo de X2 − X1 . Tomada de Applied statistics and probability for


engineers, por Montgomery y Runger, 2013

32
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

σ22 σ12
25 , µ 2 − µ1 = 50 horas y n + n =
De donde se tiene: X2 − X1 =
136 horas2
2 1

Reemplazando en: Z =
(
X1 − X2 − µ1 −µ 2 )
σ 2
σ 2
+
1 2
n1 n2

Se tiene: 25 − 50
Z= = −2,14
136
Donde la probabilidad es:

(
P X2 − X1 ≥ 25 )
= P ( Z ≥ −2,14
= ) 0,9838
Observación 1: Cuando se selecciona una muestra aleatoria simple de una población con media
µ y desviación estándar σ , es esencial conocer los siguientes principios:
™ Si n > 30; entonces las medias muéstrales tienen una distribución que se puede aproximar por

medio de una distribución normal, con una media µ y una desviación estándar σ / n . (Este
es el lineamiento que suele utilizarse, independientemente de la distribución de la población
original).

™ Si n ≤ 30 y la población original tiene una distribución normal, entonces las medias muestrales
tienen una distribución normal con una media µ y una desviación estándar σ / n.

™ Si n ≤ 30 , pero la población original no tiene una distribución normal, entonces no se aplican


los métodos probabilísticos

Observación 2: Considere el siguiente procedimiento para la aplicación del teorema del límite
central.

™ Cuando trabaje con un valor individual de una población distribuida normalmente, utilice los

métodos de distribuciones normales. Use: x−µ


z=
σ
™ Cuando trabaje con una media de alguna muestra (o grupo), asegúrese de utilizar el valor

x−µ
de σ / n para que la desviación estándar de las medias muestrales: Use: z =
σ/ n
1.3. Distribución chi-cuadrada

La distribución chi-cuadrada es una de las más útiles distribuciones de muestreo. Está definida en
términos de variables aleatorias normales.

33
Teorema de la distribución de la chi-cuadrada

Sean z1 ,z 2 ,...zK variables aleatorias distribuidas normal e independientemente, con la me-


2
dia µ =0 y varianza σ =1 .Entonces, la variable aleatoria x = z12 + z 22 + ... + zK2 tiene la función de
1
f (x) = x(
k /2)−1
.e − x/2
densidad de probabilidad k , para x>0 y se dice que sigue
2k /2 Γ  
 2
una distribución ji-cuadrada con K grados de libertad, lo que se abrevia como xk2 .

La media y la varianza de la distribución xk2 son µ =K y σ2 =2k .

f(x)

k=2

k=5

k = 10

0 5 10 15 20 25 x

Figura 7. Funciones de densidad de probabilidad de varias distribuciones . Tomada de x2


Applied statistics and probability for engineers, por Montgomery y Runger, 2013

La figura 7 presenta varias distribuciones chi-cuadrada. Estas distribuciones se dibujaron utilizan-


do el procedimiento de graficado del paquete Statgraphics. Nótese que la variable aleatoria
chi-cuadrada es no negativa, y que la distribución de la probabilidad tiene un sesgo hacia la de-
recha. Sin embargo, a medida que K aumenta, la distribución se vuelve más simétrica. Conforme
k → ∞ , la forma límite de la distribución Chi-cuadrada es la distribución normal.

34
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Los puntos críticos de la distribución xk2 están en la tabla A – 4 del anexo. Se define x2α,k como un

valor crítico de la variable aleatoria ji-cuadrada con k grados de libertad talque la probabilidad

x sea a mayor que este valor es α . Esto es, P ( X > x2α,k ) =



de que
∫ 2 f ( u ) du =
α
xα ,k

0 x2α ,k X

Figura 8. Punto crítico x2α ,k de la distribución x2


. Tomada de Applied statistics and probability
for engineers, por Montgomery y Runger, 2013

Esta probabilidad aparece como el área sombreada en la figura 8. Para ilustrar el empleo de la
Tabla III, nótese que las áreas α son los encabezados de las columnas, y que los grados de liber-
tad K aparecen en la columna izquierda. Por tanto, el valor de x2 con 10 grados de libertad que
tiene un área (probabilidad) de 0,05 a la derecha es x20.05,10 = 18,13 . A menudo este valor recibe
el nombre de punto crítico superior de 5% de la distribución ji-cuadrada con 10 grados de liber-
tad. Todo esto puede escribirse como una proposición de probabilidad, de la siguiente manera:

( )
P X > x20.05,10 =P ( X > 18,31) =0,05 .

Teorema de aditividad de la distribución de la chi-cuadrada

Sean Y1 , Y2 ,..., YP variables aleatorias chi-cuadrada independientes con k1 ,k 2 ,...,kP grados

de libertad, respectivamente. Entonces, la cantidad Y = Y1 + Y2 + ... + YP sigue una distribu-


p
ción ji-cuadrada con grados de libertad igual a k = ∑ ki .
i=1

Ejemplo n.° 7: La Dirección de Transportes de la Municipalidad de Lima está realizando un estudio


de los tiempos requeridos por un bus del Metropolitano para alcanzar uno de sus destinos; ha ob-
tenido los siguientes datos: forman una distribución normal con una desviación estándar σ =1 mi-
nuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza
muestral sea mayor que 2.

Solución: Del enunciado se tienen los siguientes datos:

n = 17 s2 = 2 σ = 1 r : Grado de libertad ⇒ r = n - 1 = 16

35
1.°) Se encontrará el valor de chi-cuadrada correspondiente a s2 = 2 como sigue:

2.°) El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad y se encuen-


tra que a este valor le corresponde un valor de (1 − α ) =
0, 99 , con el cual se obtiene un área a la
derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s2 > 2) .

TABLA DE LA DISTRIBUCIÓN CHI-CUADRADO

x
La tabla de áreas 1 – a y valores c = 12 – a, r
tales que P[ X < c ] = 1 – a, donde X tiene
x
distribución 2 con r grados de libertad. 1–a
a X
0 c

1–a
x
0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995 Valor de (1 - α)
1 0.0000 0.0002 0.0010 0.0039 0.0158 2.71 3.64 5.02 6.64 7.88
2 0.0100 0.0201 0.0506 0.101 0.211 4.61 5.99 7.38 9.21 10.60
3 0.072 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.35 12.84
4 0.207 0.297 0.484 0.711 1.064 7.78 9.49 11.14 13.28 14.86
5 0.412 0.554 0.831 1.145 1.61 9.24 11.07 12.83 15.09 16.75

6 0.676 0.872 1.24 1.64 2.20 10.65 12.59 14.45 16.81 18.55
7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.54 20.09 21.96
9 1.74 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19

11 2.60 3.05 3.82 4.58 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.35 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.69 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.09 30.58 32.80

16 5.14 5.81 6.91 7.96 9.31 23.54 23.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.27 7.01 8.23 9.39 10.87 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00

Figura 9. Ejemplo del uso de la tabla para hallar Valor de (1-α). Tomado de Estadística por Triola,
2009.

36
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

1.4. Distribución t
Supóngase que se toma una muestra de una población normal con media µ y varianza . Si X σ2
es el promedio de las n observaciones que contiene la muestra aleatoria, entonces la distribución

X−µ
de Z= es una distribución normal estándar. Supóngase que la varianza de la población
σ/ n
σ2 es desconocida. ¿Qué sucede con la distribución de esta estadística si se remplaza σ por S
? La distribución t proporciona la respuesta a esta pregunta.

Teorema de la distribución t
Sea Z una variable aleatoria con distribución N ( 0,1) y V una variable aleato-

ria chi-cuadrada con K grados de libertad. Si Z y V son independientes, enton-

Z
ces la variable aleatoria T= tiene la función de densidad de probabilidad
V/k
T ( k + 1) / 2 1
=f (x) • , − ∞ < x < +∞ y se dice que sigue la distribución
πk Γ ( k / 2) (
 ) 
( k +1) /2
 x / k + 1
2

t con k grados de libertad, lo que se abrevia como t k . La media y la varianza de la distribución


t son µ =0 y =σ2 k / ( k − 2) para k > 2 , respectivamente.

k = 10

k = ∞ [N (0, 1)]

k=1

0 x
Figura 10. Funciones de densidad de probabilidad es de varias distribuciones . Tomada de t
Applied statistics and probability for engineers, por Montgomery y Runger, 2013, p. 284.

La figura 10 presenta la gráfica de varias distribuciones t. La apariencia general de la distribución


t es similar a la distribución normal estándar: ambas son simétricas y unimodales, y el valor máxi-

37
mo de la ordenada se alcanza en la media µ =0 . Sin embargo, la distribución t tiene colas más
amplias que la normal; esto es, la probabilidad de las colas es mayor que en la distribución normal.

A medida que el número de grados de libertad k→∞ , la forma límite de la distribución t es


la distribución normal estándar. Al visualizar la distribución t , a veces es útil que la ordenada de
la densidad en la media µ =0 sea aproximadamente entre cuatro o cinco veces mayor que la
ordenada de los percentiles 5 y 95. Por ejemplo, con 10 grados de libertad para t , esta relación es
4,8; con 20 grados de libertad es de 4,3, y con 30 grados de libertad es 4,1. Por comparación, este

factor es 3,9 para la distribución normal.

a a

t1 – a, k = – ta, k 0 ta, k t
t
Figura 11. Puntos críticos de la distribución . Tomada de Applied statistics and probability for
engineers, por Montgomery y Runger, 2013, p. 284.

La tabla A-3 del anexo proporciona los puntos críticos de la distribución t . Sea t α ,k el valor de
la variable aleatoria con k grados de libertad para el que se tiene un área (o probabilidad). Por
tanto t α ,k es un punto crítico en la cola superior de la distribución t con k grados de libertad. Este
punto crítico aparece en la figura 2,4 – 2. En la tabla A-3 del anexo, los valores de α son encabe-
zados de las columnas, mientras que los grados de libertad aparecen en la columna de la parte
izquierda. Para ilustrar el uso de la tabla, nótese que el valor t con 10 grados de libertad que tiene
( ) (
un área de 0,05 a la derecha es t 0.05,10 = 1,812. Esto es P T10 > t 0.05,10 =P T10 > 1,812 =0, 05 )
Puesto que la distribución t es simétrica con respecto a cero, se tiene que t1−α = −t α , esto es,
el valor t que corresponde a un área de 1 − α a la derecha (y, por tanto, un área α a la izquier-
da) es igual al negativo del valor t que tiene el área α en la cola derecha de la distribución. En
consecuencia, t 0.95,10 =
−t 0.05,10 =
−1,812

Ejemplo n.° 8: Un ingeniero químico afirma que el rendimiento medio de la población de cierto
proceso en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma
una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre y , queda satis-
fecho con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518
gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribución de
rendimientos es aproximadamente normal.

38
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Solución: Del enunciado se tienen los siguientes datos:

x : Media de la muestra ⇒ x = 518


µ : Media de la población ⇒ µ = 500
n : Tamaño de la muestra ⇒ n = 25
s : Desviación estándar ⇒ s = 40
r : Grado de libertad ⇒ r = n – 1 = 24

1.°) Necesitamos calcular el valor t usando nuestra fórmula:

518 − 500 18
t
⇒= = = 2, 25
40 8
25

2.°) Si: ⇒ α = 0, 05 . El área (1 − α ) =−


1 0, 05 =0, 95

De la tabla encontramos que con 24 grados de libertad es de 1,711.

Tabla 3. VALORES T DE LA DISTRIBUCIÓN T DE STUDENT

Valores de T α,v 1-α = P(T ≤ tα,v )


1-α
v 0.8 0.9 0.95 0.975 0.99 0.995 0.999
1 1.376 3.078 6.314 12.706 31.821 63.656 318.289
2 1.061 1.886 2.920 4.303 6.965 9.925 22.328
3 0.978 1.638 2.353 3.182 4.541 5.841 10.214 Como el
4 0.941 1.533 2.132 2.776 3.747 4.604 7.173 valor de t
5 0.920 1.476 2.015 2.571 3.365 4.032 5.894
6 0.906 1.440 1.943 2.447 3.143 3.707 5.208 calculado
7 0.896 1.415 1.895 2.365 2.998 3.499 4.785 es 2.25,
8 0.889 1.397 1.860 2.306 2.896 3.355 4.501
9 0.883 1.383 1.833 2.262 2.821 3.250 4.297
10 0.879 1.372 1.812 2.228 2.764 3.169 4.144
11 0.876 1.363 1.796 2.201 2.718 3.106 4.025
12 0.873 1.356 1.782 2.179 2.681 3.055 3.930
13 0.870 1.350 1.771 2.160 2.650 3.012 3.852
14 0.868 1.345 1.761 2.145 2.624 2.977 3.787
15 0.866 1.341 1.753 2.131 2.602 2.947 3.733
16 0.865 1.337 1.746 2.120 2.583 2.921 3.686
17 0.863 1.333 1.740 2.110 2.567 2.898 3.646
18 0.862 1.330 1.734 2.101 2.552 2.878 3.610
19 0.861 1.328 1.729 2.093 2.539 2.861 3.579
20 0.860 1.325 1.725 2.086 2.528 2.845 3.552
21 0.859 1.323 1.721 2.080 2.518 2.831 3.527
22 0.858 1.321 1.717 2.074 2.508 2.819 3.505
23 0.858 1.319 1.714 2.069 2.500 2.807 3.485
24 0.857 1.318 1.711 2.064 2.492 2.797 3.467
25 0.856 1.316 1.708 2.060 2.485 2.787 3.450
26 0.856 1.315 1.706 2.056 2.479 2.779 3.435
27 0.855 1.314 1.703 2.052 2.473 2.771 3.421
28 0.855 1.313 1.701 2.048 2.467 2.763 3.408
29 0.854 1.311 1.699 2.045 2.462 2.756 3.396
30 12. Ejemplo
Figura 0.854 del uso
1.310de la tabla
1.697 para hallar
2.042 el valor
2.457de t. Tomada
2.750 de3.385
Estadística por Triola,
31 0.853 1.309 1.696 2.040 2.453 2.744 3.375
32 0.853 1.309 1.694 2009
2.037 2.449 2.738 3.365
33 0.853 1.308 1.692 2.035 2.445 2.733 3.356
34 0.852 1.307 1.691 2.032 2.441 2.728 3.348
Siendo
35 este un valor muy
0.852 por arriba
1.306 del valor
1.690 2.030 t
de 0,05 2.438
la tabla de
2.724T de Student,
3.340 que es 1,711. El
36 0.852 1.306 1.688 2.028 2.434 2.719 3.333
ingeniero
37
químico
0.851
podría afirmar que
1.305 1.687
el proceso
2.026
produce
2.431
un mejor producto
2.715
del que piensa.
3.326
38 0.851 1.304 1.686 2.024 2.429 2.712 3.319
39 0.851 1.304 1.685 2.023 2.426 2.708 3.313
40 0.851 1.303 1.684 2.021 2.423 2.704 3.307
41 0.850 1.303 1.683 2.020 2.421 2.701 3.301
42 0.850 1.302 1.682 2.018 2.418 2.698 3.296
43 0.850 1.302 1.681 2.017 2.416 2.695 3.291
44 0.850 1.301 1.680 2.015 2.414 2.692 3.286 39
45 0.850 1.301 1.679 2.014 2.412 2.690 3.281
46 0.850 1.300 1.679 2.013 2.410 2.687 3.277
La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. S.
Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la pu-
blicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su trabajo en
secreto bajo el nombre de “Student”. En consecuencia, la distribución t normalmente se llama dis-
tribución t de Student, o simplemente distribución t. Para derivar la ecuación de esta distribución,
Gosset supone que las muestras se seleccionan de una población normal. Aunque esto parecería
una suposición muy restrictiva, se puede mostrar que las poblaciones no normales que poseen
distribuciones en forma casi de campana, aún proporcionan valores de t que se aproximan muy
de cerca a la distribución t.

40
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Lectura seleccionada n.° 1


¿Cómo identificamos límites de seguridad para los pasajeros?

Triola, M. (2009). ¿Cómo identificamos límites de seguridad para los pasajeros? En Estadística, p.
245. Recuperado de https://docslide.net/education/estadistica-10e-triola.html

Actividad n.° 2
Foro de discusión sobre la lectura “¿Cómo identificamos límites de seguridad para los pasajeros?”.

Instrucciones

Ingrese al foro y participe con comentarios críticos y analíticos del tema “¿Cómo identificamos lími-
tes de seguridad para los pasajeros?”

• Lea y analice los temas 1 y 2 del manual.

• Responda en el foro a las preguntas acerca de la lectura:

¿Cuál es propósito de la lectura?

¿Cuál es la relación entre la lectura propuesta y la estadística?

¿Cuál es el papel que desempeña la estadística en la ergonomía, en el Perú?

En la lectura encontramos que algunos pasajeros murieron cuando un taxi acuático se in-
cendió en el Inner Harbor de Baltimore. Los hombres suelen ser más pesados que las mujeres
y los niños. Supongamos que en la carga de un taxi acuático la situación extrema es aque-
lla en que todos los pasajeros son hombres. En concordancia con los datos de la National
Transportation and Safety Board, suponga que los pesos de los hombres están distribuidos,
normalmente, con una media de 172 lb y una desviación estándar de 29 lb.

™ Si seleccionamos al azar a un hombre, calcule la probabilidad de que pese menos de


174 lb. Interprete su resultado.

™ Si seleccionamos al azar a un hombre, calcule la probabilidad de que pese más de


175 lb. Interprete su resultado.

™ Calcule la probabilidad de que 20 hombres elegidos al azar tengan una media mayor
de 175 lb (de manera que el peso total no exceda la capacidad segura de 3500 lb).
Interprete su resultado.

41
Actividad n.° 3
Instrucción: Resuelva los siguientes ejercicios:

1. La SUTRAN ha implantado un sistema de control de velocidad mediante un radar colocado


en cuatro puntos de la ciudad de Lima: Callao, La Molina, Comas y Miraflores. Cada día,
estos aparatos están activos en los sitios indicados, 16 horas, 10 horas, 12 horas y 15 horas,
respectivamente, en horarios al azar. Una persona maneja a su trabajo diariamente y lo
hace con exceso de velocidad y la probabilidad de que pase por alguno de estos sitios es
respectivamente 0,3; 0,1; 0,4 y 0,2.

a) Calcule la probabilidad de que en algún día reciba una multa por exceso de velocidad.
b) Cierto día, la persona recibió una multa por exceso de velocidad. Determine el sitio en
que hay la mayor probabilidad de haber sido multado.

2. Para ensamblar una máquina se usan dos componentes mecánicos. Suponga que la proba-
bilidad de que el primer componente cumpla las especificaciones es 0,95, y para el segundo
es 0,98. Además, los componentes funcionan independientemente. Usando función de distri-
bución de probabilidad de la variable aleatoria X que representa al número de componen-
tes que cumplen las especificaciones, x = 0; 1; 2; obtenida en la unidad anterior:

a) Encuentre la media y la varianza de la variable aleatoria X.


b) Suponga que el costo asociado con los componentes instalados que no cumplen las es-
pecificaciones es G(X)=$5000X2. Encuentre el valor esperado de este costo.

3. La producción diaria de una fábrica es una variable aleatoria discreta con media 120 artícu-
los, y desviación estándar de 10 artículos. Calcule la probabilidad de que en cualquier día la
producción esté entre 95 y 145 artículos.

4. Suponga que la probabilidad de éxito de un experimento es 0,2 y se realizan cinco ensayos


independientes. Calcule la probabilidad de que el primero y el último ensayo sean éxitos, y
los tres ensayos intermedios sean fracasos.

5. Una caja contiene 9 baterías, de las cuales 4 están en buen estado y las restantes defectuo-
sas. Se toma una muestra eligiendo al azar tres baterías. Calcule la probabilidad de que en
la muestra se obtengan:

a) Ninguna batería en buen estado.


b) Al menos una batería en buen estado.
c) No más de dos baterías en buen estado.
d) Calcule la media y la varianza.

6. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una po-


blación normal con varianza  σ2 =6 , tenga una varianza muestral:

a) Mayor que 9,1


b) Entre 3,462 y 10,745

42
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

7. Suponga que los tiempos requeridos por un cierto autobús para alcanzar uno de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar  σ =1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la
varianza muestral sea mayor que 2. Encuentre la probabilidad de –t0,025 < t < t0,05.

8. Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso en


lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación, toma una
muestra de 25 lotes cada mes. Si el valor de t calculado cae entre –t0,05 y t0,05, queda satisfe-
cho con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de
518 gramos por milímetro y una desviación estándar de 40 gramos? Suponga que la distribu-
ción de rendimientos es aproximadamente normal.

9. Suponga que el tiempo de atención de cada cliente en una estación de servicio es una va-
riable aleatoria continua con la siguiente función de densidad de probabilidad:

2
 ( x + 2) ; 0 ≤ x ≤ 1
f (x ) = 5
 0 ; otro " x "

X: variable aleatoria continua (duración en horas). Calcule la probabilidad de que el tiem-


po de atención esté entre 15 y 30 minutos.

10. La densidad de probabilidad de una variable aleatoria X está dada por:

630 x 4 (1 − x ) 4 ; 0 ≤ x ≤ 1
f (x) = 
 0 ; otro " x "

a) Verifique que satisface las propiedades de una función de densidad.


b) Calcule la probabilidad de que X tenga un valor mayor a 0,75.
c) Determine la probabilidad de que X tome un valor dentro del intervalo de dos desvia-
ciones estándares alrededor de la media y compare con el valor proporcionado por el
Teorema de Chebyshev.

43
Estimadores
Tema n.° 3

Las dos aplicaciones de la estadística inferencial implican el uso de datos muestrales; primero, para
estimar el valor de los parámetros de una población (es decir, estimación de parámetros), y, segundo,
para probar alguna aseveración acerca de una población (es decir, prueba de hipótesis).

Supongamos que los ingenieros civiles están analizando la resistencia de compresión del hormigón en
una obra. Existe una variabilidad natural en la resistencia de cada muestra individual del hormigón.
En consecuencia, los ingenieros están interesados en estimar la resistencia media para la población
consistente en este tipo de hormigón. También pueden estar interesados en estimar la variabilidad de
esta población.

Frente a esta situación surge en cuestión qué es una estimación. Cuando queremos realizar un estudio
de una población cualquiera de la que desconocemos sus parámetros, por ejemplo, su media po-
blacional o la probabilidad de éxito, si la población sigue una distribución binomial, debemos tomar
una muestra aleatoria de dicha población a través de la cual calcular una aproximación a dichos pa-
rámetros que desconocemos y queremos estimar. Bien, pues esa aproximación se llama estimación.
Además, junto a esa estimación, y dado que muy probablemente no coincida con el valor real del
parámetro, acompañaremos el error aproximado que se comete al realizarla.

En este tema se presentan los métodos para estimar los valores de los principales parámetros de la
población: proporciones, medias y varianzas.

1. Estimación puntual

Definición de estimación puntual


∧ ∧
Una estimación puntual de algún parámetro θ de la población es un valor θ de la estadística Θ .
Notación:

X = X1 ,X2 ,...,Xn  Variable aleatoria con distribución de probabilidad f (x)

θ  Parámetro no conocido

(
Θ =h X1 ,X2 ,...,Xn )  Estimador puntual de θ
De lo expuesto, se concluye que una estimación puntual del valor de un parámetro poblacional
desconocido (como puede ser la media μ o la desviación estándar σ) es un número que se utiliza
para aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar tal estimación,
tomaremos una muestra de la población y calcularemos el parámetro muestral asociado ( X para
la media, s para la desviación estándar, etc.). El valor de este parámetro muestral será la estimación
puntual del parámetro poblacional.

44
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 1: Sea una variable aleatoria X que tiene una distribución normal con media no conocida
µ . La media muestral es un estimador puntual de la media no conocida µ de la población. Esto es

µ =X . Después de tomar la muestra, el valor numérico X es la estimación puntual de µ . Por tanto, si:
= =
x1 25, =
x2 28, =
x3 33 y x 4 32 , entonces la estimación puntual es

∧ ∧
25 + 28 + 33 + 32
=X = 29,50  µ =X  µ =29,50
4

(=
25 − 29,5) + ( 28 − 29,5) + ( 33 − 29,5) + ( 32 − 29,5)
2 2 2 2 ∧

10,25  σ =S  σ =10,25
2
2 2 2
S
4
Los problemas de estimación se presentan con gran frecuencia en ingeniería, pues a menudo es ne-
cesario estimar diversas variables.

Estimadores
Descripción Parámetro Descripción
puntuales

Media poblacional µ µ =X

Media muestral


Varianza poblacional σ2 σ2 =S2 Varianza muestral

Proporción de objetos Porción muestral


de una población que p
∧ donde x es el número de objetos de
pertenecen a cierta p =x/n una muestra aleatoria de tamaño n
clase de interés. que pertenece a la clase de interés.
Diferencia entre me-
µ1 − µ 2 ∧ ∧ Diferencia entre las medias muestra-
dias de dos poblacio- µ1 − µ= X1 − X2
2 les de dos muestras independientes.
nes.
Diferencia entre las proporciones de
Diferencia entre
∧ ∧ las dos muestras, calculadas a partir
proporciones de dos p1 − p 2 p1 − p= x1 / n − x 2 / n
2 de dos muestras aleatorias indepen-
poblaciones.
dientes.

Puede tener varias opciones para el estimador puntual de un parámetro. Si desea estimar la media de
una población puede considerar como estimador la media muestral, la mediana muestral o quizás el
promedio de las observaciones más grande y más pequeña. Es por ello que, es necesario conocer las
propiedades del estimador para poder comparar con criterios adecuados.

2. Propiedades de los estimadores

2.1. Estimadores insesgados

Definición de estimador insesgado

∧ ∧
El estimador puntual Θ es un estimador insesgado para el parámetro θ , si E ( Θ ) =θ ; si el estima-
∧ ∧
dor no es insesgado, entonces la diferencia E ( Θ )− θ es conocida como sesgo del estimador Θ .

45

Cuando el estimador es insesgado, E ( Θ )− θ = 0 , el sesgo es cero. Un estimador es insesgado
cuando la media de su distribución muestral asociada coincide con la media de la población.

Esto ocurre, por ejemplo, con el estimador X , ya que µ x = µ y con estimador P ya que µP = p .

2.2. Varianza y error cuadrático medio de un estimador puntual

2.2.1. Definición de varianza

Si se consideran todos los estimadores insesgados de θ , la menor varianza recibe el nombre de


estimador insesgado de varianza mínima (EIVM).

A EIVM también se le conoce como EIUVM, donde la letra U representa “uniforme”, lo que significa
“para todo θ ”.

2.2.2. Definición de error cuadrático medio de un estimador Θ del parámetro θ está
∧ 2
definido por ECM ( Θ=
 ∧

) E  Θ− θ  .
 

El error cuadrático medio puede rescribirse de la siguiente manera:


2 2

∧ ∧
  ∧
 ∧
ECM ( Θ=) E  Θ− E ( Θ )  +  θ + E ( Θ ) = V ( Θ )+ ( sesgo )
2

   

El error cuadrático medio es un criterio importante para comparar dos estimadores.


∧ ∧ ∧ ∧
Sean Θ1 y Θ2 dos estimadores del parámetro θ , y E Θ1 ( ) ( ) los errores cuadráticos me-
y E Θ2
∧ ∧ ∧ ∧
dios de Θ1 y Θ2 . Entonces la eficiencia relativa de Θ2 , con respecto a Θ1 , se define como

( )
ECM Θ1

ECM ( Θ ) 2


Si la eficiencia relativa es menor que uno, entonces puede ocurrir que Θ1 es un estimador más

eficiente de θ que Θ2 en el sentido de que tiene un error cuadrático medio más pequeño.

Por ejemplo, se conoce que la variabilidad de un estimador viene determinada por el cuadrado de

su desviación estándar. En el caso del estimador X , su desviación estándar es , también

llamada error estándar de μ. Mientras que en el caso del error estándar de P es: .

Observar que cuanto mayor sea el tamaño de la muestra n, menor será la variabilidad del estima-
dor X y de P; por tanto, mejor serán nuestras estimaciones.

46
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3. Método de máxima verosimilitud

Uno de los mejores métodos para obtener un estimador puntual de un parámetro es el método de
máxima verosimilitud. Este estimador será el valor del parámetro que maximiza la función de verosimi-
litud.

Definición de la función de máxima verosimilitud

Supongamos que X es una variable aleatoria con distribución de población f ( x,θ ) , donde θ es
un parámetro desconocido. Sean x1 ,x 2 ,...,xn los valores observados en una muestra aleatoria de

tamaño n. La función de verosimilitud de la muestra es L (= (


θ ) f X1 , θ    ) (
f X2 , θ  ...   )
f Xn , θ ( ).
Nótese que la función de verosimilitud es ahora una función del parámetro desconocido θ . El estima-
dor de máxima verosimilitud de θ es el valor de θ que maximiza la función de verosimilitud L ( θ) .

En el caso de las variables aleatorias discretas, la interpretación de la función de verosimili-

tud es clara. La función de verosimilitud de la muestra L ( θ ) es precisamente la probabilidad

P=(
X1 x=
1 ,X2 =
x2 ,...,Xn xn , )
( )
Esto es, L θ es la probabilidad de obtener los valores muestrales x1 ,x 2 ,...,xn . Por lo tanto, en el
caso discreto, el estimador de máxima verosimilitud es un estimador que maximiza la probabilidad de
ocurrencia de los valores muestrales.

Estimador
Descripción Función
de máxima verosimilitud

Función de probabilidad:
Variable ∧
1 n
px ( 1 − p )1−x , si : x =
aleatoria de fx ( x,p ) = 
0,1 p= ∑ Xi
n i=1
Bernoulli 0 , en cuarquier otro caso

Variable aleatoria con Función de verosimilitud de una


distribución binomial, muestra de tamaño n 1 n ∧

con µ desconocida y
n
L ( µ ) =∏
1
e
−( xi −µ ) / ( 2σ2 )
2
=µ ∑ Xi X
=
n i=1
2
varianza σ conocida i=1 σ 2π

1 n ∧
Variable aleatoria con Función de verosimilitud de una
distribución normal, muestra de tamaño n
=µ ∑ Xi X
=
n i=1
1 −( xi −µ ) / ( 2σ2 )
n 2

media µ y σ2 varianza L ( µ, σ2 ) =∏ e ∧
1 n
( )
2
son desconocidas i=1 σ 2π =σ ∑ Xi − X
2

n i=1

47
En general, para muestras grandes los estimadores de máxima verosimilitud tienen propiedades asin-

tóticas. De esta manera específica, el estimador de máxima verosimilitud Θ de cualquier parámetro
θ es insesgado para n grande, y que tiene una varianza casi tan pequeña como la que puede ob-

tener con otro estimador. Esto implica que el estimador de máxima verosimilitud Θ es, de manera
aproximada, el estimador insesgado de varianza mínima de θ para n grande.

Los estimadores de máxima verosimilitud también tienen una propiedad de invarianza. Como por ejem-

plo, en el caso de la distribución normal, los estimadores de máxima verosimilitud de µ y S2 eran µ =X

1 n
( ) ( )=
2
=

2
∑ Xi − X
n i=1 . Para obtener la función de máxima verosimilitud de la función h µ,S
2
σ2 = S
1/2

1 n 2
( )
∧ ∧ ∧
se sustituyen los estimadores µ y σ2
en la función h como se tiene σ = σ =  ∑ Xi − X 
2
. Es
 n i=1 
así como el estimador de máxima verosimilitud de la desviación estándar σ no es la desviación es-
tándar muestral S.

48
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Intervalos de confianza para un parámetro


Tema n.° 4

En muchas situaciones, una estimación puntual no proporciona información suficiente sobre el pará-
metro, debido a que un parámetro que se desea estimar tiene como un conjunto de posibles valores
aun conjunto completo de números. Por ejemplo, si se desea estimar el promedio del peso neto µ de
bolsas de cemento que tengan peso nominal de 42,5 kg, entonces µ podría ser, por ejemplo, cual-
quier número entre 41 y 44. También podemos mencionar en variables discretas, como por ejemplo
en el caso de X = al número de películas rentables por un cliente seleccionado al azar que sale de
cierta tienda de video; el verdadero número promedio de películas por cliente µ podría ser entre 0,5
y 4,0, por ejemplo, la verdadera proporción p de clientes que rentan por lo menos una película po-
dría ser cualquier número entre 0 y 4 Esto significa sustituir la estimación puntual, un solo número, por
un intervalo de posibles valores y esto es exactamente lo que se conoce como una estimación por
intervalo o intervalo de confianza, es decir, un intervalo de valores posibles para el parámetro que se
estima. El grado de posibilidades se especifica por un nivel de confianza, de modo que hablaremos
de un intervalo de confianza de 95% (nivel de confianza de 95%) o intervalo al 99%.

1. Intervalo de confianza

Definición de intervalo de confianza

Dada una muestra aleatoria X1 ,X2 ,...,Xn con función de densidad (


f xi ,θ ) , un intervalo de
confianza de (1 − α ) × 100% para un parámetro θ es un intervalo aleatorio ( T , T ) con
1 2

( )
P T1 < θ < T2 = 1 − θ .

1.1. Intervalo de confianza para una porción de una población

Se considera la utilización de la distribución normal para aproximar la distribución muestral de


proporciones de muestra. Para aplicar la distribución muestral de proporciones de muestra, se
requieren los siguientes requisitos:

™ La muestra es aleatoria simple.


™ Las condiciones para la distribución binomial se satisfacen. Hay un número fijo de ensayos,
los ensayos son independientes, hay dos categorías de resultado y las probabilidades de que
permanezcan constantes para cada ensayo.
™ Existen al menos 5 éxitos y 5 fracasos. (Cuando se desconocen p y q , estimamos sus valores
utilizando la porción muestral, de manera que este requisito es una forma de verificar que
np ≥ 5 nq ≥ 5 se cumpla para la distribución normal sea una aproximación adecuada para
la distribución binomial).

Recuerde la notación para proporciones:


p = Proporción de la población

x
p= = Proporción de la muestra de x éxitos en una muestra de tamaño n
n

49
∧ ∧
q =−
1 p = Proporción de la muestra de fracasos en una muestra de tamaño n

Proporción, probabilidad y porcentaje: Se enfoca en proporción poblacional p , aunque también


podemos trabajar con probabilidades o porcentajes. Cuando trabaje con un porcentaje, expré-

selo en forma decimal. (Por ejemplo, exprese el 57% por 0,57, de manera que p = 0,57 ). Si desea
∧ ∧
estimar una porción poblacional con un solo valor, el mejor estimado es p . Puesto que p consiste
en un solo valor, se denomina estimado puntual.

Sabemos que un estimado puntual es un valor individual que se usa para aproximar un parámetro
de población.

La proporción muestral p es el mejor estimador puntual en la proporción poblacional p .

Usamos p como el estimador puntual de p , ya que no está sesgado y es el más consistente de
los estimadores que se pueden usar. No está sesgado en el sentido de que la distribución de pro-
porciones muestrales tiende a concentrarse alrededor del valor de p ; esto es, las proporciones

muestrales p no tiene sistemáticamente a subestimar ni a sobreestimar a p . La proporción mues-

tral p es el estimador más consistente en el sentido de que la desviación estándar de las porcio-
nes muestrales tiende a ser menor que las desviaciones estándar de cualquier otro estimador sin
sesgo. Este estimador puntual, siendo uno de los mejores estimadores, no es confiable porque no
refleja el valor real del parámetro poblacional; es así como se requiere otro estimador, el intervalo
de confianza.

Es decir, un intervalo de confianza es un rango de valores que se usa para estimar el valor real de
un parámetro poblacional. Un intervalo de confianza se asocia con el nivel de confianza, como
0,95 (o 95%). El nivel de confianza nos da la tasa de éxitos del procedimiento que se utiliza para
construir intervalo de confianza. El nivel de confianza suele expresarse como la probabilidad o

área de (1 − α ) . El valor de α es el complemento del nivel de confianza. Para un nivel de confian-


za de 0,90 (o 90%), α =0,10 ; para 0,95 (o 95%), α =0,05 y para 0,99 (o 99%), α =0,01 . El nivel de
confianza también se llama grado de confianza o coeficiente de confianza.

Ejemplo n.° 1: Sean los datos muestrales de 280 ensayos de terapeutas de contacto, donde en el
44% de ensayos se identifica correctamente la mano elegida. El intervalo de confianza estimado
de 0,95 (o 95%) de la proporción poblacional p es de 0,381 < p < 0, 497 . Luego, la interpretación
correcta es: “Tenemos una confianza de 95% de que el intervalo de 0,381 a 0,497 realmente con-

tiene el valor de p ”. Esto significa que, si seleccionamos muchas muestras diferentes de tamaño
280 y construimos los intervalos de confianza correspondientes al 95%de ellos, incluirían realmente
el valor de la proporción poblacional p . Sin embargo, solemos interpretar erróneamente como:
“Existe un 95% de probabilidad de que el valor real de p esté entre 0,381 y 0,497”.

50
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Valores críticos

Un valor crítico es el número en la línea limítrofe que separa estadísticos muestrales que tienen
mayor probabilidad de ocurrir de aquellos que no tienen probabilidad de ocurrir. El número Zα /2
es un valor crítico, una puntuación Z con la propiedad de separar una área de α / 2 en la cola
derecha de la distribución normal estándar.

a 1– a a
2 2

-Za/2 0 Za/2
Cola izquierda Cola derecha

Figura 13. Valor crítico de una distribución normal estándar. Tomada de Estadística por Triola,
2009


Zα /2 ⇒ Re gión de la cola derecha
− Zα /2 ⇒ Re gión de la cola izquierda

Cálculo de un valor crítico: Calcule el valor crítico Zα /2 que corresponde a un nivel de confianza
del 95%.

No es necesario buscar en la tabla A–2, sino que el nivel de confianza del 95% corresponde a
α =0,05  α=
/ 2 0,05=
/ 2 0,025

Se halla: Zα /2 = 1,96 , lo cual indica que toda el área a su izquierda debe ser 1 − 0,025 o 0,975.
Ahora podemos remitirnos a la Tabla A–2 y encontramos que el área de 0,9750 corresponde exac-
tamente a un puntuación Z de 1,96. Para un nivel de confianza del 95%, el valor crítico por consi-
guiente es Zα /2 = 1,96 .Por lo tanto, para calcular la puntuación Z crítica para un nivel de confian-
za del 95%, solo busque el valor de 0,9750 en el cuerpo de la tabla A-2, y no en el valor de 0,95.

51
Nivel de confianza 95%

a =0,025 1– a a =0,025
2 2

-Za/2 = - 1,96 Z=0 Za/2 = 1,96 El área total a la izquierda


de esta frontera es 0,975

Figura 14. Cálculo de Zα /2 para un nivel de confianza del 95%. Tomada de Estadística por Triola,
2009

Valores críticos más comunes:

Nivel de confianza α Valor crítico, Zα /2


90% 0,10 1,645
95% 0,05 1,96
99% 0,01 2,275

Ejemplo n.° 2: Calcule el valor crítico z α que corresponde a un nivel de confianza del 95%.
2

Solución: Como el nivel de confianza es 95%, entonces: 1 − α =


0, 95 de donde α = 0, 05 , con el
α
cual se calcula el área de cada cola = 0, 025 como se muestra en la figura.
2

Nivel de confianza 95%

a =0,025 a =0,025
2 2

-Za/2 = - 1,96 Z=0 Za/2 = 1,96

El área total a la
izquierda de esta
frontera es 0,975

Figura 15. Valor crítico. Tomada de Estadística por Triola, 2009

52
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Como se conoce , se procede a calcular el área total a la izquierda de la siguiente manera

( 1 − 0, 025 =
0, 975 ). Este resultado se busca en la tabla A-2 y se encuentra el valor del área de
0,9750 (que se halla en el cuerpo de la tabla) corresponde exactamente a una puntuación z de

1,96; por consiguiente, zα = 1, 96 . Para un nivel de confianza del 95%.


2

0 z
POSITIVE z Scores
TABLE A-2 (continued) Cumulative Area from the LEFT

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517

zα =1,9 + 0,06 =1,96


0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 2
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 * .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8
1.9
.9641
.9713
.9649
.9719
.9656
.9726
.9664
.9732
.9671
.9738
.9678
.9744
.9686
.9750
.9693
.9756
.9699
.9761
.9706
.9767
Área total a la
2.0
2.1
.9772
.9821
.9778
.9826
.9783
.9830
.9788
.9834
.9793
.9838
.9798
.9842
.9803
.9846
.9808
.9850
.9812
.9854
.9817
.9857
izquierda hallada.
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 * .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.50 .9999
and
up

NOTE: For values of z above 3.49, use 0.9999 for the area.
Common Critical Values
*Use these common values that result from interpolation:
z score Area Figura 16. Uso de la Tabla A-2. Tomada Confidence
deLevelEstadística
Critical
Value por Triola, 2009.
1.645 0.9500 0.90 1.645
2.575 0.9950 0.95 1.96 0

El ejemplo anterior mostró que un nivel de confianza del 95% da por resultado un valor crítico de
0.99 2.575

zα = 1, 96 . Este es el valor crítico más común y se lista junto con otros dos valores comunes en la
2
siguiente tabla.

1–a 90% 92% 94% 95% 96% 97% 98% 99% Siendo:
a 10% 8% 6% 5% 4% 3% 2% 1% 1 – a = Nivel de confianza
Za/2 1,645 1,751 1,881 1,960 2,054 2,170 2,326 2,576 a = Nivel de sigficación
Za 1,282 1,405 1,555 1,645 1,751 1,881 2,054 2,326

www.vaxasoftware.com/indexes.html

53
2. Margen de error

Cuando se utilizan los datos de una muestra aleatoria simple para estimar una porción p , el margen

de error, denotado por E , es la diferencia máxima probable (con probabilidad 1 − α ) entre la porción

muestral p observada y el valor real de la porción poblacional p . El margen de error E se llama error
máximo del estimado y se calcula multiplicando el valor crítico por la desviación estándar de las pro-
∧ ∧
p.q
porciones muestrales. E = Zα /2
n
Intervalos de confianza para la proporción poblacional p

∧ ∧ ∧

Sea:
∧ ∧
p.q , el intervalo de confianza se expresa por p± E o
p− E < p < p+ E donde E = Zα /2
n
∧ ∧

 p − E ,p + E
 

Reglas de redondeo para estimados de intervalos de confianza p

Redondee los límites del intervalo de confianza para p a tres dígitos significativos.

Procedimiento para construir un intervalo de confianza para p

1.° Verifique que los supuestos requeridos cumplan:


™ La muestra es aleatoria simple.
™ Las condiciones para la distribución binomial se satisfacen (hay un número fijo de ensayos,
los ensayos son independientes, hay dos categorías de resultado y las probabilidades de que
permanezcan constantes para cada ensayo).
™ Existen al menos 5 éxitos y 5 fracasos.

2.° Remítase a la tabla A-2 y encuentre el valor Zα /2 que corresponde al nivel de confianza deseado.
∧ ∧
p.q
3.° Evalúe el margen de error: E = Zα /2
n
∧ ∧
4.°Calcule los intervalos de confianza: p− E < p < p+ E
5.°Redondee los límites del intervalo de confianza resultantes a tres dígitos significativos.

Tamaño de muestra para la estimación de la proporción p

2 ∧ ∧
Zα /2  p q

™ Cuando se conoce un estimado p  n = 
E2
2
Z  �0,25 ∧
™ Cuando se desconoce un estimado p  n =  α /2 
E2

54
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 3: Un sociólogo quiere determinar el porcentaje actual de hogares en Estados Unidos que
utilizan el correo electrónico. ¿Cuántos hogares deben encuestarse para tener una confianza del 95%
de que el porcentaje muestral es erróneo por no más de 4 puntos porcentuales?

a) Utilice el siguiente resultado de un estudio pionero: en 1997, el 16,9% de los hogares estadouniden-
ses usaban correo electrónico (según datos de The World Almanac and Book of Facts).

b) Suponga que no tenemos información previa que sugiera un posible valor de p.

Solución:
∧ ∧ ∧
1.° El estudio previo sugiere que p = 0,169 , entonces q = 1 − p = 0.831 . Con un nivel de confianza

del 95%, tenemos α = 0.05, entonces zα = 1,96 . Además, el margen de error es E = 0,04 (el equi-
2

valente decimal de “cuatro puntos porcentuales”). Puesto que tenemos un valor estimado de p,

(z )
2∧ ∧

pq
α /2 1, 962 × 0,169 × 0,831
=
usamos: n = ⇒ n = 337,194  Redondeando se tiene que:
E2 0, 042
n = 338.

Debemos encuestar al menos 338 hogares seleccionados al azar.

2.° El estudio previo sugiere que zα = 1, 96 , el margen de error es E = 0.04 (el equivalente deci-
2 ∧ ∧
mal de “cuatro puntos porcentuales”, pero sin conocimiento previo de p (o q ), usamos:

( zα )
2

⋅ 0, 25 1, 962 × 0, 25
/2 = n = 600, 25
n= 2

0, 04 2
E
Redondeando se tiene que: n = 601

Debemos encuestar al menos 601 hogares seleccionados al azar.

Interpretación: Para tener una confianza del 95% de que nuestro porcentaje muestral está dentro de
cuatro puntos porcentuales del porcentaje verdadero para todos los hogares, debemos seleccionar
al azar y encuestar 601 hogares. Comparando este resultado con el tamaño muestral de 338 calcula-
do en el inciso a), podemos ver que, si no tenemos conocimiento de un estudio previo, se requiere una

muestra más grande para obtener los mismos resultados que cuando se puede estimar el valor de p.

Cálculo del estimado puntual y el E desde un intervalo de confianza



Si ya conocemos los límites del intervalo de confianza, la proporción muestral p y el margen de error
E se calcula como sigue:

55
Estimado puntual de p :


p=
(límite de confianza sup erior ) + (límite de confianza inf erior )
2
Margen de error:

E=
(límite de confianza sup erior ) − (límite de confianza inf erior )
2
Ejemplo n.° 4: El artículo “High-dose nicotine patch therapy” de Dale, Hurtet al. (Journal of the Ameri-
can Medical Association, vol. 274, núm. 17) incluye esta afirmación: “De los 71 sujetos, el 70% se abs-
tuvo de fumar durante 8 semanas (intervalo de confianza l IC1 del 95%, del 58% al 81%)”. Utilice esta
afirmación para calcular el estimado puntual fi y el margen de error E.

Solución: Del enunciado vemos que el intervalo de confianza del 95% es 0,58 < p < 0,81. El estimado

puntual p es el valor medio entre los límites superior e inferior del intervalo de confianza, de manera
que obtenemos:
(límite de confianza sup erior ) + (límite de confianza inf erior )

p=
2
∧ 0,81 + 0,58
=p = 0, 695
2
El
margen de error se calcula como sigue:

(límite de confianza sup erior ) − (límite de confianza inf erior )


E=
2
0,81 − 0, 58
= E = 0,115
2

3. Intervalo de confianza para una media de población

3.1. Intervalo de confianza para una media de población con varianza conocida

Definición de intervalo de confianza para una media de población con varianza conocida

Si X es la media muestral de una muestra aleatoria de tamaño n de una población con varian-

za conocida σ2 , un intervalo de confianza para µ del 100 ( 1 − α ) por ciento está dado por:
σ σ
X − Zα /2 ≤ µ ≤ X + Zα /2
n n , donde Zα /2 es el punto de la distribución normal estándar que
corresponde al porcentaje α / 2.

56
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Estimación del intervalo de confianza de la media poblacional µ , con varianza conocida σ


2

Conociendo la media poblacional µ y el margen de error E , podemos identificar el intervalo de


confianza. Tenemos sus tres formas de representación:

Si: X −E < µ < X +E donde=


E Zα /2 ⋅
σ
n
(
o X ± E o X − E,X + E )
Los dos valores X − E y X + E se llaman límites del intervalo de confianza.

Procedimientos para construir un intervalo de confianza para µ con varianza conocida σ2

1.° Verifique que los supuestos requeridos se cumplan.


™ Debe ser una muestra aleatoria simple.
™ La varianza σ es conocida.
2

™ La población pueda estar distribuida normalmente o n > 30.

2.° Remítase a la tabla A–2 y calcule el valor crítico Zα /2 que corresponde al nivel de confianza
deseado.

σ
3.° Estime el margen de error: =
E Zα /2 ⋅
n

4.° Calcule los intervalos de confianza: X − E < µ < X + E , haciendo uso de la media muestral X
y margen de error E.

5.° Redondee los límites del intervalo de confianza resultantes, teniendo en cuenta la regla si-
guiente:
™ Cuando utilice el conjunto de datos original para construir un intervalo de confianza, re-
dondee los límites de intervalo de confianza a un decimal más que se usa para un conjunto
de datos original.
™ Cuando el conjunto de datos original se desconoce y solo se utiliza el resumen de estadís-
ticas (n,X,S) , redondee los límites de intervalo de confianza al mismo número de espacios
decimales utilizado para la media muestral.

57
Existe una
proporcionalidad de
1 − α de que una
media muestral sea
errónea por más de E
σ
E o Zα /2 ⋅
n
Existe una probabilidad
1 − α de que una
de
media muestral sea
errónea por más de
E (es una de las colas
claras)

a 1– a a
2 2

-Za/2 µ Za/2
E E

Figura 17. Distribución de medias muestrales con σ conocida. Tomada de Estadística por Triola,
2009

Dada la expresión para el margen de error E , despejamos el tamaño muestral n y obtenemos lo


siguiente:

2
Tamaño de muestra para estimar la media µ: Z ⋅ σ 
n =  α /2 
 E 
Donde: Zα /2  puntuación Z crítica basada en el nivel de confianza deseado:
E  Margen de error deseado
σ
σ2 ⇒ σ =  Desviación estándar poblacional
n
Regla de redondeo para el tamaño muestral n

Cuando se calcula el tamaño muestral n, si el uso de la fórmula no produce un número entero,


siempre incremente el valor de n al siguiente número entero mayor.

Ejemplo n.° 5: Se encuentra que la concentración promedio de zinc que se saca del agua a
partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2,6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el río.
Suponga que la desviación estándar de la población es 0,3.

Solución:

1.° La estimación puntual de  µ es X = 2,6 . El valor de z para un nivel de confianza del 95% es
1,96; por lo tanto:

58
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

µ= X ±

⇒=
µ 2,6 ±
(1,96 )( 0,3) ⇒ µ=
min 2,30 y µ=
máx 2,70
n 36

0.95

µmin = 2.50 µmax = 2.70


Figura 18. Estimación puntual al 0,95.
Fuente: Elaboración propia

2.° Para un nivel de confianza de 99% el valor de z es de 2,575, por lo que el intervalo será más
amplio:

µ= X ±

⇒=
µ 2,6 ±
( 2,575)( 0,3) ⇒ µ= 2, 47 y µ= 2,73
min máx
n 36

0.99

µmin = 2.47 µmax = 2.73


Figura 19. Estimación puntual al 0,99.
Fuente: Elaboración propia

3.2. Intervalo de confianza para la media de una distribución con varianza des-
conocida

Definición: Intervalo de confianza para una media de una distribución normal con varianza des-
conocida

Si X y S son la media y la desviación estándar de una muestra aleatoria tomada de una distri-

bución normal con varianza σ2 desconocida, entonces un intervalo de confianza 100 ( 1 − α ) por
S S
ciento para µ está dado por: X − t α /2,n−1 ≤ µ ≤ X + t α /2,n−1 , donde t α /2 es el punto crítico
n n
superior que corresponde al porcentaje α/2 de la distribución t con n − 1 grados de libertad.

De la definición se extrae que, para realizar la estimación de intervalos de confianza para una me-
dia de distribución normal con varianza desconocida, se tienen en cuenta los siguientes requisitos:

59
™ La muestra es aleatoria simple.
™ La muestra proviene de una población distribuida normalmente o n > 30.

La media muestral X es el mejor estimado puntual de la media de la población µ

Si σ no se conoce, pero los requisitos anteriores satisfacen, utilizaremos la distribución t de Stu-


dent. Dado que no se conoce el valor de σ , lo estimamos con el valor de la desviación estándar
muestral S , pero esto introduce otra fuente de falta de confiabilidad, en especial con muestras
pequeñas. Para mantener un intervalo de confianza a un nivel deseado, como el 95%, compensa-
mos esta falta de confiabilidad haciendo más ancho el intervalo de confianza: utilizamos valores
críticos t α /2 (de una distribución t de Student), los cuales son más grandes que los valores críticos
Zα /2 de la distribución muestral.

Procedimientos para construir un intervalo de confianza para µ con varianza desconocida σ2

1.° Verifique que se cumplan los siguientes supuestos requeridos:


™ Debe ser una muestra aleatoria simple.
™ La población pueda estar distribuida normalmente o n > 30.

2.° Utilizando n-1 grados de libertad. Remítase a la tabla A-3 y calcule el valor crítico t α /2 que co-
rresponde al nivel de confianza deseado. (Para el nivel de confianza, remitirse al “área de dos
colas”).

S
3.° Estime el margen de error:=
E t α /2 ⋅
n

4.° Calcule los intervalos de confianza: X − E < µ < X + E , haciendo uso de la media muestral X
y margen de error E.

5.° Redondee los límites del intervalo de confianza resultantes. Si utiliza el conjunto de datos origi-
nal, redondee a un decimal más del que se usa del conjunto original de datos. Si utiliza un resu-

men de estadísticas (n,X,S) , redondee los límites del intervalo de confianza al mismo número
de lugares decimales utilizados para la media muestral.

Ejemplo n.° 6: El contenido de siete contenedores similares de ácido sulfúrico son 9,8, 10,2, 10,4,
9,8, 10,0, 10,2, y 9,6 litros. Encuentre un intervalo de confianza del 95% para la media de todos los
contenedores si se supone una distribución aproximadamente normal.

Solución:

1.° La media muestral y la desviación estándar para los datos dados son:

X = 10 y S = 0,283 .

60
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

2.° En la tabla se encuentra que t0,025=2,447 con 6 grados de libertad, de aquí, el intervalo de con-

fianza de 95% para  µ es: X −E < µ < X +E

 0,283   0,283 
10 − 2, 477   < µ < 10 + 2, 477  
 7   7 

9,74 < µ < 10,26

3.° Representación gráfica:

0.95

µmin = 9.47 µmax = 10.26


Figura 20. Representación gráfica con un nivel de confianza al 95%.
Fuente: Elaboración propia

Con un nivel de confianza del 95% se sabe que el promedio del contenido de los contenedores
está entre 9,47 y 10,26 litros.

Propiedades de la distribución de t de Student

1.° La distribución t de Student es diferente para distintos tamaños de muestras.

2.° La distribución t de Student tiene la misma forma simétrica que la distribución normal, pero
refleja una mayor variabilidad de lo que se espera con muestra pequeñas.

0.45
0.4
0.35
Distribución 0.3
normal Distribución
estándar 0.25 t de Student
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4

Figura 21. Distribución t de Student y distribución normal estándar. Tomada de Estadística por
Triola, 2009

3.° La distribución t de Student tienen una media t = 0 (así como la distribución normal estándar
tiene una media de Z = 0 ).

61
4.° La desviación estándar de la distribución t de Student varía con el tamaño muestral, pero es

mayor que 1 (a diferencia de la distribución normal estándar que tiene σ =1 ).

5.° Conforme el tamaño muestral n se hace más grande, la distribución t de Student se acerca
más a la distribución normal estándar.

Cálculo del estimado puntual y el E a partir un intervalo de confianza

Si ya conocemos los límites de intervalo de confianza, la media muestral X es el valor intermedio


de estos límites, el margen de error E es la unidad de la diferencia entre estos límites (ya que el

límite superior es X + E y el límite inferior es X − E , y la distancia que los separa es 2E ).

Estimado puntual de µ :

X=
(límite de confianza sup erior ) + (límite de confianza inf erior )
2
Margen de error:

E=
(límite de confianza sup erior ) − (límite de confianza inf erior )
2
3.3. Intervalo de confianza para la varianza poblacional

Requisitos

De la definición, se extrae que para realizar la estimación de intervalos de confianza para la va-
rianza poblacional se tienen en cuenta los siguientes requisitos:
™ La muestra es aleatoria simple.
™ La población debe estar distribuida normalmente (aun si la muestra es muy grande).

Estimadores de σ2

La varianza muestral S2 2
es el mejor estimado puntual de la varianza poblacional σ . Puesto que
S2 es un estimador sin sesgo de σ , esperaríamos que S fuera un estimador sin sesgo de σ , pero no
es así. Sin embargo, si el tamaño muestral es grande, el sesgo es tan pequeño que podemos utilizar
S como un estimado de σ razonablemente bueno. Aunque S es un estimado sesgado, se usa con
frecuencia como un estimado puntual de σ.

La desviación estándar muestral S suele utilizarse como un estimado puntual de σ (aunque es un


estimado sesgado).

62
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Intervalo de confianza (o estimado de intervalo) para la varianza poblacional σ2

Esta expresión se utiliza para calcular un intervalo de confianza para la varianza σ2 , pero un inter-
valo de confianza (o un estimado de intervalo) para la desviación estándar σ se calcula toman-
do la raíz cuadrada de cada componente:

Procedimiento para construir un intervalo de confianza para σ2

™ Verifique que los requisitos se satisfagan. (La muestra es aleatoria simple y un histograma o
gráfica cuantilar normal sugiere que la población tiene una distribución que es muy cercana
a la distribución normal).
™ Utilizando (n — 1) grados de libertad, remítase a la tabla A-4 y encuentre los valores críticos

y correspondientes al nivel de confianza deseado.


™ Evalúe los límites del intervalo de confianza superior e inferior utilizando el siguiente formato
para el intervalo de confianza:

™ Si se desea un estimado del intervalo de confianza de σ ,calcule la raíz cuadrada de los límites
del intervalo de confianza superior e inferior y cambie por σ .
™ Redondee los límites del intervalo de confianza resultantes. Si se utiliza el conjunto original de
datos, redondee a un decimal más del que se usa para el conjunto original de datos. Si se uti-
liza la desviación estándar o varianza muestral, redondee los límites del intervalo de confianza
al mismo número de espacios decimales.

Ejemplo n.° 4: Intervalo de confianza para pesos de monedas de 1 centavo. En la actualidad, las
monedas de 1 centavo de dólar se acuñan con una desviación estándar de 0,0165 g (de acuer-
do con el conjunto de datos 14 del apéndice B). Se prueba un nuevo equipo con la intención de
mejorar la calidad al reducir la variación. Se obtiene una muestra aleatoria simple de 10 monedas
de 1 centavo acuñadas con el equipo nuevo. Una gráfica cuantilar normal y un histograma indi-
can que los pesos provienen de una población distribuida normalmente, y la muestra tiene una
desviación estándar de 0,0125 g. Utilice los resultados muestrales para construir con un estimado
de un intervalo de confianza del 95% de σ , la desviación estándar de los pesos de monedas de
1 centavo fabricadas con el equipo nuevo. Con base en los resultados, ¿parece que el equipo
nuevo sirve para reducir la variación de los pesos?

63
Solución:

1.° Se indicó que se trata de una muestra aleatoria simple. Con base en las descripciones del his-
tograma y de la gráfica cuantilar normal, también se satisface el requisito de una distribución
normal.

2
2.° Utilizando n - 1 grado de libertad, ahora calculamos los valores críticos de X . El tamaño mues-
tral es n = 10  gl = 9. Nos remitimos a la tabla A-4 y se tiene que las áreas de 0,975 y 0,025.
(Para un nivel de confianza del 95%, dividimos a = 0.05 entre las dos colas de la distribución
chi-cuadrada y nos remitimos a los valores de 0,975 y 0,025 a lo largo del renglón superior de la

tabla A-4). Los valores críticos de X2 son: y

3.° Usando los valores críticos de 2,700 y 19,023, la desviación estándar muestral de S = 0,0125 y el
tamaño muestral de 10, construimos el intervalo de confianza del 95% al evaluar lo siguiente:

4.° La evaluación de la expresión anterior produce


0,0000739237 < < 0,000520833

Se le extrae la raíz cuadrada y se obtiene y se redondea a 4 cifras decimales 0,0086 g << 0,0228 g.

Interpretación: Con base en este resultado, tenemos una confianza del 95% de que los límites de
0,0086 g y 0,0228 g contienen el valor real de . Observe que este intervalo incluye la desviación
estándar de 0,0165 g para los pesos de las monedas que se fabrican actualmente. No parece que
el nuevo equipo reduzca significativamente la variación. Aun cuando la desviación estándar de
la muestra (0,0125 g) es menor que la desviación estándar actual de 0,0165 g, no es lo suficiente-
mente baja para ser significativa. Con base en los datos disponibles, parece que el equipo nuevo
no es efectivo. El intervalo de confianza 0,0086 < < 0,0228 también se expresa como (0,0086;
0,0228), pero la forma de S ± E no puede utilizarse porque el intervalo de confianza no tiene S en
su parte central.

64
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 4
1. Los contenidos de 5 latas de café instantáneo de un productor han dado los siguientes pesos
netos en gramos: 280; 290; 285; 275; 284.
a) Encuentre un intervalo de confianza del95% para la media de todos los contenidos de
latas de café del productor.
b) ¿Con qué grado de confianza se estima que el contenido promedio de café tenga los
límites de confianza 277,432 y 288,168? Suponga una distribución normal.

2. Se tiene que diez objetos de forma cilíndrica elegidos al azar entre los productos en la planta
industrial Los Cerditos han mostrado los siguientes diámetros: 10,1cm; 9,7cm; 10,3 cm; 10,4
cm; 9,9 cm; 9,8 cm; 9,9 cm; 10,1 cm;10,3 cm; 9,9 cm. Encuentre un intervalo de confianza
del 95% para la varianza de los diámetros de todos los objetos producidos por esta planta.
Suponga que los diámetros de tales objetos se distribuyen según la normal.

3. En una empresa electrónica para estimar la vida media de un transistor BJT3456 se seleccio-
na una muestra aleatoria de 10 unidades, se le somete a prueba y se encuentra que 6 de
ellas siguen funcionando después de 3000 horas. Suponiendo que la vida útil de los transisto-
res BJT es una variable aleatoria T con distribución exponencial de parámetro “β”, estimar la
vida media de tales transistores producidos.

4. La Defensoría del Pueblo pretende implantar un programa de ayuda a familias con familia-
res dependientes. Dado que la mayor parte de los Servicios Sociales son competencia de los
municipios, la Junta proporcionará los medios económicos, pero serán estos los encargados
de ejecutar el programa.

Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas
las familias a las que subvencionan reúnen los requisitos exigidos, pero la Defensoría del Pue-
blo les responsabiliza de que esto no ocurra en más del 4% de ellas. Si se supera este porcen-
taje, penalizará al municipio. En un municipio se muestrean 200 familias y se detecta que 12
de ellas (6%) no cumplen las condiciones exigidas. ¿Debe la Junta sancionar al municipio?

5. Un analista de investigación de mercado quiere estimar el promedio del ingreso familiar


mensual de una determinada población. Determine el intervalo de confianza del 95%, si en
una muestra aleatoria de tamaño 100 de esa población se encontró que el promedio del
ingreso familiar era de $500. Suponga que el ingreso familiar mensual se distribuye normal-
mente con desviación estándar igual a $100.

6. Un inspector de alimentos seleccionó aleatoriamente 30 paquetes de carne de res 95% ma-


gra. La muestra dio como resultado una media de 96,2% con una desviación estándar mues-
tral de 0,8%. Calcule un intervalo de predicción del 99% para la condición baja en grasa de
un paquete nuevo. Suponga normalidad.

65
7. Una máquina produce piezas de metal que tienen forma cilíndrica. Se toma una muestra de
tales piezas y se encuentra que los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01 y
1,03 centímetros. Utilice estos datos para calcular tres tipos de intervalos y hacer interpreta-
ciones que ilustren las diferencias entre ellos en el contexto del sistema. Para todos los cálcu-
los suponga una distribución aproximadamente normal. La media muestral y la desviación
estándar para los datos dados son X = 1.0056 y s = 0.0246.
a) Calcule un intervalo de confianza del 99% sobre la media del diámetro.
b) Calcule un intervalo de predicción del 99% sobre el diámetro medido de una sola pieza
de metal tomada de la máquina.
c) Calcule los límites de tolerancia del 99% que contengan 95% de las piezas de metal pro-
ducidas por esta máquina.

8. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra de las pie-
zas y los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01 y 1,03 centímetros. Calcule
un intervalo de confianza del 99% para la media del diámetro de las piezas que se manufac-
turan con esta máquina. Suponga una distribución aproximadamente normal.

9. Se registran las siguientes mediciones del tiempo de secado, en horas, de cierta marca de
pintura vinílica: 2,8; 3,3; 5,6; 3,7; 2,8; 4,4; 4,0; 5,2; 3,0; 4,8; 3,4; 2,5; 4,8; 2,9; 3,6. Suponga que las
mediciones representan una muestra aleatoria de una población normal y con base en esto
calcule el intervalo de predicción del 95% para el tiempo de secado de la siguiente prueba
de pintura.

10. Se están estudiando las propiedades de resistencia a la tensión de un determinado tipo de


hilo. Con ese fin se prueban 50 piezas en condiciones similares y los resultados que se obtie-
nen revelan una resistencia a la tensión promedio de 78,3 kilogramos y una desviación están-
dar de 5,6 kilogramos. Suponga que la resistencia a la tensión tiene una distribución normal
y con base en esto calcule un límite de predicción inferior al 95% de un solo valor observado
de resistencia a la tensión. Además, determine un límite inferior de tolerancia del 95% que
sea excedido por el 99% de los valores de resistencia a la tensión.

66
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Intervalos de confianza para dos parámetros


Tema n.° 5

1. Intervalos de confianza para dos proporciones

Requisitos:
™ Se tienen dos proporciones de dos muestras aleatorias simples que son independientes.
™ Para ambas muestras el número de éxitos es de al menos 5 y el número de fracasos es de al menos 5.

Notación:
proporción de la población
 tamaño muestral
 números de éxitos en la muestra
la porción muestral


Se adjuntan los significados correspondientes a
que provienen de la población 2.

Estimador:

Estimado del intervalo de confianza de

El estimado de intervalo de confianza de es:

Donde el margen de error está dado por:

Ejemplo n.° 1: En una muestra aleatoria de 85 soportes para el cigüeñal de un motor de automóvil, 10
tienen un terminado que es más rugoso de lo que las especificaciones permiten. Y se toma una segun-
da muestra de 85 ejes y el número de ejes defectuosos en esta segunda muestra es de 8. Determine
un intervalo de confianza aproximado del 95% para la diferencia en la proporción de los soportes
defectuosos producidos.

Solución:

=
1.° El estudio previo sugiere que: n1 85
= n2 85
∧ 10 ∧ ∧
p=
1 = 0,118 entonces 1 p1 =0,882
q1 =−
85

67
∧ 8 ∧ ∧
p=
2 = 0,0941 entonces 1 p2 =0,906 .
q2 =− Con un nivel de confianza del 95%, tenemos
85
zα z=
α = 0,05, entonces = 0,025 1,96 .
2

2° Calculando el margen de error E :

Reemplazando los valores en E

3° Calculando el intervalo de confianza

Reemplazando los valores:

Interpretación: Este intervalo de confianza incluye el cero, así que, con base en los datos muestrales,
parece poco probable que los cambios hechos en el proceso de acabado de la superficie hayan
reducido el número de soportes defectuosos para cigüeñal producidos por el proceso.

Ejemplo n.° 2: Se desean comparar las proporciones de ranas pipiens que se encuentran en dos re-
giones independientes de México. Para dar una estimación se ha tomado una muestra de 80 ranas
observando que 5 de ellas son de este tipo en la zona A, habiendo 8 de 100 en la zona B. Halle el inter-
valo de confianza al nivel de confianza del 0,95 para la diferencia de proporciones de ranas pipiens.

Solución:

=
1.° El estudio previo sugiere que: n1 80
= n2 100
∧5 ∧ ∧
= 0,0625 entonces q1 =−
p=
1 1 p1 =0,9375
80
∧ 8 ∧ ∧
p 2 = 0,08 entonces q2 =−
= 1 p2 =0,92 . Con un nivel de confianza del 95%, tenemos
100
α = 0,05, entonces =
zα z=
0,025 1,96 .
2

68
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

2° Calculando el margen de error E :

Reemplazando los valores en E :

3° Calculando el intervalo de confianza

Reemplazando los valores:

Interpretación: El intervalo de confianza de la diferencia de proporciones de ranas de pipiens que se


encuentran en dos regiones independientes de México a un nivel de confianza del 95% está entre –
9,26% y 5,76%. Este intervalo de confianza incluye el cero, esto significa que no existe una diferencia
significativa entre las dos proporciones de ranas pipiens.

Ejemplo n.° 3: En un estudio sobre el contacto corporal madre-niño, Sadurní y Rostan (2002) observaron
un incremento de contacto en 27 de 32, en los períodos de regresión y 9 de 63 para periodos de no
regresión. Halle un estimado de intervalo de confianza del 95% de la diferencia de las dos proporcio-
nes poblacionales.

Solución:
=
1.° El estudio previo sugiere que: n1 32
= n2 63
∧ 27 ∧ ∧
p=
1 = 0,844 entonces 1 p1 =0,156
q1 =−
32
∧ 9 ∧ ∧
p=2 = 0,143 entonces 1 p2 =0,857 .
q2 =− Con un nivel de confianza del 95%, tenemos
63
zα z=
α = 0,05, entonces = 0,025 1,96 .
2

2° Calculando el margen de error E :

69
Reemplazando los valores en E :

3° Calculando los intervalos de confianza

Reemplazando los valores:

Interpretación: En otras palabras, desde 0,549 hasta 0,853. De esta forma, aunque la mejor estimación
para la diferencia entre las proporciones es de 70%, el IC 95% va desde 55% hasta el 85%, demostrando
la imprecisión que proviene del uso de la muestra de tamaño limitado. Este intervalo no incluye el valor
cero, lo que corresponde con la diferencia que fue juzgada como estadísticamente significativa en el
artículo original después de aplicar la prueba del chi cuadrada.

2. Intervalos de confianza para dos medias

Requisitos:
™ σ1 y σ2 Se desconoce y no se hace la suposición sobre la igualdad σ1 y σ2
™ Las dos muestras son independientes.
™ Ambas muestras son aleatorias
™ Cualquiera o ambas de estas condiciones satisface: Los tamaños muéstrale son grandes (con
n1 > 30 y n2 > 30) o ambas muestras provienen de poblaciones que tienen distribuciones
normales.

Notación: Que provienen de la población 1


µ1  Media población
X1  Media muestral
n1  tamaño muestral
Se adjuntan los significados correspondientes a
que provienen de la población 2.

Estimador

Grados de libertad

70
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Estimado del intervalo de confianza de

El estimado de intervalo de confianza de es:

Donde el margen de error está dado por:

Ejemplo n.° 2: Un agente de compras de una compañía está tratando de decidir si comprar la marca
A o la maraca B de cierto tipo de focos ahorradores de energía. Para estimar la diferencia entre las
dos marcas, se lleva a cabo un experimento con dos muestras aleatorias independientes de 10 focos
de cada marca; las medias de vida útil respectivas resultaron de 1,230 horas y 1,190 horas. Estimar la
verdadera diferencia de las dos medias de vida útil, mediante un intervalo de confianza del 95%. ¿Es
acertada la decisión del agente si adquiere cualquiera de las dos marcas? Suponga que las dos po-
blaciones tienen distribución normal con desviaciones estándares respectivas de 120 y 60 horas.

Solución: La estimación puntual de µ1 − µ 2 es la diferencia de las medias muestrales

σ 12 σ 22 1202 602
El error estándar es: σ X = + = + = 42, 43
1−X2
n1 n2 10 10

Z0
Para el grado de confianza del 95% se encuentra: = Z=α 0,975 1,96
Z=
1−
2

Los límites de confianza inferior y superior respectivamente de µ 1 − µ 2 son:

Aplicando:

(X 1 )
− X 2 ± E = 40 ± 1, 96 × 42, 43 = 40 ± 83,1628

Luego, el intervalo de confianza aproximado del 95% para µ 1 − µ 2 es:

−43,16 < µ1 − µ2 < 123,16


[ ]
Dado que µ1 − µ 2 = 0 ∈ −43,16;123,16 , se concluye que µ1 = µ 2 y que no hay diferencias signi-
ficativas entre las medias de las vidas útiles de los objetos de marcas A y B. Por tanto, el agente de
compras puede adquirir cualquiera de las dos.

71
Lectura seleccionada n.° 2
“¿Funciona la terapia de contacto?”.

Triola, M. (2009). ¿Funciona la terapia de contacto? En Estadística, p. 319. Recuperado de ht-


tps://docslide.net/education/estadistica-10e-triola.html

Actividad n.° 5
Foro de discusión sobre la lectura “¿Funciona la terapia de contacto?”.

Instrucciones

Ingrese al foro y participe con comentarios críticos y analíticos del tema “¿Funciona la terapia de
contacto?”.

• Lea y analice los temas 4 y 5 del manual.

• Responda en el foro a las preguntas acerca de la lectura.

¿Cuál es propósito de lectura?

¿Cuál es la relación entre la lectura propuesta y la estadística?

En la lectura se señala que los terapeutas de contacto participaron en 280 pruebas de su capaci-
tación. En cada ensayo se pide a un terapeuta que identifique la mano que está debajo de Emily
Rosa. De los 280 ensayos, los terapeutas acertaron en 123 ocasiones. Los resultados muestrales son

n=280 y p = 123/280 = 0,439286. (En vez de utilizar 0,44 para la proporción muestral, empleamos de-
cimales adicionales para que los cálculos posteriores no se vean afectados por un error de redon-
deo).

™ Calcule el margen de error E que corresponde a un nivel de confianza del 95%.

™ Calcule el estimado del intervalo de confianza del 95% de proporción poblacional p .

™ Con base en los resultados, ¿qué podemos concluir acerca de la eficacia de la terapia de
contacto?

72
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 6

Instrucción: Desarrolle los siguientes ejercicios con su fundamentación respectiva.

1. Una noticia en el periódico dice que, de 1000 personas encuestadas sobre una cuestión,
556 se muestran a favor y 444 en contra, y concluye afirmando que el 55.6% de la población
se muestra a favor con un margen de error de ±3%. ¿Cuál es el nivel de confianza de esta
afirmación?

Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros
de aluminio utilizados en la fabricación de aviones comerciales pequeños. De la experien-
cia pasada con el proceso de fabricación de largueros y del procedimiento de prueba, se
supone que la desviación estándar de las resistencias a la tensión es conocida. Los datos
obtenidos aparecen en la siguiente tabla:

Media muestral de la Desviación


Clase Tamaño
resistencia a la estándar
de de la
tensión de la población
larguero muestra
(kg/mm2) (kg/mm2)
1 10 87,6 1,0
2 12 74,5 1,5

a) Sobre la base de esta información entregada previamente, encuentre un intervalo de


confianza para la diferencia entre los promedios poblacionales de la resistencia a la ten-
sión con un nivel de confianza del 90%.
b) De acuerdo con el resultado obtenido en a), ¿qué puede concluir sobre la diferencia
entre los promedios poblacionales con relación a la resistencia?

2. Una compañía de taxis trata de decidir si compra neumáticos de la marca A o de la B para


su flotilla de taxis. Para estimar la diferencia entre los promedios de desgaste, a través de kiló-
metros recorridos, de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada
marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio
para la marca A 36.300 kilómetros, con una desviación estándar de 5000 kilómetros, y para
la marca B 38.100 kilómetros con una desviación estándar de 6100 kilómetros. Calcule un
intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que
las poblaciones se distribuyen de forma aproximadamente normal para la marca A y para la
marca B. Asuma que las dos varianzas poblacionales son distintas.

3. Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo hu-
mano para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que
cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye nor-
malmente. Se eligió al azar a doce personas para ensayar cada fármaco y se registró el tiem-
po en minutos que tardó en alcanzar un nivel específico en la sangre. Calcule un intervalo
de confianza del 95% para la diferencia del tiempo promedio. Suponga varianzas iguales.

73
Medicamento A Medicamento B
nA = 12 nB = 12
XA = 26.8 XB = 32.6

SA2= 15,57 SB2 = 17,54

4. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nue-
vo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se
encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de
los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares
y cada uno de estos se somete a una tensión hasta que se rompe. La siguiente tabla muestra
las tensiones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:

Proceso
449 401 476 421 459 438 481 411 456 427 459 445
estándar
Proceso
462 448 435 465 429 472 453 459 427 468 452 447
nuevo

Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e indepen-
dientes, obtener los intervalos de confianza estimados del 95 y 99% para la diferencia entre
los dos procesos. Interprete los resultados.

5. Un artículo publicado dio a conocer los resultados de un análisis del porcentaje de calcio
en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio
indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite
que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de
cemento estándar, se encontró que el porcentaje promedio de calcio es de 90 con una des-
viación estándar de 5; los resultados obtenidos con 15 muestras de cemento contaminado
con plomo fueron de 87 en promedio con una desviación estándar de 4. Supóngase que el
porcentaje de calcio está distribuido de manera normal.

Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias de los dos
tipos de cementos. Supóngase que las dos poblaciones normales tienen la misma varianza.

74
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Glosario de la Unidad I
E
Error estándar de una estadística
Es la desviación estándar de su distribución de muestras. Si el error estándar involucra parámetros
desconocidos cuyos valores pueden estimarse, la sustitución de estas estimaciones en el error están-
dar de como resultado un error estándar estimado (Triola, 2009).

Estadístico
Es una medición numérica que describe algunas características de una muestra. Se denota con las
letras minúsculas latinas, como, por ejemplo: Media aritmética: X .

Estimador
Las dos aplicaciones de la estadística inferencial implican el uso de datos muestrales, para estimar,
primero, el valor de los parámetros de una población (es decir, estimación de parámetros), y, segun-
do, probar alguna aseveración acerca de una población (es decir, prueba de hipótesis).

I
Intervalo de confianza
Un intervalo de confianza (o estimado del intervalo) es un rango (o un intervalo) de valores que se
usa para estimar el valor real de un parámetro de población. El intervalo de confianza suele abre-
viarse como IC.

M
Muestra
En un subconjunto de miembros seleccionados de una población. Para que una muestra sea repre-
sentativa, y por lo tanto útil, debe reflejar las similitudes y diferencias encontradas en la población;
ejemplificar las características de la misma.

N
Nivel de confianza
El nivel de confianza es la probabilidad 1 — α (a menudo expresada como el valor de porcentaje
equivalente), que es la proporción de veces que el intervalo de confianza realmente contiene el
parámetro de población, suponiendo que el proceso de estimación se repite un gran número de
veces. El nivel de confianza también se llama grado de confianza o coeficiente de confianza.

P
Parámetro
Es una medición numérica que describe algunas características de una población. También se le
denomina estadísticos muestrales. Se denota con las letras mayúsculas griegas, como, por ejemplo:
Media poblacional: µ ; Desviación estándar: σ
; Varianza:
2
σ
.

Población
Es el conjunto completo de todos los elementos (puntuaciones, personas, animales, medidas, et-
cétera) que se van a estudiar. El conjunto es completo porque incluye a todos los sujetos que se
estudiarán. Cuando el número de elementos que conforman la población es ilimitado, se dice que
la población es finita; en cambio, cuando el número de elementos de una población es ilimitado o
bien muy grande para considerarlo como tal, se tiene una población infinita.

V
Valores críticos
Es el número en la línea limítrofe que separa estadísticos muestrales que tienen mayor probabilidad
de ocurrir de aquellos que no tienen probabilidad de ocurrir. El número Zα /2 es un valor crítico, una
puntuación Z con la propiedad de separar un área de α / 2 en la cola derecha de la distribución
normal estándar.

75
Bibliografía de la Unidad I
Devore, J. L. (1998). Probabilidades y estadística para ingeniería y ciencias (4a ed.). México:
International Thomson.

Montgomery, D. (2013). Applied statistics and probability for engineers(6a ed.). EE. UU.: Willey.

Montgomery, D. y Runger, George (1 996). Probabilidades y estadística aplicadas a la ingeniería


(1a ed.). EE.UU.

Triola, M. F. (2009). Estadística(10a ed.). México: Pearson Educación.

76
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Autoevaluación n.o 1
Instrucciones:
✓ El examen tiene una duración de 70 minutos.
✓ El procedimiento y respuesta (fundamentación) se tomará en cuenta para la calificación.
✓ Utilice calculadora.

1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) El estudio prospectivo es cuando los datos se reunirán de hechos pasados. ( )


b) En una muestra aleatoria simple, los miembros de la población tienen la
( )
misma posibilidad de ser elegidos.
c) En el muestreo estratificado se divide a la población en al menos dos sub-
( )
grupos y se obtiene una muestra de cada subgrupo.
d) Un estudio a ciegas es cuando el sujeto sabe que está recibiendo un trata-
( )
miento o placebo.

2. La tabla adjunta muestra las utilidades (en dólares) obtenidas en todos los contratos ejecu-
tados por una empresa de Huancayo, en el año 2016:

N.º Monto N.º Monto N.º Monto N.º Monto


1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20

a) Determine una muestra de tamaño 18 mediante el muestreo sistemático, describiendo los


procedimientos correspondientes. El contrato n.o 4 es el elemento de arranque.
b) A partir de los datos de la muestra obtenida, proporcione un intervalo de confianza del
99% para la media poblacional de las utilidades de la empresa. Interprete y grafique.

3. Determine el intervalo de confianza del 95% para la varianza poblacional de las utilidades
obtenidas por la empresa, suponiendo que los datos provienen de una distribución normal.
Grafique e interprete.

77
4. Cuatro de cada diez familias de San Carlos poseen un celular de última generación.
a) Halle e interprete el intervalo de confianza para la proporción poblacional de familias
que cuentan con ese nuevo celular, en muestras de 25 familias, correspondiente al 94%
de confianza.
b) Halle el estimado puntual.

5. Antony registró la antigüedad (en años) de taxis y automóviles elegidos al azar en la ciudad
de Huancayo, como se muestra.
Taxis: 8; 6; 11; 7; 9; 10; 8; 10
Automóviles: 5; 3; 4; 6; 6; 8; 10; 7
Construya el intervalo de confianza del 95% para la diferencia entre las dos medias pobla-
cionales.

78
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

UNIDAD II
PRUEBA DE HIPÓTESIS Y PRUEBAS NO
PARAMÉTRICAS
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD II

CONTENIDOS EJEMPLOS ACTIVIDADES

AUTOEVALUACIÓN BIBLIOGRAFÍA

ORGANIZACIÓN DE LOS APRENDIZAJES


RESULTADO DE APRENDIZAJE: Al finalizar la unidad, el estudiante será capaz de realizar pruebas de
hipótesis y pruebas no paramétricas para una y dos poblaciones a partir de situaciones estadísticas
reales.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema n.° 1: Hipótesis y tipos de pruebas de hipótesis ✓ Identifica las clases de ✓ Valora la impor-
1. Hipótesis hipótesis. tancia de las
2. Prueba de hipótesis ✓ Plantea pruebas de hi- pruebas de hipó-
3. Componente de una prueba de hipótesis pótesis. tesis, es veraz y
4. Estadístico de prueba
✓ Identifica correctamen- pertinente al brin-
5. Región crítica, nivel de significancia, valor crítico y valor P
te los valores para la dar conclusiones
6. Tipos de errores
7. Potencia de una prueba de hipótesis aplicación de las prue- con base en los
8. Tipos de prueba de hipótesis bas de hipótesis. resultados para
✓ Realiza la prueba de hi- una buena toma
Tema n.° 2: Métodos para realizar pruebas de hipótesis pótesis. de decisiones.
1. Método del valor P ✓ Interpreta el resultado
2. Método tradicional de la prueba de hipó-
3. Método de intervalos de confianza tesis.
Tema n.° 3: Pruebas de hipótesis para una muestra Actividad n.° 8
1. Prueba de hipótesis sobre una proporción poblacional P
Los estudiantes participan
2. Prueba de hipótesis respecto a la media, σ conocida en el foro de discusión so-
3. Prueba de hipótesis respecto a la media, σ
desconocida bre la lectura “¿La Estadís-
4. Prueba de hipótesis respecto de una varianza tica en el trabajo?”.

Lectura seleccionada n.° 3: Actividad n.° 9


“La estadística en el trabajo” (Triola, 2009).
Actividad n.° 10
Tema n.°4: Prueba de hipótesis para dos muestras
1. Prueba de hipótesis sobre dos proporciones poblacionales P
Actividad n.° 11
2. Prueba de hipótesis sobre dos medias independientes, σ1 y σ 2 conoci-
das Actividad n.° 12
3. Prueba de hipótesis sobre dos medias independientes, σ1 y σ 2 desco-
Control de lectura n. °1
nocidas
4. Prueba de hipótesis respecto a dos varianzas

Lectura seleccionada n.° 4:


“La estadística en el trabajo” (Triola, 2009).

Tema n.° 5: Pruebas de bondad, tablas de contingencia


1. Prueba de bondad
2. Tabla de contingencia

Tema n.° 6: Pruebas de independencia y homogeneidad


1. Prueba de independencia
2. Prueba de homogeneidad

Autoevaluación n.° 2

79
Hipótesis y tipos de pruebas de hipótesis
Tema n.° 1

En la Unidad I he mostrado cómo estimar un parámetro a partir de los datos contenidos en una mues-
tra representativa. Este puede ser un número (estimador puntual) o un intervalo de valores (intervalos
de confianza). Sin embargo, muchos problemas de la ciencia, ingeniería y administración requieren
tomar decisiones entre aceptar o rechaza una proposición respecto a un parámetro de una pobla-
ción. Estas proposiciones reciben el nombre de hipótesis, siendo uno de los aspectos más útiles de la
estadística inferencial puesto que todos los problemas naturales y sociales del mundo requieren de
una toma de decisiones, pruebas o experimentos que son formulados a través de una prueba de hi-
pótesis.

Es así, que en esta unidad se desarrollarán los tipos de hipótesis, métodos y pruebas de hipótesis con
sus respectivas características con respecto a una y dos poblaciones en estudio, para finalizar con el
ajuste de pruebas y homogeneidad.

1. Hipótesis

Definición: En estadística, una hipótesis es una aseveración o afirmación acerca de una propiedad de
una población (Triola, 2009, p. 386).

Definición: Una hipótesis estadística es una proposición sobre parámetros de una o más poblaciones
(Montgomery & Runger, 1996, p. 371).

1.1. Prueba de hipótesis (o prueba de significancia): Es un procedimiento estándar para pro-


bar una aseveración acerca de una propiedad de una población.

1.2. Componente de una prueba de hipótesis

1.2.1. Hipótesis nula

Es la afirmación de que el valor de un parámetro de población (como una proporción, media o


desviación estándar) es igual a un valor aseverado.

Notación: H0
Ejemplo n.° 1: Hipótesis nulas que incluyen proporciones, medias y desviaciones estándares:

Desviación
Parámetro Proporciones Medias
estándar
Hipótesis
nulas H0 : p = 0, 5 H0 : µ =98,6 H0 : σ =15
típicas

La hipótesis nula se prueba en forma directa, en el sentido de que suponemos que es verdadera,
y llegamos a una conclusión para rechazar H0 o no rechazar H0 .

80
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

1.2.2. Hipótesis alternativa

Es la afirmación de que el parámetro tiene un valor que, de alguna manera, difiere de la hipótesis
nula.

Notación: H1 o Hα o HA . La forma simbólica de la hipótesis alternativa debe emplear alguno de


estos símbolos: <, >

Ejemplo n.° 1: Hipótesis alternativas que incluyen proporciones, medias y desviaciones estándares:

Parámetros Hipótesis alternas


Proporciones H1 : p > 0, 5 H1 : p < 0, 5 H1 : p ≠ 0, 5

Medias H1 : µ > 98, 6 H1 : µ < 98, 6 H1 : µ ≠ 98, 6

Desviación
H1 : σ > 15 H1 : σ < 15 H1 : σ ≠ 15
estándar

Los pasos para identificar una hipótesis nula y/o alternativa se muestran en el siguiente esquema:

INICIO

Identifique la aseveración o hipótesis específica por


probarse y exprésela de forma simbólica

Dé la forma simbólica de que debe ser verdadera


cuando la aseveración original es falsa.

De las dos expresiones simbólicas obtenidas hasta


ahora, permita que la hipótesis alternativa H1 sea la
que no contenga igualdad, de manera que H1 use
los símbolos < o >o ≠ : Permite que la hipótesis nula
Ho sea la expresión simbólica de que el parámetro
iguala el valor fijo que se somete a consideración.

Figura 22. Identificación de H y H .Tomado de Triola, 2009, p. 390.


1 o

1.3. Estadístico de prueba

Es un valor que se utiliza para tomar la decisión sobre la hipótesis nula, y se calcula convirtiendo

al estadístico muestral (como la proporción muestral p , la media muestral X o la desviación están-
dar muestral S ) en una puntuación (como Z , t o X2 ), bajo el supuesto de que la hipótesis nula es
verdadera.

En esta unidad emplearemos los siguientes estadísticos de prueba:

81
Estadísticos de prueba
Proporciones Medias Desviación estándar

p −p X− µ X−µ ( n − 1) S2
Z= = Z = ,o t X2 =
pq / n σ/ n S/ n σ2

El estadístico de prueba para una media usa la distribución normal o la distribución t de Student,
dependiendo de los requisitos que se satisfagan.

1.4. Región crítica, nivel de significancia, valor crítico y valor P

Valor crítico

Región crítica
Zona de no o zona de
Rechazo rechazo

1–a

Z=0 Z = 1,96 Nivel de


significancia

Figura 23. Región crítica, valor crítico y estadístico de prueba crítico.


Fuente: Elaboración propia

Región crítica (o región de rechazo): Es el conjunto de todos los valores del estadístico de prueba
que pueden provocar que rechacemos la hipótesis nula.

Nivel de significancia (denotado por α ): Es la probabilidad de que el estadístico de prueba caiga


en la región crítica cuando la hipótesis nula es verdadera. Si el estadístico de prueba cae en la
región crítica, rechazamos la hipótesis nula, de manera que α es la probabilidad de cometer el
error de rechazar la hipótesis nula cuando es verdadera. Se trata de la misma α presentada en la
Unidad I, donde definimos el nivel de confianza para un intervalo de confianza como la probabi-
lidad ( 1 − α ) . Las opciones comunes para α son 0,05, 0,01 y 0,10, aunque la más común es 0,05.

Valor crítico: Es cualquier valor que separa la región crítica (donde rechazamos la hipótesis nula)
de los valores del estadístico de prueba que no conducen al rechazo de la hipótesis nula. Los
valores críticos dependen de la naturaleza de la hipótesis nula, de la distribución muestral que se
aplique y del nivel de significancia α . Observe la figura 23, donde el valor crítico de z = 1.645 co-
rresponde a un nivel de significancia de α =0, 05 (valores mencionados en la Unidad I).

82
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Cálculo de los valores críticos:

Para el cálculo de los valores críticos debemos tener en cuenta la distribución que se nos presenta
a través de las colas.

Las colas en una distribución son las regiones extremas limitadas por los valores críticos. Algunas
pruebas de hipótesis incluyen dos colas, otras la cola derecha y otras la cola izquierda.

Zona crítica

a/2 a/2

– ZL ZL

Valores críticos
Signo usado H1 ≠ ⇒ Pruebas de dos colas

Figura 24. Cálculo de valores críticos. Prueba de dos colas.


Fuente: Elaboración propia

Prueba de dos colas: La región crítica se encuentra en las dos regiones extremas (colas) bajo la
curva. En la prueba de dos colas, el nivel de significancia está dividido equitativamente entre las
dos colas que constituyen la región crítica. Por ejemplo, en una prueba de dos colas con un nivel
de significancia de α = 0,05, existe un área de 0,025 en cada una de las dos colas.

Zona crítica
a

– ZL
Valor crítico
Signo usado H1 < ⇒ Prueba de cola izquierda

Figura 25. Cálculo de valores críticos. Prueba de cola izquierda.


Fuente: Elaboración propia

Prueba de cola izquierda: La región crítica se encuentra en la región extrema izquierda (cola) bajo
la curva.

83
Zona crítica
a

Z=0 ZL

Valor crítico
Signo usado H1 > ⇒ Prueba de cola derecha

Figura 26. Cálculo de valores críticos. Prueba de cola derecha.


Fuente: Elaboración propia

Prueba de cola derecha: La región crítica se encuentra en la región extrema derecha (cola) bajo
la curva.

En las pruebas de cola derecha o cola izquierda, el área de la región crítica en una cola es α
(véanse las figuras 25 y 26).

El valor P (o valor de probabilidad): Es la probabilidad de obtener un valor del estadístico de prue-


ba que sea al menos tan extremo como el que representa a los datos muestrales, suponiendo que
la hipótesis nula es verdadera. La hipótesis nula se rechaza si el valor P es muy pequeño, tanto
como 0,05 o menos.

1.5. Tipos de errores

Cuando probamos una hipótesis nula, llegamos a la conclusión de rechazarla o no rechazarla.


Tales conclusiones pueden ser correctas o incorrectas.

La siguiente tabla muestra los dos distintos tipos de errores que pueden cometerse, junto con los
dos tipos de decisiones correctas.

ERRORES DE TIPOS I Y II
Verdadero estado de las cosas
H0  Es verdadera H0  Es falsa
Error de tipo I
Decimos Decisión
(Rechazo H0
rechazar la H0 Correcta
verdadera) α

Decisión Decimos no Decisión Error de tipo II


rechazar la H0 Correcta (Rechazo H0 falsa) β

Error tipo I: El error de rechazar la hipótesis nula cuando en realidad es verdadera. También se le
conoce como el nivel de significancia.

84
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Notación: α (alfa)  Probabilidad de un error tipo I (la probabilidad de rechazar H0 verdadera).

= (
( error tipo I) P rechazar H0 |H0 es verdadera
α P= )
Error tipo II: El error de no rechazar la hipótesis nula cuando en realidad es falsa.

Notación: β (beta)  Probabilidad de un error tipo II (la probabilidad de rechazar H0 falsa)

= (
( error tipo II) P aceptar H0 |H0 es falsa
β P= )
1.6. Potencia de una prueba de hipótesis

Es la probabilidad de rechazar la hipótesis nula H0 , cuando la hipótesis nula es verdadera.

El valor de la potencia es ( 1 − β ) , la potencia puede interpretarse como la probabilidad de re-


chazar de manera correcta una hipótesis nula falsa. A menudo las pruebas estadísticas se com-
prueban mediante las comparaciones de sus propiedades de potencia. Es una medida muy des-
criptiva y concisa de la sensibilidad de una prueba, es decir, es la capacidad de una prueba para
detectar diferencias.

1.7. Tipos de prueba de hipótesis

De las definiciones que se presentan en esta sección, se generan solo dos tipos de pruebas de
hipótesis.

1.7.1. Pruebas de hipótesis bilaterales

Esta prueba se determina cuando la hipótesis alterna es diferente, donde la región crítica se se-
para en dos partes (dos colas) con la misma probabilidad en cada una (en cada cola: α / 2 ).
Como se muestra en la figura 27:

H0 : Parametro = X

H1 :Parametro ≠ x

H0
H1 H1

Región de Región de
rechazo rechazo

a/2 a/2

Región de aceptación

Parámetro = X

85
H0 : µ = µ 0 H0 : p = p0
Ejemplo: ;
H1 : µ ≠ µ 0 H1 : p ≠ p0

Figura 27. Prueba de hipótesis bilaterales.


Fuente: elaboración propia

1.7.2. Pruebas de hipótesis unilaterales: Esta prueba se determina cuando la hipótesis al-
terna genera una desigualdad:

™ Cuando la hipótesis alterna es menor genera que la región crítica se ubique a la izquierda
(cola a la izquierda) con una probabilidad de α . Como se muestra en la figura 28.

H0 : Parámetro ≥ x
H1 :Parámetro < x
H1
H0

Región de
rechazo

Región de aceptación

Parámetro = X
H0 : µ = µ 0 H0 : p = p0
Ejem.: ;
H1 : µ < µ 0 H1 : p < p0

Figura 28. Prueba de hipótesis unilateral izquierda.


Fuente: Elaboración propia

™ Cuando la hipótesis alterna es mayor, genera que la región crítica se ubique a la derecha
(cola a la derecha) con una probabilidad de α . Como se muestra en la figura 29

H0 : Parámetro ≤ x
H1 :Parámetro > x

86
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

H1
H0

Región de
rechazo

Región de aceptación

Parámetro = X
H0 : µ = µ 0 H0 : p = p0
Ejemplo: ;
H1 : µ > µ 0 H1 : p > p0

Figura 29. Prueba de hipótesis unilateral derecha.


Fuente: Elaboración propia

Ejemplo n.° 1: Un fabricante de fibras textiles está investigando una nueva fibra para tapicería,
la cual tiene una elongación media por hilo de 12 kg con una desviación estándar de 0,5 kg. La
=
compañía desea probar la hipótesis H0 : µ 12 contra H1 :µ < 12 ; para ello, utiliza una muestra
aleatoria de cuatro especímenes.

a) ¿Cuál es la probabilidad del error tipo I si la región crítica está definida como X < 11,5 kg ?
b) Encuentre β para el caso donde la verdadera elongación promedio es de 11,25 kg.

Solución:

X = 11,5 kg
H0 : µ =12 µ =12 kg
Sea: Además:
H1 : µ < 12 σ =0,5 kg
n=4
a) Para calcular la probabilidad del error tipo I, se tienen los siguientes pasos:

1.° Dada que la desviación estándar de la elongación del hilo es σ =0,5 , como la elonga-
ción de hilo tiene una distribución, para que se apliquen las condiciones del teorema de
límite central, de modo que la distribución de la media muestral es aproximadamente nor-
mal con media µ =12 kg y desviación estándar de σ/ =
n 0,5 / =
4 0,25
2.° Como se presenta una distribución normal, ese estadístico es:
X−µ
Z=
σ/ n
3.° Representación de la región crítica para X < 11,5 kg . La zona sombreada corresponde a
la región crítica (cola a la izquierda).

87
y

x
11,50 11,5 11,75 12 12,5 13,0 13,5

Figura 30. Zona de rechazo unilateral izquierda.


Fuente: Elaboración propia.

4.° Cálculo del valor de Z que corresponde al valor crítico 11,50.

X − µ 11,5 − 12
Z = = = −2
σ/ n 0,25

Buscando en la Tabla A–2 se tiene:

Z =−2 ⇒ Z =0,0228

5.° Cálculo de la probabilidad de cometer el error tipo I, se tiene:


=α P= (
( error tipo I) P rechazar H0 |H0 es verdadera )

= (
α P X < 11,5|=
µ 12)

α P ( Z < −2)
=

α =0,0228

Esto implica que el 2,28% de todas las muestras aleatorias conducirán a un rechazo de la hipó-
tesis H0 : µ =12 kg cuando la verdadera elongación del hilo es en realidad 12 kg.

b) Encuentre β para el caso donde la verdadera elongación promedio es de 11,25 kg.

Para el cálculo de probabilidad de error tipo II

X = 11,25 kg
H : µ =12 µ =12 kg
Sea: 0 Además:
H1 : µ > 12 σ =0,5 kg
n=4
Para calcular la probabilidad del error tipo II, se tienen los siguientes pasos:

1.° Dado que la desviación estándar de la elongación del hilo es σ =0,5 , como la elon-
gación de hilo tiene una distribución, para que se apliquen las condiciones del teorema
de límite central, de modo que la distribución de la media muestral es aproximadamente
normal con media µ =12 kg y desviación estándar de σ/ =
n 0,5 / =
4 0,25

88
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

X−µ
2.° Como se presenta una distribución normal, ese estadístico es: Z=
σ/ n

3.° Representación de la región crítica para X > 11,25 kg . La zona sombreada corresponde a
la región crítica(cola a la izquierda).

x
11,50 11,5 11,75 12 12,5 13,0 13,5

Figura 31. Región crítica, cola a la izquierda.


Fuente: Elaboración propia.

4.° Cálculo del valor de Z que corresponde al valor crítico 11,25.

X − µ 11,25 − 12
Z= = = −1
σ/ n 0,25
Buscando en la Tabla A–2, se tiene:

Z =−1 ⇒ Z =0,1587

5.° Cálculo de la probabilidad de cometer el error tipo II, se tiene:

=β P=

(
( error tipo II) P aceptar H0 |H0 es falsa )

= (
β P X > 11,25|=
µ 12)

β P ( Z < −1)
=

β =0,1587
Esto implica que el 15,87% de todas las muestras aleatorias conducirán a una aceptación
de la hipótesis H0 : µ =12 kg cuando la verdadera elongación del hilo es en realidad
11,25 kg.

89
Actividad n.° 7
Instrucción: Desarrolle los siguientes ejercicios con su fundamentación respectiva.

1. En los siguientes ejercicios exprese la hipótesis nula y la alterna mediante la simbología


( µ, σ y p ) .
a) La mayoría de hogares del distrito de Huancayo tiene telefóno.
b) La altura media de la rodilla de hombre sentado es de 20,7 cm.
c) El porcentaje de empleados que consigue trabajo por medio de la universidad no es
mayor que el 2%.
d) El peso medio de mujeres que han ganado el título de Miss América es igual a 54 kg.

2. En los siguentes ejercicios, calcule los valores Zcríticos, considerando que tienen una distribu-
ción normal.
a) Prueba de dos colas, α =0,05
=b) α 0,10;H1 es p > 0,18
=c) α 0,02; H1 es p < 0,19

3. En los siguientes ejercicios, calcule el valor de P. Sugerencia: consulte figura 29


a) El estadístico de prueba, en una prueba de cola derecha, es Z = 1,00 .
b) Si H1 : p ≠ 1 / 4 , el estadístico de prueba es Z = −1,75 .
4. Calule en los siguientes ejercicios los tipos de errores I y II correspondientes ala hipótesisi dada.
a) La proporción de teléfonos privados en Nevada es de 0,524.
b) La proporción de demandas por negligencia médica resueltas es de 0,25.

5. Se sabe que la duración, en horas, de un foco de 75watts tiene una distribución aproxima-
damente normal, con una desviación estándar de 25 horas. Se toma una muestra aleatoria
de 20 focos, la cual resulta tener una duración promedio de 1014 horas.
a) ¿Existe evidencia que apoye la afirmación de que la duración promedio del foco es ma-
yor que 1000 horas? Utilice un α = 0.05.
b) ¿Cuál es el valor P para la prueba?
c) ¿Cuál es el valor de β para la prueba del inciso a) si la verdadera duración promedio del
foco es de 1050 horas?

6. En un invierno con epidemia de gripe, una compañía farmacéutica bien conocida estudió
2000 bebés para determinar si la nueva medicina de la compañía era efectiva después de
dos días. Entre 120 bebes que tenían gripe y se les administró la medicina, 29 se curaron den-
tro de dos días. Entre 280 bebés que tenían gripe pero que no recibieron la medicina, 56 se
curaron dentro de dos días. ¿Hay alguna indicación significativa que apoye la afirmación de
la compañía de la efectividad de la medicina? Calcule el valor P.

90
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

7. Se estudia la tasa de combustión de dos propelentes sólidos utilizados en los sistemas de


escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de los dos pro-
pelentes tiene aproximadamente la misma desviación estándar de 3 cm/s. Se prueban dos
muestras aleatorias de 20 especímenes cada una, obteniéndose medias de 18 y 24 cm/s,
respectivamente. Pruebe la hipótesis de que los dos combustibles sólidos tienen la misma
rapidez promedio de combustión. Utilice un  α = 0.05.
a) ¿Cuál es el valor de P de la prueba?
b) ¿Cuál es el valor de  β para la prueba del inciso a) si la verdadera diferencia en la rapidez
promedio de combustión es 2,5 cm/s?

91
Métodos para realizar pruebas de hipótesis
Tema n.° 2

Existen tres métodos para realizar la aseverancia de hipótesis: El método del valor P, método tradicio-
nal y método por intervalos de confianza. Estos métodos nos permiten tener una aproximación donde
se diseña una alternativa a la simple conclusión de “rechazo” o “no rechazo” de una proposición
(hipótesis) que ayuda en la toma de decisiones. En esta sección mostraremos los pasos por seguir en
cada método, y constatará que tienen casi cierta similitud; es por ello que usted decidirá cuál de ellos
es más práctico para realizar la prueba de hipótesis de diversas situaciones problematizadas.

1. Método del valor P

Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede elegir de
forma arbitraria y determinar su tamaño. Si α  es demasiado grande, se puede reducir al hacer un
ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la muestra para compensar la
disminución que ocurre de manera automática en la potencia de la prueba (probabilidad de recha-
zar Ho dado que una alternativa específica es verdadera).

Los valores P se calculan según el procedimiento resumido que muestra la figura 32.

Inicio

Cola Cola
izquierda derecha
¿Qué tipo
de prueba?

Dos colas

¿El estadístico
Izquierda de prueba está Derecha
a la derecha o a
la izquierda del
centro?

Valor P = área a Valor P = dos veces el Valor P = dos veces el Valor P = área a
la izquierda del área a la izquierda del área a la derecha del la derecha del
estadístico de prueba estadístico de prueba estadístico de prueba estadístico de prueba

Valor P Valor P Valor P Valor P

1–a 1–a 1–a 1–a

a a a a

Estadístico Estadístico Estadístico Estadístico


de prueba de prueba de prueba de prueba

Figura 32. Procedimientos para el cálculo de valores P. Tomado de Estadística, por Triola, 2009, p.
396.

92
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de significan-
cia de 0,05 o 0,01 y seleccionar la región crítica en consecuencia. Entonces, por supuesto, el rechazo
o no rechazo estricto de Ho dependerá de esa región crítica. En la estadística aplicada, los usuarios
han adoptado de forma extensa la aproximación del valor P. La aproximación se diseña para dar al
usuario una alternativa a la simple conclusión de “rechazo” o “no rechazo”.

La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues casi
todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis entregan
valores de P junto con valores de la estadística de la prueba apropiada.

™ Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de
prueba es significativo.
™ El valor P es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula H0
™ El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando se utiliza un pro-
cedimiento de prueba especificado con un conjunto dado de información. Una vez que el valor
de P se haya determinado, la conclusión en cualquier nivel  α  particular resulta de comparar el
valor P con  α .
1. Valor p ≤ α   Rechazar H0  al nivel  α .
2. Valor p > α   No rechazar H0  al nivel  α

PRUEBA PRUEBA UNILATERAL


CRITERIO
BILATERAL IZQUIERDA DERECHA
Valor P = Suma de las dos áreas

Valor P Valor P

Gráfica
Z=0 Z=0
ZR ó calculada ZR ó calculada
ZR, - ZR calculadas

Valor e P 2 1 − Φ Z0 
  ( ) Φ Z0 ( )  ( )
1 − Φ Z0 

Planteamiento H0 : µ = µ 0 H0 : µ = µ 0 H0 : µ = µ 0
de hipótesis Ejem.: Ejem.: Ejem.:
H1 : µ ≠ µ 0 H1 : µ < µ 0 H1 : µ > µ 0

Nota: Sea: Φ ( Z ) Función de una distribución acumulada normal. Significa Φ ( Z ) = P ( Z ≤ z ) .


Además: Z0 es el valor del estadístico de prueba que se calcula.
Ejem.: Si el valor del estadístico de prueba calculado es: Z0 = 3,25 y puesto que la hipótesis
alternativa es de dos colas, el valor de P es:

 2[1 − 0,9994=
P 2 1 − Φ ( 3,25)=
= ] 0,0012 , además α =0,05
Entonces: p < α  0,0012 < 0,05  se rechaza H0 .

En esta sección: Z0 = Z , consideramos Z como el valor de estadístico calculado.

Este método está basado en el cálculo del valor P, estudiado en la sección anterior, para determinar
la aseveración de la prueba de hipótesis.

93
Pasos por seguir en este método.

1.° Identificar la hipótesis específica que será probada y expresarla en forma simbólica.

2.° Dé la forma simbólica que debe ser verdadera cuando la hipótesis original es falsa.

3.° De las dos expresiones simbólicas obtenidas hasta este momento, permita que la hipótesis al-
ternativa H1 sea la que contenga igualdad, de manera que la H1 , emplea los símbolos > o < o
≠ . Permita que la hipótesis nula H0 sea la expresión simbólica de que el parámetro es igual al
valor fijo considerado.

4.° Elija el nivel de significancia α con base en la gravedad de cometer un error de tipo I. Dismi-
nuya α si las consecuencias de rechazar una H0 verdadera son graves. Los valores 0,05 y 0,01
son muy comunes.

5.° Identifique el estadístico que se revela para esta prueba y determine su distribución muestral
(normal, t, chi-cuadrada).

6.° Calcule el estadístico de prueba y el valor de P. Dibuje una gráfica y muestre el estadístico de
prueba y el valor P.

7.° Rechace H0 si el valor de P es menor o igual que el nivel de significancia α . No rechace H0 si


el valor P es mayor que α .

8.° Replantee esta decisión previa en términos sencillos y sin tecnicismos y retome la hipótesis ori-
ginal.

2. Método tradicional

En este método, al igual que método del valor P, se siguen los mismos pasos a excepción del paso
6.° y 7.°, que están referidos al valor del estadístico de prueba, valores críticos y región crítica, para
determinar la aseveración de la prueba de hipótesis.

Pasos por seguir en este método.

1° Identifique la hipótesis específica que será probada y exprésela en forma simbólica.

2° Dé la forma simbólica que debe ser verdadera cuando la hipótesis original es falsa.

3° De las dos expresiones simbólicas obtenidas hasta este momento, permita que la hipótesis al-
ternativa H1 sea la que contenga igualdad, de manera que la H1 emplea los símbolos > o < o
≠ . Permita que la hipótesis nula H0 sea la expresión simbólica de que el parámetro es igual al
valor fijo considerado.

4° Elija el nivel de significancia α con base en la gravedad de cometer un error de tipo I. Dismi-
nuyaα si las consecuencias de rechazar una H0 verdadera son graves. Los valores 0,05 y 0,01
son muy comunes.

5° Identifique el estadístico que se revela para esta prueba y determine su distribución muestral
(normal, t, chi-cuadrada).

6° Calcule el estadístico de prueba, los valores críticos y la región crítica. Dibuje una gráfica e
incluya el estadístico de prueba, el valor o valores críticos y la región crítica.

94
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

7° Rechace H0 si el estadístico de la prueba se encuentra en la región crítica. No rechace H0 si


el estadístico de no se encuentra en la región crítica.

8° Replantee esta decisión previa en términos sencillos y sin tecnicismos y retome la hipótesis ori-
ginal.

3. Método de intervalos de confianza

Este método está basado en el cálculo de intervalos de confianza de un parámetro de población


para determinar el rango de valores que toma el parámetro (estudiados en la Unidad I). Este método
permite determinar la aseveración de la prueba de hipótesis.

Pasos por seguir en este método.

1.° Identifique la hipótesis específica que será probada y exprésela en forma simbólica.

2.° Dé la forma simbólica que debe ser verdadera cuando la hipótesis original es falsa.

3.° De las dos expresiones simbólicas obtenidas hasta este momento, permita que la hipótesis al-
ternativa H1 sea la que contenga igualdad, de manera que la H1 emplee los símbolos > o < o
≠ . Permita que la hipótesis nula H0 sea la expresión simbólica de que el parámetro es igual al
valor fijo considerado.

4.° Elija el nivel de significancia para la prueba de hipótesis teniendo en cuenta latabla1 y cons-
truya los intervalos de confianza.

Tabla 1. Nivel de confianza para un intervalo de confianza


Prueba bilateral Prueba unilateral
(dos colas) (una cola)
Nivel de significancia 0,01 99% 98%
para la prueba de 0,05 95% 90%
hipótesis 0,10 90% 80%

Intervalos de confianza

Bilateral (
P Zα /2 < X < Zα /2 ) Dos colas

( )
P X < Zα = 1 − α Cola a la izquierda
Unilateral
( )
P X > Zα = 1 − α Cola a la derecha

5.° Identifique el estimador estadístico que se revela para esta prueba y determine su distribución
muestral (normal, t, chi-cuadrada).

6.° Un estimado del intervalo de confianza de un parámetro de la población contiene los proba-
bles valores de tal parámetro; rechace la hipótesis de que el parámetro de población tiene un
valor que no está incluido en el intervalo de confianza.

95
Como observamos, estos tres métodos coinciden desde el primer paso hasta el cuarto o quinto; de ahí
se aplica la particularidad del método mostrado. Todos estos métodos se aplicarán indistintamente
en la resolución de problemas en la siguiente sección, para poder corroborar los pasos que hay que
tener en cuenta a fin de determinar el rechazo o no rechazo de una hipótesis.

96
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Prueba de hipótesis para una muestra


Tema n.° 3

1. Prueba de hipótesis sobre una proporción poblacional p

Requisitos

™ Las observaciones muestrales son una muestra aleatoria simple.


™ Se satisfacen las condiciones para una distribución binomial.
™ Se satisfacen las condiciones np ≥ 5 y nq ≥ 5 de la población (utilizada en la hipótesis nula).

=
Donde: µ np =
y σ npq
Notación
n Tamaño de la muestra


X Proporción muestral
p=
n
p Proporción de la población (utilizada en H0 )
q= 1 − p

p−p
Estadístico de prueba: Z=
pq / n

Valor P: Utilice la distribución normal estándar (Tabla A-2) y remítase a la figura 2.1.

Valores críticos: Utilice la distribución normal estándar (Tabla A-2).

Para el desarrollo de los siguientes ejercicios consideremos los métodos de aseveración de hipótesis
tanto como el método del valor P o intervalos de confianza, que son los más utilizados

Ejemplo n.° 1:Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se
construyen hoyen la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si una investiga-
ción de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas bombas de calor? Utilice
un nivel de significancia de 0.10.

Solución: Para responder, se observa que es una distribución de muestral de proporciones, donde se
siguen los siguientes pasos del método de intervalos de confianza:

1.° La aseveración original dice que se instalan bombas de calor en todas las casas que se cons-
truyen hoyen la ciudad de Richmond: p = 0,7

2.° El opuesto de la aseveración original: p ≠ 0,7

3.° Como p ≠ 0,7 y no es igual, entoces se convierte en una hipótesis alternativa, obteniéndose:

Ho : p = 0,7
H1 : p ≠ 0,7

4.° El nivel de significancia es α =0,1 .

97
5.° Dado que la aseveración implica

una proporción p, el estadístico relevante de esta prueba
es la proporción muestral p y la distribución de proporciones se aproxima a una distribución
normal.

p− p
6.° El estadístico de prueba es: Z= .
pq / n

Donde: =

8
p = 0,53 , p = 0,70 , q= 0,30 n =15
15

0,53 − 0,70
Luego, reemplazando: Z = = −1, 44
( 0,70 )( 0,30 ) / 15
Por lo tanto: Z = −1, 44 .

En el paso 3.° se menciona que H1 : p ≠ 0,7 , entonces se determina que la región crítica está
en ambas colas de la distribución normal. Para ello, determinamos los valores críticos, con el
nivel de significancia de α =0,1 , donde los valores críticos son ZL = ± 1,645, y los representamos
en la gráfica siguente:

Luego si: −1,645 ≤ Z ≤ 1,645  No se rechaza H0


si: Z < −1,645 o Z > 1,645  Se rechaza H0

H0
H1 H1

Región de Región de
rechazo rechazo

a/2 = 0.05 a/2 = 0.05

Región de aceptación

ZL = -1.645 P = 0.70 ZL = 1.645

Figura 33. Región de rechazo bilateral.


Fuente: Elaboración propia

7.° Como −1,645 ≤ −1, 44 ≤ 1,645  No se rechaza H0 y se concluye con el nivel de significan-
cia de 0,10, que la afirmación del constructor es cierta.

Ejemplo n.° 2: Un fabricante de semiconductores produce controladores que se emplean en aplica-


ciones de motores automovilísticos. El cliente requiere que la fracción de controladores defectuosos
en uno de los pasos de manufactura críticos no sea mayor que 0,05, y que el fabricante demuestre

98
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

esta característica del proceso de fabricación con este nivel de calidad, utilizando  α =0,05 . El fabri-
cante de semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que cuatro de
ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad del proceso?

Solución:

1.° La aseveración original dice que se requiere que la fracción de controladores defectuosos en
uno de los pasos de manufactura críticos no sea mayor que 0,05 p < 0, 05

2.° El opuesto de la aseveración original: p ≥ 0, 05

3.° De las dos expresiones simbólicas anteriores, la expresión p < 0,05

No contiene igualdad, por lo que se convierte en la hipótesis alternativa. La hipótesis nula


es la afirmación de que p es igual al valor fijo de 0,05. Como consecuencia se expresa:
Ho : p = 0,05
H1 : p < 0,05

4.° El nivel de significancia es α =0,05 (valor crítico es ZL =-1,645)

5.° Dado que la aseveración implica una proporción p, el estadístico relevante de esta prueba

es la proporción muestral p y la distribución de proporciones se aproxima a una distribución
normal.

p− p
6.° El estadístico de prueba es: Z=
pq / n

Donde:

4
= p = 0, 02 , P = 0,05 , q= 0,08 n =200
200
0,02 − 0,05
Luego, reemplazando: Z = = −1,95
( 0,05)( 0,95) / 20
Por lo tanto: : Z = −1,95

Utilizando este valor procedemos al cálculo del valor P. Según el diagrama de flujo de la figu-
ra 32 se resume el cálculo del valor P. Se trata de una prueba de una cola de manera que P
es el área a la izquierda; ahora nos remitimos a la tabla A-2 para encontrar el valor de P que
equivale a 0,0256.

Luego si: P > α  No se rechaza H0 al nivel de significancia α.


si: P ≤ α  Se rechaza H0 al nivel de significancia α.

99
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

ZL = -1.645 P = 0.05

Figura 34. Región de rechazo unilateral.


Fuente: Elaboración propia

7.° Como 0,0297 < 0,05 se rechaza H0 con el nivel de significancia de 0,05; y se concluye que
la fracción de artículos defectuosos es menor a 0,05( −1,95 < −1,645 ).

2. Prueba de hipótesis respecto a la media, σ conocida

En este caso se consideran pruebas de hipótesis sobre la media de una población µ (o la media de
una distribución de probabilidad) donde la desviación estándar de la población σ es conocida.

Requisitos:

™ La muestra es aleatoria.
™ Se conoce el valor de la desviación estándar poblacional σ.
™ Se satisface una o ambas condiciones: La población se distribuye normalmente o n > 30 .
Notación
n  Tamaño de la muestra

X  Media muestral

µx  Media poblacional

σ = σ / n  Desviación estándar poblacional

X − µx
Estadístico de prueba: Z =
σ/ n
Valor P: Utilice la distribución normal estándar (Tabla A-2) y remítase a la figura 32

Valores críticos: Utilice la distribución normal estándar (Tabla A-2)

100
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 1: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio, 5,23 on-
zas con una desviación estándar de 0,24 onzas. Pruebe la hipótesis de que  µ =5,5 onzas contra la
hipótesis alternativa,  µ < 5,5 onzas en el nivel de significancia de 0,05.

Solución: Se trata de una distribución muestral de medias con desviación estándar conocida, pero
como el tamaño de muestra es mayor a 30 se puede tomar la desviación muestral como un estimador
puntual para la poblacional.

1.° y 2.° Del enunciado del problema establezca la relación de hipótesis; para ello, nos remitimos
al paso 3.°.
H0 : µ =5,5 onzas
3.° Obteniéndose:
H1 : µ < 5,5 onzas

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica una media poblacional µ , el estadístico relevante de esta
prueba es la media muestral X = 5,23 onzas . Como se supone que conocemos la desviación
estándar σ =0, 24 onzas y parece que la población se distribuye normalmente, el límite del
teorema central indica que la distribución de medias muestrales puedeaproximarse por medio
de una distribución normal.
X−µ
6.° El estadístico de prueba es: Z=
σ/ n

= µ 5,5= =
onzas X 5,23 onzas α 0,05
Donde:
= σ 0,24
= onzas n 64

5,23 − 5,5
Luego, reemplazando: Z= = −9
0,24 / 64
Por lo tanto: Z = −9

Del paso 3.° se menciona H1 : µ < 5,5 onzas , entonces se determina que la región crítica está
en la cola izquierda de la distribución normal. Para ello, determinamos los valores críticos, con
el nivel de significancia de α =0,05 , donde los valores críticos son ZL = -1645, y lo representa-
mos en la gráfica siguente:

Luego

si: Z ≥ −1,645  No se rechaza H0


si: Z < −1,645  Se rechaza H0

101
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

ZL = -1.645 µ = 5.5

Figura 35. Región de rechazo unilateral.


Fuente: Elaboración propia

7.° Como −9 < −1,645  se rechaza H0  y se concluye con un nivel de significancia del 0,05 que
las bolsas de palomitas de maíz pesan en promedio menos de 5,5 onzas.

Nota: En general, es fácil comprender la región crítica y el procedimiento de prueba cuando el es-
tadístico de prueba es Z más que X . Sin embargo, la misma región crítica siempre puede escribirse
en términos del valor calculado de la media muestral X . Un procedimiento idéntico al anterior es el
siguiente.

H0 : µ = µ 0 si : X > a 0 X < b  Rechazar la H0

a =µ 0 + Zα /2.σ / n
Donde:
b =µ 0 − Zα /2.σ / n

Ejemplo n.° 2:Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma
aproximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si una
muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los datos suficien-
te evidencia para decir que la duración media ha cambiado? Utilice un nivel de significancia del 0,04.

Solución: Para responder, se observa que es una distribución muestral de medias con desviación es-
tándar conocida, donde se siguen los siguientes pasos:

1.° La aseveración original dice que la duración media de los focos ha cambiado: µ =800 horas
.
2.° El opuesto de la aseveración original: µ ≠ 800 horas .

3.° Como µ ≠ 800 horas y no es igual, entonces se convierte en una hipótesis alternativa, obte-

H0 : µ =800 horas
niéndose:
H1 : µ ≠ 800 horas

102
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

4.° El nivel de significancia es α =0,04 .

5.° Dado que la aseveración implica una media poblacional µ =800 horas , el estadístico rele-
vante de esta prueba es la media muestral X = 788   horas . Como se supone que conocemos
la desviación estándar σ =40 horas y parece que la población se distribuye normalmente,
el límite del teorema central indica que la distribución de medias muestrales puedeaproximar-
se por medio de una distribución normal.
ZL .σ
6.° El estadístico de prueba de medias muestral es X=µ± .
n
= µ 800 =
horas X 788=
horas α 0,04
Donde:
= σ 40
= horas n 30

En el paso 3.° se menciona H1 : µ ≠ 800 horas , entonces se determina que la región crítica
está en ambas colas de la distribución normal. Para ello determinamos los valores críticos, con
el nivel de significancia de α =0,04 , donde los valores críticos son ZL = ± 2052. Como el es-
tadístico de prueba está refererido ala media muestral X , determinaremos los valores críticos
respectivos en relación conesta y lo representamos en la gráfica siguente:

X=
800 ±
( 2,052)( 40 ) =
800 ± 14,98
Luego, reemplazando:
30

=
X 800 ± 14,98
X =800 + 14,98 =814,98 y X =200 − 14,98 =785,02
Por lo tanto: 785,02 ≤ X ≤ 814,98
Luego,

si: 785,02 ≤ X ≤ 8,14,98 no se rechaza H0


si: X < 785,98 o X > 814,02 se rechaza H0

H0
H1 H1

Región de Región de
rechazo rechazo

a/2 = 0.02 a/2 = 0.02

Región de aceptación

XL = 785.02 µ = 800 XL = 814.98

Figura 36. Región de rechazo bilateral


Fuente: Elaboración propia

103
7.° Como 785,02 ≤ X ≤ 814,98  X = 778 horas no se rechaza H0  y se concluye con un
nivel de significancia del 0,04 que la duración media de los focos no ha cambiado.

3. Prueba de hipótesis respecto a la media, σ desconocida


En este caso se considera prueba de hipótesis sobre la media de una población µ (o la media de una
distribución de probabilidad) donde la desviación estándar de la población σ es desconocida. Aquí
se utiliza la distribución t de Student.

Requisitos:

™ La muestra es aleatoria.
™ Se desconoce el valor de la desviación estándar poblacional σ.
™ Se satisface una o ambas condiciones: la población se distribuye normalmente o n > 30 .
Notación:
n  Tamaño de la muestra

X  Media muestral

µx  Media poblacional

S = S / n  Desviación estándar muestral

X − µx
Estadístico de prueba: t =
S/ n

Valor P y valores críticos: Utilice la distribución normal estándar (Tabla A-3) y utilice gl= n − 1 para el
número de grados de libertad. Remítase a la figura 32 ara el cálculo de P.

Ejemplo n.° 1:El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan
varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowa-
tt-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio indica que las
aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación estándar de 11.9 ki-
lowatt-hora, ¿esto sugiere con un nivel de significancia de 0,05 que las aspiradoras gastan, en prome-
dio, menos de 46 kilowatt-hora anualmente? Suponga que la población de kilowatt-hora es normal.

Solución:

Se trata de una distribución muestral de medias con desviación estándar desconocida, pero como
el tamaño de muestra es menor a 30 —para lo cual se utilizará una distribución t de Student — se
puede tomar la desviación muestral como un estimador puntual para la poblacional, donde se siguen
los siguientes pasos:

1.° La aseveración original dice que las aspiradoras gastan, en promedio, menos de 46 kilowa-
tt-hora anualmente: µ < 46 kilowatt −hora .

2.° El opuesto de la aseveración original: µ ≥ 46 kilowatt − hora .

104
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3.° De las dos expresiones simbólicas anteriores, la expresión µ < 46 kilowatt −hora no contiene
igualdad, por lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación
de que µ es igual al valor fijo de 46. Como consecuencia, se expresa:

H0 : µ =46 kilowatt hora


Obteniéndose:
H1 : µ < 46 kilowatt hora

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica una media poblacional µ , y como los requisitos para utilizar
el estadístico relevante prueba t satisface empleamos la distribución t . Remítase a la Unidad I.

X−µ
6.° El estadístico de prueba es: t=
S/ n

= µ 46 kilowatt −= hora X 42 kilowatt =


− hora α 0,05
Donde:
= S 11,9 kilowatt − hora =
n 12

42 − 46
Luego, reemplazando: t= = −1,16
11,9 / 12
Por lo tanto: t = −1,16

En el paso 3.° se menciona que H1 : µ < 46 kilowatt − hora ; entonces se determina que la re-
gión crítica está en la cola izquierda de la distribución normal. Para ello, determinamos los valores
críticos, con el nivel de significancia de α =0,05 , y grafos de libertad: gl = n − 1 = 12 − 1 = 11 ,
donde los valores críticos son tL = -1796, y lo representamos en la gráfica siguente:

Luego
si: t ≥ −1,796  No se rechaza H0
si: t < −1,796  Se rechaza H0
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

tL = -1.796 µ = 46

Figura 37. Región de rechazo.


Fuente: Elaboración propia

105
7.° Como −1,16 > −1,796  no se rechaza H0  y se concluye con un nivel de significancia del 0,05
que el número promedio de kilowatt-hora que gastan al año las aspiradoras no es significati-
vamente menor que 46.

Otro método: (Por intervalos de confianza). Si aplicamos el otro método donde se utilizará la media
muestral, tendríamos:

X=µ−
tL .S
= 46 −
(1,796 )(11,9 ) = 39,83
n 12

Luegosi: XL ≥ 39,83  No se rechaza H0


si: XL < 39,83  Se rechaza H0
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

XL = 39.83 µ = 46

Figura 38. Región de rechazo.


Fuente: Elaboración propia

=
Como la  X 42 kilowatt − hora y ese valor no es menor a 39,83, se rechaza la H0 .
Valor de P: Se puede aprovechar este ejemplo para calcular el valor de P. Como el valor de H0
calculada es de –1,16, se busca en la tabla y se verifica que el área a la izquierda de este valor es
de 0,135 con 11 grados de libertad; por lo tanto, no se rechaza H0 , ya que sería un valor alto para
un nivel de significancia.

Valor P = 0.135

t=0
tR = -1.16
106
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 2: Un artículo publicado en la revista 19.8 18.5 17.6 16.7 15.8
Materials Engineering describe los resultados de 15.4 14.1 13.6 11.9 11.4
pruebas de resistencia a la adhesión de 22 espe- 11.4 8.8 7.5 15.4 15.4
címenes de aleación U-700. La carga para la que 19.5 14.9 12.7 11.9 11.4
cada espécimen falla es la siguiente en MPa: ¿Su- 10.1 7.9      
gieren los datos que la carga promedio de falla es
mayor que 10Mpa? Supóngase que la carga donde se presenta la falla tiene una distribución normal,
y utilícese α =0,05 . Calcule el valor de P (Símbolo: Mpa  Megapascal).

Solución: Se trata de una distribución muestral de medias con desviación estándar desconocida, pero
como el tamaño de muestra es menor a 30, se utilizará una distribución t de Student .

1.° La aseveración original dice que la carga promedio de falla de resistencia en especímenes
de aleación U – 700 es mayor que 10Mpa: µ > 10 Mpa

2.° El opuesto de la aseveración original: µ ≤ 10 Mpa

3.° De las dos expresiones simbólicas anteriores, la expresión µ > 10 Mpa no contiene igualdad,
por lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que µ
igual al valor fijo de 10. Como consecuencia, se expresa:

H0 : µ = 10 Mpa
Obteniéndose:
H1 : µ > 10 Mpa

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica una media poblacional µ , y como los requisitos para utilizar el
estadístico relevante prueba t satisface, empleamos la distribución t . Remítase a la Unidad I.

X−µ
6.° El estadístico de prueba es: t=
S/ n

Para este ejercicio debemos calcular la media y la desviación estándar muestral, haciendo
uso de una calculadora.

=µ 10=
Mpa X =
13,71 Mpa α 0,05
Donde:
= =
S 3,55 Mpa n 22

13,71 − 10
=
Luego, reemplazando: t = 4,90
3,55 / 22
Por lo tanto: t = 4,90 .

En el paso 3.° se menciona que H1 : µ > 10 Mpa ; entonces se determina que laregión crítica
está en la cola derecha de la distribución t . Para ello, determinamos los valores críticos, con
el nivel de significancia de α =0,05 , y grafos de libertad: gl = n − 1 = 22 − 1 = 21 , donde los
valores críticos son tL = 1721, y lo representamos en la gráfica siguente:

107
Luego

si: t ≤ 1,721  No se rechaza H0


si: t > 1,721  Se rechaza H0
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

µ = 10 tL = -1.721

Figura 39. Región de rechazo unilateral derecha.


Fuente: Elaboración propia

7.° Como 4,90 > 1,721  se rechaza H0  y se concluye con un nivel de significancia del 0,05 que
la carga de falla promedio es mayor que 10 Mpa.

Para calcular el valor de P, se va a la tabla A–3 y se busca en 21 grados de libertad el valor


de t = 4,90. Se observa que el valor mayor de t que se encuentra en la tabla con 21 grados de
libertad es de 3,819, al cual le corresponde un área a la derecha de 0,05, por lo que para el
valor de 4,90 el valor de P es prácticamente cero, y esto apoya la decisión de rechazar.

4. Prueba de hipótesis respecto de una varianza

En este caso, se considera prueba de hipótesis respecto de una varianza de la población σ2 . Aquí se
utiliza la distribución chi-cuadrada.

Requisitos:

™ La muestra es aleatoria simple.


™ La población tiene una distribución normal.

Notación
n  Tamaño de la muestra
2
S  Varianza muestral
σ
2
 Varianza poblacional

X 2
=
( n − 1) S2
Estadístico de prueba:
σ2

108
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Valor P y valores críticos: Utilice la Tabla A-4, con gl= n − 1 para el número de grados de libertad (la
tabla A-4 está basada en áreas acumuladas de la derecha). Tener en cuenta la distribución de las
colas; por ejemplo: Nivel de significancia de α =0,05 .

Prueba unilateral
Prueba
bilateral Prueba con cola Prueba con cola
a la derecha a la izquierda
Divida el nivel de significancia de Como el área de la Como el área de la iz-
0,05 entre la cola derecha e izquier- derecha del valor quierda del valor crítico es
da, de manera que las áreas a la crítico es 0,05, loca- 0,05, el área a la derecha
derecha de los dos valores críticos lice 0,05 en la parte del valor crítico es 0,95, así
sean 0,975 y 0,025, respectivamente. superior de la tabla que localice 0,95 en la
Localice 0,975 y 0,05 en la parte su- A-4. parte superior de la tabla
perior de la tabla A-4. A-4.

Ejemplo n.° 1: Una compañía que produce una parte de máquina para un motor, afirma que tiene una
varianza de diámetro no mayor a 0,0002 pulgadas. Una muestra aleatoria de 10 de dichas partes dio
una varianza de muestra s2 = 0,0003. Si se supone que las medidas del diámetro se distribuyen en forma
normal, ¿hay evidencia para refutar lo que afirma el proveedor? Use  α =0,05 . Calcule el valor P.

Solución: En este caso, se considera prueba de hipótesis respecto de una varianza de la población σ2 .
Aquí se utiliza la distribución chi-cuadrada. Para ello se siguen los pasos siguientes:

1.° La aseveración original dice que la compañía produce máquina para un motor que tiene una
varianza de diámetro no mayor a 0,0002 pulgadas: µ < 0, 0002

2.° El opuesto de la aseveración original: µ ≥ 0, 0002

3.° De las dos expresiones simbólicas anteriores, la expresión µ < 0, 0002 no contiene igualdad,
por lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que σ2
es igual al valor fijo de 0,0002. Como consecuencia, se expresa:

H0 : σ2 =0,0002
Obteniéndose:
H1 : σ2 < 0,0002

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica una varianza poblacional σ2 , y como los requisitos para
utilizar el estadístico relevante prueba X2 satisface, empleamos la distribución chi-cuadrada.
Remítase a la Unidad I.

X 2
=
( n − 1) S2
6.° El estadistico de prueba es:
σ2
Para este ejercicio debemos calcular la media y la desviación estándar muestral, haciendo
uso de una calculadora.

=σ2 =
0,0002 α 0,05
Donde:
=S =
0,0003 2
n 10

109
=
Luego, reemplazando: X 2 (=
10 − 1)( 0,0003)
13,5
( 0,0002)
Por lo tanto: X2 = 13,5 .

En el paso 3.° se menciona que H1 : σ < 0,0002 ; entonces, se determina que la región críti-
2

ca está en la cola derecha de la distribución chi-cuadrada. Para ello, determinamos los valores
críticos, con el nivel de significancia de α =0,05 , y grados de libertad: gl = n − 1 = 10 − 1 = 9 ,
donde los valores críticos son X2L = 16,919, y lo representamos en la gráfica siguente:

Luego

si: X2 ≤ 16,919  No se rechaza H0


si: X2 > 16,919  Se rechaza H0
H0 H1

Región de
rechazo

a = 0.05
Región de
aceptación
X2(0.05,9) = 16.919
Figura 40. Región de rechazo unilateral.
Fuente: Elaboración propia

7.° Como 13,5 < 16,919  no se rechaza H0  y se concluye con un nivel de significancia del 0,05
que no se puede refutar la afirmación del proveedor. (Que la compañía produce máquina
para un motor con una varianza de diámetro no mayor a 0,0002 pulgadas).

Para calcular el valor de P se va a la tabla A-4 y se busca el valor de 13,5 en el reglón de 9


grados de libertad. Interpolando entre 0,10 y 0,20, se obtiene el valor de P de 0,1484.

P = 0.1484

a = 0.05

X2R = 13.5 X2(0.05,9) = 16.919


Figura 41. Cálculo del valor de P.
Fuente: Elaboración propia

110
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo n.° 2: El contenido de azúcar del almíbar de los duraznos enlatados tiene una distribución nor-
mal, donde se cree que la varianza es  σ  = 18 mg2. Se toma una muestra de 10 latas, que dieron una
2

desviación estándar de 4.8 mg. ¿Muestran estos datos suficiente evidencia para decir que la varianza
ha cambiado? Use un  α  = 0,05 y calcule el valor de P.

Solución: En este caso se considera prueba de hipótesis respecto a una varianza de la población σ2 .
Aquí se utiliza la distribución chi-cuadrada. Para ello, se siguen los pasos siguientes:

1.° La aseveración original dice que la varianza del contenido de azúcar del almíbar de los duraz-
nos enlatados ha cambiado: σ2 =18 mg 2

2.° El opuesto de la aseveración original: σ2 ≠ 18 mg 2


3.° De las dos expresiones simbólicas anteriores, la expresión σ ≠ 18 mg no contiene igualdad,
2 2

por lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que σ2


es igual al valor fijo de 18. Como consecuencia, se expresa:

H0 : σ2 =18 mg 2
Obteniéndose:
H1 : σ2 ≠ 18 mg 2

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica una varianza poblacional σ2 , y como los requisitos para
utilizar el estadístico relevante prueba X2 satisface empleamos la distribución chi-cuadrada.
Remítase a la Unidad I.

X 2
=
( n − 1) S2
6.° El estadístico de prueba es:
σ2
=
σ2 18 =
α 0,05
Donde:
= =
S 4,8 n 10
(=
10 − 1)( 4,8 )
2
2
=
Luego, reemplazando: X 11,52
(18)
Por lo tanto: X2 = 11,52

En el paso 3.° se menciona que H1 : σ ≠ 18 mg ; entonces se determina que la región crítica


2 2

está en las dos colas de la distribución chi-cuadrada. Para ello, determinamos los valores crí-
ticos, con el nivel de significancia de α =0,05 , y grados de libertad: gl = n − 1 = 10 − 1 = 9 ,
donde los valores críticos son X2L = 2,7 y 19,023, y lo representamos en la gráfica siguiente:

Luego

si: 2,7 ≤ X2 ≤ 19, 023  No se rechaza H0


si: X2 > 2,7 ∨ X2 < 16,919  Se rechaza H0

111
H1 H1
H0

Región de Región de
rechazo rechazo

a/2 = 0.025 a/2 = 0.025


Región de
aceptación
X2(0.975,9) = 2.7 X2(0.025,9) = 16.023
Figura 42. Región de rechazo y región de aceptación.
Fuente: Elaboración propia

7.° Como 2,7 < 11,52 < 19,023  no se rechaza H0  y se concluye con un nivel de significancia
del 0,05, que el contenido de azúcar del almíbar no ha cambiado, esto es de 18 mg2.

Como el valor real de X2 = 11,52, este número se encuentra a la derecha de la media, lo cual
quiere decir que el valor de P / 2 será el área de X2. Al buscar el valor de 11,52 en la tabla
A–4, se obtiene un área de 0,2423; por lo tanto, P/ 2 =0,2423 y P = 0,4846.

P/2 = 0.2423

a/2 = 0.025 a/2 = 0.025

X2(0.975,9) = 2.7 X2R = 11.52 X2(0.025,9) = 19.023


Figura 43. P/2.
Fuente: Elaboración propia

112
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Tabla 2
Resumen de las pruebas de hipótesis para una población

Requisitos Distribución y
Valores P
Parámetro Muestra aleatoria estadístico de
y críticos
simple y… prueba

p −p
Proporción np ≥ 5 ∧ nq ≥ 5 Z= Tabla A-2
pq / n

σ2 conocida
y n > 30 o X − µx Tabla A-2
Población Z=
distribuida σ/ n
normalmente
σ2 desconocida
t Student
Media y n > 30 o X − µx Tabla A-3
Población t=
distribuida S/ n
normalmente
Población no
Usar método no
distribuida
paramétrico o
normalmente
Bootstrapping
n ≤ 30
Chi cuadrada
Población
Varianza distribuida
X 2
=
( n − 1) S2 Tabla A-4
normalmente σ2

Tomado de Triola, 2009, p. 445.

113
Lectura seleccionada n.° 3
“La estadística en el trabajo”.

Triola, M. (2009). La estadística en el trabajo. En Estadística, p. 383. Recuperado de https://docsli-


de.net/education/estadistica-10e-triola.html

Actividad n.° 8
Foro de discusión sobre la lectura “La estadística en el trabajo”.

Instrucciones

Ingrese al foro y participe con comentarios críticos y analíticos del tema “La estadística en el traba-
jo”.

• Responda en el foro a las preguntas acerca de la lectura “La estadística en el trabajo”


¿Cuál es el propósito de lectura?
¿Cuál es la relación entre la lectura propuesta y la estadística aplicada?
¿Qué términos estadísticos utiliza con más frecuencia en su trabajo?
¿Cuál es la importancia de la estadística aplicada en su centro de trabajo?

Actividad n.° 9
Prueba de hipótesis sobre una población

I. Resuelva los siguientes ejercicios aplicando estimación de proporciones.

1. Sean las siguientes hipótesis:


Ho: π = 0,40
H1: π ≠ 0,40
Una muestra de 120 observaciones reveló que p = 0,30. ¿Puede rechazar la hipótesis nula
en el nivel de significancia de 0,05?
a) Formule la regla de decisión.
b) Calcule el valor del estadístico de prueba.
c) ¿Cuál es su decisión respecto de la hipótesis nula?

2. Un artículo reciente de USA Today informó que solo hay un trabajo disponible por cada
tres nuevos graduados de universidad. Las principales razones fueron una sobrepoblación
de graduados universitarios y una economía débil. Una encuesta de 200 recién gradua-
dos reveló que 80 estudiantes tenían trabajo. Con un nivel de significancia de 0,02, ¿pue-
de concluir que una proporción mayor de estudiantes de su escuela tienen empleo?
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba de hipó-
tesis.

114
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3. Una investigación de la Universidad de Toledo indica que el 50% de los estudiantes cam-
bia de área de estudios después del primer año en un programa. Una muestra aleatoria
de 100 estudiantes de la Facultad de Administración reveló que 48 habían cambiado de
área de estudio después del primer año del programa de estudios. ¿Hubo una reducción
significativa en la proporción de estudiantes que cambian de área el primer año en este
programa? Realice una prueba con un nivel de significancia de 0,05.
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba de hipó-
tesis.

4. Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se
construyen hoy en día en la ciudad de Lima. ¿Estaría de acuerdo con esta afirmación si
una investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas
bombas de calor? Utilice un nivel de significancia de 0.10.

II. Resuelva los siguientes ejercicios aplicando estimación de medias con desviación estándar.

5. Se selecciona una muestra de 36 observaciones de una población normal. La media


muestral es de 12, y el tamaño de la muestra 36. La desviación estándar de la población
es 3. Utilice el nivel de significancia 0,02.
Ho: u <= 10
H1: u > 10
a) ¿Es una prueba de una o de dos colas?
b) ¿Cuál es la regla de decisión?
c) ¿Cuál es el valor del estadístico de prueba?
d) ¿Cuál es su decisión al respecto de Ho?
e) ¿Cuál es el valor p? Interpreta este valor.

6. Se selecciona una muestra de 64 observaciones de una población normal. La media de


la muestra es de 215, y la desviación estándar de la población, 15. Lleve a cabo la prueba
de hipótesis, utilice el nivel de significancia 0,03.
Ho: u >= 220
H1: u < 220
a) ¿Es una prueba de una o de dos colas?
b) ¿Cuál es la regla de decisión?
c) ¿Cuál es el valor del estadístico de prueba?
d) ¿Cuál es su decisión al respecto de Ho?
e) ¿Cuál es el valor p? Interpreta este valor.

7. En el momento en que fue contratada como mesera en el Grumney Family Restaurant,


a Beth Brigden le dijeron: “Puedes ganar en promedio más de $80 al día en propinas”.
Suponga que la desviación estándar de la distribución de población es de $3,24. Los pri-
meros 35 días de trabajar en el restaurante, la suma media de sus propinas fue de $84,85.
Con el nivel de significancia de 0,01, ¿la señora Brigden puede concluir que gana un
promedio de más de $80 en propinas?

8. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma
aproximadamente normal con una media de 800 horas y una desviación estándar de 40
horas. Pruebe la hipótesis de que µ≠800 horas si una muestra aleatoria de 30 focos tiene
una duración promedio de 788 horas. Utilice un nivel de significancia de 0,04.

115
9. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado mues-
tra una vida promedio de 71,8 años. Suponga una desviación estándar poblacional de
8,9 años. Queremos probar si la vida media hoy en día es mayor a 70 años con base en
esa muestra. La muestra parecería indicar que es así, pero ¿cuál es la probabilidad de
que la media de la muestra no refleje la verdadera media de la población? Utilizar un
nivel de significancia de 0,05.

10. Las puntuaciones en un test que mide la variable creatividad siguen, en la población
general de adolescentes, una distribución normal de media 11,5. En un centro escolar
que ha implantado un programa de estimulación de la creatividad, una muestra de 30
alumnos ha proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.
A un nivel de confianza del 95%, ¿puede afirmarse que el programa es efectivo?

11. En una muestra de 1000 nacimientos, el número de varones ha sido 542. ¿Puede conside-
rarse, con un nivel de significación del 10%, que en general nacen más niños que niñas?

12. En una muestra de 66 alumnos se ha calculado el coeficiente de correlación de Pearson


entre sus puntuaciones en el primer parcial de Análisis de Datos y el tiempo que se em-
plea en desplazarse desde su domicilio hasta la Facultad, obteniéndose que r vale 0,24.
¿Podemos mantener, con un nivel de confianza del 95%, la idea de que estas variables
son incorreladas, o por el contrario debemos rechazarla?

13. Las puntuaciones en un test de razonamiento abstracto siguen una distribución normal
de media 35 y varianza 60. Para evaluar un programa de mejora de las capacidades
intelectuales, a 101 individuos que están realizando este programa se les aplica el test,
obteniéndose una media de 50 puntos y una varianza de 80. ¿Puede asegurarse, a un
nivel de confianza del 90%, que el programa incrementa las diferencias individuales en
esta variable?

14. Un criador de pollos sabe por experiencia que el peso de los pollos de cinco meses es de
4,35 libras. Los pesos siguen una distribución normal. Para tratar de aumentar el peso de
dichas aves, se le agrega un aditivo al alimento. En una muestra de pollos de cinco meses
se obtuvieron los siguientes pesos en libras:

4,41 4,37 4,33 4,35 4,30 4,39 4,36 4,38 4,40 4,39

En el nivel 0,01,¿el aditivo ha aumentado el peso medio de los pollos? Estime el valor de p.

15. Una compañía de transportes requiere comprar un gran lote de buses para el transporte
urbano con el fin de reemplazar su parque automotor; para ello, desea comprobar la
afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es me-
nos ahorradora de combustible. La empresa toma una muestra aleatoria de 35 vehículos
marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 km/galón
con una desviación estándar de 8 km/galón, mientras que una muestra de 32 vehículos
marca B presenta un promedio de 22 km/galón con desviación estándar de 3 km/galón.
¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del
5%?

116
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

III. Resuelva los siguientes ejercicios aplicando estimación de varianzas.

16. Una muestra aleatoria de 16 sobres de cierto producto cuyos pesos se distribuyen normal-
mente, ha dado una desviación estándar de 0,6 gramos. Utilizando un nivel de significa-
ción del 5%, ¿es válido inferir que la varianza de los pesos de tales sobres es mayor que
0,25 gramos2?

17. Sean las siguientes hipótesis:


Ho: μ =400
H1: μ ≠ 400
En el caso de una muestra aleatoria de 12 observaciones seleccionadas de una pobla-
ción normal, la media muestral fue de 407, y la desviación estándar de la muestra, de 6.
Utilice el nivel de significancia 0,01.
a) Formule la regla de decisión.
b) Calcule el valor de estadístico de prueba.
c) ¿Cuál es su decisión respecto de la hipótesis nula?

18. La administración de White Industries analiza una nueva técnica para armar un carro de
golf; la técnica actual requiere 42,3 minutos de trabajo en promedio. El tiempo medio
de montaje de una muestra aleatoria de 24 carros, con la nueva técnica, fue de 40,6
minutos, y la desviación estándar, de 2,7 minutos. Con un nivel de significancia de 0,10,
¿puede concluir que el tiempo de montaje con la nueva técnica es más breve?

19. En la actualidad, la mayoría de los que viajan por avión compra sus boletos por internet.
De esta forma, los pasajeros evitan la preocupación de cuidar un boleto de papel, ade-
más de que las aerolíneas ahorran. No obstante, en fechas recientes, las aerolíneas han
recibido quejas relacionadas con los boletos, en particular cuando se requiere hacer un
enlace para cambiar de línea. Para analizar el problema, una agencia de investigación
independiente tomó una muestra aleatoria de 20 aeropuertos y recogió información re-
lacionada con la cantidad de quejas que hubo sobre los boletos durante marzo. A conti-
nuación, se presenta la información.

14 14 16 12 12 14 13 16 15 14
12 15 15 14 13 13 12 13 10 13

Con un nivel de significancia de 0,05, ¿la agencia de investigación puede concluir que la
cantidad media de quejas por aeropuerto es menor de 15 al mes?

20. La empresa Jamestown Steel Company fabrica y ensambla escritorios y otros muebles
para oficina, en diversas plantas del oeste de Nueva York. La producción semanal del
escritorio modelo A325 en la planta Fredonia se distribuye normalmente con una media
de 200 y una desviación estándar de 16. En tiempos recientes, debido a la expansión
del mercado, se han introducido nuevos métodos de producción y se han contratado
más empleados. El vicepresidente de la compañía quisiera saber si ha habido alguna
variación en la producción semanal. Planteado de otra forma, ¿el número medio de
escritorios producidos en la planta mencionada es diferente de 200? Utilice el nivel de
significancia 0,01.

117
Prueba de hipótesis para dos muestras
Tema n.° 4

1. Prueba de hipótesis sobre dos proporciones poblacionales p

Requisitos

™ Tenemos proporciones de dos muestras aleatorias simples que son independientes.


™ Para ambas muestras el número de éxitos es de al menos 5 y el número de fracasos es de al menos
5.

Notación: Para la población 1:

n1  Tamaño muestral

p1  Proporción poblacional (utilizada en H0 )

X1  Número de éxitos en la muestra


∧ X1
p=  Proporción muestral
n1
∧ ∧
q= 1 − p
∧ ∧
Se adjuntan los significados correspondientes a n2 ,p2 ,X2 ,p2 y q2 que provienen de la población 2.

X1 + X2
Proporción muestral agrupada p : p=
n1 + n2

Complemento de p como q ,  q= 1 − p

Estadístico de prueba (con H0 : p1 = p2 ):

∧ ∧ 
(
 p1 − p 2  − p1 − p 2 )
Z= 
pq pq
+
n1 n2

Donde: p1 − p 2 =
0 (supuesto de la hipótesis nula)
∧ X1 ∧ X X + X2
p1 = ∧ p2 = 2 ; p =1 ∧ q =−
1 p
n1 n2 n1 + n2

Valor P: Utilice la distribución normal estándar de la Tabla A-2 (use el valor calculado de la prueba Z y
obtenga el valor P siguiendo el procedimiento que se resume en la figura 32).

Valores críticos: Utilice la Tabla A-2(con base en el nivel de significancia α , obtenga valores críticos
utilizando los procedimientos de la figura 32.

118
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Recuerde de la Unidad I:
Estimado del intervalo de confianza de p1 − p2 es:

∧ ∧  ∧ ∧ 
( )
 p1 − p 2  − E < p1 − p 2 <  p1 − p 2  + E
   
∧ ∧ ∧ ∧
p1 q1 p2 q2
=
Donde el margen de error E es: E Zα /2 +
n1 n2

Ejemplo n.° 1:Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una
operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de
una cirugía de cataratas. Se pulen 300 lentes con la primera solución, y de estos, 253 no presentaron
defectos inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los
cuales 196 resultan satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son
diferentes? Utilice  α =0,01 .

Solución: Para responder, se observa que es una distribución de muestral de proporciones, donde se
siguen los siguientes pasos:

1.° La aseveración original dice que existe alguna razón para creer que las dos soluciones para

pulir son diferentes: p1 ≠ p2 .


p1 : Tipo de solución 1 para pulir lentes intraoculares.
p2 : Tipo de solución 2 para pulir lentes intraoculares.

2.° El opuesto de la aseveración original: p1 = p 2 .

3.° Como p1 ≠ p 2 y no es igual, entoces se convierte en una hipótesis alternativa, obteniéndose:


Ho : p1 − p2 =
0
H1 : p1 − p2 ≠ 0

4.° El nivel de significancia es α =0,01 .

5.° Dado que la aseveración implica dos proporciones p1 y p2 , el estadístico relevante de esta
prueba es la proporción muestral agrupada de p para el valor común de p1 y p 2 y la distri-
bución de proporciones se aproxima a una distribución normal.
∧ ∧ 
 p1 − p 2  − p1 − p 2 ( )
6.° El estadístico de prueba es Z =
 
pq pq
+
n1 n2
0 y p1 x= x2
∧ ∧
Dado que p1 − p 2 = = 1
y p2
n1 n2

119
X + X2
p =1 ∧ q =−
1 p
n1 + n2


253
Donde:=
p1 = 0,8433 , n1 = 300 p1 − p2 =
0
300


196
p2 = 0,6533 n2 = 300
=
300

253 + 196 449


p= = = 0,7483 ∧ q =
1 − 0,7483 =0,2517
300 + 300 600

Luego, reemplazando:

Z = 5,36
( 0,8433 − 0,6533) − 0
( 0,7483)( 0,2517 ) + ( 0,7483)( 0,2517 )
300 300

Por lo tanto: Z = 5,36 .

En el paso 3.° se menciona que H1 : p1 − p 2 ≠ 0 ;entonces se determina que la región crítica


está en ambas colas de la distribución normal. Para ello, determinamos los valores críticos, con
el nivel de significancia de α =0,01 , donde los valores críticos son ZL = ± 2,575, y lo represen-
tamos en la gráfica siguiente:

Luego si: −2,575 ≤ Z ≤ 2,575  No se rechaza H0


si: Z < −2,575 o Z > 2,575  Se rechaza H0

H0
H1 H1

Región de Región de
rechazo rechazo

a/2 = 0.005 a/2 = 0.005

Región de aceptación

ZL = -2.575 P1 – P2 = 0 ZL = 2.575

Figura 44. Región de rechazo y región de aceptación.


Fuente: Elaboración propia

120
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

7.° Como 5,36 > 2,575  se rechaza H1 y se concluye con el nivel de significancia de 0,01, que
los dos fluidos para pulir son diferentes.

Ejemplo n.° 2: Se tomará el voto entre los residentes de una ciudad y el condado circundante para
determinar si se debe construir una planta química propuesta. El lugar de construcción está dentro de
los límites de la ciudad y por esta razón muchos votantes del condado consideran que la propuesta
pasará debido a la gran proporción de votantes que favorecen la construcción. Para determinar si
hay una diferencia significativa en la proporción de votantes de la ciudad y votantes del condado
que favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad favorecen
la propuesta y 240 de 500 residentes del condado también lo hacen, ¿estaría de acuerdo con que la
proporción de votantes de la ciudad que favorecen la propuesta es más alta que la proporción de
votantes del condado? Utilice un nivel de significancia de 0,025.

Solución:

1.° La aseveración original pregunta si estaría de acuerdo en que la proporción de votantes de la


ciudad que favorecen la propuesta es más alta que la proporción de votantes del condado.
p1 > p 2
p1 : Votantes de la ciudad que favorecen la propuesta.
p2 : Votantes del condado que favorecen la propuesta.

2.° El opuesto de la aseveración original: p1 ≤ p 2

3.° Como p1 > p2 y no es igual, entonces se convierte en una hipótesis alternativa, obteniéndose:
Ho : p1 − p2 =
0
H1 : p1 − p2 > 0

4.° El nivel de significancia es α =0,025

5.° Dado que la aseveración implica dos proporciones p1 y p2 , el estadístico relevante de esta
prueba es la proporción muestral agrupada de p para el valor común de p1 y p2 , y la dis-
tribución de proporciones se aproxima a una distribución normal.

∧ ∧ 
p
 1 − p (
2  − p1 − p 2 )
6.° El estadístico de prueba es Z =
 
pq pq
+
n1 n2

0 y p1 x= x2
∧ ∧
Dado que p1 − p 2 =
= 1
y p2
n1 n2
X + X2
p =1 ∧ q =−
1 p

n1 + n 2

120
Donde:=
p1 = 0,60 , n1 = 200 p1 − p2 =
0
200

121

240
=
p2 = 0,48 n = 500
500 2

120 + 240 360


p= = =0,51 ∧ q=
1 − 0,51 =0, 49
200 + 500 700

Luego, reemplazando:

=Z = 2,87
( 0,60 − 0, 48 ) − 0
( 0,51)( 0, 49 ) + ( 0,51)( 0, 49 )
200 500

Por lo tanto: Z = 2,87 .

En el paso 3.° se menciona que H1 : p1 − p 2 > 0 ;entonces se determina que la región crítica
está en la cola derecha de la distribución normal. Para ello, determinamos los valores críticos,
con el nivel de significancia de α =0,025 , donde el valor crítico es ZL =1,96, y lo representa-
mos en la gráfica siguiente:

Luego si: Z ≤ 1,96  No se rechaza H0


si: Z > 1,96  Se rechaza H0
H1
H0

Región de
rechazo

a = 0.025

Región de aceptación

P1 – P2 = 0 ZL = 1.96

Figura 45. Región de rechazo.


Fuente: Elaboración propia

7.° Como 2,87 > 1,96  se rechaza H1 y se concluye con el nivel de significancia de 0,025 que
la proporción de votantes de la ciudad a favor de la propuesta es más alta que la proporción
de votantes del condado.

2. Prueba de hipótesis respecto a dos medias independientes, σ1 y σ2 conocidas

En este caso se considera prueba de hipótesis sobre las dos medias poblacionales, conociendo las
desviaciones estándares ( σ1 y σ2 ) donde el estadístico de prueba y el intervalo de confianza están
basados en una distribución normal y no en una distribución de t.

122
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Requisitos:

™ Se conocen las desviaciones estándares poblacionales


™ Las muestras son independientes
™ Ambas muestras son aleatorias simples
™ Cualquiera de estas condiciones satisface:
Dos tamaños muestrales son grandes (como n1 > 30 ∧ n2 > 30 ); las dos muestras provienen de po-
blaciones que tienen distribuciones normales.

Notación: Para la población 1

n1  Tamaño de la muestra

X1  Media muestral

µ1  Media poblacional

σ12  Varianza poblacional

Se adjuntan los significados correspondientes a n2 ,X2 , µ 2 , σ2 , que provienen de la población 2.


2

Estadístico de prueba, σ1 =σ2 : Z =


( X − X ) −( µ − µ )
1 2 1 2

σ12 σ22
+
n1 n2
Valor P y valores críticos: Remítase a la Tabla A-2.

Ejemplo n.° 1:Un diseñador de productos está interesado en reducir el tiempo de secado de una pin-
tura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido químico estándar,
y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el tiempo de secado. De la expe-
riencia se sabe que la desviación estándar del tiempo de secado es ocho minutos, y esta variabilidad
inherente no debe verse afectada por la adición del nuevo ingrediente. Se pintan diez especímenes
con la fórmula 1, y otros diez con la fórmula 2. Los dos tiempos promedio de secado muestrales son 121
minutos y 112 minutos, respectivamente. ¿A qué conclusiones puede llegar el diseñador del producto
sobre la eficacia del nuevo ingrediente, utilizando α =0,05 ?

Solución: Se trata de una distribución muestral de dos medias con desviaciones estándares conoci-
das, pero como el tamaño de muestra es menor a 30 se pueden tomar las desviaciones muestrales
como un estimador puntual para las poblaciones.

1.° La aseveración original dice que al comparar dos fórmulas de pintura en las que una usa ingre-
diente convencional y la otra un aditivo para reducir el tiempo promedio de secado, entonces
tendríamos que determinar si hay una diferencia entre los tiempos promedios de secado res-
pecto a las fórmulas µ1 − µ 2 .

µ1 : Tiempo promedio de secado de la fórmula 1 con contenido químico estándar.

µ2 : Tiempo promedio de secado de la fórmula 2 con contenido ingrediente de secante.

2.° El opuesto de la aseveración original: µ1 = µ 2 ⇒ µ1 − µ 2 = 0 .

123
3.° De los pasos anteriores se concluye que se desea rechazar que µ1 − µ 2 = 0 , entonces
µ1 − µ 2 > 0 si el nuevo ingrediente disminuye el tiempo promedio de secado;por eso se pone
la diferencia mayor a cero para probar que µ2 es menor que µ1 .
H0 : µ1 − µ 2 = 0
Obteniéndose:
H1 : µ1 − µ 2 > 0

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica dos medias poblacionales µ1 y µ2 , el estadístico relevante
de esta prueba es la diferencia de las medias muestrales X1 − X2 . Como se supone que cono-
cemos las desviaciones estándares σ1 =σ2 =8 min y las poblaciones se distribuyen normal-
mente, el límite del teorema central indica que la distribución de medias muestrales puede
aproximarse por medio de una distribución normal.

6.° El estadístico de prueba es:

σ12 σ22
X1 − X2 = µ1 − µ 2 + Z +
n1 n2

=X1 121 =
min X2 112 =
min α 0,05
Donde:
σ1 =σ2 =8 min n 1 =n2 =10 Zα =1,645

(8) (8)
2 2

Luego, reemplazando: X1 − X2 =0 + 1,645 + =5,88


10 10

Por lo tanto: X1 − X2 =
5,88

En el paso 3.° se menciona que H1 : µ1 − µ 2 > 0 ;entonces se determina que la región crítica
está en la cola a la derecha de la distribución normal. Para ello, determinamos los valores
críticos con el nivel de significancia de α =0,05 , donde los valores críticos son ZL = 1,645, y lo
representamos en la gráfica siguiente:

Luego:

Si: X1 − X2 ≤ 5,88  No se rechaza H0


Si: X1 − X2 > 5,88  Se rechaza H0

124
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

µ – µ =0 X1 – X2 = 5.88
1 2

Figura 46. Región de rechazo.


Fuente: Elaboración propia

7.° Como X1 − X2 = 121 − 112 = 9  9 > 5,88 se rechaza H0   y se concluye con un nivel de signi-
ficancia del 0,05 que la adición del nuevo ingrediente a la pintura sí disminuye de manera
significativa el tiempo promedio de secado.

3. Prueba de hipótesis respecto a dos medias independientes, σ1 y σ2 desconoci-


das

Caso1: Si σ1 =σ2
En este caso se considera prueba de hipótesis sobre las dos medias poblacionales, desconociendo las
desviaciones estándares ( σ1 y σ2 σ1 =σ2 , las varianzas muestrales S12 y S22
); si se puede suponer que
pueden agruparse para obtener un estimado de varianza poblacional σ común. Aquí se aplica el
2

estadístico t de Student.

Requisitos:

™ Se desconocen las desviaciones estándares poblacionales, pero se supone que son iguales. Es
decir: σ1 =σ2 .
™ Las muestras son independientes.
™ Ambas muestras son aleatorias simples.
™ Cualquiera de estas condiciones satisface:

Dos tamaños muestrales son grandes (como n1 > 30 ∧ n2 > 30 ); las dos muestras provienen de po-
blaciones que tienen distribuciones normales.

Notación: Para la población 1

n1  Tamaño de la muestra

X1  Media muestral

µ1  Media poblacional

σ12  Varianza poblacional

125
Se adjuntan los significados correspondientes a n2 ,X2 , µ 2 , σ2 , que provienen de la población 2.
2

Estadístico de prueba, σ1 =σ2 : t =


( X − X ) −( µ − µ )
1 2 1 2

Sp2 Sp2
+
n1 n2

Donde la varianza agrupada: S 2


=
(n
1 ) (
− 1 S12 + n2 − 1 S22 ) y el número de grados de libertad está

dado por: gl = n1 + n2 − 2 .
p
(n − 1) + (n
1 2 − 1)

Valor P y valores críticos: Remítase a la Tabla A-3.

Ejemplo n.° 1:Se llevó a cabo un experimento para comparar el desgaste por abrasivos de dos dife-
rentes materiales laminados. Se probaron 12 piezas del material 1 exponiendo cada pieza a una má-
quina para medir el desgaste. Se probaron 10 piezas del material 2 de manera similar. En cada caso
se observó la profundidad del desgaste. Las muestras del material 1 revelaron un desgaste promedio
(codificado) de 85 unidades con una desviación estándar muestral de 4; en tanto que las muestras
del material 2 revelaron un promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos
concluir, a un nivel de significancia de 0,05, que el desgaste abrasivo del material 1 excede al del
material 2 en más de 2 unidades? Suponga que las poblaciones son aproximadamente normales con
varianzas iguales.

Solución: Se trata de una distribución muestral de dos medias con desviaciones estándares desco-
nocidas e iguales ( σ1 =σ2 =σ ), ambas distribuciones normalmente distribuidas; para este caso se
aplicará la prueba de t agrupada, y luego se siguen los siguientes pasos:

1.° La aseveración original dice que el desgaste promedio abrasivo del material 1 excede al del
material 2 en más de 2 unidades: µ1 − µ2 > 2 .
µ1 : Desgaste promedio abrasivo del material 1.

µ2 : Desgaste promedio abrasivo del material 2.


2.° El opuesto de la aseveración original: µ1 − µ 2 ≤ 2 .
3.° Delas dos expresiones simbólicas anteriores, la expresión µ1 − µ 2 > 2 no contiene igualdad,
por lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que
µ1 − µ2 igual al valor fijo de 2. Como consecuencia, se expresa:
H0 : µ1 − µ 2 = 2
Obteniéndose:
H1 : µ1 − µ 2 > 2

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica dos medias poblacionales µ1 y µ 2 , el estadístico relevante
de esta prueba considera varianzas agrupadas que pueden generar una en común. También
se le conoce como prueba t independiente, debido a que las dos poblaciones normales son
independientes.

126
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

6.° El estadístico de prueba σ1 =σ2 es: t =


( X − X ) −( µ − µ )
1 2 1 2

Sp2 Sp2
+
n1 n2

Donde la varianza agrupada: S 2


=
(n1 ) (
− 1 S12 + n2 − 1 S22 )
p
(n − 1) + (n
1 2 − 1)

Grados de libertad: gl = n1 + n2 − 2 .

=
µ1 85 =
µ 2 81 =
n1 12 =
α 0,05
Donde:
=S1 4 =S2 5=n2 10

Calculando la varianza común (agrupada):

(12 − 1)( 4 ) + (10 − 1)( 5)


2 2

=S 2
= 20,05
p
(12 − 1) + (10 − 1)

Luego, =
reemplazando: t
(85− 81) −2
= 1,04
20,05 20,05
+
12 10
Por lo tanto: t > 1,04

En el paso 3.° se menciona que H1 : µ1 − µ 2 > 2 ; entonces se determina que la región


crítica está en la cola a la derecha de la distribución normal. Para ello determinamos
los valores críticos, con el nivel de significancia de α =0,05 y con grados de libertad:
gl = n1 + n2 − 2 = 12 + 10 − 2 = 20 , donde el valor crítico es ZL = 1,725, y lo representamos en
la gráfica siguiente:

Luego

si H1 : µ1 − µ2 ≤ 2  No se rechaza H0
si H1 : µ1 − µ2 > 2  Se rechaza H0

127
H1
H0

Región de
rechazo

a = 0.05

Región de aceptación

µ – µ =2 tL = ZL = 1,725
1 2

Figura 47. Región de rechazo.


Fuente: Elaboración propia

7.° Como  1,04 < 1,725 no se rechaza H0  y se determina con un nivel de significancia del 0,05
que no podemos concluir que el desgaste abrasivo del material 1 excede al del material 2 en
más de 2 unidades.

Caso 2: Si σ1 ≠ σ 2
Se trata de distribuciones muestrales de dos medias con desviaciones estándares desconocidas y
diferentes ( σ1 ≠ σ2 ); ambas distribuciones normalmente distribuidas, para este caso no existe un
estadístico t exacto para probar H0 :µ1 =µ2 . El estadístico es:

Estadístico de prueba σ1 ≠ σ 2 : t =
( X − X ) −( µ − µ )
1 2 1 2

S12 S22
+
n1 n2
Grados de libertad: Para el cálculo del valor P o valores críticos, utilice el número de grados de libertad
teniendo en cuenta:

™ Grado de libertad, el más pequeño: gl : n1 − 1 y n2 − 1 .


™ Programas de cómputo utilizan el estimado más exacto y está fundamentado en:

( A + B)
2

gl = S12 S22
A 2
B 2 =
, donde: A = y B
+ n1 n2
n1 − 1 n2 − 1

Valor P: Remítase a la Tabla A-3. Utilice el procedimiento resumido en la figura 32

Valores críticos: Remítase a la Tabla A-3.

Ejemplo n.° 2:Se pueden utilizar dos pruebas analíticas diferentes para determinar el nivel de impureza
en aleaciones de acero. Se prueban ocho especímenes con ambos procedimientos; los resultados
aparecen en la siguiente tabla. ¿Existe suficiente evidencia para concluir que ambas pruebas dan el
mismo nivel de impureza promedio, utilizando α =0,10 ?

128
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Espécimen 1 2 3 4 5 6 7 8
Prueba 1 1,2 1,3 1,5 1,4 1,7 1,8 1,4 1,3
Prueba 2 1,4 1,7 1,5 1,3 2,0 2,1 1,7 1,6

Solución: Se trata de distribuciones muestrales de dos medias con desviaciones estándares descono-
cidas y diferentes ( σ1 ≠ σ2 ), ambas distribuciones normalmente distribuidas; para este caso se aplica
el estadístico t exacto con grados de libertad establecidos; y se siguen los siguientes pasos:

1.° La aseveración original dice que existe suficiente evidencia para concluir que ambas pruebas
dan el mismo nivel de impureza promedio: µ1 =µ2 .
µ1 : Promedio del nivel de impureza en aleación de acero, en Prueba 1.

µ2 : Promedio del nivel de impureza en aleación de acero, en Prueba 2.


2.° El opuesto de la aseveración original: µ1 ≠ µ 2 .

3.° Delas dos expresiones simbólicas anteriores, la expresión µ1 ≠ µ 2 no contiene igualdad, por lo
que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que µ1 y µ 2
son diferentes. Como consecuencia, se expresa:

H0 : µ1 =µ 2
Obteniéndose:
H1 : µ1 ≠ µ 2

4.° El nivel de significancia es α =0,10 .

5.° Dado que la aseveración implica dos medias poblacionales µ1 y µ 2 , el estadístico relevante
de esta prueba considera varianzas agrupadas que pueden generar una en común. También
se le conoce como prueba t independiente, debido a que las dos poblaciones normales son
independientes. El estadístico de prueba es:

6.° El estadístico de prueba σ1 ≠ σ2 es: t =


( X − X ) −( µ − µ )
1 2 1 2

S12 S22
+
n1 n2
Donde el grado de libertad se halla mediante:

( A + B)
2

gl = S12 S22
™ =
, donde: A = y B
A2 B2 n1 n2
+
n1 − 1 n2 − 1

Calculando Hallando las medias y desviaciones estándares muestrales con la calculadora te-
nemos:

X1= 1,45 X2= 1,66 n1= n2= 8 α= 0,05


Donde:
= =
S1 0,21 S2 0,28

129
(=
0,21) (=
0,28 )
2 2

=
Calculando el grado de libertad: A 0,0055=
y B 0,0098
8 8

( 0,0055 + 0,0098=
)
2

=gl 12,98 ≈ 13
( 0,0055) + ( 0,0098 )
2 2

8−1 8−1

Luego, =
reemplazando: t
(85− 81) −2
= 1,04
20,05 20,05
+
12 10
Por lo tanto: t > 1,04

En el paso 3.° se menciona que H1 : µ1 ≠ µ 2 ; entonces se determina que la región crítica está
en dos colas de la distribución normal. Para ello, determinamos los valores críticos, con el nivel
de significancia de= α 0,10 ⇒ α = / 2 0,05 y con grados de libertad: gl = 13 , donde el valor
crítico es ZL = ± 1,746, y lo representamos en la gráfica siguiente:

Luego

si: −1,746 ≤ t ≤ 1,746  No se rechaza H0


si: t < −1,746 o t > 1,746  Se rechaza H0
H0
H1 H1

Región de Región de
rechazo rechazo

a/2 = 0.05 a/2 = 0.05

Región de aceptación

ZL = -1,746 µ – µ =0 ZL = 1,746
1 2

Figura 48. Región de rechazo.


Fuente: Elaboración propia

7.° Como  1,04 < 1,725 no se rechaza H0  y se concluye, con un nivel de significancia del 0,10,
que no hay evidencia fuerte que indique que el nivel de impureza promedio de las dos prue-
bas sea diferente.

130
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Inicio

Utilice la distribución
normal con error
¿ Se conoce Si estándar Este caso casi
σ1 y σ 2 ?
σ12 σ22
nunca ocurre
en la realidad
X1 − X2 = µ1 − µ 2 + Z +
n1 n2

NO

¿ Puede Algunos
Si
suponerse que Utilice la distribución especialistas en
σ1 =σ2 ?
y con error estándar
AGRUPADO
estadística no
recomiendan
este método

NO

( )(
Método aproximado
− Xerror
X1t con
utiliza
2 − µ1 − µ 2
la distribución
estándar: ) Utilizan este
método a
t= menos que se
S12 S22 le indique otro
+ caso
n1 n2

Figura 49. Métodos para pruebas de hipótesis de dos medias independientes. Tomado de Estadísti-
ca, por Mario Triola, 2009, p. 476.

4. Prueba de hipótesis respecto a dos varianzas

En este caso, se considera prueba de hipótesis respecto a dos varianzas de la población (o desviación
estándar) utilizando dos muestras. Aquí se utiliza la distribución F(distribución de Fisher).

Requisitos:

™ Las dos poblaciones son independientes una de la otra.


™ Las dos poblaciones están distribuidas normalmente.

131
Notación: Para la población 1

n1  Tamaño de la muestra que tiene la varianza más grande

S12  La más grande de dos varianzas muestrales.

σ12  Varianza de la población donde se obtiene la muestra con la varianza más grande.

Se adjuntan los significados correspondientes a n2 ,S22 ,σ22 provenientes de la población 2.

S12
Estadístico de prueba: F=
S22

Donde S12 es la más grande de las varianzas muestrales.


Valores críticos: Utilice la Tabla A–5; para obtener los valores críticos F se determinan siguiendo:
™ Nivel de significancia α (Tabla A–5 tiene cuatro páginas de valores críticos para α = 0,025 y 0,05).
™ Grados de libertad del numerador: gl : n1 − 1.
™ Grados de libertad del denominador: gl : n2 − 1 .
Ejemplo n.° 1:Se realiza un estudio para comparar el tiempo que les toma a hombres y mujeres ensam-
blar cierto producto. La experiencia indica que la distribución del tiempo tanto para hombres como
para mujeres es aproximadamente normal, pero que la varianza del tiempo para las mujeres es menor
que para los hombres. Una muestra aleatoria de los tiempos de 11 hombres y 14 mujeres produce los
siguientes datos:

Hombres Mujeres

n1 = 11 n2 = 14

S1 = 6,1 S2 = 5,3

Pruebe la hipótesis de que σ12 =σ22 contra la alternativa de que σ12 > σ22 . Utilice un valor P en su
conclusión.

Solución: En este caso se considera la prueba de hipótesis respecto a las varianzas de las poblaciones
σ12 y σ22 . Aquí se utiliza la distribución F. Para ello, se siguen los pasos siguientes:
1.° La aseveración original dice que la varianza del tiempo para las mujeres es menor que para

los hombres: σ12 > σ22 .


σ12: Varianza de tiempo que emplean los hombres para ensamblar un producto.

σ22 : Varianza de tiempo que emplean las mujeres para ensamblar un producto.

2.° El opuesto de la aseveración original: σ12 ≤ σ22 .

132
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3.° De las dos expresiones simbólicas anteriores, la expresión σ1 > σ2 no contiene igualdad, por
2 2

lo que se convierte en la hipótesis alternativa. La hipótesis nula es la afirmación de que σ1 y σ2


2 2

son iguales. Como consecuencia se expresa:

H0 : σ12 = σ22
Obteniéndose:
H1 : σ12 > σ22

4.° El nivel de significancia es α =0,05 .

5.° Dado que la aseveración implica dos varianzas poblacionales σ1 y σ2 , y como los requisitos
2 2

para utilizar el estadístico relevante prueba F satisface, empleamos la distribución de Fisher (F).
Remítase a la Unidad I.

S12
6.° El estadístico de prueba es F=
S22

=
S1 6,1 =
n1 11 =
α 0,05
Donde:
= =
S2 5,3 n 2 14

(=6,1)
2

=
Luego, reemplazando: F 1,32
( 5,3)
2

Por lo tanto: F = 1,32

En el paso 3.° se menciona que H1 : σ1 > σ2 ;entonces se determina que la región crítica está
2 2

en la cola derecha de la distribución F. Para ello, determinamos los valores críticos, con el nivel
de significancia de α =0,05 , y grados de libertad:

™ Grados de libertad del numerador: gl : n1 − 1 = 11 − 1 = 10 .


™ Grados de libertad del denominador: gl : n2 − 1 = 14 − 1 = 13 , donde los valores críticos
son FL = 2,6710, y lo representamos en la gráfica siguiente:

Luego

si: F ≤ 2,67  No se rechaza H0


si: F > 2,67  Se rechaza H0
H0
H1

a = 0.05
Región de
aceptación
F(0,05;10,13) 2,67
Figura 50. Región de rechazo.
Fuente: Elaboración propia
133
7.° Como 1,32 < 2,67  no se rechaza H0   y se concluye, con un nivel de significancia del 0,05,
que no se puede determinar que la varianza del tiempo empleado para las mujeres en ensam-
blar productos es menor que para los hombres.

Para calcular el valor de P se va a la tabla A-5 y se busca el valor de 1,32 en el reglón de 13


grados de libertad. Se interpola entre 1 y 2 y se obtiene el valor de P de 0,0965.

P = 0,0965

a = 0.05
Región de
aceptación
F - 1,32 F(0,05;10,13) -2,67
Figura 51. Valor de P.
Fuente: Elaboración propia

Tabla 3
Resumen de las pruebas de hipótesis para dos poblaciones

REQUISITOS
DISTRIBUCIÓN Y ESTADISTICO VALORES P
PARÁMETRO Muestras
DE PRUEBA Y CRÍTICOS
independientes y…
Distribución normal

∧ ∧ 

P
(
 p1 − p 2  − p1 − p 2 )
R Z= 
O pq pq
P
+
n1 n2
O
R
C
n1 > 30 ∧ n2 > 30 Tabla A-2
Si: p1 − p 2 =
0,
I
O
N
∧ X1 ∧ X
p1 = ∧ p2 = 2
E n1 n2
S

X + X2
p =1 ∧ q =−
1 p
n1 + n2

134
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

σ12 y σ22 Distribución normal

conocida
y n > 30 o Z=
( X − X ) −( µ − µ )
1 2 1 2
Tabla A-2
Población σ σ
2 2
+ 1 2
distribuida n1 n2
normalmente
Distribución t Student :

Si: σ1 =σ2 :

σ12 y σ22
t=
( X − X ) −( µ − µ )
1 2 1 2

desconocida Sp2 Sp2


+
y n > 30 n1 n2 Tabla A-3
o Varianza agrupada:
Población
distribuida
M
E
normalmente
S 2
=
(n 1 )(
− 1 S12 + n2 − 1 S22 )
D
p
(n − 1) + (n
1 2 − 1)
I
A gl = n1 + n2 − 2
S
Distribución t Student :

Si: σ1 ≠ σ 2 :

t=
( X − X ) −( µ − µ )
1 2 1 2

S12 S22
Población no +
distribuida n1 n2
normalmente Tabla A-3
n ≤ 30
( A + B)
2

gl = , donde:
A2 B2
+
n1 − 1 n2 − 1

S12 S22
=A = y B
n1 n2
Distribución de Fisher
Población
VARIANZA distribuida S12 Tabla A-5
normalmente F=
S22

Fuente: Elaboración propia.

135
Lectura seleccionada n.° 4
“La estadística en el trabajo”.

Triola, M. (2009). La estadística en el trabajo. En Estadística, p. 452. Recuperado de https://docsli-


de.net/education/estadistica-10e-triola.html

Actividad n.° 10
Foro de discusión sobre la lectura “La estadística en el trabajo”.

Instrucciones

Ingrese al foro y participe con comentarios críticos y analíticos sobre el tema “La estadística en el
trabajo”.

• Responda en el foro a las preguntas acerca de la lectura, “La estadística en el trabajo”:

¿Cuál es propósito de lectura?

¿Cuál es la relación entre la lectura propuesta y la estadística aplicada?

De acuerdo con la lectura, ¿utiliza los conceptos y procedimientos de la estadística en su


centro de trabajo? Ejemplifique de qué manera los aplica.

¿Realiza Ud. pruebas de hipótesis en el área de trabajo en la que se desempeña? Si la res-


puesta es afirmativa, ¿podría citar ejemplos de su aplicación?¿Qué pasos sigue Ud. para
asegurar una objetividad en sus procedimientos de prueba?

Si la respuesta es negativa, ¿por qué? Fundamente

¿Qué pasos seguiría Ud. para asegurar una objetividad en los procedimientos de una prue-
ba?

Actividad n.° 11
Prueba de hipótesis sobre dos poblaciones

Resuelva los siguientes ejercicios:

1. De una muestra de 50 familias de una comunidad, 10 de ellas están viendo un programa


especial de televisión sobre la economía nacional. En una segunda comunidad, 15 familias
de una muestra aleatoria de 50 están viendo el programa especial de televisión. A continua-
ción, se prueba la hipótesis de que la proporción general de televidentes en las dos comuni-
dades no difiere, usando el nivel de significancia de 1%.

2. Se toman 200 muestras de dos segmentos normales de clientes y se identifican sus preferen-
cias en los productos de la empresa. Los datos obtenidos son: µ1 = 6,40, σ1 = 2,19, µ 2 = 6,80,
σ2 = 2,42. Probar a un 95% de nivel de confianza si no hay diferencia en las medias.

136
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3. Se estudia la tasa de combustión de dos propelentes sólidos utilizados en los sistemas de


escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de los dos pro-
pelentes tiene aproximadamente la misma desviación estándar de 3 cm/s. Se prueban dos
muestras aleatorias de 20 especímenes cada una, obteniéndose medias de 18 y 24 cm/s,
respectivamente.
a) Pruebe la hipótesis de que los dos combustibles sólidos tienen la misma rapidez promedio
de combustión. Utilice un α =0,05 . 
b) ¿Cuál es el valor de P de la prueba?
c) ¿Cuál es el valor de  β para la prueba del inciso a) si la verdadera diferencia en la rapidez
promedio de combustión es 2,5 cm/s?

4. De una población se toma una muestra de 40 observaciones. La media muestral es de 102


y la desviación estándar 5. De otra población se toma una muestra de 50 observaciones. La
media muestral es ahora 99 y la desviación estándar es 6.
Realice la siguiente prueba de hipótesis usando como nivel de significancia 0,04:
Ho: u1 = u2
Ho: u1 ≠ u2
a) ¿Es esta una prueba de una o de dos colas?
b) Establezca la regla de decisión.
c) Calcule el valor del estadístico de prueba.
d) ¿Cuál es su decisión respecto a la hipótesis nula?
e) ¿Cuál es el valor p?

5. Se realiza un estudio acerca del impacto que tiene el Programa de Planificación Familiar que
lleva a cabo el HMI Ramos Larrea en dos asentamientos humanos de su jurisdicción, uno ubi-
cado en área urbana (A) y otro en área rural(B), tomando para ello dos muestras de mujeres
en edad fértil y con actividad sexual: nA = 30 y nB = 30. Después de aplicado el instrumento
de medición, se obtienen los siguientes datos:

29 10 27 8 26 11 25 7 13 9 28 24 7 22 9
Muestra A
12 9 13 15 8 11 19 20 25 18 23 29 26 8 11
9 14 11 8 15 19 21 13 10 8 17 22 19 11 7
Muestra B
24 18 15 11 26 17 7 14 12 10 8 11 6 9 12

Según los datos obtenidos y suponiendo normalidad, ¿podríamos decir que el impacto fue
mayor en las mujeres del asentamiento humano ubicado en el área urbana? Utilizar un nivel
de significación del 5%.

6. En el Hospital del Carmen, se realizó un estudio para comparar la efectividad de dos trata-
mientos diferentes para la diarrea aguda; para ello, se seleccionaron 15 niños de 1 a 2 años
de edad con diarrea aguda, que fueron divididos en dos subgrupos: al subgrupo A se le dio
como tratamiento SRO y al subgrupo B se le dio como tratamiento SRO + Cocimiento de
arroz. Después de tres días de tratamiento, se registró la frecuencia de evacuaciones de los
niños. Los resultados fueron los siguientes:

GRUPO A 3 4 3 4 4 4 5
GRUPO B 4 1 2 3 1 3 2 3

¿Proporcionan los datos evidencias suficientes que indiquen que la efectividad de los dos
tratamientos no es la misma? Utilice un nivel de significación de 0,05.
137
7. Lisa Pérez es directora de presupuesto en la empresa China Motors, y desea comparar los
gastos diarios de transporte del equipo de ventas y del personal de cobranza. Recopiló la
siguiente información muestral (importe en soles).
Equipo de ventas (S/) 131 135 146 165 136 142 148
Personal de cobranzas (S/) 130 102 129 143 149 120 139

a) Al nivel de significancia de 0,10, ¿puede concluirse que los gastos medios diarios del equi-
po de ventas son mayores?
b) ¿Cuál es el valor p?

8. Se lleva a cabo un experimento para comparar el desgaste por abrasivo de dos diferentes
materiales laminados. Se prueban 12 piezas del material 1 mediante la exposición de cada
pieza a una máquina para medir el desgaste. Diez piezas del material 2 se prueban de ma-
nera similar. En cada caso, se mide la profundidad del desgaste. Las muestras del material
1 dan un desgaste promedio de 85 unidades con una desviación estándar muestral de 4,
mientras que las muestras del material 2 dan un promedio de 81, desviación estándar mues-
tral de 5. ¿Podemos concluir con un nivel de significancia del 0,05 que el desgaste abrasivo
del material 1 excede el del material 2 en 2 unidades?

9. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos
con una etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro
no. Los tiempos de sobrevivencia en años, a partir del momento en que comienza el experi-
mento, son los siguientes:

Con tratamiento 2,1 5,3 1,4 4,6 0,9


Sin tratamiento 1,9 0,5 2,8 3,1  

¿Se puede decir en el nivel de significancia de 0,05 que el suero es efectivo? Suponga que
las dos poblaciones se distribuyen normalmente con varianzas iguales.

10. Los tiempos de respuesta en días de dos procesos de atención al cliente se muestran a con-
tinuación:

Proceso A
2,95 3,16 3,12 3,45 3,2 3,22 3,5 3,22 2,98 3,75
3,38 3,45 3,48 3,9 3,7 3,26 3,36 3,34 3,33 3,25
3,18 3,2 3,28 3,35 3,12

Proceso B
3,22 3,3 3,34 3,28 3,29 3,25 3,3 3,27 3,38 3,34
3,35 3,19 3,35 3,05 3,36 3,258 3,3 3,28 3,3 3,3
3,2 3,16 3,33

Probar a un 95% de confianza si hay diferencia entre las varianzas de las dos muestras.

138
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Pruebas de bondad, tablas de contingencias


Tema n.° 5

En el desarrollo de esta unidad nos ocupamos de la prueba de hipótesis estadísticas acerca de pará-
metros de una población como µ; σ; p . Ahora se considera una prueba para determinar si una po-
blación tiene una distribución teórica específica. La prueba se basa en qué tan buen ajuste se tiene
entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias
esperadas que se obtienen a partir de la distribución hipotética. La fórmula que se utilizará para cal-
cular el valor de chi-cuadrada es igual a la de la sección anterior, con el mismo concepto de grados
de libertad.

1. Prueba de bondad

Requisitos

™ Los datos se seleccionan al azar.


™ Los datos muestrales consisten en conteos de frecuencias para cada una de las diferentes cate-
gorías.
™ Para cada categoría la frecuencia esperada es al menos 5.

Notación:
O Frecuencia observada de un resultado

E Frecuencia esperada de un resultado

k  Número de categorías diferentes o resultados


n  Número total de ensayos

(O − E)
2

Estadístico de prueba: X =∑
2

E
Valores críticos:

™ Los valores críticos se encuentran en la Tabla A-4. Utilice:


Grados de libertad: k − 1  K: Número de categorías.
™ Las pruebas de hipótesis de bondad siempre son de cola derecha.

Ejemplo n.° 1:Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie, y se observó el nú-
mero de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se
muestra en la siguiente tabla:

N.° de caras 0 1 2 3 4 5 Total


N.° de series (fi) 38 144 342 287 164 25 1000

Ajustar una distribución binomial a los datos con un α =0,05 .

Solución:

1.° H0; los datos se ajustan a una distribución binomial.


H1; los datos no se ajustan a una distribución binomial.
Para obtener los valores esperados se tiene que utilizar la fórmula de la distribución binomial:

139
P ( X ) =n Cx .px .qn−x , donde n es 5,  p y q son las probabilidades respectivas de cara y sello en
un solo lanzamiento de la moneda.

2.° Cálculo del valor p en una distribución normal: µ =p n  µ =5p


Cálculo de la media del número de caras de frecuencias observadas:

=
Es: µ
∑=
X .f1 i
2, 47  p= µ= 2, 47= 0, 494
n 5 5
 q = 1 − p = 0,506

3.° Probabilidad de la distribución binomial:

P ( x ) =5 Cx ( 0, 494 ) ( 0,506 )
x 5− x

Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el valor de la variable
aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los
resultados en la tabla siguiente:

Número de Frecuencia Frecuencia


P(x caras)
caras (x) esperada observada
0 0,0332 33,2 38
1 0,1619 161,9 144
2 0,3162 316,2 342
3 0,3087 308,7 287
4 0,1507 150,7 164
5 0,0294 29,4 25

4.° Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la
población para poder obtener el valor de P y así poder calcular los valores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4.

H0
H1

Región de
rechazo
a = 0.05
Región de
aceptación
X2(0.05,4) = 9.49
Figura 52. Región de rechazo unilateral.
Fuente: Elaboración propia

5.° Si: X2 ≤ 9, 49  No se rechaza H0


X2 > 9, 49  Se rechaza H0

140
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

∑ (O )
2
j − Ej
j =1
6.° Cálculo de X2 : X2 =
Ej

(38 − 33,2) (144 − 161,9 ) (342 − 316,2) ( 287 − 307,7 ) (184 − 150,7 ) ( 25 − 29, 4 )
2 2 2 2 2 2

X2 = + + + + +
33,2 161,9 316,2 307,7 150,7 29, 4
=X2 8,1358 ≈ 8,14

7.° Como el 8,14 no es mayor a 9,49, no se rechaza H0 y se concluye con un  α =0,05 que el ajus-
te de los datos a una distribución binomial es bueno.

Ejemplo n.° 2: Se propone que el número de defectos en las tarjetas de circuito impreso sigue una
distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el
número de defectos. Los resultados obtenidos son los siguientes:

N.° de defectos O 1 2 3 o más


Frecuencias observadas 32 15 9 4

¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?
Haga la prueba de la bondad del ajuste con un α =0,05 .

Solución:

1.° H0; la forma de la distribución de los defectos es Poisson.


H1; la forma de la distribución de los defectos no es Poisson.

2.° La media de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimar-
se a partir de los datos contenidos en la muestra.

30 ( 0 ) + 15 ( 1) + 9 ( 2) + 4 ( 3)
µ=λ= = 0,75
60

3.° A partir de la distribución Poisson con parámetro 0,75, pueden calcularse las probabilidades
asociadas con el valor de x. Esto en la fórmula de la Poisson es:

λ x .e −λ 0,75x.e −0,75
P (x)
= =
x! x!

Con esta fórmula se calculan las probabilidades, que se multiplican por 60 para obtener los
valores esperados.

Número de Frecuencia Frecuencia


Probabilidad
defectos esperada observada
0 0,472 28,32 32
1 0,354 21,24 15
2 0,133 7,98 9
3 o más 0,041 2,46 4

141
Puesto que la frecuencia esperada en la última celda es menor que 3, se combinan las dos
últimas celdas.

Número de Frecuencia Frecuencia


defectos esperada observada
0 28,32 32
1 21,24 15
2 o más 10,44 13

4.° Los grados de libertad serían 3-1-1=1, debido a que la media de la distribución Poisson fue es-
timada a partir de los datos.

H0
H1

Región de
rechazo
a = 0.05
Región de
aceptación
X2(0.05,1) = 3.84
Figura 53. Región de rechazo.
Fuente: Elaboración propia

5.° Si: X2 ≤ 3,84 no se rechaza Ho

X2 > 3,84 se rechaza Ho

∑ (O )
2
j − Ej
j =1
6.° Cálculos de X2 : X2 =
Ej

(32 − 28,32) (15 − 21,24 ) (13 − 10, 44 )


2 2 2
2
X = + +
28,32 21,24 10, 44

X2 = 2,94
7.° Como el 2,94 no es mayor a 3,84, no se rechaza H0 y se concluye con un  α =0,05 que la dis-
tribución de defectos en las tarjetas de circuito impreso es Poisson.

Tablas de contingencia: También denominada tabla de dos factores, es aquella tabla de fre-
cuencias correspondientes a dos variables cualitativas, representadas por una variable para
categorizar en reglón y la otra para categorizar en columnas.

142
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Prueba de independencia Prueba de homogeneidad


Esta prueba permite medir la significación Debemos emplear esta prueba cuando
de la asociación entre 2 variables de cla- tenemos varias muestras y se desea deter-
sificación, o sea, entre 2 variables cualita- minar si son homogéneas con relación a
tivas. la distribución en las mismas de una varia-
ble cualitativa.

143
Pruebas de independencia y homogeneidad
Tema n.° 6

3. Prueba de independencia

Esta prueba consiste en poner a prueba la hipótesis nula de que no existe asociación entre variables
del reglón con las de la columna en una tabla de contingencia.

Requisitos:

™ Los datos muestrales son seleccionados al azar y se representan como conteos de frecuencias en
una tabla de dos factores.
™ La hipótesis nula H0 es la afirmación de que las variables del reglón y columnas son independien-
tes; la hipótesis alternativa H1 es la afirmación de que las variables son dependientes.
™ Para cada celda de la tabla de contingencia, la frecuencia esperada E es menos que 5.

(O − E)
2

Estadístico de prueba: X =∑
2

E
Valores críticos:
™ Para los valores críticos remítase a la Tabla A-4,
Grados de libertad = (r – 1)(c - 1),
donde: r  Número de renglones
c  Número de columnas
™ En una prueba de independencia de una tabla de contingencia, la región crítica se localiza solo
en la cola derecha.

Ejemplo n.° 1:

Una asociación de profesores universitarios quiere determinar si la satisfacción en el trabajo es inde-


pendiente del rango académico. Para ello, realizó un estudio nacional entre los académicos universi-
tarios y encontró los resultados mostrados en la tabla siguiente. Con  α =0,05 haga una prueba para
saber si son dependientes la satisfacción en el trabajo y el rango.

Rango
Profesor Profesor
Satisfacción   Instructor Profesor
asistente asociado
en el
Mucha 40 60 52 63
trabajo
Regular 78 87 82 88
Poca 57 63 66 64

Solución:

1.° Ho; la satisfacción en el trabajo y el rango son independientes.


H1; la satisfacción en el trabajo y el rango son dependientes.
2.° Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6

144
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

H0
H1

Región de
rechazo
a = 0.05
Región de
aceptación
X2(0.05,6) = 12.592
Figura 54. Región de rechazo.
Fuente: Elaboración propia.

3.° Si: X2 ≤ 12,592 No se rechaza Ho


X2 > 12,592 Se rechaza Ho
4.° Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad
son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias esperadas, y las
faltantes se encuentran por diferencia.

5.° Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.
Como se necesitan los totales de renglón y columna, se mostrarán en la tabla:

Rango
Profesor Profesor
Satisfacción   Instructor Profesor Total
asistente asociado
en el
Mucha 40 60 52 63 215
trabajo
Regular 78 87 82 88 335
Poca 57 63 66 64 250
  Total 175 210 200 215 800

∧ ∧
1 t r
Eij = n µi ν j = ∑ ij ∑ Oij
O .
n i 1 =j 1
=

=E11
( 215
=
)(175) =
47,03 E12
( 215
=
)( 210 ) =
56,44 E13
( 215
=
)( 200 ) 53,75
800 800 800

=E 21
(335
=
)(175) =
73,28 E 22
(335
=
)( 210 ) =
87,94 E 23
(335
=
)( 200 ) 83,75
800 800 800
....

145
Rango
Profesor Profesor
Satisfacción Instructor Profesor Total
asistente asociado
40 60 52 63
Mucha 215
(47,03) (56,44) (53,75) (57,78)
78 87 82 88
Regular 335
(73,28) (87,94) (83,75) (90,03)
57 63 66 64
Poca 250
(54,69) (65,62) (62,50) (67,19)
Total 175 210 200 215 800

6.° Los valores entre paréntesis son los esperados; los que no se calcularon por fórmula se obtuvie-
ron por diferencia con respecto a los totales.

(O )
2
t r − Eij
X2 = ∑ .∑
ij

=i 1 =j 1 Eij

( 60 − 47,03) ( 60 − 56, 44 ) ( 64 − 67,19 )


2 2 2
2
=X + + ... +
47,03 56, 44 67,19

X2 = 2,75
7.° Como el valor de 2,75 es menor que el de tabla 12,592, no se rechaza Ho y se concluye con un
α =0,05 que la satisfacción en el trabajo y el rango son independientes.

2. Prueba de homogeneidad

Esta prueba permite probar la aseveración de que poblaciones diferentes tienen las mismas propor-
ciones de algunas características.

Ejemplo n.° 1: Estamos interesados en estudiar la fiabilidad de cierto componente informático con
relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100 compo-
nentes de cada uno de los 3 distribuidores que nos sirven el producto para comprobar el número de
defectuosos en cada lote. La siguiente tabla muestra el número de defectuosos en cada uno de los
distribuidores.

Componentes Componentes
Total
defectuosos correctos
Distribuidor 1 16 84 100
Distribuidor 2 24 76 100
Distribuidor 3 9 91 100
Total 49 251 300

Solución:

1.° Ho; entre los distribuidores no existen diferencias de fiabilidad referente a los mismos compo-
nentes.
H1; entre los distribuidores existen diferencias de fiabilidad referente a los mismos componentes.

146
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

2.° Grados de libertad: (r-1)(c-1) = (3-1)(2-1)=(2)(1) = 2

H0
H1

Región de
rechazo
a = 0.05
Región de
aceptación
X2(0.05,6) = 12.592
Figura 55. Región de rechazo.
Fuente: Elaboración propia

3.° Si: X2 ≤ 5,991 No se rechaza Ho


X2 > 5,991 Se rechaza Ho
4.° Se procederá a calcular los valores esperados de cada celda. Como los grados de libertad
son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias esperadas, y las
faltantes se encuentran por diferencia.

5.° Se calcularán los valores esperados E11, E12, E21, E22, E31 E32.
Como se necesitan los totales de renglón y columna, se mostrarán en la tabla:

∧ ∧
1 t r
Eij = n µi ν j = ∑ ij ∑ Oij
O .
n i 1 =j 1
=

=E11
(=
49 )( 100 )
=
16,33 E12
( 251
=
)(100 ) 83,67
300 300

=
( 49 )(100 ) =
E 21 = 16,33 E 22
( 251
=
)(100 ) 83,67
300 300

=E31
(=
49 )( 100 )
=
16,33 E32
( 251
=
)(100 ) 83,67
300 300
Las frecuencias esperadas bajo homogeneidad son las representadas entre paréntesis.

Componentes Componentes
Total
defectuosos correctos
Distribuidor 1 16 (16,33) 84 (83,67) 100
Distribuidor 2 24 (16,33) 76 (83,67) 100
Distribuidor 3 9 (16,33) 91 (83,67) 100
Total 49 251 300

147
6.° Los valores entre paréntesis son los esperados; los que no se calcularon por fórmula se obtuvie-
ron por diferencia con respecto a los totales.

(O )
2
t r − Eij
X = ∑ .∑
2 ij

=i 1 =j 1 Eij

(16 − 16,33) ( 24 − 16,33) (76 − 83,67 ) ( 91 − 83,67 )


2 2 2 2
2
=X + + ... + +
16,33 16,33 83,67 83,67

X2 = 8,9632
7.° Como el valor de 8,9632 es mayor que el de tabla 5,991, debemos concluir que no existe ho-
mogeneidad y, por lo tanto, que hay diferencias entre los tres distribuidores a un nivel de signi-
ficancia del 5%.

Actividad n.° 12
Instrucción: Resuelva los siguientes ejercicios:

1. Cierto tipo de linterna de mano se vende con las cuatro pilas incluidas. Se obtiene una
muestra aleatoria de 152 linternas. Sea X la variable aleatoria que representa el número de
pilas defectuosas de una linterna seleccionada al azar. De las 150 linternas se determina el
número de pilas defectuosas por linterna; se obtienen los siguientes datos:

N.° de pilas defectuosas 0 1 2 3 4


Frecuencia observada 24 54 28 26 10

a) Si la variable aleatoria X sigue una distribución binomial con parámetros


n = 4 y p, obtener el estimador de máxima verosimilitud de p .
b) Pruebe si la variable aleatoria X sigue una distribución binomial con parámetros n = 4 y ,
donde es el EMV de p encontrado en el inciso (a). Considere α = 0,01. ¿Cuál es el valor
-p? Interprete.

2. Durante un periodo de semanas, se observó el número semanal de averías de una máquina


y se anotó en la tabla adjunta. Se observó que el número semanal medio de averías era 2,1.
Contraste la hipótesis nula de que la distribución poblacional del número de averías es de
Poisson. Considere α = 0,01. ¿Cuál es el valor -p? Interprete.

Número de averías 0 1 2 3 4 5 o más


Número de semanas 12 22 33 25 8 5

148
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

3. En el hospital materno infantil, el número de nacimientos observados para cada mes de


cierto año es:

Enero 95 Julio 105


Febrero 105 Agosto 110
Marzo 95 Setiembre 105
Abril 105 Octubre 100
Mayo 90 Noviembre 95
Junio 95 Diciembre 100

¿Existe alguna razón para creer que el número de nacimientos no se encuentra distribuido
en forma uniforme durante todos los meses de año?
Considere α = 0,01.

4. El departamento de control de calidad de una compañía cree que el número de defectos


por unidad de cierto componente sigue una distribución de Poisson con λ = 0,5. En un estudio
realizado por el departamento, se pudo construir la siguiente tabla de frecuencias:

Número de defectos 0 1 2 3 o más


Frecuencia absoluta 62 24 15 2

¿Existe suficiente evidencia al nivel de significancia del 5%, de que el número de defectos
por unidad efectivamente sigue una distribución de Poisson con
λ = 0,5?

5. Diariamente, de lunes a viernes, un inversionista al abrir el mercado, compra las tres acciones
más baratas al precio de apertura del día, con el objetivo de venderlas al final del día a un
precio superior. Si el precio de venta no es superior al de compra, no vende las acciones el
mismo día y las dona a una fundación de niños. Use los datos mostrados en la tabla siguiente
para probar a un nivel de significancia de 5% si el número de acciones vendidas se puede
considerar como datos de una variable aleatoria binomial.

Número de acciones vendidas 0 1 2 3


Frecuencia observada 1 16 55

6. Al estudiar si conviene tener o no una sucursal en la ciudad de Tarapoto, la gerencia comer-


cial de Plaza Vea de Lima establece el siguiente criterio para tomar una decisión: Abrir la
sucursal si el ingreso promedio familiar mensual en dicha ciudad es no menor de $500 y no
abrirla en caso contrario. Una muestra aleatoria de 100 ingresos familiares de esta ciudad ha
dado una media de $480.
a) ¿Cuál es la decisión por tomar al nivel de significancia del 5%?
b) ¿Con que probabilidad de error se abriría la sucursal en Tarapoto si el ingreso promedio
realmente es $464?
c) Determine la potencia de la prueba si el ingreso promedio realmente es $464.

149
7. La fábrica Indeco produce un tipo de conductor eléctrico que tiene una resistencia a la rup-
tura no mayor de 300 kg. Se descubre un proceso nuevo y más barato que desea emplearse,
siempre que el conductor así producido tenga una resistencia media a la ruptura mayor de
300 kg. Si una muestra aleatoria de 36 conductores producidos con el nuevo proceso ha
dado una media de 304,5 kg y una desviación estándar = 15 kg, ¿debería el fabricante
adoptar el nuevo proceso si está dispuesto a asumir un error típico I del 5%? Suponga que la
distribución de la resistencia a la ruptura es:
a) Normal.
b) Desconocida no normal.

8. El Colegio Médico del Perú desea estudiar si la proporción poblacional de pacientes con
la enfermedad de Alzheimer es igual para ambos sexos. Para esto, se decide observar dos
muestras aleatorias independientes, una para cada sexo: 294 hombres y 485 mujeres, res-
pectivamente.
a) ¿Se comportará o no la enfermedad de la misma forma en ambos grupos? Luego, estas
muestras se clasifican respecto a si las personas escogidas están enfermas o no, obtenién-
dose la tabla siguiente:

Enfermo de alzhéimer
Sexo Total
SI NO
Masculino 7 287 294
Femenino 33 452 485
Total 40 739 779

b) ¿En qué difiere la tabla presente de la anterior?

150
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Glosario de la Unidad II
E
Error de tipo I: ( α )
El error de rechazar la hipótesis nula cuando en realidad es verdadera. También se le conoce como
el nivel de significancia (Triola, 2009).

Error de tipo II: ( β )


El error de no rechazar la hipótesis nula cuando en realidad es falsa.

H
Hipótesis
Es una aseveración o afirmación acerca de una propiedad de una población.

Hipótesis alterna: ( H1 )
Afirmación de que el parámetro tiene un valor diferente a la hipótesis nula.

Hipótesis nula: ( Ho )
Afirmación de que el valor de un parámetro de población es igual a un valor aseverado.

N
Nivel de significancia
Es la probabilidad de que el estadístico de prueba caiga en la región crítica, cuando la hipótesis
nula es verdadera.

P
Prueba de bondad o ajuste
Esta prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las ob-
servaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de una
distribución hipotética.

Prueba de hipótesis
Es un procedimiento estándar para probar una aseveración de acerca una propiedad de una po-
blación.

Prueba de hipótesis bilaterales


Esta prueba se determina cuando la hipótesis alterna es diferente, donde la región crítica se separa
en dos partes (dos colas) con la misma probabilidad en cada una ( α / 2 ).

Prueba de hipótesis para una o dos muestras


Esta es una o más pruebas relacionadas a una o dos muestras en estudio. Están referidas de acuer-
do con el estimador que cuentan para poder determinar si es válida o no la prueba. Estas son: sobre
una proporción poblacional; respecto a la media, con σ conocida o desconocida y respecto a
varianzas.

151
Prueba de hipótesis unilaterales
Esta prueba se determina cuando la hipótesis alterna genera una desigualdad. Esta puede ser:
™ Cuando la hipótesis alterna es menor, genera que la región crítica se ubique en la izquierda (cola
a la izquierda) con una probabilidad de α .
™ Cuando la hipótesis alterna es mayor, genera que la región crítica se ubique en la derecha (cola
a la derecha) con una probabilidad de α .

Prueba de homogeneidad
Esta prueba consiste en poner la aseveración de que poblaciones diferentes tienen las mismas pro-
porciones de algunas características.

Prueba de independencia
Esta prueba consiste en poner a prueba la hipótesis nula de que no existe asociación entre variables
del reglón con las de la columna en una tabla de contingencia.

R
Región crítica
Conjunto de valores del estadístico de prueba que pueden provocar que rechacemos la hipótesis.

T
Tablas de contingencia
También denominadas de dos factores. Es aquella tabla de frecuencias correspondiente a dos
variables cualitativas, representadas por una variable para categorizar en reglón y la otra para
categorizar en columnas. Esta tabla permite determinar las pruebas de independencia y homoge-
neidad.

V
Valor crítico
Es cualquier valor que separa la región crítica de los valores estadísticos de prueba que no condu-
cen al rechazo de la hipótesis nula.

Valor P
Es la probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo
como el que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera.

152
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Bibliografía de la Unidad II
Devore, J. L. (1998). Probabilidades y estadística para ingeniería y ciencias (4a ed.). México:
International Thomson.

Montgomery, D. (2013). Applied Statistics and Probability for engineers (6a ed.). EE. UU.: Willey.

Montgomery, D. y Runger, George (1 996). Probabilidades y estadistica aplicadas a la ingeniería


(1a ed.). EE.UU.

Triola, M. F. (2009). Estadística (10a ed.). México: Pearson Educación.

153
Autoevaluación n.o 2
Instrucciones:
✓ El examen tiene una duración de 70 minutos.
✓ El procedimiento y respuesta (fundamentación) se tomará en cuenta para la calificación.
✓ Utilice calculadora.

1. Complete los valores de la tabla:

Niveles de confianza α Valor crítico de zα/2 Valor crítico de zα


96% 0,04
88% 1,555
92% 0,08 1,405

2. El fabricante de llantas de camiones radial X-15 con cinturón de acero afirma que el ki-
lometraje medio del neumático en estado útil es 60 000 km. Se conoce que σ = 4000 km.
Una empresa camionera compró 48 llantas y halló que la duración media fue de 61 500
kilómetros. ¿Difiere la experiencia de esta empresa de lo que afirma el fabricante de las
llantas? Use un nivel de significación de 0,05. Fundamente su conclusión y grafique.

3. Dadas las hipótesis siguientes: H0: µ≤10,40 y H1:µ>10,40; en una muestra aleatoria de 11 ob-
servaciones, la media es de 12,51 y la desviación estándar es 2,70, usando el nivel de signi-
ficancia 0,01, ¿cuál es su decisión respecto a la hipótesis nula? Fundamente su respuesta.

4. En una muestra de 120 mujeres se encuentra una proporción del 12,5% de desaprobados
en el curso de Estadística aplicada, mientras que entre los 160 varones que componen la
otra parte de la muestra, el porcentaje es del 15%. ¿Se puede aseverar que la proporción
de varones que han desaprobado Estadística aplicada es mayor que la proporción de
mujeres, para α=0,05?

5. Para determinar la conciencia pública y la preocupación por la contaminación ambien-


tal, se entrevistó a una muestra de ciudadanos de dos distritos de Huancayo. La pregunta
fue: ¿es la contaminación ambiental una preocupación en su distrito? Determine me-
diante una prueba de hipótesis si la preocupación por la contaminación ambiental es
homogénea o no en los dos distritos, para un nivel de significación de 0,025.

Respuesta

No Sí Duda No sabe

El Tambo 2 31 2 5

Chilca 11 20 7 2

154
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

UNIDAD III
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
Y SERIES DE TIEMPO
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD III

CONTENIDOS EJEMPLOS ACTIVIDADES

AUTOEVALUACIÓN BIBLIOGRAFÍA

ORGANIZACIÓN DE LOS APRENDIZAJES


RESULTADO DE APRENDIZAJE: Al finalizar la unidad, el estudiante será capaz de interpretar pronósticos
utilizando el análisis de correlación, regresión y modelos de series de tiempo.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema n.° 1: Análisis de correlación ✓ Analiza y valida la correlación entre va- ✓ Valora la utilidad de la
1. Variable dependiente riables. estadística en la toma
2. Variable independiente ✓ Realiza la prueba de hipótesis de una de decisiones.
3. Prueba de hipótesis de correlación correlación de variables.
✓ Propone y formula modelos lineales. ✓ Demuestra interés por
Tema n.° 2: Construcción del modelo lineal ✓ Construye modelos lineales de regresión conocer la relación en-
de regresión y estima el mejor valor predicho. tre variables estadísti-
1. Ecuación de regresión ✓ Analiza el coeficiente múltiple de deter- cas.
2. Intervalo de predicción para una y in- minación en una regresión múltiple. ✓ Demuestra sentido críti-
dividual ✓ Calcula el intervalo de predicción para co al elegir un modelo
la estimación de valores pronosticados. matemático que expli-
Tema n.° 3: Regresión múltiple. Análisis de ✓ Valida modelos matemáticos aplicando ca el comportamiento
multicolinealidad las reglas. de las variables.
1. Matriz de correlación. ✓ Identifica los componentes de las series
2. Coeficiente múltiple de determinación. de tiempo. ✓ Resuelve situaciones y
3. Coeficiente múltiple de determinación ✓ Realiza la suavización exponencial. problemas vinculados a
ajustado. ✓ Aplica los métodos más convenientes de la aplicación de los mé-
suavizamiento de series de tiempo. todos de suavizamiento.
Tema n.° 4: Validación de modelos ✓ Construye modelos de series de tiempo ✓ Valora reflexivamente
1. Modelo matemático. y analiza la tendencia y estacionalidad. la importancia de la in-
2. Reglas básicas para la creación de un ✓ Interpreta los modelos de series de tiem- terpretación de los mo-
buen modelo. po. delos de predicción y
Actividad n.° 13 de series de tiempo en
Tema n.° 5: Modelos de series de tiempo la toma de decisiones.
1. Componentes de las series de tiempo. Actividad n.° 14
2. Modelo aditivo
3. Modelo multiplicativo Actividad n.° 15
4. Análisis de tendencia Actividad n.° 16
5. Métodos de suavizamiento de la serie
6. Promedio móvil Actividad n.° 17
7. Promedio móviles ponderados
Actividad n.° 18
8. Suavizamiento exponencial
Los estudiantes participan en el foro de dis-
Lectura seleccionada n.° 5 cusión sobre cuáles son las características
“Investigación correlacional” (La Rotta, s/f). y etapas de la investigación correlacional.

Autoevaluación n.° 3 Control de lectura n.°1

155
Análisis de correlación
Tema n.° 1

Introducción

En este capítulo se estudiará la relación existente entre dos o más variables, y se formulará una ecua-
ción que permita calcular una variable basada en otra variable; por ejemplo:

¿Existe relación entre lo que una empresa invierte en publicidad y sus ventas? ¿Existe relación entre el
consumo de electricidad y el número de personas que habitan en la vivienda? ¿Existe una relación
entre el tiempo de servicios de los empleados y la productividad? Observe que en cada caso presen-
tado hay dos variables, como en el primero: inversión en publicidad y ventas realizadas en la empresa.

1. Análisis de correlación

El análisis de correlación es el estudio de la relación entre dos variables. Según Lind, Marchal & Mason
(2004), el análisis de correlación es un conjunto de técnicas estadísticas empleado para medir la in-
tensidad de la asociación entre dos variables.

Es decir, la finalidad es evaluar qué tan intensa es la relación entre dos variables, para lo cual es muy
conveniente observar, primeramente, el diagrama de dispersión de los datos, y así establecer de qué
manera se da la relación.

Ejemplos de diagramas de dispersión

25

16
20
Calificaciones (y)
Ventas (y)

15
14

10

12
5

0 10
1 2 3 4 5 6 7 0 1 2 3 4 5 6
Número de anuncios (x) Inasistencias (x)

Figura 56. Correlación positiva muy alta (r=0,92). Correlación negativa moderada (r=-0,54).
Fuente: Elaboración propia

Variable dependiente (y): es la variable que se predice o calcula.

Variable independiente (x): Es la variable que proporciona las bases para el cálculo. Es la variable que
permite predecir.

Al coeficiente de correlación de Pearson también se le conoce como la correlación producto-mo-


mento.

156
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

1.1. Propiedades

a) El valor de r siempre está entre -1 y 1, inclusive, es decir, es un valor del intervalo: -1≤r≤+1.
b) El valor del coeficiente de correlación no cambia si todos los valores de cualquiera de las va-
riables se convierten a una escala diferente.
c) El coeficiente de correlación mide la fuerza de una relación lineal.
La siguiente tabla es una herramienta valiosa para interpretar el coeficiente de correlación
entre dos variables:

Tabla para la interpretación del coeficiente de correlación

Valor Significado
-1 Correlación negativa perfecta
-0,90 a -0,99 Correlación negativa muy alta
-0,70 a -0,89 Correlación negativa alta Relación inversa
-0,40 a -0,69 Correlación negativa moderada entre las variables

-0,20 a -0,39 Correlación negativa baja


-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,20 a 0,39 Correlación positiva baja
0,40 a 0,69 Correlación positiva moderada Relación directa
0,70 a 0,89 Correlación positiva alta entre las variables

0,90 a 0,99 Correlación positiva muy alta


1 Correlación positiva perfecta

Nota: Un error muy frecuente es concluir que la correlación implica causalidad.

1.2. Prueba de hipótesis de correlación

Cuando se prueban hipótesis o cuando se hacen inferencias sobre una correlación, se deben
cumplir las siguientes condiciones:
• La muestra de datos apareados (x; y) es una muestra aleatoria de datos cuantitativos.
• El diagrama de dispersión debe confirmar que los puntos se aproximan al patrón de una línea
recta.
• Es conveniente eliminar los valores extremos, si existieran, ya que es muy probable que es pro-
ducto de algún error.

En la prueba de hipótesis se formulan las siguientes hipótesis:


H0: ρ=0 (No existe una correlación lineal entre las variables)
H0: ρ≠0 (Existe una correlación lineal entre las variables)

157
1.3. Estadístico de prueba: t de Student

Para n-2 grados de libertad:

Conclusión: Si │t│> tα/2 (valor crítico de la tabla A-3), rechace H0 y concluya que existe una corre-
lación lineal. Si │t│≤ tα/2, no rechace H0 y concluya que no hay evidencia suficiente para afirmar
que existe una correlación lineal.

Ejemplo 1: La tabla presenta el peso y la presión sanguínea de una muestra aleatoria de 7 univer-
sitarios.

a) Halle e interprete el coeficiente de correlación de Pearson y grafique el diagrama de disper-


sión.
b) Halle e interprete el coeficiente de determinación.
c) Realice la prueba de significancia para α=0,02.

Peso (kg) 99 78 83 111 75 107 95


Presión sanguínea (mm Hg) 170 130 138 180 160 150 100

Solución:

a) Coeficiente de correlación de Pearson:

Sujetos Peso (x) Presión (y) x2 y2 xy


1 99 170 9 801 28 900 16 830
2 78 130 6 084 16 900 10 140
3 83 138 6 889 19 044 11 454
4 111 180 12 321 32 400 19 980
5 75 160 5 625 25 600 12 000
6 107 150 11 449 22 500 16 050
7 95 100 9 025 10 000 9 500
Total 648 1028 61 194 155 344 95 954

En la fórmula:

r = 0,34

El coeficiente de correlación indica que entre el peso y la presión sanguínea de los 7 universi-
tarios existe una correlación positiva baja.

158
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

175

155

Presión
135

115

95
70 80 90 100 110 120
Peso

Figura 57. Correlación positiva baja (r=0,34) entre el peso y la presión sanguínea de los estu-
diantes.
Fuente: Elaboración propia

b) El coeficiente de determinación: cd= r2, entonces: cd= (0,34)2= 0,1156≈11,56%


Interpretación: Existe una baja asociación entre las variables. La variación de cerca del 11,56%
de las presiones sanguíneas se explica por la variación de los pesos de los 7 universitarios.

c) Prueba de hipótesis:
Paso 1: Formulación de H0 y H1
H0: No existe una correlación significativa entre el peso y la presión sanguínea.
H1: Si existe una correlación significativa entre el peso y la presión sanguínea.
Paso 2: Nivel de significancia α=0,02.
Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.
Paso 4: Para los grados de libertad: g.l.=7-2=5; α=0,02 se tiene en la tabla A-3: tα/2=3,365.
Paso 5: Hallamos el valor de la t de Student calculada (tc):

Regla de decisión: Se rechaza H0 si ocurre que │0,808│>3,365 ……(F)


Paso 6: Para un 98% de nivel de confianza no es posible rechazar H0, por lo que se asevera que
no existe una correlación significativa entre el peso y la presión sanguínea de los 7 universitarios
que participan en la investigación.

Ejemplo 2: Una universitaria se entrena para obtener su licencia de conducir repitiendo un test de 40
preguntas. En el diagrama de dispersión se describe el número de errores que corresponden a los in-
tentos realizados. Luego de efectuar los cálculos se obtuvo el coeficiente de correlación de Pearson:
r=-0,85.

159
14

12

Errores
10

4
1 2 3 4 5 6 7 8
Intentos

Figura 58. Diagrama de dispersión de datos del problema.


Fuente: Elaboración propia

a) Elabore la tabla con sus respectivos valores.


b) Interprete el coeficiente de correlación.
c) Halle e interprete el coeficiente de determinación.
d) Realice la prueba de significancia para α=0,05.

Solución:

a) Del diagrama de dispersión se obtiene la tabla:

Cantidad de intentos 1 2 3 4 5 6 7 8
Cantidad de errores 14 9 8 10 8 7 5 6

b) El coeficiente de correlación r=-0,85 indica que entre el número de intentos y los errores come-
tidos por la señorita existe una correlación negativa alta, lo que indica que a más intentos en
resolver el test de 40 preguntas menos errores se cometen.

c) El coeficiente de determinación: cd= r2, luego cd= (-0,85)2= 0,7225≈72,25%

Existe una alta asociación negativa entre las variables. La variación de cerca del 72,25% del
número de errores cometidos se explica por la variación del número de intentos realizados.

d) Prueba de significancia o prueba de hipótesis:

Paso 1: Formulación de H0 y H1.

H0: No existe una correlación significativa entre el número de intentos y la cantidad de errores
cometidos.

H1: Existe una correlación significativa entre el número de intentos y la cantidad de errores
cometidos.

Paso 2: Nivel de significancia α=0,05.

160
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.


Paso 4: Para los grados de libertad: g.l.=8-2=6; α=0,05 se tiene en la tabla A-3: tα/2=2,447.
Paso 5: Hallamos el valor de la t de Student calculado (tc):

Regla de decisión:
Se rechaza H0 si ocurre que │-3,952│>2,447 ….. (V)

Paso 6: Para un 95% de nivel de confianza se rechaza H0; por lo tanto, se asevera que existe
una correlación significativa entre el número de intentos y la cantidad de errores cometidos.

Actividad n.° 13
1. Basándose en la tabla para la interpretación del coeficiente de correlación, determine el
valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) Si el coeficiente de correlación entre dos variables es r=-0,195 entonces se ( )


dice que las variables se correlacionan de manera negativa baja.
b) La correlación entre dos variables implica causalidad. ( )
c) Si ocurre que 0<r≤1, se afirma que las variables se relacionan de manera ( )
directa.
d) Si r=0,005, entonces se afirma que las variables no están relacionadas ( )
e) Si r=0,90, entonces se afirma que las variables se correlacionan de manera ( )
positiva moderada.

2. Subraye la respuesta correcta:


a) La relación entre la inversión que hace una empresa en publicidad y sus posteriores ven-
tas es:
Directa
Inversa
No hay relación entre las variables.

b) La relación entre el número de inasistencias al trabajo y el sueldo mensual que perciben


los empleados de una empresa es:
Directa
Inversa
No hay relación entre las variables.

c) La relación entre la estatura de los estudiantes y el promedio final obtenido en estadística


es:
Directa
Inversa
No hay relación entre las variables.

161
3. Una empresa comercial tiene 20 tiendas en todo el país dedicadas a la venta de equipos de
cómputo. El gerente de ventas ha planeado lanzar un anuncio publicitario por televisión en
algunos canales, al menos dos veces antes de realizar la campaña gigante de ventas, que
empezó el sábado y terminó el domingo en las diversas tiendas. Luego de la campaña, rea-
liza una investigación con el objetivo de determinar si existe alguna relación entre el número
de veces que se transmitió el anuncio publicitario y las ventas realizadas en cinco de sus
tiendas, las que se eligieron de manera aleatoria. Los pares de datos se muestran en la tabla.

Tienda N.o de anuncios en TV N.o de ventas


1 3 17
2 6 25
3 5 19
4 2 9
5 4 16

a) Halle e interprete el coeficiente de correlación de Pearson.


b) Elabore el diagrama de dispersión.
c) Calcule e interprete el coeficiente de determinación (Cd).
d) Realice la prueba de significancia para α=0,05.

4. Un municipio está considerando aumentar el número de agentes de Serenazgo, en un es-


fuerzo por reducir la cantidad de delitos. Antes de tomar una decisión final, el alcalde pide
al jefe de Serenazgo que realice una encuesta en otras ciudades de similar tamaño de ha-
bitantes, a fin de determinar la relación entre el número de agentes y la cantidad de delitos
reportados. El funcionario recopiló la información que se muestra en la tabla.

N.o de agentes N.o de delitos


15 17
17 13
25 5
27 7
17 7
12 21
11 19
22 6

a) Halle e interprete el coeficiente de correlación de Pearson.


b) Trace el diagrama de dispersión.
c) Calcule e interprete el coeficiente de determinación (Cd).
d) Realice la prueba de significancia para α=0,01.

162
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Construcción del modelo lineal de regresión


Tema n.° 2

En la primera parte de esta unidad se explicaron los procedimientos estadísticos para determinar la
intensidad y la dirección de la relación que existe entre dos variables cuantitativas. En esta segunda
parte se determinará una ecuación para expresar la relación lineal entre dos variables cuantitativas,
por lo que se desea estimar el valor de la variable dependiente y con base en un valor de la variable
independiente x. A esta técnica que sirve para desarrollar la ecuación y dar las estimaciones se cono-
ce como análisis de regresión.

1. Ecuación de regresión

Es una ecuación que define la relación lineal entre dos variables.

La ecuación: describe algebraicamente la relación entre las dos variables. La gráfica


de la ecuación de regresión se denomina recta de regresión, recta del mejor ajuste o recta de míni-
mos cuadrados.

Notación para la ecuación de regresión:

Parámetro Estadístico
poblacional muestral
Intercepto y de la ecuación de regresión b0
Pendiente de la ecuación de regresión b1
Ecuación de la recta de regresión

Donde:

Se debe saber que:


• Si no existiera una correlación lineal entre dos variables, el mejor valor predicho de y es .
• Si existiera una correlación lineal, el mejor valor predicho de y se obtiene reemplazando el valor de
x en la ecuación de regresión.

Ejemplo 1. Inversión e ingresos brutos de bodegas: La tabla presenta la inversión de una muestra alea-
toria de ocho bodegas de un vecindario de Huancayo y sus correspondientes ingresos brutos men-
suales; ambas variables están dadas en miles de soles. Halle la ecuación estimada de regresión lineal,
halle el mejor ingreso bruto predicho para una bodega cuya inversión es de 90 000 soles y grafique el
diagrama de dispersión correspondiente.

Inversión (x1000) 78 95 58 29 103 80 60 70


Ingresos brutos (x1000) 22 27 20 12 31 28 23 24

163
Solución:

a) Obtención de la ecuación estimada de regresión lineal:

Ingresos
Bodegas Inversión x2 y2 xy
brutos
1 78 22 6 084 484 1 716
2 95 27 9 025 729 2 565
3 58 20 3 364 400 1 160
4 29 12 841 144 348
5 103 31 10 609 961 3 193
6 80 28 6 400 784 2 240
7 60 23 3 600 529 1 380
8 70 24 4 900 576 1 680
Total 573 187 44 823 4 607 14 282

De la tabla se tiene: n=8; ∑x=573; ∑y=187; ∑xy=14 282 y ∑x2=44 823

Las medias aritméticas:

Reemplazando en la fórmula se halla b1:

En la fórmula: , para hallar b0:

b0= 23,38–0,23(71,62)=6,9074≈6,91 entonces: b0= 6,91

La ecuación estimada de regresión lineal es:

b) Mejor ingreso bruto predicho para una inversión de 90 000 soles:

Reemplazando en la fórmula:

(x 1000 soles)

Por lo tanto, el mejor ingreso bruto mensual predicho para una bodega del vecindario que tenga
una inversión de 90 000 soles es de 27 610 soles.

c) Diagrama de dispersión de las variables:

164
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

35

30 y = 6,91 + 0,23x

Ingresos brutos
25

20

15

10
20 40 60 80 100 120
Inversión

Figura 59. Diagrama de dispersión y estimado de la ecuación de regresión lineal de la inversión y


los ingresos brutos de 8 bodegas vecinales.

Ejemplo 2. La tabla muestra las mediciones de la velocidad del aire y el coeficiente de evaporación
de gotas de combustible quemado en un motor de impulso.

Velocidad del aire (cm/s) 90 100 140 180 220 260 300 340 380
Coeficiente de evapora-
0,35 0,37 0,78 0,70 0,75 1,18 1,32 1,45 1,65
ción (mm2/s)

Halle la ecuación estimada de regresión lineal, halle el mejor coeficiente de evaporación predicho
para una velocidad de 400 cm/s y grafique.

Solución:

a) Completamos la tabla, para obtener la ecuación estimada de regresión lineal:

Velocidad Coeficiente
Observaciones x2 y2 xy
(x) evaporación (y)
1 90 0,35 8100 0,12 31,50
2 100 0,37 10000 0,14 37,00
3 140 0,78 19600 0,61 109,20
4 180 0,70 32400 0,49 126,00
5 220 0,75 48400 0,56 165,00
6 260 1,18 67600 1,39 306,80
7 300 1,32 90000 1,74 396,00
8 340 1,45 115600 2,10 493,00
9 380 1,65 144400 2,72 627,00
Total 2010 8,55 536100 9,88 2291,50

De la tabla se tiene: n=9; ∑x=2010; ∑y=8,55; ∑xy=2 291,50 y ∑x2=536 100

Las medias aritméticas:

165
Reemplazando en la fórmula se halla b1:

En la fórmula: para hallar b0:

b0= 0,95–0,00438(223,33)=-0,0281854≈-0,02818

b0= -0,02818

Reemplazando en el modelo de la ecuación:

se obtiene la ecuación estimada de regresión:

b) El mejor coeficiente de evaporación predicho para una velocidad del aire de 400 cm/s:

Reemplazando en la fórmula:

Por lo tanto, el mejor coeficiente de evaporación de gotas de combustible quemado en un motor


de impulso predicho para una velocidad del aire de 400 cm/s es de 1,72 mm2/s.

c) Diagrama de dispersión de las variables:

1,80

1,60

1,40
Evaporación

1,20 y = -0,02818 + 0,00438x


1,00

0,80

0,60

0,40

0 100 200 300 400


Velocidad

Figura 60. Diagrama de dispersión y estimado de la ecuación de regresión lineal.

2. Intervalo de predicción para una y individual

Para realizar la predicción se utilizan las siguientes fórmulas:

Intervalos de predicción:

166
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Margen de error (E):

y x0 representa el valor dado de x, tα/2 tiene n-2 grados de libertad:


Error estándar de estimación (se):

Ejemplo 1. Inversión e ingresos brutos de bodegas vecinales: Construya el intervalo de predicción del
95% para el ingreso bruto de una bodega cuyo presupuesto es de 90 000 soles. Interprete sus resulta-
dos.
Solución:

Se halla primeramente el error estándar de estimación (se) con la fórmula, dado que ya se conoce:
∑y2=4 607; ∑y=187; ∑xy=14 282; b0=6,91; b1=0,23; n=8.

Se halla el margen de error (E), para g.l.=8-2=6; 1- α =95%, de la tabla se obtiene: =2,447; x0=90;
x = 71,62; ∑x2=44 823; ∑x=573:

El intervalo de predicción de los ingresos brutos: donde se conoce que: 27,61:

27,61 – 6,01 < y < 27,61 + 6,01

21,60 < y < 33,62

Conclusión: Para una inversión de 90 000 soles, se tiene la certeza del 95% de que el intervalo de los
ingresos brutos de las bodegas está entre 21 600 y 33 620 soles.

Ejemplo 2. Construya el intervalo de predicción del coeficiente de evaporación para una velocidad
del aire de 200 cm/s, para un 98% de confianza. Interprete el resultado obtenido.

Solución:

Hallamos el error estándar de estimación (se) con la fórmula, si ya conocemos: ∑y2=9,98; ∑y=8,55;
∑xy=2291,50; b0=-0,02818; b1=0,00438; n=9 y reemplazamos en la fórmula:

167
Tenemos:

Se halla el margen de error (E), para g.l.=9-2=7; 1-α=98% de la tabla se obtiene: =2,365; x0=200;
x = 223,33; ∑x2=536100; ∑x=2010, al reemplazar en la fórmula:

Se tiene:

El intervalo de predicción del coeficiente de evaporación de los ingresos brutos, donde hallamos en:

Reemplazando:

Conclusión: Para una velocidad de 200 cm/s, se tiene la certeza del 98% de que el intervalo del co-
eficiente de evaporación de gotas de combustible quemado en el motor de impulso se encuentra
entre 0,35 a 1,25 de mm2/s.

168
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 14
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) A la recta de regresión se le conoce también como recta del mejor ajuste. ( )


b) En la ecuación de regresión: = 2,5-3,9x, si x = 120, entonces: = 467 ( )
c) Si no existiera una correlación lineal entre dos variables, el mejor valor pre- ( )
dicho de y es .
d) Sea = -8,1 + 7,2x, si se sabe que x = -20 entonces: = -152 ( )
e) Si existiera una correlación lineal, el mejor valor predicho de y se obtiene ( )
reemplazando el valor de x en la ecuación de regresión.

2. Se presentan las estaturas de 6 madres y sus respectivas hijas, las cuales fueron selecciona-
das aleatoriamente. Halle el estimado de la verdadera ecuación de regresión. Halle la mejor
estatura predicha de la hija de una mujer de 168 cm de estatura.

Madre (cm) Hija (cm)


152 160
150 155
170 171
165 166
152 155
163 166

3. Sobre la base del ejercicio anterior construya el intervalo de predicción de la estatura de la


hija cuya madre mide 160 cm de estatura para un 95% de confianza. Interprete el resultado.

4. Una empresa dedicada a la explotación de sustancias químicas busca estudiar la relación


del tiempo de extracción (x) sobre la eficiencia de una operación de extracción (y). A partir
de actividades realizadas previamente obtuvieron algunos datos y con el apoyo de progra-
ma estadístico generaron la ecuación de regresión estimada: = 39,50 + 0,764x. Complete la
tabla y construya el intervalo de predicción de la eficiencia de la extracción para un tiempo
de 55 minutos de extracción para un 99% de nivel de confianza.

Tiempo de extracción Eficiencia de


(minutos) extracción (%)
(x) (y)
41 71
19 55
35 64
39 72
19 54
49 79
15 48
31 66

169
Regresión múltiple. Análisis de multicolinealidad
Tema n.° 3

1. Regresión múltiple

En este capítulo se amplía el estudio de la correlación y de la regresión, analizando la influencia de


dos o más variables independientes sobre la variable dependiente, la cual se denomina análisis de
regresión y correlación múltiples.

Según Triola (2009, p. 566), una ecuación de regresión múltiple expresa una relación lineal entre una
variable de respuesta y y dos o más variables de predicción (x1; x2; …xk).

La forma general de la ecuación de regresión múltiple estimada es:

Donde:

n: tamaño de la muestra.

k: número de variables de predicción o variables independientes.

: valor predicho de y.

x1; x2; … ; xk: son las variables de predicción.

β0: intercepto y, o el valor de y cuando todas las variables de predicción son 0 (este valor es un pará-
metro poblacional).

b0: estimado de β0 basado en los datos muestrales (b0 es un estadístico muestral).

β1; β2;…; βk: son los coeficientes de las variables de predicción: x1; x2;…; xk.

b1; b2;…; bk son estimados muestrales de los coeficientes: β1; β2;…; βk

Matriz de correlación: Es una matriz que contiene los coeficientes de correlación entre todos los pares
de variables, la cual ayuda a identificar cuáles son las variables relativamente más importantes.

Coeficiente múltiple de determinación (R2)

Es una medida que denota lo bien que se ajusta la ecuación de regresión múltiple a los datos mues-
trales.

Si se tiene la matriz de correlación de las variables de la ecuación de regresión múltiple:

170
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Tabla matriz de correlación de variables

Variable x1 Variable x2 Variable


Variable x1 1
Variable x2 1
Variable 1

Fórmula para hallar el coeficiente múltiple de determinación:

2. Coeficiente múltiple de determinación ajustado

Es el coeficiente múltiple de determinación (R2) modificado para justificar el número de variables y el


tamaño de la muestra. Se halla a través de la fórmula:

dónde: n es el tamaño de la muestra y k es el número de variables de predicción.

Análisis de multicolinealidad

Multicolinealidad: Es la correlación que existe entre las variables independientes, las que se deben
analizar mediante el uso de una matriz de correlación entre las variables.

Un método práctico que se utiliza es que las correlaciones entre variables independientes, cuyo valor
está comprendido entre -0,70 y 0,70, no ocasionan dificultades. Una de las soluciones para determinar
la multicolinealidad es eliminar una de las variables independientes que están fuertemente correlacio-
nadas y volver a calcular la ecuación de regresión.

Coeficiente de correlación múltiple (R)

Es la raíz cuadrada positiva del coeficiente de determinación (R) y mide la relación entre las variables
independientes consideradas como grupo y la variable dependiente (y).

Ejemplo 1. Mediante un software estadístico se obtuvo la correspondiente ecuación estimada de


regresión de la distancia promedio que recorren una camioneta por cada galón de gasolina que
consumen, donde x1 es el octanaje de la gasolina que utiliza y x2 es el peso de la camioneta:

Responda:

a) ¿Cuál es el nombre completo de la ecuación?

b) ¿Cuáles son las variables independientes?

171
c) ¿Cuál es la variable dependiente?

d) ¿De qué manera se relacionan las variables?

e) ¿Cuál es la distancia promedio que recorre una camioneta por cada galón de gasolina que con-
sume, si se sabe que pesa 1100 kg y la gasolina es de 92 octanos?

Solución:

a) Ecuación de regresión múltiple con dos variables independientes (x1 y x2).

b) Variables independientes:
x1: Octanaje de la gasolina.
x2: Peso del automóvil (en kg).

c) Variable dependiente: Distancia promedio que recorren las camionetas por cada galón de gaso-
lina que consumen.

d) Relación entre las variables:


(+) x1: Relación directa: “a más octanaje más distancia de recorrido” y “a menos octanaje menos
distancia de recorrido”.
(-) x2: Relación inversa: “a más peso menos distancia de recorrido” y “a menos peso más distan-
cia de rendimiento”.
e) Rendimiento promedio por galón de gasolina: Reemplazando se tiene:
= 6,29+0,18(92)-0,001(1100)= 22,74
= 23,70 km.
La distancia estimada del recorrido de la camioneta será de 23,70 kilómetros por cada galón de
gasolina que consume.

Ejemplo 2. El director de mercadotecnia de una empresa constructora está estudiando las ventas
mensuales de viviendas. Se seleccionaron tres variables como estimadores de las ventas: población
regional (x1), ingreso per cápita (x2) y tasa regional de desempleo (x3). La ecuación de regresión en-
contrada es:

Responda:

a) ¿Cuáles son las variables independientes?

b) ¿Cuál es la variable dependiente?

c) ¿De qué manera se relacionan las variables?

d) ¿Cuál es el monto estimado de las ventas mensuales en una región en la que hay: 600 000 habi-
tantes, el ingreso per cápita es de 6 940 dólares y la tasa de desempleo es de 5,0%?

172
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Solución:

a) Variables independientes:
x1: Población regional.
x2: Ingreso per cápita.
x3: Tasa de desempleo.

b) Variable dependiente: Ventas mensuales de viviendas.

c) Relación entre las variables:


(+) x1: Relación directa: “a más población corresponde más ventas” y “a menos población menos
ventas”.
(+) x2: Relación directa: “a más ingreso per cápita más ventas” y “a menos ingreso per cápita
menos ventas”.
(-) x3: Relación inversa: “a más tasa de desempleo menos ventas” y “a menos tasa de desempleo
más ventas”.

d) Estimación de las ventas mensuales de viviendas:


= 63 900+0,38(600 000)+9,7(6940)-10 500 (5)= 306 718
= 306 718 soles.
Las ventas estimadas durante cada mes en viviendas son de aproximadamente 306 718 soles.

Ejemplo 3. La tabla muestra las correlaciones de las variables de la ecuación de regresión múltiple:
promedio de las calificaciones ( ), el tiempo de estudio (x1) y el coeficiente de inteligencia (x2).

a) Halle e interprete el coeficiente múltiple de determinación ajustado si la muestra es de tamaño 10.


b) Realice el análisis de multicolinealidad.

Promedio de
Coeficiente de Tiempo de
calificaciones
inteligencia (x1) estudio (x2)
( )
Coeficiente de inteligencia (x1) 1,000
Tiempo de estudio (x2) 0,570 1,00
Promedio de calificaciones ( ) 0,875 0,835 1,00

Solución:

a) Reemplazando en la fórmula:

A continuación, realizamos el ajuste para n=10 y k=2 variables de predicción:

173
Interpretación: El 83,37% de la variación del promedio de las calificaciones de los estudiantes pue-
de explicarse por el tiempo de estudio y el coeficiente de inteligencia de los estudiantes.

b) Análisis de multicolinealidad
De la tabla anterior se afirma que el promedio de las calificaciones es la variable dependiente (Y).
Se está particularmente interesado en las variables independientes que tengan una fuerte corre-
lación con la variable dependiente. El coeficiente de inteligencia (x1) es el que tiene la correlación
más fuerte con el promedio de las calificaciones: 0,875. El signo positivo indica la relación directa
entre las variables. La correlación entre el coeficiente de inteligencia y el promedio de las califica-
ciones es más intensa que la correlación entre el tiempo y el promedio de las calificaciones.

Actividad n.° 15
1. El ingeniero de control de calidad de una empresa desea estimar la resistencia a la tensión
mecánica de un alambre de acero en función de su diámetro exterior y del contenido de
molibdeno en el acero. Para hacer un experimento seleccionó cinco trozos de alambre, mi-
dió su diámetro exterior y determinó el contenido de molibdeno, y luego midió la resistencia
a la tensión de cada trozo. Los resultados fueron:

Resistencia (lb/ Diámetro exterior Cantidad de


Tramo
pulg2) ( ) (mm) (x1) Molibdeno (x2)
A 19 0,5 9
B 12 0,3 6
C 9 0,2 5
D 16 0,4 8
E 13 0,3 7

Con la ayuda de un software estadístico obtuvo la ecuación de regresión:

Complete:

a) Variables independientes:
……………………………………………………………………………………………..……………..……
…………………………………………………………………………………………….. ……………..……

b) Variable dependiente: …………………………………………………………………………………...

c) Manera en que se relacionan las variables: (directa o inversa)


La resistencia y el diámetro exterior: ………………………………………………………………......
La resistencia y la cantidad de molibdeno: ……………………………………………………........

2. La tabla muestra las correlaciones de las variables de la ecuación para estimar la resistencia
a la tensión mecánica de un alambre de acero:

a) Halle e interprete el coeficiente múltiple de determinación ajustado si la muestra es de


tamaño 5.

b) Realice el análisis de multicolinealidad.

174
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Diámetro Cantidad de
Resistencia ( )
exterior (x1) molibdeno (x2)
Diámetro exterior (x1) 1,000
Cantidad de molibdeno (x2) 0,971 1,00
Resistencia ( ) 0,995 0,990 1,00

3. El gerente de un empresa exportadora obtuvo la ecuación estimada de regresión de las


ganancias anuales en millones de soles, donde x1 es el número de vendedores que labora-
ron y x2 es el precio del producto al por mayor. Los datos que se utilizaron para obtener la
ecuación corresponden a los años 2010 hasta el 2015.

Complete:

a) El nombre completo de la ecuación: …………………………………………………………...........

b) Variables independientes:
…………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………
c) Variable dependiente: ……………………………………………………………………………….......

d) La constante: ……………………………

e) Manera en que se relacionan las variables: (directa o inversa)


Las ganancias con el número de vendedores: …………………………………………………......
Las ganancias con el precio del producto: ……………………………………………………........

f) Complete la tabla:

N.o de vendedores Precio del Ganancias en millones


Año
(X1) producto (X2) de soles ( )
2012 25 0,92
2013 30 0,91
2014 28 0,90
2015 27 0,87

4. La tabla muestra las correlaciones de las variables de la ecuación de regresión múltiple del
ejercicio anterior sobre las ganancias anuales de la empresa exportadora:

a) Halle e interprete el coeficiente múltiple de determinación ajustado si la muestra es de


tamaño 7.

b) Realice el análisis de multicolinealidad.

N.o de vendedores Precio del Ganancias


(x1) producto (x2) ( )
N.o de vendedores (x1) 1,000
Precio del producto (x2) -0,674 1,00
Ganancias ( ) 0,902 -0,927 1,00

175
Validación de modelos
Tema n.° 4

1. Modelo matemático

Es una función matemática que se “ajusta” o describe datos del mundo real.

A continuación, se presentan algunos modelos genéricos que aparecen en la calculadora científica:

Lineal Y = a + bx
Cuadrático y = ax2 + bx + c
Logarítmico Y = a + b.lnx
Potencial y = axb
Exponencial Y = a.bx

El modelo que se seleccione dependerá de las características de los datos muestrales. Una herramien-
ta necesaria es la elaboración de un diagrama de dispersión para decidir el modelo adecuado.

Lineal: y = 2 + 3x Cuadrático: y = x2 - 8x + 18

40 40

30 30

20 20

10 10

0 0
0 2 4 6 8 10 0 2 4 6 8 10

Logarítmico: y = 1 + 2lnx Exponencial: y = 2x

7 150

5
100
4

3
50
2

0 0
0 2 4 6 8 10 0 1 2 3 4 5 6 7

Figura 61. Modelos de correlación.


Fuente: Elaboración propia

176
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

2. Reglas básicas para la creación de un buen modelo matemático

✓ Elabore el gráfico de puntos y elija el modelo que visualmente más se ajuste a los puntos observa-
dos, es decir, a un modelo lineal, cuadrático, exponencial, potencial, etc.
✓ Con la calculadora halle los coeficientes de determinación (r2) de cada modelo y elija el modelo
que tenga el mayor coeficiente de determinación, ya que este será el mejor modelo.
✓ Si trabaja con un software estadístico (como el SPSS), elija el modelo que tenga el menor p-valor.

Ejemplo 1: Un ingeniero descubrió que, al incluir pequeñas cantidades de un compuesto en baterías


recargables para computadoras portátiles, podría extender su tiempo de vida. Experimentó con dife-
rentes cantidades de aditivo y los datos fueron:

Cantidad de aditivo Vidas (horas)


1 4
2 3
3 7
4 9
5 10

Construya el diagrama de dispersión e identifique el modelo que se ajusta mejor a los datos.

Solución:

Visualizamos el diagrama de dispersión y observamos que los puntos se acomodan a un modelo lineal:

10

8
Horas

2
1 2 3 4 5
Aditivo

Figura 62. Diagrama de dispersión donde se visualiza el modelo lineal.


Fuente: Elaboración propia

Con una calculadora científica evaluamos a qué modelo se ajustan los datos. Presentamos los resul-
tados para los modelos lineal, logarítmico, potencial y exponencial.

Modelo lineal Modelo logarítmico


A=1,2 A=2,60
B=1,8 B=4,17
Modelo: y=1,2+1,8x Modelo: y=2,60+4,17lnx
r= 0,9333 r= 0,8699
r =0,8710≈87,10%
2
r2=0,7567≈75,67%

177
Modelo potencial Modelo exponencial
A=3,11 A=2,48
B=0,68 B=1,34
Modelo: y=3,11x 0,68
Modelo: y=2,48(1,34)x
r= 0,8276 r= 0,8863
r =0,6849≈68,49%
2
r2=0,7855≈78,55%

De los resultados, se observa que el modelo lineal presenta el mayor coeficiente de determinación
(r2=87,10%), seguido del modelo exponencial (r2=78,55%). Por lo tanto, se concluye que la ecuación
y=1,2 + 1,8x describe mejor la relación entre la cantidad de aditivo y el tiempo de vida adicional de
las baterías.

Ejemplo 2: Lucía realiza un experimento en el laboratorio y monitorea cada hora que pasa la cantidad
que tenía de cierto isótopo radiactivo. Los datos registrados se muestran en la tabla:

Tiempo (h) Cantidad (g)


1 68
2 58
3 48
4 40
5 34
6 30
7 26

Construya el diagrama de dispersión e identifique el modelo que mejor se ajusta a los datos.

Solución:

El diagrama de dispersión nos indica que los puntos se acomodan a un modelo logarítmico o expo-
nencial:
70
Cantidad (granos)

60

50

40

30

20
0 1 2 3 4 5 6
Tiempo (horas)

Figura 63. Diagrama de dispersión donde se visualiza el modelo logarítmico.


Fuente: Elaboración propia

178
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Mediante una calculadora científica evaluamos a qué modelo se ajustan mejor los datos de Lucía:

Modelo lineal Modelo logarítmico


A=71,43 A=70,60
B=-7 B=-22,31
Modelo: y=71,43-7x Modelo: y=70,60-22,31lnx
r= 0,9824 r= 0,9926
r =0,9650≈96,50%
2
r2=0,9852≈98,52%

Modelo potencial Modelo exponencial


A=75,66 A=78,85
B=-0,50 B=0,85
Modelo: y=75,66x0,50 Modelo: y=78,85(0,85)x
r= -0,97 r= 0,00
r =0,9463≈94,63%
2
r2=0,9958≈99,58%

Se observa que el modelo exponencial presenta el mayor coeficiente de determinación (r2=99,58%),


seguido del modelo logarítmico (r2=98,52%). Por lo tanto, se concluye que la ecuación: y=78,85(0,85)
x
describe mejor la relación entre el tiempo que transcurre y la cantidad de isótopos radiactivos que
van quedando.

Ejemplo 3: La variable respuesta () es el peso (en kilogramos) de una muestra de varones y las variables
de predicción son la estatura (x1) en centímetros, la circunferencia de la cintura (x2) en centímetros y
el nivel de colesterol (x3) en miligramos. ¿Cuál de las ecuaciones será la mejor ecuación de regresión
múltiple?

Valor p r2 Ecuación de regresión múltiple


0,001 0,793 = -42,8+2,41x2-0,0106x3
0,000 0,877 = -206+2,66x1+2,15x2
0,002 0,277 = -148+4,65x1+0,00589x3

Respuesta: La mejor ecuación de regresión múltiple es la segunda ecuación:

= -206+2,66x1+2,15x2

debido a que presenta el mayor coeficiente de determinación (r2=0,877) y el menor valor p (0,000) en
comparación con las otras dos ecuaciones.

179
Actividad n.° 16
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) Si el coeficiente de determinación está cerca de 0, el ajuste de la recta ( )


es malo.
b) La expresión: y = axb corresponde al modelo exponencial. ( )
c) Si el coeficiente de determinación se aproxima a 1, el ajuste de la recta ( )
es bueno.
d) Modelo matemático es una función matemática que se “ajusta” o descri- ( )
be datos del mundo real.

2. La tabla muestra los días de inasistencia al trabajo y el bono de reconocimiento (x100 soles)
recibido por una muestra de empleados de una empresa por motivo de Fiestas Patrias:

Inasistencias (días) (x) 1 4 5 1 2 3


Bono de reconocimiento (y) 49 41 40 48 45 43

a) Grafique el diagrama de dispersión.

b) Identifique el mejor modelo matemático (lineal, cuadrático, exponencial, logarítmico o


potencial) que mejor se ajuste a los datos de la tabla. Argumente su decisión.

c) Realice una predicción para 6 inasistencias.

3. Se tienen los datos sobre la cantidad de consumo semestral de vino (en litros por habitante)
y el número de fallecidos a causa de enfermedades cardiacas, por cada 100 000 habitantes
en 12 países europeos:

Consumo de vino (x) 2,5 6,5 2,9 2,4 2,4 7,9 9,1 0,8 0,8
Muertes enf. cardiaca (y) 211 86 131 191 220 107 71 297 211

a) Grafique el diagrama de dispersión.

b) Identifique el mejor modelo matemático (lineal, exponencial, logarítmico o potencial)


que mejor se ajuste a los datos de la tabla. Justifique su decisión.

Modelo lineal Modelo logarítmico


Modelo: y=251,9-21,63x Modelo: y=-75,44lnx+248,42
r =0,7854≈78,54%
2
r2=0,8187≈81,87%

Modelo potencial Modelo exponencial


Modelo: y=256,82x -0,485
Modelo: y=271,98e-0,146x
r2=0,8133≈81,33% r2=0,8601≈86,01%

180
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

4. A partir de la observación de cinco años de las variables producción industrial (y) en millones
de toneladas y el tiempo (x):

Año 2011 2012 2013 2014 2015


X 1 2 3 4 5
Producción (y) 1,25 5 11,25 20 30,50

a) Grafique el diagrama de dispersión.

b) Identifique el mejor modelo matemático (lineal, cuadrático, exponencial, logarítmico o


potencial) que mejor se ajuste a los datos de la tabla. Argumente su respuesta.

c) Realice una predicción para el año 2017.

181
Modelos de series de tiempo
Tema n.° 5

1. Series de tiempo

Según Córdova (2006), las series de tiempo o serie cronológica es un conjunto de datos observados
en forma secuencial, generalmente en intervalos de tiempo iguales.

Los modelos de serie de tiempo se elaboran sobre la base de los antecedentes observados y que se
plasman en una historia estadística recurrente específica que puede ser modelada y utilizada para
fines de pronóstico.

Como ejemplos se tiene:

Series de tiempo Ejemplos


Precios de los artículos.
Tasas de desempleo en las ciudades.
Tasa de inflación.
Series económicas Cotizaciones diarias del dólar.
Índice de precios de productos.
Ventas de vehículos.
Producción en las fábricas.
Meteorología en las ciudades.
Cantidad de lluvia.
Serie físicas Temperatura mínima y máxima diaria.
Velocidad del viento.
Índices de radiación solar.
Geofísica Series sismológicas.
Tasas de crecimiento de la población.
Series demográficas
Tasa de natalidad, mortalidad.
Series de marketing Demandas, gastos y ofertas.
Series de transporte Series de tráfico de vehículos.

Nota:

• Uno de los problemas que intenta resolver las series de tiempo es la predicción.

Existen diversos tipos de cambios y movimientos en una serie de tiempo, los cuales son causados por
factores o componentes con repercusiones a largo o a corto plazo. La finalidad de estudiar este tema
es determinar la ecuación de tendencia lineal y la evaluación de los tipos de cambio que influyen en
la serie a través del tiempo.

En la gráfica de líneas de una serie de tiempo se destacan picos y valles.

Pico: se produce en un punto cuando una tendencia creciente cambia a una tendencia decrecien-
te.

Valle: se produce cuando de una tendencia decreciente cambia a una tendencia creciente.

182
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ejemplo: Se muestra en una tabla la producción anual (en millones de unidades) de juguetes de una
empresa desde el año 2003 hasta el año 2012. Elabore el gráfico de líneas de la serie de tiempo.

Año x Producción y
2003 1 4
2004 2 8
2005 3 11
2006 4 15
2007 5 12
2008 6 9
2009 7 16
2010 8 13
2011 9 21
2012 10 23

En la tabla se observa que el año 2003 tiene el código x=1, el año 2004 tiene el código x=2, así sucesi-
vamente. La producción anual de millones de juguetes es la variable y.

Al observar el gráfico de líneas se tiene que existen dos picos, uno en el año 2006 (x=4) y otro en el
año 2009 (x=7). También se observan dos valles, uno en el año 2008 (x=6) y otro en el año 2010 (x=8).

25

20
Producción

15

10

0
1 2 3 4 5 6 7 8 9 10
Año

Figura 64. Gráfica de líneas con picos.


Fuente: Elaboración propia

2. Componentes de las series de tiempo

El análisis de la serie de tiempo es un proceso mediante el cual se llega a identificar y separar los fac-
tores o componentes que se relacionan con el tiempo y que influyen sobre los valores observados de
la serie de tiempo.

Los factores que afectan a una serie de tiempo son:

2.1. La tendencia (T)

Es el movimiento general creciente o decreciente de los valores de la serie de tiempo Y, que per-
siste en un periodo largo de tiempo.

183
Ejemplo: el incremento estable en los costos de vida registrado en el índice de precios al consu-
midor.

2.2. Las fluctuaciones cíclicas (C)

Son movimientos hacia arriba y hacia debajo de la línea de tendencia, y que ocurren en periodos
cortos de tiempo. Son secuencias repetidas.

Ejemplo: el ciclo económico, ya que, a través del tiempo, hay años en los que el ciclo económico
llega a un pico arriba de la línea de tendencia; en otros, es probable que la actividad de los ne-
gocios disminuya debajo de la línea de tendencia.

2.3. Las variaciones estacionales (E)

Son las oscilaciones en la extensión de un año y tienen más o menos la misma forma año tras año.
La periodicidad puede ser de horarias, diarias, semanales, mensuales o trimestrales dependiendo
de la naturaleza de la serie, pero no duran más de un año.

Ejemplos: en invierno las ventas de helado, en verano la venta de lana, la exportación de fruta en
marzo.

2.4. Movimientos irregulares (I)

Son movimientos con respecto a la tendencia que se deben a causas aleatorias o esporádicas
(como huelgas, terremotos, inundaciones, etc.) y, por lo tanto, no pueden adjudicarse a efectos
estacionales o cíclicos.

3. Modelos de series de tiempo

En general, una serie de tiempo contiene sus componentes en forma aditiva y en forma multiplicativa.

3.1. Modelo aditivo

Supone que el valor de los datos originales “Y” es la suma de las cuatro componentes, es decir:

Y=T+C+E+I

Nota: Este modelo es apropiado cuando la magnitud de las fluctuaciones estacionales de la serie
no varía al hacerlo la tendencia.

En este modelo todos los valores de las componentes se expresan en sus unidades originales y el
valor de una componente no afecta los valores de los otros componentes.

Ejemplo: Aplique el modelo de series de tiempo para estimar las ventas de laptops en el presente
año, donde se conoce que:

■ T = 2200 unidades.
■ C = -95 unidades, ya que el ciclo comercial está actualmente en descenso.

184
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

■ E = 550 unidades, ya que las influencias estacionales existentes han tenido un impacto positivo
en las ventas.
■ I = -40 unidades, por cuestiones desconocidas.

Entonces, se estima que se venderán 2615 laptops, ya que:

2200+(-95)+550+(-40) = 2615 laptops 3.2.

3.2. Modelo multiplicativo

Supone que el valor de los datos originales “Y” es el producto de las cuatro componentes, es decir:

Y=TxCxExI

Nota: Este modelo es apropiado cuando la magnitud de las fluctuaciones estacionales de la serie
crece y decrece proporcionalmente con los crecimientos y decrecimientos de la tendencia.

Este modelo es el que se utiliza más a menudo debido a que caracteriza a la mayoría de las series
de tiempo económicas y de negocios. También se debe a que en este modelo solo el compo-
nente de tendencia se expresa en unidades originales y los otros componentes se expresan en
números relativos o porcentajes.

Ejemplo: La producción y venta de 48 060 pares de zapatillas en una empresa de calzados en el


año 2015 se descompone en sus cuatro componentes:

■ T = 50 000 pares de zapatillas.


■ C = 100%, ya que no existe efecto del ciclo de negocios.
■ E = 108%, ya que la producción por campaña escolar tiene una variación estacional del 8%.
■ I = 89%, la producción sufre una variación irregular del -11% por razones desconocidas.

50 000(1,00)(1,08)(0,89) = 48 060 pares de zapatillas

4. Análisis de tendencias

El análisis de la tendencia es el procedimiento mediante el cual se determina la dirección del movi-


miento de la serie de tiempo a largo plazo y permite deducir el desarrollo de la serie de tiempo en el
futuro. La tendencia puede ser ascendente, descendente o constante. Lo primero que se debe deci-
dir es si la tendencia es una línea recta o una curva.

El análisis de series de tiempo permite:

• Detectar patrones de cambio en la información estadística en intervalos regulares.


• Proyectar los patrones para obtener una estimación para el futuro.
• Ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.

La estimación de la tendencia se puede realizar por muchos métodos, entre los que están: el método
de mano libre o alzada, el método de los dos promedios (o semipromedios), el método de las medias
móviles y el método de los mínimos cuadrados.

185
4.1. Tendencia lineal

La tendencia a largo plazo de muchas series de negocios (industriales y comerciales), como ven-
tas, exportaciones y producción, con frecuencia se aproxima a una línea recta. Esta línea de ten-
dencia muestra que algo aumenta o disminuye a un ritmo constante. El método que se utiliza para
obtener la línea recta de mejor ajuste es el método de mínimos cuadrados.

4.2. Tendencia no lineal

Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice que este comporta-
miento es no lineal. Dentro de estas tendencias tenemos: polinomial, logarítmica, exponencial,
potencial, etc.

5. Métodos de suavizamiento de la serie

Una forma de visualizar la tendencia es mediante suavizamiento de la serie. La finalidad es definir a


partir de la serie observada una nueva serie que suaviza los efectos ajenos a la tendencia (estacional,
efectos aleatorios), de manera que podamos determinar la dirección de la tendencia.

5.1. Promedio móvil

El método promedio móvil emplea el promedio de los n valores más recientes de datos en la serie
de tiempos como pronósticos para el siguiente periodo. Es uno de los indicadores más versátiles y
de mayor uso dentro de todos los indicadores.

La utilización de un promedio móvil muestra la dirección y la duración de una tendencia; el pro-


pósito es ilustrar la tendencia de una manera más suavizada.

Se construye sustituyendo cada valor de una serie por la media obtenida con esa observación
y algunos de los valores inmediatamente anteriores y posteriores. A continuación se presenta la
fórmula:

Ejemplo: La tabla muestra las ventas semanales de gasolina de un grifo. Aplique el método de
promedios móviles de tres semanas para el pronóstico de ventas, a partir de la segunda semana,
el cual se da en cientos de galones.

El primer paso para calcular el promedio móvil de tres semanas es determinar el total de movi-
mientos en tres semanas. El total de ventas en las tres primeras semanas es: 16+20+18=54. Este total
se divide entre tres: 54:3=18, para obtener la media aritmética de las ventas de la semana. La
suma total y la media aritmética se colocan en la fila de la semana central de ese grupo de tres
semanas, es decir, en la semana 2, como se muestra en la tabla, y así sucesivamente:

186
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Ventas Total móvil de 3 Promedio móvil de 3


Semana
(x100 galones) semanas semanas
1 16
2 20 16+20+18=54 54/3=18
3 18 20+18+22=60 60/3=20
4 22 18+22+17=57 19
5 17 22+17+15=54 18
6 15 17+15+19=51 17
7 19 15+19+17=51 17
8 17 19+17+21=57 19
9 21 17+21+19=57 19
10 19

Ejemplo: Aplique el método de promedios móviles de cinco semanas para el pronóstico de venta
semanal de gasolina en el grifo.

Se procede de manera similar, con la diferencia de que ahora se toman cinco semanas y los re-
sultados se colocan en la semana central, así:

Ventas Total móvil de 5 Promedio móvil de 5


Semana
(x100 galones) semanas semanas
1 16
2 20
3 18 16+20+18+22+17=93 93/5=18,6
4 22 20+18+22+17+15=92 92/5=18,4
5 17 18+22+17+15+19=91 18,2
6 15 22+17+15+19+17=90 18,0
7 19 17+15+19+17+21=89 17,8
8 17 15+19+17+21+19=91 18,2
9 21
10 19

A continuación, se muestra el gráfico de los promedios móviles de 3 y 5 semanas:

187
Figura 65. Gráfico de los promedios móviles.
Fuente: Elaboración propia

Ejemplo: Aplique el método de promedios móviles de cuatro semanas para el pronóstico de venta
semanal de gasolina en el grifo.

Para hallar los promedios móviles para cuatro, seis y otro número par de años se realiza la siguiente
operación: el total de las cuatro primeras semanas (76) se coloca entre la semana 2 y 3. El total
para las siguientes cuatro semanas es 77 y se coloca entre las semanas 3 y 4. Los promedios de las
primeras cuatro semanas y las segundas cuatro semanas (19 y 19,25, respectivamente), y la cifra
resultante se centra en la semana 3. Este procedimiento se repite hasta que se hayan calculado
todos los posibles promedios de cuatro semanas, como se muestra a continuación:

Total móvil de 4 Promedio móvil Promedio móvil de 4


Semana Ventas
semanas de 4 semanas semanas centrado
1 16
2 20
16+20+18+22=76 76/4=19
3 18 19,125
20+18+22+17=77 77/4=19,25
4 22 18,625
18+22+17+15=72 72/4=18
5 17 18,125
22+17+15+19=73 73/4=18,25
6 15 17,625
17+15+19+17=68 68/4=17
7 19 17,5
15+19+17+21=72 72/4=18
8 17 18,5
19+17+21+19=76 76/4=19
9 21
10 19

188
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Para resumir la técnica del uso de promedios móviles, su propósito es auxiliar en la identificación
de la tendencia a largo plazo en una serie de tiempo (ya que amortigua las fluctuaciones a corto
plazo). Sirve para revelar cualquiera de las fluctuaciones cíclicas y estacionales.

5.2. Promedios móviles ponderados

Este método consiste en asignar un factor de ponderación distinto para cada dato. Generalmen-
te, a la observación o dato más reciente a partir del cual se quiere hacer el pronóstico, se le asig-
na el mayor peso, y este peso disminuye en los valores de datos más antiguos.

Por ejemplo, tomando los datos de la tabla anterior sería:

Como se observa, el dato más alejado (que corresponde a la semana 1) tiene el factor de ponde-
ración más pequeño (1/6), el siguiente tiene un factor de ponderación que es el doble del primero
(2/6) y el dato más reciente (que corresponde a la semana 3) tiene un factor de ponderación que
es el triple del primero (3/6). Los pronósticos a partir de la semana 4 son:

Ventas Pronósticos con el promedio móvil


Semana
(x100 galones) ponderado
1 16
2 20
3 18
4 22 18,33
5 17 20,33
6 15 18,83
7 19 16,83
8 17 17,33
9 21 19,33
10 19 19,33

Nota: La suma de los factores de ponderación siempre debe ser igual a 1.

5.3. Suavizamiento exponencial

Este método emplea el promedio ponderado de la serie de tiempo pasado como pronóstico; es
un caso especial del método de promedios móviles ponderados en el cual solo se selecciona el
peso o factor de ponderación más reciente. El siguiente modelo corresponde al método de sua-
vizamiento exponencial:

Donde:

Ft+1= pronóstico de la serie de tiempo para el periodo t+1

Yt= valor real de la serie de tiempo en el periodo t

189
Ft= pronóstico de la serie de tiempo para el periodo t

constante de suavizamiento, 0 ≤ ≤1

Así tenemos los pronósticos mediante el método de suavizamiento exponencial del ejemplo de la
venta de gasolina en el grifo, para una constante de suavizamiento α=0,2.

Pronóstico con el método de suavizamiento


Semana Ventas (Yi)
exponencial
1 Y1=16 F1=Y1=16,00
2 Y2=20 F2=F1=16,00
3 Y3=18 F3=Y2+(1-)F2=(0,2)(20)+(0,8)(16)=16,80
4 Y4=22 F4=Y3+(1-)F3=(0,2)(18)+(0,8)(16,80)=17,04
5 17 F5=Y4+(1-)F4=(0,2)(22)+(0,8)(17,04)=18,03
6 15 F6=Y5+(1-)F5=17,82
7 19 F7=Y6+(1-)F6=17,26
8 17 F8=Y7+(1-)F7=17,61
9 21 F9=Y8+(1-)F8=17,49
10 19 F10=Y9+(1-)F9=18,19

A continuación, se muestra el gráfico de las ventas reales y los pronósticos mediante el suaviza-
miento exponencial.

Figura 66. Gráfico de las ventas reales y los pronósticos mediante el suavizamiento exponencial.
Fuente: Elaboración propia

190
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 17
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) La suma de los factores de ponderación a veces debe ser igual a 1. ( )


b) El método de promedios ponderados consiste en asignar un factor de ( )
ponderación distinto para cada dato.
c) Uno de los problemas que intenta resolver las series de tiempo es la ( )
predicción.
d) El promedio móvil es un método de suavizamiento de series de tiempo. ( )
e) Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice ( )
que corresponde a una tendencia lineal.
f) El análisis de las series de tiempo permite proyectar los patrones para ( )
obtener una estimación para el futuro
g) Cuando una tendencia creciente cambia a una tendencia decreciente ( )
se dice que en ese punto ocurre un pico en la serie.

2. En la tabla se presentan datos que corresponden a la cantidad de muertes a causa de


accidentes mensualmente en los Estados Unidos desde el año 1973 a 1978 (Fuente National
Sadety Council).

Media mensual de
Meses del año
muertes
Enero 8044,00
Febrero 7283,83
Marzo 8063,83
Abril 8264,83
Mayo 9126,17
Junio 9595,33
Julio 10 452,80
Agosto 9749,17
Setiembre 8700,33
Octubre 8984,67
Noviembre 8467,17
Diciembre 8720,67

Su correspondiente gráfico es:

191
10500

10000

9500

Muertes
9000

8500

8000

7500

7000
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
Meses

Figura 67. Gráfico de cantidad de muertes a causa de accidentes mensualmente en los Esta-
dos Unidos desde el año 1973 a 1978. Fuente: National Sadety Council.

Conteste:

a) ¿En qué mes del año son menos frecuente las muertes? ....................................................
b) ¿En qué mes del año ocurren más muertes? ........................................................................
c) ¿En qué meses del año ocurren picos? ……………………………………………………………
d) ¿En qué meses del año ocurren valles? ………………………………………………………......

3. A partir de los datos de la tabla anterior, aplique el método de suavizamiento de la serie del
promedio móvil trimestral y realice los pronósticos a partir del mes de febrero hasta noviem-
bre. Grafique la tendencia de las muertes por accidentes y el correspondiente suavizamien-
to trimestral.

4. Halle el promedio móvil de cuatro años y de cinco años para la siguiente producción, en
miles de unidades. Grafique tanto los datos originales como los promedios móviles.

Cantidad producida
Año
(miles)
2007 1
2008 2
2009 6
2010 3
2011 7
2012 3
2013 8
2014 5
2015 10

5. Una compañía presenta en la siguiente tabla el reporte de ventas (en miles de soles) corres-
pondiente al año 2015.

192
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Meses Ventas
Enero 80
Febrero 90
Marzo 85
Abril 70
Mayo 80
Junio 105
Julio 100
Agosto 105
Setiembre 100
Octubre 105
Noviembre 100
Diciembre 150

Teniendo en cuenta los datos anteriores, se debe calcular un pronóstico mediante la técni-
ca de promedio móvil utilizando un periodo de 3 meses (a partir de abril) y un periodo de 6
meses (a partir de julio). Grafique los datos reales y los pronósticos.

193
Lectura seleccionada n.° 5
Investigación correlacional: Características y etapas.

La Rotta Mendoza, J. E. (s/f). Investigación correlacional. Recuperado de: http://bit.ly/2Cpzf3f

Actividad n.° 18
Foro de discusión sobre la lectura “Investigación correlacional”.

Instrucciones:

Ingrese al foro y responda la pregunta: ¿Cuál es la característica más importante de la investigación


correlacional?

Determine un ejemplo de investigación correlacional vinculado a su carrera profesional.

• Formule la hipótesis explicativa.


• Describa la forma de desarrollo de la investigación.

194
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Glosario de la Unidad III


A
Análisis de correlación
Es un conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre
dos variables (Triola, 2009).

C
Coeficiente de correlación múltiple (R)
Es la raíz cuadrada positiva del coeficiente de determinación (R) y mide la relación entre las varia-
bles independientes consideradas como grupo y la variable dependiente (y).

Coeficiente múltiple de determinación (R2) Es una medida que denota lo bien que se ajusta la ecua-
ción de regresión múltiple a los datos muestrales.

E
Ecuación de regresión
Es una ecuación que define la relación lineal entre dos variables.

Ecuación de regresión múltiple Expresa una relación lineal entre una variable de respuesta y dos o
más variables de predicción (x1; x2;… xk)

El método promedio móvil Emplea el promedio de los n valores más recientes de datos en la serie
de tiempos como pronósticos para el siguiente periodo. Es uno de los indicadores más versátiles y
de mayor uso dentro de todos los indicadores.

L
La tendencia (T)
Es el movimiento general creciente o decreciente de los valores de la serie de tiempo Y, que persiste
en un periodo largo de tiempo.

Las fluctuaciones cíclicas (C)


Son movimientos hacia arriba y hacia debajo de la línea de tendencia, y que ocurren en periodos
cortos de tiempo. Son secuencias repetidas.

Las variaciones estacionales (E)


Son las oscilaciones en la extensión de un año y tiene más o menos la misma forma año tras año. La
periodicidad puede ser de horarios, diarios, semanales, mensuales o trimestrales dependiendo de la
naturaleza de la serie, pero no duran más de un año (Lind et al, 2004).

M
Matriz de correlación
Es una matriz que contiene los coeficientes de correlación entre todos los pares de variables, la cual
ayuda a identificar cuáles son las variables relativamente más importantes.

Modelo matemático
es una función matemática que se “ajusta” o describe datos del mundo real.

Movimientos irregulares (I)


Son movimientos con respecto a la tendencia que se deben a causas aleatorias o esporádicas
(cómo huelgas, terremotos, inundaciones, etc.) y por lo tanto no pueden adjudicarse a efectos es-
tacionales o cíclicos (Lind et al, 2004).

195
Multicolinealidad
Es la correlación que existe entre las variables independientes, las que se deben analizar mediante
el uso de una matriz de correlación entre las variables. Es un método práctico que se utiliza es que
las correlaciones entre variables independientes, cuyo valor está comprendido entre -0,70 y 0,70, no
ocasionan dificultades (Triola, 2009).

P
Pico
Se produce en un punto cuando de una tendencia creciente cambia a una tendencia decrecien-
te.

Promedios móviles ponderados


Este método consiste en asignar un factor de ponderación distinto para cada dato. Generalmente,
a la observación o dato más reciente a partir del cual se quiere hacer el pronóstico, se le asigna el
mayor peso, y este peso disminuye en los valores de datos más antiguos (Iglesias, 1988).

S
Series de tiempo
Es un conjunto de datos observados en forma secuencial, generalmente en intervalos de tiempo
iguales (Iglesias, 1988).

Suavizamiento exponencial
Este método emplea el promedio ponderado de la serie de tiempo pasado como pronóstico, es un
caso especial del método de promedios móviles ponderados en el cual sólo se selecciona el peso
o factor de ponderación más reciente (Peña, 1989).

T
Tendencia lineal
La tendencia a largo plazo de muchas series de negocios (industriales y comerciales), como ventas,
exportaciones y producción, con frecuencia se aproxima a una línea recta. Esta línea de tendencia
muestra que algo aumenta o disminuye a un ritmo constante. El método que se utiliza para obtener
la línea recta de mejor ajuste es el método de mínimos cuadrados (Iglesias, 1988).

Tendencia no lineal
Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice que este comportamien-
to es no lineal. Dentro de estas tendencias tenemos: polinomial, logarítmica, exponencial, poten-
cial, etc.

V
Valle Se produce cuando de una tendencia decreciente cambia a una tendencia creciente.

Variable dependiente (y)


Es la variable que se predice o calcula.

Variable independiente (x)


Es la variable que proporciona las bases para el cálculo. Es la variable que permite predecir.

196
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Bibliografía de la Unidad III


Córdova, M. (2006). Estadística inferencial. Lima: Moshera SRL.

Iglesias, P. (1988). Elementos de series de tiempo.

Lind, D., Marchal, W., y Mason, R. (2004). Estadística para administración y economía. Colombia:
Alfaomega.

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cengage Learning.

Peña, D. (1989). Estadística, modelos y métodos. Madrid: Alianza Universidad.

Triola, M. (2009). Estadística. México: Pearson educaciónEducación.

197
Autoevaluación n.o 3
1. Una empresa comercial tiene varias tiendas dedicadas a la venta de electrodomésticos. El
gerente de ventas ha realizado anuncios publicitarios por la radio al menos tres veces antes
de iniciar la campaña gigante de ventas. Una vez culminada la campaña, hace una inves-
tigación con el objetivo de determinar si existe alguna relación entre el número de anuncios
publicitarios emitidos en la radio y las ventas generadas. Los pares de datos se muestran en
la tabla.
a) Halle e interprete el coeficiente de correlación de Spearman.
b) Grafique el diagrama de dispersión.
c) Realice la prueba de significancia para α=0,02 (utilice la tabla A-9 de Mario Triola).

N.o de anuncios Ventas


7 8
3 6
15 14
9 10
11 9
6 7
13 12

2. La tabla muestra el porcentaje de inasistencias y el promedio que han obtenido un grupo de


estudiantes en el curso de Mercadotecnia.
Halle (utilice la calculadora):
a) El estimado de la verdadera ecuación de regresión lineal.
b) El mejor puntaje promedio predicho para un estudiante que tiene 8% de inasistencias.
c) Halle e interprete r, r2 y grafique el diagrama de dispersión.

Inasistencia (%) Promedio


0 16
12 12
20 11
5 14
15 10
10 13
2 17
13 9

3. Se estudió una muestra de personas mayores viudas para determinar el grado de satisfacción
en su vida actual. Se utilizó un índice especial denominado índice de satisfacción para medir
esta cualidad. Se estudiaron seis factores que son: edad en el momento del primer matrimo-
nio (x1), ingreso anual (x2), número de hijos vivos (x3), valor de los bienes poseídos (x4), estado
de salud expresado como índice (x5) y cantidad promedio de actividades sociales (x6) por
semana como hacer deporte o bailar.
La ecuación de regresión múltiple es:

198
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

=16,24+0,017x1+0,0028x2+42x3+0,0012x4+0,19x5+26,8x6

a) ¿Cuál es el índice estimado de satisfacción de una persona que se casó por primera vez a
los 18 años, tiene un ingreso anual de 26 500 soles, tres hijos vivos, bienes por 156 000 soles,
un índice de estado de salud de 141, y en promedio 2,5 actividades sociales por semana?
b) ¿Qué proporciona más satisfacción: un ingreso adicional de 10 000 soles anuales o dos
actividades sociales más por semana?

4. Elabore el diagrama de dispersión y luego identifique el mejor modelo matemático para el


siguiente conjunto de datos:

x 1 2 3 4 5 6
y 1 7 17 31 49 71

5. La tabla muestra el promedio de las ventas de cemento (en miles de TM) en los últimos 7 años.
Realice el suavizamiento de la serie mediante el método de promedios móviles de tres años
para el pronóstico de ventas a partir del segundo año. Grafique.

Año Ventas
2010 202
2011 204
2012 163
2013 161
2014 146
2015 184
2016 170

199
200
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

UNIDAD IV
DISEÑOS EXPERIMENTALES Y CONTROL
ESTADÍSTICO DE PROCESOS
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD IV

CONTENIDOS EJEMPLOS ACTIVIDADES

AUTOEVALUACIÓN BIBLIOGRAFÍA

ORGANIZACIÓN DE LOS APRENDIZAJES


RESULTADO DE APRENDIZAJE: Al finalizar la unidad, el estudiante será capaz de interpretar los resulta-
dos del diseño experimental y de control estadístico de procesos, mediante pruebas de comparación
y de dos factores.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema n.° 1: Diseño de experimentos 1. Identifica los elementos de diseño 1. Valora la utilidad de
1. Diseños experimentales experimental. la estadística en la
2. Tipos de diseños 2. Mide el efecto del factor en estu- toma de decisiones.
3. Diseño completamente al azar dio.
2. Demuestra interés
3. Aplica pruebas de comparación
por conocer la rela-
Tema n.° 2: Prueba para la diferencia de múltiple.
ción entre variables
medias 4. Realiza la prueba de hipótesis
estadísticas.
1. Análisis de varianza de un facto para la diferencia de medias y
luego interpreta los resultados. 3. Es coherente en el
Tema n° 3: Experimento factorial AxB 5. Aplica experimentos de dos fac- planteamiento de
ANOVA tores y realiza la prueba de hipó- los diseños experi-
tesis para experimentos factoria- mentales y estrictos
Tema n.° 4: Gráficos de control para la va- les. en el control esta-
riación y media 6. Realiza el control estadístico de dístico de procesos.
1. Datos de proceso procesos.
4. Resuelve situacio-
2. Gráfica de rachas
nes y problemas
3. Fuentes de variación Actividad n.° 19
vinculados al con-
4. Gráfica R Actividad n.° 20
trol estadístico de
Actividad n.° 21
procesos.
Tema n.° 5: Gráfica de control para atri- Actividad n.° 22
butos Actividad n.° 23
1. Gráfica de control p Actividad n.° 24
2. Diagrama de c con barra
Los estudiantes participan en el foro
Lectura seleccionada n.° 6: de discusión sobre cuáles son las ca-
“Investigación experimental” (La Rotta, racterísticas y etapas de la investiga-
s/f). ción experimental.

Autoevaluación n.°4 Control de lectura n.°4

201
Diseño de experimentos. Definiciones y principios básicos
Tema n.° 1

En los métodos estadísticos, por lo general se toman datos que se obtienen de dos fuentes distintas: las
investigaciones observacionales y los experimentos.

Según Triola (2009):


• En un estudio observacional, vemos y medimos las características específicas, pero no se intenta
modificar a los sujetos que se están estudiando. Entre estos estudios se tienen los estudios retros-
pectivos, los estudios transversales y los estudios prospectivos.
• En un experimento se aplican algunos tratamientos y luego se procede a observar los efectos
sobre los sujetos o unidades experimentales. Los experimentos son realizados prácticamente en to-
dos los campos del saber humano, con la finalidad de descubrir algo sobre un proceso o sistema.

Estudios
estadísticos

Estudio observacional: Experimento:


Observa y mide pero ¿Sólo Aplica algún
no modifica. hace observaciones tratamiento.
o modifico de
alguna forma a los
sujetos?
Tiempo Tiempo
pasado futuro
¿Cuándo
Elementos clave en el diseño de
se hacen las
observaciones? experimentos:
1. Controlar el efecto de las
variables a través de estudio
Un momento a ciegas, bloques, diseño
Estudio en el tiempo experimental completamente
retrospectivo (a aleatorio, diseño experimental
control de casa): rigurosamente controlado.
Va al pasado a 2. Réplica.
reunir datos de Estudio 3. Aleatoriedad.
algún periodo transversal:
anterior. Los datos
se miden en
una punto del Estudio prospectivo (o
tiempo. longitudinal o cohorte:
Va adelante en el
tiempo y observa a
grupos que comparten
factores comunes,
como fumadores y no
fumadores.

Figura 68. Estudios estadísticos. Tomado de Estadística, por Mario Triola, 2009, p. 22.

202
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

1. Diseños experimentales

De acuerdo con Hernández et al. (2014), el diseño señala al investigador lo que debe hacer para al-
canzar sus objetivos de estudio, contestar las interrogantes que se ha planteado y analizar la certeza
de la hipótesis formulada en un contexto particular.

Es decir, un diseño viene a ser el plan o estrategia concebida para responder a las preguntas de in-
vestigación.

1.1. Definición

El diseño de experimentos es un conjunto de técnicas que permiten manipular un proceso para


inducirlo a proporcionar la información que se requiere a fin de mejorarlo mediante cambios en
sus variables y su interacción o secuencia de ejecución. En suma, es la aplicación del método
científico para generar conocimiento acerca de un proceso o sistema.

El diseño de un experimento es concebido como los procedimientos previstos para garantizar que
los datos se obtendrán de manera que permitan un análisis objetivo y que conduzca a deduccio-
nes válidas en relación con el problema de investigación.

Prosiguiendo con Hernández et al. (2014), es un estudio de investigación sobre diseños experimen-
tales, en el que se manipulan deliberadamente una o más variables independientes (posibles
causas), para analizar las consecuencias que la manipulación tiene sobre una o más variables
dependientes (supuestos efectos), dentro de una situación de control para el investigador.

La metodología del diseño de experimentos se basa en la experimentación. Se sabe que si se


repite un experimento, en condiciones indistinguibles, los resultados presentan cierta variabilidad.
Si la experimentación se realiza en un laboratorio donde la mayoría de las causas de variabilidad
están controladas, el error experimental será pequeño y habrá poca variación en los resultados
del experimento.

1.2. Tipos de diseños

Por lo general, los diseños experimentales se clasifican en diseños pre-experimentales, cuasiexperi-


mentales y experimentales, los cuales a su vez se dividen en otros diseños más específicos.

Carrasco (2014) sostiene que los tipos de diseños experimentales son las diferentes formas de re-
solver problemas de interés científico en el campo experimental, en los que se tienen los preexpe-
rimentales, los cuasiexperimentales y los experimentales puros, como se aprecia a continuación:

Preexperimentales Cuasiexperimentales Experimentales puros


Son aquellas investigacio- Son aquellos que no asig- Son aquellos que reúnen los
nes en las que su grado de nan al azar los sujetos que dos requisitos para lograr el
control es mínimo y no cum- forman parte del grupo de control y la validez interna:
plen con los requisitos de un control y experimental, ni grupos de control (mani-
verdadero experimento. son emparejados, puesto pulación de la variable o
que los grupos de trabajo variables independientes) y
ya están formados. equivalencia de grupos.

203
1.3. Objetivo de un diseño de experimentos

El objetivo de un diseño de experimentos es proporcionar la mayor cantidad de información para


responder el problema planteado en la investigación, con un mínimo costo y máxima eficiencia.

Los principios básicos del diseño de experimentos son que se cumplan con la reproducción, alea-
torización y control.

Ejemplo 1: Un investigador está interesado en estudiar el efecto de los contenidos televisivos an-
tisociales sobre la conducta agresiva de los niños, para lo cual establece dos grupos de niños,
uno que ve solo programas televisivos con contenidos antisociales y otro grupo que ve solo pro-
gramas televisivos con contenidos prosociales. Al finalizar la experiencia se observará cuál de los
dos grupos muestra una mayor conducta agresiva; si ocurriera que el grupo de niños que vieron
programas antisociales muestra mayor conducta agresiva, frente a los niños que vieron programas
prosociales, y si no hay otra causa posible que hubiera afectado a los grupos de niños, se compro-
baría la hipótesis.

• Hipótesis de investigación: Los programas televisivos con contenidos antisociales influyen sobre
la conducta agresiva de los niños.
• Variable independiente: Programas televisivos antisociales.
• Variable dependiente: Conducta agresiva de los niños.
• Diseño de investigación: El diseño es cuasiexperimental; puede utilizarse de dos maneras:

Diseño cuasiexperimental solo GE X O2


con postest GC - O2
Diseño cuasiexperimental solo GE O1 X O2
con pretest y postest GC O1 - O2

Donde: GE: Grupo experimental


GC: Grupo control
X: Programas televisivos antisociales.
O1 y O2: Pre-test y post-test

Grupo experimental: los niños que ven solo programas televisivos antisociales.

Grupo de control: los niños que ven solo programas televisivos prosociales.

Ejemplo 2: En la investigación es muy frecuente encontrar ejemplos donde se desean comparar


muestras distintas, tales como:

™ Una empresa dedicada a la agricultura utiliza diversos tipos de fertilizantes y desea comparar
si estos tienen efectos diferentes sobre el rendimiento de la semilla de quinua.
• Hipótesis de investigación: Los tipos de fertilizantes influyen sobre el rendimiento de la semi-
lla de quinua.
• Variable independiente: Tipos de fertilizantes.
• Variable dependiente: Rendimiento de la semilla de quinua.
• Variables intervinientes: Cantidad de riego, pureza de los insecticidas suministrados, etc.

204
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

™ Un docente de estadística aplicada que da clases en grupos experimentales de estudiantes,


en los que desarrolla un mismo contenido pero con distintas estrategias didácticas, desea
comprobar si la estrategia didáctica utilizada influye en las calificaciones de los estudiantes en
la asignatura.
• Hipótesis de investigación: Las estrategias didácticas que utiliza el docente influyen en las
calificaciones que obtienen los estudiantes.
• Variable independiente: Estrategias didácticas.
• Variable dependiente: Calificaciones de los estudiantes en estadística aplicada.
• Variables intervinientes: Conocimientos previos de los estudiantes, motivación de los estu-
diantes, problemas socioemocionales, etc.

Las dos situaciones plateadas tienen en común que su interés está centrado en un solo factor con
varios tratamientos que pueden producir efectos distintos en la variable dependiente.

En los ejemplos desarrollados, aparte del factor señalado, también hay la posibilidad de que otros
factores puedan influir (obviamente, suponen tener poca importancia), a los que se les llama va-
riables intervinientes. El resultado de todas estas causas no controladas (variables intervinientes)
también influye en la variable dependiente.

1.4. Diseño experimental completamente aleatorio

Es el diseño más simple y sencillo de realizar, en el cual los tratamientos se asignan entre las unida-
des experimentales. Este diseño tiene una amplia aplicación cuando las unidades experimentales
son muy homogéneas, es decir, la mayoría de los factores actúan por igual entre las unidades.

El diseño completamente al azar es una prueba basada en el análisis de varianza, en donde la


varianza total se descompone en “la varianza de los tratamientos” y la “varianza del error”. El
objetivo es determinar si existe una diferencia significativa entre los tratamientos, para lo cual se
compara la “varianza del tratamiento” contra la “varianza del error” y se determina si la primera
es lo suficientemente alta.

En este diseño, los sujetos o unidades de observación se asignan a diferentes grupos de tratamien-
to de manera aleatoria.

Características

a) Se definen los tratamientos que se van aplicar a las n unidades experimentales, de tal forma
que a r unidades experimentales les va a corresponder un tipo de tratamiento.

b) Las unidades experimentales se sortean para la asignación a cada tratamiento.

c) Se define la variable por medir.

1.4.1. Ventajas de los diseños completamente aleatorios

a) Es flexible, el número de observaciones puede variar de un tratamiento para otro.

b) El análisis estadístico es simple, aunque se tengan tratamientos con diferente número de ob-
servaciones.

205
c) El análisis no se complica cuando se pierde algún dato o todo un tratamiento.

d) Los grados de libertad son máximos y en experimentos pequeños con pocos tratamientos y
repeticiones representan una ventaja.

Una de las desventajas es que es ineficaz en experimentos donde las unidades experimentales no
son homogéneas, es decir, si presentan mucha heterogeneidad.

1.4.2. Hipótesis de un diseño completamente al azar

En este diseño la hipótesis nula (H0) es que los efectos del tratamiento son todos iguales, lo que se
expresa por:

H0: β1= β2= β3=……

La hipótesis alterna es que hay al menos un efecto de tratamiento que es diferente a los demás.
Para probar esta hipótesis se hace uso de la prueba ANOVA.

206
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 19
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) Una investigación con diseño cuasiexperimental difiere de una con diseño ( )


experimental en el grado de seguridad y confiabilidad.
b) Experimento se refiere a tomar una acción y luego observar sus ( )
consecuencias.
c) El máximo control de las variables ocurre en los diseños preexperimentales. ( )
d) El diseño completamente al azar tiene aplicación cuando las unidades ( )
experimentales son muy homogéneas.
e) En el diseño cuasiexperimental los sujetos son asignados al azar. ( )

2. Una industria cervecera, que obtiene un determinado producto, está interesada en compro-
bar si el color de los envases de vidrio influye en el sabor de la cerveza. Formule la hipótesis de
investigación y las variables independiente, dependiente e intervinientes.

3. Un docente de Estadística desea probar la eficacia de una nueva estrategia de enseñanza,


de la cual ha conocido experiencias satisfactorias. Para ello, con la autorización de las auto-
ridades educativas, distribuye a los estudiantes en dos grupos aleatorios A y B. Se asignan al
azar al grupo A las estrategias tradicionales de clases expositivas, y al grupo B se le asigna la
nueva estrategia de enseñanza. Al final de dos semanas de clases se evalúa mediante una
prueba escrita a ambos grupos de estudiantes para observar los resultados. Identifique:
a) Variable independiente
b) Variable dependiente
c) Tipo de diseño
d) Hipótesis nula e hipótesis alterna

207
Prueba para la diferencia de medias (ANOVA)
Tema n.° 2

Introducción

El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuan-
titativa. Se trata, por lo tanto, de una generalización de la prueba “t” de Student para dos muestras
independientes al caso de diseños con más de dos muestras.

El nombre “análisis de varianza” se basa en el enfoque según el cual el procedimiento utiliza las varian-
zas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza
entre las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si
los grupos son todos parte de una población más grande o poblaciones separadas con característi-
cas diferentes.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K>2)
son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las
demás en cuanto a su valor esperado.

De acuerdo con Triola (2009, p. 636), el análisis de varianza es un método de prueba de igualdad de
tres o más medias poblacionales, por medio del análisis de las varianzas muestrales.

Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1):

H0: µ1=µ2=µ3= µ4=….

H1: No todas las medias son iguales

Si el valor estadístico de prueba (ANOVA) nos impulsa a aceptar la hipótesis nula (H0), se concluye que
las diferencias observadas entre las medias muestrales se deben a la variación casual en el muestreo
(por lo que se asevera que los valores medios de la población son iguales). Si se rechaza la hipótesis
nula (H0), se concluye que las diferencias entre los valores medios de la muestra son demasiado gran-
des como para deberse únicamente a la casualidad (por lo que se asevera que no todas las medias
de la población son iguales).

P(F)
0,5 Región de
Aceptación
0,4

0,3
Región de
0,2 1–a Rechazo
0,1 a

0,0
FC

Figura 69. Región de rechazo y de aceptación.


Fuente: Elaboración propia

208
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

El análisis de varianza requiere el cumplimiento de los siguientes supuestos:

• Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a


cada factor) son normales.

• Las K muestras sobre las que se aplican los tratamientos son independientes.

• Las poblaciones tienen todas igual varianza (homocedasticidad).

1. Análisis de varianza de un factor (o en una dirección)

Se utiliza para probar la hipótesis de que tres o más medias poblacionales son iguales y porque se
emplea una sola propiedad o característica para categorizar las poblaciones.

Tabla ANOVA

Suma de Grados de Cuadrados medios


Fuente de variación
cuadrados libertad (CM)
Entre los grupos SCE k-1 CME= SCE/(k-1)
Dentro de los grupos SCD n-k CMD=SCD/(n-k)
Total SCtotal n-1

Donde: SCE: Suma de cuadrados entre los grupos

SCD: Suma de cuadrados dentro de los grupos

SCtotal: Suma de cuadrados total

CME: Cuadrado medio entre grupos

CMD: Cuadrado medio dentro de los grupos

k: Número de grupos

n: Número de datos

Ejemplo 1: Se tiene un nuevo limpiador de uso múltiple cuya demanda se prueba exhibiéndolo en tres
lugares diferentes dentro de diversos supermercados. La tabla muestra el número de botellas de 12
onzas de Clean All que se vendieron en cada ubicación. Al nivel de significancia del 0,025, ¿existe una
diferencia en el número medio de botellas vendidas según el punto de venta?

Cerca de Cerca de la Con otros


panadería cerveza limpiadores
20 12 25
15 18 28
24 10 30
18 15 32

209
Solución:

Paso 1: Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1):

H0: La media del número de botellas vendidas no difiere según el punto de venta.
H0: µ1 = µ2 = µ3
H1: No todas las medias del número de botellas vendidas en los puntos de ventas son iguales.

Paso 2: Nivel de significación α=0,025.

Paso 3: Prueba análisis de varianza de un factor (ANOVA).

Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,025 hallamos la región crítica para 2 y 9
grados de libertad F(2; 9) = 5,7147.

Paso 5: Se hallan los datos:

Cerca de Cerca de
Con otros
panade- la cerve-
limpiadores
ría za
20 12 25 0,56 3,06 14,06
15 18 28 18,06 18,06 0,56
24 10 30 22,56 14,06 1,56
Me-
dia 18 15 32 1,56 1,56 10,56
19,25 13,75 28,75 42,74 36,74 26,74
Media total = 20,58 SCD = 106,22

Donde: Media total = (19,25+13,75+28,75)/3 = 20,58

SCD = 42,74+36,74+26,74=106,22

SCE = 4(19,25-20,58)2+4(13,75-20,58)2+4(28,75-20,58)2 = 460,68

Completando en la tabla ANOVA:

Fuente de variación Suma de cuadrados g.l. Cuadrados medios


Entre grupos SCE=460,68 3-1=2 460,68/2=230,34
Dentro de los grupos SCD=106,22 12-3=9 106,22/9=11,80
Total SCtotal =566,90

Hallamos la razón F:

Paso 6: Regla de decisión: Se rechaza H0 si Fc > F(2; 9)

19,5203 >5,7147 ………... (V)

210
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Figura 70. Zona de aceptación y de rechazo de H0.


Fuente: Elaboración propia

Conclusión: Se rechaza la hipótesis nula (H0) y se acepta la hipótesis alterna (H1); por tanto, se afirma
que el número medio de botellas vendidas de Clean All difieren según el punto de venta donde se
ubicó el producto, para un nivel de confianza del 97,5%.

Ejemplo 2: Se determinó el tiempo de respuesta en milisegundos para cuatro tipos diferentes de cir-
cuitos utilizados en una calculadora electrónica. Realice el análisis de varianza e indique si los cuatro
circuitos tienen una respuesta media homogénea. Pruebe la hipótesis para α=0,05. Los resultados se
presentan a continuación:

Circuitos
1 2 3 4
25 40 17 23
20 33 18 25
18 27 26 21
22 21 16 19
20 22

Solución:

Paso 1: Formulación de H0 y H1.

H0: Los circuitos tienen una respuesta media homogénea.


H1: No todas las medias de los circuitos son iguales.

Paso 2: Nivel de significación α=0,05.

Paso 3: Prueba análisis de varianza de un factor (ANOVA).

Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,05 hallamos la región crítica para 3 y 14
grados de libertad F(3; 14) = 3,3439.

211
Paso 5: Los datos necesarios:

1 2 3 4

25 40 17 23 14,06 139,24 5,06 1,00


20 33 18 25 1,56 23,04 1,56 9,00
18 27 26 21 10,56 1,44 45,56 1,00
22 21 16 19 0,56 51,84 10,56 9,00
20 22 67,24 0,00
21,25 28,20 19,25 22,00 26,74 282,80 62,74 20,00
Media total = 22,68 SCD = 392,28

Media total= (21,25+28,20+19,25+22,00)/4 = 22,68

SCD = 26,74+282,80+62,74+20,00 = 392,28

SCE = 4(21,25-22,68)2+5(28,20-22,68)2+4(19,25-22,68)2+5(22,00-22,68)2 SCE = 209,90

Completando en la tabla ANOVA:

Fuente de variación Suma de cuadrados g.l. Cuadrados medios


Entre grupos SCE=209,90 4-1=3 209,90/3=69,97
Dentro de los grupos SCD=392,28 18-4=14 392,28/14=28,02
Total SCtotal =602,18

La razón F:

Paso 6: Regla de decisión: Se rechaza H0 si Fc > F(3; 14)

2,4971 > 3,3439 ……… (F)

Figura 71. Zona de aceptación y de rechazo de H0.


Fuente: Elaboración propia

212
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Conclusión: Para un 95% de nivel de confianza no es posible rechazar la hipótesis nula (H0), por lo que
se asevera que los cuatro tipos de circuitos utilizados en la calculadora electrónica tienen una res-
puesta media homogénea.

Actividad n.° 20
1. Complete los valores: (utilice la tabla A-5)

Nivel de No de Tamaño total Grados de libertad Valor de


confianza grupos de la muestra Numerador Denominador Fα
95% 5 20
97,5% 9 30

2. Una fábrica de hilados tiene un gran número de telares. Se supone que cada uno de los tela-
res proporciona la misma salida de tela por minuto. Para investigar esta suposición, se eligen
tres telares al azar y su salida se mide en diferentes tiempos. La tabla muestra los resultados.
¿Son los telares similares en la salida media de tela (kg/min)?

Telar 1 Telar 2 Telar 3


7,9 8,0 8,2
7,6 8,2 8,4
7,8 8,4 8,2
8,0 8,0 7,8
7,8 8,0

3. Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial,


comparándola con la de una dieta sin sal. Para ello, se seleccionan al azar 20 hipertensos
y los distribuyen aleatoriamente en 4 grupos. Al primero de ellos no se les suministra ningún
tratamiento; al segundo, una dieta sin sal; al tercero, el fármaco a una dosis determinada; y
al cuarto, el mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 20 sujetos al
finalizar el tratamiento se muestran en la tabla. ¿Puede concluirse que los resultados de los
tratamientos difieren para α=0,025?

1 2 3 4
180 163 158 147
173 170 146 152
175 158 160 143
182 162 171 155
181 170 155 160

213
4. Se desea investigar los efectos del ejercicio sobre el estrés. En la tabla adjunta se listan las lec-
turas de la presión sanguínea sistólica (en milímetros de mercurio) de sujetos antes de iniciar
los ejercicios aeróbicos y antes de generarles estrés por medio de una prueba psicotécnica.
Utilice un nivel de significancia de 0,05 para probar la aseveración de que los diferentes gru-
pos de sujetos tienen la misma presión sanguínea media (mm Hg). ¿Se puede considerar que
los grupos provienen de la misma población?

Grupo A Grupo B Grupo C


97 135 99
110 130 100
102 133 87
93 121
124

214
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Experimento factorial AxB (ANOVA en dos direcciones)


Tema n.° 3

En un análisis de varianza en dos direcciones se considera una segunda variable de tratamiento, de-
nominada variable de bloqueo.

La ventaja de considerar otros factores reside en que se puede reducir la varianza del error.

El valor estadístico F para la variable de tratamiento y la variable de bloqueo se determina en la si-


guiente tabla:

Fuente de Suma de Grados de


Cuadrados medios F
variación cuadrados libertad
Tratamientos SCT k-1 SCT/(k-1)=CMT CMT/CMR
Bloques SCB b-1 SCB/(b-1)=CMB CMB/CMR
Error SCR (k-1)(b-1) SCR/(k-1)(b-1)=CMR
Total SCtotal n-1

Donde:

SCT: Suma de cuadrados de los tratamientos

SCB: Suma de cuadrados de los bloques

SCR: Suma de cuadrados del error (o Error)

SCTtotal: Suma de cuadrados total

CMT: Cuadrado medio de los tratamientos

CMB: Cuadrado medio de los bloques

CMR: Cuadrado medio del error

Ejemplo 1: Una empresa de transportes realiza una ampliación de autobuses desde un punto de la
ciudad hasta el centro de la ciudad. Hay cuatro rutas: A, B, C y D. Se sabe que la empresa realizó va-
rios recorridos de prueba para determinar si existe diferencia entre los tiempos utilizados al recorrer las
cuatro rutas. Como hay un gran número de conductores, la prueba se realizó de manera que cada
uno de los conductores recorriera cada una de las cuatro rutas. A continuación, se muestran los tiem-
pos del recorrido, en minutos, de cada combinación conductor-ruta. A nivel de significación de 0,05,
¿existirá alguna diferencia en el tiempo promedio de viaje en las cuatro rutas y los cinco conductores
elegidos aleatoriamente?

215
Rutas
Conductores A B C D
García 18 20 20 22
Sánchez 21 22 24 24
Rojas 20 23 25 23
Buendía 25 21 28 25
Gutiérrez 26 24 28 25

Solución:

• Para los tratamientos (columnas)

Considerando solo las 4 rutas (o columnas) completamos la tabla:

Rutas
Conductor (Tratamientos)
A B C D
García 18 20 20 22 16 4 25 3,24
Sánchez 21 22 24 24 1 0 1 0,04
Rojas 20 23 25 23 4 1 0 0,64
Buendía 25 21 28 25 9 1 9 1,44
Gutiérrez 26 24 28 25 16 4 9 1,44
Medias 22 22 25 23,8 46 10 44 6,80
Media total=23,20 SCD=106,80

Donde: Media total = (22+22+25+23,8)/4 = 23,20

SCD = 46+10+44+6,80 = 106,80

SCE = 5(22-23,2)2+5(22-23,2)2+5(25-23,2)2 +5(23,8-23,2)2 = 32,40

En la tabla ANOVA para los tratamientos:

Suma de Cuadrados
Fuente de variación g.l.
cuadrados medios
Entre grupos SCE=32,40 4-1=3 32,40/3=10,80
Dentro de los grupos SCD=106,80 20-4=16
Total SCtotal=139,20 19

• Para los bloques (filas)

Completamos la tabla para el bloque de conductores:

216
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Rutas
Conductores Medias Media total
A B C D
García 18 20 20 22 22,00
Bloques Sánchez 21 22 24 24 22,75
Rojas 20 23 25 23 22,75 23,20
Buendía 25 21 28 25 24,75
Gutiérrez 26 24 28 25 25,75

Hallamos la suma de cuadrados entre bloques (SCEB):

SCB = 4(20-23,2)2+4(22,75-23,2)2+4(22,75-23,2)2+4(24,75-23,2)2

+4(25,75-23,2)2

SCB = 78,20

Sobre la base de los datos de la tabla ANOVA anterior tenemos:

Suma de Cuadrados
Fuente de variación g.l.
cuadrados medios
Tratamientos Rutas SCT= 32,40 4-1= 3 32,4/3=10,80
Bloques Conductores SCB= 78,20 5-1= 4 78,2/4=19,55
Error SCR= 28,60 3x4=12 28,6/12=2,38
Total SCtotal=139,20 n-1=19

Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1):

H0: Las medias de las columnas son iguales.


H1: Las medias de las columnas no son iguales.

Luego:

Se rechaza H0 si Fc > F(3; 12)

4,5378>3,4903 ………... (V)

Se rechaza H0 para un 95% de confianza, es decir, se asevera que el tiempo medio de viaje no es
el mismo en las cuatro rutas.

Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1):

H0: Las medias de las filas son iguales.


H1: Las medias de las filas no son iguales.

217
Luego:

Se rechaza H0 si Fc > F(4; 12)

8,2143>3,2592 ………... (V)

Se rechaza H0 para un 95% de confianza, es decir, se asevera que el tiempo medio de viaje no es
el mismo para los cinco conductores.

Conclusión: Finalmente, se asevera que hay diferencia en el tiempo utilizado en las cuatro rutas y
con los cinco conductores, para un 95% de nivel de confianza.

Ejemplo 2: Suponga que se quiere investigar si la producción de tres diferentes máquinas es igual,
tomando en cuenta la experiencia de los operadores a un nivel de significación del 2,5%.

Experiencia de los Máquinas


operadores 1 2 3
1 año 27 21 25
5 años 31 33 35
10 años 42 39 39
15años 38 41 37

Solución:

• Para los tratamientos (columnas)

Considerando solo las 3 máquinas (o columnas) completamos la tabla:

Experiencia de Máquinas
los operadores 1 2 3
1 año 27 21 25 56,25 156,25 81
5 años 31 33 35 12,25 0,25 1
10 años 42 39 39 56,25 30,25 25
15años 38 41 37 12,25 56,25 9
Medias 34,50 33,50 34,00 137,00 243,00 116
Media total=34,00 SCD=496,00

Donde: Media total= (34,50+33,50+34,00)/3=34,00

SCD=137+243+116=496

SCE=4(34,50-34)2+4(33,50-34)2+4(34,00-34)2 = 2,00

En la tabla ANOVA para los tratamientos:

218
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Suma de Cuadrados
Fuente de variación g.l.
cuadrados medios
Entre grupos SCE=2,00 3-1=2 2,00/2=1,00
Dentro de los grupos SCD=496,00 12-3=9
Total SCtotal=498,00 11

• Para los bloques (filas)

Completamos la tabla para el bloque de los años de experiencia:

Experiencia de Máquinas
los operadores Medias Media total
1 2 3
1 año 27 21 25 24,33
Bloques

5 años 31 33 35 33,00
34,00
10 años 42 39 39 40,00
15años 38 41 37 38,67

Hallamos la suma de cuadrados entre bloques (SCEB):

SCB=3(24,33-34)2+3(33-34)2+3(40-34)2+3(38,67-34)2

SCB=456,95

Sobre la base de los datos de la tabla ANOVA anterior tenemos:

Fuente de Suma de Cuadrados


g.l.
variación cuadrados medios
Tratamientos Máquinas SCT= 2,00 3-1= 2 2,00/2=1,00
Bloques Experiencia SCB= 456,95 4-1= 3 456,95/3=152,32
Error SCR= 39,05 2x3=6 39,05/6=6,51
Total SCtotal=498,00 n-1=11

Formulación de H0 y H1 para las columnas:

H0: Las medias de la producción según las máquinas son iguales.

H1: Las medias de la producción según las máquinas no son iguales.

Luego:

Se rechaza H0 si Fc > F(2; 6)

0,1536>7,2599 ……… (F)

219
No es posible rechazar H0 para un 97,5% de confianza, por lo que se asevera que la producción en
las tres máquinas es igual.

Formulación de H0 y H1 para las filas:

H0: Las medias de la producción según los años de experiencia son iguales.

H1: Las medias de la producción según los años de experiencia no son iguales.

Luego:

Se rechaza H0 si Fc > F(3; 6)

23,3978>6,5988 ………... (V)

Se rechaza H0 para un 97,5% de confianza, es decir, se asevera que las medias de la producción
según los años de experiencia no son iguales.

Conclusión: Finalmente, se asevera que no hay diferencia entre las máquinas a pesar de la dife-
rencia en la experiencia de los operadores, para un 97,5% de nivel de confianza.

Actividad n.° 21
1. Una empresa de publicidad desea saber si el tamaño de un anuncio y su colorido producen
diferencia en la respuesta de los lectores de revistas. A una muestra aleatoria de lectores les
fue presentada una serie de anuncios con cuatro colores distintos y tres tamaños diferentes. A
cada lector se le pide que asigne una calificación, de 1 a 10, a cada combinación de color y
tamaño. Supóngase que las calificaciones se distribuyen en forma aproximadamente normal.
Las puntuaciones de cada combinación se muestran en la siguiente tabla. Utilice α=0,025.

Tamaño del Color del anuncio


anuncio Rojo Azul Naranja Verde
Pequeño 2 3 3 8
Mediano 3 5 6 7
Grande 6 7 8 8

2. Un investigador desea probar el efecto de cuatro agentes químicos sobre la resistencia de


un tipo particular de tela. Debido a que podría haber variabilidad de un rollo de tela a otro,
el investigador decide utilizar un diseño de bloques aleatorizados, con los rollos de tela consi-
derados como bloques. Seleccione 5 rollos y aplique los cuatro agentes químicos de manera
aleatoria a cada rollo. A continuación, se presentan las resistencias a la tensión resultantes.
Analice los datos de este experimento para α=0,05 e interprete los resultados.

220
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Agente Rollos
químico 1 2 3 4 5
1 72 67 73 70 66
2 72 66 74 71 69
3 74 67 77 72 67
4 72 70 74 74 68

3. Se describe un experimento para investigar el efecto del tipo de cristal y el tipo de fósforo so-
bre la brillantez de un cinescopio. Los datos son la corriente en microamperes necesaria para
obtener un nivel de brillantez específico. Utilice α=0,05. Los datos son los siguientes:

Tipo de fósforo
Tipo de cristal
1 2 3
280 300 290
1 290 310 285
285 295 290
230 260 220
2 235 240 225
240 235 230

221
Gráficos de control para la variación y la media
Tema n.° 4

1. Datos de proceso

Son datos ordenados de acuerdo con alguna secuencia de tiempo. Son mediciones de una carac-
terística de bienes o servicios que resultan de alguna combinación de equipo, personas, materiales,
métodos y condiciones.

2. Gráfica de rachas

Es una gráfica secuencial de valores de datos individuales a lo largo del tiempo. Un eje (generalmente
el eje vertical) se utiliza para los valores de los datos y el otro eje (generalmente el eje horizontal) se
emplea para la secuencia de tiempo).

30 LCS = 28,25

20

10
Media

3,933
0

-10

LCI = -20,38
-20

-30
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Figura 72. Gráfica de rachas.


Fuente: Elaboración propia

3. Interpretación de una gráfica de rachas

Un proceso es estadísticamente estable o se encuentra bajo control estadístico si solo varía de forma
natural, sin patrones, sin ciclos o puntos fuera de lo común.

Gráfica x

Es una gráfica de control que permite realizar el seguimiento de media del proceso.

Donde:

Línea central: es la media de todas las medias muestrales y se simboliza por x

Límite de control superior: LCS =

Límite de control inferior: LCI =

222
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

El valor de A2 se encuentra en la Tabla 14-2.

Tabla 4
Constantes de una gráfica de control

Tomado de Estadística, por Mario Triola, 2009.

Ejemplo 1: Una empresa ofrece un servicio telefónico gratuito para asesorar a sus clientes respecto
a problemas con el uso de sus productos, desde las 8:00 a.m. hasta las 5:00 p.m. todos los días. Es im-
posible que un representante técnico conteste inmediatamente a cada llamada, por lo que se pre-
senta un malestar en los clientes. La empresa decide elaborar un diagrama de control que describa
el tiempo (en minutos) que transcurre desde que se recibe una llamada hasta que un representante
responda al cliente. Cierto día se tomó una muestra de cinco llamadas cada hora; el resultado se
muestra a continuación:

223
Muestras
Hora
1 2 3 4 5
8 7 10 7 6 8
9 11 12 10 9 10
10 12 8 6 9 12
11 11 10 6 14 11
12 7 7 10 4 11
13 10 7 4 10 10
14 8 11 11 7 7
15 8 11 8 14 12
16 12 9 12 17 11
17 7 7 9 17 13

Sobre la base de esta información elabore una gráfica de control (Gráfica de la ) para la duración
media de la llamada: ¿parece haber una tendencia en los tiempos de las llamadas?, ¿existe algún
periodo en el que parezca que algunos clientes esperan más tiempo que otros?

Solución:

Hallamos la media y la amplitud o rango de cada una de las filas, así:

Número de muestra Amplitud/


Hora Media
1 2 3 4 5 rango
8 7 10 7 6 8 7,6 10-6=4
9 11 12 10 9 10 10,4 12-9=3
10 12 8 6 9 12 9,4 12-6=6
11 11 10 6 14 11 10,4 8
12 7 7 10 4 11 7,8 7
13 10 7 4 10 10 8,2 6
14 8 11 11 7 7 8,8 4
15 8 11 8 14 12 10,6 6
16 12 9 12 17 11 12,2 8
17 7 7 9 17 13 10,6 10
Suma 96 62

Luego:

De la tabla 14-2 hallamos el valor A2=0,577 para 5 subgrupos:

Límite de control superior: LCS =

Límite de control inferior: LCI =

Hallamos los límites de control: LCS = 9,6 + 0,577(6,2) = 13,18

LCI= 9,6-0,577(6,2)=6,02

224
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Interpretación:

• El proceso se encuentra bajo control estadístico.

• Existe cierta variación en la duración de las llamadas telefónicas, pero todas las medias muestrales
se encuentran dentro de los límites de control.

LCS = 13,18
13

11
Media

9,60

7
LCI = 6,024

5
8 9 10 11 12 13 14 15 16 17

Figura 73. Gráfica de rachas.


Fuente: Elaboración propia

De acuerdo con Triola (2009), un proceso está fuera de control estadístico cuando:

1. Hay un patrón, una tendencia o un ciclo que evidentemente no es aleatorio.

2. Hay un punto que está fuera de la región entre los límites superior e inferior.

3. Si cumple una de las siguientes rachas:

• Existen ocho puntos consecutivos, todos por encima o por debajo de la línea central (Regla
de racha de 8).

• Existen seis puntos consecutivos, todos crecientes o decrecientes.

• Hay 14 puntos consecutivos alternantes que se incrementan o disminuyen sucesivamente.

• Dos de cada tres puntos consecutivos están más allá de los límites de control que se encuen-
tran a dos desviaciones estándar de la línea central.

• Cuatro de cada cinco puntos consecutivos están más allá de los límites de control que están
a una desviación estándar de la línea central.

225
Ejemplo 2: El gráfico de rachas muestra la media de los errores de medición de 4 altímetros durante
20 días hábiles consecutivos. Los altímetros fueron elegidos al azar. Observe el gráfico y determine si el
proceso de producción de altímetros para aviones está bajo control estadístico.

Gráfico de la media de errores


70

60

50 LCS=48,38
Rango de errores

40

30

20 x=21,2 pies

10

0 LCI=0

2 4 6 8 10 12 14 16 18 20
Días

Figura 74. Gráfico de la media de errores.


Fuente: Elaboración propia

Solución:

• El proceso de producción de altímetros para aviones no se encuentra bajo control estadístico.

• Las medias están bajo control estadístico en las primeras muestras, pero hay una tendencia hacia
el límite de control superior (LCS). La media de la última muestra está fuera de control estadístico.

• En consecuencia, hay que realizar un ajuste en el proceso de producción de altímetros para avio-
nes.

4. Fuentes de variación

4.1. Variación aleatoria

Se debe al azar, es el tipo de variación inherente a cualquier proceso que no es capaz de producir
un bien o servicio exactamente de la misma forma cada vez.

226
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

4.2. Variación asignable

Resulta de causas identificables como maquinaria defectuosa, empleados sin capacitación ade-
cuada, entre otras.

4.3. Gráfica R

Es una gráfica de control para supervisar la variación.

Una gráfica de control de una característica de proceso (como la media o la variación) consiste
en valores graficados en secuencia a lo largo del tiempo e incluye una línea central, así como un
límite de control inferior (LCI) y un límite de control superior (LCS).

Notación:

n: tamaño de cada muestra o subgrupo.

Puntos graficados son los rangos muestrales.

Línea central: R

Límite de control superior: LCS=D4R

Límite de control inferior: LCI=D3R

Los valores de D3 y D4 se obtienen de la Tabla 14-2

Ejemplo 3: Elabore un gráfico de control para amplitudes de variación (gráfica R) del ejemplo 1;
¿parece que hay momentos en los que se presenta demasiada variación en la operación? For-
mule su conclusión.

Solución:

De la tabla 14-2 hallamos el valor D3=0,000 y D4=2,114.

Del ejemplo 1 ya se conoce que R = 6,2 minutos

Hallamos los límites de control: LCS=2,114(6,2)=13,11

LCI= 0,000(6,2)=0,00

Al observar el gráfico se concluye que:

• El gráfico muestra que todas las amplitudes se encuentran dentro de los límites de control.

• La variación en el tiempo de atención a las llamadas de los clientes están dentro de los límites
normales, es decir, el tiempo de atención a las llamadas se encuentran bajo control estadísti-
co.

227
LCS = 13,11

12

9
Media

6,2
6

LCI = 0,00
0
8 9 10 11 12 13 14 15 16 17

Figura 75. Gráfico que muestra que todas las amplitudes se encuentran dentro de los límites de
control.
Fuente: Elaboración propia

Ejemplo 4: Interprete el diagrama de amplitud de variación de los grados brix en la fabricación de


bebidas gaseosas. Argumente si las situaciones mostradas están bajo control estadístico.

0.60
Rango de la muestra

UCL=0,5447

0.45

0.30
R=0.2387
0.15

0.00 LCL=0
1 3 5 7 9 11 13 15 17 19
Muestra

Figura 76. Diagrama de amplitud de variación de los grados brix en la fabricación de bebidas
gaseosas.
Fuente: Elaboración propia

Solución:

Luego de analizar el diagrama de amplitudes, se afirma que el proceso es variable, ya que existen
muchas observaciones muy cerca del límite de control inferior, lo que indica que los grados brix en
la bebida están por debajo del promedio.

228
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Actividad n.° 22
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) La variación aleatoria es inherente a todo proceso de producción. ( )


b) Cuando se aprecia un ciclo que no es aleatorio se afirma que el proceso es ( )
estable.
c) Contar con maquinaria defectuosa es una causa de la variación aleatoria. ( )
d) Los límites de control de un gráfico son fronteras que indican puntos extremos. ( )
e) La gráfica de rachas permite asegurar que las características de un proceso sí ( )
cambian.

2. Un fabricante de triciclos selecciona diariamente al azar 8 armazones y determina la canti-


dad de defectos. El número de armazones defectuosos encontrado en los últimos 15 días es:
4; 3; 2; 4; 3; 3; 9; 3; 1; 4; 6; 3; 0; 5; 3. Elabore un diagrama de control para este proceso y deter-
mine si está “bajo control”.

3. Una empresa que produce papel higiénico evalúa su producto sometiendo 12 rollos a una
prueba de esfuerzo en humedad y verificando si el papel se rompe durante la prueba y con
qué frecuencia. A continuación, se presenta el número de rollos defectuosos encontrados
en los últimos 13 días: 0; 0; 1; 2; 2; 1; 2; 2; 3; 1; 2; 2 y 1. Elabore el diagrama de control para el
proceso y determine si está o no “bajo control”.

4. Se ha instalado un nuevo horno industrial en una empresa panadera. Para adquirir experien-
cia respecto a las temperaturas del horno, un ingeniero toma lecturas de la temperatura en 6
sitios diferentes del horno, cada media hora. La primera lectura tomada a las 9:00 a.m. fue de
351 °F. (En la tabla solo se dan los dos últimos dígitos de las lecturas para facilitar los cálculos).
Determine los límites de control superior e inferior de la lectura media de la temperatura, con
su correspondiente gráfica e interpretación. Además, elabore la gráfica de control de ampli-
tudes (o rangos) e interprete fundamentando sus razones.

Lecturas (°F)
Hora
1 2 3 4 5 6
9:00 51 50 20 40 30 45
9:30 38 45 21 44 25 38
10:00 47 45 30 41 20 43
10:30 41 39 48 40 40 45
11:00 46 42 30 37 60 41
11:30 39 41 22 40 31 40
12:00 44 25 38 41 39 48

229
Gráficas de control para atributos
Tema n.° 5

1. Gráfica de control de p

Es una gráfica de se dibuja en secuencia en función del paso del tiempo y que incluye una línea cen-
tral, un límite de control inferior (LCI) y un límite de control superior (LCS).

Notación:

El estimado agrupado de la proporción de artículos defectuosos en el proceso se simboliza por p y el


estimado agrupado de la proporción de artículos del proceso que no son defectuosos se simboliza
por q
número total de defectos encontrados en todos los artículos muestreados
p=
número total de artículos muestreados

q=1–p

n: tamaño de cada muestra

Línea central: p

Límite de control superior:

Límite de control inferior:

Nota:

✓ Si el valor del límite de control inferior saliera negativo, utilice 0 en su lugar.


✓ Si el valor del límite de control superior excediera a 1, utilice 1 en su lugar.

Ejemplo 1: El departamento de crédito de un banco se encarga de ingresar cada transacción al esta-


do de cuenta mensual del cliente. La exactitud es decisiva y los errores causarían el descontento de
los clientes. Para evitar equivocaciones, cada empleado que ingresa los datos teclea una muestra de
1500 de su lote de trabajo una segunda vez, y un programa de computación verifica que los números
concuerden. El programa imprime además un informe acerca del número y tamaño de cualquier
discrepancia. Siete personas trabajaron durante la última hora y los siguientes son los resultados:

Nros. Nros. que no


Empleado
inspeccionados concuerdan
1 1500 4
2 1500 6
3 1500 6
4 1500 2
5 1500 15
6 1500 4
7 1500 4

230
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

a) Elabore un diagrama de porcentaje de defectuosos para este proceso. ¿Cuáles son los límites de
control superior e inferior? Interprete los datos.

b) ¿Parecería que algunos de los encargados de ingresar los datos están “fuera de control”?

Solución:

Completamos la tabla:

Nros. Nros. que no Proporción de


Empleado
inspeccionados concuerdan defectos
1 1500 4 4/1500=0,0027
2 1500 6 6/1500=0,0040
3 1500 6 0,0040
4 1500 2 0,0013
5 1500 15 0,0100
6 1500 4 0,0027
7 1500 4 0,0027
Total 10500 41

Luego:

(No hay proporción negativa).

Gráficamente se tiene el diagrama de control para las proporciones de los ingresos defectuosos de
datos:

0,010 0,0100
LCS = 0,0087

0,008
Proporción de defectos

0,006

0,0040 p = 0,0039
0,004

0,0027 0,0027
0,002
0,0013
LCI = 0,0000
0,000
1 2 3 4 5 6 7

Figura 77. Diagrama de control para las proporciones de los ingresos defectuosos de datos.
Fuente: Elaboración propia
231
Conclusión:

• Si la proporción de defectos se encuentra entre los límites 0,0000 y 0,0087, se dice que el proceso
está bajo control.

• Se observa que el desempeño del empleado 5 está fuera de control estadístico, debido a que la
proporción de defectos que él muestra es de 0,0100 o 1%, cifra que se encuentra fuera del límite
superior de control, por lo que se sugiere un entrenamiento o capacitación adicional o debe ser
transferido a otra área de trabajo en el banco.

2. Diagrama de c con barra

El diagrama llamado c con barra representa gráficamente el número de defectos o fallas por unidad.

Límites de control para el número de defectos por unidad:

Donde es el número medio de defectos por unidad.

Ejemplo 1: El director de un periódico de Huancayo está interesado en determinar el número de pa-


labras mal escritas que se publican en ese diario. Para controlar el problema y promover la necesidad
de una escritura correcta, se utilizará un diagrama de control. El número de palabras con errores en la
edición final del diario durante los últimos 10 es días es: 9; 10; 7; 4; 8; 9; 5; 6; 11; y 9. Determine los límites
de control adecuados e interprete el diagrama. ¿Hubo algunos días en ese periódico en los que el
número de palabras mal escritas haya estado fuera de control?

Solución:

Hallamos :

Luego: , porque el número de palabras mal escritas no puede


ser negativo.

Por tanto, el límite inferior de control es 0 y el límite superior de control es 16,18.

El diagrama c se muestra a continuación:

232
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

20

LCS = 16,18
15
Disconformidades

10
7,80

LCI = 0,00
0
1 2 3 4 5 6 7 8 9 10

Figura 78. Diagrama de c con barra.


Fuente: Elaboración propia

Conclusión:

• Al comparar cada punto de los datos con el valor 16,18 se observa que todos ellos son menores
que el límite superior de control, de manera que el número de palabras mal escritas en el diario
huancaíno se encuentra “bajo control”.

233
Actividad n.° 23
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) Un diagrama de c con barras se refiere al número de defectos por unidad. ( )


b) El objetivo del control estadístico de calidad es controlar la calidad del producto, ( )
mas no así el servicio que se ofrece.
c) El objetivo de los diagramas de control es monitorear en forma gráfica la calidad ( )
de un producto o servicio.
d) Un diagrama para la media muestra la amplitud de variación de la variable. ( )
e) La gráfica de atributos es un diagrama de porcentajes de defectos. ( )

2. Una empresa que fabrica acumuladores para vehículos está interesada en evaluar la calidad
del producto que ofrece al mercado, para lo cual selecciona una muestra de acumuladores
y los prueba. El número de acumuladores defectuosos encontrados en los últimos 14 turnos es:
4; 3; 2; 4; 3; 3; 9; 3; 3; 4; 8; 3; 4; 6. Elabore el diagrama de control para el proceso y determine
si está o no bajo control.

3. Una cadena de supermercados evalúa el trabajo de sus cajeros examinando al azar los re-
cibos impresos para verificar si hay errores. Los siguientes datos indican el número de errores
observados en 12 recibos elegidos aleatoriamente: 0; 1; 1; 0; 0; 2; 1; 0; 1; 1; 0; 0. Elabore el dia-
grama de control para el proceso y determine si el proceso está “bajo control”.

Lectura seleccionada n.° 6


Investigación experimental: Características y etapas.

La Rotta, J. (s/f). Investigación experimental. Recuperado de http://bit.ly/2kwJkzj

Actividad n.° 24
Foro de discusión sobre la lectura “Investigación experimental”

Instrucciones

Ingrese al foro y responda la pregunta: ¿Cuál es la característica más importante de la investigación


experimental?

Determine un ejemplo de investigación experimental relacionado con su carrera profesional.

• Formule la hipótesis explicativa.


• Describa el plan experimental.
• Deduzca sus consecuencias en términos observables.

234
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Glosario de la Unidad IV
D
Datos de proceso
Son datos ordenados de acuerdo con alguna secuencia de tiempo. Son mediciones de una carac-
terística de bienes o servicios que resultan de alguna combinación de equipo, personas, materiales,
métodos y condiciones (Córdova, 2006).

Diagrama de c con barra


El diagrama llamado c con barra representa gráficamente el número de defectos o fallas por uni-
dad (Triola, 2009).

Diseño experimental
Es un conjunto de técnicas que permiten manipular un proceso para inducirlo a proporcionar la
información que se requiere para mejorarlo mediante cambios en sus variables y su interacción o
secuencia de ejecución (Córdova, 2006).

E
El análisis de varianza (ANOVA) de un factor
Sirve para comparar varios grupos en una variable cuantitativa. Se utiliza para probar la hipótesis de
que tres o más medias poblacionales son iguales y porque se emplea una sola propiedad o carac-
terística para categorizar las poblaciones (Triola, 2009).

Estudio observacional
Cuando vemos y medimos las características específicas, pero no se intenta modificar a los sujetos
que se están estudiando (Pagano, 2011).

Experimento
Son realizados prácticamente en todos los campos del saber humano, con la finalidad de descubrir
algo sobre un proceso o sistema (Triola, 2009).

Experimento factorial AxB (ANOVA en dos direcciones)


En un análisis de varianza en dos direcciones se considera una segunda variable de tratamiento. La
segunda variable de tratamiento se denomina la variable de bloqueo (Lind et al, 2004).

G
Gráfica de control de p
Es una gráfica del que se dibuja en secuencia en función del paso del tiempo y que incluye una
línea central, un límite de control inferior (LCI) y un límite de control superior (LCS) (Lind et al, 2004).

Gráfica R
Es una gráfica de control para supervisar la variación.

Gráfica de rachas
Es una gráfica secuencial de valores de datos individuales a lo largo del tiempo. Un eje (general-
mente el eje vertical) se utiliza para los valores de los datos y el otro eje (generalmente el eje hori-
zontal) se emplea para la secuencia de tiempo (Lind et al 2004).

V
Variación aleatoria
Se debe al azar, es el tipo de variación inherente a cualquier proceso que no es capaz de producir
un bien o servicio exactamente de la misma forma cada vez (Lind et al, 2004).

Variación asignable
Resulta de causas identificables como maquinaria defectuosa, empleados sin capacitación ade-
cuada, entre otras

235
Bibliografía de la Unidad IV
Carrasco, S. (2014). Metodología de la investigación científica. Lima: San Marcos.

Córdova, M. (2006). Estadística inferencial. Lima: Moshera SRL.

Hernández, R., Fernández, C. & Baptista, M. (2014). Metodología de la investigación. Santiago de


Chile: Mc Graw-Hill.

Lind, D.,; Marchal, W., y & Mason, R. (2004). Estadística para administración y economía. Colom-
bia: Alfaomega.

Oseda, D.; Cori, S.; Cerrón, J. y Vélez, E. (2014). Métodos y técnicas de investigación científica.
Huancayo: Soluciones gráficas SAC.

Pagano, R. (2011). Estadística para las ciencias del comportamiento. México: Cengage Learning.

Triola, M. (2009). Estadística. México: Pearson educación.

236
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Autoevaluación n.o 4
Instrucciones:

1. Suponga que usted es un nutricionista a quien se le ha pedido que determine si existe una di-
ferencia en el contenido de azúcar de las tres principales marcas de cereal para el desayuno
(A, B y C). Para evaluar la cantidad de azúcar en los cereales, usted realiza una muestra alea-
toria de 5 paquetes de cada marca y lleva a cabo un análisis físico-químico del contenido de
azúcar, que determinaron los valores que se muestran. ¿Cuál es su conclusión para un nivel
de significancia de 0,05?

Marcas A B C
6 4 8
5 2 7
azúcar (%)
Niveles de

3 4 4
8 2 5
4 3 3
Total

2. Una empresa automotriz tiene en su almacén tres automóviles de la misma marca y modelo.
Al gerente le gustaría comparar el consumo de gasolina de los tres vehículos (A, B y C) utili-
zando cuatro tipos diferentes de gasolina. Para cada prueba, se depositó un galón de com-
bustible en el tanque vacío de cada automóvil y se manejó hasta agotar la gasolina. La tabla
muestra el número de kilómetros recorridos en cada prueba.

Distancia (en km)


Tipo de gasolina
Auto 1 Auto 2 Auto 3
Regular 36,0 33,5 34,6
Súper regular 27,4 31,2 33,3
Sin plomo 30,9 32,5 34,1
Premium sin plomo 32,7 29,9 32,8

Utilizando el nivel de significancia 0,025:

a) ¿Hay diferencia entre los autos?

b) ¿Hay diferencia entre los tipos de gasolina?

237
3. Cada hora un inspector de control de calidad mide el diámetro exterior de cuatro piezas. Los
resultados de las mediciones se muestran en la siguiente tabla:

Pieza de muestra
Hora
1 2 3 4
9:00 51 50 20 40
10:00 47 45 30 41
11:00 46 42 30 37
12:00 44 25 38 41

a) Calcule la media del diámetro exterior, la media de la amplitud de variación y determine


los límites de control para la media y la amplitud de variación.

b) ¿Se encuentran las mediciones dentro de los límites control? Interprete el gráfico x y R .

4. Un fabricante de bicicletas selecciona diariamente 10 armazones y determina la cantidad de


defectos. El número de armazones defectuosos en los últimos 9 días de fabricación es: 3; 2; 1;
3; 2; 2; 8; 2; 0. Elabore un diagrama de control y determine si está “bajo control estadístico”.

238
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Anexos

UNIDAD I

Pregunta 1:

a) F, ya que en el estudio prospectivo se realizan proyecciones a futuro.


b) V
c) V
d) F, ya que en el estudio a ciegas el sujeto no sabe que está recibiendo el tratamiento.

Pregunta 2:

a) Intervalo de selección: N/n=72/18=4

Elemento de arranque: 4

La muestra de los contratos está conformada por: 4; 8; 12; 16; 20; 24; 28; 32; 36; 40; 44; 48; 52; 56; 60;
62; 64 y 72. En la tabla serían los datos sombreados.

N.º Monto N.º Monto N.º Monto N.º Monto


1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20

239
b) Tenemos los datos: n=18; g.l.=18-1=17; 1-α=99%; tα/2=2,898

Con la calculadora: Media=316,23 y s=165,62.

El error: E=113,13 dólares

El intervalo: 316,23-113,13<µ<316,23 + 113,13

203,10<µ<429,36

Conclusión: Es probable que la media poblacional de las utilidades de la empresa se encuentre


entre 203,10 y 429,36 dólares, para un 99% de nivel de confianza.

Pregunta 3: Los datos n=18; 1-α=95%; s=165,62 dólares; g.l.=17


De la tabla se obtiene: y

Reemplazando en la fórmula:

Entonces: 15 445,32<σ<61 648,56

Conclusión: Es razonable concluir que la varianza poblacional de las utilidades obtenidas por la em-
presa se encuentra entre 15 445,32 y 61 648,56 dólares2, afirmación que se hace para un 95% de nivel
de confianza.

Pregunta 4:

a) Los datos n=25; ; ; 1-α=94%; zα/2=1,885

Error: = 0,18469≈ 0,18, entonces: E=0,18

El intervalo de confianza: 0,40-0,18<p<0,40+0,18

0,22<p<0,58

Conclusión: el 94% de muestras tamaño 25, la proporción de familias que poseen celular de última
generación se encuentra en el intervalo de 0,22 y 0,58.

b) El estimado puntual es p=0,40, es decir, el 40% de las familias posee un celular de última genera-
ción.

Pregunta 5:

Con la calculadora de obtienen los datos:

Taxis: Media1=8,62; varianza1=2,84; n1=8; g.l.=7

Automóviles: Media2=6,12; varianza2=4,98; n2=8; g.l.=7

tα/2=2,365

El error:

E=2,34 años

240
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

El intervalo: (8,62-6,12)-2,34<µ1-µ2<(8,62-6,12)+2,34

0,16<µ2-µ1<4,84

Conclusión: La diferencia de las medias poblacionales de la antigüedad de los vehículos se ubica en


el intervalo de 0,16 a 4,84 años, aseveración que se hace para un 95% de nivel de confianza.

UNIDAD II

Pregunta 1: Completando los valores en la tabla se tiene:

Niveles de confianza α Valor crítico de zα/2 Valor crítico de zα


96% 0,04 2,055 1,755
88% 0,12 1,555 1,175
92% 0,08 1,755 1,405

Pregunta 2:

Paso 1: Formulación de H0 y H1

H0: µ=60 000 kilómetros

H1: µ≠60 000 kilómetros

Paso 2: Nivel de significancia α=0,05

Paso 3: Distribución z, ya que es una muestra grande.

Paso 4: Se rechaza H0 si: zc<-zα/2 o zc>zα/2

Paso 5: Media=61 500 km; σ=4 000; n=48; zα/2 = 1,96

2,60<-1,96 ó 2,60>1,96 ….. (V)

Paso 6: Se rechaza H0 para un 95% de nivel de confianza; por lo tanto, se asevera que la experiencia
de la empresa que compró y utilizó los neumáticos difiere de la afirmación del fabricante.

Pregunta 3:

Paso 1: Formulación de H0 y H1

H0: µ≤10,40

H1: µ>10,40

Paso 2: Nivel de significancia α=0,01.

Paso 3: Prueba t de student para una media.

241
Paso 4: Se rechaza H0 si: tc>tα

Paso 5: Media=12,51; s=2,70; n=11; g.l.= 11-1=10; tα = 2,764

Se rechaza H0 si: 2,592>2,764 ……… (F)

Paso 6: Para un 99% de confianza no es posible rechazar H0; por lo tanto, se asevera que la media
poblacional es menor o igual a 10,40.

Pregunta 4:

Paso 1: Formulación de H0 y H1.

H0: Proporción de varones que desaprueban Estadística aplicada es menor o igual que la propor-
ción de estudiantes mujeres (H0: pv≤pm).

H1: Proporción de varones que desaprueban Estadística aplicada es mayor que la proporción de
estudiantes mujeres (H1: pv>pm).

Paso 2: Nivel de significancia α=0,05.

Paso 3: Prueba para dos proporciones.

Paso 4: Se rechaza H0 si: zc>zα; donde zα = 1,645

Paso 5: Varones nv=160; pv=0,15; xv=24

Mujeres nm=120; pm=0,125; xm=15

En la fórmula:

0,597>1,645 ….. (F)

Paso 6: No es posible rechazar H0 para un 95% de nivel de confianza; por lo tanto, se asevera que la
proporción de varones que desaprueban Estadística aplicada es menor o igual que la proporción de
estudiantes mujeres.

Pregunta 5:

Paso 1: Formulación de H0 y H1.

H0: La preocupación por la contaminación ambiental no difiere según distrito.

H1: La preocupación por la contaminación ambiental difiere según distrito.

Paso 2: Nivel de significancia α=0,025

242
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

Paso 3: Prueba chi-cuadrada de homogeneidad.

Paso 4: Se rechaza H0 si: ;


donde = 9,348; g.l.=(2-1)(4-1)=3

Paso 5: Se hallan los valores esperados en la tabla:

Respuesta
Total
No Sí Duda No sabe
El Tambo 2/ 6,5 31/ 25,5 2/ 4,5 5/ 3,5 40
Chilca 11/ 6,5 20/ 25,5 7/ 4,5 2/ 3,5 40
Total 13 51 9 7 80

Se halla el valor chi-cuadrado calculado: = 12,667.

Se rechaza H0 si: 12,667>9,348 …… (V)

Paso 6: Para un 97,5% de nivel de confianza se rechaza H0; por lo tanto, se asevera que la preocupa-
ción por la contaminación ambiental difiere según distrito donde residen los encuestados.

UNIDAD III

Pregunta 1: a) rs=0,964;

b) El diagrama de dispersión presenta una nube de puntos con pendiente positiva.

c) Se rechaza H0, ya que 0,964>0,893

Conclusión: Para un 98% de nivel de confianza se rechaza H0, por lo que se asevera
que existe una correlación significativa entre el número de anuncios y las ventas
generadas.

Pregunta 2: Con la calculadora se obtienen los datos:

a) Ecuación:

b) El mejor puntaje predicho:

c) r=-0,87: Existe una correlación negativa alta.

r2=75,36%: La variación del promedio se explica por la variación de las inasistencias.

El diagrama es una nube de puntos con pendiente negativa.

Pregunta 3: a) El índice estimado de satisfacción es: y´= 497,736

b) Para un ingreso adicional de 10 000 soles: y´= 525,736

Para dos actividades sociales más: y´= 551,336

Proporciona más satisfacción dos actividades sociales más por semana.

243
Pregunta 4: Los modelos matemáticos son:

Modelo lineal Modelo logarítmico


A=-19,67 A=-10,42
B=14 B=36,25
Modelo: y=-19,67-14x Modelo: y=-10,42+36,25lnx
r= 0,9789 r= 0,8978
r =0,9583≈95,83%
2
r2=0,8061≈80,61%

Modelo potencial Modelo exponencial


A=1,15 A=0,95
B=2,36 B=2,21
Modelo: y=1,15x 2,36
Modelo: y=0,95(2,21)x
r= 0,9970 r= 0,9468
r2=0,9941≈99,41% r2=0,8965≈89,65%

Se observa que el mejor modelo es el modelo potencial, ya que presenta el mayor


coeficiente de determinación (r2=99,41%).

Pregunta 5: Se realizan los cálculos como se indican a continuación:

Promedio móvil
Año Ventas Total móvil de 3 años
de 3 años
1 202
2 204 202+204+163=569 569/3=189,67
3 163 204+163+161=528 528/3=176
4 161 163+161+146=470 470/3=156,67
5 146 161+146+184=491 491/3=163,67
6 184 146+184+170=500 500/3=166,67
7 170

El gráfico es:

244
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

UNIDAD IV

Pregunta 1: Se completa la tabla ANOVA:

Fuente de variación SC g.l. Cuadrados medios


Entre grupos 17,73 2 17,73/2=8,86
Dentro de grupos 36 12 36/12=3
Total 53,73

No es posible rechazar la hipótesis nula (H0) para 2 y 12 grados de libertad, ya que no se


cumple que: Fc > Fα

2,9533>3,8853….. (F)

Conclusión: Para un 95% de nivel de confianza no se rechaza H0, por lo que se asevera
que no existe diferencia significativa en el contenido de azúcar.

Pregunta 2:

• Para los tratamientos (columnas)

Para las columnas tenemos:

Distancia (km)
Tipo de gasolina
Auto 1 Auto 2 Auto 3
Regular 36,0 33,5 34,6 18,06 2,96 19,29
Súper regular 27,4 31,2 33,3 18,92 0,34 49,19
Sin plomo 30,9 32,5 34,1 0,72 0,52 46,67
Premium sin plomo 32,7 29,9 32,8 0,90 3,53 14,56
Medias 31,75 31,78 33,70 38,61 7,35 129,71
Media total=32,41 SCD=175,66

Donde: Media total= (31,75+31,78+33,70)/3=32,41

SCD=38,61+7,35+129,71=175,66

SCE=4(31,75-32,41)2+4(31,78-32,41)2+4(33,70-32,41)2 = 9,99

En la tabla ANOVA para los tratamientos:

Suma de Cuadrados
Fuente de variación g.l.
cuadrados medios
Entre grupos SCE=9,99 3-1=2 9,99/2=5,00
Dentro de los grupos SCD=175,66 12-3=9
Total SCtotal=185,65 11

245
• Para los bloques (filas)

Completamos la tabla para el bloque tipo de gasolina:

Distancia (km)
Tipo de gasolina Medias Media total
Auto 1 Auto 2 Auto 3
Regular 36,0 33,5 34,6 34,70
Bloques

Súper regular 27,4 31,2 33,3 30,63


32,41
Sin plomo 30,9 32,5 34,1 32,50
Premium sin plomo 32,7 29,9 32,8 31,80

Hallamos la suma de cuadrados entre bloques (SCEB):

SCB=3(34,70-32,41)2+3(30,63-32,41)2+3(32,50-32,41)2+3(31,80-32,41)2

SCB=26,38

Sobre la base de los datos de la tabla ANOVA anterior tenemos:

Fuente de Suma de cua-


g.l. Cuadrados medios
variación drados
Tratamientos Distancia SCT= 9,99 3-1= 2 9,99/2=5,00
Bloques Tipo gasolina SCB= 26,38 4-1= 3 26,38/3=8,79
Error SCR= 149,28 2x3=6 149,28/6=24,88
Total SCtotal=185,65 n-1=11

Formulación de H0 y H1 para las columnas:

H0: Las medias de las distancias según los autos son iguales.

H1: Las medias de las distancias según los autos no son iguales.

Luego:

Se rechaza H0 si Fc > F(2; 6)

0,2010>7,2599 ……… (F)

No es posible rechazar H0 para un 97,5% de confianza; se asevera que las medias de las distancias
en los tres autos son iguales, es decir, no hay diferencias.

Formulación de H0 y H1 para las filas:

H0: Las medias de las velocidades según los tipos de gasolina son iguales.

H1: Las medias de las velocidades según los tipos de gasolina no son iguales.

Luego:

Se rechaza H0 si Fc > F(3; 6)

0,3533>6,5988 ……… (F)

246
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

No se rechaza H0 para un 97,5% de confianza, es decir, se asevera que las medias de las velocida-
des según los tipos de gasolina son iguales.

Conclusión: Finalmente, se asevera que no hay diferencia en las velocidades entre los autos ni
según los tipos de gasolina que utilizan dichos autos, para un 97,5% de nivel de confianza.

Pregunta 3: Completando la tabla tenemos:

Pieza de muestra
Hora Media Rango
1 2 3 4
9:00 51 50 20 40 40,25 31
10:00 47 45 30 41 40,75 17
11:00 46 42 30 37 38,75 16
12:00 44 25 38 41 37,00 19
Media 39,19 20,75

Luego: , de la tabla se tiene que A2=0,729 para subgrupos de tamaño 4

Las fórmulas: Límite de control superior: LCS =

Límite de control inferior: LCI =

LCS=39,19+0,729(20,75)=54,32

LCI=39,19-0,729(20,75)=24,06

Conclusión: Las medias de los diámetros exteriores se encuentran dentro de los límites de control.

Las fórmulas: Límite de control superior: LCS=D4

Límite de control inferior: LCI=D3

De la tabla se obtiene que D3=0,000 y D4=2,282

LCS=2,282(20,75)=47,35

LCI=0,000(20,75)=0,00

Conclusión: Las medias de las amplitudes de variación de los diámetros exteriores se encuentran den-
tro de los límites de control.

247
Pregunta 4: Se tiene la tabla:

Números Proporción de
Día Defectuosos
inspeccionados defectos
1 10 3 3/10=0,30
2 10 2 2/10=0,20
3 10 1 0,10
4 10 3 0,30
5 10 2 0,20
6 10 2 0,20
7 10 8 0,80
8 10 2 0,20
9 10 0 0,00
Total 90 23

La línea central:

Límites de control:

Límite de control superior:

Límite de control inferior:

No hay proporción negativa.

Conclusión:

• Como la proporción de defectos no se encuentra entre los límites 0,0000 y 0,68, se dice que el
proceso no está bajo control.

• Se observa que la producción del día 7 está fuera de control estadístico, debido a que la propor-
ción de armazones defectuosos (0,80) se encuentra fuera del límite superior de control, por lo que
se sugiere identificar las causas del hecho a fin de mejorar el proceso de fabricación.

248
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

TABLAS

249
250
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

251
252
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

253
254
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

255
256
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

257
258
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

259
260
MANUAL AUTOFORMATIVO INTERACTIVO
Estadística Aplicada

261
Huancayo
Av. San Carlos 1980 - Huancayo
Teléfono: 064 - 481430

Lima
Jr. Junín 355 - Miraflores
Teléfono: 01 - 2132760

Cusco
Av. Collasuyo S/N Urb. Manuel Prado - Cusco
Teléfono: 084 - 480070

Arequipa
Calle Alfonso Ugarte 607 - Yanahuara
Oficina administrativa: Calle San José 308 2° piso - Cercado
Teléfono: 054 - 412030

También podría gustarte