Está en la página 1de 312

Universidad Peruana de Ciencias Aplicadas

PRE GRADO

AUTOR : GONZALO CUADROS


CELIA CARDENAS
RAUL RAMIREZ

DOCENTES :

TÍTULO : GUÍA DEL ALUMNO

FECHA : MARZO 2015

CURSO : ESTADÍSTICA APLICADA 2

CÓDIGO : MA145

ÁREA : CIENCIAS

CICLO : 2015 -1

Estadística Aplicada 2
Universidad Peruana de Ciencias Aplicadas

INDICE

1. CONTROL ESTADÍSTICO DE PROCESOS ...................................................................... 5


1.1 PROCESOS .............................................................................................................................. 7
1.1.1. Concepto de control de un proceso ...................................................................7
1.1.2. Variabilidad de un proceso ................................................................................9
1.1.3. Capacidad de proceso ...................................................................................11
1.1.4. GRÁFICOS DE CONTROL POR VARIABLES: ...............................................14
1.1.5. GRÁFICOS DE CONTROL POR ATRIBUTOS: ..............................................16
1.1.6. GRÁFICOS DE CONTROL PARA EL NÚMERO DE DEFECTOS...................19
1.2|APLICACIONES ....................................................................................................................... 24
1.2.1. GRÁFICA C ....................................................................................................24
1.2.2. GRÁFICA U ....................................................................................................28
2. PRUEBA DE HIPÓTESIS .................................................................................................... 37
2.1 CONCEPTOS GENERALES ............................................................................................... 37
2.1.1 Potencia de prueba o Poder de Prueba...........................................................38
2.1.2 CURVA CARACTERÍSTICA DE OPERACIÓN .......................................................... 40
PASOS A SEGUIR EN UNA PRUEBA DE HIPÓTESIS ............................................................ 42
2.2 PRUEBAS DE HIPÓTESIS PARA UN PARÁMETRO .................................................... 43
2.2.1 Prueba de hipótesis para una media poblacional ............................................43
2.2.2 Prueba de hipótesis para una varianza poblacional ........................................46
2.2.3 Prueba de hipótesis para una proporción poblacional .....................................47
2.3 PRUEBAS DE HIPÓTESIS PARA DOS PARÁMETROS ............................................... 52
2.3.1 PH para dos varianzas poblacionales / PH de Homogeneidad de Varianzas
52
2.3.2 Pruebas de hipótesis para dos medias poblacionales .....................................53
2.3.3 PRUEBA DE HIPÓTESIS PARA DOS PROPORCIONES POBLACIONALES ...... 56
3. USO DE LA DISTRIBUCIÓN JI-CUADRADO ................................................................ 63
3.1 PRUEBA DE INDEPENDENCIA. ....................................................................................... 63
3.2 PRUEBA DE HOMOGENEIDAD DE PROPORCIONES ............................................... 66
3.3 PRUEBA DE BONDAD DE AJUSTE ................................................................................. 68
3.4 PRUEBAS DE NORMALIDAD ........................................................................................... 74
4. DISEÑOS EXPERIMENTALES ......................................................................................... 82
4.1|INTRODUCCIÓN ..................................................................................................................... 82
4.2 DISEÑO COMPLETAMENTE AL AZAR (ALEATORIO) ............................................ 84
4.3 DISEÑO CON BLOQUES COMPLETOS AL AZAR........................................................... 94
4.4 EXPERIMENTO FACTORIAL AXB. ................................................................................ 99
Estadística Aplicada 2 2
Universidad Peruana de Ciencias Aplicadas

4.5 EJERCICIOS ....................................................................................................................... 109


5. ANÁLISIS DE REGRESIÓN ............................................................................................. 136
5.1 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE Y DE CORRELACIÓN................... 136
I. EL MÉTODO DE LOS MÍNIMOS CUADRADOS ............................................................ 138
II. LA LÍNEA RECTA ESTIMADA ....................................................................................... 139
III. SUPUESTOS DE LA REGRESIÓN .................................................................................. 141
IV. COEFICIENTE DE DETERMINACIÓN Y DE NO DETERMINACIÓN ................... 141
V. COEFICIENTE DE CORRELACIÓN.............................................................................. 142
VI. INFERENCIA SOBRE LOS COEFICIENTES DEL MODELO DE REGRESIÓN ... 142
5.2 REGRESIÓN NO LINEAL ................................................................................................ 155
5.3 REGRESIÓN MÚLTIPLE ................................................................................................. 188
5.3.1 Elección de las variables de predicción .........................................................189
5.3.2 El modelo de regresión lineal múltiple ...........................................................189
5.3.3Supuestos del modelo de regresión lineal múltiple ............................................189
5.3.4 Ecuación de regresión muestral ....................................................................189
5.3.5 Coeficiente de determinación múltiple (r2) ....................................................191
5.3.6 Pruebas de hipótesis .....................................................................................192
5.3.7 Multicolinealidad ............................................................................................193
6. SERIES DE TIEMPO.......................................................................................................... 246
6.1 DESCOMPOSICIÓN DE UNA SERIE DE TIEMPO. .................................................... 247
MODELO MULTIPLICATIVO .................................................................................................. 247
6.2 COMPONENTES DE UNA SERIE DE TIEMPO ........................................................... 247
6.2.1 TENDENCIA SECULAR ................................................................................................ 247
6.2.2 COMPONENTE CÍCLICA ............................................................................................. 247
6.2.3 COMPONENTE ESTACIONAL .................................................................................... 248
6.2.4 COMPONENTE IRREGULAR ...................................................................................... 248
6.3 ESTUDIO DE UNA SERIE DE TIEMPO ........................................................................ 248
6.3.1 MODELO DE TENDENCIA .......................................................................................... 248
6.3.2 RECTA DE TENDENCIA ............................................................................................... 248
6.4 DESCOMPOSICIÓN DE UNA SERIE DE TIEMPO ..................................................... 252
7 MÉTODO DE ATENUACIÓN EXPONENCIAL ............................................................... 270
7.1 TIPOS DE PRONÓSTICOS..................................................................................................... 270
7.2 DEFINICIÓN DE LA ATENUACIÓN EXPONENCIAL .............................................................. 270
7.3 CARACTERÍSTICAS DE LA ATENUACIÓN EXPONENCIAL CON UN PARÁMETRO (SIMPLE).. 271
7.4 SEÑAL DE RASTREO ............................................................................................................ 271
7.5 MEDICIÓN DEL ERROR EN EL PRONÓSTICO ........................................................ 273

Estadística Aplicada 2 3
Universidad Peruana de Ciencias Aplicadas

TABLAS ESTADÍSTICAS ........................................................................................................... 288


Plan Calendario………………………………………………….……Ultima página

Estadística Aplicada 2 4
Universidad Peruana de Ciencias Aplicadas

Unidad 1: Control Estadístico de Procesos

1. Control Estadístico de Procesos


Introducción
La estadística y la probabilidad tienen importantes aplicaciones industriales que comprenden el
control estadístico de procesos, el control de calidad y la ingeniería de confiabilidad.

El campo del control estadístico de calidad consiste en dos tipos generales de técnicas: tablas de
control, para vigilar la actuación de un proceso de producción y muestreo de aceptación.

En este capítulo estudiaremos el concepto de control de un proceso, las causas de variabilidad de un


proceso, la capacidad de un proceso, los gráficos de control a utilizar cuando las características de la
producción así lo aconsejen.

Este método es adecuado para controlar un proceso, cuando este elemento es el único que produce la
máquina o el proceso. Esto es debido a que, cuando el proceso cambia, la característica que está
afectada por el proceso también cambia, poniéndose de manifiesto en el gráfico de control.

Sin embargo, en ocasiones tenemos procesos que producen una gran variedad de elementos distinto,
evidenciándose en el gráfico con relativamente pequeños tamaños de lotes. Afortunadamente, los
elementos son por lo general similares en forma y tamaño, utilizándose en su fabricación también
procesos parecidos.

En el caso del control estadístico de procesos para series cortas se aprovecha de la similitud en el
procesado de distintos elementos producidos con la misma máquina o con el mismo proceso.

Todo proceso productivo proporciona información que puede utilizarse para ayudar a controlarlo y
mejorarlo. Si nos concentramos en el proceso en vez de en la pieza, podemos tratar en conjunto los
datos de distintas piezas o de una misma pieza con diferente destino que estemos fabricando con el
mismo proceso.

Estadística Aplicada 2 5
Universidad Peruana de Ciencias Aplicadas

El concepto de hacer énfasis en el proceso en sí mismo en lugar de en su resultado, la pieza, es


fundamental y nos proporciona una posible solución al problema de series cortas.

El control estadístico de proceso se utiliza para controlar la consistencia de los procesos utilizados
para la fabricación de un producto tal como fue diseñado. Su objetivo es conseguir y mantener los
procesos bajo control. No importa lo bueno o malo el diseño, que el control del proceso – SPC
puede garantizar que el producto está fabricado según el diseño previsto. Por lo tanto, SPC no va a
mejorar la fiabilidad de un producto mal diseñado, pero que puede ser utilizado para mantener la
consistencia de cómo está hecho el producto y, por tanto, del producto fabricado en sí y su fiabilidad
como de diseño. Una herramienta principal utilizada para el control estadístico de procesos (SPC) es
el gráfico de control, una representación gráfica de determinadas estadísticas descriptivas para
determinadas medidas cuantitativas del proceso de fabricación. Las estadísticas descriptivas se
muestran en el gráfico de control en comparación con sus “en control” distribuciones muestrales. La
comparación detecta cualquier variación inusual en el proceso de fabricación, lo que podría indicar
un problema con el proceso. Varias estadísticas descriptivas se pueden utilizar en gráficos de control
y hay varios tipos diferentes de gráficos de control que se puede probar por diferentes causas, por
ejemplo, cómo se desplaza con rapidez frente a los principales medios de menor importancia en el
proceso que se detecten. Y los gráficos de control se utilizan también con las mediciones del producto
para analizar la capacidad de proceso y de los esfuerzos continuos de mejora de procesos.

“Si no puedes medirlo, no puedes


mejorarlo.”

Estadística Aplicada 2 6
Universidad Peruana de Ciencias Aplicadas

1.1 Procesos
A lo largo de esta unidad, entenderemos por proceso el conjunto de elementos utilizados para la
realización del producto que tengamos sometido a estudio.

Este conjunto contendrá todos los factores, como pueden ser:

 Materias elaboradas en procesos anteriores.


 Materias primas.
 Instalaciones.
 Herramientas.
 Máquinas.
 Métodos.
 Hombres.
 Entorno.
 Útiles.
No olvidemos que, a pesar de que el concepto de proceso parece en principio unido solamente al
entorno de la fabricación, las técnicas que veremos son también perfectamente válidas para servicios,
organización, etc.

1.1.1. Concepto de control de un proceso


El iniciador del estudio del control de procesos fue el Dr. W.A. Shewart, de los laboratorios de la Bell
Telephone, que nos legó la siguiente definición de control de proceso:
“Un fenómeno está bajo control cuando, basándonos en la experiencia del pasado de dicho fenómeno,
podemos predecir entre qué límites se espera que varíe en el futuro.”

Dr. Walter A. Shewhart, a


statistician at Western Electric

Estadística Aplicada 2 7
Universidad Peruana de Ciencias Aplicadas

Variables de proceso

Proceso 1 Proceso 2 Proceso 3

Entradas: Resultado
 Materiales
 Piezas
 Componentes
 Subconjuntos

Variables ambientales perturbaciones

(Representación de un proceso)

Ejemplo de campo de aplicación

Empresa Insumos Proceso Producto Final


Forma de registro, horas Registro del cliente en el
Cliente registrado
hombre, etc hotel
Hotelera
Decisión de castigar
Reporte de retardos del Evaluación de la información
o no al empleado
empleado para decidir que hacer
Cortado de una pieza de
Madera, equipo de
Carpintería madera a un tamaño de Pieza cortada
cortado
100.5 centímetros
Pieza de metal, planos,
Perforado de una pieza
Metal métodos de trabajo, Piezas perforadas
metálica
especificaciones, etc.
Forma de contratación de Llenado de la forma de
Contrato del servicio
Teléfonos servicio, personal, equipo contratación del servicio
telefónico
computo, etc. telefónico
Fábrica Llantas, rayos, tubos,
Ensamblado de una bicicleta Bicicleta ensamblada
Bicicletera rines, cadenas, etc.

Estadística Aplicada 2 8
Universidad Peruana de Ciencias Aplicadas

1.1.2. Variabilidad de un proceso


Sabemos que la fabricación de dos elementos exactamente iguales es prácticamente imposible y,
por lo tanto, en principio (ya veremos cuáles son las condiciones), aceptaremos la posible
variabilidad en los mismos.

La experiencia nos dice que, si esta variabilidad está acotada, es decir, se encuentra comprendida
entre unos valores fijos, podremos considerar “iguales” elementos que no lo son.

Podemos preguntarnos: ¿cuáles son las causas de ésta variabilidad? o ¿por qué varían los procesos?

Según lo que definimos el término proceso, podemos atribuirla a la variabilidad correspondiente a


cada uno de los cuatro grupos fundamentales que participan en el proceso:
 Hombres.
 Materiales.
 Máquinas.
 Entorno.

1.1.2.1. Causas comunes


La variabilidad dentro de cada grupo puede estar admitida:
 Maquinaria con distinto grado de precisión, ya sea por distinta calidad o por desajustes
internos dentro de lo tolerado.
 Distintas condiciones ambientales: temperatura, presión, etc
 Características del material dentro de las tolerancias admitidas por las especificaciones.
 Diferente grado de entrenamiento del operario.
La combinación aleatoria de las variabilidades inherentes a cada grupo nos dará la variabilidad del
proceso. Según esto, a pesar de que no exista una causa anómala que afecte al proceso, la acción de
repetir el proceso en igualdad de condiciones no significa que dé lugar a elementos iguales, siendo lo
más probable es que tengamos elementos diferentes.

En este caso diremos que esta variabilidad es debida a causas comunes también llamadas aleatorias.

1.1.2.2. Causas asignables


Sin embargo, aparte de las causas comunes, existen otras causas específicas que producen efectos
definidos y que, por lo tanto, se pueden investigar y analizar.
Ejemplos de estas causas pueden ser:
 Desgastes excesivos de máquinas y herramientas.
 Fallos humanos.
 Materiales fuera de especificación.
 La fuga de aire o de aceite en una manguera.
 Afloje la banda de un motor.

Estadística Aplicada 2 9
Universidad Peruana de Ciencias Aplicadas

 El que haya un cambio de proveedor y la materia prima de éste, sea de una calidad
inferior a la que normalmente se emplea.
A este tipo de causas se les llama causas especiales o asignables, pues son variaciones producidas
por algo especial que no forma parte del sistema.

En cualquier proceso en funcionamiento, su variabilidad es debida a la suma de los efectos de ambas


causas, comunes y asignables. El objetivo principal del estudio de un proceso es el poder separar las
causas comunes de las asignables, eliminando estas últimas y logrando que la variabilidad sea debida
sólo a causas aleatorias. En estas condiciones diremos que “el proceso está en estado de control
estadístico”.

La variabilidad debida a estas causas es perfectamente cuantificable, bastando con observar el proceso
durante un período de tiempo tal que garantice que todas las causas comunes han actuado. A partir de
este momento su variabilidad es predecible, puesto que a lo largo del tiempo su variabilidad tendrá
un máximo y un mínimo que coincidirá con lo observado en el período inicial.

Cuando existe una relación demostrable entre una situación de proceso fuera de control y una causa
especial de variación, a esta última se la denomina causa asignable.

Estadística Aplicada 2 10
Universidad Peruana de Ciencias Aplicadas

1.1.2.3. Diferencia entre causas comunes y causas asignables


Las características más sobresalientes que definen las causas comunes y las causas asignables se
resumen en la siguiente tabla:

CAUSAS COMUNES CAUSAS ASIGNABLES

 Muchas causas individuales.  Una sola causa individual.


 Dan lugar a pequeñas variaciones.  Dan lugar a importantes variaciones.
 Producen variabilidad constante y  Producen variabilidad no constante e
predecible. impredecible.
 No es económica su eliminación y de  Sus efectos desaparecen al eliminar la
difícil reducción sus efectos. causa.
 Cuando sólo existen causas comunes, el  El proceso no funciona de forma óptima
funcionamiento es óptimo. cuando actúan.
 En estas condiciones, el proceso es  Cuando están actuando no se pueden
estable, pudiendo utilizar técnicas de hacer predicciones del funcionamiento
muestreo para hacer predicciones. del proceso.

1.1.3. Capacidad de proceso


Definimos el Intervalo de Tolerancia para una determinada característica de calidad X como su
conjunto de valores admisibles, de manera que un producto fabricado fuera de esas tolerancias se
considerará un producto sin la calidad requerida, es decir, defectuoso.

Suponiendo que el proceso se encuentra bajo control y que la variable aleatoria X sigue una
distribución Normal de probabilidad N (0 , 1) es fácil comprobar cómo el 99,73% de las unidades
fabricadas se encontrarán en un intervalo comprendida entre µ − 3𝜎 𝑦 µ +, por lo que la amplitud
de dicho intervalo es 6𝜎. A este intervalo se le denomina Capacidad del Proceso

Sin embargo 𝜎 depende del número y variabilidad de las causas comunes del proceso y por lo tanto
es intrínseca a él. Por lo tanto 6𝜎 es la Variabilidad Natural del Proceso o Capacidad del Proceso.

Por definición:
𝑪𝒂𝒑𝒂𝒄𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝒑𝒓𝒐𝒄𝒆𝒔𝒐 = 𝟔𝝈

Es esencial resaltar que la variabilidad natural del proceso, 6𝜎, es intrínseca a él e independiente de
las tolerancias que se asignen. Por lo tanto si 6𝜎 es menor que el intervalo de las tolerancias a cumplir,
necesariamente algunos productos fabricados estarán fuera de tolerancia y serán no conformes. Si no
se tiene en cuenta este hecho y se pretende corregir a base de reajustar el proceso, es decir modificar
el centrado, lo único que se consigue es aumentar la variabilidad del mismo.

Estadística Aplicada 2 11
Universidad Peruana de Ciencias Aplicadas

1.1.3.1. Indice Cp

Í𝒏𝒅𝒊𝒄𝒆 𝑪𝒑
La Capacidad del proceso es una propiedad medible de un proceso que puede calcularse por medio
del índice de capacidad del proceso (ej. Cpk o Cpm)

Con objeto de comparar la capacidad del proceso y la amplitud de las tolerancias a Satisfacer, se
define el índice de capacidad de proceso (𝑐𝑃 ):

𝐿𝑆𝑇 − 𝐿𝐼𝑇
𝑐𝑃 =
6𝜎

Donde LST= Límite superior de la tolerancia

LIT= Límite inferior de la tolerancia

Si se pretende que la producción esté dentro

de tolerancia, es necesario que 𝐶𝑝 > 1.

Estadística Aplicada 2 12
Universidad Peruana de Ciencias Aplicadas

1.1.3.2. Indice Cpk

Í𝒏𝒅𝒊𝒄𝒆 𝑪𝑷𝑲
Si el proceso no estuviese centrado, el valor de este índice falsearía el grado de cobertura con
respecto a fabricar piezas fuera de tolerancias. En estos casos es más significativo el índice 𝑪𝑷𝑲 que
se define:

𝐿𝑆𝑇 − 𝜇 𝜇 − 𝐿𝐼𝑇
𝐶𝑃𝐾 = 𝑚𝑖𝑛 { , }
3𝜎 3𝜎

De este modo se define un proceso capaz como aquel que 𝐶𝑃𝐾 > 1.

Estadística Aplicada 2 13
Universidad Peruana de Ciencias Aplicadas

1.1.4. GRÁFICOS DE CONTROL POR VARIABLES:

1.1.4.1. GRÁFICOS DE SHEWHART


Supongamos que un proceso se encuentra bajo control estadístico y por lo tanto su distribución es N
(µ, σ). Si se extrae una muestra de tamaño n y su media muestral se encuentra comprendida fuera
𝜎 𝜎
del intervalo comprendido entre µ − 3 𝑛 𝑦 µ + 3 𝑛 llamados límites de control inferior y
√ √
superior respectivamente), podemos justificar este hecho de dos modos distintos:

a) De acuerdo con el modelo teórico supuesto sabemos que el 0,27% de las muestras (es decir 27
muestras de cada 10.000) tendrán una media fuera de este intervalo y la muestra que hemos extraído
es una de ellas.

b) Es muy improbable obtener una muestra de estas características si realmente el modelo es el


supuesto, de modo que parece más verosímil pensar que el proceso no está bajo control estadístico y
por lo tanto la hipótesis de que se distribuye en ese momento según una 𝑁(µ, 𝜎) es falsa.

Por el contrario, si la media muestral está comprendida dentro del intervalo anterior, no tendremos
ninguna razón de peso para pensar que el proceso no se encuentra bajo control estadístico (el resultado
es coherente con el modelo supuesto). Lo anterior no quiere decir que podamos estar absolutamente
seguros de que el proceso se encuentre bajo control estadístico, sino que no tenemos la evidencia de
que no lo está.
Estadística Aplicada 2 14
Universidad Peruana de Ciencias Aplicadas

El Control Estadístico de Procesos se basa en repetir esta toma de muestras de manera periódica,
calcular la media muestral y representar un gráfico de una manera similar a la, de modo que si la
media cae fuera de los límites de control existe la evidencia de que hay una causa asignable presente
(proceso fuera de control). A este gráfico se le denomina Gráfico de Medias o simplemente Gráfico
X

Media de las muestras

Estadística Aplicada 2 15
Universidad Peruana de Ciencias Aplicadas

1.1.5. GRÁFICOS DE CONTROL POR ATRIBUTOS:


Las ideas sobre las que se fundamenta el Control Estadístico de Procesos se pueden extender al
control de características de calidad de tipo atributo o discreto. Se entiende que las primeras se rigen
por la distribución binomial y las segundas por la de Poisson.

Dentro de este grupo existen dos gráficos fundamentales:

a) Gráfico np

Sirve para controlar el número de unidades defectuosas en la muestra. Los límites de control son:

Donde p es la fracción defectuosa media.

Dado que lo normal es que p sea un valor muy bajo, los tamaños de muestra requeridos son muy
altos. Por esta razón se aplican frecuentemente al análisis de datos de inspecciones 100%. Si el
valor calculado para el LCI, se toma 0.

b) Gráfico p

Sirve para controlar la fracción defectuosa. Los límites de control son:

Si el valor calculado para el LCI, se toma 0.

Estadística Aplicada 2 16
Universidad Peruana de Ciencias Aplicadas

EJEMPLO:

Un fabricante de productos electrónicos dispone de un proceso de soldadura de componentes por


ola de estaño. La tabla siguiente recoge los resultados de la producción de los últimos 30 días.
Analice este proceso.

Estadística Aplicada 2 17
Universidad Peruana de Ciencias Aplicadas

SOLUCIÓN

Disponiendo los cálculos en forma tabular para un gráfico tipo “p”.

Observar que los límites de control no son constantes.

Estadística Aplicada 2 18
Universidad Peruana de Ciencias Aplicadas

1.1.6. GRÁFICOS DE CONTROL PARA EL NÚMERO DE DEFECTOS


Llamado también Carta c (número de defectos), el objetivo de la carta c es analizar la variabilidad
del número de defectos por subgrupo, cuando el tamaño de éste se mantiene constante. En esta
carta se grafica 𝑐𝑖 que es igual al número de defectos o eventos en el 𝑖 − é𝑠𝑖𝑚𝑜 subgrupo (muestra).
Los límites de control se obtienen suponiendo que el estadístico 𝑐𝑖 sigue una distribución de Poisson;
por lo tanto, las estimaciones de la media y la desviación estándar de este estadístico están dadas por:

𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑒𝑓𝑒𝑐𝑡𝑜𝑠
𝜇𝑐𝑖 = 𝑐̅ = 𝑦 𝜎𝑐𝑖 = 𝑐̅
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑠𝑢𝑏𝑔𝑟𝑢𝑝𝑜𝑠

por ello, los límites de control de la carta c se obtienen con las expresiones

𝐿𝐶𝑆 = 𝑐̅ + 3√𝑐̅

𝐿í𝑛𝑒𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 = 𝑐̅

𝐿𝐶𝐼 = 𝑐̅ − 3√𝑐̅

EJEMPLO

En una fábrica de muebles se inspecciona a detalle el acabado de las mesas cuando salen del
departamento de laca. La cantidad de defectos que son encontrados en cada mesa son registrados con
el fin de conocer y mejorar el proceso. En la tabla siguiente se muestran los defectos encontrados en
las últimas 30 mesas. Es claro que estamos ante una variable que debe ser analizada con la carta c,
debido a que una misma mesa puede tener varios defectos de diferente tipo; además, los defectos son
relativamente menores, y aunque influyen en la calidad final del producto, no causan que la mesa sea
rechazada.

Estadística Aplicada 2 19
Universidad Peruana de Ciencias Aplicadas

MESA DEFECTOS ci MESA DEFECTOS ci


1 7 16 12
2 5 17 8
3 10 18 10
4 2 19 4
5 6 20 7
6 5 21 3
7 4 22 10
8 9 23 6
9 7 24 6
10 5 25 7
11 6 26 4
12 7 27 5
13 8 28 6
14 4 29 8
15 5 30 5

De la se obtiene que el número promedio de defectos por unidad (mesa) es:

191
𝑐̅ = = 6.4
30

Por lo tanto, los límites de control de la carta c están dados por:

𝐿𝐶𝑆 = 6.4 + 3√6.4 = 14

𝐿í𝑛𝑒𝑎 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 = 6.4

𝐿𝐶𝐼 = 6.4 − 3√6.4 = −1.2

Observe que el LCI resulta negativo, pero como no puede haber cantidades negativas de defectos,
entonces el límite inferior se iguala a cero. La carta obtenida se muestra en la figura siguiente, a partir
de la cual se aprecia que el proceso de producción de mesas estuvo funcionando de manera estable,
ya que no hay puntos fuera de los límites ni otro patrón no aleatorio. Por lo anterior, los límites de
control a usar en el futuro son esos mismos.

Estadística Aplicada 2 20
Universidad Peruana de Ciencias Aplicadas

Carta de control para defectos en las mesas.

Interpretación de los límites de control de la carta C

Los límites de una carta C reflejan la variación esperada para el número de defectos por
subgrupo. En el caso del ejemplo se espera que, de manera ordinaria, el número de defectos por mesa
varíe entre 0 y 14.0 con un promedio de 6.4. Estos límites no representan ni deben representar dónde
se quiere que estén los datos, más bien representan la realidad.

Como las cantidades de defectos son relativamente altas, se requiere un plan de acción que
reduzca esta problemática y una forma natural de empezar sería estratificar el problema, es decir,
localizar el tipo de defecto con mayor frecuencia y el área donde se presenta. En otras palabras, la
acción de mejora no debe partir de reaccionar ante lo que se observa en una mesa, ya que no hay
problemas especiales.

Toda la problemática es común a todas las mesas; por lo tanto, la acción parte de analizar todo
el proceso enfocándose en aquellos problemas con mayor recurrencia. La carta de control para los
defectos en las mesas muestra un proceso estable (en control estadístico), pero quizá se considera que
genera muchos defectos: 6.4 en promedio por mesa. Si éste fuera el caso, entonces se tendría un
proceso estable pero malo, o en otras palabras, un proceso estable e incapaz.

Estadística Aplicada 2 21
Universidad Peruana de Ciencias Aplicadas

Una ventaja que ofrece la carta es que no sólo ayudará a detectar y revenir situaciones
anormales en la producción de mesas, sino que además provoca en la administración una mayor
conciencia de la magnitud e importancia del problema, además de que permite evaluar el impacto de
las acciones de mejora.

PREGUNTAS Y EJERCICIOS

1. ¿Qué tipo de variables se analizan con las cartas de atributos y cuáles con las cartas para variables?

2. De manera general, ¿cómo se obtienen los límites de control en las cartas de control de Shewhart?

Ejemplifique con la carta p.

Cartas p y np

3. ¿Qué tipo de variables se analizan mediante una carta p o np?

4. ¿Cuándo se prefiere la carta p sobre la np?

5. En una empresa del ramo metalmecánico se fabrican válvulas. Después del proceso de fundición
se realiza una inspección y las piezas que no cumplen con ciertas características son rechazadas. Las
razones del rechazo son diversas: piezas incompletas, porosas, mal formadas, etc. Para evaluar la
variabilidad y la magnitud de la proporción de piezas defectuosas en el proceso de fundición se decide
implementar una carta p. El proceso de fundición se hace por lotes. En la tabla siguiente se muestran
los datos obtenidos durante una semana para cierto tipo de válvulas.

Aunque regularmente el tamaño de lote es fijo, n = 300, en ocasiones, por diferentes motivos, en
algunos lotes se hacen unas cuantas piezas de más o de menos, como se aprecia en la tabla siguiente.

Estadística Aplicada 2 22
Universidad Peruana de Ciencias Aplicadas

6. En el caso del ejercicio 5:


a) Obtenga una carta p con límites de control variables.
b) ¿Qué diferencias observa con respecto a la carta obtenida en el ejercicio anterior?
7. En el caso del ejercicio 5:
a) Suponga que todos los lotes tienen el mismo tamaño (el promedio), calcule los límites de control
para una carta np e interprételos.
b) Grafique la correspondiente carta np y analícela.
c) ¿El proceso es estable?
d) ¿Observa alguna diferencia importante entre la carta p y la np?
e) ¿Cuál carta p o la np sería la más conveniente en este caso? Argumente.

Estadística Aplicada 2 23
Universidad Peruana de Ciencias Aplicadas

1.2|APLICACIONES
1.2.1. GRÁFICA C
La siguiente tabla contiene el número de defectos observados en 30 lotes de diez unidades cada uno.
Los defectos están distribuidos de cualquier manera dentro del lote medido:
1 2 3 4 5 6 7 8 9 10
5 8 16 3 1 6 12 5 4 0

11 12 13 14 15 16 17 18 19 20
3 5 4 11 2 11 4 2 3 1

21 22 23 24 25 26 27 28 29 30
2 2 1 16 5 3 9 5 4 5

Como se trata de seguir el número total de defectos en lotes de igual tamaño, la gráfica de control
adecuada es la Gráfica “C”.
A continuación sigamos los siguientes pasos:

i. Se han tomado 30 muestras (k=30) de tamaño n=10 constante a intervalos de tiempos iguales.
ii. Se procede a calcular el promedio y la desviación estándar del número de defectos en las
muestras:

Estadística Aplicada 2 24
Universidad Peruana de Ciencias Aplicadas

iii. Calculamos los límites de control de la gráfica C, mediante las siguientes expresiones:

Reemplazando se tiene:
𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 5.2667 + 3√3.2949
= 5.2667 + 5.2667
=12.1514

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 5.2667

𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 5.2667 − 3√3.2949


= 5.2667 − 5.2667
=0
iv. Llevar los valores del número de defectuosos de las muestras obtenidas a la gráfica y
comprobar que no hay ningún tipo de comportamiento anómalo en ella.

En el gráfico se observa que dos puntos (muestra No 3 y muestra No 4) caen fuera de los límites de
control.
Estadística Aplicada 2 25
Universidad Peruana de Ciencias Aplicadas

v. Luego de buscar las causas asignables y actuar sobre ellas, se reconstruirá el gráfico
eliminando estas dos muestras y se reinicia con el paso 2.
Lo que se muestra en rojo debe ser eliminado.

1 2 3 4 5 6 7 8 9 10
5 8 16 3 1 6 12 5 4 0

11 12 13 14 15 16 17 18 19 20
3 5 4 11 2 11 4 2 3 1

21 22 23 24 25 26 27 28 29 30
2 2 1 16 5 3 9 5 4 5

vi. Se procede a calcular el promedio del número de defectos en las muestras y la desviación
estándar del número promedio de defectos en las muestras:

Calculamos los límites de control de la gráfica C


𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 4.5 + 3√2.1213
= 4.5 + 4.3694
=10.8639

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 4.5

𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 4.5 − 3√2.1213


= 4.5 − 4.3694
=0.1306

vii. Llevar los valores del número de defectuosos de las muestras, obtenidas a la gráfica y
comprobar que no hay ningún tipo de comportamiento anómalo en ella.

Estadística Aplicada 2 26
Universidad Peruana de Ciencias Aplicadas

En el gráfico se observa que ahora son tres puntos (muestras No 6, No 13, No 15) caen fuera de los
límites de control.

viii. Si continuamos eliminando las muestras que salen de los límites de control, veremos que luego
aparecen otros puntos fuera de esos nuevos límites de control, esto nos lleva a la conclusión que
se tiene que revisar todo el proceso desde un inicio y ver que causas asignables están
provocando que siempre se encuentren puntos fuera de los límites de control.
ix. En caso ya no aparezca puntos fuera de los límites de control podemos concluir que el proceso
está controlado.

Estadística Aplicada 2 27
Universidad Peruana de Ciencias Aplicadas

1.2.2. GRÁFICA U
La siguiente tabla contiene el número de defectos encontrados en las muestras de 24 lotes
consecutivos de circuitos electrónicos.

Se trata de seguir el número de defectos por unidad en lotes de distinto tamaño, la gráfica de control
adecuada es la gráfica U.

A continuación sigamos los siguientes pasos:

i. Se calcula el número de defectos por unidad de producción (𝑈𝑖 ) para cada una de los lotes
de distinto tamaño.

Estadística Aplicada 2 28
Universidad Peruana de Ciencias Aplicadas

ii. Se procede a calcular el promedio del número de defectos por unidad de producción y la
desviación estándar del número de defectos por unidad de producción:

Estadística Aplicada 2 29
Universidad Peruana de Ciencias Aplicadas

iii. Calculamos los límites de control de la gráfica U, mediante las siguientes expresiones:

̅
𝒖
LÍMITE SUPERIOR ̅ + 𝟑√
𝒖
𝒏𝒊
GRÁFICA U LÍMITE CENTRAL ̅
𝒖
̅
𝒖
LÍMITE INFERIOR ̅ − 𝟑√
𝒖
𝒏𝒊

Reemplazando para la primera unidad de producción 𝑘 = 1

1.046
𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 1.046 + 3√
20
= 1.046 + 0.6861
=1.7321

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 1.046

1.046
𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 1.046 − 3√
20
= 1.046 − 0.6861
=0.3599
De la misma manera calculamos para las siguientes unidades de producción hasta la última unidad
(k=24)

1.046
𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 1.046 + 3√
15
= 1.046 + 0.7923
=1.8383

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 1.046

1.046
𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 1.046 − 3√
15
= 1.046 − 0.7923
=0.2537

Nótese que los límites de control para cada muestra son diferentes, debido al tamaño de muestra
variable.

Estadística Aplicada 2 30
Universidad Peruana de Ciencias Aplicadas

iv. Llevar los valores del número de defectos por unidad producción a la gráfica y
comprobar que no hay ningún tipo de comportamiento anómalo en ella.
v. En el gráfico se observa que ahora son tres puntos (muestras No 6, No 13, No 15) caen
fuera de los límites de control.

En el gráfico se puede observar que dos puntos (unidades de producción No 10 y No 21) caen fuera
de los límites de control.

vi. Luego de buscar las causas asignables y actuar sobre ellas, se reconstruirá el grafico
eliminando estas dos muestras y se reinicia en el paso 2.

vii. Se procede a calcular el promedio del número de defectos por unidad de producción y la
desviación estándar del número de defectos por unidad de producción:

Estadística Aplicada 2 31
Universidad Peruana de Ciencias Aplicadas

viii. Reemplazando para la primera unidad de producción k=1


1.049
𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 1.049 + 3√
20
= 1.049 + 0.687
=1.736

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 1.049

1.049
𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 1.049 − 3√
20
= 1.049 − 0.687
=0.362

ix. De la misma manera calculamos para las siguientes unidades de producción hasta la
última unidad (𝑘 = 22)
1.049
𝐿í𝑚𝑖𝑡𝑒 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 1.049 + 3√
15
= 1.049 + 0.7932
=1.8422

𝐿í𝑚𝑖𝑡𝑒 𝐶𝑒𝑛𝑡𝑟𝑎𝑙 = 1.049

1.049
𝐿í𝑚𝑖𝑡𝑒 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 1.049 − 3√
15
= 1.049 − 0.7932
=0.2558

Estadística Aplicada 2 32
Universidad Peruana de Ciencias Aplicadas

x. Llevar los valores del número de defectos por unidad de producción a la gráfica y
comprobar que no hay ningún tipo de comportamiento anómalo en ella.

Finalmente establecer un plan de control para el futuro con el objetivo de realizar un seguimiento
del proceso.

EJERCICIO RESUELTO CON MINITAB

Gráfico del número de no conformidades por unidad (U)


Un fabricante de computadoras personales desea establecer una carta de control para las
disconformidades por unidad en la línea de ensamblaje final. El tamaño de la muestra se selecciona
de 5 computadoras. En la siguiente tabla se muestran los datos del número de disconformidades en
20 muestras de tamaño 5 cada una. Realizar el gráfico de control para disconformidades por unidad.

Número de Tamaño de la Número de Número promedio de


muestra muestra disconformidades disconformidades
1 5 10 2.0
2 5 12 2.4
3 5 8 1.6
4 5 14 2.8
5 5 10 2.0
6 5 16 3.2
7 5 11 2.2
8 5 7 1.4
9 5 10 2.0
10 5 15 3.0
11 5 9 1.8
12 5 5 1.0
13 5 7 1.4
14 5 11 2.2
15 5 12 2.4
16 5 6 1.2
17 5 8 1.6
18 5 10 2.0
19 5 7 1.4
20 5 5 1.0

Estadística Aplicada 2 33
Universidad Peruana de Ciencias Aplicadas

Paso 1: Pegar los datos en el Minitab utilizando 2 columnas, una para el tamaño de la muestra y la
otra para la cantidad de disconformidades.
Paso 2: Secuencia Estadísticas >> Gráficas de control >>Gráficas de atributos >> U.

Estadística Aplicada 2 34
Universidad Peruana de Ciencias Aplicadas

Paso 3: Pasar la columna en la que se encuentra la cantidad de disconformidades por muestra al


recuadro blanco de Variables y para este problema debido a que los tamaños de muestras pueden ser
variables capturar la columna en la que se encuentran estas en el espacio de Tamaños de los
subgrupos.

Paso 4: Entrar en la pestaña Opciones de Gráfica U

Estadística Aplicada 2 35
Universidad Peruana de Ciencias Aplicadas

Paso 5: Aceptar ---->> Aceptar

Interpretación:

En el gráfico se puede observar que ningún punto sale de los límites de control de las gráfica, lo que
evidencia que el proceso está bajo control.

Estadística Aplicada 2 36
Universidad Peruana de Ciencias Aplicadas

Unidad 2: Prueba de Hipótesis

2. Prueba de hipótesis
2.1 Conceptos generales
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la suposición
sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (H o).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a


favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra
estimación inicial del parámetro poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente
que los datos de la muestra son insuficientes para inducir un rechazo de la hipótesis nula.

Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la


información muestral. La hipótesis alternativa se especifica como opción posible si se rechaza
la nula.

Tipos de errores

Información muestral
Aceptar H0 Rechazar H0

La H0 es cierta No hay error Error I


realidad H0 es falsa Error II No hay error

Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

P(error I) = P(rechazar Ho / Ho es verdadera) = 

El valor  es fijado por la persona que realiza la investigación (por lo general varía entre 1%
-10%)

Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.

P(error II) = P(no rechazar Ho / Ho es falsa) = 

Estadística Aplicada2 37
Universidad Peruana de Ciencias Aplicadas

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

2.1.1 Potencia de prueba o Poder de Prueba

Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.

Potencia de prueba  1  

Como el valor de  depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno de
ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como CURVA
DE POTENCIA.

La potencia de la Prueba es la probabilidad de detectar efectos estadísticamente significativos,


esto es, la probabilidad de rechazar la Hipótesis Nula cuando es falsa, que se simboliza 1-beta,
y es igual a la probabilidad de ocurrencia de valores del estadístico en la región de rechazo
bajo el supuesto que H1 (la Hipótesis Alternativa) sea verdadera.
Ejemplo
Supongamos que la probabilidad verdadera de ocurrencia de "cara" es igual a 0.8. Tenemos:

La probabilidad de ocurrencia de los valores de la región de rechazo bajo el supuesto de que


la Hipótesis Alternativa sea verdadera es igual a 0.38 (ver columna verde en la siguiente tabla.
0.38 es igual a la suma de las probabilidades de ocurrencia de 0, 1, 9 o 10 caras)

Estadística Aplicada2 38
Universidad Peruana de Ciencias Aplicadas

En consecuencia, la probabilidad de rechazar H0 bajo el supuesto que H1 sea verdadera es


igual a 0.38. Si la Hipótesis Alternativa p=0.9 fuera verdadera 1-beta sería igual a 0.74.
(puedes comprobarlo clicando en la imagen de la tabla e introduciendo 0.9 en la casilla verde
de p(x). Puedes ver que la potencia de la prueba es mayor a medida que la verdadera
distribución muestral se aleja de la distribución muestral definida en la Hipótesis Nula.

Principales características de la potencia de la prueba


- El valor de la potencia es complementario al de beta (probabilidad de cometer errores de tipo
II), cuanto menor es alfa, mayor es beta, y viceversa.
- Los valores de alfa y 1-beta están relacionados. Cuanto mayor sea alfa, mayor es 1-beta.
- El valor de la potencia depende de la verdadera posición del parámetro, que es desconocida,
pero podemos tomar medidas que generalmente la incrementan:

a) Hacer alfa más grande. Hay que tener en cuenta que esta medida también incrementa la
probabilidad de errores de tipo I (si H0 es verdadera).
b) Otra medida consiste en hacer más grande el tamaño de la muestra. La razón es que
disminuye la desviación típica de la distribución muestral (el Error Típico del estadístico); en
consecuencia los límites de la región de aceptación se acercan y quedan más lejos de la
verdadera distribución del estadístico, lo que incrementa la probabilidad de que el estadístico
de contraste se sitúe en la región de rechazo.

Estadística Aplicada2 39
Universidad Peruana de Ciencias Aplicadas

2.1.2 Curva Característica de Operación


La curva característica de operación representa gráficamente la relación existente entre un
porcentaje de artículos defectuosos de un lote productivo (que por lo general se desconoce) y la
probabilidad de aceptación que se obtiene del mismo luego de aplicar un plan de muestreo.

Cuando la calidad de un lote es "buena" tanto al productor como al consumidor les interesa aceptar
el lote con alta probabilidad. Por el contrario cuando la calidad de un lotes es "mala"
especialmente al consumidor le interesa rechazar el lote la mayoría de las veces.

La probabilidad de aceptar un lote con 0 defectos es naturalmente un 100%. Alternativamente si


el 100% de las unidades son defectuosas la probabilidad de aceptación del lote es 0%. Por lo tanto
una curva característica de operación siempre pasa por los puntos (0,1) y (100,0). Para porcentajes
intermedios de artículos defectuosos se debe calcular la probabilidad de aceptación del lote según
el plan de muestreo que se este aplicando.

Ejemplo de Curva Característica de Operación


Consideremos un plan de muestreo que está definido por N=1.000 y (n,c)=(80,4). Se requiere
trazar la curva característica de operación para distintos valores de p (porcentaje de artículos
defectuosos). Con el apoyo de una hoja de cálculo trazar la curva de operación es sencillo como
se muestra en la siguiente imagen:

Estadística Aplicada2 40
Universidad Peruana de Ciencias Aplicadas

Notar que en el ejemplo se cumplen las condiciones para utilizar la Distribución de Poisson. Si
tomamos un porcentaje de defectuosos a la entrada de un 5% (p=5%) se puede adicionalmente
hacer uso de las tablas de probabilidades para estimar la probabilidad de aceptación. El parámetro
de entrada para esta distribución es n*p=80*0,05=4. Luego buscamos en la tabla el cruce de dicho
valor para c=4. Se concluye que la probabilidad de aceptación del lote es de un 62,9%.

Adicionalmente es interesante analizar lo siguiente. En el ejemplo, si el porcentaje de artículos


defectuosos a la entrada es un 10%, la probabilidad de aceptación del lote es sólo de un 10%. Si esto
se considera "mala calidad", este valor representa el "riesgo del consumidor". En forma similar si el
porcentaje de artículos defectuosos a la entrada es un 2%, la probabilidad de aceptación del lote es de
un 97,6%. Si esto se considera "buena calidad" el diferencial de un 2,4% (100% - 97,6%) representa
la probabilidad de rechazar este lote de "buena calidad". Esto es el "riesgo del productor".

Estadística Aplicada2 41
Universidad Peruana de Ciencias Aplicadas

Pasos a seguir en una Prueba de Hipótesis

 Paso 1: Planteo de hipótesis.


 Paso 2: Nivel de significación.
 Paso 3: Prueba estadística.
 Paso 4: Suposiciones.
 Paso 5: Regiones críticas. Criterios de decisión.
 Paso 6: Realización de la prueba.
 Paso 7: Resultados y conclusiones.

Procedimiento general

Sea θ el parámetro que representa: (  ,  2 , p, 1   2 , p1  p2 ,  12 /  22 )

1. Planteo de las hipótesis.


H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0
    
H1 :    0 H1 :    0 H1 :    0 H1 :    0 H1 :    0

2. Fijar el nivel de significación


3. Pruebas estadísticas

Distribución simétrica (Z, t)


E
 Distribución asimétrica positiva (  , F )
2

4. Supuestos
a) Supuestos para: (,  2 , 1   2 ,  21 /  22 ) 
 Poblacion(es) normalmente distribuida(s).
 Muestra(s) tomada(s) al azar.

b) Supuestos para: p, p1  p 2
 Muestra(s) tomada(s) al azar.
 Muestra(s) grande(s)

5. Regiones críticas

Estadística Aplicada2 42
Universidad Peruana de Ciencias Aplicadas

Prueba Unilateral de Extremo Inferior

H1:  < o

Prueba Unilateral de Extremo Superior

H1:  > o

Prueba Bilateral

H1:  ≠ o

6. Calculo del Estadístico de prueba

7. Resultados y conclusiones.

2.2 Pruebas de hipótesis para un parámetro


2.2.1 Prueba de hipótesis para una media poblacional

Ejemplo 1: Varianza Poblacional Conocida: Usar Z


Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de que
  800 horas contra la alternativa   800 horas si una muestra aleatoria de 28 focos tiene
una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.

Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)

1. Planteo de hipótesis.

Estadística Aplicada2 43
Universidad Peruana de Ciencias Aplicadas

H 0 :   800

H 1 :   800

2. Nivel de significación.
  0.05

3. Prueba estadística
_
x 
Zc  ~ N(0.1)
/ n

4. Supuestos.
 Población normal.
 Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

784  800
Zc   2.12
40 / 28

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo promedio
de duración de los focos es diferente de 800 horas.

Ejemplo 2: Varianza Poblacional Desconocida: Usar t


Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas. Pruebe la hipótesis de que   800 horas contra la alternativa
  800 horas si una muestra aleatoria de 28 focos tiene una duración promedio de 784
horas y desviación estándar de 40 horas. Utilice un nivel de significancia de 0,05.

Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , σ2)

Estadística Aplicada2 44
Universidad Peruana de Ciencias Aplicadas

1. Planteo de hipótesis.
H 0 :   800

H 1 :   800

2. Nivel de significación.
  0.05

3. Prueba estadística
_
x 
tc  ~ t (n  1) gl
S/ n

4. Supuestos.
 Población normal.
 Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.05  tc  2.05 No se rechaza H0
Si Zc < -2.05 o Zc > 2.05 Se rechaza H0
0.95

-2.05 2.05

6. Cálculos

784  800
Zc   2.12
40 / 28

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo promedio
de duración de los focos es diferente de 800 horas.

Ejemplo 3: Varianza Poblacional Desconocida: t


Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas. Pruebe la hipótesis de que   800 horas contra la
alternativa   800 horas si una muestra aleatoria de 28 focos tiene una duración promedio
de 784 horas y desviación estándar de 40 horas. Utilice un nivel de significancia de 0,05.

Estadística Aplicada2 45
Universidad Peruana de Ciencias Aplicadas

Solución:

2.2.2 Prueba de hipótesis para una varianza poblacional


Ejemplo.
Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables
producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el proceso
de producción de estos cables, la resistencia al rompimiento de una muestra de 8 cables mostró
una desviación estándar de 300 lb. Investigue la significancia del aumento aparente en la
variación usando un nivel de significancia de 0,05. Asuma normalidad.

Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N(  , 2402)

1. Planteo de hipótesis.
H 0 :  2  240 2  H 0 :  2  2402
 ó 
H 1 :  2  240 2  H 1 :  2  2402

2. Nivel de significación.
  0.05

3. Prueba estadística
(n  1)s 2
c2  ~ (2n 1)
 2

Estadística Aplicada2 46
Universidad Peruana de Ciencias Aplicadas

4. Supuestos.
 Población normal.
 Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios

Si  c2  14.07 No se rechaza H0
Si  c2  14.07 Se rechaza H0
0.0
0.95 5

6. Cálculos
(8  1)3002
c2   10.938
2402

7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.

2.2.3 Prueba de hipótesis para una proporción poblacional


Cierto fabricante afirma que la proporción de defectuosos de su producción no es del 2%
(afirma que es diferente de 2%), ¿esta afirmación se confirma si al seleccionar 300 artículos
al azar de la producción, 15 de ellos son defectuosos? Use   0.05 .

Solución.
Sea p: Proporción de artículos defectuosos.

1. Planteo de hipótesis.
H 0 : p  0.02

H 1 : p  0.02

2. Nivel de significación.
  0.05

3. Prueba estadística
p̂  p
Zc  ~ N(0.1)
p(1  p)
n

Estadística Aplicada2 47
Universidad Peruana de Ciencias Aplicadas

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

0.05  0.02
Zc   3.712
0.02(1  0.98)
300

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.

Ejercicios

1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fábrica
de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente
considera que la recepción de materiales demora en promedio más de 50 minutos y está situación
sustenta el requerimiento de otro asistente. Setenta casos tomados al azar toman en promedio 47.2
minutos con una desviación estándar de 18.9 minutos. Fije  en 1% y pruebe la hipótesis e indique
si será necesario incorporar al asistente.

Estadística Aplicada2 48
Universidad Peruana de Ciencias Aplicadas

2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la
ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se
tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia
a la ruptura es, respectivamente,

30.1 22.5 28.9 29.8 31.4 27.0 24.3 22.8 22.3 33.4
32.7 27.5 27.7 28.9 30.4 31.2 26.4 29.4 29.1 23.5

Al nivel de significación   0.05 y suponiendo normalidad:


a. ¿se admite la hipótesis del químico?

b. ¿será correcto afirmar que la variabilidad de la resistencia es menor de 4.2 onzas?

Estadísticas descriptivas: Resistencia

Error
estándar
de la
Variable Media media Desv.Est. Varianza
Resistencia 27.965 0.759 3.394 11.518

T de una muestra: Resistencia

Prueba de mu = 29 vs. > 29

Error
estándar
de la 95% Límite
Variable N Media Desv.Est. media inferior T P
Resistencia 20 27.965 3.394 0.759 26.653 -1.36 0.906

Estadística Aplicada2 49
Universidad Peruana de Ciencias Aplicadas

3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia
peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante eléctrico
descarga pequeñas cantidades de su planta. La gerencia de la compañía. en un intento por controlar
la cantidad de PCB en sus descargas. ha dado instrucciones de parar la producción si la cantidad
media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50 especímenes de
agua produjo las siguientes estadísticas: y  3,1 ppm y s  0,5 ppm. ¿Proporcionan tales estadísticas
suficientes pruebas para detener el proceso? Utilice   0,01 .

4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio 5.23 onzas con una
desviación estándar de 0.24 onzas. Pruebe la hipótesis de que   5.5 onzas contra la hipótesis
alternativa,   5.5 onzas en el nivel de significancia de 0.05

Estadística Aplicada2 50
Universidad Peruana de Ciencias Aplicadas

5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se
elige una muestra de 100 artículos de dicho lote. y resulta que 8 son defectuosos. ¿es válida la
afirmación de la empresa? Utilice un nivel de significancia de 0.05.

6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las
especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran
defectuosas. Pruebe la afirmación del fabricante al nivel de significación:
a) 0.01
b) 0.05

Estadística Aplicada2 51
Universidad Peruana de Ciencias Aplicadas

2.3 Pruebas de hipótesis para dos parámetros


2.3.1 PH para dos varianzas poblacionales / PH de Homogeneidad de
Varianzas

Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las
resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en
pie/libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1.2367 0.9778
Varianza 0.0042 0.0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 .  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 .  22 )

1. Planteo de hipótesis.
H 0 : 12   22

H 1 : 12   22

2. Nivel de significación.
  0.05

3. Prueba estadística
S2 1
Fc  12  2 ~ f ( n1 1, n 2 1)
S 2 1
 22

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Estadística Aplicada2 52
Universidad Peruana de Ciencias Aplicadas

Áreas Criterios
0.025 Si 0.226  fc  4.43 No se rechaza H0
0.025
Si fc < 0.226 o fc > 4.43 Se rechaza H0

0.226 4.43

6. Cálculos 7. Conclusiones.
(0.0042) Con 5% de nivel de significación la
Fc   1.75
(0.0024) información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.

Pruebas

Estadística
Método GL1 GL2 de prueba Valor P
Prueba F (normal) 8 8 1.75 0.446

2.3.2 Pruebas de hipótesis para dos medias poblacionales

2.3.2.1 Muestras independientes

Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia promedio
entre dos tipos de material para embalaje. La descripción de las lecturas en pie-libra de la
resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1.2367 0.9778
Desviación Estándar 0.0650 0.0490
Varianza 0.0042 0.0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 .  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 .  22 )

1. Planteo de hipótesis.
Estadística Aplicada2 53
Universidad Peruana de Ciencias Aplicadas

H 0 :  1   2

H 1 :  1   2
2. Nivel de significación.
  0.05

3. Prueba estadística: Para decidir que formula de la prueba t para muestras independientes
se debe usar, antes debe realizarse la prueba de Homogeneidad de Varianzas desarrollado
en el punto 1.3.1.

Como se demostró que las varianzas son Homogéneas usaremos:


_ _

donde: S2p  (n1  1)s1  (n 2  1)s 2


2 2
( x1  x 2 )  (1   2 )
tc  ~ t ( n1  n 2  2)
1 n1  n 2  2
1 
S2p   
 n1 n 2 

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -2.120  tc  2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
0.95

- t(16, 0.025) = 2.120


2.120
6. Cálculos
(1.2367  0.9778)  (0)
tc   9.561
1 1
0.0033  
9 9

7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.

Prueba T de dos muestras e IC


Error
estándar
de la
Muestra N Media Desv.Est. media
1 9 1.2367 0.0650 0.022
2 9 0.9778 0.0490 0.016

Diferencia = mu (1) - mu (2)

Estadística Aplicada2 54
Universidad Peruana de Ciencias Aplicadas

Estimado de la diferencia: 0.2589


IC de 95% para la diferencia: (0.2014, 0.3164)
Prueba T de diferencia = 0 (vs. no =): Valor T = 9.56 Valor P = 0.000 GL = 16
Ambos utilizan Desv.Est. agrupada = 0.0576

Nota: Cuando se trata de varianzas Heterogéneas usaremos:


2
 S12 S22 
  
n n 2 
t
( x1  x 2 )  (1   2 )
~ t ( v)
v   12 2
S12 S22  S12   S22 
    
n   
n1 n 2  1    n2 
n1  1 n 2  1

2.3.2.2 Muestras relacionadas

Ejemplo
El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de
dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las medidas
de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente tabla:

Rodajes
1 2 3 4 5 6
Medida del diámetro antes 90.4 95.5 98.7 115.9 104.0 85.6
Medida del diámetro después 91.7 93.9 97.4 112.8 101.3 84.0

¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga
que la distribución de las diferencias de medidas los diámetros antes y después del programa
es aproximadamente normal.

Solución.
Sean X1: Medida de cintura antes (mm.)
X2: Medida de cintura después (mm.)

1. Planteo de hipótesis.
H 0 : D  2

H 1 : D  2

2. Nivel de significación.
  0.05

3. Prueba estadística
dD
tc  ~ t n 1
Sd / n

4. Supuestos.
 Las diferencias tienen distribución normal.
Estadística Aplicada2 55
Universidad Peruana de Ciencias Aplicadas

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.57  tc  2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95

-2.57 2.57

6. Cálculos

1.5  2
tc   0.794
1.543 / 6

7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el departamento de I&D.

IC y Prueba T pareada: Antes, Después


T pareada para Antes - Despues

Error
estándar
de la
N Media Desv.Est. media
Antes 6 98.35 10.71 4.37
Despues 6 96.85 9.75 3.98
Diferencia 6 1.500 1.543 0.630

IC de 95% para la diferencia media:: (-0.119, 3.119)


Prueba t de diferencia media = 2 (vs. no = 2): Valor T = -0.79 Valor P = 0.463

2.3.3 Prueba de hipótesis para dos proporciones poblacionales

Como parte del programa nacional de prevención. el Instituto de Defensa Civil desea evaluar la
recordación del contenido de dos comerciales de televisión. Se pasó cada uno en un área de
prueba seis veces. durante un período de una semana. La semana siguiente se llevó a cabo una
encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas que
los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los siguientes
resultados:

Comercial Personas que lo Personas que recordaron el


vieron mensaje principal
A(20 seg) 150 63
B(30 seg) 200 60

Estadística Aplicada2 56
Universidad Peruana de Ciencias Aplicadas

Use   0.05 para probar la hipótesis que no hay diferencia en las proporciones que recuerdan
los dos comerciales.
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.

1. Planteo de hipótesis.
H0 : p1  p 2

H1 : p1  p 2

2. Nivel de significación.
  0.05

3. Prueba estadística
p̂1  p̂ 2
Zc  ~ N(0.1)
1 1 
p(1  p)  

 n1 n 2 

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos 7. Conclusiones.
63 60 Con 5% de nivel de significación y a

150 200 partir de la información muestral. hay
Zc   2.328
 1 1  diferencias significativas en las
(0.351)(0.649)   proporciones que recuerdan los dos
 150 200 
comerciales.

Prueba e IC para dos proporciones

Muestra X N Muestra p
1 63 150 0.420000
2 60 200 0.300000

Diferencia = p (1) - p (2)


Estimado de la diferencia: 0.12
IC de 95% para la diferencia: (0.0186488, 0.221351)

Estadística Aplicada2 57
Universidad Peruana de Ciencias Aplicadas

Prueba para la diferencia = 0 vs. no = 0: Z = 2.33 Valor P = 0.020

Prueba exacta de Fisher: Valor P = 0.024

Nota: Cuando la Prueba de Hipótesis para la diferencia de proporciones compara con valores
distintos de cero, la fórmula para la prueba Z a usarse, será:

(p̂1  p̂ 2 )  K
z ~ N(0,1) H 0 : p1  p2  K K0
p̂1q̂1 p̂ 2 q̂ 2

n1 n2

Ejercicios
1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado. tanto en el agua de mar
como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550.000 243.141
Aire 734 571 520 792 773 276 411 500 672 583.222 175.121

¿En el agua de mar en comparación con el aire disminuye el número de ciclos antes del colapso?
Asuma poblaciones normales. Use   0.05 .

Estadística Aplicada2 58
Universidad Peruana de Ciencias Aplicadas

2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un experimento
sobre los alambres muestra los siguientes resultados (en ohmios):
3)
x s
Alambre A 0.136 0.142 0.137 0.135 0.143 0.138 0.1385 0.0033
Alambre B 0.135 0.104 0.118 0.11 0.115 0.132 0.119 0.0122

Los datos recogidos apoyan la afirmación. Asuma poblaciones normales. use 5% de nivel de
significación.

4) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los


siguientes datos acerca de la comparación de residuos de ácido sórbico. en partes por millón. en
jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de
almacenamiento.
Residuos de ácido sórbico en jamón
Rebanada Antes del almacenamiento Después del almacenamiento di
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104

Estadística Aplicada2 59
Universidad Peruana de Ciencias Aplicadas

Se supone que las poblaciones se distribuyen normalmente. ¿Hay suficiente evidencia al nivel de
significancia de 0.05 para decir que la duración del almacenamiento disminuyen las concentraciones
residuales de ácido sórbico?

5) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la
exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos
se colocaron en cámaras de respiración. una de las cuales contenía una alta concentración de CO. Se
realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se colocaron
en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la frecuencia
respiratoria en número de respiraciones por minuto.

Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
A un nivel de significación del 5%. se puede afirmar que un ambiente con CO influye sobre la
capacidad de respiración. Asuma normalidad.

Estadística Aplicada2 60
Universidad Peruana de Ciencias Aplicadas

6) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un
estudio reciente. en la que participaron 15 empresas del sector industrial. reveló que 184 de 616 adultos
trabajan utilizando con regularidad una computadora personal. una microcomputadora. un terminal de
computadora o un procesador de texto en su trabajo.

a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan
con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con   0.03 .

b) Se seleccionó otra muestra de 450 adultos. de 10 empresas del sector salud. en la muestra se
obtuvo que 105 adultos utilizan con regularidad una computadora personal. una
microcomputadora. un terminal de computadora o un procesador de texto en su trabajo ¿Existe
diferencias significativas entre los porcentajes de adultos. de las empresas del sector industrial y
de salud. que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0.05.

Estadística Aplicada2 61
Universidad Peruana de Ciencias Aplicadas

7) Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de


procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se
encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos
de procedimiento nuevo también lo son. al nivel de 5% de significación.
a) ¿mejoró el proceso luego de los cambios?

b) ¿mejoró el proceso luego de los cambios en más del 2%?

Estadística Aplicada2 62
Universidad Peruana de Ciencias Aplicadas

Unidad 3: Uso de la Distribución Ji-Cuadrado

3. Uso de la Distribución Ji-cuadrado

Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:

1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.

La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.

3.1 Prueba de Independencia.


Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.

Variable 2
Columna Columna Columna
...
1 2 c
Fila 1
Fila 2
Variable .
1 .
.
Fila r

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos variables
en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón, existen otros
procedimientos más adecuados, como por ejemplo mediante el cálculo de coeficientes de
correlación (en un capítulo posterior se verá el caso del coeficiente de correlación de Pearson, útil
para analizar asociación lineal entre dos variables cuantitativas).

Estadística Aplicada2 63
Universidad Peruana de Ciencias Aplicadas

Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.

Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 60 29 112
trabajo (calificación Promedio 28 79 60 167
del empleador) Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?

Solución
Las variables que se muestran en la tabla son:

Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,


promedio y muy bueno.
Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del
promedio, promedio o sobre el promedio.

La prueba de independencia compara las frecuencias observadas frente a las frecuencias esperadas
bajo el supuesto de que ambas variables sean independientes.

Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:

(Total de la columna) x (Total de la fila)


Frecuencia esperada 
Total de la tabla

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre paréntesis)

Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
trabajo (calificación Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
del empleador) Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400

Estadística Aplicada2 64
Universidad Peruana de Ciencias Aplicadas

Pasos para realizar la prueba de independencia

1) Formulación de las hipótesis


H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la
calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente de
la calificación en el programa de capacitación.

2) Fijación del nivel de significación: 0,01.

3) Estadístico de prueba

k
(oi  ei ) 2
 c2   ~  2 con v  (r  1)(c  1) gl
i 1 ei

4) Áreas y criterio de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.

0,01


2
0,01 =
13,277
Criterio:
Si  c2 > 13,277 se rechaza H0
Si  c2 ≤ 13,277 no se rechaza H0.

5) Cálculos previos
(23  16,80) 2 (28  25,05) 2 (63  45,98) 2
c 
2
  ...   20,18
16,80 25,05 45,98

6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo no es independiente (está relacionada) de la calificación en el programa
de entrenamiento.

Nota. (Corrección de Yates)


Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o
cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la
corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:

 
2
k o
i  ei  0,5
2

 2 con v  (r  1)(c  1) gl


c
i 1 ei

Estadística Aplicada2 65
Universidad Peruana de Ciencias Aplicadas

Salida del Minitab:

Prueba Chi-cuadrada: Debajo del promedio, Promedio, Sobre el promedio

Los conteos esperados se imprimen debajo de los conteos observados


Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados

Debajo del Sobre el


promedio Promedio promedio Total
1 23 60 29 112
16.80 52.64 42.56
2.288 1.029 4.320

2 28 79 60 167
25.05 78.49 63.46
0.347 0.003 0.189

3 9 49 63 121
18.15 56.87 45.98
4.613 1.089 6.300

Total 60 188 152 400

Chi-cuadrada = 20.179, GL = 4, Valor P = 0.000

3.2 Prueba de Homogeneidad de Proporciones


Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la
misma en r poblaciones (Subpoblaciones).

Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron
los resultados que se muestran en la siguiente tabla:

Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad (proporción) de desintegración es la misma para los tres tipos de materiales.

Pasos para realizar la prueba de homogeneidad de proporciones

1) Formulación de las hipótesis


H0: p1 = p2 = p3, donde pi corresponde a la proporción de desintegración con el material i.
H1: No todas las proporciones son iguales.

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

Estadística Aplicada2 66
Universidad Peruana de Ciencias Aplicadas

k
(oi  ei ) 2
 c2   ~  2 con v  (r  1)(c  1) gl
i 1 ei

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.

0,05

0,05 =
2

5,991
Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0

5) Cálculos previos

Material A Material B Material C Total


Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300

(41  36) 2 (79  84) 2 (78  70) 2


 c2    ...   4,575
36 84 70

6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes
para rechazar que la proporción de desintegración es la misma para los tres tipos de materiales.

Salida Minitab:
Prueba Chi-cuadrada: Material A, Material B, Material C

Los conteos esperados se imprimen debajo de los conteos observados


Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados

Material A Material B Material C Total


1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133

2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914

Total 120 80 100 300

Chi-cuadrada = 4.575, GL = 2, Valor P = 0.101

Estadística Aplicada2 67
Universidad Peruana de Ciencias Aplicadas

3.3 Prueba de Bondad de Ajuste


La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de una
variable. Se compara una distribución de frecuencias observadas con los valores correspondientes
de una distribución esperada o teórica.

Ejemplo 1: Bondad de ajuste a una distribución de Poisson.

Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de un
aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47, 76,
68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con   4,6 . Use   0,05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las probabilidades
correspondientes a cada categoría, en este caso utilizando la función de distribución de
probabilidades Poisson definida por:

e   x
Pr  X  x  
x!
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr  X  13  1  Pr  X  13
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas se
calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en este
caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:

N° mensajes por Frecuencias Probabilidades Frecuencias


k
radio observadas (oi) de Poisson esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0

Estadística Aplicada2 68
Universidad Peruana de Ciencias Aplicadas

Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por lo
tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como se
muestra a continuación.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 18 22,4 0,8643
2 47 42,8 0,4121
3 76 65,2 1,7890
4 68 74,8 0,6182
5 74 69,2 0,3329
6 46 52,8 0,8758
7 39 34,8 0,5069
8 15 20,0 1,2500
9 9 10,0 0,1000
10 8 8,0 0,0000
Total 400 400,0 6,7492

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: La variable aleatoria tiene distribución de Poisson con parámetro   4,6
H1: La variable aleatoria no tiene distribución de Poisson con parámetro   4,6 .

2) Fijación del nivel de significación: 0,05


3) Estadístico de prueba

k
( o i  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de


parámetros estimados (0 en el ejemplo). Si el valor de  no hubiese sido dado, hubiese sido
necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.

Estadística Aplicada2 69
Universidad Peruana de Ciencias Aplicadas

0,0
5

2
0,05 =
16,91
Criterios:
Si  c2 > 16,919 se rechaza H0
Si  c2 ≤ 16,919 no se rechaza H0

5) Cálculos previos
(18  22,4) 2 (47  42,8) 2 (8  8,0) 2
 c2    ...   6,7492
22,4 42,8 8,0

6)   4,6
proporciona un buen ajuste.

Ejemplo 2 : Bondad de ajuste a una distribución binomial.

Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían 2
bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos. Se
desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja sigue
una distribución binomial, utilizando un nivel de significación de 0.05.

Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario estimarlo.


Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al azar sea
defectuoso puede estimarse de la siguiente manera:

Total de bombillos defectuosos 1142


pˆ    0,1142
Total de bombillos en las 1000 cajas 10000

En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:

10 
Pr X  x     p x 1  p 
10  x

x

Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas se
calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en este

Estadística Aplicada2 70
Universidad Peruana de Ciencias Aplicadas

caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta razón
la categoría 7 corresponde a la probabilidad

Pr  X  6   Pr  X  6   Pr  X  7   Pr  X  8   Pr  X  9   Pr  X  10 

N° de bombillos Frecuencias Probabilidades Frecuencias


k
defectuosos observadas (oi) binomiales esperadas (ei)
1 0 334 0,2974 297,4
2 1 369 0,3834 383,4
3 2 191 0,2224 222,4
4 3 63 0,0765 76,5
5 4 22 0,0173 17,3
6 5 12 0,0027 2,7
7 6 o más 9 0,0003 0,3
Total 1000 1,000 1000

Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas menores
a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este caso, es
necesario agrupar las últimas 3 categorías.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 334 297,4 4,5042
2 369 383,4 0,5408
3 191 222,4 4,4332
4 63 76,5 2,3823
5 43 20,3 25,3837
Total 1000 1000 37,2445

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: El número de bombillos defectuosos por caja sigue una distribución binomial.
H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.

2) Fijación del nivel de significación: 0,05

3) Estadístico de prueba

k
( o i  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).

Estadística Aplicada2 71
Universidad Peruana de Ciencias Aplicadas

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.

0,0
5

2
0,05 = 7.815
Criterios:
Si  c2 > 7,815 se rechaza H0
Si  c2 ≤ 7,815 no se rechaza H0

5) Cálculos previos
(334  297,4) 2 (369  383,4) 2 (43  20,3) 2
c 
2
  ...   37,24
297,4 383,4 20,3

6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un buen


ajuste para el número de bombillos defectuosos por caja.

Ejemplo 3: Bondad de ajuste a una distribución Uniforme.

Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?

Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.

Frecuencias Probabilidades Frecuencias


k Tipo de galleta
observadas (oi) teóricas esperadas (ei)
1 A 26 1/3 20
2 B 21 1/3 20
3 C 13 1/3 20
Total 60 1 60

Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.

Estadística Aplicada2 72
Universidad Peruana de Ciencias Aplicadas

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: No hay preferencias por ninguno de los tipos de galleta.
H1: Sí hay preferencias por al menos uno de los tipos de galleta.

Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.

H0: pA = pB = pC
H1: Al menos un p es diferente.

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

k
( o i  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En este ejemplo k = 3 (número de categorías) y m = 0 (no se estima ningún parámetro).

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 2.

0,0
5

2
0,05 = 5.991
Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0-

5) Cálculos previos
(26  20) 2 (21  20) 2 (13  20) 2
 c2     4,3
20 20 20

6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia con
un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por sobre
las demás.

Estadística Aplicada2 73
Universidad Peruana de Ciencias Aplicadas

3.4 Pruebas de Normalidad


Existen muchas pruebas estadísticas para verificar la normalidad entre las que destacan las siguientes:
-cuadrado y que corresponde a una prueba de
bondad de ajuste.
-Smirnov, la cual analiza las diferencias de la distribución teórica y la
empírica.
-VonMises, es útil para pequeñas muestras y usa los momentos como criterio.
-Charlier, usa la distribución del mismo nombre para inferir si la muestra es normal.
tría.

-Wilk y aquéllas basadas en métodos numéricos.

Todas las pruebas de normalidad tienen como hipótesis nula que el conjunto de datos analizado se
ajusta a una distribución Normal y como hipótesis alterna la negación de que provengan de una
distribución Normal.

Algunas formas de expresarlas son:

H0: La muestra proviene de una distribución normal.


H1: La muestra no proviene de una distribución normal.

H0: La muestra aleatoria proviene de una población con función de distribución de tipo continuo
(Normal)
H1: La muestra aleatoria no proviene de una población con función de distribución de tipo continuo
(Normal).

H0: F(x) es una función de distribución normal


H1: F(x) no es una función de distribución normal

Prueba de Normalidad: Shapiro Wilk

Es una prueba que no utiliza la función de distribución acumulada empírica. Es una prueba que en
muchas situaciones es más poderosa cuando se compara con otras pruebas de normalidad cuando la
muestra es pequeña.
Se ordenan las observaciones de menor a mayor. A continuación se calculan las diferencias entre: el
primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con
unos coeficientes (ai) tabulados por Shapiro y Wilk.
Esta prueba no está disponible en Minitab, que tiene una prueba similar llamada: Ryan-Joiner .

Prueba de Normalidad: Anderson Darling

Estadística Aplicada2 74
Universidad Peruana de Ciencias Aplicadas

Esta prueba se basa en la comparación de la distribución de probabilidades acumulada empírica con


la distribución acumulada teórica.
Para realizar esta prueba los datos obtenidos de la muestra, deben ordenarse en forma ascendente.

Pruebas de Normalidad con Minitab

Con Minitab se pueden obtener las pruebas de normalidad de:


-Darling.
-Joiner que es similar a la de Shapiro Wilk
-Smirnov

Mediante la siguiente secuencia se pueden obtener los estadísticos de prueba y sus respectivos
p-valores.

Estadística / Estadística Básica / Prueba de normalidad

En el recuadro Variable se elige la columna que contiene a los datos que se desean analizar.
En Pruebas de normalidad, se debe elegir entre las pruebas de: Anderson-Darling, Ryan-Joiner o
Kolmogorov-Smirnov.

Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use   0,01.

12 15 16 18 19 14 10 15 16 14

Las hipótesis en este caso son las siguientes:

Estadística Aplicada2 75
Universidad Peruana de Ciencias Aplicadas

H0: La variable en estudio tiene una distribución normal.


H1: La variable en estudio no tiene una distribución normal.
A continuación se presentan los resultados obtenidos con la Prueba de Normalidad Anderson
Darling con Minitab:

Gráfica de probabilidad de Datos


Normal
99
Media 14.9
Desv.Est. 2.644
95 N 10
AD 0.220
90
Valor P 0.773
80
70
Porcentaje

60
50
40
30
20

10

1
10.0 12.5 15.0 17.5 20.0 22.5
Datos

Con el criterio del p-valor (Valor de probabilidad), que en este caso, por ser mayor al nivel de
significación (Valor P = 0.773 > α = 0.01) conduce al no rechazo de H0. En conclusión, se puede
aceptar que la distribución normal brinda un buen ajuste a estos datos.

Si aplicamos la Prueba Ryan Joiner (similar a Shapiro Wilk) tendremos los siguientes resultados
obtenidos con Minitab:

Gráfica de probabilidad de Datos


Normal
99
Media 14.9
Desv .Est. 2.644
95 N 10
RJ 0.990
90
Valor P >0.100
80
70
Porcentaje

60
50
40
30
20

10

1
10.0 12.5 15.0 17.5 20.0 22.5
Datos

(Valor P = 0.100 > α = 0.01)


Estadística Aplicada2 76
Universidad Peruana de Ciencias Aplicadas

Ejercicios

1) Un criminalista realizó una investigación para determinar si la incidencia de ciertos tipos de


crímenes varían de una parte a otra en una ciudad grande. Los crímenes particulares de interés
son asalto, robo, hurto y homicidio. La siguiente tabla muestra el número de delitos
cometidos en tres áreas de la ciudad durante el año pasado:

Frecuencias observadas Frecuencias esperadas


Tipo de Distrito Tipo de Distrito
delito I II III delito I II III
Asalto 162 310 258 Asalto 171,1 348,9 210,0
Robo 118 196 193 Robo 118,9 242,3 145,8
Secuestro 451 996 458 Secuestro 446,6 910,5 547,9
Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

2) La presencia de agua en el aceite perjudica la salud del lubricante, lo que ocasiona que pierda
sus propiedades. Se desea comprobar si es que esta afecta a todos los tipos de camiones por
igual, para lo cual se evaluó la presencia de agua en el aceite del motor de los camiones
seleccionados en las tres muestras aleatorias para cada tipo de camión, obteniéndose los
siguientes resultados.

Tipo de Presencia de Agua en el Aceite


Total
Camión Baja Normal Alta
Tipo I 3 2 8 13
Tipo II 6 4 3 13
Tipo III 2 6 5 13
Total 11 12 16 39

¿Se puede concluir que la presencia de agua en el aceite afecta a todos los tipos de camiones de
manera similar? Use un nivel de significación del 5%.

Estadística Aplicada2 77
Universidad Peruana de Ciencias Aplicadas

3) En el centro de reparaciones de autos se desea determinar si existe alguna relación entre el


tiempo que tiene que esperar sus clientes antes de ser atendidos y el tipo de servicio que
solicitan. Para ello realizó un estudio tomando una muestra de 200 clientes, obteniendo los
siguientes resultados.

Tiempo de Espera (minutos)


Servicio Menos de 10 De 10 a 20 Más de 20 Total
Reemplazo de
llantas 18 11 7 36
Revisión de
Motor 35 43 9 87
Cambio de
Aceite 25 41 11 77
Total 78 95 27 200

¿Se puede concluir que existe relación entre el tiempo de espera y el tipo de servicio que
solicitan los clientes del centro de reparaciones? Use un nivel de significación del 5%.

4) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American


Journal of Public Health, las viudas viven más que los viudos. Considere los siguientes datos
de sobrevivencia de 100 viudas y 100 viudos después de la muerte del cónyuge:

Años vividos Viuda Viudo


Menos de 5 25 39
De 5 a 10 42 40
Más de 10 33 21
¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y viudos
son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la muerte de su
compañero?

Estadística Aplicada2 78
Universidad Peruana de Ciencias Aplicadas

5) La directiva de una corporación grande está interesada en determinar si existe una asociación
entre el tiempo de cambio de turno de sus empleados y el nivel de estrés relacionado con
problemas observados en el trabajo. En un estudio de obreros de línea de ensamblaje se
reveló lo siguiente:

Nivel de estrés
Tiempo de cambio
Alto Moderado Bajo
Menor de 15 minutos 7 8 18
15 a 45 minutos 17 9 28
Más de 45 minutos 20 6 7

A un nivel de significación del 5%, ¿cuál es su conclusión?

6) Ante la cercanía de las fiestas navideñas, se han fabricado 300 juguetes utilizando tres tipos
formulaciones diferentes de plástico y luego se realizó una prueba de resistencia con estos
juguetes. Los resultados se muestran en la siguiente tabla:

Mezcla
Resultado
A B C
No resistió 41 27 22
Si resistió 79 53 78

Al nivel de significación del 3%, ¿podría afirmar que la proporción de artículos que no
resisten la prueba de resistencia es la misma al utilizar las 3 formulaciones de plástico?

Estadística Aplicada2 79
Universidad Peruana de Ciencias Aplicadas

7) Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:

Calificación A B C D F
Frecuencia 14 18 32 20 16
Pruebe la hipótesis, al nivel de significación de 0,05, de que todas las calificaciones son
igualmente probables.

8) Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.
Número de ventas Número de días
0 50
1 75
2 65
3 15
4 5
Se desea verificar cuál es la distribución teórica para el número de ventas que se realiza
diariamente a un nivel de significación del 5%.

Estadística Aplicada2 80
Universidad Peruana de Ciencias Aplicadas

9) Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:
Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12
¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un nivel
de significación del 5%.

10) Pruebe que la siguiente muestra proviene de una distribución normal. Use α=0.05
12.5 16.8 14.9 9.8 8.9 19 16.5 15.6 139 14.2

Use Minitab.

Estadística Aplicada2 81
Universidad Peruana de Ciencias Aplicadas

Unidad 4: Diseños Experimentales

4. Diseños Experimentales

4.1|Introducción

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables, susceptibles a manipulación) de
un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios
en la variable de salida (variable respuesta, no manipulable).

Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de empaque y
dos sustancias preservantes (factores) en el tiempo de duración (variable respuesta) de cierto
alimento. El exportador podría entonces realizar una serie de experimentos para evaluar cuál de
las 6 combinaciones entre método de empaque y sustancia preservante da mejores resultados; a
cada una de estas 6 combinaciones se les denomina tratamientos. Suponga que el exportador
decide realizar 5 repeticiones del experimento con cada tratamiento. Como las condiciones
ambientales (humedad, temperatura, etc.) pueden influir en el tiempo de duración del producto,
los 6 tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea. Dado que
el tiempo de duración promedio del producto es de aproximadamente 10 días, el exportador decide
realizar una réplica quincenal (por ejemplo, empezar la primera réplica con los 6 tratamientos el
día primero, la segunda el día 15, la tercera el día primero del siguiente mes y así sucesivamente).

Este ejemplo ayuda a definir los siguientes términos:

Factor: Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables.

Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto será
evaluado en los resultados del experimento. El interés principal del experimentador es evaluar el
efecto de estos factores. En el ejemplo anterior, el método de empaque y la sustancia preservante
son dos factores en estudio. A los distintos valores de los factores en estudio que son evaluados
se les llama niveles del factor. En el ejemplo, el factor método de empaque tiene 3 niveles y el
factor sustancia preservante 2 niveles.

Factor de bloqueo: Es un factor cuyo efecto en la variable respuesta no es de interés para el


experimentador, pero cuyo efecto debe ser controlado para disminuir la variabilidad en los
resultados del experimento. En el ejemplo, cada repetición del experimento es llevada a cabo en
una quincena diferente. Se puede anticipar que habrá diferencias de temperatura y humedad entre
quincenas, diferencias que se sabe pueden afectar los resultados del experimento. Por lo tanto, en
este ejemplo, las quincenas deben ser consideradas como bloques.

Tratamiento: Es un conjunto de procedimientos cuyo efecto se mide y compara con los de otros
tratamientos. Un tratamiento corresponde a una combinación de los niveles de los factores en
estudio, pudiendo ser estos uno o más.

Estadística Aplicada2 82
Universidad Peruana de Ciencias Aplicadas

Unidad experimental: Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el


efecto de un tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de
alimento.

Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos. En el


ejemplo, la variable respuesta puede ser el tiempo de duración observado de cada empaque.

Error experimental: Es la variabilidad existente entre los resultados de unidades experimentales


tratadas en forma similar. Cualquier factor no controlable contribuye al error experimental. El
error experimental proviene de dos fuentes principales: variabilidad inherente al material
experimental (en el ejemplo, habrán diferencias entre las distintas muestras de alimentos
sometidas a cada tratamiento y en cada réplica) y variabilidad resultante de cualquier falta de
uniformidad en la realización física del experimento (en el ejemplo, si las muestras de alimento
son colocadas en posiciones diferentes sobre un anaquel, estarán sometidas a diferencias de luz,
calor, humedad, polvo, etc.).

Cualquier problema experimental involucra dos aspectos:

 El diseño del experimento

 El análisis estadístico de los datos.

Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño
empleado.

Es importante en este tipo de análisis estadísticos que el experimentador haya seguido de cerca
todos los pasos del experimento, desde el diseño del mismo, hasta el análisis final de los datos.

Analizar datos cuya recogida no fue planificada puede traer ciertos problemas:

Estadística Aplicada2 83
Universidad Peruana de Ciencias Aplicadas

Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto
provoca que los datos recogidos no sean consistentes lo que obviamente traerá confusiones en la
interpretación.

Variables altamente correlacionadas: Cuando dos variables del proceso están correlacionadas,
se pueden producir dos tipos diferentes de situación engañosa al analizar datos recogidos durante
las operaciones habituales.

1. Confusión de los efectos.

Confusión

Variable1
Variable3
Variable2

2. Relación no causal. Variable oculta.

Relación no causal
Variable1 Variable2

Variable3

En este capítulo se presentan tres casos de análisis:

 El diseño completamente al azar (DCA): Este es un diseño en el que solo se contempla un


factor de estudio.

 El diseño de bloques completos al azar (DBCA): Este es un diseño en el que se contempla un


factor de estudio y un factor de bloqueo.

 El experimento factorial axb: Este es un diseño con dos factores en estudio, con a y b niveles
respectivamente.

4.2 Diseño Completamente al Azar (Aleatorio)


Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una de
tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que las
medias de estas k poblaciones son todas iguales. Las poblaciones que se desea comparar suelen
ser producto de la aplicación de distintos tratamientos a ciertas unidades de análisis. Considere
por ejemplo el caso en el que se desea comparar el efecto de 5 programas de incentivos en la
productividad de los trabajadores; en este caso, los 5 programas de incentivos serían los 5
tratamientos aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad
de análisis sería un trabajador (quien recibe el tratamiento).
Estadística Aplicada2 84
Universidad Peruana de Ciencias Aplicadas

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

Tratam. Tratamiento Tratami . . Tratamiento


Muestra 1 k
ento 2 .
1 y11 y21 ... yk1
2 y12 y22 ... yk2
3 y13 y23 ... yk3
. . . ... .
. . . ... .
. . . ... .
ni ...
y1n1 y1n2 y1nk
Totales yi. y1. y2. ... yk.

En esta tabla
ni
yi.   yij
j 1
k
Defina al total de las n.   ni observaciones por
i 1
k k ni
y..   yi.   yij
i 1 i 1 j 1

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales se
harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales y
que tienen variancias iguales.

Si i denota la media de las i-ésima población y  2 denota la variancia común de las k


poblaciones, se puede expresar cada observación yij como i más el valor de un componente
aleatorio:

yij  i   ij para i  1, 2,..., k ; j  1, 2,..., ni

Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar i por    i , donde  es la media general para todas las poblaciones

   0 . Con estos nuevos parámetros se puede


k
y i es el efecto del i-ésimo tratamiento, con i 1 i
escribir el modelo para este diseño de la siguiente manera:

yij     i   ij para i  1, 2, ..., k ; j  1, 2, ..., ni

donde:

yij : La j- ésima observación en la i-ésima muestra.


 : Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
 ij : Error aleatorio asociado a la observación yij, donde  ij ~ N(0,  2 )

Estadística Aplicada2 85
Universidad Peruana de Ciencias Aplicadas

Tabla del análisis de varianza


Fuente
Grados de
de Suma de cuadrados Cuadrado medio Fc
libertad
variación
CM (Tr )
k
y2 y2 SC(Tr)
Tratamie
k–1 SC(Tr)   i   CM(Tr)  CME
ntos i 1 ni n k 1

SCE
Error n. – k SCE  SCT  SC(Tr) CME 
n  k
k n
y 2
n. – 1 SCT   y  2
ij
Total i 1 j 1 n

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay


diferencias entre los tratamientos, la cantidad Fc (F calculado ó Valor del Estadistico de Prueba)
del cuadro de Análisis de Variancia seguiría una distribución F con los grados de libertad de
tratamientos y del error. Entonces, se puede utilizar esta distribución para evaluar la hipótesis nula
de que no hay diferencias entre las medias de los tratamientos.

Ejemplo.
El vicepresidente de mercadeo de un banco importante planea poner en marcha cierto tipo de
promociones para atraer nuevos clientes en cuatro sucursales del banco. Él está convencido de
que diferentes tipos de promociones atraerán a personas de diferentes grupos de ingreso, por lo
que, de haber diferencias entre los ingresos promedio de los clientes de cada sucursal, se optará
por un programa de promociones distinto para cada una. Considere a los montos de los depósitos
como una medida representativa de los ingresos de los clientes. En la siguiente tabla se presentan
datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en miles de soles) ¿Debe el
vicepresidente optar por un programa de promociones distinto para cada sucursal? Evalúe esta
posibilidad con un nivel de significación del 5%.

Sucursal Sucursal Sucursal Sucursal


Depósito 1 2 3 4
1 5,3 3,3 3,6 4,3
2 2,6 4,6 2,8 2,5
3 3,6 2,1 4,5 1,8
4 3,8 3,5 3,8 3,0
5 2,7 5,0 1,9 3,9
6 5,1 2,8 4,1 3,5
7 4,2 2,5 5,1 4,1
Total Yi. 27,3 23,8 25,8 23,1 Y.. = 100

Solución.
H0: 1 = 2 = 3 = 4 = 0
H1: Al menos un i ≠ 0

Estadística Aplicada2 86
Universidad Peruana de Ciencias Aplicadas

Esta Hipótesis también puede expresarse así:

H0: µ1 = µ2 = µ3 = µ4
H1: Al menos un µi ≠ µj

H0: No existe efecto de la sucursal sobre los ingresos promedios de los clientes.
H1: Si existe efecto de la sucursal sobre los ingresos promedios de los clientes.

Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el gran total es
100, y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:

2
 4 7 
  yij 
 
 i 1 j 1   (100)  357,1429
2

n. 28
SCT  (5,3)  (2,6) 2  . . .  (4,1) 2  357,14  27,0171
2

(27,3) 2  (23,8) 2  (25,8) 2  (23,1) 2


SC(Tr)   357,1429  1,5686
7

La tabla del análisis de varianza es:

Fuente de Grados de Suma de Cuadrado


Fc Ft
variación libertad cuadrados medio
0,49
Tratamientos 4–1=3 1,5686 0,5229 3,01
31
Error 28 – 4 = 24 25,4486 1,0604
Total 28 – 1 = 27 27,0171

Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F 0,05 con 3 y
24 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; se concluye entonces que no se puede rechazar la hipótesis de que las medias de los depósitos
en las 4 sucursales son iguales y la recomendación sería no implementar programas de
promociones diferentes para cada sucursal.

A continuación se presenta la salida del Minitab para el análisis de variancia para una vía de este
ejemplo, junto con las pruebas para la verificación de los supuestos.

Supuesto de Homogeneidad de Variancias:


H0:  12   22   32   42 (esto es, la variancia es la misma en las cuatro sucursales)
H1: Al menos una variancia es diferente.
ó
H0: Las variancias son homogéneas en las cuatro sucursales.
H1: Las variancias NO son homogéneas en las cuatro sucursales.

Estadística Aplicada2 87
Universidad Peruana de Ciencias Aplicadas

Prueba de varianzas iguales: Deposito vs. Sucursal


Intervalos de confianza de Bonferroni de 95% para deviaciones estándar

Sucursal N Inferior Desv.Est. Superior


Sucursal 1 7 0.611131 1.05830 3.02775
Sucursal 2 7 0.618363 1.07083 3.06358
Sucursal 3 7 0.616048 1.06682 3.05211
Sucursal 4 7 0.528204 0.91469 2.61690

Prueba de Bartlett (distribución normal)


Estadística de prueba = 0.19, valor p = 0.980

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 0.04, valor p = 0.988
Prueba de igualdad de varianzas para Deposito

Prueba de Bartlett

Sucursal 1 Estadística de prueba 0.19


Valor P 0.980
Prueba de Levene
Estadística de prueba 0.04
Valor P 0.988
Sucursal 2
Sucursal

Sucursal 3

Sucursal 4

0.5 1.0 1.5 2.0 2.5 3.0


Intervalos de confianza de Bonferroni de 95% para Desv.Est.

La prueba de Bartlett muestra que con un P-valor de 0.980, el resultado de esta prueba indica que
no hay suficiente evidencia estadística para rechazar el supuesto de homogeneidad de variancias.
(P-valor > Alfa (0.05)

La prueba de Levene muestra que con un P-valor de 0.988, el resultado de esta prueba indica que
no hay suficiente evidencia estadística para rechazar el supuesto de homogeneidad de variancias.
(P-valor > Alfa (0.05)

Por lo tanto se cumple el supuesto de Homogeneidad de Varianzas.

Recomendaciones:
Conover, Johnson, en Johnson (1981) realizaron un estudio de pruebas de varianza y basados
sobre sus resultados, se hace la siguiente recomendación (Milliken pag 22):

Estadística Aplicada2 88
Universidad Peruana de Ciencias Aplicadas

Si hay confianza de que la variable (en este caso los errores) está cercana a una distribución
normal, entonces usar prueba de Bartlet o Hartley. Si los tamaños de muestra son muy desiguales
usar la prueba de Bartlet; en otro caso, la prueba de Hartley.
Si los datos no son normales y se tiene una gran cantidad de datos, use la prueba de levene. Esta
prueba es muy robusta a la normalidad pero no muy potente para muestras de tamaño pequeño.
A todas las demás situaciones, usar Levene la cual es tan buena como Bartlet y Hartley cuando
los datos se distribuyen normal y es muy superior a ellas para distribuciones de datos no normales.
Si los datos tienden a ser muy sesgados, la prueba de Levene puede ser mejorada reemplazando
por donde es la mediana del grupo. Así , y un análisis de
varianza des hecho sobre los .

Supuesto de Normalidad:
H0: Los errores del modelo tienen distribución normal.
H1: Los errores del modelo no tienen distribución normal.

Gráfica de probabilidad de Residuos


Normal
99
Media -5.55112E-17
Desv .Est. 0.9708
95 N 28
KS 0.081
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-2 -1 0 1 2
Residuos

Las tres pruebas (Anderson-Darling, Ryan-Joiner y Kolmogorov-Smirnov) nos muestran un:

P-valor> que Alfa(0.05)

Por lo tanto el resultado de la prueba indica que no hay suficiente evidencia estadística para
rechazar el supuesto de normalidad y se puede concluir que los errores siguen una distribución
Normal. Se cumple el supuesto de normalidad.

Análisis de Variancia: Salida del Minitab

ANOVA unidireccional: Deposito vs. Sucursal

Fuente GL SC CM F P
Sucursal 3 1.57 0.52 0.49 0.690
Error 24 25.45 1.06
Total 27 27.02

Estadística Aplicada2 89
Universidad Peruana de Ciencias Aplicadas

S = 1.030 R-cuad. = 5.81% R-cuad.(ajustado) = 0.00%

Adelantándonos al siguiente tema incluiremos una salida de Minitab:

Agrupar información utilizando el método de Tukey

N Media Agrupación
Sucursal 1 7 3.900 A
Sucursal 3 7 3.686 A
Sucursal 2 7 3.400 A
Sucursal 4 7 3.300 A

Las medias que no comparten una letra son significativamente diferentes.

En este caso no existe diferencia entre las medias de ingresos entre las sucursales; los cual se
confirma con método de Tukey que asigna la misma letra “A” a todas las sucursales, indicando
que son estadísticamente iguales.

Prueba para la diferencia de medias


Se supone que el experimentador tiene a su disposición mediciones relativas a varios tratamientos.
El análisis de variancia indica si hay evidencias de que al menos una de las medias sea diferente
o no. Cuando se rechaza la hipótesis nula, el análisis de variancia no revela cuál o cuáles de las
medias son significativamente diferentes; en estos casos se deben utilizar otras pruebas
estadísticas.

Prueba de Rango Múltiple de Duncan y Prueba de Diferencia Mínima Significativa

Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u
observaciones. En esta sección se asumirá que todas las muestras tienen n repeticiones. Estas
pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par de
tratamientos.

La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiado de mínima significación, Rp, dado por:

R p  S X .rp

En esta expresión p es el número de medias de tratamientos comprendidas, luego de ordernarlas


ascendentemente, entre las dos medias que se están comparando (incluidas las dos medias en
comparación). Aquí S X es un estimador de la desviación estándar común a todos los tratamientos
y es definido por:

CME
Sx 
n

Estadística Aplicada2 90
Universidad Peruana de Ciencias Aplicadas

El valor de rp depende del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para   0,05 y   0,01
respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.

Ejemplo

Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total


0,25 0,18 0,19 0,23
0,33 0,28 0,25 0,30
0,22 0,21 0,27 0,28
0,30 0,23 0,24 0,28
0,27 0,25 0,18 0,24
0,28 0,20 0,26 0,34
0,32 0,27 0,28 0,20
0,24 0,19 0,24 0,18
0,31 0,24 0,25 0,24
0,26 0,22 0,20 0,28
0,20 0,29 0,21 0,22
0,28 0,16 0,19 0,21
Total 3,26 2,72 2,76 3,00 11,740
Media 0,272 0,227 0,230 0,250

La tabla del análisis de variancia es:

Fuente de variación Grados de libertad Suma de Cuadrado Fc Ft


cuadrados medio
Laboratorios 3 0,0156 0,0052 3,133 2,82
Error 44 0,0728 0,0017
Total 47 0,0884

Determine qué medias difieren de las otras. Use un nivel de significación   0.05 .

Solución:

Primero ordene las cuatro medias en orden creciente de magnitud:

Laboratorio B C D A
Media 0,227 0,230 0,250 0,272

Luego, calcule el S X usando el cuadrado medio del error 0.0017.

Estadística Aplicada2 91
Universidad Peruana de Ciencias Aplicadas

0.0017
SX   0.0119
12

Se obtiene (por interpolación lineal) en la tabla 8.1(ver al final de este manual) los siguientes
valores de rp para   0.05 y 44 grados de libertad:

p 2 3 4
rp 2,85 3,00 3,09

Multiplicando cada valor de rp por S X se obtiene finalmente:

p 2 3 4
0,03 0,03 0,03
Rp
4 6 7

El rango de las 4 medias es:


 Entre B y A: 0,272 - 0,227 = 0,045 > 0,037, entonces existen diferencias significativas entre
las medias de B y A.

Los rangos de 3 medias son:


 Entre C y A: 0,272 - 0,230 = 0,042 > 0,036, entonces existen diferencias significativas entre
las medias de C y A.
 Entre B y D: 0,250 - 0,227 = 0,023 < 0,036, entonces no existen diferencias significativas
entre las medias de B y D.

Los rangos de 2 medias son:


 Entre B y C: 0,230 – 0,227 = 0,003 < 0,034, entonces no existen diferencias significativas
entre las dos medias (B y C)
 Entre D y C: 0,250 – 0,230 = 0,02 < 0,034, entonces no existen diferencias significativas entre
las dos medias (D y C)
 Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas
entre las dos medias (A y D)

Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a


continuación. La idea es que los tratamientos unidos por una línea no presentan diferencias
significativas.

B C D A
0,22 0,23 0,25 0,27
7 0 0 2

Desarrollando el ejemplo utilizando el Minitab se obtienen los siguientes resultados:

Estadística Aplicada2 92
Universidad Peruana de Ciencias Aplicadas

¿Cuáles son las


Prueba de igualdad de varianzas para Pesos hipótesis?
Prueba de Bartlett Ho:
A Estadística de prueba
Valor P
0.96
0.810
…………………………
Prueba de Levene …………………………
Estadística de prueba 0.26
Valor P 0.852 …………
B
Laboratorio

H1:
C
…………………………
…………………………
….……
D

0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10


Intervalos de confianza de Bonferroni de 95% para Desv.Est.

Gráfica de probabilidad de RESID5


Normal
¿Cuáles son las
99 hipótesis?
Media -2.94903E-17
Desv.Est. 0.03937 Ho:
95 N
AD
48
0.340
………………………
90
Valor P 0.483 ………………………
80
70
………………
Porcentaje

60
50
40
H1:
30 ………………………
20
………………………
10
……….……
5

1
-0.10 -0.05 0.00 0.05 0.10
RESID5

ANOVA unidireccional: Pesos vs. Laboratorio

Fuente GL SC CM F P
Laboratorio 3 0.01556 0.00519 3.13 0.035
Error 44 0.07283 0.00166
Total 47 0.08839

S = 0.04069 R-cuad. = 17.60% R-cuad.(ajustado) = 11.98%


Salida de Minitab

Agrupar información utilizando el método de Tukey

Estadística Aplicada2 93
Universidad Peruana de Ciencias Aplicadas

Laboratorio N Media Agrupación


A 12 0.27167 A
D 12 0.25000 A B
C 12 0.23000 A B
B 12 0.22667 B

B C D A
0,22 0,23 0,25 0,27
7 0 0 2

Para la prueba de diferencia mínima significativa utilice


2CME
SX 
n

y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la


distribución t de Student con los grados de libertad del error como se muestra a continuación:
DMS  t 1 / 2  S X

Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye que
hay diferencias significativas entre dicho par de tratamientos.

4.3 Diseño con Bloques Completos al Azar


Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos
aplicados sobre b bloques. Los bloques son utilizados para controlar una fuente de variabilidad
adicional a los tratamientos, que aunque no es el objetivo fundamental de la investigación, puede
ser identificada de antemano. Esto puede ocurrir por ejemplo en experimentos en donde los datos
se toman por días, y en donde se sabe que los resultados pueden diferir entre los distintos días, o
cuando cada tratamiento es evaluado en un mismo individuo (una persona, una máquina, etc), de
modo que se espera que existan diferencias en los resultados atribuibles a cada individuo. En
términos más generales, la idea es que las observaciones sean lo más homogéneas dentro del
bloque y heterogéneas entre bloques.

Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.

Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

Estadística Aplicada2 94
Universidad Peruana de Ciencias Aplicadas

Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1

B2 y12 y22 y32 ... yi2 ... ya2 y. 2

B3 y13 y23 y33 ... yi3 ... ya3 y. 3


. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... . .

Bj y1j y2j y3j ... yij ... yaj y. j


. . . . ... . ... .
Bb y1b y2b y3b ... yib ... yab y.b

Totales y1. y 2. y 3. ... yi. ... y a. y..

Cada observación puede ser expresada con el siguiente modelo lineal.

yij     i   j   ij
para i  1,2,..., a ; j  1,2,..., b

donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
 : Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j: Es el efecto del j-ésimo bloque.
 ij : Es el error aleatorio correspondiente a la observación yij.

En este modelo se tiene que:

a b

 i  0
i 1

j 1
j 0

Las sumas de cuadrados se pueden calcular con las siguientes fórmulas:

a b
y..2
SCT   y ij2 
i 1 j 1 ab

yi2. y..2
a
SC(Tr)   
i 1 b ab

Estadística Aplicada2 95
Universidad Peruana de Ciencias Aplicadas

b y.2j y..2
SCB   
j 1 a ab

SCE  SCT  SC(Tr)  SCB

Tabla del análisis de variancia

Grados
Fuente de
de Suma de cuadrados Cuadrado medio F
variación
libertad
a
yi2. y..2 SC(Tr) CM (Tr )
SC(Tr)  
Tratamiento
a-1  CM(Tr)  FT 
s i 1 b ab a 1 CME
b y.2j y..2 SCB
Bloques b-1 SCB    CMB 
j 1 a ab b 1
(a - SCE
Error 1)(b - SCE  SCT  SC(Tr)  SCB CME 
1) (a  1)(b  1)
a b
y..2
Total ab - 1 SST   y ij2 
i 1 j1 ab

Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la razón
es que el experimento se diseñó para probar un solo factor. La formación de bloques se hizo para
eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las diferencias
individuales para los niveles del bloque.

Ejemplo

Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los lugares
de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra fue
analizada buscando detectar la presencia de cierto contaminante. Se consideraron los siguientes
resultados:

Lugar
Lugar A Lugar B Lugar C D Lugar E Suma
Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6
Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6
Agencia 3 20,9 5,9 14 27,1 3 70,9
Suma 63,9 20,3 42,6 80,2 11,1 218,1

Estadística Aplicada2 96
Universidad Peruana de Ciencias Aplicadas

¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre sí?
¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación? Utilice
un nivel de significación de 0,05.

Solución

Las hipótesis nula y alterna son.

H 0 : 1   2  3

H1 : No todas las  son iguales

Ho: Las mediciones de la tres agencia, son en promedio iguales entre sí.
H1: Al menos una de las agencias presenta mediciones promedio diferentes.

El nivel de significación:   0,05 .

Criterio:

Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F 0,95 para 2 y 8 grados de
libertad.

Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8 grados de libertad.
(No es de interés probar la diferencia entre bloques).

Cálculos.
a b
Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y  y
i 1 j 1
2
ij  4336,97

en las expresiones para calcular la suma de cuadrados, se obtiene:

2
 3 5 
  yij 
 
 i 1 j 1   (218,1)  3171,17
2

ab (15)

Estadística Aplicada2 97
Universidad Peruana de Ciencias Aplicadas

SCT  4336,97  3171,17  1165,80

(81,6) 2 (65,5) 2 (70,9) 2


SC(Tr)     3171,17  26,57
5 5 5

(63,9) 2 (11,1) 2
SCB   ...   3171,17  1117,26
3 3

SCE  SCT  SC(Tr)  SCB  21,96

El cuadro de análisis de variancia es.

Fuente de Grados de Suma de Cuadrado F Ft


variación libertad cuadrados medio
Tratamientos 3–1=2 26,57 13,29 4,84 4,46
Bloques 5–1=4 1117,26 279,32
Error (3-1)(5-1)=8 21,96 2,75
Total (3)(5) – 1 = 14 1165,80

Decisión.
Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.

Mostramos los resultados obtenidos con Minitab para el análisis de variancia:

ANOVA de dos factores: Deposito vs. Agencia, Lugar

Fuente GL SC CM F P
Agencia 2 26.57 13.286 4.84 0.042
Lugar 4 1117.26 279.316 101.75 0.000
Error 8 21.96 2.745
Total 14 1165.80

S = 1.657 R-cuad. = 98.12% R-cuad.(ajustado) = 96.70%

Estadística Aplicada2 98
Universidad Peruana de Ciencias Aplicadas

4.4 Experimento Factorial axb.


Usualmente en los experimentos se desea estudiar el efecto de dos o más factores. Por diseño
factorial se entiende que en cada ensayo o réplica completa del experimento se investigan todas
las combinaciones posibles de los niveles de los factores.

Por ejemplo.
Factor A: con a niveles
Factor B: con b niveles.

Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.

T IPOS DE MODELOS
Modelo de efectos fijos
Cuando el investigador sólo está interesado en estudiar ciertos niveles de los factores involucrados
y por lo tanto la selección no es aleatoria. Los resultados sólo serán útiles para los niveles
considerados en el estudio y las hipótesis están referidas a las medias de los niveles seleccionados.
En esta sección solo se tratará el caso de un experimento factorial con dos factores fijos.

Modelo de efectos aleatorios


Cuando el investigador está interesado en un gran número de posibles niveles, y no es posible
estudiarlos todos, la mejor manera de estudiarlos es seleccionar aleatoriamente una cantidad de
niveles de la población de niveles de cada factor en estudio. Los resultados podrán generalizarse
para toda población de niveles. En este caso las hipótesis están referidas a la variancia de los
factores.

Modelo de efectos mixtos


Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los
otros factores, también considerados en el estudio, son fijados por el investigador.

DISEÑO FACTORIAL DE DOS FACTORES


En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.

Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo que se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería. El ingeniero decide probar los
tres materiales de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles
de temperatura son consistentes con el medio ambiente donde se usará finalmente el producto. Se
prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las 36
pruebas se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos.

Estadística Aplicada2 99
Universidad Peruana de Ciencias Aplicadas

Vida en horas de las baterías


Tipo de Temperatura (B)
material (A) 15°F 70°F 125°F
130 155 34 40 20 70
M1
74 180 80 75 82 58
150 188 136 122 25 70
M2
159 126 106 115 58 45
138 110 174 120 96 104
M3
168 160 150 139 82 60

¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?

Las observaciones de un experimento factorial de este tipo pueden describirse con el siguiente
modelo:

yijk     i   j  ( )ij   ijk


donde:
i  1, 2,..., a
j  1, 2,..., b
k  1, 2,..., n

En este modelo  es el efecto de la media global,  i es el efecto del nivel i-ésimo del factor A,
 j es el efecto del nivel j-ésimo del factor B, (  )ij es el efecto de la interacción entre  i y  j ,
y  ijk es un componente de error aleatorio. Se supone que los errores tienen distribución normal
con media cero y variancia constante.

Pruebas de hipótesis
Efecto de la interacción entre ambos factores:

H 0 : ( )ij  0  i, j Ho: No hay interacción entre los dos factores en


estudio
H1 : al menos un ( )ij  0
H1: Hay interacción entre los dos factores en estudio

1) Si la hipótesis nula es rechazada, al nivel de significación α, podemos concluir que


efectivamente el tipo de material interacciona con temperatura en la vida efectiva de la batería.

En este caso el análisis es el siguiente: Se fija un nivel de uno de los factores y se compara las
medias de los niveles del otro factor.

Fijando ai: Ho: No hay diferencia en las medias de los niveles del factor B.
H1: Hay diferencia en las medias de los niveles del factor B.

Estadística Aplicada2 100


Universidad Peruana de Ciencias Aplicadas

Fijando bj: Ho: No hay diferencia en las medias de los niveles del factor A.
H1: Hay diferencia en las medias de los niveles del factor A.

2) Si la hipótesis nula no es rechazada, al nivel de significación α, podemos concluir que el tipo


de material no interacciona con la temperatura en el proceso de fabricación de la batería, por
lo tanto sólo es necesario comparamos las medias de los niveles de cada uno de los factores
en promedio con los niveles del otro factor.
Para el efecto principal del factor A:
H 0 :  1   2  ...   a  0
H1 : al menos un  i  0

Ho: No hay diferencia en las medias de los niveles del factor A.


H1: Hay diferencia en las medias de los niveles del factor A.

Para el efecto principal del factor B:


H 0 : 1   2  ...  b  0
H1 : al menos un  j  0

Ho: No hay diferencia en las medias de los niveles del factor B.


H1: Hay diferencia en las medias de los niveles del factor B.

Descomposición de la suma de cuadrados


En este diseño, el cuadro de análisis de variancia está dado por:

Fuentes de Grados de Sumas de Cuadrados Medios


Fc
Variación Libertad (gl) Cuadrados (SC) (CM)

SC( A) CM( A)
A a–1 SC(A)
gl( A) CM(Error)
SC( B) CM( B)
B b–1 SC(B)
gl( B) CM(Error)
SC( AB) CM( AB)
AB (a – 1)(b-1) SC(AB)
gl( AB) CM(Error)
Error SC(Error)
ab( n – 1) SC(Error)
Experimental
gl(Error)
Total abn – 1 SC(Total)

A continuación se presenta el cuadro de análisis de varianza (Minitab) para el ejemplo tratado en


esta sección:

Estadística Aplicada2 101


Universidad Peruana de Ciencias Aplicadas

Análisis de varianza para Tiempo, utilizando SC ajustada para pruebas

Fuente GL SC Sec. SC Ajust. CM Ajust. F P


Temperatura 2 39118.7 39118.7 19559.4 28.97 0.000
Material 2 10683.7 10683.7 5341.9 7.91 0.002
Temperatura*Material 4 9613.8 9613.8 2403.4 3.56 0.019
Error 27 18230.7 18230.7 675.2
Total 35 77647.0

S = 25.9849 R-cuad. = 76.52% R-cuad.(ajustado) = 69.56%

Los resultados de este análisis indican lo siguiente:

Ho: No hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
H1: Hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.

Se rechaza H0 (Sig. = 0,019), por lo que se concluye que existe un efecto de interacción entre el
tipo de material y la temperatura sobre la vida de la batería, por lo tanto se debe analizar los efectos
simples.
Por lo tanto el análisis será:
Fijamos 15°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 70°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 150°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos M1: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M2: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M3: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.

Analizaremos el gráfico de las medias marginales y corroboraremos lo observado con la tabla


de comparación por pares que se muestra a continuación:
Gráfica de interacción para Tiempo
Medias ajustadas
15 70 125

150 Material
m1
125 m2
m3

Material 100

75

50
150 Temperatura
15
125 70
125
100 Temperatura

75

50
m1 m2 m3

De este gráfico, se pueden desprender las siguientes conclusiones:

Estadística Aplicada2 102


Universidad Peruana de Ciencias Aplicadas

Pruebas simultáneas de Tukey


Variable de respuesta Tiempo
Todas las comparaciones de dos a dos entre los niveles de Material
Material = m1 restado a:

Diferencia EE de Valor P
Material de medias diferencia Valor T ajustado
m2 25.17 10.61 2.372 0.0628
m3 41.92 10.61 3.951 0.0014

Material = m2 restado a:

Diferencia EE de Valor P
Material de medias diferencia Valor T ajustado
m3 16.75 10.61 1.579 0.2718

Pruebas simultáneas de Tukey


Variable de respuesta Tiempo

Estadística Aplicada2 103


Universidad Peruana de Ciencias Aplicadas

Todas las comparaciones de dos a dos entre los niveles de


Temperatura
Temperatura = 15 restado a:

Diferencia EE de Valor P
Temperatura de medias diferencia Valor T ajustado
70 -37.25 10.61 -3.511 0.0044
125 -80.67 10.61 -7.604 0.0000

Temperatura = 70 restado a:

Diferencia EE de Valor P
Temperatura de medias diferencia Valor T ajustado
125 -43.42 10.61 -4.093 0.0010

De este gráfico y la tabla anterior, se pueden desprender las siguientes conclusiones:

 A los 15°F, aparentemente las baterías tienen el mismo tiempo de vida con los tres tipos de
material.
Esto se corrobora puesto que

M
2
M M
1 3

Comparaciones sig Conclusión


M1 y M2 0.263 No hay diferencias significativas
M1 y M3 0.619 No hay diferencias significativas
M2 y M3 0.528 No hay diferencias significativas
Todos los sig son mayores que 0.05, lo cual indica que no hay diferencias entre cada par de
medias.

 A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida
del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece
ser la peor opción.

Estadística Aplicada2 104


Universidad Peruana de Ciencias Aplicadas

Analizando las pruebas de comparación se tiene

Comparaciones de medias Sig Conclusión


M1 y M2 0.002 Hay diferencias significativas
M1 y M3 0.000 Hay diferencias significativas
M2 y M3 0.168 No hay diferencias significativas

µ1 µ2
µ3

Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías
fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que sean
fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.

 A los 150°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1
y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la
comparación de medias nos indica que al nivel se significación del 5% no se encontró
diferencia entre ellos.

Comparaciones de medias sig Conclusión


M1 y M2 0.667 No hay diferencias significativas
M1 y M3 0.139 No hay diferencias significativas
M2 y M3 0.06 No hay diferencias significativas

Conclusión: Al nivel de significación del 5%, a los 150°F no importa el tipo de material que se
use.

Fijando el factor Temperatura:


 A los 15°F, aparentemente las baterías tienen el mismo tiempo de vida con los tres tipos de
material.
µ1 µ2
µ3

Conclusión: Al nivel de significación del 5%, a los 15°F no importa el tipo de material que se
use.

 A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida
del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece
ser la peor opción.

µ1 µ2
µ3

Estadística Aplicada2 105


Universidad Peruana de Ciencias Aplicadas

Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías
fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que sean
fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.

 A los 125°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1
y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la
comparación de medias nos indica que al nivel se significación del 5% no se encontró
diferencia entre ellos.
µ1 µ2
µ3

Conclusión: Al nivel de significación del 5%, a los 125°F no importa el tipo de material que se
use.

Se puede analizar de igual forma fijando los niveles del otro factor.

Estadística Aplicada2 106


Universidad Peruana de Ciencias Aplicadas

Seguidamente, se muestran las salidas para validar los supuestos:

 Homogeneidad de las Varianzas: Homogeneidad de las Varianzas:

Prueba de Igualdad de Varianzas


Temperatura Tmaterial

15 1 Bartlett's Test
Test Statistic 5.24
2 P-Value 0.732
Lev ene's Test
3
Test Statistic 0.80
P-Value 0.608
70 1
2
3

125 1
2
3

0 100 200 300 400


95% Bonferroni Confidence Intervals for StDevs

Prueba de varianzas iguales: Horas vs. Material, Temperatura

Intervalos de confianza de Bonferroni de 95% para desviaciones


estándares

Estadística Aplicada2 107


Universidad Peruana de Ciencias Aplicadas

Material Temperatura N Inferior Desv.Est. Superior


M1 125F 4 12.3875 26.8514 211.743
M1 15F 4 20.9231 45.3532 357.644
M1 70F 4 10.8871 23.5991 186.096
M2 125F 4 8.8860 19.2614 151.890
M2 15F 4 11.8182 25.6174 202.012
M2 70F 4 5.8401 12.6590 99.825
M3 125F 4 8.8939 19.2787 152.026
M3 15F 4 11.9829 25.9743 204.827
M3 70F 4 10.4006 22.5444 177.779

Prueba de Bartlett (distribución normal)


Estadística de prueba = 5.24, valor p = 0.732

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 0.80, valor p = 0.608

 Normalidad de los Errores:


H0: Los errores del modelo tienen distribución normal.
H1: Los errores del modelo no tienen distribución normal.

PRUEBA DE NORMALIDAD
Normal
99
Media 0
Desv .Est. 22.82
95 N 36
KS 0.106
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-75 -50 -25 0 25 50
Residuos

La prueba de Kolmogorov-Smirnov nos muestra un P-valor> que Alfa(0.05) por lo tanto el


resultado de la prueba indica que no hay suficiente evidencia estadística para rechazar el supuesto
de normalidad y se puede concluir que los errores siguen una distribución Normal. Se cumple el
supuesto de normalidad.

Estadística Aplicada2 108


Universidad Peruana de Ciencias Aplicadas

4.5 Ejercicios

1) Para determinar la mejor disposición de los instrumentos sobre el tablero de control de un


aeroplano, se prueban tres distintos arreglos simulando una situación de emergencia y se
observa el tiempo de reacción requerido para corregir la avería. Los tiempos de reacción (en
décimas de segundo) de 28 pilotos (aleatoriamente asignados a los diversos arreglos) son
los siguientes:

Total
Disposición 1 14 13 9 15 11 13 14 10 12 111
Disposición 2 10 12 9 7 11 8 12 9 10 13 101
Disposición 3 11 5 9 10 6 8 8 7 6 70
282

 y 2
ij  3030

a) Con un nivel de significación de 0.01 pruebe si se puede rechazar la hipótesis nula de


que las diferencias entre las disposiciones no tienen efecto alguno.

b) De rechazar la hipótesis nula en a), Utilice la prueba de Tukey.

Estadística Aplicada2 109


Universidad Peruana de Ciencias Aplicadas

Utilice las Salidas de Minitab:

ANOVA unidireccional: Tiempo de reacción versus Disposición

Fuente GL SC MC F P
Disposición 2 93.40 46.70 12.10 0.000
Error 25 96.46 3.86
Total 27 189.86

S = 1.964 R-Sq = 49.20% R-Sq(adj) = 45.13%

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Nivel N Media Desv.Est. --------+---------+---------+---------+-
Disposición 1 9 12.333 2.000 (------*-----)
Disposición 2 10 10.100 1.912 (------*-----)
Disposición 3 9 7.778 1.986 (------*------)
--------+---------+---------+---------+-
8.0 10.0 12.0 14.0

Desv.Est. agrupada = 1.964

Información agrupada utilizando el método de Tukey


Disposición N Media Grupos
Disposición 1 9 12.333 A
Disposición 2 10 10.100 A
Disposición 3 9 7.778 B

Medias que no comparten una letra son significativamente diferentes.


Intervalos de confianza simultáneos de Tukey del 95%
Todas las comparaciones de dos a dos entre los niveles de Disposiciones

Nivel de confianza individual = 98.02%

Disposiciones = Disposición 1 restado de:


Disposiciones Inferior Centro Superior
Disposición 2 -4.480 -2.233 0.013
Disposición 3 -6.860 -4.556 -2.251

Disposiciones ---+---------+---------+---------+------
Disposición 2 (-------*------)
Disposición 3 (-------*------)
---+---------+---------+---------+------
-6.0 -3.0 0.0 3.0

Disposiciones = Disposición 2 restado de:

Disposiciones Inferior Centro Superior


Disposición 3 -4.569 -2.322 -0.076

Disposiciones ---+---------+---------+---------+------
Disposición 3 (------*-------)
---+---------+---------+---------+------
-6.0 -3.0 0.0 3.0

Estadística Aplicada2 110


Universidad Peruana de Ciencias Aplicadas

2) En un estudio se investigó la importancia de los valores éticos corporativos entre personas


que se especializan en mercadotecnia. Los datos siguientes muestran las puntuaciones sobre
la evaluación realizada; las puntuaciones más altas indican valores éticos mayores.

Gerentes de Investigadores de Publicidad


mercadotecnia mercadotecnia
5 2 8
5 3 9
4 2 6
5 4 9
4 3 6
4 4 8
Total 27 18 46

 y 2
ij  543
Utilice las salidas del Minitab:
a) Indique el modelo lineal e interprete sus componentes.

b) Usando   0,05 pruebe si hay diferencias significativas en la importancia de los


valores entre los tres grupos.

c) De rechazar la hipótesis nula en b), Utilice la prueba de Tukey.

Estadística Aplicada2 111


Universidad Peruana de Ciencias Aplicadas

Salidas del Minitab:

Prueba de Normalidad
Normal
99
Media -9.86865E-17
Desv .Est. 0.9341
95 N 18
KS 0.139
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-2 -1 0 1 2
RESI1

Prueba de varianzas iguales: Puntuaciones vs. Labores


Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

Labores N Inferior Desv.Est. Superior


Gerentes 6 0.310817 0.54772 1.71116
Imercado 6 0.507562 0.89443 2.79432
Publicidad 6 0.775314 1.36626 4.26839

Prueba de Bartlett (distribución normal)


Estadística de prueba = 3.53, valor p = 0.171

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 1.09, valor p = 0.360

ANOVA unidireccional: Puntuaciones vs. Labores

Fuente GL SC MC F P
Labores 2 68.111 34.056 34.44 0.000
Error 15 14.833 0.989
Total 17 82.944

S = 0.9944 R-cuad. = 82.12% R-cuad.(ajustado) = 79.73%

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Nivel N Media Desv.Est. -------+---------+---------+---------+--
Gerentes 6 4.5000 0.5477 (----*-----)
Imercado 6 3.0000 0.8944 (-----*----)
Publicidad 6 7.6667 1.3663 (----*----)
-------+---------+---------+---------+--
3.2 4.8 6.4 8.0

Desv.Est. agrupada = 0.9944

Información agrupada utilizando el método de Tukey


Labores N Media Grupos
Publicidad 6 7.6667 A
Gerentes 6 4.5000 B
Imercado 6 3.0000 C

Medias que no comparten una letra son significativamente diferentes.

Estadística Aplicada2 112


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza simultáneos de Tukey del 95%


Todas las comparaciones de dos a dos entre los niveles de Labores

Nivel de confianza individual = 97.97%

Labores = Gerentes restado de:

Labores Inferior Centro Superior


Imercado -2.9899 -1.5000 -0.0101
Publicidad 1.6767 3.1667 4.6566

Labores --------+---------+---------+---------+-
Imercado (----*---)
Publicidad (---*---)
--------+---------+---------+---------+-
-3.5 0.0 3.5 7.0

Labores = Imercado restado de:

Labores Inferior Centro Superior


Publicidad 3.1767 4.6667 6.1566

Labores --------+---------+---------+---------+-
Publicidad (---*----)
--------+---------+---------+---------+-
-3.5 0.0 3.5 7.0

3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una


tienda de departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar.
Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes disposiciones y se
mide el tiempo que emplean (en minutos).

Arreglo 1 Arreglo 2 Arreglo 3 Arreglo 4 Total


Cuadrilla A 48,2 53,1 51,2 58,6 211,1
Cuadrilla B 49,5 52,9 50,0 60,1 212,5
Cuadrilla C 50,7 56,8 49,9 62,4 219,8
Cuadrilla D 48,6 50,6 47,5 57,5 204,2
Cuadrilla E 47,1 51,8 49,1 55,3 203,3
Cuadrilla F 52,4 57,2 53,5 61,7 224,8
Total 296,5 322,4 301,2 355,6 1275,7

Sabiendo que,  y ij2  68 281,53 , pruebe con un nivel de significación de 0,01 si las cuatro
disposiciones producen distintos tiempos promedio de montaje.

Salidas de Minitab:

Estadística Aplicada2 113


Universidad Peruana de Ciencias Aplicadas

Prueba de Normalidad
Normal
99
Media -5.92119E-16
Desv .Est. 0.9417
95 N 24
KS 0.112
90
Valor P >0.150
80
70
Porcentaje 60
50
40
30
20

10

1
-2 -1 0 1 2
RESIDUOS

Prueba de varianzas iguales: Tiempo vs. Arreglos

Intervalos de confianza de Bonferroni de 95% para desviaciones


estándares

Arreglos N Inferior Desv.Est. Superior


1 6 1.05552 1.90096 6.31697
2 6 1.49143 2.68601 8.92571
3 6 1.12486 2.02583 6.73191
4 6 1.48438 2.67333 8.88355

Prueba de Bartlett (distribución normal)


Estadística de prueba = 0.89, valor p = 0.827

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 0.42, valor p = 0.738

ANOVA de dos factores: Tiempo vs. Arreglos, Cuadrillas

Fuente GL SC MC F P
Arreglos 3 362.365 120.788 88.82 0.000
Cuadrillas 5 89.997 17.999 13.24 0.000
Error 15 20.398 1.360
Total 23 472.760

S = 1.166 R-cuad. = 95.69% R-cuad.(ajustado) = 93.38%

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Arreglos Media ---------+---------+---------+---------+
1 49.4167 (---*--)
2 53.7333 (--*--)
3 50.2000 (--*---)
4 59.2667 (---*--)
---------+---------+---------+---------+
51.0 54.0 57.0 60.0

Segunda forma (salida más completa)

Modelo lineal general: Tiempo vs. Arreglos, Cuadrillas

Factor Tipo Niveles Valores


Arreglos fijo 4 1, 2, 3, 4
Cuadrillas fijo 6 1, 2, 3, 4, 5, 6

Estadística Aplicada2 114


Universidad Peruana de Ciencias Aplicadas

Análisis de varianza para Tiempo, utilizando SC ajustada para pruebas

Fuente GL SC sec. SC ajust. MC ajust. F P


Arreglos 3 362.365 362.365 120.788 88.82 0.000
Cuadrillas 5 89.997 89.997 17.999 13.24 0.000
Error 15 20.398 20.398 1.360
Total 23 472.760

S = 1.16613 R-cuad. = 95.69% R-cuad.(ajustado) = 93.38%

Observaciones inusuales de Tiempo


Residuo
Obs Tiempo Ajuste Ajuste SE Residuo estándar
15 49.9000 51.9958 0.7141 -2.0958 -2.27 R

R denota una observación con un residuo estandarizado grande.

Información agrupada utilizando el método de Tukey al 95.0% Confianza


Arreglos N Media Grupo
4 6 59.3 A
2 6 53.7 B
3 6 50.2 C
1 6 49.4 C

Medias que no comparten una letra son significativamente diferentes.


Intervalos de confianza simultáneos de Tukey del 95.0%
Variable de respuesta Tiempo
Todas las comparaciones de dos a dos entre los niveles de Arreglos
Arreglos = 1 restado a:
Arreglos Inferior Centrada Superior -+---------+---------+---------+-----
2 2.374 4.3167 6.259 (---*---)
3 -1.159 0.7833 2.726 (---*--)
4 7.908 9.8500 11.792 (---*---)
-+---------+---------+---------+-----
-5.0 0.0 5.0 10.0

Arreglos = 2 restado a:

Arreglos Inferior Centrada Superior -+---------+---------+---------+-----


3 -5.476 -3.533 -1.591 (---*---)
4 3.591 5.533 7.476 (---*---)
-+---------+---------+---------+-----
-5.0 0.0 5.0 10.0

Arreglos = 3 restado a:

Arreglos Inferior Centrada Superior -+---------+---------+---------+-----


4 7.124 9.067 11.01 (---*---)
-+---------+---------+---------+-----
-5.0 0.0 5.0 10.0

Pruebas simultáneas de Tukey


Variable de respuesta Tiempo
Todas las comparaciones de dos a dos entre los niveles de Arreglos
Arreglos = 1 restado a:

Diferencia SE de Valor P
Arreglos de medias diferencia Valor T ajustado
2 4.3167 0.6733 6.412 0.0001
3 0.7833 0.6733 1.163 0.6578
4 9.8500 0.6733 14.630 0.0000

Arreglos = 2 restado a:

Diferencia SE de Valor P
Arreglos de medias diferencia Valor T ajustado
3 -3.533 0.6733 -5.248 0.0005
4 5.533 0.6733 8.219 0.0000

Estadística Aplicada2 115


Universidad Peruana de Ciencias Aplicadas

Arreglos = 3 restado a:

Diferencia SE de Valor P
Arreglos de medias diferencia Valor T ajustado
4 9.067 0.6733 13.47 0.0000

4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis sujetos en
un diseño de bloques completos al azar. A los sujetos, que juegan el papel de bloques, se les
asignan las siguientes tres dietas en orden aleatorio.
Dieta 1: mezcla de grasa y carbohidratos
Dieta 2: alta en grasa
Dieta 3: alta en carbohidratos
Al final del período de tres días cada sujeto se coloca un aparato para caminata y se mide el
tiempo de duración del agotamiento en segundos. Se registraron los siguientes datos:

Sujeto
Total
Dieta I II III IV V VI
1 84 35 91 57 56 45 368
2 91 48 71 45 61 61 377  y 2
ij
 108064
3 122 53 110 71 91 122 569
Total 297 136 272 173 208 228 1314

a) Defina el modelo en términos del problema.

b) Utilice nivel de significación de 0,01 para determinar si hay diferencias significativas


entre las dietas.

Estadística Aplicada2 116


Universidad Peruana de Ciencias Aplicadas

Salidas de Minitab:

Prueba de Normalidad
Normal
99
Media 1.578984E-15
Desv .Est. 10.32
95 N 18
KS 0.195
90
Valor P 0.071
80
70
Porcentaje

60
50
40
30
20

10

1
-30 -20 -10 0 10 20 30
RESIDUOS

Prueba de varianzas iguales: Tduracion vs. Dietas


Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

Dietas N Inferior Desv.Est. Superior


1 6 12.4361 21.9150 68.4655
2 6 9.5120 16.7621 52.3670
3 6 16.1282 28.4212 88.7919

Prueba de Bartlett (distribución normal)


Estadística de prueba = 1.25, valor p = 0.536

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 1.18, valor p = 0.335

Modelo lineal general: Tduracion vs. Dietas, Sujetos

Factor Tipo Niveles Valores


Dietas fijo 3 1, 2, 3
Sujetos fijo 6 1, 2, 3, 4, 5, 6

Análisis de varianza para Tduracion, utilizando SC ajustada para pruebas

Fuente GL SC sec. SC ajust. MC ajust. F P


Dietas 2 4297.0 4297.0 2148.5 11.86 0.002
Sujetos 5 6033.3 6033.3 1206.7 6.66 0.006
Error 10 1811.7 1811.7 181.2
Total 17 12142.0

S = 13.4598 R-cuad. = 85.08% R-cuad.(ajustado) = 74.63%

Observaciones inusuales de Tduracion


Residuo
Obs Tduracion Ajuste Ajuste SE Residuo estándar
18 122.000 97.833 8.973 24.167 2.41 R

R denota una observación con un residuo estandarizado grande.

Estadística Aplicada2 117


Universidad Peruana de Ciencias Aplicadas

Información agrupada utilizando el método de Tukey al 95.0% Confianza

Dietas N Media Grupo


3 6 94.8 A
2 6 62.8 B
1 6 61.3 B

Medias que no comparten una letra son significativamente diferentes.

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Tduracion
Todas las comparaciones de dos a dos entre los niveles de Dietas
Dietas = 1 restado a:

Dietas Inferior Centrada Superior --------+---------+---------+--------


2 -19.82 1.500 22.82 (--------*-------)
3 12.18 33.500 54.82 (-------*--------)
--------+---------+---------+--------
0 25 50
Dietas = 2 restado a:

Dietas Inferior Centrada Superior --------+---------+---------+--------


3 10.68 32.00 53.32 (--------*-------)
--------+---------+---------+--------
0 25 50

Pruebas simultáneas de Tukey


Variable de respuesta Tduracion
Todas las comparaciones de dos a dos entre los niveles de Dietas
Dietas = 1 restado a:

Diferencia SE de Valor P
Dietas de medias diferencia Valor T ajustado
2 1.500 7.771 0.1930 0.9797
3 33.500 7.771 4.3109 0.0040

Dietas = 2 restado a:

Diferencia SE de Valor P
Dietas de medias diferencia Valor T ajustado
3 32.00 7.771 4.118 0.0054

Estadística Aplicada2 118


Universidad Peruana de Ciencias Aplicadas

5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar el efecto
que tiene el tamaño de un anuncio en revistas y el diseño mismo del anuncio, sobre la cantidad
de pedidos recibidos (en miles). Se consideraron tres diseños de anuncios y dos tamaños de
anuncios. Los datos que se obtuvieron aparecen en la tabla siguiente. Aplique el
procedimiento de análisis de variancia para experimentos factoriales e investigue si hay
efectos apreciables debidos al tipo de diseño, tamaño del anuncio o interacción entre esos dos
factores. Use   0,025 .

Tamaño del anuncio


Pequeño Grande Total
8 12 20
A 12 8 20
14 16 30
22 26 48
Diseño B 14
20
30
30
44
50
 y 2
ijk  5882
10 18 28
C 18 14 32
15 17 32
Total 84 133 171

Factor A= Tamaño ( 1 = pequeño; 2 = grande)


Factor B= Diseño (1 = A; 2 = B; 3 = C)
Variable respuesta = cantidad de pedidos)
ni = 3 repeticiones

Salidas de Minitab:

Prueba de Normalidad
Normal
99
Media -6.90805E-16
Desv .Est. 2.842
95 N 18
KS 0.204
90
Valor P 0.048
80
70
Porcentaje

60
50
40
30
20

10

1
-7.5 -5.0 -2.5 0.0 2.5 5.0
RESI1

Prueba de varianzas iguales: Npedidos vs. Tamaño, Diseño

Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

Tamaño Diseño N Inferior Desv.Est. Superior


1 1 3 1.30498 3.05505 47.2793
1 2 3 1.77838 4.16333 64.4308
1 3 3 1.72632 4.04145 62.5446
2 1 3 1.70862 4.00000 61.9031
2 2 3 0.98647 2.30940 35.7398
2 3 3 0.88919 2.08167 32.2154

Estadística Aplicada2 119


Universidad Peruana de Ciencias Aplicadas

Prueba de Bartlett (distribución normal)


Estadística de prueba = 1.39, valor p = 0.925

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 0.24, valor p = 0.939

Modelo lineal general: Npedidos vs. Tamaño, Diseño

Factor Tipo Niveles Valores


Tamaño fijo 2 1, 2
Diseño fijo 3 1, 2, 3

Análisis de varianza para Npedidos, utilizando SC ajustada para pruebas

Fuente GL SC sec. SC ajust. MC ajust. F P


Tamaño 1 80.22 80.22 80.22 7.01 0.021
Diseño 2 453.78 453.78 226.89 19.83 0.000
Tamaño*Diseño 2 76.44 76.44 38.22 3.34 0.070
Error 12 137.33 137.33 11.44
Total 17 747.78

S = 3.38296 R-cuad. = 81.63% R-cuad.(ajustado) = 73.98%

Información agrupada utilizando el método de Tukey al 95.0% Confianza


Tamaño N Media Grupo
2 9 19.0 A
1 9 14.8 B

Medias que no comparten una letra son significativamente diferentes.

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Npedidos
Todas las comparaciones de dos a dos entre los niveles de Tamaño
Tamaño = 1 restado a:

Tamaño Inferior Centrada Superior ------+---------+---------+---------+


2 0.7476 4.222 7.697 (----------------*----------------)
------+---------+---------+---------+
2.0 4.0 6.0 8.0
Pruebas simultáneas de Tukey
Variable de respuesta Npedidos
Todas las comparaciones de dos a dos entre los niveles de Tamaño
Tamaño = 1 restado a:

Diferencia SE de Valor P
Tamaño de medias diferencia Valor T ajustado
2 4.222 1.595 2.648 0.0213

Información agrupada utilizando el método de Tukey al 95.0% Confianza

Diseño N Media Grupo


2 6 23.7 A
3 6 15.3 B
1 6 11.7 B

Medias que no comparten una letra son significativamente diferentes.

Estadística Aplicada2 120


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Npedidos
Todas las comparaciones de dos a dos entre los niveles de Diseño
Diseño = 1 restado a:

Diseño Inferior Centrada Superior ----+---------+---------+---------+--


2 6.793 12.000 17.207 (----*----)
3 -1.540 3.667 8.873 (-----*----)
----+---------+---------+---------+--
-10 0 10 20
Diseño = 2 restado a:

Diseño Inferior Centrada Superior ----+---------+---------+---------+--


3 -13.54 -8.333 -3.127 (-----*----)
----+---------+---------+---------+--
-10 0 10 20
Pruebas simultáneas de Tukey
Variable de respuesta Npedidos
Todas las comparaciones de dos a dos entre los niveles de Diseño
Diseño = 1 restado a:

Diferencia SE de Valor P
Diseño de medias diferencia Valor T ajustado
2 12.000 1.953 6.144 0.0001
3 3.667 1.953 1.877 0.1875

Diseño = 2 restado a:
Diferencia SE de Valor P
Diseño de medias diferencia Valor T ajustado
3 -8.333 1.953 -4.267 0.0029

Información agrupada utilizando el método de Tukey al 95.0% Confianza

Tamaño Diseño N Media Grupo


2 2 3 28.7 A
1 2 3 18.7 B
2 3 3 16.3 B
1 3 3 14.3 B
2 1 3 12.0 B
1 1 3 11.3 B

Medias que no comparten una letra son significativamente diferentes.

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Npedidos
Todas las comparaciones de dos a dos entre los niveles de Tamaño*Diseño
Tamaño = 1
Diseño = 1 restado a:

Tamaño Diseño Inferior Centrada Superior


1 2 -1.944 7.3333 16.611
1 3 -6.277 3.0000 12.277
2 1 -8.611 0.6667 9.944
2 2 8.056 17.3333 26.611
2 3 -4.277 5.0000 14.277

Tamaño Diseño ----+---------+---------+---------+--


1 2 (-----*-----)
1 3 (-----*-----)
2 1 (-----*------)
2 2 (------*-----)
2 3 (-----*------)
----+---------+---------+---------+--
-15 0 15 30

Estadística Aplicada2 121


Universidad Peruana de Ciencias Aplicadas

Tamaño = 1
Diseño = 2 restado a:

Tamaño Diseño Inferior Centrada Superior


1 3 -13.61 -4.333 4.944
2 1 -15.94 -6.667 2.611
2 2 0.72 10.000 19.277
2 3 -11.61 -2.333 6.944

Tamaño Diseño ----+---------+---------+---------+--


1 3 (-----*-----)
2 1 (------*-----)
2 2 (------*-----)
2 3 (-----*------)
----+---------+---------+---------+--
-15 0 15 30

Tamaño = 1
Diseño = 3 restado a:

Tamaño Diseño Inferior Centrada Superior


2 1 -11.61 -2.333 6.944
2 2 5.06 14.333 23.611
2 3 -7.28 2.000 11.277

Tamaño Diseño ----+---------+---------+---------+--


2 1 (-----*------)
2 2 (------*-----)
2 3 (-----*------)
----+---------+---------+---------+--
-15 0 15 30

Tamaño = 2
Diseño = 1 restado a:

Tamaño Diseño Inferior Centrada Superior


2 2 7.389 16.667 25.94
2 3 -4.944 4.333 13.61

Tamaño Diseño ----+---------+---------+---------+--


2 2 (-----*-----)
2 3 (-----*-----)
----+---------+---------+---------+--
-15 0 15 30

Tamaño = 2
Diseño = 2 restado a:

Tamaño Diseño Inferior Centrada Superior


2 3 -21.61 -12.33 -3.056

Tamaño Diseño ----+---------+---------+---------+--


2 3 (-----*-----)
----+---------+---------+---------+--
-15 0 15 30

Estadística Aplicada2 122


Universidad Peruana de Ciencias Aplicadas

Pruebas simultáneas de Tukey


Variable de respuesta Npedidos

Todas las comparaciones de dos a dos entre los niveles de Tamaño*Diseño


Tamaño = 1
Diseño = 1 restado a:

Diferencia SE de Valor P
Tamaño Diseño de medias diferencia Valor T ajustado
1 2 7.3333 2.762 2.6549 0.1568
1 3 3.0000 2.762 1.0861 0.8778
2 1 0.6667 2.762 0.2414 0.9999
2 2 17.3333 2.762 6.2752 0.0005
2 3 5.0000 2.762 1.8102 0.4945

Tamaño = 1
Diseño = 2 restado a:

Diferencia SE de Valor P
Tamaño Diseño de medias diferencia Valor T ajustado
1 3 -4.333 2.762 -1.569 0.6314
2 1 -6.667 2.762 -2.414 0.2255
2 2 10.000 2.762 3.620 0.0322
2 3 -2.333 2.762 -0.845 0.9527

Tamaño = 1
Diseño = 3 restado a:
Diferencia SE de Valor P
Tamaño Diseño de medias diferencia Valor T ajustado
2 1 -2.333 2.762 -0.8447 0.9527
2 2 14.333 2.762 5.1891 0.0024
2 3 2.000 2.762 0.7241 0.9750

Tamaño = 2
Diseño = 1 restado a:

Diferencia SE de Valor P
Tamaño Diseño de medias diferencia Valor T ajustado
2 2 16.667 2.762 6.034 0.0007
2 3 4.333 2.762 1.569 0.6314

Tamaño = 2
Diseño = 2 restado a:

Diferencia SE de Valor P
Tamaño Diseño de medias diferencia Valor T ajustado
2 3 -12.33 2.762 -4.465 0.0078

Estadística Aplicada2 123


Universidad Peruana de Ciencias Aplicadas

Gráfico de interacciones
1 2 3
30
Tamaño
1
25 2

Tamaño 20

15

30 10
Diseño
1
25 2
3
20
Diseño

15

10
1 2

6) La empresa MOVITEL S.A. desea investigar el número de reclamos que realizan los
usuarios de diferentes tipos de servicios y el motivo del reclamo. Para ello recoge la
información en tres semanas diferentes que se muestra en la siguiente tabla:

Servicio
Motivo del
Internet Internet Móvil Teléfono Cable
reclamo
32 34 30 15
Instalación 28 33 35 20
31 38 37 22
26 24 32 26
Sobre
23 32 28 25
facturación
24 31 34 22
Servicio 27 32 30 20
No 25 29 27 15
Disponible 28 33 31 22

Utilizando las siguientes salidas obtenidas con el Minitab y un nivel de significación del 5%,
responda a las siguientes preguntas.

a) Valide los supuestos.

Estadística Aplicada2 124


Universidad Peruana de Ciencias Aplicadas

b) ¿Existirán diferencias en la cantidad de reclamos por parte de los usuarios en relación a


los servicios y motivos considerados?

c) Para cada tipo de reclamo ¿Cuál(es) es (son) el (los) tipo(s) de servicio(s) más críticos?

Salidas de Mintab:
ni = 3 repeticiones
Servicios: 1:Internet, 2:Internet móvil, 3:Teléfono, 4:Cable
Motivos de reclamo: 1:Instalación, 2:Sobre facturación, 3:Servicio no disponible

Prueba de Normalidad
Normal
99
Media -2.17110E-15
Desv .Est. 2.346
95 N 36
KS 0.195
90
Valor P <0.010
80
70
Porcentaje

60
50
40
30
20

10

1
-5.0 -2.5 0.0 2.5 5.0
Residuos

Prueba de varianzas iguales: Nreclamos vs. Motivos, Servicios

Estadística Aplicada2 125


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza de Bonferroni de 95% para desviaciones estándares

Motivos Servicios N Inferior Desv.Est. Superior


1 1 3 0.83779 2.08167 45.5832
1 2 3 1.06481 2.64575 57.9353
1 3 3 1.45110 3.60555 78.9525
1 4 3 1.45110 3.60555 78.9525
2 1 3 0.61477 1.52753 33.4490
2 2 3 1.75429 4.35890 95.4489
2 3 3 1.22954 3.05505 66.8979
2 4 3 0.83779 2.08167 45.5832
3 1 3 0.61477 1.52753 33.4490
3 2 3 0.83779 2.08167 45.5832
3 3 3 0.83779 2.08167 45.5832
3 4 3 1.45110 3.60555 78.9525

Prueba de Bartlett (distribución normal)


Estadística de prueba = 4.43, valor p = 0.956

Prueba de Levene (cualquier distribución continua)


Estadística de prueba = 0.23, valor p = 0.993

Modelo lineal general: Nreclamos vs. Motivos, Servicios

Factor Tipo Niveles Valores


Motivos fijo 3 1, 2, 3
Servicios fijo 4 1, 2, 3, 4

Análisis de varianza para Nreclamos, utilizando SC ajustada para pruebas

Fuente GL SC sec. SC ajust. MC ajust. F P


Motivos 2 59.556 59.556 29.778 3.71 0.039
Servicios 3 717.417 717.417 239.139 29.79 0.000
Motivos*Servicios 6 140.000 140.000 23.333 2.91 0.028
Error 24 192.667 192.667 8.028
Total 35 1109.639

S = 2.83333 R-cuad. = 82.64% R-cuad.(ajustado) = 74.68%

Observaciones inusuales de Nreclamos


Residuo
Obs Nreclamos Ajuste Ajuste SE Residuo estándar
6 24.0000 29.0000 1.6358 -5.0000 -2.16 R
R denota una observación con un residuo estandarizado grande.

Información agrupada utilizando el método de Tukey al 95.0% Confianza


Motivos N Media Grupo
1 12 29.6 A
2 12 27.3 A B
3 12 26.6 B

Medias que no comparten una letra son significativamente diferentes.

Estadística Aplicada2 126


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Motivos
Motivos = 1 restado a:

Motivos Inferior Centrada Superior ----+---------+---------+---------+--


2 -5.221 -2.333 0.5539 (-----------*----------)
3 -5.887 -3.000 -0.1128 (-----------*-----------)
----+---------+---------+---------+--
-5.0 -2.5 0.0 2.5
Motivos = 2 restado a:

Motivos Inferior Centrada Superior ----+---------+---------+---------+--


3 -3.554 -0.6667 2.221 (----------*-----------)
----+---------+---------+---------+--
-5.0 -2.5 0.0 2.5

Pruebas simultáneas de Tukey


Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Motivos
Motivos = 1 restado a:

Diferencia SE de Valor P
Motivos de medias diferencia Valor T ajustado
2 -2.333 1.157 -2.017 0.1297
3 -3.000 1.157 -2.594 0.0407

Motivos = 2 restado a:

Diferencia SE de Valor P
Motivos de medias diferencia Valor T ajustado
3 -0.6667 1.157 -0.5764 0.8339

Información agrupada utilizando el método de Tukey al 95.0% Confianza


Servicios N Media Grupo
2 9 31.8 A
3 9 31.6 A
1 9 27.1 B
4 9 20.8 C

Medias que no comparten una letra son significativamente diferentes.


Intervalos de confianza simultáneos de Tukey del 95.0%
Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Servicios
Servicios = 1 restado a:

Servicios Inferior Centrada Superior


2 0.98 4.667 8.350
3 0.76 4.444 8.128
4 -10.02 -6.333 -2.650

Servicios -+---------+---------+---------+-----
2 (-----*----)
3 (----*-----)
4 (----*----)
-+---------+---------+---------+-----
-14.0 -7.0 0.0 7.0

Estadística Aplicada2 127


Universidad Peruana de Ciencias Aplicadas

Servicios = 2 restado a:

Servicios Inferior Centrada Superior


3 -3.91 -0.22 3.461
4 -14.68 -11.00 -7.317

Servicios -+---------+---------+---------+-----
3 (-----*----)
4 (----*-----)
-+---------+---------+---------+-----
-14.0 -7.0 0.0 7.0

Servicios = 3 restado a:

Servicios Inferior Centrada Superior


4 -14.46 -10.78 -7.094

Servicios -+---------+---------+---------+-----
4 (-----*----)
-+---------+---------+---------+-----
-14.0 -7.0 0.0 7.0

Pruebas simultáneas de Tukey


Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Servicios

Servicios = 1 restado a:

Diferencia SE de Valor P
Servicios de medias diferencia Valor T ajustado
2 4.667 1.336 3.494 0.0094
3 4.444 1.336 3.328 0.0140
4 -6.333 1.336 -4.742 0.0004

Servicios = 2 restado a:

Diferencia SE de Valor P
Servicios de medias diferencia Valor T ajustado
3 -0.22 1.336 -0.166 0.9983
4 -11.00 1.336 -8.236 0.0000

Servicios = 3 restado a:

Diferencia SE de Valor P
Servicios de medias diferencia Valor T ajustado
4 -10.78 1.336 -8.069 0.0000

Información agrupada utilizando el método de Tukey al 95.0% Confianza


Motivos Servicios N Media Grupo
1 2 3 35.0 A
1 3 3 34.0 A
2 3 3 31.3 A B
3 2 3 31.3 A B
1 1 3 30.3 A B
3 3 3 29.3 A B
2 2 3 29.0 A B
3 1 3 26.7 A B C
2 4 3 24.3 B C
2 1 3 24.3 B C
1 4 3 19.0 C
3 4 3 19.0 C

Estadística Aplicada2 128


Universidad Peruana de Ciencias Aplicadas

Medias que no comparten una letra son significativamente diferentes.

Intervalos de confianza simultáneos de Tukey del 95.0%


Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Motivos*Servicios
Motivos = 1
Servicios = 1 restado a:

Motivos Servicios Inferior Centrada Superior


1 2 -3.68 4.67 13.009
1 3 -4.68 3.67 12.009
1 4 -19.68 -11.33 -2.991
2 1 -14.34 -6.00 2.343
2 2 -9.68 -1.33 7.009
2 3 -7.34 1.00 9.343
2 4 -14.34 -6.00 2.343
3 1 -12.01 -3.67 4.676
3 2 -7.34 1.00 9.343
3 3 -9.34 -1.00 7.343
3 4 -19.68 -11.33 -2.991

Motivos Servicios ------+---------+---------+---------+


1 2 (----*-----)
1 3 (----*-----)
1 4 (----*-----)
2 1 (-----*-----)
2 2 (----*-----)
2 3 (-----*----)
2 4 (-----*-----)
3 1 (-----*----)
3 2 (-----*----)
3 3 (----*-----)
3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 1
Servicios = 2 restado a:

Motivos Servicios Inferior Centrada Superior


1 3 -9.34 -1.00 7.343
1 4 -24.34 -16.00 -7.657
2 1 -19.01 -10.67 -2.324
2 2 -14.34 -6.00 2.343
2 3 -12.01 -3.67 4.676
2 4 -19.01 -10.67 -2.324
3 1 -16.68 -8.33 0.009
3 2 -12.01 -3.67 4.676
3 3 -14.01 -5.67 2.676
3 4 -24.34 -16.00 -7.657

Motivos Servicios ------+---------+---------+---------+


1 3 (----*-----)
1 4 (----*-----)
2 1 (-----*----)
2 2 (-----*-----)
2 3 (-----*----)
2 4 (-----*----)
3 1 (----*-----)
3 2 (-----*----)

Estadística Aplicada2 129


Universidad Peruana de Ciencias Aplicadas

3 3 (----*-----)
3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 1
Servicios = 3 restado a:

Motivos Servicios Inferior Centrada Superior


1 4 -23.34 -15.00 -6.657
2 1 -18.01 -9.67 -1.324
2 2 -13.34 -5.00 3.343
2 3 -11.01 -2.67 5.676
2 4 -18.01 -9.67 -1.324
3 1 -15.68 -7.33 1.009
3 2 -11.01 -2.67 5.676
3 3 -13.01 -4.67 3.676
3 4 -23.34 -15.00 -6.657

Motivos Servicios ------+---------+---------+---------+


1 4 (-----*-----)
2 1 (-----*----)
2 2 (-----*----)
2 3 (----*-----)
2 4 (-----*----)
3 1 (----*-----)
3 2 (----*-----)
3 3 (-----*----)
3 4 (-----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 1
Servicios = 4 restado a:

Motivos Servicios Inferior Centrada Superior


2 1 -3.009 5.3333 13.676
2 2 1.657 10.0000 18.343
2 3 3.991 12.3333 20.676
2 4 -3.009 5.3333 13.676
3 1 -0.676 7.6667 16.009
3 2 3.991 12.3333 20.676
3 3 1.991 10.3333 18.676
3 4 -8.343 -0.0000 8.343

Motivos Servicios ------+---------+---------+---------+


2 1 (-----*----)
2 2 (-----*----)
2 3 (----*-----)
2 4 (-----*----)
3 1 (----*-----)
3 2 (----*-----)
3 3 (-----*----)
3 4 (-----*-----)
------+---------+---------+---------+
-15 0 15 30

Estadística Aplicada2 130


Universidad Peruana de Ciencias Aplicadas

Motivos = 2
Servicios = 1 restado a:

Motivos Servicios Inferior Centrada Superior


2 2 -3.68 4.667 13.009
2 3 -1.34 7.000 15.343
2 4 -8.34 -0.000 8.343
3 1 -6.01 2.333 10.676
3 2 -1.34 7.000 15.343
3 3 -3.34 5.000 13.343
3 4 -13.68 -5.333 3.009

Motivos Servicios ------+---------+---------+---------+


2 2 (----*-----)
2 3 (-----*----)
2 4 (-----*-----)
3 1 (-----*----)
3 2 (-----*----)
3 3 (----*-----)
3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 2
Servicios = 2 restado a:
Motivos Servicios Inferior Centrada Superior
2 3 -6.01 2.33 10.676
2 4 -13.01 -4.67 3.676
3 1 -10.68 -2.33 6.009
3 2 -6.01 2.33 10.676
3 3 -8.01 0.33 8.676
3 4 -18.34 -10.00 -1.657

Motivos Servicios ------+---------+---------+---------+


2 3 (-----*----)
2 4 (-----*----)
3 1 (----*-----)
3 2 (-----*----)
3 3 (----*-----)
3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 2
Servicios = 3 restado a:

Motivos Servicios Inferior Centrada Superior


2 4 -15.34 -7.00 1.343
3 1 -13.01 -4.67 3.676
3 2 -8.34 -0.00 8.343
3 3 -10.34 -2.00 6.343
3 4 -20.68 -12.33 -3.991

Motivos Servicios ------+---------+---------+---------+


2 4 (----*-----)
3 1 (-----*----)
3 2 (-----*-----)
3 3 (-----*----)
3 4 (-----*----)
------+---------+---------+---------+
-15 0 15 30

Estadística Aplicada2 131


Universidad Peruana de Ciencias Aplicadas

Motivos = 2
Servicios = 4 restado a:

Motivos Servicios Inferior Centrada Superior


3 1 -6.01 2.333 10.676
3 2 -1.34 7.000 15.343
3 3 -3.34 5.000 13.343
3 4 -13.68 -5.333 3.009

Motivos Servicios ------+---------+---------+---------+


3 1 (-----*----)
3 2 (-----*----)
3 3 (----*-----)
3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 3
Servicios = 1 restado a:

Motivos Servicios Inferior Centrada Superior


3 2 -3.68 4.667 13.0094
3 3 -5.68 2.667 11.0094
3 4 -16.01 -7.667 0.6760
Motivos Servicios ------+---------+---------+---------+
3 2 (----*-----)
3 3 (-----*----)
3 4 (-----*----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 3
Servicios = 2 restado a:

Motivos Servicios Inferior Centrada Superior


3 3 -10.34 -2.00 6.343
3 4 -20.68 -12.33 -3.991

Motivos Servicios ------+---------+---------+---------+


3 3 (-----*----)
3 4 (-----*----)
------+---------+---------+---------+
-15 0 15 30

Motivos = 3
Servicios = 3 restado a:

Motivos Servicios Inferior Centrada Superior


3 4 -18.68 -10.33 -1.991

Motivos Servicios ------+---------+---------+---------+


3 4 (----*-----)
------+---------+---------+---------+
-15 0 15 30

Estadística Aplicada2 132


Universidad Peruana de Ciencias Aplicadas

Pruebas simultáneas de Tukey


Variable de respuesta Nreclamos
Todas las comparaciones de dos a dos entre los niveles de Motivos*Servicios
Motivos = 1
Servicios = 1 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
1 2 4.67 2.313 2.017 0.6788
1 3 3.67 2.313 1.585 0.8984
1 4 -11.33 2.313 -4.899 0.0025
2 1 -6.00 2.313 -2.594 0.3354
2 2 -1.33 2.313 -0.576 1.0000
2 3 1.00 2.313 0.432 1.0000
2 4 -6.00 2.313 -2.594 0.3354
3 1 -3.67 2.313 -1.585 0.8984
3 2 1.00 2.313 0.432 1.0000
3 3 -1.00 2.313 -0.432 1.0000
3 4 -11.33 2.313 -4.899 0.0025

Motivos = 1
Servicios = 2 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
1 3 -1.00 2.313 -0.432 1.0000
1 4 -16.00 2.313 -6.916 0.0001
2 1 -10.67 2.313 -4.611 0.0050
2 2 -6.00 2.313 -2.594 0.3354
2 3 -3.67 2.313 -1.585 0.8984
2 4 -10.67 2.313 -4.611 0.0050
3 1 -8.33 2.313 -3.602 0.0504
3 2 -3.67 2.313 -1.585 0.8984
3 3 -5.67 2.313 -2.449 0.4133
3 4 -16.00 2.313 -6.916 0.0001

Motivos = 1
Servicios = 3 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
1 4 -15.00 2.313 -6.484 0.0001
2 1 -9.67 2.313 -4.179 0.0138
2 2 -5.00 2.313 -2.161 0.5889
2 3 -2.67 2.313 -1.153 0.9881
2 4 -9.67 2.313 -4.179 0.0138
3 1 -7.33 2.313 -3.170 0.1225
3 2 -2.67 2.313 -1.153 0.9881
3 3 -4.67 2.313 -2.017 0.6788
3 4 -15.00 2.313 -6.484 0.0001

Motivos = 1
Servicios = 4 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
2 1 5.3333 2.313 2.30540 0.4989
2 2 10.0000 2.313 4.32263 0.0099
2 3 12.3333 2.313 5.33124 0.0009
2 4 5.3333 2.313 2.30540 0.4989
3 1 7.6667 2.313 3.31402 0.0921
3 2 12.3333 2.313 5.33124 0.0009
3 3 10.3333 2.313 4.46672 0.0071
3 4 -0.0000 2.313 -0.00000 1.0000

Estadística Aplicada2 133


Universidad Peruana de Ciencias Aplicadas

Motivos = 2
Servicios = 1 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
2 2 4.667 2.313 2.017 0.6788
2 3 7.000 2.313 3.026 0.1611
2 4 -0.000 2.313 -0.000 1.0000
3 1 2.333 2.313 1.009 0.9959
3 2 7.000 2.313 3.026 0.1611
3 3 5.000 2.313 2.161 0.5889
3 4 -5.333 2.313 -2.305 0.4989

Motivos = 2
Servicios = 2 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
2 3 2.33 2.313 1.009 0.9959
2 4 -4.67 2.313 -2.017 0.6788
3 1 -2.33 2.313 -1.009 0.9959
3 2 2.33 2.313 1.009 0.9959
3 3 0.33 2.313 0.144 1.0000
3 4 -10.00 2.313 -4.323 0.0099

Motivos = 2
Servicios = 3 restado a:
Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
2 4 -7.00 2.313 -3.026 0.1611
3 1 -4.67 2.313 -2.017 0.6788
3 2 -0.00 2.313 -0.000 1.0000
3 3 -2.00 2.313 -0.865 0.9989
3 4 -12.33 2.313 -5.331 0.0009
Motivos = 2
Servicios = 4 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
3 1 2.333 2.313 1.009 0.9959
3 2 7.000 2.313 3.026 0.1611
3 3 5.000 2.313 2.161 0.5889
3 4 -5.333 2.313 -2.305 0.4989

Motivos = 3
Servicios = 1 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
3 2 4.667 2.313 2.017 0.6788
3 3 2.667 2.313 1.153 0.9881
3 4 -7.667 2.313 -3.314 0.0921

Motivos = 3
Servicios = 2 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
3 3 -2.00 2.313 -0.865 0.9989
3 4 -12.33 2.313 -5.331 0.0009

Estadística Aplicada2 134


Universidad Peruana de Ciencias Aplicadas

Motivos = 3
Servicios = 3 restado a:

Diferencia SE de Valor P
Motivos Servicios de medias diferencia Valor T ajustado
3 4 -10.33 2.313 -4.467 0.0071

Gráfico de Interacción
1 2 3 4
36
Motiv os
1
32 2
3
28
Motivos
24

20
36
Serv icios
1
32 2
3
28 4
Servicios
24

20

1 2 3

Estadística Aplicada2 135


Universidad Peruana de Ciencias Aplicadas

Unidad 5: Análisis de Regresión

5. Análisis de Regresión
5.1 Análisis de Regresión Lineal Simple y de Correlación
El análisis de regresión lineal simple y de correlación comprende el estudio de los datos
muestrales para saber si dos variables están relacionadas linealmente entre sí en una población.

El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede usarse
para estimar o predecir los valores de una variable cuando se conocen o se suponen conocidos los
valores de la otra.

El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.

Ejemplos
 ¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
 ¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?

Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.

El diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en
un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de
tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se
estimará una recta y en el segundo caso una curva.

A: PRIMER TIPO B: SEGUNDO TIPO

Estadística Aplicada2 136


Universidad Peruana de Ciencias Aplicadas

C:Tercer tipo

Ejemplo 1
La alcaldesa de cierta ciudad desea dar de baja a un conjunto de autos que emitan excesiva
cantidad de Monóxido de nitrógeno (NO); por ser uno de los elementos que contamina el
medio ambiente, los técnicos y asesores desean saber, si la cantidad de Monóxido de nitrógeno
(NO en mg/m3) expulsado por los autos se relaciona con la antigüedad de los autos. Para el
estudio seleccionaron una muestra de 10 autos y les solicitaron que utilizaran una nueva
gasolina reformulada que acaba de ingresar al mercado, y posteriormente hicieron la medición
respectiva.

Año Antigüedad del auto (años) Monóxido de Nitrógeno (mg/m3)


2009 2 1,8
2008 3 5,16
2009 2 4,8
2000 11 12,97
2004 7 5,92
1995 16 20,66
2002 9 10,16
2009 2 4,17
1999 12 13,52
2007 4 1,33

A continuación se presenta el diagrama de dispersión para estos datos, de donde resulta


evidente que a mayor antigüedad del auto, mayor será la cantidad de monóxido de carbono
emitida. Además, se aprecia que esta relación podría describirse bastante bien con una línea
recta.

Estadística Aplicada2 137


Universidad Peruana de Ciencias Aplicadas

i. El método de los mínimos cuadrados


El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido
como el método de mínimos cuadrados, cuya recta resultante tiene dos características
importantes:

La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).

Considere el siguiente modelo para describir la relación entre los valores de las variables X e
Y
yi   0  1 xi   i
y sea yˆ  ˆ  ˆ x la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
0 1
minimiza es:
n

(y
i 1
i  yˆ i ) 2

Los valores de  0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:

n
 n 
 yi
i 1
 n 0   1   x i 
 i 1 
n
 n   n 

i 1
xi yi   0   xi   1   xi2 
 i 1   i 1 

Resolviendo las ecuaciones simultáneas para  0 y 1 se tiene

 n   n  n 
n  xi yi     xi   yi 
ˆ1   i 1   i 1  i 1 
2
y ˆ0  y  ˆ1 x
 n 2  n 
n  xi     xi 
 i 1   i 1 

Estadística Aplicada2 138


Universidad Peruana de Ciencias Aplicadas

ii. La línea recta estimada


La línea recta estimada tiene dos importantes componentes:

 La pendiente de la recta y
 La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)

La ecuación lineal es la siguiente:

Pendiente
Punto de corte
yˆ i  ˆ0  ˆ1 xi

Ejemplo
Estime la ecuación de la recta del ejemplo anterior.

Nº Antigüedad del auto (años): X Monóxido de Nitrógeno (mg/m3): Y XY X2 Y2


1 2 1,8 3,60 4 3,24
2 3 5,16 15,48 9 26,6256
3 2 4,8 9,60 4 23,04
4 11 12,97 142,67 121 168,2209
5 7 5,92 41,44 49 35,0464
6 16 20,66 330,56 256 426,8356
7 9 10,16 91,44 81 103,2256
8 2 4,17 8,34 4 17,3889
9 12 13,52 162,24 144 182,7904
10 4 1,33 5,32 16 1,7689
Suma 68,00 80,49 810,69 688,00 988,18

Descomposición de la varianza total

Y yˆ i  ˆ0  ˆ1 xi

y (xi,
yi  yˆ i yi)
i
yi  y
yˆi  y
y

x xi X

Estadística Aplicada2 139


Universidad Peruana de Ciencias Aplicadas

La distancia ( yi  y ) se puede descomponer de la siguiente manera:

( yi  y)  ( yˆ i  y)  ( yi  yˆ i )

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:

 ( yi  y ) 2   ( yˆ i  y )  ( yi  yˆ i )
n n
2

i 1 i 1
n n n
  ( yˆ i  y ) 2   ( yi  yˆ i ) 2  2 ( yˆ i  y )( yi  yˆ )
i 1 i 1 i 1

Operando algebraicamente se obtiene la siguiente relación:

n n n

 ( yi  y ) 2   ( yˆ i  y ) 2   ( yi  yˆ i ) 2
i 1 i 1 i 1

    
SCT  SCR  SCE

Sumas de Cuadrados
2
 n 
  yi 
  ( y i  y ) 2   y i2   i 1 
n n
SCT
i 1 i 1 n
  n

2

   xi  
 
SCR   ( yˆ i  y )  ˆ 1  ( xi  x )  ˆ 1   xi   i 1 
n n n
2 2 2 2 2

i 1 i 1  i 1 n 
 
 
n
SCE   ( y i  yˆ i ) 2  SCT  SCR
i 1

Estadística Aplicada2 140


Universidad Peruana de Ciencias Aplicadas

iii. Supuestos de la Regresión


 Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.

 Los errores o residuos tienen media igual a cero y varianza igual a 2. Se suele
solicitar la gráfica del histograma de frecuencias de los residuos en el que se muestra
el valor de la media de los residuos y su varianza.

 Los errores o residuos aleatorios asociados a cualquier par de valores


asociados a la variable dependiente Y, no se encuentran autocorrelacionados.
Para realizar la verificación de esta prueba utilizamos la prueba de Durbin – Watson
cuyo estadístico toma valores desde Cero hasta cuatro.

Si D-W se aproxima a Cero, decimos que los residuos presentan


autocorrelación positiva.
Si D-W toma valores en el intervalo que va desde 1 a 3, decimos que no existe
autocorrelación entre los residuos.
Si D-W se aproxima a Cuatro, decimos que los residuos presentan
autocorrelación negativa.

iv. Coeficiente de determinación y de no determinación


El coeficiente de determinación (r2) y de no determinación (1- r2) se calculan de la siguiente
manera:
SCR SCR
r2  y (1  r 2 )  1 
SCT SCT

El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total de y que es


explicada por la regresión.

Error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales
alrededor del plano de regresión. Es definido por:

SCE SCE
Se    CME
n p n2

donde p es el número de parámetros a estimar (intercepto y pendiente).

Estadística Aplicada2 141


Universidad Peruana de Ciencias Aplicadas

v. Coeficiente de correlación
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por  varía dentro del
intervalo de -1 y 1. Si   0 entonces no existe correlación o asociación lineal entre las
variables, conforme más cercano a 1 ó a -1 sea, mayor será la asociación, y cuando  es
exactamente 1 ó -1 la asociación es perfecta.

 es r y se calcula mediante la siguiente fórmula:

1 n
cov( X , Y )  ( xi  x )( yi  y )
n i 1
r 
S X SY 1 n 1 n

n i 1
( xi  x ) 2 . 
n i 1
( yi  y ) 2

 n   n  n 
n  xi yi     xi   yi 
  i 1   i 1  i 1 
  n 2   n 2    n 2   n 2 
n  xi     xi  .n  yi     yi  
  i 1   i 1     i 1   i 1  

vi. Inferencia sobre los coeficientes del modelo de regresión

Inferencia para β0

El intervalo de confianza de ( 1   )x100% para  0 y el estadístico de prueba


para contrastar las hipótesis H 0 :  0   0* y H1 :  0   0* se calculan con las
siguientes fórmulas:

ˆ0  t / 2 s
x 2
i
t
ˆ 0   0*
~ t ( n2)
nS xx
s
x 2
i

nS xx

Inferencia para β1

El intervalo de confianza de ( 1   )x100% para  1 y el estadístico de prueba


para contrastar las hipótesis H 0 : 1  1 y H1 : 1  1* se calculan con las
*

siguientes fórmulas:

Estadística Aplicada2 142


Universidad Peruana de Ciencias Aplicadas

s ˆ1  1*
ˆ1  t / 2 t ~ t ( n2)
S xx s
S xx

Inferencia sobre el coeficiente de correlación


Para probar las hipótesis:
H0 :   0
H1 :   0

El estadístico de prueba es:


r n2
t ~ t ( n2)
1 r2

Si se asume que X e Y siguen la distribución normal multivariada, es posible probar las


hipótesis más generales:
H0 :   0
H1 :    0
El estadístico de prueba es:
n  3  (1  r )(1   0 ) 
Z ln   ~ N (0,1)
2  (1  r )(1   0 ) 

Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:

Valor medio
1 ( x0  x ) 2
yˆ 0  t ( n2, / 2) Se 
n S xx

Valor individual
1 ( x0  x ) 2
yˆ 0  t ( n2, / 2) Se 1  
n S xx
 x  2

 x    x  x
2 i 2
Donde: S xx i i
n

Otra forma:
2
SCR  S 
S xx  2   e 
ˆ1  S b1 

Estadística Aplicada2 143


Universidad Peruana de Ciencias Aplicadas

Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.

Aplicación con el Minitab

Referente al ejercicio sobre la cantidad de monóxido de nitrógeno emitido, se calcula el


coeficiente de correlación lineal de las variables, la recta estimada, y se realizan las pruebas
de hipótesis para los coeficientes:

Correlaciones: Y: Monóxido, X: Antiguedad

Correlación de Pearson de Y: Monóxido y X: Antiguedad = 0.950


Valor P = 0.000

Análisis de regresión: Y:Monoxido vs. X:Antiguedad

La ecuación de regresión es
Y:Monoxido = 0.11 + 1.17 X:Antiguedad

Coef.
Predictor Coef de EE T P
Constante 0.111 1.120 0.10 0.924
X:Antiguedad 1.1674 0.1350 8.65 0.000

S = 2.02740 R-cuad. = 90.3% R-cuad.(ajustado) = 89.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 307.44 307.44 74.80 0.000
Error residual 8 32.88 4.11
Total 9 340.32

Estadístico de Durbin-Watson = 1.77046


IC para el valor
medio
Valores pronosticados para nuevas observaciones
PI: para el valor
Nueva individual
Obs Ajuste Ajuste SE IC de 95% PI de 95%
1 23.458 1.894 (19.092, 27.825) (17.061, 29.855)X

X denota un punto que es un valor atípico en los predictores.

Valores de predictores para nuevas observaciones

Nueva
Obs X:Antiguedad
1 20.0
Estadística Aplicada2 144
Universidad Peruana de Ciencias Aplicadas

Análisis de los residuales

Gráficas de residuos para Y:Monoxido


Gráfica de probabilidad normal vs. ajust es
99
2
90
Porcentaje

Residuo
0
50

-2
10

1 -4
-5.0 -2.5 0.0 2.5 5.0 0 5 10 15 20
Residuo Valor ajustado

Hist ograma vs. orden


4
2

3
Frecuencia

Residuo
0
2
-2
1

0 -4
-3 -2 -1 0 1 2 1 2 3 4 5 6 7 8 9 10
Residuo Orden de observación

Prueba de Normalidad
99
Media 1.509903E-15
Desv .Est. 1.911
95 N 10
KS 0.191
90 Valor P >0.150

80
70
Porcentaje

60
50
40
30
20

10

1
-5 -4 -3 -2 -1 0 1 2 3 4
RESID1

Pronósticos

Estadística Aplicada2 145


Universidad Peruana de Ciencias Aplicadas

Preguntas a resolver con las salidas obtenidas con el programa Minitab.


a. Analice los supuestos del modelo. Use   0,05.

b. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%. Interprete
la pendiente.

c. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de un año de
antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en más de
0.85 (mg/m3)?

d. Con 95% de confianza, ¿cuál será la cantidad emitida de monóxido de nitrógeno cuando un
auto tiene 20 años de antigüedad?

Estadística Aplicada2 146


Universidad Peruana de Ciencias Aplicadas

e. Con 95% de confianza, ¿cuál será la cantidad promedio emitida de monóxido de nitrógeno
cuando un auto tiene 20 años de antigüedad?

f. ¿Qué porcentaje de la variabilidad de la cantidad emitida de monóxido de carbono por el auto


es explicada por el modelo de regresión estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

h. Con un nivel de significación del 5%, ¿se puede afirmar que la emisión de monóxido de
nitrógeno y la antigüedad del auto tienen una correlación menor a 0.75?

Estadística Aplicada2 147


Universidad Peruana de Ciencias Aplicadas

Solución:

Y = Monóxido de carbono (Variable dependiente)


X = antigüedad del auto. (Variable inpendiente)

a) Verificación de supuestos:

Ho: Los errores se distribuyen normalmente


H1: Los errores No se distribuyen normalmente

Prueba de Normalidad
99
Media 1.509903E-15
Desv .Est. 1.911
95 N 10
KS 0.191
90 Valor P >0.150

80
70
Porcentaje

60
50
40
30
20

10

1
-5 -4 -3 -2 -1 0 1 2 3 4
RESID1

Sig = 0.150 > 0.05 ;


Decisión: No se rechaza Ho.
Conclusión: Con un 5% de significación, se asume que los errores tienen distribución normal.

Ho: No existe autocorrelación entre los residuos.


H1: Si existe autocorrelación entre los residuos.

DW = 1.77046 se encuentra en el intervalo [1; 3]

Decisión: No se rechaza Ho.


Conclusión: No existe autocorrelación entre los residuos.

Se cumplen ambos supuestos.

b) Validación del modelo: Modelo de regresión estimado: Yˆ 0.111 1.1674X

Coef.
Predictor Coef de EE T P
Constante 0.111 1.120 0.10 0.924
X:Antiguedad 1.1674 0.1350 8.65 0.000

Ho: β1 = 0 (El modelo de regresión No es significativo)


H1: β 1 = 0 (El modelo de regresión Si es significativo)

Estadística Aplicada2 148


Universidad Peruana de Ciencias Aplicadas

Sig = 0.00 < 0.05

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo de
regresión estimado es significativo.

β1= 1.1674. Si antigüedad del auto aumenta en un año, la emisión de monóxido de nitrógeno
será de 1.1674 mg/m3

c) Prueba de hipótesis para un valor cualquiera de la pendiente


Ho: β1 = 0.85
H1: β1 > 0.85

1.1674  0.85
t calculado   2.351  tcritico(0.05;8)  1.8595
0.135
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que por cada incremento de
un año de antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en
más de 0.85 (mg/m3).

d) Intervalo de confianza del 95% para un valor individual, x= 20

NOTA: Utilizar todos los decimales que nos brinda el Minitab.

n 10
Xo 20 Prom X 6.8
Y0 23.45824468
SXX 225.6000
S 2.02740
T(0.025;8) 2.306004135
IC indiv 17.0610113 29.85548

1 20  6.8
2
23.45824..  2.3060014 2.0274 1  
10 225.6

IC = < 17.061 ; 29.855 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno,
cuando un auto tiene 20 años de antigüedad, se encontrará entre 17.061 y 29.855 unidades de
mg/m3.

e) Intervalo de confianza del 95% para un valor promedio, x = 20

1 20  6.8
2
Estadística
23.45824Aplicada2
..  2.3060014 2.0274  149
10 225.6
Universidad Peruana de Ciencias Aplicadas

IC = < 19.09165 ; 27.8248 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno
promedio, cuando un auto tiene 20 años de antigüedad, se encontrará entre 19.092 y 27.825
unidades de mg/m3.

f) Explicación de la variabilidad

Utilizamos el Rcuadrado (R2) = 0.903.

El 90.3% de la variabilidad de la cantidad de monóxido de nitrógeno emitida por un auto es


explicada por el modelo de regresión estimada.

g) Prueba de hipótesis para la asociación de las variables:

Ho: ρ0 = 0 (No existe asociación lineal entre las variables)


H1: ρ0 ≠ 0 (Si existe asociación lineal entre las variables)

0.9503 10  2
tcal   8.6302  tcritico(0.025;8)  2.306
1  0.903
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significancia del 5% se puede afirmar la antigüedad del auto
está correlacionado con la emisión de monóxido de nitrógeno.
h) Prueba de hipótesis para un valor del coeficiente de correlación

Ho: ρ0 = 0
H1: ρ0 < 0.75

10  3  (1  0.9503)(1  0.75) 
Z cal  ln    2.2804
2  (1  0.9503)(1  0.75) 

Z(0.05) = -1.64
Decisión: No se rechaza Ho
Conclusión: Con un nivel de significación del 5%, no se puede afirmar que la emisión de
monóxido de nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75.

Estadística Aplicada2 150


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2:
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:

Temperatura x 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2
Azúcar transformada y 8.1 7.8 8.5 8.2 9.5 8.9 9 10.2 9.3 9.9 10.5

Correlaciones: Y:Azucar, X:Temperatura

Correlación de Pearson de Y:Azucar y X:Temperatura = 0.891


Valor P = 0.000

Prueba de Normalidad
Normal
99
Media -3.14900E-15
Desv .Est. 0.4035
95 N 11
KS 0.179
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-1.0 -0.5 0.0 0.5 1.0
RESID2

Análisis de regresión: Y:Azucar vs. X:Temperatura

La ecuación de regresión es
Y:Azucar = 5.50 + 2.39 X:Temperatura
Coef.
Predictor Coef de EE T P
Constante 5.4955 0.6217 8.84 0.000
X:Temperatura 2.3909 0.4056 5.90 0.000

S = 0.425346 R-cuad. = 79.4% R-cuad.(ajustado) = 77.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 6.2881 6.2881 34.76 0.000
Error residual 9 1.6283 0.1809
Total 10 7.9164

Estadístico de Durbin-Watson = 3.14690

Estadística Aplicada2 151


Universidad Peruana de Ciencias Aplicadas

Responder las siguientes preguntas con las salidas mostradas anteriormente:

a. Elabore el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use   0,05.

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%. Interprete
la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de un ºC de
temperatura, la cantidad de azúcar trasformada se incrementará en más de 2.4 unidades.

Estadística Aplicada2 152


Universidad Peruana de Ciencias Aplicadas

e. Con 95% de confianza, ¿cuál será la cantidad de azúcar trasformada cuando la temperatura
sea de 2 º F?

f. Con 95% de confianza, ¿cuál será la cantidad media de azúcar trasformada cuando la
temperatura sea de 2 º F?

g. ¿Qué porcentaje de la variabilidad de la cantidad de azúcar trasformada es explicada por el


modelo de regresión estimada?

h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

Estadística Aplicada2 153


Universidad Peruana de Ciencias Aplicadas

i. Con un nivel de significación del 5%, ¿se puede afirmar que la de azúcar trasformada y la
temperatura están correlacionadas en más de 0.90?

Estadística Aplicada2 154


Universidad Peruana de Ciencias Aplicadas

5.2 Regresión no lineal


Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se gráfica
β x
lnyi versus xi, esto indica que la media de la distribución de y está dada por β 0 e 1 . Si se toma
 x
logaritmos a la ecuación y   0 e 1 esta se convierte en:
ln y  ln  0  1 x
y *   0*  1 x .......... ........ (1)

la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser tratada
bajo los mismos lineamientos presentados en la sección anterior.
Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se
muestran algunas transformaciones importantes:

Transformación
Forma funcional que relaciona y con x Función
apropiada
Exponencial y   0 e 1 x y*  ln y y*  f ( x)
y*  ln y
Potencia y   0 x 1 y*  f ( x*)
x*  ln x
1 1
Recíproca y   0  1   x*  y  f (x*)
 x x
1
y* 
Función 1 y
y y*  f ( x*)
hiperbólica  0  1 x 1
x* 
x

Función exponencial
y y
0
1  0
1  0

0
x x

Estadística Aplicada2 155


Universidad Peruana de Ciencias Aplicadas

Función potencia

y 1  1 y

0  1  1
1  0

0
x x

Función recíproca

y y

0
1  0
1  0

0

x x

Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):
Millas conducidas (en miles) x Porcentaje usable y Lny
1 98,2 4,587
2 91,7 4,519
5 81,3 4,398
10 64,0 4,159
20 36,4 3,595
30 32,6 3,484
40 17,1 2,839

a. Realice un diagrama de dispersión entre estas dos variables.


b. Determine el mejor modelo de regresión no lineal a un nivel de significación del 1,5%.
c. Estime el porcentaje de neumáticos usables, cuando el número de millas recorridas ha sido de
15000 millas. Utilice un intervalo de predicción del 95%.

Estadística Aplicada2 156


Universidad Peruana de Ciencias Aplicadas

SOLUCION:
a. Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la estimación
con Excel.

b. Debajo se muestra en orden de jerarquía los modelos de regresión obtenidos con el


programa Excel.

Modelos Orden R2
Cuadrático 0.9862
Exponencial 0.9787
Lineal 0.9332
Potencia 0.8401

Salidas obtenidas con el programa Minitab:

Lineal

Análisis de regresión: y vs. x

La ecuación de regresión es
y = 91.7 - 2.04 x

Coef.
Predictor Coef de EE T P
Constante 91.660 5.080 18.04 0.000
x -2.0400 0.2442 -8.35 0.000

S = 9.01728 R-cuad. = 93.3% R-cuad.(ajustado) = 92.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 5675.2 5675.2 69.80 0.000
Error residual 5 406.6 81.3
Total 6 6081.7

Estadística Aplicada2 157


Universidad Peruana de Ciencias Aplicadas

Cuadrático

Análisis de regresión: y vs. x, x2

La ecuación de regresión es
y = 99.9 - 3.92 x + 0.0481 x2

Predictor Coef Coef. de EE T P


Constante 99.897 3.330 30.00 0.000
x -3.9243 0.4967 -7.90 0.001
x2 0.04813 0.01229 3.92 0.017

S = 4.58388 R-cuad. = 98.6% R-cuad.(ajustado) = 97.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 5997.7 2998.8 142.72 0.000
Error residual 4 84.0 21.0
Total 6 6081.7

Fuente GL SC sec.
x 1 5675.2
x2 1 322.5

Potencia

Análisis de regresión: Lny vs. Lnx

La ecuación de regresión es
Lny = 4.84 - 0.428 Lnx

Predictor Coef Coef. de EE T P


Constante 4.8385 0.2059 23.50 0.000
Lnx -0.42808 0.08352 -5.13 0.004
S = 0.285574 R-cuad. = 84.0% R-cuad.(ajustado) = 80.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 2.1424 2.1424 26.27 0.004
Error residual 5 0.4078 0.0816
Total 6 2.5501

Exponencial

Análisis de regresión: Lny vs. x

La ecuación de regresión es
Lny = 4.60 - 0.0428 x

Estadística Aplicada2 158


Universidad Peruana de Ciencias Aplicadas

Predictor Coef Coef. de EE T P


Constante 4.60012 0.05870 78.37 0.000
x -0.042781 0.002821 -15.16 0.000

S = 0.104188 R-cuad. = 97.9% R-cuad.(ajustado) = 97.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 2.4958 2.4958 229.92 0.000
Error residual 5 0.0543 0.0109
Total 6 2.5501

Iniciar con el modelo cuadrático: R2 = 0.986. Y = 99.897 – 3.924X + 0.048X2

Validación: ( α = 0.015)
Ho: β 2 = 0 (El modelo de regresión No es significativo)
H1: β 2 = 0 (El modelo de regresión Si es significativo)
Sig = 0.017 > 0.015

Decisión: No se rechaza Ho
Conclusión: Con un nivel de significación del 1.5%, se puede afirmar que el modelo cuadrático
no es significativo o válido.

Segundo modelo a evaluar: Exponencial. R2 = 0.979. Y*= 4.6 - 0.0428*X si se aplica el


antilogaritmo, regresamos al modelo original: Y = 99.496 e - 0.0428 X

Ho: β 1= 0 (El modelo de regresión No es significativo)


H1: β 1= 0 (El modelo de regresión Si es significativo)

Sig = 0.000 < 0.015

Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 1.5%, se puede afirmar que el modelo exponencial
es válido.

Nota: La siguiente tabla resulta de ingresar en el programa Minitab, la variable Ln Y

Predictor Coef Coef. de EE T P


Constante 4.60012 0.05870 78.37 0.000
x -0.042781 0.002821 -15.16 0.000

A partir de la salida que presenta el Minitab, la ecuación estimada es:

Estadística Aplicada2 159


Universidad Peruana de Ciencias Aplicadas

yˆ*  4,600  0,04278x

de dónde se tiene que ˆ0  e 4.6  99.484 aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:

yˆ  99,484e  0,04278 x

c. Intervalo de confianza individual, α = 5%


Dato: Xo = 15 (miles de millas)

n 7
Xo 15 Prom X 15.42857
Yo 52.37390244 Sxx 1363.714
LnYo 3.958408422
T(0.025;5) 2.570581836
Se 0.104188

IC = < 3,67207696; 4,24473988 > aplicar la función exponencial


IC = < < 39,33352; 69,73762 >

Interpretación: Con un nivel de confianza del 95%, se espera que el porcentaje de neumáticos
usables, cuando el número de millas recorridas ha sido de 15000 millas se encuentre entre
39.334% y 69.738 %.

Ejercicios 20

1. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el roce
entre dos piezas provoca un calentamiento que, a su vez, produce la soldadura entre
ambas. Suponga que se realiza un experimento sobre este tipo de soldadura, haciendo
rodar a una velocidad prefijada (en m/mn) una pieza y llevándola hasta el reposo mediante
el rozamiento con otra pieza. El calor generado por este rozamiento provoca una soldadura
de presión caliente cuya resistencia medimos en ksi. Los datos del experimento se recogen
en la tabla siguiente. Se está tratando de analizar el efecto que tiene la velocidad sobre la
resistencia de la soldadura.

Velocidad 90,31 87,32 99,77 99,86 99,42 100,98 102,81 103,73 105,2 89,18 98,21
Resistencia 63,79 56,9 82,76 84,48 86,21 87,93 90,5 94,83 96,55 64,69 81,03

De las salidas siguientes responda las siguientes preguntas; a excepción de las preguntas e y
f respectivamente:

Estadística Aplicada2 160


Universidad Peruana de Ciencias Aplicadas

Correlaciones: Resistencia, XVelocidad

Correlación de Pearson de Resistencia y X:Velocidad = 0.994


Valor P = 0.000

Análisis de regresión: Resistencia vs. Velocidad

La ecuación de regresión es
Resistencia = - 129 + 2.15 Velocidad

Predictor Coef Coef. de EE T P


Constante -129.365 7.759 -16.67 0.000
Velocidad 2.14775 0.07912 27.15 0.000

S = 1.53457 R-cuad. = 98.8% R-cuad.(ajustado) = 98.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1735.4 1735.4 736.91 0.000
Error residual 9 21.2 2.4
Total 10 1756.5

Estadístico de Durbin-Watson = 1.81235

Prueba de Normalidad
Normal
99
Media 2.325413E-14
Desv .Est. 1.456
95 N 11
KS 0.189
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-4 -3 -2 -1 0 1 2 3 4
RESID1

a. Elabore el diagrama de dispersión para los datos.

Estadística Aplicada2 161


Universidad Peruana de Ciencias Aplicadas

b. Analice los supuestos del modelo. Use   0,05.

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
velocidad en una unidad, la resistencia se incrementará en más de 0.95 (ksi)?

e. Con 95% de confianza, ¿cuál será la resistencia de la soldadura cuando la velocidad sea
de 105 m/mn?

Estadística Aplicada2 162


Universidad Peruana de Ciencias Aplicadas

f. Con 95% de confianza, ¿cuál será la resistencia media de la soldadura cuando la velocidad
sea de 105 m/mn?

g. ¿Qué porcentaje de la variabilidad de la resistencia de la soldadura es explicada por el


modelo de regresión estimada?

h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

i. Con un nivel de significación del 5%, ¿se puede afirmar que la resistencia de la soldadura
y la velocidad aplicada están correlacionadas en más de 0.82?

Estadística Aplicada2 163


Universidad Peruana de Ciencias Aplicadas

2. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de


CO en muestras de aire. Esta calibración implica que debe comprobar que no hay
diferencias significativas entre la concentración verdadera de CO (x) y la concentración
medida por el espectrómetro (y). Para ello toma 11 muestras de aire en las que conoce su
verdadera concentración de CO y las compara con la concentración medida por el
espectrómetro. Los datos son los siguientes (las unidades son ppm):

Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración medida espect. 1 12 20 29 38 48 61 68 79 91 97
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

Correlación de Pearson de Concentración medida espect. y


Concentración de CO = 0.999
Valor P = 0.000

Análisis de regresión: Concentración me vs. Concentración de

La ecuación de regresión es
Concentración medida espect. = 0.636 + 0.976 Concentración de
CO

Predictor Coef Coef. de EE T P


Constante 0.6364 0.8530 0.75 0.475
Concentración de CO 0.97636 0.01442 67.72 0.000

S = 1.51224 R-cuad. = 99.8% R-cuad.(ajustado) = 99.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 10486 10486 4585.37 0.000
Error residual 9 21 2
Total 10 10507

Estadístico de Durbin-Watson = 2.17025

Estadística Aplicada2 164


Universidad Peruana de Ciencias Aplicadas

Prueba de Normalidad
Normal
99
Media -1.15463E-14
Desv .Est. 1.435
95 N 11
KS 0.196
90
Valor P >0.150
80

Porcentaje 70
60
50
40
30
20

10

1
-4 -3 -2 -1 0 1 2 3 4
RESID2

a. Elabore el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use   0,05.

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.

Estadística Aplicada2 165


Universidad Peruana de Ciencias Aplicadas

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
concentración de CO en una unidad, la concentración medida por el espectrómetro se
incrementará en más de 0.98 ppm?

e. Con 95% de confianza, ¿cuál será la concentración medida por el espectrómetro cuando
concentración de CO en el aire sea de 105 ppm?

f. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el


modelo de regresión estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

Estadística Aplicada2 166


Universidad Peruana de Ciencias Aplicadas

3. Suponga que un ingeniero que labora en una distribuidora eléctrica de cierta ciudad de
Canadá, desea encontrar un modelo matemático que le permita predecir el consumo de
electricidad en su localidad a partir de las temperaturas mínimas que se pronostican para
el día siguiente. Los datos que tiene son una muestra la temperatura pronosticada y el
consumo real:
Temperatura
pronosticada (º C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo(megawatios) 15,5 13,5 11 8,5 14,8 9,85 10,5 8,5 10 9,5
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:
Correlación de Pearson de Consumo(megawatios) y Temperatura
pronosticada (º C) = -0.995
Valor P = 0.000

Análisis de regresión: Consumo(megawati vs. Temperatura pron

La ecuación de regresión es
Consumo(megawatios) = 13.3 - 0.187 Temperatura pronosticada (º
C)

Predictor Coef Coef. de EE T


P
Constante 13.3101 0.1193 111.61
0.000
Temperatura pronosticada (º C) -0.186533 0.006919 -26.96
0.000

S = 0.280911 R-cuad. = 98.9% R-cuad.(ajustado) = 98.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 57.359 57.359 726.88 0.000
Error residual 8 0.631 0.079
Total 9 57.990

Observaciones poco comunes


Temperatura
pronosticada Residuo
Obs (º C) Consumo(megawatios) Ajuste Ajuste SE Residuo estándar
9 14.5 10.0000 10.6054 0.0912 -0.6054 -2.28R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.58032

Estadística Aplicada2 167


Universidad Peruana de Ciencias Aplicadas

Prueba de Normalidad
Normal
99
Media -3.01981E-15
Desv .Est. 0.2648
95 N 10
KS 0.190
90
Valor P >0.150
80
70
Porcentaje

60
50
40
30
20

10

1
-0.75 -0.50 -0.25 0.00 0.25 0.50
RESID3

a. Interpretar el diagrama de dispersión para los datos.

b. Analice los supuestos del modelo. Use   0,05.

c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.

Estadística Aplicada2 168


Universidad Peruana de Ciencias Aplicadas

d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de la de la
temperatura en un grado centígrado, el consumo de electricidad disminuirá en más de 0.2
megawatios?

e. Con 95% de confianza, ¿cuál será el consumo de electricidad el consumo de electricidad


cuando la temperatura sea de -18 ºC?

f. ¿Qué porcentaje del consumo de electricidad es explicada por el modelo de regresión


estimada?

g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

Estadística Aplicada2 169


Universidad Peruana de Ciencias Aplicadas

4. Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de


cierto país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en μgr/m3.
Para ello seleccionaron aleatoriamente 11 ciudades, y registraron el contenido de SO 2 en
el aire y el número de fábricas con más de 20 empleados.

Contenido de SO2 10 13 12 17 56 36 29 14 10 24 110


Fábricas 213 91 453 454 412 80 434 136 207 368 344

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

Correlación de Pearson de Contenido de SO2 y Fábricas = 0.890


Valor P = 0.000

Análisis de regresión: Contenido de SO2 vs. Fábricas

La ecuación de regresión es
Contenido de SO2 = 14.0 + 0.0286 Fábricas

Predictor Coef Coef. de EE T P


Constante 14.001 5.128 2.73 0.023
Fábricas 0.028583 0.004868 5.87 0.000

S = 14.3776 R-cuad. = 79.3% R-cuad.(ajustado) = 77.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 7126.5 7126.5 34.47 0.000
Error residual 9 1860.4 206.7
Total 10 8986.9

Observaciones poco comunes


Contenido Residuo
Obs Fábricas de SO2 Ajuste Ajuste SE Residuo estándar
5 412 56.00 25.78 4.40 30.22 2.21R
11 3344 110.00 109.58 14.22 0.42 0.19
X

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadístico de Durbin-Watson = 1.28072

Estadística Aplicada2 170


Universidad Peruana de Ciencias Aplicadas

Prueba de Normalidad
Normal
99
Media -1.32419E-14
Desv .Est. 13.64
95 N 11
KS 0.243
90
Valor P 0.070
80
Porcentaje 70
60
50
40
30
20

10

1
-40 -30 -20 -10 0 10 20 30 40
RESID4

a. Interpretar el diagrama de dispersión para los datos.


b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de una fábrica
en la ciudad, el contenido de SO2 en el aire se incrementará en más de 0.03 unidades?
e. Con 95% de confianza, ¿cuál será el contenido de SO2 en el aire cuando el número de
fábricas sea 800?
f. ¿Qué porcentaje de la variabilidad del contenido de SO 2 en el aire es explicada por el
modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que el contenido de SO 2 en el
aire y el número de fábricas están correlacionadas en más de 0.92?

5. Una empresa dedicada a la producción de herramientas de acero, desea presentar al


mercado un nuevo tipo de punta para taladros. Antes de ello desea saber si la deformación
(en mm.) que sufre el acero a temperatura normal afecta la dureza del acero (en kg/mm 2).
Para investigar esta relación se ha tomado la siguiente muestra de datos:

Dureza (en kg/mm2) 68 67 65 53 44 40 37 34 32


Deformación (mm) 6 9 11 13 22 26 28 33 35

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el programa
MINITAB.

Estadística Aplicada2 171


Universidad Peruana de Ciencias Aplicadas

Diagrama de dispersión
90
y = -1.3196x + 75.72 y = 0.0245x2 - 2.3223x + 83.4
80 R² = 0.9715
R² = 0.9552
70
60
50
40 y = 81.902e-0.027x
R² = 0.9781
30
20 y = 175.61x-0.462
R² = 0.9478
10
0
0 5 10 15 20 25 30 35 40

Lineal
Análisis de regresión: Dureza (en kg/mm2) vs. Deformación (mm)

La ecuación de regresión es
Dureza (en kg/mm2) = 75.7 - 1.32 Deformación (mm)

Coef.
Predictor Coef de EE T P
Constante 75.720 2.460 30.78 0.000
Deformación (mm) -1.3196 0.1081 -12.21 0.000

S = 3.31995 R-cuad. = 95.5% R-cuad.(ajustado) = 94.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1643.7 1643.7 149.13 0.000
Error residual 7 77.2 11.0
Total 8 1720.9

Cuadrático
Análisis de regresión: Dureza (en kg/mm2) vs. Deformación (mm), x2

La ecuación de regresión es
Dureza (en kg/mm2) = 83.4 - 2.32 Deformación (mm) + 0.0245 x2

Predictor Coef Coef. de EE T P


Constante 83.400 4.660 17.90 0.000
Deformación (mm) -2.3223 0.5498 -4.22 0.006
x2 0.02452 0.01325 1.85 0.114
Estadística Aplicada2 172
Universidad Peruana de Ciencias Aplicadas

S = 2.86123 R-cuad. = 97.1% R-cuad.(ajustado) = 96.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 1671.77 835.88 102.10 0.000
Error residual 6 49.12 8.19
Total 8 1720.89

Fuente GL SC sec.
Deformación (mm) 1 1643.73
x2 1 28.03

Potencia

Análisis de regresión: Lndureza vs. Lndeformacion

La ecuación de regresión es
Lndureza = 5.17 - 0.462 Lndeformacion

Predictor Coef Coef. de EE T P


Constante 5.1682 0.1195 43.26 0.000
Lndeformacion -0.46211 0.04098 -11.28 0.000

S = 0.0733502 R-cuad. = 94.8% R-cuad.(ajustado) = 94.0%

Análisis de varianza
Fuente GL SC MC F P
Regresión 1 0.68423 0.68423 127.17 0.000
Error residual 7 0.03766 0.00538
Total 8 0.72189

Observaciones poco comunes

Residuo
Obs Lndeformacion Lndureza Ajuste Ajuste SE Residuo
estándar
1 1.79 4.2195 4.3403 0.0499 -0.1208 -
2.25R

R denota una observación con un residuo estandarizado grande.

Exponencial

Estadística Aplicada2 173


Universidad Peruana de Ciencias Aplicadas

Análisis de regresión: Lndureza vs. Deformación (mm)

La ecuación de regresión es
Lndureza = 4.41 - 0.0273 Deformación (mm)

Predictor Coef Coef. de EE T P


Constante 4.40552 0.03525 124.98 0.000
Deformación (mm) -0.027348 0.001548 -17.66 0.000

S = 0.0475712 R-cuad. = 97.8% R-cuad.(ajustado) = 97.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.70605 0.70605 311.99 0.000
Error residual 7 0.01584 0.00226
Total 8 0.72189

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime la dureza del acero si la deformación que sufre el acero es de 40 mm. Utilice un
intervalo de predicción del 95%.
c. Estime la dureza media del acero si la deformación que sufre el acero es de 30 mm. Utilice
un intervalo de predicción del 95%.

6. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado


notablemente en los últimos meses. Los estudios realizados por el gerente de la empresa
argumenta que el mayor uso de Internet dentro de la misma es la principal causa del mayor
gasto en teléfono, lo que ha hecho que se estudie la posibilidad de acogerse a alguno de
los múltiples bonos o tarifas especiales que ofrecen las compañías, lo que hasta la fecha
todavía no se ha llevado a cabo. Los datos recogidos son:

Gasto ($) 55 100 118 120 142 70 125 98 125 65


Minutos de internet 200 500 700 800 1000 220 795 440 950 170

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el programa
MINITAB o EXCEL.

Estadística Aplicada2 174


Universidad Peruana de Ciencias Aplicadas

Diagrama de dispersión
160
140
120
100
y = 0.0914x + 49.003
80
R² = 0.9469
60 y = -6E-05x2 + 0.1596x + 35.06
R² = 0.9657
40
20 y = 55.335e0.001x y = 5.3985x0.4681
R² = 0.9022 R² = 0.954
0
0 200 400 600 800 1000 1200

Lineal

La ecuación de regresión es
Gasto = 49.0 + 0.0914 Minutos de internet

Predictor Coef Coef. de EE T P


Constante 49.003 4.978 9.84 0.000
Minutos de internet 0.091423 0.007658 11.94 0.000

S = 7.22610 R-cuad. = 94.7% R-cuad.(ajustado) = 94.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 7441.9 7441.9 142.52 0.000
Error residual 8 417.7 52.2
Total 9 7859.6

Cuadrático

Análisis de regresión: Gasto vs. Minutos de internet, x2

La ecuación de regresión es
Gasto = 35.1 + 0.160 Minutos de internet - 0.000060 x2

Predictor Coef Coef. de EE T P


Constante 35.060 8.286 4.23 0.004
Minutos de internet 0.15963 0.03534 4.52 0.003
x2 -0.00006023 0.00003066 -1.96 0.090

S = 6.20262 R-cuad. = 96.6% R-cuad.(ajustado) = 95.6%

Análisis de varianza
Fuente GL SC MC F P
Regresión 2 7590.3 3795.1 98.65 0.000
Error residual 7 269.3 38.5
Estadística Aplicada2 175
Universidad Peruana de Ciencias Aplicadas

Total 9 7859.6

Fuente GL SC sec.
Minutos de internet 1 7441.9
x2 1 148.4

Potencia

Análisis de regresión: Lngasto vs. Lnminutos

La ecuación de regresión es
Lngasto = 1.69 + 0.468 Lnminutos

Predictor Coef Coef. de EE T P


Constante 1.6861 0.2257 7.47 0.000
Lnminutos 0.46806 0.03632 12.89 0.000

S = 0.0737527 R-cuad. = 95.4% R-cuad.(ajustado) = 94.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.90348 0.90348 166.10 0.000
Error residual 8 0.04352 0.00544
Total 9 0.94699

Observaciones poco comunes


Residuo
Obs Lnminutos Lngasto Ajuste Ajuste SE Residuo estándar
1 5.30 4.0073 4.1661 0.0396 -0.1587 -2.55R

R denota una observación con un residuo estandarizado grande.

Exponencial

Análisis de regresión: Lngasto vs. Minutos de internet

La ecuación de regresión es
Lngasto = 4.01 + 0.000980 Minutos de internet

Predictor Coef Coef. de EE T P


Constante 4.01340 0.07414 54.14 0.000
Minutos de internet 0.0009796 0.0001141 8.59 0.000

S = 0.107617 R-cuad. = 90.2% R-cuad.(ajustado) = 89.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.85434 0.85434 73.77 0.000
Error residual 8 0.09265 0.01158
Total 9 0.94699

Estadística Aplicada2 176


Universidad Peruana de Ciencias Aplicadas

Observaciones poco comunes

Minutos de Residuo
Obs internet Lngasto Ajuste Ajuste SE Residuo estándar
1 200 4.0073 4.2093 0.0549 -0.2020 -2.18R

R denota una observación con un residuo estandarizado grande.

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime el gasto mensual de un mes si el tiempo de conexión del internet es de 1100 minutos.
Utilice un intervalo de predicción del 90%.
c. Estime el gasto mensual promedio si el tiempo de conexión del internet es de 1200 minutos.
Utilice un intervalo de predicción del 95%.

7. Un economista del Departamento de Recursos Humanos del Estado de Florida está


preparando un estudio sobre el comportamiento del consumidor. Él recolectó los datos
que aparecen en miles de dólares para determinar si existe una relación entre el ingreso
del consumidor y los niveles de consumo. Determine cuál es la variable dependiente.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el programa
MINITAB o EXCEL.

Gráfico de dispersión
16
y = 0.3005x + 2.1576
14
R² = 0.9625
12 y = -0.0043x2 + 0.4879x + 0.4656
10 R² = 0.974
8
y = 0.8969x0.7437
6 R² = 0.9715
4
2 y = 3.6304e0.0376x
0 R² = 0.9188
0 5 10 15 20 25 30 35 40

Lineal

Análisis de regresión: Consumo vs. Ingreso

Estadística Aplicada2 177


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
Consumo = 2.16 + 0.300 Ingreso

Predictor Coef Coef. de EE T P


Constante 2.1576 0.3984 5.42 0.000
Ingreso 0.30047 0.01875 16.02 0.000

S = 0.571687 R-cuad. = 96.3% R-cuad.(ajustado) = 95.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 83.898 83.898 256.71 0.000
Error residual 10 3.268 0.327
Total 11 87.167

Cuadrático

Análisis de regresión: Consumo vs. Ingreso, x2

La ecuación de regresión es
Consumo = 0.466 + 0.488 Ingreso - 0.00428 x2

Predictor Coef Coef. de EE T P


Constante 0.4656 0.9193 0.51 0.625
Ingreso 0.48787 0.09558 5.10 0.001
x2 -0.004280 0.002150 -1.99 0.078

S = 0.502150 R-cuad. = 97.4% R-cuad.(ajustado) = 96.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 84.897 42.449 168.34 0.000
Error residual 9 2.269 0.252
Total 11 87.167

Fuente GL SC sec.
Ingreso 1 83.898
x2 1 0.999

Observaciones poco comunes


Residuo
Obs Ingreso Consumo Ajuste Ajuste SE Residuo estándar
5 36.9 12.500 12.641 0.444 -0.141 -0.60 X

X denota una observación cuyo valor X le concede gran


influencia.

Potencia

Análisis de regresión: Lnconsumo vs. Lningreso

Estadística Aplicada2 178


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
Lnconsumo = - 0.109 + 0.744 Lningreso

Predictor Coef Coef. de EE T P


Constante -0.1089 0.1166 -0.93 0.373
Lningreso 0.74369 0.04028 18.46 0.000

S = 0.0638730 R-cuad. = 97.1% R-cuad.(ajustado) = 96.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1.3905 1.3905 340.84 0.000
Error residual 10 0.0408 0.0041
Total 11 1.4313

Exponencial

Análisis de regresión: Lnconsumo vs. Ingreso

La ecuación de regresión es
Lnconsumo = 1.29 + 0.0376 Ingreso

Predictor Coef Coef. de EE T P


Constante 1.28934 0.07512 17.16 0.000
Ingreso 0.037619 0.003536 10.64 0.000

S = 0.107805 R-cuad. = 91.9% R-cuad.(ajustado) = 91.1%

Análisis de varianza
Fuente GL SC MC F P
Regresión 1 1.3151 1.3151 113.16 0.000
Error residual 10 0.1162 0.0116
Total 11 1.4313

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. ¿Qué consumo pronosticaría el modelo con 95% de confianza para alguien que gana
US$ 27 500?
c. Estime el consumo mensual promedio si el ingreso es de US$ 22500. Utilice un
intervalo de predicción del 99%.

8. Los siguientes datos corresponden al tiempo de secado de un barniz y la cantidad de cierto


producto químico que se le ha añadido:

Estadística Aplicada2 179


Universidad Peruana de Ciencias Aplicadas

Cantidad de aditivo(gramos) 1 2 3 4 5 6 7 8
Tiempo de secado(horas) 7,5 7 6,5 6,1 6 5,5 5,4 4,9

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el programa
MINITAB o EXCEL.

Gráfico de dispersión
9
8
7
6
5
y = -0.3488x + 7.6821
4 R² = 0.9773
3
y = 0.0161x2 - 0.4935x + 7.9232 y = 7.828x-0.193 y = 7.828x-0.193
2
R² = 0.9856 R² = 0.9289 R² = 0.9289
1
0
0 1 2 3 4 5 6 7 8 9

Lineal

Análisis de regresión: Tiempo de secado vs. Cantidad de adit

La ecuación de regresión es
Tiempo de secado(horas) = 7.68 - 0.349 Cantidad de
aditivo(gramos)

Predictor Coef Coef. de EE T


P
Constante 7.6821 0.1096 70.10
0.000
Cantidad de aditivo(gramos) -0.34881 0.02170 -16.07
0.000

S = 0.140648 R-cuad. = 97.7% R-cuad.(ajustado) = 97.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 5.1101 5.1101 258.32 0.000
Error residual 6 0.1187 0.0198
Total 7 5.2288

Estadística Aplicada2 180


Universidad Peruana de Ciencias Aplicadas

Cuadrático

Análisis de regresión: Tiempo de secado vs. Cantidad de adit, X2

La ecuación de regresión es
Tiempo de secado(horas) = 7.92 - 0.493 Cantidad de
aditivo(gramos) + 0.0161 X2

Predictor Coef Coef. de EE T P


Constante 7.9232 0.1712 46.28
0.000
Cantidad de aditivo(gramos) -0.49345 0.08729 -5.65 0.002
X2 0.016071 0.009468 1.70
0.150

S = 0.122717 R-cuad. = 98.6% R-cuad.(ajustado) = 98.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 5.1535 2.5767 171.10 0.000
Error residual 5 0.0753 0.0151
Total 7 5.2288

Fuente GL SC sec.
Cantidad de aditivo(gramos) 1 5.1101
X2 1 0.0434

Potencia

Análisis de regresión: Lntiemposecado vs. Lncantidad

La ecuación de regresión es
Lntiemposecado = 2.06 - 0.193 Lncantidad

Predictor Coef Coef. de EE T P


Constante 2.05770 0.03230 63.71 0.000
Lncantidad -0.19318 0.02183 -8.85 0.000

S = 0.0406182 R-cuad. = 92.9% R-cuad.(ajustado) = 91.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.12924 0.12924 78.34 0.000
Error residual 6 0.00990 0.00165
Total 7 0.13914

Exponencial

Análisis de regresión: Lntiemposecado vs. Cantidad de aditivo

Estadística Aplicada2 181


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
Lntiemposecado = 2.06 - 0.0571 Cantidad de aditivo

Predictor Coef Coef. de EE T P


Constante 2.05850 0.01523 135.20 0.000
Cantidad de aditivo -0.057082 0.003015 -18.93 0.000

S = 0.0195407 R-cuad. = 98.4% R-cuad.(ajustado) = 98.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.13685 0.13685 358.40 0.000
Error residual 6 0.00229 0.00038
Total 7 0.13914

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.

b. Con 99% de confianza, ¿cuál será el tiempo de secado cuando se añaden 6,5 gramos
del producto químico?

c. Con 99% de confianza, ¿cuál será el tiempo promedio de secado cuando se añaden 6,5
gramos del producto químico?

Estadística Aplicada2 182


Universidad Peruana de Ciencias Aplicadas

9. Los siguientes datos corresponden al cloro residual en una piscina en diversos momentos
después de haberse tratado con químicos.

Número de horas 2 4 6 8 10 12 14 17 14
Cloro residual (partes por millón) 2.8 1.5 1.4 1.1 1 0.9 0.85 0.62 0.8

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el programa
MINITAB o EXCEL.

Gráfico de dispersión
y = -0.1118x + 2.2994
3 R² = 0.7398
2.5
y = 0.0117x2 - 0.3314x + 3.0632
2 R² = 0.8833
1.5
1
0.5 y = 2.4735e-0.083x y = 4.1022x-0.626
0 R² = 0.9013 R² = 0.9705
0 2 4 6 8 10 12 14 16 18

Lineal

Análisis de regresión: Cloro residual vs. Numero de horas

La ecuación de regresión es
Cloro residual = 2.30 - 0.112 Numero de horas

Predictor Coef Coef. de EE T P


Constante 2.2994 0.2700 8.52 0.000
Numero de horas -0.11178 0.02506 -4.46 0.003

S = 0.357912 R-cuad. = 74.0% R-cuad.(ajustado) = 70.3%

Estadística Aplicada2 183


Universidad Peruana de Ciencias Aplicadas

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 2.5490 2.5490 19.90 0.003
Error residual 7 0.8967 0.1281
Total 8 3.4457

Observaciones poco comunes

Numero Cloro Residuo


Obs de horas residual Ajuste Ajuste SE Residuo estándar
1 2.0 2.800 2.076 0.226 0.724 2.61R

R denota una observación con un residuo estandarizado grande.

Cuadrático

Análisis de regresión: Cloro residual vs. Número de horas, x2

La ecuación de regresión es
Cloro residual = 3.06 - 0.331 Número de horas + 0.0117 x2

Predictor Coef Coef. de EE T P


Constante 3.0632 0.3422 8.95 0.000
Número de horas -0.33140 0.08282 -4.00 0.007
x2 0.011706 0.004308 2.72 0.035

S = 0.258836 R-cuad. = 88.3% R-cuad.(ajustado) = 84.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 3.0437 1.5219 22.72 0.002
Error residual 6 0.4020 0.0670
Total 8 3.4457

Fuente GL SC sec.
Número de horas 1 2.5490
x2 1 0.4947

Observaciones poco comunes

Numero Cloro Residuo


Obs de horas residual Ajuste Ajuste SE Residuo estándar
1 2.0 2.8000 2.4473 0.2131 0.3527 2.40R

R denota una observación con un residuo estandarizado grande.

Potencia

Análisis de regresión: Lncloro vs. Lnhoras

Estadística Aplicada2 184


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
Lncloro = 1.41 - 0.626 Lnhoras

Predictor Coef Coef. de EE T P


Constante 1.41152 0.09061 15.58 0.000
Lnhoras -0.62633 0.04128 -15.17 0.000

S = 0.0814291 R-cuad. = 97.0% R-cuad.(ajustado) = 96.6%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1.5267 1.5267 230.24 0.000
Error residual 7 0.0464 0.0066
Total 8 1.5731

Exponencial

Análisis de regresión: Lncloro vs. Numero de horas

La ecuación de regresión es
Lncloro = 0.906 - 0.0834 Numero de horas

Predictor Coef Coef. de EE T P


Constante 0.9056 0.1124 8.06 0.000
Numero de horas -0.08337 0.01043 -7.99 0.000

S = 0.148953 R-cuad. = 90.1% R-cuad.(ajustado) = 88.7%


Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1.4178 1.4178 63.90 0.000
Error residual 7 0.1553 0.0222
Total 8 1.5731

Observaciones poco comunes


Numero Residuo
Obs de horas Lncloro Ajuste Ajuste SE Residuo estándar
1 2.0 1.0296 0.7389 0.0941 0.2907 2.52R

R denota una observación con un residuo estandarizado grande.

a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 2.5%.

Estadística Aplicada2 185


Universidad Peruana de Ciencias Aplicadas

b. Utilice la ecuación para pronosticar con 95% de confianza la cantidad de cloro residual
de la piscina luego de 5 horas de haberse tratado con químicos.

c. Utilice la ecuación para pronosticar con 95% de confianza la cantidad de cloro residual
promedio de la piscina luego de 5 horas de haberse tratado con químicos

10. La empresa Jonson Filtration, Inc., se dedica al servicio de mantenimiento de sistemas de


filtración de agua en el sur de Florida. Esta empresa está interesada en predecir el tiempo
necesario de reparación para cada solicitud de mantenimiento; para esto recogió la
siguiente información sobre 18 solicitudes.
Meses del último Tiempo de Tipo de reparación
servicio reparación (horas) (*)
3 0,7 0
6 3,1 0
3 0,9 0
9 5,2 0
8 4,2 0
8 4,8 0
10 7,0 0
12 8,8 0
2 2,2 1
2 3,1 1
4 3,8 1
5 3,9 1
2 2,8 1
6 4,5 1
7 5,1 1
8 6,1 1

Estadística Aplicada2 186


Universidad Peruana de Ciencias Aplicadas

7 5,7 1
9 6,8 1
(*) 0: Mecánica 1: Eléctrica

a) Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el


tiempo de reparación cuando el tipo de reparación es mecánica. Interprete la pendiente y
el coeficiente de determinación.

b) Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el


tiempo de reparación cuando el tipo de reparación es eléctrica. Interprete la pendiente y
el coeficiente de determinación.

c) ¿Los modelos estimados anteriores ajustan bien a los datos? Use   0,05.

d) Calcule e interprete con 98% de confianza el tiempo estimado de reparación para una
solicitud cuyo sistema de filtración fue revisado hace un mes.

Estadística Aplicada2 187


Universidad Peruana de Ciencias Aplicadas

¿Qué es el éxito?
““Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha
venido por poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el
propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que
conceda derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo
con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una
encuesta de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young
and Yankelovich Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que
era “muy importante” tener éxito. Y estamos hablando de personas que ganan un promedio
de $176 000 al año. (Sólo 14% del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento. Podría
ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en alguna
empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos van
juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le brindan
a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable que
padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este libro.
No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito, sólo los
demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo cierto.
Fría, tosca, tolerante y efectiva.

Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.
5.3 Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con un
conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.

Estadística Aplicada2 188


Universidad Peruana de Ciencias Aplicadas

5.3.1 Elección de las variables de predicción

Se debe tomar en cuenta los siguientes pasos para la selección de variables de un modelo de
regresión lineal múltiple:

Identificar la variable dependiente y las variables de predicción o predictoras que se van a


incluir en el modelo.
Seleccionar una muestra aleatoria, y registrar todas las variables para cada elemento de la
muestra.
Identificar las relaciones entre las variables de predicción y la dependiente, y entre las
propias variables de predicción (matriz de correlaciones).

5.3.2 El modelo de regresión lineal múltiple

y   0  1 x1   2 x2     k xk  
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
 : error aleatorio.

5.3.3Supuestos del modelo de regresión lineal múltiple

 Los errores tienen distribución normal.


 Los errores tienen media igual a cero y varianza igual a  2.
 Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la variable
dependiente y, son independientes.

5.3.4 Ecuación de regresión muestral

A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros:


yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk
donde:
ŷ : valor estimado de la variable dependiente.
ˆ , ˆ , ˆ ,..., ˆ : estimaciones puntuales de los parámetros poblacionales.
0 1 2 k
x1, x2,... , xk : son las variables predictoras .

 0 : Intercepto del modelo.

Estadística Aplicada2 189


Universidad Peruana de Ciencias Aplicadas

 1 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X1;
manteniendo constante x2,….. xk.
 2 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X2,
manteniendo constante x1, ….. xk.
 : Error aleatorio asociado a Y.
Estimación de los parámetros el modelo

Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:

y1   0  1 x11   2 x12   3 x13  ...   k x1k   1


y 2   0  1 x 21   2 x 22   3 x23  ...   k x 2 k   2

y n   0  1 x n1   2 xn 2   3 x n3  ...   k xnk   n

Esta muestra puede ser expresada en forma matricial de la siguiente manera:

 0 
 y1  1 x11 x12 ... x1k     1 
y  1 x 21 x 22 ... x 2 k   1  
Y   2 X β   2  ε   2
       
       
 yn  1 x n1 xn 2 ... x nk   k   n 
 

donde Y  Xβ  ε .

El estimador de mínimos cuadrados para el vector β es:


βˆ  ( X ' X) 1 X ' Y

Las propiedades estadísticas del estimador del vector de parámetros β son:


E(βˆ )  β
Cov(βˆ )   2 ( X ' X) 1

Coeficiente de regresión

Los valores ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable dependiente
debido a un incremento de una unidad en la variable predictora correspondiente, manteniendo
constantes las otras variables de predicción.
Estadística Aplicada2 190
Universidad Peruana de Ciencias Aplicadas

Los errores estándar y la covarianza de los estimadores ˆ0 , ˆ1 , ˆ2 ,..., ˆk se determinan mediante
los elementos de la matriz (X' X) 1 de la siguiente manera:

c00 c01 c02 ... c0 k 


c c11 c12 ... c1k 
 10
X X
´ 1
 c 20 c 21 c 22 ... c 2 k 
 
 
c k 0 ... c kk 
 c k1 ck 2

Los errores estándar de los coeficientes estimados ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k son:

 ˆ   c00
0

 ˆ   c11
1

 ˆ   c 22
2


 ˆ   c kk
k

El estimador de  2 , la varianza de los errores es:


SCE
S2 
n p
donde p es el número de parámetros a estimar.

El error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y
observados alrededor del plano de regresión.

SCE
Se   CME
n p

5.3.5 Coeficiente de determinación múltiple (r2)

El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y que se puede


explicar mediante las variables de predicción. Un valor de r2 cercano a 1 significa que la ecuación
es muy exacta porque explica una gran porción de la variabilidad de y. Se define como:

Estadística Aplicada2 191


Universidad Peruana de Ciencias Aplicadas

SCR
r2 
SCT
Por cada variable independiente adicional en el modelo, el coeficiente de determinación
incrementará su valor. Por tal razón se suele calcular el coeficiente de determinación corregido,
útil para comparar el poder predictivo de modelos alternativos con diferente número de variables
independientes:

n 1
2
rcorregido  1 (1  r 2 )
n p

5.3.6 Pruebas de hipótesis

Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha examinado
la matriz de correlaciones para determinar aquellas combinaciones de variables que son de interés,
se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor ecuación para
predecir y después decidir si ésta ecuación satisface las necesidades de exactitud del analista.

Pruebas individuales
Las hipótesis nula y alternante para las pruebas individuales son:

H0 : i  0
H1 :  i  0

y el estadístico de prueba es:

ˆi
tc  ~ t (n p )
 ˆ
I

donde  ˆi  s cii

Prueba conjunta
Las hipótesis nula y alternante para la prueba conjunta son:

H 0 : 1   2  ...   k  0
H1 : Al menos un  i es diferente de cero

y el estadístico de prueba es:

Estadística Aplicada2 192


Universidad Peruana de Ciencias Aplicadas

CMR
Fc  ~ F( p 1, n  p )
CME

Intervalos de confianza para los coeficientes de regresión


Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su
estimación puntual y el error estándar como se muestra a continuación:

LC(  j )  ˆ j  t ( / 2,n  p ) s cii

5.3.7 Multicolinealidad

Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.

Cuando dos variables tienen una alta correlación, los coeficientes ˆ0 , ˆ1 ,..., ˆk , estimadores de
 0 , 1 ,... k no son confiables. La estimación ˆ k de  k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.

Regla práctica para seleccionar las variables predictoras en regresión múltiple.

 Una variable predictora debe tener una correlación fuerte con la variable dependiente.
 Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por debajo
de la menor de las dos correlaciones entre las variables predictoras y la variable dependiente).

Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de regresión para
hacer pronósticos, la multicolinealidad puede no causar ninguna dificultad seria.

Las consecuencias adversas son:

Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente puede
producir un coeficiente de regresión negativo si la correlación con otra variable independiente
es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para evaluar
la importancia relativa de las distintas variables independientes. Cuando las variables
independientes se intercorrelacionan, explican la misma varianza en el pronóstico de la

Estadística Aplicada2 193


Universidad Peruana de Ciencias Aplicadas

variable dependiente. Por esto, es difícil separar la influencia individual de cada variable
independiente cuando la multicolinealidad está presente.

Ejemplo 1
El objetivo radica en determinar una ecuación de regresión para la producción de gasolina
expresada como un porcentaje respecto al total de petróleo crudo como una función lineal de las
propiedades de destilación de cierto tipo de petróleo crudo.
Se han identificado las siguientes variables de predicción:
X1: la gravedad del petróleo crudo (°API) o densidad;
X2: la presión de vapor del petróleo crudo (psi);
X3: el punto de 10% ASTM para el petróleo crudo (°F)
X4: el punto final ASTM para la gasolina (°F).
Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el líquido.
Los datos del estudio se muestran en la tabla siguiente:

Registros Y X1 X2 X3 X4
1 24,8 29,5 7,5 226 460
2 28 38,4 7,1 220 365
3 34,9 40,3 2,4 228 395
4 38,2 52,6 1,85 217 572
5 23,2 32,2 7,3 384 172
6 25,8 33,8 6,8 356 328
7 48,1 50,8 1,2 210 273
8 36,1 41,3 5,6 195 358
9 32,1 38,1 4,5 205 444
10 34,7 50,8 2,9 195 345
11 31,7 32,2 3,5 236 402
12 33,6 38,4 3,05 220 410
13 30,4 40 2,85 217 340
14 20,6 30,8 8,6 275 347
15 27,8 32,3 6,1 297 416
16 45,7 55,8 2,8 190 427
De las salidas siguientes responda las preguntas siguientes:

Correlaciones: Y, X1, X2, X3, X4

Y X1 X2 X3
X1 0.870
X2 -0.839 -0.753

Estadística Aplicada2 194


Universidad Peruana de Ciencias Aplicadas

X3 -0.631 -0.584 0.578


X4 0.197 0.218 -0.263 -0.519

YX1X2X3X4
Análisis de regresión: Y vs. X1, X2, X3, X4

La ecuación de regresión es
Y = 28.7 + 0.448 X1 - 1.26 X2 - 0.0214 X3 - 0.0086 X4

Predictor Coef Coef. de EE T P


Constante 28.67 13.05 2.20 0.050
X1 0.4481 0.1668 2.69 0.021
X2 -1.2649 0.5918 -2.14 0.056
X3 -0.02135 0.02229 -0.96 0.359
X4 -0.00865 0.01192 -0.73 0.483

S = 3.42128 R-cuad. = 84.9% R-cuad.(ajustado) = 79.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 4 724.78 181.19 15.48 0.000
Error residual 11 128.76 11.71
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X2 1 66.19
X3 1 5.68
X4 1 6.16

Estadístico de Durbin-Watson = 1.48120

YX1X2X3

Análisis de regresión: Y vs. X1, X2, X3

La ecuación de regresión es
Y = 22.9 + 0.462 X1 - 1.25 X2 - 0.0137 X3

Predictor Coef Coef. de EE T P


Constante 22.93 10.16 2.26 0.044
X1 0.4619 0.1624 2.84 0.015
X2 -1.2518 0.5797 -2.16 0.052
X3 -0.01366 0.01922 -0.71 0.491

S = 3.35305 R-cuad. = 84.2% R-cuad.(ajustado) = 80.2%

Análisis de varianza

Fuente GL SC MC F P
Estadística Aplicada2 195
Universidad Peruana de Ciencias Aplicadas

Regresión 3 718.62 239.54 21.31 0.000


Error residual 12 134.92 11.24
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X2 1 66.19
X3 1 5.68

Observaciones poco comunes

Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 42.025 1.589 6.075 2.06R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 1.44033


YX1X2X4
Análisis de regresión: Y vs. X1, X2, X4

La ecuación de regresión es
Y = 20.1 + 0.495 X1 - 1.39 X2 - 0.0032 X4

Predictor Coef Coef. de EE T P


Constante 20.132 9.487 2.12 0.055
X1 0.4954 0.1588 3.12 0.009
X2 -1.3859 0.5762 -2.41 0.033
X4 -0.00322 0.01045 -0.31 0.763

S = 3.40945 R-cuad. = 83.7% R-cuad.(ajustado) = 79.6%

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 714.04 238.01 20.48 0.000
Error residual 12 139.49 11.62
Total 15 853.53
Fuente GL SC sec.
X1 1 646.75
X2 1 66.19
X4 1 1.10

Observaciones poco comunes


Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 42.755 2.141 5.345 2.01R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 1.45295

Estadística Aplicada2 196


Universidad Peruana de Ciencias Aplicadas

YX1X3X4
Análisis de regresión: Y vs. X1, X3, X4

La ecuación de regresión es
Y = 16.1 + 0.671 X1 - 0.0315 X3 - 0.0079 X4

Predictor Coef Coef. de EE T P


Constante 16.09 13.26 1.21 0.248
X1 0.6713 0.1481 4.53 0.001
X3 -0.03152 0.02481 -1.27 0.228
X4 -0.00787 0.01357 -0.58 0.573

S = 3.89693 R-cuad. = 78.6% R-cuad.(ajustado) = 73.3%

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 671.30 223.77 14.74 0.000
Error residual 12 182.23 15.19
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X3 1 19.45
X4 1 5.10

Observaciones poco comunes


Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 41.430 2.316 6.670 2.13R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.20299

YX2X3X4
Análisis de regresión: Y vs. X2, X3, X4

La ecuación de regresión es
Y = 56.8 - 2.26 X2 - 0.0391 X3 - 0.0123 X4

Predictor Coef Coef. de EE T P


Constante 56.799 9.594 5.92 0.000
X2 -2.2606 0.5685 -3.98 0.002
X3 -0.03908 0.02624 -1.49 0.162
X4 -0.01229 0.01459 -0.84 0.416

S = 4.21553 R-cuad. = 75.0% R-cuad.(ajustado) = 68.8%

Análisis de varianza

Fuente GL SC MC F P

Estadística Aplicada2 197


Universidad Peruana de Ciencias Aplicadas

Regresión 3 640.29 213.43 12.01 0.001


Error residual 12 213.25 17.77
Total 15 853.53

Fuente GL SC sec.
X2 1 600.36
X3 1 27.32
X4 1 12.61

Observaciones poco comunes

Ajuste Residuo
Obs X2 Y Ajuste SE Residuo estándar
16 2.80 45.70 37.80 1.49 7.90 2.00R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 0.847164

YX1X2

Análisis de regresión: Y vs. X1, X2

La ecuación de regresión es
Y = 18.9 + 0.494 X1 - 1.36 X2

Coef.
Predictor Coef de EE T P
Constante 18.850 8.224 2.29 0.039
X1 0.4938 0.1531 3.23 0.007
X2 -1.3586 0.5492 -2.47 0.028

S = 3.28861 R-cuad. = 83.5% R-cuad.(ajustado) = 81.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 712.94 356.47 32.96 0.000
Error residual 13 140.59 10.81
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X2 1 66.19

Estadístico de Durbin-Watson = 1.44691

YX1X3
Análisis de regresión: Y vs. X1, X3

Estadística Aplicada2 198


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
Y = 11.0 + 0.682 X1 - 0.0244 X3

Predictor Coef Coef. de EE T P


Constante 10.984 9.653 1.14 0.276
X1 0.6818 0.1432 4.76 0.000
X3 -0.02442 0.02102 -1.16 0.266

S = 3.79612 R-cuad. = 78.1% R-cuad.(ajustado) = 74.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 666.20 333.10 23.12 0.000
Error residual 13 187.34 14.41
Total 15 853.53
Fuente GL SC sec.
X1 1 646.75
X3 1 19.45

Observaciones poco comunes


Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 40.489 1.609 7.611 2.21R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.13273

YX1X4

Análisis de regresión: Y vs. X1, X4

La ecuación de regresión es
Y = 1.02 + 0.777 X1 + 0.0006 X4

Predictor Coef Coef. de EE T P


Constante 1.022 6.065 0.17 0.869
X1 0.7774 0.1252 6.21 0.000
X4 0.00064 0.01208 0.05 0.958

S = 3.98788 R-cuad. = 75.8% R-cuad.(ajustado) = 72.1%


Análisis de varianza

Fuente GL SC MC F P
Regresión 2 646.79 323.40 20.34 0.000
Error residual 13 206.74 15.90
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X4 1 0.04

Estadística Aplicada2 199


Universidad Peruana de Ciencias Aplicadas

Observaciones poco comunes


Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 40.691 2.294 7.409 2.27R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.16171

Y2X3

Análisis de regresión: Y vs. X2, X3

La ecuación de regresión es
Y = 49.8 - 2.29 X2 - 0.0288 X3

Predictor Coef Coef. de EE T P


Constante 49.776 4.691 10.61 0.000
X2 -2.2857 0.5614 -4.07 0.001
X3 -0.02879 0.02296 -1.25 0.232

S = 4.16814 R-cuad. = 73.5% R-cuad.(ajustado) = 69.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 627.68 313.84 18.06 0.000
Error residual 13 225.85 17.37
Total 15 853.53

Fuente GL SC sec.
X2 1 600.36
X3 1 27.32
Estadístico de Durbin-Watson = 0.873428

YX2X4

Análisis de regresión: Y vs. X2, X4

La ecuación de regresión es
Y = 45.6 - 2.71 X2 - 0.0022 X4

Predictor Coef Coef. de EE T P


Constante 45.614 6.244 7.31 0.000
X2 -2.7139 0.5022 -5.40 0.000
X4 -0.00217 0.01351 -0.16 0.875

S = 4.40863 R-cuad. = 70.4% R-cuad.(ajustado) = 65.8%


Análisis de varianza

Estadística Aplicada2 200


Universidad Peruana de Ciencias Aplicadas

Fuente GL SC MC F P
Regresión 2 600.87 300.43 15.46 0.000
Error residual 13 252.67 19.44
Total 15 853.53

Fuente GL SC sec.
X2 1 600.36
X4 1 0.50

Observaciones poco comunes

Ajuste Residuo
Obs X2 Y Ajuste SE Residuo estándar
16 2.80 45.70 37.09 1.47 8.61 2.07R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 1.09349


YX3X4
Análisis de regresión: Y vs. X3, X4

La ecuación de regresión es
Y = 61.0 - 0.0949 X3 - 0.0153 X4

Predictor Coef Coef. de EE T P


Constante 61.00 13.95 4.37 0.001
X3 -0.09494 0.03241 -2.93 0.012
X4 -0.01534 0.02131 -0.72 0.484

S = 6.16568 R-cuad. = 42.1% R-cuad.(ajustado) = 33.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 359.33 179.67 4.73 0.029
Error residual 13 494.20 38.02
Total 15 853.53

Fuente GL SC sec.
X3 1 339.64
X4 1 19.69

Observaciones poco comunes

Ajuste Residuo
Obs X3 Y Ajuste SE Residuo estándar
5 384 23.20 21.91 4.68 1.29 0.32 X
7 210 48.10 36.88 3.30 11.22 2.15R

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran influencia.

Estadística Aplicada2 201


Universidad Peruana de Ciencias Aplicadas

YX1
Análisis de regresión: Y vs. X1

La ecuación de regresión es
Y = 1.21 + 0.779 X1

Coef.
Predictor Coef de EE T P
Constante 1.207 4.786 0.25 0.805
X1 0.7789 0.1177 6.62 0.000

S = 3.84324 R-cuad. = 75.8% R-cuad.(ajustado) = 74.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 646.75 646.75 43.79 0.000
Error residual 14 206.79 14.77
Total 15 853.53

Observaciones poco comunes

Residuo
Obs X1 Y Ajuste Ajuste SE Residuo estándar
7 50.8 48.100 40.775 1.609 7.325 2.10R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.16571

YX2
Análisis de regresión: Y vs. X2

La ecuación de regresión es
Y = 44.7 - 2.69 X2
Coef.
Predictor Coef de EE T P
Constante 44.693 2.410 18.55 0.000
X2 -2.6926 0.4673 -5.76 0.000

S = 4.25249 R-cuad. = 70.3% R-cuad.(ajustado) = 68.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 600.36 600.36 33.20 0.000
Error residual 14 253.17 18.08
Total 15 853.53

Observaciones poco comunes

Estadística Aplicada2 202


Universidad Peruana de Ciencias Aplicadas

Ajuste Residuo
Obs X2 Y Ajuste SE Residuo estándar
16 2.80 45.70 37.15 1.36 8.55 2.12R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 1.09139


YX3

Análisis de regresión: Y vs. X3

La ecuación de regresión es
Y = 52.3 - 0.0828 X3

Predictor Coef Coef. de EE T P


Constante 52.273 6.760 7.73 0.000
X3 -0.08284 0.02723 -3.04 0.009

S = 6.05860 R-cuad. = 39.8% R-cuad.(ajustado) = 35.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 339.64 339.64 9.25 0.009
Error residual 14 513.89 36.71
Total 15 853.53

Observaciones poco comunes

Ajuste Residuo
Obs X3 Y Ajuste SE Residuo estándar
5 384 23.20 20.46 4.15 2.74 0.62 X
7 210 48.10 34.88 1.75 13.22 2.28R

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran influencia.
Estadístico de Durbin-Watson = 1.09898

YX4

Análisis de regresión: Y vs. X4

La ecuación de regresión es
Y = 25.8 + 0.0170 X4

Predictor Coef Coef. de EE T P


Constante 25.786 8.772 2.94 0.011
X4 0.01703 0.02262 0.75 0.464

Estadística Aplicada2 203


Universidad Peruana de Ciencias Aplicadas

S = 7.65467 R-cuad. = 3.9% R-cuad.(ajustado) = 0.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 33.22 33.22 0.57 0.464
Error residual 14 820.32 58.59
Total 15 853.53

Observaciones poco comunes

Ajuste Residuo
Obs X4 Y Ajuste SE Residuo estándar
4 572 38.20 35.53 4.78 2.67 0.45 X
5 172 23.20 28.72 5.05 -5.52 -0.96 X
7 273 48.10 30.44 3.06 17.66 2.52R

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran influencia.

Estadístico de Durbin-Watson = 1.67192

a. Analice la existencia de la multicolinealidad.


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación de
0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estimar la producción de gasolina, cuando la gravedad de petróleo crudo es de 60 °API, la
presión de vapor del petróleo crudo es 5 psi, el punto de 10% ASTM es 150 °F y el punto final
ASTM es 500 °F.
g. Halle un intervalo de predicción al 95%, para la producción promedio de gasolina, cuando la
gravedad de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el punto
de 10% ASTM es 150 °F y el punto final ASTM es 500 °F.
h. Halle un intervalo de predicción al 95%, para la producción de gasolina, cuando la gravedad de
petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el punto de 10%
ASTM es 150 °F y el punto final ASTM es 500 °F.

SOLUCION:

a. Análisis de la multicolinealidad

Analizar en valor absoluto cada coeficiente de correlación:

Correlaciones
Variables Correlaciones de Y con cada
predictoras entre Xi y Xj Xi Análisis

Estadística Aplicada2 204


Universidad Peruana de Ciencias Aplicadas

rYX1 = 0.870 No existe


X1 Vs. X2 r X1X2 = 0.753 rYX2 = 0.839 multicolinealidad
rYX1 = 0.870 No existe
X1 Vs. X3 r X1X3 = 0.584 rYX3 = 0.631 multicolinealidad
Existe
rYX1 = 0.870 multicolinealidad X1
rYX4 = 0.197 y X4 no pueden ir
X1 Vs. X4 r X1X4 = 0.218 * juntos
rYX2 = 0.839 No existe
X2 Vs. X3 r X2X3 = 0.578 rYX3 = 0.631 multicolinealidad
Existe
rYX2 = 0.839 multicolinealidad X2
rYX4 = 0.197 y X4 no pueden ir
X2 Vs. X4 r X2X4 = 0.263 * juntos
Existe
rYX3 = 0.631 multicolinealidad X3
rYX4 = 0.197 y X4 no pueden ir
X3 Vs. X4 r X3X4 = 0.519 * juntos

b. Selección del mejor modelo

Prioridad Modelo R2 Ajustado o Corregido


1 Y Vs. X1,X2 0.810
2 Y Vs. X1,X2,X3 0.802
3 Y Vs. X1,X3 0.747
4 Y Vs. X1 0.740
5 Y Vs. X2,X3 0.695
6 Y Vs. X2 0.682
7 Y Vs. X3 0.355
8 Y Vs. X4 -0.030

El mejor modelo: Y = β0+ β1+ β2 + e por tener mayor R2 corregido

c. Validación del modelo

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:


H0: 1   2  0 (No existe un modelo)
H1: Al menos un coeficiente es diferente de cero (Sí existe modelo)

Estadística Aplicada2 205


Universidad Peruana de Ciencias Aplicadas

YX1X2

Análisis de regresión: Y vs. X1, X2

La ecuación de regresión es
Y = 18.9 + 0.494 X1 - 1.36 X2

Coef.
Predictor Coef de EE T P
Constante 18.850 8.224 2.29 0.039
X1 0.4938 0.1531 3.23 0.007
X2 -1.3586 0.5492 -2.47 0.028

S = 3.28861 R-cuad. = 83.5% R-cuad.(ajustado) = 81.0%

Análisis de varianza
Fuente GL SC MC F P
Regresión 2 712.94 356.47 32.96 0.000
Error residual 13 140.59 10.81
Total 15 853.53

Fuente GL SC sec.
X1 1 646.75
X2 1 66.19

Estadístico de Durbin-Watson = 1.44691

Sig = 0.000 < 0.05


Se rechaza Ho

Con un nivel de significación de 0.05, la gravedad del petróleo crudo y la presión del petróleo
crudo son significativas al modelo, y está expresado por:

d. Pruebas individuales para el modelo:

Y 18.850 + 0.494 X1 - 1.359 X2

Coef.
Predictor Coef de EE T P
Constante 18.850 8.224 2.29 0.039
X1 0.4938 0.1531 3.23 0.007
X2 -1.3586 0.5492 -2.47 0.028

Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.007 < 0.05
Se rechaza Ho

Estadística Aplicada2 206


Universidad Peruana de Ciencias Aplicadas

Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, la gravedad del petróleo y la presión de vapor
del petróleo crudo son significativas para el modelo.

Interpretación de los coeficientes:

β1 = 0.494
Cuando la gravedad de petróleo crudo se incrementa en una unidad °API y manteniendo constante
la presión de vapor del petróleo crudo, la producción de gasolina se incrementa en 0.494 %.

β2 = -1.359
Cuando la presión de vapor del petróleo crudo se incrementa en un psi y manteniendo constante
la gravedad de petróleo crudo, la producción de gasolina disminuye en 1.359 %.

e. Supuestos del modelo

Ho: Los errores tienen distribución normal


H1: Los errores no tienen distribución normal

Prueba de Normalidad
99
Media -1.55431E-15
Desv .Est. 3.062
95 N 16
KS 0.111
90 Valo r P >0.150

80
70
Porcentaje

60
50
40
30
20

10

1
-8 -6 -4 -2 0 2 4 6 8
RESID1

Sig = 0.150 > 0.05

Se rechaza Ho

Se concluye que los errores tienen distribución normal

Ho: Los errores No están autocorrelacionados.


H1: Los errores están autocorrelacionados.

Estadístico de Durbin-Watson = 1.44691

DW =0 1.447 encuentra en el intervalo de [ 1 ; 3]

Estadística Aplicada2 207


Universidad Peruana de Ciencias Aplicadas

Se rechaza Ho

Se concluye que los errores no están autocorrelacionados.

f. Estimación puntual: Y = 18.850 + 0.494 (60) - 1.359 (5) = 41.695

La producción de gasolina será de 41.695, cuando la gravedad de petróleo crudo es de 60


°API, la presión de vapor del petróleo crudo es 5 psi

g. Intervalo de confianza utilizando el programa MINITAB: colocar debajo del último dato
de X1 y X2, 60 y 5 respectivamente, luego ejecutar el programa.

IC = < 34,45677 ; 48,91405 >

Con un nivel de confianza del 95%, se espera que la producción promedio de gasolina
cuando la gravedad del petróleo sea de 60 ºAPI y la presión del vapor del petróleo crudo
sea de 5 psi, sea de 34.457 y 48.914 %.

Ejemplo2
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados. Actualmente,
la administración se encuentra examinando el proceso de distribución desde el almacén y está
interesada en estudiar los factores que afectan los costos de distribución del almacén. Un pequeño
cargo por manejo se agrega a pedido, independiente de la cantidad por la que se hizo. Se han
recolectado datos correspondientes a los 24 meses anteriores y respecto a los costos de
distribución del almacén, las ventas y el número de pedidos recibidos.

 Costos de distribución (miles de $)


 Ventas (miles de $)
 Número de pedidos

Los datos del estudio se muestran en la tabla siguiente:

Mes Ventas Nº pedidos Costo Mes Ventas Nº pedidos Costo


1 386 4015 52,95 13 372 3977 62,98
2 446 3806 71,66 14 328 4428 72,30
3 512 5309 85,58 15 408 3964 58,99
4 401 4262 63,69 16 491 4582 79,38
5 457 4296 72,81 17 527 5582 94,44
6 458 4097 68,44 18 444 3450 59,74
7 301 3213 52,46 19 623 5079 90,50
8 484 4809 70,77 20 596 5735 93,24
9 517 5237 82,03 21 463 4269 69,33
10 503 4732 74,39 22 389 3708 53,71
11 535 4413 70,84 23 547 5387 89,18

Estadística Aplicada2 208


Universidad Peruana de Ciencias Aplicadas

12 353 2921 54,08 24 415 4161 62,98


Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
yi   0  1 x1   2 x2   i i  1, 2, . . . , 24
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos

A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
MINITAB.

Correlaciones: YVentas, X1Npedidos, X2Costo


YVentas X1Npedidos
X1Npedidos 0.800
X2Costo 0.843 0.917
Análisis de regresión: YCosto vs. X1Ventas, X2Npedidos
La ecuación de regresión es
YCosto = - 3.30 + 0.0486 X1Ventas + 0.0119 X2Npedidos

Predictor Coef Coef. de EE T P


Constante -3.297 6.233 -0.53 0.602
X1Ventas 0.04857 0.02058 2.36 0.028
X2Npedidos 0.011889 0.002276 5.22 0.000

S = 4.82466 R-cuad. = 87.4% R-cuad.(ajustado) = 86.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 3404.4 1702.2 73.13 0.000
Error residual 21 488.8 23.3
Total 23 3893.2

Fuente GL SC sec.
X1Ventas 1 2769.3
X2Npedidos 1 635.1

Observaciones poco comunes

Residuo
Obs X1Ventas YCosto Ajuste Ajuste SE Residuo estándar
1 386 52.950 63.185 1.348 -10.235 -2.21R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.25516


Análisis de regresión: YCosto vs. X1Ventas

Estadística Aplicada2 209


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
YCosto = 9.67 + 0.135 X1Ventas

Predictor Coef Coef. de EE T P


Constante 9.665 8.471 1.14 0.266
X1Ventas 0.13458 0.01828 7.36 0.000

S = 7.14740 R-cuad. = 71.1% R-cuad.(ajustado) = 69.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 2769.3 2769.3 54.21 0.000
Error residual 22 1123.9 51.1
Total 23 3893.2
Observaciones poco comunes
Ajuste Residuo
Obs X1Ventas YCosto Ajuste SE Residuo estándar
14 328 72.30 53.81 2.77 18.49 2.81R
17 527 94.44 80.59 1.95 13.85 2.01R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.22324

Análisis de regresión: YCosto vs. X2Npedidos

La ecuación de regresión es
YCosto = - 0.01 + 0.0162 X2Npedidos

Predictor Coef Coef. de EE T P


Constante -0.013 6.678 -0.00 0.998
X2Npedidos 0.016188 0.001500 10.79 0.000

S = 5.30228 R-cuad. = 84.1% R-cuad.(ajustado) = 83.4%


Análisis de varianza

Fuente GL SC MC F P
Regresión 1 3274.7 3274.7 116.48 0.000
Error residual 22 618.5 28.1
Total 23 3893.2

Observaciones poco comunes

Ajuste Residuo
Obs X2Npedidos YCosto Ajuste SE Residuo estándar
1 4015 52.95 64.98 1.22 -12.03 -2.33R

R denota una observación con un residuo estandarizado grande.


Estadístico de Durbin-Watson = 2.06732

Estadística Aplicada2 210


Universidad Peruana de Ciencias Aplicadas

Análisis de la Multicolinealidad

Variables Correlacion
predictor es entre Xi y Correlaciones de
as Xj Y con cada Xi Análisis
No existe
rYX1 = 0.843 multicolineali
X1 Vs. X2 r X1X2 = 0.8 rYX2 = 0.917 dad

Selección del mejor modelo

MODELOS POSIBLES Y X1 Y X2 Y X1X2


R2 ajustado (corregido) 0.698 0.834 0.862
Orden 3º 2º 1º

Analizaremos el primer modelo: Y = β0+ β1+ β2 + e

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:


H0 : 1   2  0 (El modelo no es significativo)
H1 : Al menos un coeficiente es diferente de cero (El modelo es significativo)

Sig= 0.000 < 0.05


Se rechaza Ho

Con un nivel de significación del 5%, la prueba resulta significativa, es decir el modelo de
regresión lineal múltiple es significativo entre las variables analizadas, y está expresado por:

Costos = – 3.297 + 0.0486 Ventas + 0.0119 Número de pedidos

Pruebas individuales
Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.

Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.000 < 0.05
Se rechaza Ho

Estadística Aplicada2 211


Universidad Peruana de Ciencias Aplicadas

Conclusión. Con un nivel de significación de 0.05, las ventas y el número de pedidos son
significativas al modelo.

Interpretación de los coeficientes:

β1 = 0.0486
Cuando las ventas se incrementan en una unidad y manteniendo constante el número de pedidos,
el costo de distribución se incrementa en 0.0486 unidades.
β2= 0.0119
Cuando el número de pedidos se incrementan en una unidad y manteniendo constante las ventas,
el costo de distribución se incrementa en 0.0119 unidades.

Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se obtienen
las siguientes tablas.

Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:

Mes Costo de Costo estimado ( ŷ ) Residual


distribución (y) yˆ  0.04614x1  0.01141x2 (y- ŷ )
1 52.95 ? ?
2 71.66 64.0049 7.6551
3 85.58 84.1994 1.3806
4 63.69 67.1316 -3.4416
5 72.81 70.1033 2.7067

Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.

Estadística Aplicada2 212


Universidad Peruana de Ciencias Aplicadas

Gráfico de dispersión de los residuales con los valores predichos


Este gráfico permite observar si se cumple el supuesto de homogeneidad de varianzas.

Estadística Aplicada2 213


Universidad Peruana de Ciencias Aplicadas

Ejercicios 21

1) Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad
(%), temperatura del aire (ºF) y presión barométrica (lb/pulg2) influyen en la emisión de
óxido nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes
momentos, en condiciones experimentales variantes. Los datos son los siguientes:

Óxido nitroso Humedad Temperatura Presión


0,760 17,2 78,24 26,18
0,747 26,66 68,2 27,35
0,918 38,7 78,24 29,24
0,867 51,6 81,5 28,27
0,953 55,9 78,24 29,78
1,000 61,92 88,02 29,39
0,949 68,8 81,5 29,69
0,937 37,84 81,5 29,48
0,845 27,52 77,24 29,09
0,873 30,1 78,5 29,6
0,911 43 81,5 29,38
0,826 30,1 72,98 29,35

Utilice las salidas mostradas en la solución de las preguntas siguientes:

Correlaciones: YOxido nitroso, X1Humedad, X2Temperatura, X3Presion

YOxido nitroso X1Humedad X2Temperatura


X1Humedad 0.818
X2Temperatura 0.783 0.633
X3Presion 0.792 0.570 0.371

YX1X2X3
Análisis de regresión: YOxido nitroso vs. X1Humedad, X2Temperatura, ...

La ecuación de regresión es
YOxido nitroso = - 0.688 + 0.00134 X1Humedad + 0.00689
X2Temperatura
+ 0.0337 X3Presion

Predictor Coef Coef. de EE T P


Constante -0.6882 0.2399 -2.87 0.021
X1Humedad 0.0013424 0.0006250 2.15 0.064
X2Temperatura 0.006889 0.001787 3.85 0.005
X3Presion 0.033661 0.007517 4.48 0.002

Estadística Aplicada2 214


Universidad Peruana de Ciencias Aplicadas

S = 0.0224800 R-cuad. = 93.9% R-cuad.(ajustado) = 91.6%

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 0.062493 0.020831 41.22 0.000
Error residual 8 0.004043 0.000505
Total 11 0.066536

Fuente GL SC sec.
X1Humedad 1 0.044551
X2Temperatura 1 0.007808
X3Presion 1 0.010133

Estadístico de Durbin-Watson = 2.51966


YX1X2

Análisis de regresión: YOxido nitroso vs. X1Humedad, X2Temperatura

La ecuación de regresión es
YOxido nitroso = 0.221 + 0.00265 X1Humedad + 0.00702
X2Temperatura

Predictor Coef Coef. de EE T P


Constante 0.2207 0.2259 0.98 0.354
X1Humedad 0.0026458 0.0009764 2.71 0.024
X2Temperatura 0.007025 0.003155 2.23 0.053

S = 0.0396877 R-cuad. = 78.7% R-cuad.(ajustado) = 74.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 0.052360 0.026180 16.62 0.001
Error residual 9 0.014176 0.001575
Total 11 0.066536

Fuente GL SC sec.
X1Humedad 1 0.044551
X2Temperatura 1 0.007808

Estadístico de Durbin-Watson = 2.50671

YX1X3

Análisis de regresión: YOxido nitroso vs. X1Humedad, X3Presion

La ecuación de regresión es
YOxido nitroso = - 0.214 + 0.00267 X1Humedad + 0.0342 X3Presion

Predictor Coef Coef. de EE T P


Constante -0.2138 0.3282 -0.65 0.531
Estadística Aplicada2 215
Universidad Peruana de Ciencias Aplicadas

X1Humedad 0.0026718 0.0008305 3.22 0.011


X3Presion 0.03415 0.01198 2.85 0.019

S = 0.0358220 R-cuad. = 82.6% R-cuad.(ajustado) = 78.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 0.054987 0.027493 21.43 0.000
Error residual 9 0.011549 0.001283
Total 11 0.066536
Fuente GL SC sec.
X1Humedad 1 0.044551
X3Presion 1 0.010435

Estadístico de Durbin-Watson = 2.98443

YX2X3

Análisis de regresión: YOxido nitroso vs. X2Temperatura, X3Presion

La ecuación de regresión es
YOxido nitroso = - 1.02 + 0.00901 X2Temperatura + 0.0412
X3Presion

Predictor Coef Coef. de EE T P


Constante -1.0178 0.2184 -4.66 0.001
X2Temperatura 0.009007 0.001765 5.10 0.001
X3Presion 0.041180 0.007875 5.23 0.001

S = 0.0266131 R-cuad. = 90.4% R-cuad.(ajustado) = 88.3%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 0.060161 0.030081 42.47 0.000
Error residual 9 0.006374 0.000708
Total 11 0.066536
Fuente GL SC sec.
X2Temperatura 1 0.040795
X3Presion 1 0.019367

Estadístico de Durbin-Watson = 1.23395

YX1
Análisis de regresión: YOxido nitroso vs. X1Humedad

La ecuación de regresión es
YOxido nitroso = 0.718 + 0.00402 X1Humedad

Predictor Coef Coef. de EE T P

Estadística Aplicada2 216


Universidad Peruana de Ciencias Aplicadas

Constante 0.71818 0.03886 18.48 0.000


X1Humedad 0.0040214 0.0008933 4.50 0.001

S = 0.0468874 R-cuad. = 67.0% R-cuad.(ajustado) = 63.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.044551 0.044551 20.27 0.001
Error residual 10 0.021984 0.002198
Total 11 0.066536

Estadístico de Durbin-Watson = 2.56780

YX2
Análisis de regresión: YOxido nitroso vs. X2Temperatura

La ecuación de regresión es
YOxido nitroso = - 0.098 + 0.0124 X2Temperatura

Predictor Coef Coef. de EE T P


Constante -0.0977 0.2466 -0.40 0.700
X2Temperatura 0.012434 0.003123 3.98 0.003

S = 0.0507357 R-cuad. = 61.3% R-cuad.(ajustado) = 57.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.040795 0.040795 15.85 0.003
Error residual 10 0.025741 0.002574
Total 11 0.066536
Observaciones poco comunes

YOxido Residuo
Obs X2Temperatura nitroso Ajuste Ajuste SE Residuo
estándar
1 78.2 0.7600 0.8751 0.0148 -0.1151 -
2.37R
2 68.2 0.7470 0.7503 0.0362 -0.0033 -
0.09 X

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.
Estadístico de Durbin-Watson = 1.85526

Estadística Aplicada2 217


Universidad Peruana de Ciencias Aplicadas

YX3
Análisis de regresión: YOxido nitroso vs. X3Presion

La ecuación de regresión es
YOxido nitroso = - 0.739 + 0.0561 X3Presion

Predictor Coef Coef. de EE T P


Constante -0.7394 0.3959 -1.87 0.091
X3Presion 0.05611 0.01369 4.10 0.002

S = 0.0498295 R-cuad. = 62.7% R-cuad.(ajustado) = 59.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 0.041706 0.041706 16.80 0.002
Error residual 10 0.024830 0.002483
Total 11 0.066536
Observaciones poco comunes

YOxido Residuo
Obs X3Presion nitroso Ajuste Ajuste SE Residuo estándar
1 26.2 0.7600 0.7295 0.0399 0.0305 1.02
X

X denota una observación cuyo valor X le concede gran


influencia.

Estadístico de Durbin-Watson = 1.37565

a). Analice la existencia de la multicolinealidad.

b) Determine el mejor modelo de regresión lineal múltiple.

Estadística Aplicada2 218


Universidad Peruana de Ciencias Aplicadas

c) Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de


significación de 0.05.

d) Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

e). Probar los supuestos del modelo de regresión lineal múltiple.

f) Estime puntualmente la emisión de óxido nitroso para 50% de humedad, una temperatura
de una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

Estadística Aplicada2 219


Universidad Peruana de Ciencias Aplicadas

g) Halle un intervalo de predicción al 95%, para la emisión promedio de óxido nitroso


cuando la humedad es 50%, una temperatura de 76 °F y una presión barométrica 29,30
lb/pulg2.

h) Halle un intervalo de predicción al 95%, para la emisión de óxido nitroso cuando la


humedad es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

2) Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de


cierto país, decidieron llevar a cabo un estudio del contenido de SO 2 en el aire en gr/m3.
Para ello seleccionaron aleatoriamente 11 ciudades, y registraron el contenido de SO 2 en
el aire; el número de fábricas con más de 20 empleados; el número de horas de
funcionamiento al mes y el número de trabajadores.

Contenido de
Nº de fábricas Nº de horas Nº de empleados
SO2
10 213 260 36
13 91 380 100
12 453 360 67
17 454 420 86
56 412 620 127
36 80 515 114
29 434 485 111
14 136 396 116

Estadística Aplicada2 220


Universidad Peruana de Ciencias Aplicadas

10 207 255 128


24 368 455 115
110 3344 815 122

Utilice las salidas mostradas en la solución de las preguntas siguientes:

Correlaciones: YContenido d, X1N de fábri, X2Nº de hora, X3N de emple


YContenido de SO X1N de fábricas X2Nº
de horas
X1N de fábricas 0.890
X2Nº de horas 0.948 0.771
X3N de empleados 0.431 0.213
0.506

Contenido de la celda: Correlación de Pearson


YX1X2X3
Análisis de regresión: YContenido d vs. X1N de fábri, X2Nº de hora, ...

La ecuación de regresión es
YContenido de SO2 = - 32.6 + 0.0130 X1N de fábricas + 0.115
X2Nº de horas
+ 0.0326 X3N de empleados

Predictor Coef Coef. de EE T P


Constante -32.640 9.317 -3.50 0.010
X1N de fábricas 0.013050 0.003894 3.35 0.012
X2Nº de horas 0.11544 0.02562 4.51 0.003
X3N de empleados 0.03256 0.09417 0.35 0.740

S = 6.93560 R-cuad. = 96.3% R-cuad.(ajustado) = 94.6%


Análisis de varianza
Fuente GL SC MC F P
Regresión 3 8650.2 2883.4 59.94 0.000
Error residual 7 336.7 48.1
Total 10 8986.9

Fuente GL SC sec.
X1N de fábricas 1 7126.5
X2Nº de horas 1 1518.0
X3N de empleados 1 5.8

Observaciones poco comunes


X1N de YContenido Ajuste Residuo
Obs fábricas de SO2 Ajuste SE Residuo estándar
1 213 10.00 1.33 5.51 8.67 2.06R
R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.10896


Estadística Aplicada2 221
Universidad Peruana de Ciencias Aplicadas

Y X1X2
Análisis de regresión: YContenido d vs. X1N de fábri, X2Nº de hora

La ecuación de regresión es
YContenido de SO2 = - 31.3 + 0.0126 X1N de fábricas + 0.120
X2Nº de horas

Predictor Coef Coef. de EE T P


Constante -31.268 7.952 -3.93 0.004
X1N de fábricas 0.012616 0.003478 3.63 0.007
X2Nº de horas 0.12030 0.02020 5.95 0.000

S = 6.54282 R-cuad. = 96.2% R-cuad.(ajustado) = 95.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 8644.4 4322.2 100.97 0.000
Error residual 8 342.5 42.8
Total 10 8986.9
Fuente GL SC sec.
X1N de fábricas 1 7126.5
X2Nº de horas 1 1518.0

Observaciones poco comunes


X1N de YContenido Ajuste Residuo
Obs fábricas de SO2 Ajuste SE Residuo estándar
11 3344 110.00 108.97 6.47 1.03 1.06
X

X denota una observación cuyo valor X le concede gran


influencia.

Estadístico de Durbin-Watson = 2.16850


YX1X3
Análisis de regresión: YContenido d vs. X1N de fábri, X3N de emple

La ecuación de regresión es
YContenido de SO2 = - 12.1 + 0.0269 X1N de fábricas + 0.265
X3N de empleados

Predictor Coef Coef. de EE T P


Constante -12.10 15.01 -0.81 0.443
X1N de fábricas 0.026855 0.004440 6.05 0.000
X3N de empleados 0.2655 0.1454 1.83 0.105

S = 12.8130 R-cuad. = 85.4% R-cuad.(ajustado) = 81.7%

Análisis de varianza

Estadística Aplicada2 222


Universidad Peruana de Ciencias Aplicadas

Fuente GL SC MC F P
Regresión 2 7673.5 3836.8 23.37 0.000
Error residual 8 1313.4 164.2
Total 10 8986.9

Fuente GL SC sec.
X1N de fábricas 1 7126.5
X3N de empleados 1 547.1

Observaciones poco comunes

X1N de YContenido Residuo


Obs fábricas de SO2 Ajuste Ajuste SE Residuo estándar
5 412 56.00 32.67 5.44 23.33 2.01R
11 3344 110.00 110.09 12.67 -0.09 -
0.05 X

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadístico de Durbin-Watson = 1.23422

YX2X3
Análisis de regresión: YContenido d vs. X2Nº de hora, X3N de empleados

La ecuación de regresión es
YContenido de SO2 = - 45.4 + 0.183 X2Nº de horas - 0.069 X3N
de empleados

Predictor Coef Coef. de EE T P


Constante -45.40 12.84 -3.54 0.008
X2Nº de horas 0.18299 0.02387 7.67 0.000
X3N de empleados -0.0690 0.1346 -0.51 0.622

S = 10.4697 R-cuad. = 90.2% R-cuad.(ajustado) = 87.8%


Análisis de varianza

Fuente GL SC MC F P
Regresión 2 8110.0 4055.0 36.99 0.000
Error residual 8 876.9 109.6
Total 10 8986.9

Fuente GL SC sec.
X2Nº de horas 1 8081.2
X3N de empleados 1 28.8

Observaciones poco comunes


X2Nº de YContenido Ajuste Residuo
Obs horas de SO2 Ajuste SE Residuo estándar

Estadística Aplicada2 223


Universidad Peruana de Ciencias Aplicadas

9 255 10.00 -7.57 7.79 17.57 2.51R


11 815 110.00 95.32 8.31 14.68 2.30R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.00473

YX1
Análisis de regresión: YContenido de SO2 vs. X1N de fábricas

La ecuación de regresión es
YContenido de SO2 = 14.0 + 0.0286 X1N de fábricas

Predictor Coef Coef. de EE T P


Constante 14.001 5.128 2.73 0.023
X1N de fábricas 0.028583 0.004868 5.87 0.000
S = 14.3776 R-cuad. = 79.3% R-cuad.(ajustado) = 77.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 7126.5 7126.5 34.47 0.000
Error residual 9 1860.4 206.7
Total 10 8986.9

Observaciones poco comunes

X1N de YContenido Residuo


Obs fábricas de SO2 Ajuste Ajuste SE Residuo estándar
5 412 56.00 25.78 4.40 30.22 2.21R
11 3344 110.00 109.58 14.22 0.42 0.19
X

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadístico de Durbin-Watson = 1.28072

YX2
Análisis de regresión: YContenido de SO2 vs. X2Nº de horas

La ecuación de regresión es
YContenido de SO2 = - 49.6 + 0.177 X2Nº de horas
Predictor Coef Coef. de EE T P
Constante -49.646 9.398 -5.28 0.001

Estadística Aplicada2 224


Universidad Peruana de Ciencias Aplicadas

X2Nº de horas 0.17680 0.01973 8.96 0.000

S = 10.0319 R-cuad. = 89.9% R-cuad.(ajustado) = 88.8%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 8081.2 8081.2 80.30 0.000
Error residual 9 905.8 100.6
Total 10 8986.9

Observaciones poco comunes


X2Nº de YContenido Ajuste Residuo
Obs horas de SO2 Ajuste SE Residuo estándar
11 815 110.00 94.45 7.79 15.55 2.46RX

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.
Estadístico de Durbin-Watson = 1.96776

YX3
Análisis de regresión: YContenido de SO2 vs. X3N de empleados

La ecuación de regresión es
YContenido de SO2 = - 16.1 + 0.453 X3N de empleados

Coef.
Predictor Coef de EE T P
Constante -16.11 33.38 -0.48 0.641
X3N de empleados 0.4529 0.3162 1.43 0.186

S = 28.5168 R-cuad. = 18.6% R-cuad.(ajustado) = 9.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1668.0 1668.0 2.05 0.186
Error residual 9 7318.9 813.2
Total 10 8986.9

Observaciones poco comunes

X3N de YContenido Residuo


Obs empleados de SO2 Ajuste Ajuste SE Residuo estándar
1 36 10.00 0.20 22.57 9.80 0.56
X
11 122 110.00 39.15 10.67 70.85 2.68R

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadística Aplicada2 225


Universidad Peruana de Ciencias Aplicadas

Estadístico de Durbin-Watson = 1.25354

a. Analice la existencia de la multicolinealidad.

b. Determine el mejor modelo de regresión lineal múltiple.

c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación


de 0.05.

d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.

Estadística Aplicada2 226


Universidad Peruana de Ciencias Aplicadas

e. Probar los supuestos del modelo de regresión lineal múltiple.

f. Estime puntualmente el contenido de SO2 en aire para una ciudad con 500 fábricas, 300
horas de funcionamiento y 120 empleados.

3) La resistencia a la tensión de una fibra se ve afectada por el tiempo de secado, la


temperatura de secado, y el porcentaje de algodón en la fibra. En la siguiente tabla se
muestran los datos.

Resistencia Tiempo (min) Temperatura (°F) %de algodón


213 2 115 13
220 2.3 145 15
216 2.3 130 15
234 2.5 146 18
230 3 148 20
235 3.4 151 19
238 3.4 135 19
230 3.4 145 19
236 4 149 16
231 4 141 16
243 4.1 155 17
Utilice las salidas mostradas en la solución de las preguntas siguientes:
Correlaciones: YResistencia, X1Tiempo (min), X2Temperatura (°F), X3%de algodón

Estadística Aplicada2 227


Universidad Peruana de Ciencias Aplicadas

YResistencia X1Tiempo (min)


X2Temperatura (°
X1Tiempo (min) 0.821
X2Temperatura (° 0.755 0.625
X3%de algodón 0.671 0.404
0.610

Contenido de la celda: Correlación de Pearson

YX1X2X3
Análisis de regresión: YResistencia vs. X1Tiempo (mi, X2Temperatur, ...

La ecuación de regresión es
YResistencia = 160 + 7.00 X1Tiempo (min) + 0.176 X2Temperatura
(°F)
+ 1.36 X3%de algodón

Coef.
Predictor Coef de EE T P
Constante 159.65 19.63 8.13 0.000
X1Tiempo (min) 7.004 2.483 2.82 0.026
X2Temperatura (°F) 0.1759 0.1913 0.92 0.388
X3%de algodón 1.3613 0.8462 1.61 0.152

S = 4.64052 R-cuad. = 83.1% R-cuad.(ajustado) = 75.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 743.80 247.93 11.51 0.004
Error residual 7 150.74 21.53
Total 10 894.55

Fuente GL SC sec.
X1Tiempo (min) 1 602.34
X2Temperatura (°F) 1 85.74
X3%de algodón 1 55.73

Estadístico de Durbin-Watson = 2.99376

YX1X2
Análisis de regresión: YResistencia vs. X1Tiempo (min), X2Temperatura (°

La ecuación de regresión es
YResistencia = 160 + 7.15 X1Tiempo (min) + 0.330 X2Temperatura
(°F)

Coef.
Predictor Coef de EE T P

Estadística Aplicada2 228


Universidad Peruana de Ciencias Aplicadas

Constante 160.47 21.48 7.47 0.000


X1Tiempo (min) 7.145 2.717 2.63 0.030
X2Temperatura (°F) 0.3302 0.1811 1.82 0.106

S = 5.08023 R-cuad. = 76.9% R-cuad.(ajustado) = 71.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 688.08 344.04 13.33 0.003
Error residual 8 206.47 25.81
Total 10 894.55

Fuente GL SC sec.
X1Tiempo (min) 1 602.34
X2Temperatura (°F) 1 85.74

Estadístico de Durbin-Watson = 2.27332


YX1X3
Análisis de regresión: YResistencia vs. X1Tiempo (min), X3%de algodón

La ecuación de regresión es
YResistencia = 174 + 8.20 X1Tiempo (min) + 1.75 X3%de algodón

Coef.
Predictor Coef de EE T P
Constante 174.22 11.47 15.19 0.000
X1Tiempo (min) 8.199 2.096 3.91 0.004
X3%de algodón 1.7515 0.7250 2.42 0.042

S = 4.59546 R-cuad. = 81.1% R-cuad.(ajustado) = 76.4%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 725.60 362.80 17.18 0.001
Error residual 8 168.95 21.12
Total 10 894.55

Fuente GL SC sec.
X1Tiempo (min) 1 602.34
X3%de algodón 1 123.26

Estadístico de Durbin-Watson = 3.04310


YX2X3
Análisis de regresión: YResistencia vs. X2Temperatura (°, X3%de algodón

La ecuación de regresión es
YResistencia = 140 + 0.458 X2Temperatura (°F) + 1.45 X3%de
algodón

Estadística Aplicada2 229


Universidad Peruana de Ciencias Aplicadas

Coef.
Predictor Coef de EE T P
Constante 140.11 25.11 5.58 0.001
X2Temperatura (°F) 0.4580 0.2229 2.05 0.074
X3%de algodón 1.446 1.156 1.25 0.247

S = 6.34492 R-cuad. = 64.0% R-cuad.(ajustado) = 55.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 572.48 286.24 7.11 0.017
Error residual 8 322.06 40.26
Total 10 894.55

Fuente GL SC sec.
X2Temperatura (°F) 1 509.56
X3%de algodón 1 62.92

Estadístico de Durbin-Watson = 1.81327

YX1
Análisis de regresión: YResistencia vs. X1Tiempo (min)

La ecuación de regresión es
YResistencia = 198 + 10.2 X1Tiempo (min)

Coef.
Predictor Coef de EE T P
Constante 197.606 7.632 25.89 0.000
X1Tiempo (min) 10.242 2.378 4.31 0.002

S = 5.69804 R-cuad. = 67.3% R-cuad.(ajustado) = 63.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 602.34 602.34 18.55 0.002
Error residual 9 292.21 32.47
Total 10 894.55

Observaciones poco comunes

X1Tiempo Ajuste Residuo


Obs (min) YResistencia Ajuste SE Residuo estándar
4 2.50 234.00 223.21 2.28 10.79 2.07R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.01355

Estadística Aplicada2 230


Universidad Peruana de Ciencias Aplicadas

YX2
Análisis de regresión: YResistencia vs. X2Temperatura (°F)

La ecuación de regresión es
YResistencia = 141 + 0.628 X2Temperatura (°F)

Coef.
Predictor Coef de EE T P
Constante 140.56 25.88 5.43 0.000
X2Temperatura (°F) 0.6281 0.1820 3.45 0.007

S = 6.54037 R-cuad. = 57.0% R-cuad.(ajustado) = 52.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 509.56 509.56 11.91 0.007
Error residual 9 384.99 42.78
Total 10 894.55

Observaciones poco comunes

X2Temperatura Ajuste Residuo


Obs (°F) YResistencia Ajuste SE Residuo
estándar
1 115 213.00 212.79 5.26 0.21
0.05 X
7 135 238.00 225.35 2.33 12.65
2.07R

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadístico de Durbin-Watson = 1.73220

YX3
Análisis de regresión: YResistencia vs. X3%de algodón

La ecuación de regresión es
YResistencia = 180 + 2.90 X3%de algodón

Coef.
Predictor Coef de EE T P
Constante 180.41 18.28 9.87 0.000
X3%de algodón 2.896 1.067 2.71 0.024

S = 7.39388 R-cuad. = 45.0% R-cuad.(ajustado) = 38.9%

Análisis de varianza

Estadística Aplicada2 231


Universidad Peruana de Ciencias Aplicadas

Fuente GL SC MC F P
Regresión 1 402.52 402.52 7.36 0.024
Error residual 9 492.02 54.67
Total 10 894.55

Estadístico de Durbin-Watson = 1.33939


a. Analice la existencia de la multicolinealidad
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de
significación de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la resistencia cuando el tiempo de secado sea de 3.8 min, la
temperatura de secado de 140°F y el % de algodón en la fibra de 14%.
g. Halle un intervalo de predicción al 98% para la resistencia promedio cuando el tiempo de
secado sea de
3.8 min, la temperatura de secado de 140°F y el % de algodón en la fibra de 14%.
4) Una empresa de desarrollo de software desea establecer un modelo que permita relacionar
sus Ventas en función del número de pedidos de los tipos de software que desarrolla
(Sistemas, Educativos y Automatizaciones Empresariales). Para tal propósito analiza 10
proyectos, seleccionados aleatoriamente, de los que fueron atendidos en el presente año.
En la Tabla se ha registrado Ventas miles de $); Nº pedidos de sistemas), Nº de pedidos
de Aplicaciones Educativas y Nº de pedidos de Automatizaciones empresariales.

Nº de pedidos de
Ventas miles Nº pedidos de Nº de pedidos de
Automatizaciones
de S/. Sistemas Aplicaciones Educativas
empresariales
449 55 105 75
520 40 140 68
490 45 110 70
515 35 130 64
506 38 125 67
480 50 115 72
470 48 100 70
460 51 103 73
490 44 118 69
450 53 98 74

Con las salidas siguientes responda las siguientes preguntas:

Correlaciones: Yventas, X1pSistemas, X2pEducativas, X3pAdministrativas

Yventas X1pSistemas
X2pEducativas
X1pSistemas -0.949

Estadística Aplicada2 232


Universidad Peruana de Ciencias Aplicadas

X2pEducativas 0.929 -0.833


X3pAdministrativ -0.914 0.982 -
0.768

Contenido de la celda: Correlación de Pearson

YX1X2X3
Análisis de regresión: Yventas vs. X1pSistemas, X2pEducativas, ...

La ecuación de regresión es
Yventas = 538 - 1.50 X1pSistemas + 0.886 X2pEducativas - 1.25 X3pAdministrativas

Coef.
Predictor Coef de EE T P
Constante 538.3 151.1 3.56 0.012
X1pSistemas -1.502 2.121 -0.71 0.505
X2pEducativas 0.8864 0.2973 2.98 0.025
X3pAdministrativas -1.251 3.599 -0.35 0.740

S = 5.96852 R-cuad. = 96.4% R-cuad.(ajustado) = 94.6%

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 5758.3 1919.4 53.88 0.000
Error residual 6 213.7 35.6
Total 9 5972.0

Fuente GL SC sec.
X1pSistemas 1 5382.8
X2pEducativas 1 371.2
X3pAdministrativas 1 4.3

Estadístico de Durbin-Watson = 2.09709


YX1X2
Análisis de regresión: Yventas vs. X1pSistemas, X2pEducativas

La ecuación de regresión es
Yventas = 489 - 2.21 X1pSistemas + 0.836 X2pEducativas

Coef.
Predictor Coef de EE T P
Constante 489.03 48.72 10.04 0.000
X1pSistemas -2.2142 0.5041 -4.39 0.003
X2pEducativas 0.8357 0.2421 3.45 0.011

S = 5.58110 R-cuad. = 96.3% R-cuad.(ajustado) = 95.3%

Análisis de varianza

Fuente GL SC MC F P

Estadística Aplicada2 233


Universidad Peruana de Ciencias Aplicadas

Regresión 2 5754.0 2877.0 92.36 0.000


Error residual 7 218.0 31.1
Total 9 5972.0

Fuente GL SC sec.
X1pSistemas 1 5382.8
X2pEducativas 1 371.2

Estadístico de Durbin-Watson = 2.01219


YX1X3
Análisis de regresión: Yventas vs. X1pSistemas, X3pAdministrativas

La ecuación de regresión es
Yventas = 461 - 5.67 X1pSistemas + 4.02 X3pAdministrativas

Coef.
Predictor Coef de EE T P
Constante 461.0 217.1 2.12 0.071
X1pSistemas -5.673 2.324 -2.44 0.045
X3pAdministrativas 4.023 4.573 0.88 0.408
S = 8.70577 R-cuad. = 91.1% R-cuad.(ajustado) = 88.6%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 5441.5 2720.7 35.90 0.000
Error residual 7 530.5 75.8
Total 9 5972.0

Fuente GL SC sec.
X1pSistemas 1 5382.8
X3pAdministrativas 1 58.7

Estadístico de Durbin-Watson = 2.21106

YX2X3
Análisis de regresión: Yventas vs. X2pEducativas, X3pAdministrativas

La ecuación de regresión es
Yventas = 627 + 1.03 X2pEducativas - 3.72 X3pAdministrativas

Coef.
Predictor Coef de EE T P
Constante 626.55 82.36 7.61 0.000
X2pEducativas 1.0253 0.2153 4.76 0.002
X3pAdministrativas -3.7158 0.8819 -4.21 0.004

S = 5.75207 R-cuad. = 96.1% R-cuad.(ajustado) = 95.0%

Análisis de varianza

Estadística Aplicada2 234


Universidad Peruana de Ciencias Aplicadas

Fuente GL SC MC F P
Regresión 2 5740.4 2870.2 86.75 0.000
Error residual 7 231.6 33.1
Total 9 5972.0

Fuente GL SC sec.
X2pEducativas 1 5153.0
X3pAdministrativas 1 587.4

Observaciones poco comunes


Ajuste Residuo
Obs X2pEducativas Yventas Ajuste SE Residuo estándar
3 110 490.00 479.23 2.12 10.77 2.01R

R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.31685


YX1
Análisis de regresión: Yventas vs. X1pSistemas

La ecuación de regresión es
Yventas = 651 - 3.66 X1pSistemas

Coef.
Predictor Coef de EE T P
Constante 651.19 19.86 32.79 0.000
X1pSistemas -3.6643 0.4286 -8.55 0.000
S = 8.58202 R-cuad. = 90.1% R-cuad.(ajustado) = 88.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 5382.8 5382.8 73.09 0.000
Error residual 8 589.2 73.7
Total 9 5972.0

Estadístico de Durbin-Watson = 2.07995


YX2
Análisis de regresión: Yventas vs. X2pEducativas

La ecuación de regresión es
Yventas = 286 + 1.72 X2pEducativas

Coef.
Predictor Coef de EE T P
Constante 286.04 27.94 10.24 0.000
X2pEducativas 1.7217 0.2427 7.09 0.000

S = 10.1178 R-cuad. = 86.3% R-cuad.(ajustado) = 84.6%

Estadística Aplicada2 235


Universidad Peruana de Ciencias Aplicadas

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 5153.0 5153.0 50.34 0.000
Error residual 8 819.0 102.4
Total 9 5972.0

Estadístico de Durbin-Watson = 1.56205


YX3
Análisis de regresión: Yventas vs. X3pAdministrativas

La ecuación de regresión es
Yventas = 970 - 6.94 X3pAdministrativas

Coef.
Predictor Coef de EE T P
Constante 970.20 76.49 12.68 0.000
X3pAdministrativas -6.940 1.089 -6.38 0.000

S = 11.0794 R-cuad. = 83.6% R-cuad.(ajustado) = 81.5%


Análisis de varianza

Fuente GL SC MC F P
Regresión 1 4990.0 4990.0 40.65 0.000
Error residual 8 982.0 122.8
Total 9 5972.0

Observaciones poco comunes


Ajuste Residuo
Obs X3pAdministrativas Yventas Ajuste SE Residuo
estándar
2 68.0 520.00 498.27 4.24 21.73
2.12R
R denota una observación con un residuo estandarizado grande.

Estadístico de Durbin-Watson = 2.01139


a. Analice la existencia de la multicolinealidad
b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de
significación de 0.01.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Es posible afirmar que por un software adicional de Aplicaciones Educativas,
permaneciendo constante las demás variables las ventas aumentan en más de 1000
dólares. Use un α=0.05.
g. Estime puntualmente las ventas cuando el número de pedidos para Sistemas,
Aplicaciones Educativas y Automatizaciones empresariales sea de 53, 100 y 71
respectivamente.

Estadística Aplicada2 236


Universidad Peruana de Ciencias Aplicadas

h. Halle un intervalo de predicción al 95% para las ventas promedio cuando el número de
pedidos para Sistemas, Aplicaciones Educativas y Automatizaciones empresariales sea
de 53, 100 y 71 respectivamente.

5) Los siguientes datos corresponden al uso mensual de agua de una planta de producción
(galones) a su producción mensual (toneladas), la media de la temperatura ambiente
mensual (°F), y el número mensual de días de operación de la planta durante un período
de 12 meses.

Uso de agua Producción Media de la temperatura Días de operación


1878 62 63,7 21
1721 54,9 49,6 23
2135 97,4 35,7 17
1980 83,3 64,5 19
2031 84,4 58,1 20
2228 98,5 67,4 19
2254 82,1 68,7 18
2378 101 69,2 21
2522 100,6 64,8 19
2609 108,2 70,3 20
2654 99,8 75,1 19
2648 115,4 82,1 21

Con las salidas siguientes responda las preguntas que se presentan a continuación:

Correlaciones: YUso de agua, X1Producción, X2Temperatura, X3Días

YUso de agua X1Producción X2Temperatura


X1Producción 0.892
X2Temperatura 0.644 0.449
X3Días -0.265 -0.389 0.187

YX1X2X3

Análisis de regresión: YUso de agua vs. X1Producción, X2Temperatura, ...


La ecuación de regresión es
YUso de agua = 716 + 12.7 X1Producción + 8.49 X2Temperatura -
8.2 X3Días
Coef.
Predictor Coef de EE T P
Constante 715.8 670.5 1.07 0.317
X1Producción 12.750 2.948 4.32 0.003
X2Temperatura 8.494 4.145 2.05 0.075
X3Días -8.24 30.20 -0.27 0.792

S = 132.832 R-cuad. = 87.1% R-cuad.(ajustado) = 82.3%


Estadística Aplicada2 237
Universidad Peruana de Ciencias Aplicadas

Análisis de varianza

Fuente GL SC MC F P
Regresión 3 952405 317468 17.99 0.001
Error residual 8 141154 17644
Total 11 1093560

Fuente GL SC sec.
X1Producción 1 869677
X2Temperatura 1 81416
X3Días 1 1312

Estadístico de Durbin-Watson = 1.58522


YX1X2
Análisis de regresión: YUso de agua vs. X1Producción, X2Temperatura
La ecuación de regresión es
YUso de agua = 546 + 13.2 X1Producción + 8.00 X2Temperatura

Coef.
Predictor Coef de EE T P
Constante 545.7 233.6 2.34 0.044
X1Producción 13.183 2.353 5.60 0.000
X2Temperatura 7.997 3.526 2.27 0.050

S = 125.816 R-cuad. = 87.0% R-cuad.(ajustado) = 84.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 951093 475547 30.04 0.000
Error residual 9 142467 15830
Total 11 1093560

Fuente GL SC sec.
X1Producción 1 869677
X2Temperatura 1 81416

Observaciones poco comunes


YUso de Residuo
Obs X1Producción agua Ajuste Ajuste SE Residuo estándar
3 97 2135.0 2115.3 114.2 19.7 0.37
X

X denota una observación cuyo valor X le concede gran


influencia.

Estadístico de Durbin-Watson = 1.74243


YX1X3
Análisis de regresión: YUso de agua vs. X1Producción, X3Días

Estadística Aplicada2 238


Universidad Peruana de Ciencias Aplicadas

La ecuación de regresión es
YUso de agua = 407 + 16.2 X1Producción + 19.0 X3Días

Coef.
Predictor Coef de EE T P
Constante 406.9 760.7 0.53 0.606
X1Producción 16.235 2.804 5.79 0.000
X3Días 18.98 31.58 0.60 0.563

S = 154.647 R-cuad. = 80.3% R-cuad.(ajustado) = 75.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 878317 439159 18.36 0.001
Error residual 9 215243 23916
Total 11 1093560

Fuente GL SC sec.
X1Producción 1 869677
X3Días 1 8640

Estadístico de Durbin-Watson = 1.65263

YX2X3
Análisis de regresión: YUso de agua vs. X2Temperatura, X3Días

La ecuación de regresión es
YUso de agua = 2598 + 18.8 X2Temperatura - 78.6 X3Días

Coef.
Predictor Coef de EE T P
Constante 2598.0 878.6 2.96 0.016
X2Temperatura 18.834 5.832 3.23 0.010
X3Días -78.59 43.82 -1.79 0.107

S = 228.791 R-cuad. = 56.9% R-cuad.(ajustado) = 47.3%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 622451 311226 5.95 0.023
Error residual 9 471108 52345
Total 11 1093560

Fuente GL SC sec.
X2Temperatura 1 454116
X3Días 1 168336

Estadístico de Durbin-Watson = 1.32262

Estadística Aplicada2 239


Universidad Peruana de Ciencias Aplicadas

YX1
Análisis de regresión: YUso de agua vs. X1Producción

La ecuación de regresión es
YUso de agua = 841 + 15.6 X1Producción

Coef.
Predictor Coef de EE T P
Constante 841.1 230.6 3.65 0.004
X1Producción 15.580 2.500 6.23 0.000

S = 149.627 R-cuad. = 79.5% R-cuad.(ajustado) = 77.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 869677 869677 38.85 0.000
Error residual 10 223882 22388
Total 11 1093560

Estadístico de Durbin-Watson = 1.31501

YX2
Análisis de regresión: YUso de agua vs. X2Temperatura

La ecuación de regresión es
YUso de agua = 1172 + 16.9 X2Temperatura

Coef.
Predictor Coef de EE T P
Constante 1171.6 412.4 2.84 0.018
X2Temperatura 16.873 6.331 2.66 0.024

S = 252.872 R-cuad. = 41.5% R-cuad.(ajustado) = 35.7%


Análisis de varianza

Fuente GL SC MC F P
Regresión 1 454116 454116 7.10 0.024
Error residual 10 639444 63944
Total 11 1093560

Observaciones poco comunes


YUso de Residuo
Obs X2Temperatura agua Ajuste Ajuste SE Residuo
estándar
3 35.7 2135.0 1774.0 194.1 361.0
2.23RX

Estadística Aplicada2 240


Universidad Peruana de Ciencias Aplicadas

R denota una observación con un residuo estandarizado grande.


X denota una observación cuyo valor X le concede gran
influencia.

Estadístico de Durbin-Watson = 1.47402

YX3
Análisis de regresión: YUso de agua vs. X3Días

La ecuación de regresión es
YUso de agua = 3281 - 52.1 X3Días

Coef.
Predictor Coef de EE T P
Constante 3281 1189 2.76 0.020
X3Días -52.05 60.00 -0.87 0.406

S = 318.907 R-cuad. = 7.0% R-cuad.(ajustado) = 0.0%

Análisis de varianza
Fuente GL SC MC F P
Regresión 1 76544 76544 0.75 0.406
Error residual 10 1017016 101702
Total 11 1093560

Estadístico de Durbin-Watson = 0.154498

a. Determine si hay multicolinealidad, justifique su respuesta.


b. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de
significación de 0.01.
c. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
d. Probar los supuestos del modelo de regresión lineal múltiple.
e. Con un nivel de confianza del 99%, elabore un intervalo de confianza para el consumo de
agua mensual, cuando la producción mensual es de 80 tn., la temperatura promedio es de 70
ºF y los días de operación al mes es de 22.

6) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y diferentes
temperaturas de recocido se les mide su dureza con los resultados que se muestran en la
siguiente tabla. Ajuste una ecuación de la forma y   0  1 x1   2 x2  e , donde x1
representa el contenido de cobre, x2 representa la temperatura de recocido e y representa
la dureza.

Contenido de cobre Temperatura del


Dureza (Rockwell 30-T)
(%) recocido (grados F)

Estadística Aplicada2 241


Universidad Peruana de Ciencias Aplicadas

78.9 .02 1000


65.1 .02 1100
55.2 .02 1200
56.4 .02 1300
80.9 .10 1000
69.7 .10 1100
57.4 .10 1200
55.4 .10 1300
85.3 .18 1000
71.8 .18 1100
60.7 .18 1200
58.9 .18 1300

Correlaciones: Ydureza, X1ccobre, X2TemperaturaF

Ydureza X1ccobre
X1ccobre 0.208
X2TemperaturaF -0.925 0.000

Contenido de la celda: Correlación de Pearson

YX1X2

Análisis de regresión: Ydureza vs. X1ccobre, X2TemperaturaF

La ecuación de regresión es
Ydureza = 161 + 33.0 X1ccobre - 0.0855 X2TemperaturaF

Predictor Coef Coef. de EE T P


Constante 161.34 11.43 14.11 0.000
X1ccobre 32.97 16.75 1.97 0.081
X2TemperaturaF -0.085500 0.009788 -8.74 0.000

S = 3.79093 R-cuad. = 89.9% R-cuad.(ajustado) = 87.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 2 1152.19 576.09 40.09 0.000
Error residual 9 129.34 14.37
Total 11 1281.53

Fuente GL SC sec.
X1ccobre 1 55.65
X2TemperaturaF 1 1096.54
Estadístico de Durbin-Watson = 2.17989

Estadística Aplicada2 242


Universidad Peruana de Ciencias Aplicadas

YX1

Análisis de regresión: Ydureza vs. X1ccobre

La ecuación de regresión es
Ydureza = 63.0 + 33.0 X1ccobre

Coef.
Predictor Coef de EE T P
Constante 63.011 5.845 10.78 0.000
X1ccobre 32.97 48.93 0.67 0.516

S = 11.0719 R-cuad. = 4.3% R-cuad.(ajustado) = 0.0%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 55.7 55.7 0.45 0.516
Error residual 10 1225.9 122.6
Total 11 1281.5

Estadístico de Durbin-Watson = 1.71349

YX2

Análisis de regresión: Ydureza vs. X2TemperaturaF

La ecuación de regresión es
Ydureza = 165 - 0.0855 X2TemperaturaF

Predictor Coef Coef. de EE T P


Constante 164.63 12.83 12.83 0.000
X2TemperaturaF -0.08550 0.01111 -7.70 0.000

S = 4.30107 R-cuad. = 85.6% R-cuad.(ajustado) = 84.1%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 1096.5 1096.5 59.27 0.000
Error residual 10 185.0 18.5
Total 11 1281.5

Estadístico de Durbin-Watson = 1.53730

Análisis de residuales

Estadística Aplicada2 243


Universidad Peruana de Ciencias Aplicadas

Histograma
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Y
5
Variable dependiente: Y
Frecuencia

1.00

.7 5

.5 0

Prob acum esperada


2

.2 5
1 Std. Dev = .95
Mean = 0 .00
0 N = 12.00
0.00
-1.5 0 -1.0 0 -.50 0.00 .5 0 1.00 1.50 0.00 .2 5 .5 0 .7 5 1.00

Regresión Residuo tipificado Prob acum observada

Gráfico de dispersión
Variable dependiente: Y
Regresión Residuo tipificado

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0
-1.5 -1.0 -.5 0.0 .5 1.0 1.5

Regresión Valor pronosticado tipificado

y x2 PRE_1 RES_1 LMCI_1 UMCI_1 LICI_1 UICI_1


78.9 1000 79.13 -.23 74.50 83.76 68.49 89.78
65.1 1100 70.58 -5.48 67.55 73.61 60.53 80.63
55.2 1200 62.03 -6.83 59.00 65.06 51.98 72.08
56.4 1300 53.48 2.92 48.85 58.11 42.84 64.13
80.9 1000 79.13 1.77 74.50 83.76 68.49 89.78
69.7 1100 70.58 -.88 67.55 73.61 60.53 80.63
57.4 1200 62.03 -4.63 59.00 65.06 51.98 72.08
55.4 1300 53.48 1.92 48.85 58.11 42.84 64.13
85.3 1000 79.13 6.17 74.50 83.76 68.49 89.78
71.8 1100 70.58 1.22 67.55 73.61 60.53 80.63
60.7 1200 62.03 -1.33 59.00 65.06 51.98 72.08

Estadística Aplicada2 244


Universidad Peruana de Ciencias Aplicadas

58.9 1300 53.48 5.42 48.85 58.11 42.84 64.13


1150 66.31 63.54 69.07 56.33 76.28

7) Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de
una compañía de mudanzas solicitó los últimos registros de los pesos de los equipos (en miles
de libras), las distancias a que fueron trasladados (en miles de millas) y los daños sufridos
(en dólares). Con la información solicitada corrió un análisis de regresión múltiple con el
software MINITAB, los resultados se muestran a continuación:
Correlations

Daño (en Peso (miles Distancias


dólares) de libras) (miles de millas)
Pearson Daño (en dólares) 1.000 .937 .090
Correlatio Peso (miles de libras) .937 1.000 -.091
n Distancias (miles de
.090 -.091 1.000
millas)

Model Summaryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Estimate Watson
1 .954a .910 .884 12.32 2.132
a. Predictors: (Constant), DISTANCI Distancias (miles de
millas), PESO Peso (miles de libras)
b. Dependent Variable: DAÑO Daño (en dólares)

ANOVA

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10690.097 2 5345.049 35.218 .000
Residual 1062.403 7 151.772
Total 11752.500 9

Coefficientsa

Standa
rdized
Unstandardized Coeffici 95% Confidence
Coefficients ents Interval for B
Std. Lower Upper
B Error Beta t Sig. Bound Bound
1 (Constant) 22.583 17.264 1.308 .232 -18.240 63.406
Peso (miles de libras) 27.371 3.276 .953 8.355 .000 19.625 35.118
Distancias (miles de millas) 11.365 7.341 .177 1.548 .166 -5.994 28.723
a. Dependent Variable: Daño (en dólares)

a) ¿Cuál es el modelo estimado? ¿Qué porcentaje de la variabilidad total de los daños es


explicado por el modelo?

Estadística Aplicada2 245


Universidad Peruana de Ciencias Aplicadas

b) El gerente afirma que el verdadero coeficiente de la distancia recorrida es menor de 9000


millas. Verifique tal afirmación. Use   0.01 .

c) Evalúe la presencia de multicolinealidad.

Unidad 6: Series de Tiempo y Medición del Error

6. Series de Tiempo
Introducción:

Hoy en día, las empresas, comercios e industrias tienen que planificar y proyectarse en el futuro con
el afán de superarse y progresar. La planificación y a su vez la previsión se suelen basar en lo que ha
ocurrido en las experiencias previas, una de las técnicas más utilizadas para hacer inferencias sobre
el futuro en base a lo ocurrido en el pasado es el Análisis de Series de Tiempo.

Este análisis nos permite responder preguntas como: ¿Saber si nuestras ventas han ido en aumento?
¿Tendremos suficiente productos para abastecer la demanda en temporada alta? ¿El costo del
componente electrónico, cubrirá el gasto de compra de las materias primas del próximo trimestre?
¿Cuál será la demanda de electricidad para el próximo mes?

Estadística Aplicada2 246


Universidad Peruana de Ciencias Aplicadas

Las Series de Tiempo llamadas también Series Cronológicas o Series Históricas, son un conjunto
de datos numéricos que se obtienen en períodos regulares y específicos a través del tiempo.

6.1 Descomposición de una Serie de Tiempo.


Modelo Multiplicativo

El modelo que más se utiliza para la descomposición de las series de tiempo es el modelo
multiplicativo, en el que se analiza la serie como el producto de las siguientes componentes:

Y = T.C.E.I
donde :
Y = valor real de la variable de interés.
T = Tendencia secular
C = componente Cíclica
E = componente Estacional
I = componente Irregular

6.2 Componentes de una serie de tiempo


6.2.1 Tendencia Secular
La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el
crecimiento o disminución de la serie durante un período largo.

Las fuerzas básicas responsables de la tendencia de una serie


de tiempo son población, crecimiento, inflación de precios,
cambios tecnológicos e incrementos de la productividad.

6.2.2 Componente Cíclica


Año
s Son llamados también ciclos económicos y muestran las
variaciones en períodos de mediano plazo.
Y

Años
s
Para estudiar los ciclos se requiere información de por lo menos 15 a 20 años. El estudio de los
ciclos ha sido descartado por ciertos autores que consideran que dicho componente puede ser
asimilado por el componente de tendencia.

Estadística Aplicada2 247


Universidad Peruana de Ciencias Aplicadas

6.2.3 Componente Estacional

Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de
manera casi regular. Por lo general están asociados a los diferentes meses del año.

El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.

6.2.4 Componente Irregular

Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por ejemplo
a causa de huelgas, imprevistos, corte de energía eléctrica, pero también con la misma naturaleza
aleatoria de la variable.

6.3 Estudio de una serie de tiempo

6.3.1 Modelo de Tendencia


El modelo multiplicativo Y = T x I se usa para analizar los datos de la serie de tiempo.

6.3.2 Recta de Tendencia


El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos
observados de la serie de tiempo es el de mínimos cuadrados. Para el análisis, Y es la
variable que se está analizando y T es un valor codificado que se usa para representar el año,
trimestre o mes según el periodo especificado.

Ejemplo

Estadística Aplicada2 248


Universidad Peruana de Ciencias Aplicadas

Se registran las ventas trimestrales de bombillas LED de una importante compañía eléctrica
durante el período 2006-2013. Con los datos registrados estimar la ecuación de tendencia.

Año Ventas (Y) Trimestre Año Ventas (Y) Trimestre


2006 6833 1 7115 2010 10,946 1 10
2006 7,557 2 7,621 2010 10,357 2 10,026
2006 8,065 3 7,895 2010 8,761 3 10,036
2006 9,314 4 8,153 2010 8,444 4 10,03
2007 9,009 1 8,394 2011 7,754 1 10,007
2007 7357 2 8157 2011 8,924 2 9,968
2007 9,404 3 8,826 2011 10,118 3 9,912
2007 9,447 4 9,018 2011 10,889 4 9,84
2008 8,388 1 9,193 2012 11,14 1 9,751
2008 9,831 2 9,351 2012 10,183 2 9,646
2008 10,409 3 9,493 2012 10,398 3 9,524
2008 11,351 4 9,619 2012 9,853 4 9,386
2009 8,701 1 9,728 2013 9,103 1 9,231
2009 8,168 2 9,821 2013 8,234 2 9,06
2009 9,752 3 9,897 2013 8,758 3 8,872
2009 10,826 4 9,956

Estadística Aplicada2 249


Universidad Peruana de Ciencias Aplicadas

Los gráficos siguientes muestran:

Gráfica de series de tiempo de Ventas (Y)


12000

11000

10000
Ventas (Y)

9000

8000

7000
1

11

21

31
4

14

24
6

16

19

26

29
2
3

10

12
13

15

18

20

22
23

25

28

30
7

17

27
Tiempo

Ajuste de los Datos a Modelos No Lineales


10500
y = 8354.7e0.0063x
y = 54.545x + 8402.3 R² = 0.396
10000 R² = 0.3879
9500

9000

8500 y = 7356.2x0.0905
R² = 0.7214
8000

7500
y = -8.5001x2 + 326.55x + 6906.3
7000 R² = 0.989

6500

6000

Estadística Aplicada2 250


Universidad Peruana de Ciencias Aplicadas

Estos valores de la variable dependiente Y (sin estacionalidad), son los que debemos analizar con
ayuda del paquete estadístico Minitab® para los tipos de tendencias: Lineal, Cuadrático,
Exponencial, etc.

Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad, Utilice un nivel de
significación del 5%.
Los resultados del estudio de tendencia, obtenidos con el paquete Minitab ®, permitieron seleccionar
el modelo cuadrático.

Análisis de regresión: Ventas (Y) vs. Tiempo, t^2

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 18221435 9110718 1175.85 0.000
Tiempo 1 15025785 15025785 1939.25 0.000
t^2 1 11132234 11132234 1436.75 0.000
Error 27 209202 7748
Total 29 18430637

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
88.0240 98.86% 98.78% 98.60%

Coeficientes

EE del
Término Coef coef. Valor T Valor p VIF
Constante 6905.8 51.0 135.40 0.000
Tiempo 326.66 7.42 44.04 0.000 17.49
t^2 -8.503 0.224 -37.90 0.000 17.49

Ecuación de regresión

Ventas (Y) = 6905.8 + 326.66 Tiempo - 8.503 t^2

Ajustes y diagnósticos para observaciones poco comunes

Validación del Modelo Cuadrático


Ho: β2 = 0
H1: β2 ≠ 0
α = 5%

Pvalor = 0.00 > 0.05

Decisión. No Rechazamos Ho.

Estadística Aplicada2 251


Universidad Peruana de Ciencias Aplicadas

6.4 Descomposición de una serie de tiempo


Datos Estacionales
Los datos de una serie de tiempo se registran mensuales o trimestrales por lo que son muy utilizados
para hacer proyecciones de futuras transacciones en las organizaciones, comercio e industria.
La descomposición de una serie de tiempo mensual o trimestral puede revelar la componente
estacional e irregular, además de las componentes de tendencia y cíclica. Al estudiar cada uno de estas
componentes por separado se puede contar con información útil que permita al analista combinar los
elementos para realizar un buen pronóstico.
Los pronósticos que usan series de tiempo mensual o trimestral se hacen, por lo general, para 1 a 12
meses o para 1 a 4 trimestres futuros.

El analista debe tener de 4 a 7 años de datos mensuales o trimestrales para realizar los cálculos
necesarios para la estacionalidad.

Ejemplo
Se registró la demanda de unidades de disco duro para computadora de una importante empresa de
componentes para computadora que inicia sus operaciones en el país. Pronostique la demanda para el
cuarto trimestre del 2013 utilizando promedio móvil centrado a 4 trimestres.
Trimestres
Año I II III IV
2011 33 36 45 51
2012 36 42 47 53
2013 36 45 49
Solución:
Ordenar los datos en columnas de la siguiente manera:

Año Trimestre Demanda


2011 1 33
2011 2 36
2011 3 45
2011 4 51
2012 1 36
2012 2 42
2012 3 47
2012 4 53
2013 1 36
2013 2 45
2013 3 49
2013 4

1. Calcular el total móvil de los cuatro trimestres para la serie temporal.


Estadística Aplicada2 252
Universidad Peruana de Ciencias Aplicadas

Total móvil de
Año Trim. Demanda
4 trimestres
1 33

2 36
2011 165
3 45
168
4 51
174
1 36
176
2 42
2012 178
3 47
178
4 53
181
1 36
183
2 45
2013
3 49

Estadística Aplicada2 253


Universidad Peruana de Ciencias Aplicadas

2. Calcular el promedio móvil de cuatro trimestres.

Total móvil de Prom. Móvil


Año Trim. Demanda
4 trimestres de 4 trimestres
1 33

2 36
2011 165 41.25
3 45
168 42
4 51
174 43.5
1 36
176 44
2 42
2012 178 44.5
3 47
178 44.5
4 53
181 45.25
1 36
183 45.75
2 45
2013
3 49

Estadística Aplicada2 254


Universidad Peruana de Ciencias Aplicadas

3. Calcular el Promedio Móvil Centrado (PMC)

Total móvil de 4 Prom. Móvil de


Año Trim. Demanda PMC
trimestres 4 trimestres
1 33
41.63 =
2 36 (41.25+42)/2
2011 165 41.25
3 45 41.63
168 42
4 51 42.75
174 43.5
1 36 43.75
176 44
2 42 44.25
2012 178 44.5
3 47 44.50
178 44.5
4 53 44.88
181 45.25
1 36 45.50
183 45.75
2 45
2013
3 49

Estadística Aplicada2 255


Universidad Peruana de Ciencias Aplicadas

4. Calcular el porcentaje del valor real (Y) con respecto al valor del promedio móvil centrado
(PMC) para cada trimestre de la serie.
Se observa que 41.25 está a la altura del 3er trimestre del 2011, por esto el cálculo de IE empieza
desde aquí. El primer valor se calcula de la siguiente manera:
Y 45
x 100  x100  108.11
PMC 41.25

Demanda Total móvil de Prom. Móvil PMC IE


Año Trim.
(1) 4 trimestres de 4 trimestres (2) (1)/(2)
1 33

2 36
2011 170 41.25
3 45 41.63 108.11
168 42
4 51 42.75 119.30
174 43.5
1 36 43.75 82.29
176 44
2 42 44.25 94.92
2012 178 44.5
3 47 44.50 105.62
178 44.5
4 53 44.88 118.11
181 45.25
1 36 45.50 79.12
183 45.75
2 45
2013
3 49

5. Organizar los valores del índice estacional (IE) calculados en la última columna de la tabla
anterior en la siguiente tabla por trimestres.

Trimestres
Año I II III IV
2011 108,1081 119,2982
2012 82,2857 94,9153 105,6180 118,1058
2013 79,1209
Promedio 80,7033 94,9153 106,8630 118,7020 401,18364 Suma

Estadística Aplicada2 256


Universidad Peruana de Ciencias Aplicadas

6. Calcular el índice estacional ajustado (IEA) para cada trimestre (I, II, III y IV).
Primero, se calcula Constante de Ajuste de la siguiente manera:

400
Constante de ajuste   0,997
401.18

Índices
desajustados*constante de
Trimestres ajuste IEA
I 80,7033*0,9970 80,4652
II 94,9153 94,6352
III 106,8630 106,5478
IV 118,7020 118,3518
Total de índices estacional 400,00
Media de los índices estacionales 100,00

Finalmente la serie sin la componente de estacionalidad:.

Y sin
Año Trim. Demanda IEA
estacionalidad
1 33 80.47 41.01

2 36 94.64 38.04
2011
3 45 106.55 43.17

4 51 118.35 43.09

1 36 80.47 42.25

2 42 94.64 42.27
2012
3 47 106.55 44.11

4 53 118.35 44.78

1 36 80.47 43.50

2 45 94.64 44.38
2013
3 49 106.55 45.99

4 118.35

Estadística Aplicada2 257


Universidad Peruana de Ciencias Aplicadas

Es decir,
Y
t sin estacionalidad
1 41,01
2 38,04
3 43,17
4 43,09
5 42,25
6 42,27
7 44,11
8 44,78
9 43,50
10 44,38
11 45,99
12

Se selecciona el modelo que tenga mayor Coeficiente de Determinación R 2 (R cuadrado), y


posteriormente se Valida con la correspondiente Prueba de Hipótesis del Coeficiente de Regresión.

Estadística Aplicada2 258


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2

Nokia Lumia 610 facilita la conexión y el contacto con amigos, proporcionando acceso instantáneo a las redes
sociales y unificando todos los contactos del móvil, correo, Facebook, Twitter y LinkedIn, en un sólo lugar.
Las empresas de redes sociales han visto incrementada sus ventas registradas (en miles de dólares) durante
los dos últimos años.

Año Trimestre Ventas (Y) Año Trimestre Ventas (Y)

I 4308
I 2129

II 4652
II 3078
2012 2013
III 4890
III 3501

IV 4720
IV 3984

Calcular los índices estacionales. Interpretar el índice estacional del cuarto trimestre. Use un promedio móvil
centrado de 3 trimestres.

Año Trimestre Ventas (Y) PMC IE


I 2129
II 3078 2902,67 73,35
2012
III 3501 3521,00 87,42
IV 3984 3931,00 89,06
I 4308 4314,67 92,34
II 4652 4616,67 93,31
2013
III 4890 4754,00 97,85
IV 4720

Ordenando los valores del IE en la tabla siguiente:

Año I II III IV
2012 73,35 87,42 89,06
2013 92,34 93,31 97,85
Promedio 92,3362176 83,3302138 92,6363927 82,09958571 350,40241 Suma

Calculando la constante de ajuste = 400/350.40 = 1.14

Estadística Aplicada2 259


Universidad Peruana de Ciencias Aplicadas

Índices
desajustados*constante de
ajuste
Trimestres IEA
I 92.3362*1.14 105,405916
II 83.3302*1.14 95,1251606
III 92.6364*1.14 105,748579
IV 82.0995*1.14 93,7203437
Total de índices estacional 400
Media de los índices estacionales 100

Interpretación:
Se puede decir que en el cuarto trimestre, por efecto de la estacionalidad, las ventas
disminuyeron en 6.28% respecto al promedio anual.

Estadística Aplicada2 260


Universidad Peruana de Ciencias Aplicadas

Ejercicios

1. Una importante empresa de telecomunicaciones ha reportado las ventas (en miles de


nuevos soles) de baterías para celulares durante el periodo 2008-2013.

Trimestre 2008 2009 2010 2011 2012 2013


1 16,2 19,1 16,3 23,2 22,8 24,4
2 17,7 19,2 19,3 22,7 24,2 23,0
3 18,7 20,3 18,5 21,2 20,0 21,6
4 21,2 21,5 20,3 19,3 18,5

En base a la información anterior, pronosticar el valor de las ventas para el cuarto trimestre
del 2013

Estadística Aplicada2 261


Universidad Peruana de Ciencias Aplicadas

2. Una importante empresa de venta de maquinaria pesada está estudiando la demanda


de sus productos, para ello cuenta con información trimestral de las ventas (en
dólares) de los últimos 6 años:
Trimestres
Año I II III IV
2008 125.2 214.1 156.0 196.9
2009 241.3 170.2 121.0 99.6
2010 124.0 145.3 103.3 89.9
2011 122.3 220.1 171.0 216.3
2012 221.5 150.2 165.5 99.4
2013 124.1 140.7 102.1

En base a la información anterior,

a. Calcular el promedio móvil central para cuatro trimestral.


b. Calcular los índices estacionales.
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2013

Estadística Aplicada2 262


Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada2 263


Universidad Peruana de Ciencias Aplicadas

3. El nuevo director de comercialización de una importante compañía utilizó publicidad en


televisión para anunciar las nuevas baterías para teléfonos celulares, las cuales por ser de
larga duración alcanzaron niveles de ventas altos. El nuevo director de comercialización
sugirió al director de la compañía seguir con la campaña, pero el director sospecha que
las ventas tan extraordinarias pueden atribuirse a influencias de tendencia, estacional y a
la variación aleatoria. El registro de las ventas trimestrales de los últimos cuatro años se
presenta a continuación:

Trimestre 2010 2011 2012 2013 2014


I 375,67 533,67 692,00 847,00
II 522,67 615,33 917,33 925,55
III 573,67 775,33 965,67 975,65
IV 514,33 678,33 840,67 885,95

a. Calcular los promedios móviles a 3 trimestres


b. Calcular los índices estacionales.
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronosticar la venta futura de baterías para el
próximo año

Estadística Aplicada2 264


Universidad Peruana de Ciencias Aplicadas

4. Los accionistas de una importante empresa manufacturera desean ampliar la fábrica para
cubrir con la demanda. El ingeniero industrial a cargo indica que se tardará un año en

Estadística Aplicada2 265


Universidad Peruana de Ciencias Aplicadas

completar la planta, asimismo anotó que si las ventas mensuales superan la capacidad de
producción por dos mese seguidos, las ventas se perderán por escasez de inventario. Por
otra parte, si la planta opera a menos del 50% de su capacidad en un mes, se experimenta
una perdida. En base a la información de las ventas de los últimos seis años, el ingeniero
industrial realizará proyecciones precisas de ventas que le permitan cumplir con sus
clientes.
Los datos de ventas (en nuevos soles) registrados de los últimos seis años son los
siguientes:

Trimestre 2008 2009 2010 2011 2012 2013


1 7971,33 7426,00 8272,00 6930,67 8228,34 8527,00
2 8791,67 8930,33 8901,00 10154,00 11356,33 10731,00
3 8554,00 9534,67 9531,33 9555,33 10631,33 11769,67
4 7321,67 7724,33 7724,33 8440,00 8707,67

Con sus conocimientos de series de tiempo, ayude al ingeniero industrial a realizar los
siguientes cálculos:

a. Calcule los promedios móviles de orden 3.


b. Calcule los índices estacionales.
c. ¿Cómo interpreta los índices estacionales mencionados en el ejemplo?
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2013.

Estadística Aplicada2 266


Universidad Peruana de Ciencias Aplicadas

Estadística Aplicada2 267


Universidad Peruana de Ciencias Aplicadas

5. Los siguiente datos corresponden al consumo de energía(en miles de soles) de una


comunidad de la región del Mantaro durante los últimos dos años:

Año Trimestre Ventas


I 2139
II 3078
2012 III 3501
IV 4984
I 4308
II 4753
2013 III 4890
IV 4720

a. Calcule los índices estacionales. Interprete el índice estacional del cuarto trimestre.
Use un promedio móvil centrado de 3 trimestres.

Estime el consumo para el año 2014 (con estacionalidad)

Y sin Y con
X(trimestres) Estacionalidad IEA Estacionalidad
9
2014 10
11
12

Estadística Aplicada2 268


Universidad Peruana de Ciencias Aplicadas

6. Los siguientes datos corresponden a los ingresos trimestrales de una empresa de venta y
servicio de software para el periodo 2006 - 2013.
Trimestre 2006 2007 2008 2009 2010 2011 2012 2013
1 5575,1 7375,1 8441,8 9925,4 11149,5 16034,8 12923,179 13043,96
2 4456 9384,8 11706,3 11954,4 13675,5 18493 16466,959 19074,15
3 7551 8981,2 10921,3 12111,2 14363,7 21295,9 13807,32 18719,52
4 7356,7 8834,6 10317,4 12555,2 16791,6 15195,1 14474,594

a. Calcular los promedios móviles centrados para 4 trimestres.


b. Calcular los índices de estacionalidad trimestral ajustados. Interprete.
c. Eliminar el componente estacional de la serie.
d. Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad. Utilice un
nivel de significación del 5%
e. Pronosticar los ingresos para el siguiente año.

Estadística Aplicada2 269


Universidad Peruana de Ciencias Aplicadas

7 Método de Atenuación Exponencial


7.1 Tipos de Pronósticos.

De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres principales
criterios.

• El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos
últimos ayudan a establecer el curso general de la organización en un plazo largo de
tiempo, mientras que los primeros se utilizan para diseñar las estrategias que se utilizarán
inmediatamente y serán ejecutadas por niveles medios en la organización.

• El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno


micro y macro, y cómo es que aquí se generan diferente tipos de detalles en una
organización. Estos tipos de detalles son el micro pronóstico y el macro pronóstico. Un
ejemplo de micro pronóstico es que el gerente de producción sepa cuanto se necesitará
para la producción anual de un producto determinado, mientras que un macro detalle sería
conocer el incremento en la carga tributaria (impuestos) que el gobierno aplicará en el
siguiente año fiscal.

• El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el primero


se aplica cuando se emite el juicio de una persona, mientras que los cuantitativos se
refieren a procesos mecánicos que dan como resultado datos matemáticos.

7.2 Definición de la Atenuación Exponencial

El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores
dependen de los llamados parámetros de atenuación. Una vez que se han elegido tales
parámetros, es fácil calcular los pronósticos, el método se puede adaptar fácilmente para
considerar los factores estacionales y tendencias.

Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es
llamada atenuación exponencial doble. En algunos casos seria necesario extender este
proceso hasta una atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la
atenuación exponencial triple puede manejar casi todas las demás series de tiempo del
negocio.

Estadística Aplicada2 270


Universidad Peruana de Ciencias Aplicadas

7.3 Características de la atenuación exponencial con un parámetro (simple)

• La atenuación exponencial es un método utilizado para revisar constantemente una


estimación a la luz de experiencias más recientes. Se supone que los datos son
estacionarios.

• Las observaciones se ponderan asignando pesos mayores ”alfa” a las mas recientes, para
la siguiente α*(1- α)y así sucesivamente

• El valor real de α determina el grado hasta el cual la observación más reciente puede
influir en el valor del pronóstico, es decir cuando α tiende a :

* 1 el nuevo pronóstico incluirá un ajuste sustancial de cualquier error ocurrido en el


pronóstico anterior.

* 0 el nuevo pronóstico es similar al anterior

Yˆt 1  Yt  1   Yˆt

Ŷ t+1 : Nuevo valor atenuado o valor de pronóstico para el siguiente periodo.


α : Constante de atenuación ( 0< α < 1)
Y t : Nueva observación o valor real de la serie en el periodo t
Ŷ t : Valor atenuado anterior o experiencia promedio de la serie atenuada al periodo t-1

Ŷ t = Y t para el primer valor

La atenuación exponencial es el pronóstico anterior más α veces el error (Yt - Ŷt) en el


pronóstico anterior

7.4 Señal de rastreo

• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.

• Un sistema de rastreo proporciona un método para monitorear la necesidad de cambio


(actualizar alfa) contiene un nivel de variaciones permisibles entre el pronóstico y los
valores reales.

• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.

Estadística Aplicada2 271


Universidad Peruana de Ciencias Aplicadas

Señal de Rastreo = CEF / DAM

CEF = Suma de los errores (valor observado menos valor pronosticado)


DAM = Es el promedio de los errores absolutos (MAD en Minitab®)

Gráfico de límites de señal de rastreo

+1.5

+ 1.0
Señal de
Rastreo + 0.5

-0.5

-1.0
-1.5

5 10 15 20 25
Número de Observaciones

Estadística Aplicada2 272


Universidad Peruana de Ciencias Aplicadas

7.5 Medición del error en el pronóstico


Para calcular el error o residual de cada periodo de pronóstico se utiliza:

et  Yt  Yˆ
et : error de pronóstico en periodo t
Yt : valor real en el periodo t
Yˆ : valor del pronóstico en el periodo t

 Desviación Absoluta de la Media


n

Y t  Yˆ
DAM  t 1
(MAD en Minitab®))
n
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original

 Error Medio Cuadrado (MSD)

 Y 
n
 Yˆ
2
t
EMC  t 1 (MSD en Minitab®)
n
El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.

 Porcentaje de Error Medio Absoluto (MAPE en Minitab®)

n Yt  Yˆ
 Yt
t 1
PEMA 
n
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie

 Porcentaje Medio de Error


n
Y  Yˆ 
t

t 1 Yt
PME 
n
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico

Estadística Aplicada2 273


Universidad Peruana de Ciencias Aplicadas

Ejemplo 1

Una empresa importadora de equipos hidráulicos obtuvo la representación de una marca alemana de motores
para piscinas domiciliarias; el fabricante solicita información real y estimada de las ventas ( en miles de
dólares) y desea que se realicen diversas medidas del error y señal de rastreo para cada pronóstico e identificar
si alguno se encuentra fuera de control.
Trimestre
Año
I II III IV
2009 2790 3785 3370 3075
2010 2949 3857 3453 3283
2011 3102 4142 3605 3261
2012 3257 4361 3856 3606
2013 3339 4513

La cifra correspondiente al trimestre II del 2012, es una cifra aproximada para el cierre de junio 2012.
a. Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9
α= 0.1 α= 0.3 α= 0.5 α= 0.7 α= 0.9
t Trimestre Ventas( Y) Yestimado Yestimado Yestimado Yestimado Yestimado
1 2008-1 2790
2 2008-2 3785 2790.0000 2790.0000 2790.0000 2790.0000 2790.0000
3 2008-3 3370 2889.5000 3088.5000 3287.5000 3486.5000 3685.5000
4 2008-4 3075 2937.5500 3172.9500 3328.7500 3404.9500 3401.5500
5 2009-1 2949 2951.2950 3143.5650 3201.8750 3173.9850 3107.6550
6 2009-2 3857 2951.0655 3085.1955 3075.4375 3016.4955 2964.8655
7 2009-3 3453 3041.6590 3316.7369 3466.2188 3604.8487 3767.7866
8 2009-4 3283 3082.7931 3357.6158 3459.6094 3498.5546 3484.4787
9 2010-1 3102 3102.8137 3335.2311 3371.3047 3347.6664 3303.1479
10 2010-2 4142 3102.7324 3265.2617 3236.6523 3175.6999 3122.1148
11 2010-3 3605 3206.6591 3528.2832 3689.3262 3852.1100 4040.0115
12 2010-4 3261 3246.4932 3551.2983 3647.1631 3679.1330 3648.5011
13 2011-1 3257 3247.9439 3464.2088 3454.0815 3386.4399 3299.7501
14 2011-2 4361 3248.8495 3402.0461 3355.5408 3295.8320 3261.2750
15 2011-3 3856 3360.0646 3689.7323 3858.2704 4041.4496 4251.0275
16 2011-4 3606 3409.6581 3739.6126 3857.1352 3911.6349 3895.5028
17 2012-1 3339 3429.2923 3699.5288 3731.5676 3697.6905 3634.9503
18 2012-2 4513 3420.2631 3591.3702 3535.2838 3446.6071 3368.5950

Estadística Aplicada2 274


Universidad Peruana de Ciencias Aplicadas

b. Calcule todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.1
α = 0.1

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado


Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 2889.5000 480.5000 480.5000 230880.2500 0.1426 0.1426
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 2937.5500 137.4500 137.4500 18892.5025 0.0447 0.0447
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 2951.2950 -2.2950 2.2950 5.2670 0.0008 -0.0008
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 2951.0655 905.9345 905.9345 820717.3183 0.2349 0.2349
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3041.6590 411.3411 411.3411 169201.4594 0.1191 0.1191
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3082.7931 200.2069 200.2069 40082.8208 0.0610 0.0610
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3102.8137 -0.8137 0.8137 0.6622 0.0003 -0.0003
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3102.7324 1039.2676 1039.2676 1080077.1973 0.2509 0.2509
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3206.6591 398.3409 398.3409 158675.4431 0.1105 0.1105
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3246.4932 14.5068 14.5068 210.4466 0.0044 0.0044
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3247.9439 9.0561 9.0561 82.0129 0.0028 0.0028
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3248.8495 1112.1505 1112.1505 1236878.7103 0.2550 0.2550
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3360.0646 495.9354 495.9354 245951.9608 0.1286 0.1286
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3409.6581 196.3419 196.3419 38550.1402 0.0544 0.0544
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3429.2923 -90.2923 90.2923 8152.6983 0.0270 -0.0270
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3420.2631 1092.7369 1092.7369 1194074.0110 0.2421 0.2421
SUMA 7395.3676 7582.1697 6232457.9007 1.9421 1.8859
n = 17 CEF
PROMEDIO 446.0100 366615.1706 0.1142 0.1109
DAM EMC PEMA PEM

Para alfa = 0.3


α = 0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3088.5000 281.5000 281.5000 79242.2500 0.0835 0.0835
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3172.9500 -97.9500 97.9500 9594.2025 0.0319 -0.0319
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3143.5650 -194.5650 194.5650 37855.5392 0.0660 -0.0660
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3085.1955 771.8045 771.8045 595682.1862 0.2001 0.2001
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3316.7369 136.2632 136.2632 18567.6460 0.0395 0.0395
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3357.6158 -74.6158 74.6158 5567.5169 0.0227 -0.0227
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3335.2311 -233.2311 233.2311 54396.7257 0.0752 -0.0752
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3265.2617 876.7383 876.7383 768669.9773 0.2117 0.2117
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3528.2832 76.7168 76.7168 5885.4647 0.0213 0.0213
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3551.2983 -290.2983 290.2983 84273.0753 0.0890 -0.0890
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3464.2088 -207.2088 207.2088 42935.4771 0.0636 -0.0636
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3402.0461 958.9539 958.9539 919592.4986 0.2199 0.2199
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3689.7323 166.2677 166.2677 27644.9479 0.0431 0.0431
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3739.6126 -133.6126 133.6126 17852.3297 0.0371 -0.0371
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3699.5288 -360.5288 360.5288 129981.0353 0.1080 -0.1080
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3591.3702 921.6298 921.6298 849401.5268 0.2042 0.2042
SUMA 3592.8638 6776.8844 4637167.3993 1.7796 0.7927
n = 17 CEF
PROMEDIO 398.6403 272774.5529 0.1047 0.0466
DAM EMC PEMA PEM

Estadística Aplicada2 275


Universidad Peruana de Ciencias Aplicadas

Para alfa = 0.5


α = 0.5
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3287.5000 82.5000 82.5000 6806.2500 0.0245 0.0245
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3328.7500 -253.7500 253.7500 64389.0625 0.0825 -0.0825
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3201.8750 -252.8750 252.8750 63945.7656 0.0857 -0.0857
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3075.4375 781.5625 781.5625 610839.9414 0.2026 0.2026
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3466.2188 -13.2188 13.2188 174.7354 0.0038 -0.0038
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3459.6094 -176.6094 176.6094 31190.8713 0.0538 -0.0538
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3371.3047 -269.3047 269.3047 72525.0147 0.0868 -0.0868
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3236.6523 905.3477 905.3477 819654.3787 0.2186 0.2186
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3689.3262 -84.3262 84.3262 7110.9033 0.0234 -0.0234
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3647.1631 -386.1631 386.1631 149121.9289 0.1184 -0.1184
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3454.0815 -197.0815 197.0815 38841.1346 0.0605 -0.0605
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3355.5408 1005.4592 1005.4592 1010948.2602 0.2306 0.2306
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3858.2704 -2.2704 2.2704 5.1547 0.0006 -0.0006
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3857.1352 -251.1352 251.1352 63068.8851 0.0696 -0.0696
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3731.5676 -392.5676 392.5676 154109.3178 0.1176 -0.1176
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3535.2838 977.7162 977.7162 955928.9712 0.2166 0.2166
SUMA 2468.2838 7026.8874 5038685.5753 1.8586 0.4529
n = 17 CEF
PROMEDIO 413.3463 296393.2691 0.1093 0.0266
DAM EMC PEMA PEM

Para alfa = 0.7


α = 0.7
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3486.5000 -116.5000 116.5000 13572.2500 0.0346 -0.0346
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3404.9500 -329.9500 329.9500 108867.0025 0.1073 -0.1073
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3173.9850 -224.9850 224.9850 50618.2502 0.0763 -0.0763
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3016.4955 840.5045 840.5045 706447.8145 0.2179 0.2179
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3604.8487 -151.8487 151.8487 23058.0125 0.0440 -0.0440
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3498.5546 -215.5546 215.5546 46463.7834 0.0657 -0.0657
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3347.6664 -245.6664 245.6664 60351.9695 0.0792 -0.0792
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3175.6999 966.3001 966.3001 933735.8571 0.2333 0.2333
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3852.1100 -247.1100 247.1100 61063.3393 0.0685 -0.0685
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3679.1330 -418.1330 418.1330 174835.1992 0.1282 -0.1282
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3386.4399 -129.4399 129.4399 16754.6871 0.0397 -0.0397
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3295.8320 1065.1680 1065.1680 1134582.9336 0.2442 0.2442
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 4041.4496 -185.4496 185.4496 34391.5507 0.0481 -0.0481
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3911.6349 -305.6349 305.6349 93412.6782 0.0848 -0.0848
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3697.6905 -358.6905 358.6905 128658.8484 0.1074 -0.1074
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3446.6071 1066.3929 1066.3929 1137193.7341 0.2363 0.2363
SUMA 2004.4031 7862.3279 5714032.9103 2.0784 0.3109
n = 17 CEF
PROMEDIO 462.4899 336119.5830 0.1223 0.0183
DAM EMC PEMA PEM

Estadística Aplicada2 276


Universidad Peruana de Ciencias Aplicadas

Para alfa = 0.9


α = 0.9
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3685.5000 -315.5000 315.5000 99540.2500 0.0936 -0.0936
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3401.5500 -326.5500 326.5500 106634.9025 0.1062 -0.1062
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3107.6550 -158.6550 158.6550 25171.4090 0.0538 -0.0538
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 2964.8655 892.1345 892.1345 795903.9661 0.2313 0.2313
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3767.7866 -314.7866 314.7866 99090.5721 0.0912 -0.0912
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3484.4787 -201.4787 201.4787 40593.6484 0.0614 -0.0614
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3303.1479 -201.1479 201.1479 40460.4638 0.0648 -0.0648
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3122.1148 1019.8852 1019.8852 1040165.8486 0.2462 0.2462
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 4040.0115 -435.0115 435.0115 189234.9866 0.1207 -0.1207
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3648.5011 -387.5011 387.5011 150157.1396 0.1188 -0.1188
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3299.7501 -42.7501 42.7501 1827.5723 0.0131 -0.0131
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3261.2750 1099.7250 1099.7250 1209395.0504 0.2522 0.2522
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 4251.0275 -395.0275 395.0275 156046.7267 0.1024 -0.1024
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3895.5028 -289.5028 289.5028 83811.8423 0.0803 -0.0803
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3634.9503 -295.9503 295.9503 87586.5653 0.0886 -0.0886
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3368.5950 1144.4050 1144.4050 1309662.7411 0.2536 0.2536
SUMA 1787.2883 8515.0110 6425308.6847 2.2411 0.2512
n = 17 CEF
PROMEDIO 500.8830 377959.3344 0.1318 0.0148
DAM EMC PEMA PEM

Calculando el valor del CEF y DAM para cada valor de α


α = 0.1 α = 0.3 α = 0.5 α = 0.7 α = 0.9
CEF 7395.3676 3592.8638 2468.2838 2004.4031 1787.2883
DAM 446.01 398.6403 413.3463 462.4899 500.883
Señal de rastreo 16.5812 9.0128 5.9715 4.3339 3.5683
La señal de rastreo nos indica que para ningún valor de α la señal de rastreo se encuentra bajo control, es
decir, el proceso muestra niveles fuera del rango admisible. (+ / - 1.5), por lo tanto No se recomienda usar
ningún α.

Estadística Aplicada2 277


Universidad Peruana de Ciencias Aplicadas

c. Compare los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA y
la Señal de rastreo)

Método del
pronóstico DAM EMC PEMA PME
α = 0.1 446.0100 36615.171 0.1142 0.1109
α = 0.3 398.6403 272774.55 0.1047 0.0466
α = 0.5 413.3463 296393.27 0.1093 0.0266
α = 0.7 462.4899 336119.58 0.1223 0.0183
α = 0.9 500.8830 377959.33 0.1318 0.0148
El PEMA, porcentaje del error medio absoluto, se usa para comparar métodos diferentes de pronóstico, en este
caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
Por eso debemos buscar un valor pequeño del PEMA. El mejor pronóstico sería con α = 0.03, siempre y cuando
se encuentre dentro del rango permisible (+/- 1.5)
d. Con el modelo elegido pronostique el ingreso por ventas para el tercer trimestre del 2011.
Supongamos que el mejor modelo elegido es aquel en el que se utilizó α = 0.3

α = 0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado Yt estimado
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3088.5000
4 2008-4 3075 0.1*3370+(1-0.1)*2799.9500 3172.9500
5 2009-1 2949 0.1*3075+(1-0.1)*2805.6505 3143.5650
6 2009-2 3857 0.1*2949+(1-0.1)*2808.3440 3085.1955
7 2009-3 3453 0.1*3857+(1-0.1)*2809.7506 3316.7369
8 2009-4 3283 0.1*3453+(1-0.1)*2820.2230 3357.6158
9 2010-1 3102 0.1*3283+(1-0.1)*2826.5508 3335.2311
10 2010-2 4142 0.1*3102+(1-0.1)*2831.1153 3265.2617
11 2010-3 3605 0.1*4142+(1-0.1)*2833.8242 3528.2832
12 2010-4 3261 0.1*3605+(1-0.1)*2846.4869 3551.2983
13 2011-1 3257 0.1*3261+(1-0.1)*2854.4869 3464.2088
14 2011-2 4361 0.1*3257+(1-0.1)*2858.5520 3402.0461
15 2011-3 3856 0.1*4361+(1-0.1)*2862.5365 3689.7323
16 2011-4 3606 0.1*3856+(1-0.1)*2877.5211 3739.6126
17 2012-1 3339 0.1*3606+(1-0.1)*2887.3059 3699.5288
18 2012-2 4513 0.1*3339+(1-0.1)*2894.4928 3591.3702
Pronóstico 3867.8591
Las ventas esperadas en equipos hidráulicos
para el tercer trimestre del 2011 ascienden
3867.8591 = 4513*0.3 + 3591.3702* (1-0.3)
a 3867.8591 US$

Estadística Aplicada2 278


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2
Un ingeniero de sistemas de un banco internacional con sucursal en Lima, ha logrado cifras estacionarias en
la ocurrencia de incidencias en su departamento. Los siguientes datos corresponden a las incidencias reportadas
durante el periodo 2010-2013.

Trimestre 2010 2011 2012 2013


1 18 18 49 15
2 19 20 50 16
3 20 36 33 14
4 16 51 26 13

a. Utilizar un modelo de atenuación exponencial simple con α = 0.2, 0.4, 0.6 y 0.8 para estimar las
incidencias.
Yˆt 1  Yt  1   Yˆt

0,2 0,4 0,6 0,8


Trimestre Incidencias Y estimado Y estimado Y estimado Y estimado
1 18
2 19 18,2000 18,1200 18,1680 18,1296
3 20 18,8000 18,6800 18,7520 18,6944
4 16 18,6000 18,8600 18,7040 18,8288
1 18 17,7000 17,6700 17,6880 17,6736
2 20 18,2500 18,0750 18,1800 18,0960
3 36 22,3250 20,9575 21,7780 21,1216
4 51 32,1625 30,2788 31,4090 30,5048
1 49 41,1813 40,3994 40,8685 40,4932
2 50 45,2906 44,8197 45,1023 44,8762
3 33 44,2453 45,3698 44,6951 45,2349
4 26 37,2227 38,3449 37,6716 38,2103
1 15 29,4113 30,8525 29,9878 30,6795
2 16 22,4057 23,0462 22,6619 22,9694
3 14 18,8028 19,2831 18,9949 19,2255
4 13 16,2014 16,5216 16,3295 16,4831

Estadística Aplicada2 279


Universidad Peruana de Ciencias Aplicadas

b. Calcular todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está fuera de control?

Para alfa = 0.2

Trimestre Incidencias Yestimado Error=Y - Yest abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,2000 1,8000 1,8000 3,2400 0,0900 0,0900
4 16 18,5600 -2,5600 2,5600 6,5536 0,1600 -0,1600
5 18 18,0480 -0,0480 0,0480 0,0023 0,0027 -0,0027
6 20 18,0384 1,9616 1,9616 3,8479 0,0981 0,0981
7 36 18,4307 17,5693 17,5693 308,6796 0,4880 0,4880
8 51 21,9446 29,0554 29,0554 844,2177 0,5697 0,5697
9 49 27,7557 21,2443 21,2443 451,3219 0,4336 0,4336
10 50 32,0045 17,9955 17,9955 323,8370 0,3599 0,3599
11 33 35,6036 -2,6036 2,6036 6,7789 0,0789 -0,0789
12 26 35,0829 -9,0829 9,0829 82,4990 0,3493 -0,3493
13 15 33,2663 -18,2663 18,2663 333,6584 1,2178 -1,2178
14 16 29,6131 -13,6131 13,6131 185,3153 0,8508 -0,8508
15 14 26,8904 -12,8904 12,8904 166,1635 0,9207 -0,9207
16 13 24,3124 -11,3124 11,3124 127,9694 0,8702 -0,8702
Suma 20,2494 161,0028 2845,0845 6,5423 -2,3585
promedio 10,7335 189,6723 0,4362 -0,1572
DAM EMC PEMA PME
Para alfa = 0.4

Trimestre Incidencias Yestimado Error=Y - Yest abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,4000 1,6000 1,6000 2,5600 0,0800 0,0800
4 16 19,0400 -3,0400 3,0400 9,2416 0,1900 -0,1900
5 18 17,8240 0,1760 0,1760 0,0310 0,0098 0,0098
6 20 17,8944 2,1056 2,1056 4,4336 0,1053 0,1053
7 36 18,7366 17,2634 17,2634 298,0236 0,4795 0,4795
8 51 25,6420 25,3580 25,3580 643,0290 0,4972 0,4972
9 49 35,7852 13,2148 13,2148 174,6312 0,2697 0,2697
10 50 41,0711 8,9289 8,9289 79,7250 0,1786 0,1786
11 33 44,6427 -11,6427 11,6427 135,5517 0,3528 -0,3528
12 26 39,9856 -13,9856 13,9856 195,5970 0,5379 -0,5379
13 15 34,3914 -19,3914 19,3914 376,0249 1,2928 -1,2928
14 16 26,6348 -10,6348 10,6348 113,0993 0,6647 -0,6647
15 14 22,3809 -8,3809 8,3809 70,2393 0,5986 -0,5986
16 13 19,0285 -6,0285 6,0285 36,3432 0,4637 -0,4637
Suma -3,4572 142,7505 2139,5304 5,7732 -2,4278
promedio 9,5167 142,6354 0,3849 -0,1619
DAM EMC PEMA PME

Estadística Aplicada2 280


Universidad Peruana de Ciencias Aplicadas

Para alfa = 0.6


Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,6000 1,4000 1,4000 1,9600 0,0700 0,0700
4 16 19,4400 -3,4400 3,4400 11,8336 0,2150 -0,2150
5 18 17,3760 0,6240 0,6240 0,3894 0,0347 0,0347
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,1002 16,8998 16,8998 285,6046 0,4694 0,4694
8 51 29,2401 21,7599 21,7599 473,4948 0,4267 0,4267
9 49 42,2960 6,7040 6,7040 44,9433 0,1368 0,1368
10 50 46,3184 3,6816 3,6816 13,5541 0,0736 0,0736
11 33 48,5274 -15,5274 15,5274 241,0990 0,4705 -0,4705
12 26 39,2109 -13,2109 13,2109 174,5291 0,5081 -0,5081
13 15 31,2844 -16,2844 16,2844 265,1810 1,0856 -1,0856
14 16 21,5138 -5,5138 5,5138 30,4015 0,3446 -0,3446
15 14 18,2055 -4,2055 4,2055 17,6862 0,3004 -0,3004
16 13 15,6822 -2,6822 2,6822 7,1942 0,2063 -0,2063
Suma -6,5452 115,1831 1573,9314 4,5069 -1,7543
promedio 7,6789 104,9288 0,3005 -0,1170
DAM EMC PEMA PME
Para alfa = 0.8
Error=Y -
Trimestre Incidencias Yestimado Yest abs(Y- Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,8000 1,2000 1,2000 1,4400 0,0600 0,0600
4 16 19,7600 -3,7600 3,7600 14,1376 0,2350 -0,2350
5 18 16,7520 1,2480 1,2480 1,5575 0,0693 0,0693
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,5501 16,4499 16,4499 270,5999 0,4569 0,4569
8 51 32,7100 18,2900 18,2900 334,5235 0,3586 0,3586
9 49 47,3420 1,6580 1,6580 2,7490 0,0338 0,0338
10 50 48,6684 1,3316 1,3316 1,7732 0,0266 0,0266
11 33 49,7337 -16,7337 16,7337 280,0161 0,5071 -0,5071
12 26 36,3467 -10,3467 10,3467 107,0549 0,3980 -0,3980
13 15 28,0693 -13,0693 13,0693 170,8078 0,8713 -0,8713
14 16 17,6139 -1,6139 1,6139 2,6046 0,1009 -0,1009
15 14 16,3228 -2,3228 2,3228 5,3953 0,1659 -0,1659
16 13 14,4646 -1,4646 1,4646 2,1449 0,1127 -0,1127
Suma -5,8839 92,7381 1200,8649 3,5612 -1,2203
promedio 6,1825 80,0577 0,2374 -0,0814
DAM EMC PEMA PME
En la siguiente tabla se muestra el CEF, DAM y Señal de muestreo para las constantes de atenuación 0.2, 0.4,
0.6 y 0.8

Estadística Aplicada2 281


Universidad Peruana de Ciencias Aplicadas

0,2 0,4 0,6 0,8


CEF 20,2494 -3,4572 -6,5452 -5,8839
DAM 10,7335 9,5167 7,6789 6,1825
Señal de
rastreo 1,8866 -0,3633 -0,8524 -0,9517
La señal de rastreo nos indica que para α = 0.2 la señal de rastreo esta fuera de control, + / - 1.5, por lo tanto
se descarta el uso de este valor como coeficiente para realizar pronósticos de atenuación exponencial.
c. Comparar los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA
y la Señal de rastreo)

Método de Señal de
pronóstico DAM EMC PEMA PME rastreo
0,2 10,7335 189,6723 0,4362 -0,1572 1,8866
0,4 9,5167 142,6354 0,3849 -0,1619 -0,3633
0,6 7,6789 104,9288 0,3005 -0,117 -0,8524
0,8 6,1825 80,0577 0,2374 -0,0814 -0,9517
El PEMA (porcentaje de error medio absoluto) se usa para comparar métodos diferentes de pronóstico, en este
caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
El menor PEMA corresponde a α= 0.8; cuyo valor de Señal de rastreo es -0.9517, que se encuentra dentro de
control.
Por lo tanto el mejor pronóstico es utilizando la constante de atenuación α de 0.8
d. Con el modelo elegido pronostique las incidencias esperadas para el primer trimestre 2013
t Incidencias Y estimado
1 18 18,0000
2 19 18,0000
3 20 18,8000
4 16 19,7600
5 18 16,7520
6 20 17,7504
7 36 19,5501
8 51 32,7100
9 49 47,3420
10 50 48,6684
11 33 49,7337
12 26 36,3467
13 15 28,0693
14 16 17,6139
15 14 16,3228
16 13 14,4646
Pronóstico 13,2929
Las incidencias esperadas para el primer trimestre del 2013 son de 13.29 incidencias

Ejercicios

1. Usando el método de suavización exponencial estime el consumo para el primer trimestre del
2014 usando los valores de 0.3 y 0.6 para la constante de atenuación.
Estadística Aplicada2 282
Universidad Peruana de Ciencias Aplicadas

Año Trimestre Ventas


I 2139
II 3078
2012 III 3501
IV 4984
I 4308
II 4753
2013 III 4890
IV 4720

Complete la tabla con las medidas del error de pronóstico, y diga cuál de los pronósticos es el mejor
justifique con DAM, PEMA y señal de rastreo.

SEÑAL DE
ALFA DAM PEMA RASTREO
0,3

0,6

Estadística Aplicada2 283


Universidad Peruana de Ciencias Aplicadas

2. La oficina de abastecimientos de una importante empresa siderúrgica estima que ante el boom de
la minería en el país las ventas aumentaran para los próximos trimestres. El ingeniero industrial
de turno cuenta con la información mensual de los últimos cuatro años:

MESES 2010 2011 2012 2013


Enero 541 588 638 789
Febrero 338 481 621 765
Marzo 448 633 817 987
Abril 479 349 853 998
Mayo 532 706 905 1107
Junio 577 791 994
Julio 599 812 999
Agosto 576 776 978
Septiembre 546 738 920
Octubre 511 679 846
Noviembre 496 655 809
Diciembre 536 701 867

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para preparar el pronóstico.

Estadística Aplicada2 284


Universidad Peruana de Ciencias Aplicadas

3. Ante la llegada del próximo verano, los socios de una empresa de bebidas alcohólicas desean
ampliar la fábrica. El ingeniero industrial de turno indica que se tardará dos años en completar la
planta. La capacidad de producción actual es de 12000 barriles al mes. Como la cerveza tiene
una vida de almacenamiento relativamente breve, la producción (incluido el proceso de
añejamiento) y las ventas, deben ocurrir dentro de unas cuantas semanas una de la otra.
Asimismo, si las ventas mensuales superan la capacidad de producción por dos mese seguidos,
las ventas se perderán por escasez de inventario. Por otra parte, si la planta opera a menos del
50% de su capacidad en un mes, se experimenta una perdida. Se necesita para ello proyecciones
precisas de ventas. Los datos de ventas (en barriles) de los seis años pasados son:

MESES 2010 2011 2012 2013


Enero 7133 7561 7637 7963
Febrero 6637 7017 7544 7878
Marzo 8046 9214 9504 10040
Abril 8792 9365 9843 9808
Mayo 9113 10095 9898 10725
Junio 8795 10702 11328 11660
Julio 10234 10774 11301 10918
Agosto 9888 9951 10778 11477
Septiembre 8382 9441 9815 9914
Octubre 8254 8731 8748 9444
Noviembre 7438 7915 8604 8849
Diciembre 7481 8674 8771 8420

Use las contantes de suavización de 0.7 y 0.8. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo.

4. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes fabricantes.
Un pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los inventarios

Estadística Aplicada2 285


Universidad Peruana de Ciencias Aplicadas

de materia prima. Del precio de ventas, 80% es el costo de los materiales adquiridos. Aunque la
determinación de las cantidades de adquisición implica muchas consideraciones, se ha
establecido que un modelo de atenuación exponencial sería de mucha utilidad para establecer un
pronóstico para el siguiente mes de Agosto. Las tasas actuales de los últimos 19 meses de
utilización de bobinas (en Lbs) se proporcionan a continuación.

Mes Utilización de Mes Utilización de acero


acero ( Lbs) ( Lbs)
Enero 151560 Noviembre 658852
Febrero 206807 Diciembre 179739
Marzo 131075 Enero 251969
Abril 124357 Febrero 205806
Mayo 134580 Marzo 304580
Junio 149454 Abril 293434
Julio 169799 Mayo 273725
Agosto 216843 Junio 210626
Setiembre 288965 Julio 193540
Octubre 219018 Agosto

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para calcular el pronóstico.

5. Los programas de Gestión de Dispositivos Móviles Privados (BYO por sus siglas en inglés) se
están generalizando para dar respuesta a una realidad cada vez más palpable en las
organizaciones: la tendencia creciente a que los trabajadores utilicen el mismo dispositivo móvil

Estadística Aplicada2 286


Universidad Peruana de Ciencias Aplicadas

tanto para uso privado como para uso profesional. La compañía SMART ha registrado las ventas
de Smartphone, PDA, Iphone, Ipad, etcétera en miles de dólares durante los últimos ocho años y
el gerente de producción desea que le den una proyección de las ventas para el año 2014. El
encargado realiza la proyección de acuerdo con tres métodos de pronóstico y debe decidir cuál es
el más adecuado.
Año Ventas Método A Método B Método C

2006 265 263 270 266

2007 300 302 305 305

2008 310 312 325 306

2009 335 330 350 340

2010 355 360 340 370

2011 400 402 450 421

2012 420 415 452 415

2013 450 442 460 463

2014 Pronóstico 488 500 499

a. Calcular todas las medidas de error para los tres métodos.


b. Comparar todos los resultados anteriores y diga cuál de los pronósticos para el 2014 se debe
presentar al gerente de producción.

Estadística Aplicada2 287


Universidad Peruana de Ciencias Aplicadas

Tablas Estadísticas

Estadística Aplicada2 288


Universidad Peruana de Ciencias Aplicadas

MATERIAL PARA LOS CURSOS DE ESTADÍSTICA


PRE GRADO - UPC

Fórmulas y Tablas Estadísticas 1


Universidad Peruana de Ciencias Aplicadas

FÓRMULAS ESTADÍSTICAS
MEDIDAS DESCRIPTIVAS
Resumen Muestra Población
Promedio o n k k N k k

media x
i 1
i f x
i 1
i i f x
i 1
i
'
i x
i 1
i f x
i 1
i i f x
i 1
i
'
i

x x x   
n n n N N N
datos agrupados datos agrupados con intervalos
Promedio k k

ponderado  wixi
i 1
w x i i
i 1
xw  k
w  k

w i 1
i w
i 1
i

Promedio MG  n f1 . f 2 . f 3 . . . f n MG  N f1 . f 2 . f 3 . . . f N
geométrico
xi
Factor de variación : f i  Factor de variación : f i 
xi
x i 1 x i 1
Tasa de variación: ii = (fi – 1) . 100% Tasa de variación: ii = (fi – 1) . 100%
Tasa de variación promedio : ip = (fp – 1) . 100% Tasa de variación promedio : ip = (fp – 1) . 100%

Mediana w n  w  N 
Me  L me    Fme1  Me  Lme 
w
 0,5  H me 1  Me  Lme    Fme 1  Me  Lme 
w
 0,5  H me 1 
f me  2  hme f me  2  hme
Moda  d1   d1 
Mo  L mo    w donde d1  f i  f i1 , d 2  f i  f i1 Mo  L mo    w donde: d1  fi  fi 1 , d 2  fi  fi 1
 d1  d 2   d1  d 2 
Varianza n k k N k k

 (x
i 1
i  x)
2
 f i (x i  x) 2  f i (x i'  x) 2  (x
i 1
i  ) 2  f (x
i 1
i i  ) 2  f (x
i 1
i
'
i  ) 2
i 1 i 1
S2  S2  s2  2  2  2 
n 1 n 1 n 1 N N N
datos agrupados datos agrupados con intervalos

Fórmulas y Tablas Estadísticas 2


Universidad Peruana de Ciencias Aplicadas

Resumen Muestra Población


Desviación n k k N k k
estándar 
i 1
(x i  x) 2  f i (x i  x) 2
i 1
 f i (x i'  x) 2
i 1

i 1
( x i  ) 2 
i 1
f i ( x i  ) 2  f (x
i 1
i
'
i  ) 2
s s s   
n 1 n 1 n 1 N N N
Coeficiente de s 
variación CV   x100% CV    x100%
x 
Percentiles w  n.k  w  N.k 
Pk  Li    Fi 1  Pk  Li    Fi 1 
fi  100  fi  100 
Sturges k  1 3.322log10 n

REGLAS DE CONTEO TEORÍA DE PROBABILIDAD


Permutaciones kn P(A  B)  P(A)  P(B)  P(A  B) Probabilidad total
con repetición
P(A  B)  P(A)  P(B), (A  B)   P(A1 )P(E / A1 )  ...  P(A K )P(E / A K )
Permutaciones n! (n  1)( n  2)....(2)(1) Teorema de Bayes
P( A i ) P( E / A i )
P( A i / E ) 
P(A 1 )P(E / A 1 )  ...  P(A K )P(E / A K )
i  1,2,..., k
Variaciones n! Leyes de Morgan
Vkn  P(A'  B' )  P[(A  B)' ]
(n  k )!
P(A'  B' )  P[(A  B)' ]
Combinaciones n! Probabilidad condicional
C nk  P(A | B) 
P(A  B)
, P(B)  0
k!(n  k )! P(B)
Eventos independientes
P(A | B)  P(A)
P(A  B)  P(A).P(B)

Fórmulas y Tablas Estadísticas 3


Universidad Peruana de Ciencias Aplicadas

VARIABLE ALEATORIA
Esperado n  Si X1, X2, X3, . . . , Xn son n variables aleatorias independientes, y a1, a2,
 x  E(X)  i 1
x i pi  x  E(X)   x i .f (x)dx a3, . . . , an son n constantes, entonces:
  n  n

E a i X i  
 i 1

 i 1
a i . E(X i )

Varianza n  Si X1, X2, X3, . . . , Xn son n variables aleatorias independientes, y a1, a2,
 2x  V(X)   f i ( x i   x ) 2  2x  V(X)  ( x i   x ) 2 .f ( x )dx
i 1
 
a3, . . . , an son n constantes, entonces:
n
 V(X)  E(X )  E(X) V  a i X i   a
n
 2x  V(X)  E(X )  E(X)
2 2 2
 2x
2
2
. V(X i )
 i1 
i
i 1

DISTRIBUCIONES IMPORTANTES
Bernoulli X ~ B(1, p) P(X  x)  p (1  p)
x 1 x
x  0 ,1 E(X)  p V(X)  p(1  p)

Binomial X ~ B( n , p) P(X  x)  Cnx p x (1  p) n x x  0 , 1 ,... , n E(X)  np V(X)  np (1  p)

C rx C nNxr r  r  r  N  n 
Hipergeométrica X ~ H ( N, r , n ) P(X  x )  x  0 , 1 ,... , min( r, n ) E ( X)  n   V ( X )  n 1   
C nN  N  N  N  N  1 

e  . x
Poisson X ~ P ( ) P(X  x )  x  0 , 1 , 2 , ... E (X)   V(X)  
x!
1 1 p
Geométrica X ~ G ( p) P(X  x)  p(1  p) x 1 x  1, 2, 3, ... E ( X)  V(X) 
p p2
k k 1  p 
Pascal X ~ BN (k , p) P( X  x)  C kx11 p k (1  p) x k x  k , k  1, k  2, ... E ( X )  V (X ) 
p p2
2
1  x  
1   
Normal X ~ N (,  ) 2
f (x)  e 2  
, x E(X)   V(X)  2
2 
(a  b ) (b  a ) 2
X ~ Ua, b
1
Uniforme f (x)  , axb E(X)  V(X) 
ba 2 12

Fórmulas y Tablas Estadísticas 4


Universidad Peruana de Ciencias Aplicadas

x
1 
f ( x)   x  1e  , x  0 ,cuando  0
 ( )
Gamma X ~ Ga (,1 / ) ,0 E ( X )   V(X)  2


()  x  1e x dx ,   0
0
(n )  ( n  1)!

x
1 
f (x)  e  , x  0 , donde 0
Exponencial X ~ E(1 / )  E (X)   V(X)  2
x


Función acumulada: F( x )  1  e
x
 
f (x )  x  1 e  , x 0, 0,0 
    2      2  
2 2

   1
1
Weibull X ~ W(, )  E ( X )   
 V(X)   
    

x            
 

Función acumulada: F( x )  1  e

Propiedad reproductiva de la normal.


n n n
Si Y  c x
i 1
i i , donde xi ~ N( i ,  i2 ) i  1, 2,..., n ,  y  c 
i 1
i i y  2y  c 
i 1
2
i
2
i  Y ~ N( y ,  2y )

DISTRIBUCIONES MUESTRALES
Estimador Media Varianza Distribución
_

2  N  n  _ x 
2 x  z ~ N(0,1)
  z ~ N(0,1)  Nn
n n  N 1  / n
n N 1
X  _

s Nn
2 _ x 
s2
x  t ~ t ( n 1)
  t ~ t ( n 1) s Nn
n n  N 1  s/ n
n N 1

Fórmulas y Tablas Estadísticas 5


Universidad Peruana de Ciencias Aplicadas

(n  1)S 2
s2 2 2  ~ X (2n 1)
 2

pq p̂  p p̂  p
pq  N  n  z ~ N(0,1) z ~ N(0,1)
p̂ p n   pq pq  N  n 
n  N 1   
q 1 p n n  N 1 

Fórmulas y Tablas Estadísticas 6


Universidad Peruana de Ciencias Aplicadas

Estimador Media Varianza Distribución


Varianzas conocidas

12  N1  n1   22  N 2  n 2  ( x1  x 2 )  (1   2 )
12  22 z
    ~ N(0,1)
  N 1   n  N 1  12  22
n1 n 2 n1  1  2  2  
n1 n 2
Varianzas desconocidas e iguales _ _
( x 1  x 2 )  ( 1   2 )
t ~ t ( n1  n 2  2 )
1 1  (n  1)S12  (n 2  1)S22  1 1 
S2p    donde S2p  1
S   
X1  X 2 1   2
 n1  n 2  2
2
1)  n1 n 2  p
 n1 n 2 
Varianzas desconocidas y diferentes 2
 S12 S22 
  
n n 
( x1  x 2 )  (1   2 )  1 2 
t donde v 
S12 S22 S12  N1  n1  S22  N 2  n 2  ~ t(v )
 S12 
2
 S22 
2
     S12 S 22    
n1 n 2 n1  N1  1  n 2  N 2  1   n   
n1 n2  1    n2 
n1  1 n 2  1

Sd2 dD
D t ~ t n 1
2) d n Sd / n
S12  22
3) 2
s1 / s 22 F  ~ Fn1 1, n 2 1
S22 12
(p̂ 1  p̂ 2 )  (p 1  p 2 )
2p̂ 
p1q1 p2q 2
 z ~ N(0,1)
p1  p2  p̂ˆ 2 p1q 1 p 2 q 2
4) p̂1  p̂2 1
n1 n2

q1 = 1- p1 q2 = 1- p2 n1 n2

Fórmulas y Tablas Estadísticas 7


Universidad Peruana de Ciencias Aplicadas

ESTIMACIÓN Y PRUEBA DE HIPOTESIS


Parámetro Intervalos de Confianza Estadístico de Prueba
Varianza conocida Varianza desconocida _
x 
_

 _
 _
s z
x  t ~ t ( n 1)
IC()  x  z1 / 2 IC()  x  t ( n 1, / 2 / n
~ N(0,1)
S/ n
n n
(n  1)S 2
(n  1)S 2
(n  1)S2
 
2 LIC( 2 )  LSC( 2 )   
2
~ X (2n 1)
 (2n  1,  / 2)  (2n  1, 1 -  / 2)  2

p̂  p
p̂(1  p̂) z ~ N(0,1)
5) p IC(p)  p̂  z (1 / 2) q̂  1  p̂ p(1  p)
n n
Varianzas conocidas
( x1  x 2 )  (1   2 )
12 22 z ~ N(0,1)
IC(1  2 )  ( x1  x 2 )  z(1 / 2)  12  22
n1 n 2 
n1 n 2
Varianzas desconocidas pero iguales
_ _
_ _  1 1  ( x 1  x 2 )  ( 1   2 )
IC(   )  ( x 1  x 2 )  t ( n1  n 2  2,  / 2) S  
2
p
 t ~ t ( n1  n 2  2 )
 n1 n 2 
1 2
 1 1 
S  
2

(n 1  1)S12  (n 2  1)S 22 p
 n1 n 2 
1   2 donde S 2p 
n1  n 2  2
Varianzas desconocidas y diferentes
2
 S12 S22 
  
n n 2 
( x1  x 2 )  (1   2 ) v   12
_ _  S2 S2  t ~ t ( v)
 S12   S22 
2
IC(   )  ( x 1  x 2 )  t ( v ,  / 2)  1  2  S12 S22
    
1 2
 n1 n 2  n   
n1 n 2  1    n2 
n1  1 n 2  1

sd dD
D IC(D)  d  t ( n 1,  / 2) t ~ t n 1
n Sd / n
Parámetro Intervalos de Confianza Estadístico de Prueba
Fórmulas y Tablas Estadísticas 8
Universidad Peruana de Ciencias Aplicadas

S12 1
LIC(12 / 22 )  .
S22 f (  / 2, v1 , v 2 ) S12 1
F  2  2 ~ Fn1 1, n2 1
 12 /  22 S12 S2 1
LSC(12 / 22 )  .f (  / 2 ,v 2 , v1 )
S22  22
v1 n 1  1 v 2 n 2  1

LIC(p 1  p 2 )  p̂ 1  p̂ 2   z 1  / 2
p̂ 1 q̂ 1 p̂ 2 q̂ 2

7) a) H 0 : p1  p 2  0 10) b) H 0 : p1  p 2  K y K
n1 n2 0
p̂1  p̂ 2
z
LSC (p 1  p 2 )  p̂ 1  p̂ 2   z 1  / 2
p̂ 1 q̂ 1 p̂ 2 q̂ 2 8) ~ N(0,1)
  1 1  (p̂1  p̂ 2 )  K
6) p1  p2 n1 n2 p(1  p)   11) z ~ N(0,1)
 n1 n 2  p̂1q̂1 p̂ 2 q̂ 2
donde : 
n1 n2
q̂ 1  1  p̂ 1 n1p̂1  n 2 p̂ 2
9) donde p
q̂ 2  1  p̂ 2 n1  n 2

12) TAMAÑO DE MUESTRA


2 2
z Z S z12 / 2 p̂q̂ n
13) n   1 / 2  n   1 / 2  n no  , donde no = n corregido
 e   e  e2 1
n
N

14) PRUEBA JI CUADRADO

k
(o i  e i ) 2
X2   ~ X 2 con v  (k  m  1) g.l.
o  e i  0.5
15)
k
(o i  e i ) 2 2

ei k
X   X 2( r 1)( c 1),   i 1
X 
2

i 1 ei 17)
2 i
 X2
16) k = # de clases, m = # parámetros i 1 ei
desconocidos
Fórmulas y Tablas Estadísticas 9
Universidad Peruana de Ciencias Aplicadas

Fórmulas y Tablas Estadísticas 10


Universidad Peruana de Ciencias Aplicadas

ANÁLISIS DE REGRESIÓN
 n   n  n  Cuadrados medios Inferencia para  0
 
n  x i y i    x i  y i   SSR.
ˆ 1 
 i 1   i 1  i 1  CMR 
p 1 ˆ  t s
x i2
t 0

ˆ   0
~ t ( n  2)
/2

2 0
 n
   n nS xx x i2

n  x i2    x i 
 i 1   i 1 
 CME 
SSE
s
np nS xx
ˆ  y  ˆ x donde Prueba de hipótesis para el coeficiente de correlación lineal
0 1
p: N° de parámetros a estimar (p = k + 1)
Coeficiente de correlación k: N° de variables independientes a) H 0 :   0 b) H 0 :    0 donde:  0 no es 0
Prueba conjunta
r n2
n

 (x  x)(y  y)
1
CMR t ~ t ( n 2) n  3  (1  r )(1   0 ) 
F
i i
cov(X, Y) n ~ F( p  1,
r  i 1
CME
n  p,  ) 1 r2 Z ln   ~ N(0,1)
 (1  r )(1   0 ) 
S'x .S'y n n

 ( x  x ) . n  ( y  y) 2
1 2 1 2
i i
n i 1 i 1
Inferencia para 1
Suma de cuadrados Pronósticos
s
ˆ1  t n  2,  / 2 Valor medio
SSE  SST  SSR. S xx
1 ( x 0  x) 2
 y  2
ˆ1  1 b1  1 yˆ 0  t ( n2, / 2) S 
y t 
i
SST  2
i  ~ t ( n2) n S xx
n s S b1

 x i 
2
  S xx Valor individual
2


2

SSR.  ˆ 1  x i 
n  donde: 1 ( x 0  x) 2
  yˆ 0  t ( n2, / 2) S 1  
 x  2
n S xx
Coeficiente de determinación
S xx   x    ( x i x ) 2
2 i

SSR i
n Modelos no lineales
r2  
SST Potencia: y   0 x 1 o Lny  Ln 0  1 Lnx
 n  1 S x2
SSR
S xx  1 x
Coeficiente de determinación corregido
ˆ 2 Exponencial: y   0 e o Lny  Ln 0  1 x
2  n 1 
1
y  ˆ 0  ˆ 1 x  ˆ 2 x 2  ...  ˆ m x m
Polinomio de grado m: ~
.  r̂  1  (1  r )
 n  p 
2 2
rcorreg
  SSE
s  se  s y. x   CME
n p

Fórmulas y Tablas Estadísticas 11


Universidad Peruana de Ciencias Aplicadas

TABLAS ESTADÍSTICAS

Tablas Estadísticas
Universidad Peruana de Ciencias Aplicadas

Tabla N°1
TABLA DE NÚMEROS ALEATORIOS

C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9
0 0 3 6 9 6 5 0 6 4 7 9 8 1 2 4 4 8 3 6
7 2 4 5 4 1 2 4 4 6 9 2 6 6 6 5 2 0 0 4
4 9 3 4 4 2 4 5 9 0 8 7 4 8 4 2 1 2 5 4
6 1 2 8 1 3 3 2 0 2 6 0 7 2 7 9 1 4 6 5
9 3 4 0 8 1 3 3 7 3 2 4 8 6 7 9 0 6 2 8
1 8 7 1 3 4 3 9 3 1 7 8 3 7 3 3 0 8 3 5
0 2 1 4 7 5 7 3 1 1 9 3 3 8 7 4 8 0 2 5
3 6 3 4 1 9 8 1 0 9 0 1 1 0 9 3 6 8 6 0
9 4 6 7 6 7 9 1 2 2 7 2 3 9 3 4 6 9 8 1
5 9 9 8 4 4 5 9 1 5 4 7 3 0 6 8 1 6 8 1
8 1 8 8 2 3 9 1 4 2 4 9 1 4 0 6 0 3 2 8
0 5 3 8 0 4 3 9 4 6 0 8 8 3 8 7 1 2 2 3
9 7 1 4 2 7 5 5 2 8 6 6 3 5 5 9 9 0 6 8
6 9 5 9 4 9 1 8 2 0 2 5 3 9 1 2 0 3 0 8
7 4 9 1 4 8 8 6 6 8 5 9 4 8 5 7 7 9 6 7
3 8 1 2 2 4 0 1 4 5 7 7 4 0 4 8 9 4 7 0
9 9 9 7 8 0 0 9 3 2 7 0 5 0 2 7 8 7 3 6
4 8 1 5 8 5 5 1 4 9 6 4 4 4 7 4 5 7 5 0
8 6 7 3 6 1 7 1 1 3 5 5 7 4 4 7 6 7 2 8
4 7 1 4 0 3 6 2 4 4 4 4 0 3 6 3 4 1 2 8
6 5 5 8 8 4 3 4 8 9 0 6 7 6 0 0 8 6 8 4
9 2 0 9 8 2 8 3 4 3 2 8 9 4 8 7 9 4 9 4
1 3 7 9 4 8 3 7 0 8 6 6 6 8 4 1 1 3 1 3
3 3 2 5 6 7 6 1 6 6 1 7 6 5 8 1 6 2 2 7
9 9 9 8 2 8 8 1 9 1 6 2 7 5 1 8 6 1 4 4
1 7 5 4 0 9 5 7 8 7 5 0 8 6 6 2 5 3 2 3
2 7 1 7 8 8 3 8 6 9 9 2 7 4 5 9 5 6 6 6
6 0 9 2 6 1 5 1 2 3 1 8 1 2 0 8 6 4 4 0
3 3 6 3 4 9 6 4 4 9 8 5 7 3 3 4 2 3 2 8
0 1 9 7 9 7 9 4 4 1 6 6 7 7 0 7 9 8 6 8
4 7 1 5 3 7 0 9 2 5 2 1 0 0 4 0 4 6 8 8
7 8 9 9 6 8 5 6 8 1 9 2 7 5 1 7 0 1 5 5
2 2 3 3 1 8 1 9 8 4 2 8 5 2 8 1 7 6 4 6
2 6 6 4 1 4 8 1 0 6 0 1 3 4 0 9 1 2 8 6
5 1 9 0 3 9 1 6 1 7 8 8 2 8 0 7 8 4 8 0
9 0 5 8 4 9 2 2 3 9 8 5 9 5 7 8 4 9 9 4
8 6 1 9 2 5 0 0 7 9 0 0 7 4 5 4 8 6 2 3
1 9 1 0 9 7 5 1 2 7 1 9 4 8 4 8 9 6 6 9
5 6 0 6 1 3 3 5 2 1 0 1 9 2 8 0 2 6 6 3
8 6 9 9 8 0 8 1 8 2 6 6 8 4 0 7 8 2 5 1
3 1 6 1 0 5 7 5 7 0 6 3 0 4 1 4 0 3 0 8

Tablas estadísticas 13
Universidad Peruana de Ciencias Aplicadas

Tabla N° 2.1
TABLA DE LA DISTRIBUCION NORMAL ESTANDAR

Área bajo la curva normal:  P  Z  z    


Z -0.09 -0.08 -0.07 -0.06 -0.05 -0.04 -0.03 -0.02 -0.01 -0.00
-3.9 0.000033 0.000034 0.000036 0.000037 0.000039 0.000041 0.000042 0.000044 0.000046 0.000048
-3.8 0.000050 0.000052 0.000054 0.000057 0.000059 0.000062 0.000064 0.000067 0.000069 0.000072
-3.7 0.000075 0.000078 0.000082 0.000085 0.000088 0.000092 0.000096 0.000100 0.000104 0.000108
-3.6 0.000112 0.000117 0.000121 0.000126 0.000131 0.000136 0.000142 0.000147 0.000153 0.000159
-3.5 0.000165 0.000172 0.000178 0.000185 0.000193 0.000200 0.000208 0.000216 0.000224 0.000233
-3.4 0.000242 0.000251 0.000260 0.000270 0.000280 0.000291 0.000302 0.000313 0.000325 0.000337
-3.3 0.000349 0.000362 0.000376 0.000390 0.000404 0.000419 0.000434 0.000450 0.000466 0.000483
-3.2 0.000501 0.000519 0.000538 0.000557 0.000577 0.000598 0.000619 0.000641 0.000664 0.000687
-3.1 0.000711 0.000736 0.000762 0.000789 0.000816 0.000845 0.000874 0.000904 0.000935 0.000968
-3.0 0.001001 0.001035 0.001070 0.001107 0.001144 0.001183 0.001223 0.001264 0.001306 0.001350

-2.9 0.00139 0.00144 0.00149 0.00154 0.00159 0.00164 0.00169 0.00175 0.00181 0.00187
-2.8 0.00193 0.00199 0.00205 0.00212 0.00219 0.00226 0.00233 0.00240 0.00248 0.00256
-2.7 0.00264 0.00272 0.00280 0.00289 0.00298 0.00307 0.00317 0.00326 0.00336 0.00347
-2.6 0.00357 0.00368 0.00379 0.00391 0.00402 0.00415 0.00427 0.00440 0.00453 0.00466
-2.5 0.00480 0.00494 0.00508 0.00523 0.00539 0.00554 0.00570 0.00587 0.00604 0.00621
-2.4 0.00639 0.00657 0.00676 0.00695 0.00714 0.00734 0.00755 0.00776 0.00798 0.00820
-2.3 0.00842 0.00866 0.00889 0.00914 0.00939 0.00964 0.00990 0.01017 0.01044 0.01072
-2.2 0.01101 0.01130 0.01160 0.01191 0.01222 0.01255 0.01287 0.01321 0.01355 0.01390
-2.1 0.01426 0.01463 0.01500 0.01539 0.01578 0.01618 0.01659 0.01700 0.01743 0.01786
-2.0 0.01831 0.01876 0.01923 0.01970 0.02018 0.02068 0.02118 0.02169 0.02222 0.02275

-1.9 0.02330 0.02385 0.02442 0.02500 0.02559 0.02619 0.02680 0.02743 0.02807 0.02872
-1.8 0.02938 0.03005 0.03074 0.03144 0.03216 0.03288 0.03362 0.03438 0.03515 0.03593
-1.7 0.03673 0.03754 0.03836 0.03920 0.04006 0.04093 0.04182 0.04272 0.04363 0.04457
-1.6 0.04551 0.04648 0.04746 0.04846 0.04947 0.05050 0.05155 0.05262 0.05370 0.05480
-1.5 0.05592 0.05705 0.05821 0.05938 0.06057 0.06178 0.06301 0.06426 0.06552 0.06681
-1.4 0.06811 0.06944 0.07078 0.07215 0.07353 0.07493 0.07636 0.07780 0.07927 0.08076
-1.3 0.08226 0.08379 0.08534 0.08691 0.08851 0.09012 0.09176 0.09342 0.09510 0.09680
-1.2 0.09853 0.10027 0.10204 0.10383 0.10565 0.10749 0.10935 0.11123 0.11314 0.11507
-1.1 0.11702 0.11900 0.12100 0.12302 0.12507 0.12714 0.12924 0.13136 0.13350 0.13567
-1.0 0.13786 0.14007 0.14231 0.14457 0.14686 0.14917 0.15151 0.15386 0.15625 0.15866

-0.9 0.16109 0.16354 0.16602 0.16853 0.17106 0.17361 0.17619 0.17879 0.18141 0.18406
-0.8 0.18673 0.18943 0.19215 0.19489 0.19766 0.20045 0.20327 0.20611 0.20897 0.21186
-0.7 0.21476 0.21770 0.22065 0.22363 0.22663 0.22965 0.23270 0.23576 0.23885 0.24196
-0.6 0.24510 0.24825 0.25143 0.25463 0.25785 0.26109 0.26435 0.26763 0.27093 0.27425
-0.5 0.27760 0.28096 0.28434 0.28774 0.29116 0.29460 0.29806 0.30153 0.30503 0.30854
-0.4 0.31207 0.31561 0.31918 0.32276 0.32636 0.32997 0.33360 0.33724 0.34090 0.34458
-0.3 0.34827 0.35197 0.35569 0.35942 0.36317 0.36693 0.37070 0.37448 0.37828 0.38209
-0.2 0.38591 0.38974 0.39358 0.39743 0.40129 0.40517 0.40905 0.41294 0.41683 0.42074
-0.1 0.42465 0.42858 0.43251 0.43644 0.44038 0.44433 0.44828 0.45224 0.45620 0.46017
-0.0 0.46414 0.46812 0.47210 0.47608 0.48006 0.48405 0.48803 0.49202 0.49601 0.50000

Tablas estadísticas 14
Universidad Peruana de Ciencias Aplicadas

Tabla N° 2.2
TABLA DE LA DISTRIBUCION NORMAL ESTANDAR

Área bajo la curva normal:  P  Z  z    


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891

1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670

2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861

3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999
3.1 0.999032 0.999065 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289
3.2 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499
3.3 0.999517 0.999534 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999651
3.4 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758
3.5 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999822 0.999828 0.999835
3.6 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888
3.7 0.999892 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925
3.8 0.999928 0.999931 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950
3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967

Tablas estadísticas 15
Universidad Peruana de Ciencias Aplicadas

Tabla Nº 3.1
TABLA DE LA DISTRIBUCION T-STUDENT

Área bajo la curva:  P  T  c    



 0.40 0.30 0.20 0.15 0.10 0.05 0.04 0.03 0.025 0.020 0.015 0.010 
1 0.32492 0.72654 1.37638 1.96261 3.07768 6.31375 7.91582 10.57889 12.70620 15.89454 21.20495 31.82052 1
2 0.28868 0.61721 1.06066 1.38621 1.88562 2.91999 3.31976 3.89643 4.30265 4.84873 5.64278 6.96456 2
3 0.27667 0.58439 0.97847 1.24978 1.63774 2.35336 2.60543 2.95051 3.18245 3.48191 3.89605 4.54070 3
4 0.27072 0.56865 0.94096 1.18957 1.53321 2.13185 2.33287 2.60076 2.77645 2.99853 3.29763 3.74695 4
5 0.26718 0.55943 0.91954 1.15577 1.47588 2.01505 2.19096 2.42158 2.57058 2.75651 3.00287 3.36493 5
6 0.26483 0.55338 0.90570 1.13416 1.43976 1.94318 2.10431 2.31326 2.44691 2.61224 2.82893 3.14267 6
7 0.26317 0.54911 0.89603 1.11916 1.41492 1.89458 2.04601 2.24088 2.36462 2.51675 2.71457 2.99795 7
8 0.26192 0.54593 0.88889 1.10815 1.39682 1.85955 2.00415 2.18915 2.30600 2.44898 2.63381 2.89646 8
9 0.26096 0.54348 0.88340 1.09972 1.38303 1.83311 1.97265 2.15038 2.26216 2.39844 2.57380 2.82144 9
10 0.26018 0.54153 0.87906 1.09306 1.37218 1.81246 1.94810 2.12023 2.22814 2.35931 2.52748 2.76377 10

11 0.25956 0.53994 0.87553 1.08767 1.36343 1.79588 1.92843 2.09614 2.20099 2.32814 2.49066 2.71808 11
12 0.25903 0.53862 0.87261 1.08321 1.35622 1.78229 1.91231 2.07644 2.17881 2.30272 2.46070 2.68100 12
13 0.25859 0.53750 0.87015 1.07947 1.35017 1.77093 1.89887 2.06004 2.16037 2.28160 2.43585 2.65031 13
14 0.25821 0.53655 0.86805 1.07628 1.34503 1.76131 1.88750 2.04617 2.14479 2.26378 2.41490 2.62449 14
15 0.25789 0.53573 0.86624 1.07353 1.34061 1.75305 1.87774 2.03429 2.13145 2.24854 2.39701 2.60248 15
16 0.25760 0.53501 0.86467 1.07114 1.33676 1.74588 1.86928 2.02400 2.11991 2.23536 2.38155 2.58349 16
17 0.25735 0.53438 0.86328 1.06903 1.33338 1.73961 1.86187 2.01500 2.10982 2.22385 2.36805 2.56693 17
18 0.25712 0.53382 0.86205 1.06717 1.33039 1.73406 1.85534 2.00707 2.10092 2.21370 2.35618 2.55238 18
19 0.25692 0.53331 0.86095 1.06551 1.32773 1.72913 1.84953 2.00002 2.09302 2.20470 2.34565 2.53948 19
20 0.25674 0.53286 0.85996 1.06402 1.32534 1.72472 1.84433 1.99371 2.08596 2.19666 2.33624 2.52798 20

21 0.25658 0.53246 0.85907 1.06267 1.32319 1.72074 1.83965 1.98804 2.07961 2.18943 2.32779 2.51765 21
22 0.25643 0.53208 0.85827 1.06145 1.32124 1.71714 1.83542 1.98291 2.07387 2.18289 2.32016 2.50832 22
23 0.25630 0.53175 0.85753 1.06034 1.31946 1.71387 1.83157 1.97825 2.06866 2.17696 2.31323 2.49987 23
24 0.25617 0.53144 0.85686 1.05932 1.31784 1.71088 1.82805 1.97399 2.06390 2.17154 2.30691 2.49216 24
25 0.25606 0.53115 0.85624 1.05838 1.31635 1.70814 1.82483 1.97010 2.05954 2.16659 2.30113 2.48511 25
26 0.25595 0.53089 0.85567 1.05752 1.31497 1.70562 1.82186 1.96651 2.05553 2.16203 2.29581 2.47863 26
27 0.25586 0.53065 0.85514 1.05673 1.31370 1.70329 1.81913 1.96320 2.05183 2.15782 2.29091 2.47266 27
28 0.25577 0.53042 0.85465 1.05599 1.31253 1.70113 1.81659 1.96014 2.04841 2.15393 2.28638 2.46714 28
29 0.25568 0.53021 0.85419 1.05530 1.31143 1.69913 1.81424 1.95729 2.04523 2.15033 2.28217 2.46202 29
30 0.25561 0.53002 0.85377 1.05466 1.31042 1.69726 1.81205 1.95465 2.04227 2.14697 2.27826 2.45726 30

31 0.25553 0.52984 0.85337 1.05406 1.30946 1.69552 1.81000 1.95218 2.03951 2.14383 2.27461 2.45282 31
32 0.25546 0.52967 0.85300 1.05350 1.30857 1.69389 1.80809 1.94987 2.03693 2.14090 2.27120 2.44868 32
33 0.25540 0.52950 0.85265 1.05298 1.30774 1.69236 1.80629 1.94770 2.03452 2.13816 2.26801 2.44479 33
34 0.25534 0.52935 0.85232 1.05248 1.30695 1.69092 1.80461 1.94567 2.03224 2.13558 2.26501 2.44115 34
35 0.25528 0.52921 0.85201 1.05202 1.30621 1.68957 1.80302 1.94375 2.03011 2.13316 2.26219 2.43772 35
36 0.25523 0.52908 0.85172 1.05158 1.30551 1.68830 1.80153 1.94195 2.02809 2.13087 2.25953 2.43449 36
37 0.25518 0.52895 0.85144 1.05117 1.30485 1.68709 1.80012 1.94024 2.02619 2.12871 2.25702 2.43145 37
38 0.25513 0.52883 0.85118 1.05077 1.30423 1.68595 1.79878 1.93863 2.02439 2.12667 2.25465 2.42857 38
39 0.25508 0.52871 0.85094 1.05040 1.30364 1.68488 1.79751 1.93711 2.02269 2.12474 2.25240 2.42584 39
40 0.25504 0.52861 0.85070 1.05005 1.30308 1.68385 1.79631 1.93566 2.02108 2.12291 2.25027 2.42326 40

Tablas estadísticas 16
Universidad Peruana de Ciencias Aplicadas

Tabla Nº 3.2
TABLA DE LA DISTRIBUCION T-STUDENT

Área bajo la curva:  P  T  c    



 0.40 0.30 0.20 0.15 0.10 0.05 0.04 0.03 0.025 0.020 0.015 0.010 
41 0.25500 0.52850 0.85048 1.04971 1.30254 1.68288 1.79517 1.93428 2.01954 2.12117 2.24825 2.42080 41
42 0.25496 0.52840 0.85026 1.04939 1.30204 1.68195 1.79409 1.93298 2.01808 2.11952 2.24633 2.41847 42
43 0.25492 0.52831 0.85006 1.04908 1.30155 1.68107 1.79305 1.93173 2.01669 2.11794 2.24449 2.41625 43
44 0.25488 0.52822 0.84987 1.04879 1.30109 1.68023 1.79207 1.93054 2.01537 2.11644 2.24275 2.41413 44
45 0.25485 0.52814 0.84968 1.04852 1.30065 1.67943 1.79113 1.92941 2.01410 2.11500 2.24108 2.41212 45
46 0.25482 0.52805 0.84951 1.04825 1.30023 1.67866 1.79023 1.92833 2.01290 2.11364 2.23949 2.41019 46
47 0.25479 0.52798 0.84934 1.04800 1.29982 1.67793 1.78937 1.92729 2.01174 2.11233 2.23797 2.40835 47
48 0.25476 0.52790 0.84917 1.04775 1.29944 1.67722 1.78855 1.92630 2.01063 2.11107 2.23652 2.40658 48
49 0.25473 0.52783 0.84902 1.04752 1.29907 1.67655 1.78776 1.92535 2.00958 2.10987 2.23512 2.40489 49
50 0.25470 0.52776 0.84887 1.04729 1.29871 1.67591 1.78700 1.92444 2.00856 2.10872 2.23379 2.40327 50

51 0.25467 0.52769 0.84873 1.04708 1.29837 1.67528 1.78627 1.92356 2.00758 2.10762 2.23250 2.40172 51
52 0.25465 0.52763 0.84859 1.04687 1.29805 1.67469 1.78558 1.92272 2.00665 2.10655 2.23127 2.40022 52
53 0.25462 0.52757 0.84846 1.04667 1.29773 1.67412 1.78491 1.92191 2.00575 2.10553 2.23009 2.39879 53
54 0.25460 0.52751 0.84833 1.04648 1.29743 1.67356 1.78426 1.92114 2.00488 2.10455 2.22895 2.39741 54
55 0.25458 0.52745 0.84821 1.04630 1.29713 1.67303 1.78364 1.92039 2.00404 2.10361 2.22785 2.39608 55
56 0.25455 0.52740 0.84809 1.04612 1.29685 1.67252 1.78304 1.91967 2.00324 2.10270 2.22679 2.39480 56
57 0.25453 0.52735 0.84797 1.04595 1.29658 1.67203 1.78246 1.91897 2.00247 2.10182 2.22577 2.39357 57
58 0.25451 0.52730 0.84786 1.04578 1.29632 1.67155 1.78190 1.91830 2.00172 2.10097 2.22479 2.39238 58
59 0.25449 0.52725 0.84776 1.04562 1.29607 1.67109 1.78137 1.91765 2.00100 2.10015 2.22384 2.39123 59
60 0.25447 0.52720 0.84765 1.04547 1.29582 1.67065 1.78085 1.91703 2.00030 2.09936 2.22292 2.39012 60

61 0.25445 0.52715 0.84755 1.04532 1.29558 1.67022 1.78034 1.91642 1.99962 2.09860 2.22204 2.38905 61
62 0.25444 0.52711 0.84746 1.04518 1.29536 1.66980 1.77986 1.91584 1.99897 2.09786 2.22118 2.38801 62
63 0.25442 0.52706 0.84736 1.04504 1.29513 1.66940 1.77939 1.91527 1.99834 2.09715 2.22035 2.38701 63
64 0.25440 0.52702 0.84727 1.04490 1.29492 1.66901 1.77893 1.91472 1.99773 2.09645 2.21955 2.38604 64
65 0.25439 0.52698 0.84719 1.04477 1.29471 1.66864 1.77849 1.91419 1.99714 2.09578 2.21877 2.38510 65
66 0.25437 0.52694 0.84710 1.04464 1.29451 1.66827 1.77806 1.91368 1.99656 2.09514 2.21802 2.38419 66
67 0.25436 0.52690 0.84702 1.04452 1.29432 1.66792 1.77765 1.91318 1.99601 2.09451 2.21729 2.38330 67
68 0.25434 0.52687 0.84694 1.04440 1.29413 1.66757 1.77724 1.91269 1.99547 2.09390 2.21658 2.38245 68
69 0.25433 0.52683 0.84686 1.04428 1.29394 1.66724 1.77685 1.91222 1.99495 2.09330 2.21589 2.38161 69
70 0.25431 0.52680 0.84679 1.04417 1.29376 1.66691 1.77647 1.91177 1.99444 2.09273 2.21523 2.38081 70

75 0.25425 0.52664 0.84644 1.04365 1.29294 1.66543 1.77473 1.90967 1.99210 2.09008 2.21216 2.37710 75
80 0.25419 0.52650 0.84614 1.04320 1.29222 1.66412 1.77321 1.90784 1.99006 2.08778 2.20949 2.37387 80
85 0.25414 0.52637 0.84587 1.04280 1.29159 1.66298 1.77187 1.90623 1.98827 2.08574 2.20713 2.37102 85
90 0.25410 0.52626 0.84563 1.04244 1.29103 1.66196 1.77068 1.90480 1.98667 2.08394 2.20504 2.36850 90
95 0.25406 0.52616 0.84542 1.04212 1.29053 1.66105 1.76961 1.90352 1.98525 2.08233 2.20317 2.36624 95
100 0.25402 0.52608 0.84523 1.04184 1.29007 1.66023 1.76866 1.90237 1.98397 2.08088 2.20150 2.36422 100
105 0.25399 0.52600 0.84506 1.04158 1.28967 1.65950 1.76779 1.90133 1.98282 2.07958 2.19998 2.36239 105
110 0.25396 0.52592 0.84490 1.04134 1.28930 1.65882 1.76701 1.90039 1.98177 2.07839 2.19861 2.36073 110
120 0.25391 0.52580 0.84463 1.04093 1.28865 1.65765 1.76564 1.89874 1.97993 2.07631 2.19620 2.35782 120
∞ 0.25335 0.52440 0.84162 1.03643 1.28156 1.64484 1.75069 1.88079 1.95997 2.05375 2.17009 2.32635 ∞

Tablas estadísticas 17
Universidad Peruana de Ciencias Aplicadas

Tabla N°4.1
TABLA DE LA DISTRIBUCIÓN JI-CUADRADO


Áreas bajo la curva: P( 2  c)   

v 0.995 0.990 0.980 0.975 0.960 0.950 0.900 0.800 0.700 0.600 0.500
1 0.000 0.000 0.001 0.001 0.003 0.004 0.016 0.064 0.148 0.275 0.455
2 0.010 0.020 0.040 0.051 0.082 0.103 0.211 0.446 0.713 1.022 1.386
3 0.072 0.115 0.185 0.216 0.300 0.352 0.584 1.005 1.424 1.869 2.366
4 0.207 0.297 0.429 0.484 0.627 0.711 1.064 1.649 2.195 2.753 3.357
5 0.412 0.554 0.752 0.831 1.031 1.145 1.610 2.343 3.000 3.656 4.351

6 0.676 0.872 1.134 1.237 1.492 1.635 2.204 3.070 3.828 4.570 5.348
7 0.989 1.239 1.564 1.690 1.997 2.167 2.833 3.822 4.671 5.493 6.346
8 1.344 1.647 2.032 2.180 2.537 2.733 3.490 4.594 5.527 6.423 7.344
9 1.735 2.088 2.532 2.700 3.105 3.325 4.168 5.380 6.393 7.357 8.343
10 2.156 2.558 3.059 3.247 3.697 3.940 4.865 6.179 7.267 8.295 9.342

11 2.603 3.053 3.609 3.816 4.309 4.575 5.578 6.989 8.148 9.237 10.341
12 3.074 3.571 4.178 4.404 4.939 5.226 6.304 7.807 9.034 10.182 11.340
13 3.565 4.107 4.765 5.009 5.584 5.892 7.041 8.634 9.926 11.129 12.340
14 4.075 4.660 5.368 5.629 6.243 6.571 7.790 9.467 10.821 12.078 13.339
15 4.601 5.229 5.985 6.262 6.914 7.261 8.547 10.307 11.721 13.030 14.339

16 5.142 5.812 6.614 6.908 7.596 7.962 9.312 11.152 12.624 13.983 15.338
17 5.697 6.408 7.255 7.564 8.288 8.672 10.085 12.002 13.531 14.937 16.338
18 6.265 7.015 7.906 8.231 8.989 9.390 10.865 12.857 14.440 15.893 17.338
19 6.844 7.633 8.567 8.907 9.698 10.117 11.651 13.716 15.352 16.850 18.338
20 7.434 8.260 9.237 9.591 10.415 10.851 12.443 14.578 16.266 17.809 19.337

21 8.034 8.897 9.915 10.283 11.140 11.591 13.240 15.445 17.182 18.768 20.337
22 8.643 9.542 10.600 10.982 11.870 12.338 14.041 16.314 18.101 19.729 21.337
23 9.260 10.196 11.293 11.689 12.607 13.091 14.848 17.187 19.021 20.690 22.337
24 9.886 10.856 11.992 12.401 13.350 13.848 15.659 18.062 19.943 21.652 23.337
25 10.520 11.524 12.697 13.120 14.098 14.611 16.473 18.940 20.867 22.616 24.337

26 11.160 12.198 13.409 13.844 14.851 15.379 17.292 19.820 21.792 23.579 25.336
27 11.808 12.878 14.125 14.573 15.609 16.151 18.114 20.703 22.719 24.544 26.336
28 12.461 13.565 14.847 15.308 16.371 16.928 18.939 21.588 23.647 25.509 27.336
29 13.121 14.256 15.574 16.047 17.138 17.708 19.768 22.475 24.577 26.475 28.336
30 13.787 14.953 16.306 16.791 17.908 18.493 20.599 23.364 25.508 27.442 29.336

31 14.458 15.655 17.042 17.539 18.683 19.281 21.434 24.255 26.440 28.409 30.336
60 35.534 37.485 39.699 40.482 42.266 43.188 46.459 50.641 53.809 56.620 59.335
70 43.275 45.442 47.893 48.758 50.724 51.739 55.329 59.898 63.346 66.396 69.334
120 83.852 86.923 90.367 91.573 94.303 95.705 100.624 106.806 111.419 115.465 119.334

Tablas estadísticas 18
Universidad Peruana de Ciencias Aplicadas

Tabla N°4.2
TABLA DE LA DISTRIBUCIÓN JI-CUADRADO


Áreas bajo la curva: P( 2  c)   

v 0.250 0.200 0.150 0.125 0.100 0.050 0.025 0.020 0.010 0.005
1 1.323 1.642 2.072 2.354 2.706 3.841 5.024 5.412 6.635 7.879
2 2.773 3.219 3.794 4.159 4.605 5.991 7.378 7.824 9.210 10.597
3 4.108 4.642 5.317 5.739 6.251 7.815 9.348 9.837 11.345 12.838
4 5.385 5.989 6.745 7.214 7.779 9.488 11.143 11.668 13.277 14.860
5 6.626 7.289 8.115 8.625 9.236 11.070 12.832 13.388 15.086 16.750

6 7.841 8.558 9.446 9.992 10.645 12.592 14.449 15.033 16.812 18.548
7 9.037 9.803 10.748 11.326 12.017 14.067 16.013 16.622 18.475 20.278
8 10.219 11.030 12.027 12.636 13.362 15.507 17.535 18.168 20.090 21.955
9 11.389 12.242 13.288 13.926 14.684 16.919 19.023 19.679 21.666 23.589
10 12.549 13.442 14.534 15.198 15.987 18.307 20.483 21.161 23.209 25.188

11 13.701 14.631 15.767 16.457 17.275 19.675 21.920 22.618 24.725 26.757
12 14.845 15.812 16.989 17.703 18.549 21.026 23.337 24.054 26.217 28.300
13 15.984 16.985 18.202 18.939 19.812 22.362 24.736 25.471 27.688 29.819
14 17.117 18.151 19.406 20.166 21.064 23.685 26.119 26.873 29.141 31.319
15 18.245 19.311 20.603 21.384 22.307 24.996 27.488 28.259 30.578 32.801

16 19.369 20.465 21.793 22.595 23.542 26.296 28.845 29.633 32.000 34.267
17 20.489 21.615 22.977 23.799 24.769 27.587 30.191 30.995 33.409 35.718
18 21.605 22.760 24.155 24.997 25.989 28.869 31.526 32.346 34.805 37.156
19 22.718 23.900 25.329 26.189 27.204 30.144 32.852 33.687 36.191 38.582
20 23.828 25.038 26.498 27.376 28.412 31.410 34.170 35.020 37.566 39.997

21 24.935 26.171 27.662 28.559 29.615 32.671 35.479 36.343 38.932 41.401
22 26.039 27.301 28.822 29.737 30.813 33.924 36.781 37.659 40.289 42.796
23 27.141 28.429 29.979 30.911 32.007 35.172 38.076 38.968 41.638 44.181
24 28.241 29.553 31.132 32.081 33.196 36.415 39.364 40.270 42.980 45.558
25 29.339 30.675 32.282 33.247 34.382 37.652 40.646 41.566 44.314 46.928

26 30.435 31.795 33.429 34.410 35.563 38.885 41.923 42.856 45.642 48.290
27 31.528 32.912 34.574 35.570 36.741 40.113 43.195 44.140 46.963 49.645
28 32.620 34.027 35.715 36.727 37.916 41.337 44.461 45.419 48.278 50.994
29 33.711 35.139 36.854 37.881 39.087 42.557 45.722 46.693 49.588 52.335
30 34.800 36.250 37.990 39.033 40.256 43.773 46.979 47.962 50.892 53.672

31 35.887 37.359 39.124 40.181 41.422 44.985 48.232 49.226 52.191 55.002
60 66.981 68.972 71.341 72.751 74.397 79.082 83.298 84.580 88.379 91.952
70 77.577 79.715 82.255 83.765 85.527 90.531 95.023 96.387 100.425 104.215
120 130.055 132.806 136.062 137.990 140.233 146.567 152.211 153.918 158.950 163.648

Tablas estadísticas 19
Universidad Peruana de Ciencias Aplicadas

Tabla N° 5.1

TABLA DE LA DISTRIBUCIÓN F

Áreas bajo la curva: P(F  c)  

v1

v2 1 2 3 4 5 6 7 8 9 10
0.050 1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88
0.025 647.79 799.48 864.15 899.60 921.83 937.11 948.20 956.64 963.28 968.63
0.010 4052.18 4999.34 5403.53 5624.26 5763.96 5858.95 5928.33 5980.95 6022.40 6055.93
0.005 16212.46 19997.36 21614.13 22500.75 23055.82 23439.53 23715.20 23923.81 24091.45 24221.84

0.050 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40
0.025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40
0.010 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40
0.005 198.50 199.01 199.16 199.24 199.30 199.33 199.36 199.38 199.39 199.39

0.050 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42
0.010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23
0.005 55.55 49.80 47.47 46.20 45.39 44.84 44.43 44.13 43.88 43.68

0.050 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84
0.010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55
0.005 31.33 26.28 24.26 23.15 22.46 21.98 21.62 21.35 21.14 20.97

0.050 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62
0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05
0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62

0.050 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46
0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
0.005 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25

0.050 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76
0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62
0.005 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38

0.050 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35
0.025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30
0.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81
0.005 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21

0.050 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14
0.025 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96
0.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26
0.005 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42

0.050 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98
0.025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72
0.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85
0.005 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85

0.050 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85
0.025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53
0.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54
0.005 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42

0.050 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75
0.025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37
0.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30
0.005 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09
Tabla N° 5.2
Tablas estadísticas 20
Universidad Peruana de Ciencias Aplicadas

TABLA DE LA DISTRIBUCIÓN F

Áreas bajo la curva: P(F  c)  

v1
 v2 12 15 20 24 30 40 50 60 70 120
0.050 1 243.90 245.95 248.02 249.05 250.10 251.14 251.77 252.20 252.50 253.25
0.025 976.72 984.87 993.08 997.27 1001.40 1005.60 1008.10 1009.79 1011.01 1014.04
0.010 6106.68 6156.97 6208.66 6234.27 6260.35 6286.43 6302.26 6312.97 6320.89 6339.51
0.005 24426.73 24631.62 24836.51 24937.09 25041.40 25145.71 25212.76 25253.74 25283.55 25358.05

0.050 2 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.48 19.48 19.49
0.025 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.48 39.48 39.49
0.010 99.42 99.43 99.45 99.46 99.47 99.48 99.48 99.48 99.48 99.49
0.005 199.42 199.43 199.45 199.45 199.48 199.48 199.48 199.48 199.48 199.49

0.050 3 8.74 8.70 8.66 8.64 8.62 8.59 8.58 8.57 8.57 8.55
0.025 14.34 14.25 14.17 14.12 14.08 14.04 14.01 13.99 13.98 13.95
0.010 27.05 26.87 26.69 26.60 26.50 26.41 26.35 26.32 26.29 26.22
0.005 43.39 43.08 42.78 42.62 42.47 42.31 42.21 42.15 42.10 41.99

0.050 4 5.91 5.86 5.80 5.77 5.75 5.72 5.70 5.69 5.68 5.66
0.025 8.75 8.66 8.56 8.51 8.46 8.41 8.38 8.36 8.35 8.31
0.010 14.37 14.20 14.02 13.93 13.84 13.75 13.69 13.65 13.63 13.56
0.005 20.70 20.44 20.17 20.03 19.89 19.75 19.67 19.61 19.57 19.47

0.050 5 4.68 4.62 4.56 4.53 4.50 4.46 4.44 4.43 4.42 4.40
0.025 6.52 6.43 6.33 6.28 6.23 6.18 6.14 6.12 6.11 6.07
0.010 9.89 9.72 9.55 9.47 9.38 9.29 9.24 9.20 9.18 9.11
0.005 13.38 13.15 12.90 12.78 12.66 12.53 12.45 12.40 12.37 12.27

0.050 6 4.00 3.94 3.87 3.84 3.81 3.77 3.75 3.74 3.73 3.70
0.025 5.37 5.27 5.17 5.12 5.07 5.01 4.98 4.96 4.94 4.90
0.010 7.72 7.56 7.40 7.31 7.23 7.14 7.09 7.06 7.03 6.97
0.005 10.03 9.81 9.59 9.47 9.36 9.24 9.17 9.12 9.09 9.00

0.050 7 3.57 3.51 3.44 3.41 3.38 3.34 3.32 3.30 3.29 3.27
0.025 4.67 4.57 4.47 4.41 4.36 4.31 4.28 4.25 4.24 4.20
0.010 6.47 6.31 6.16 6.07 5.99 5.91 5.86 5.82 5.80 5.74
0.005 8.18 7.97 7.75 7.64 7.53 7.42 7.35 7.31 7.28 7.19

0.050 8 3.28 3.22 3.15 3.12 3.08 3.04 3.02 3.01 2.99 2.97
0.025 4.20 4.10 4.00 3.95 3.89 3.84 3.81 3.78 3.77 3.73
0.010 5.67 5.52 5.36 5.28 5.20 5.12 5.07 5.03 5.01 4.95
0.005 7.01 6.81 6.61 6.50 6.40 6.29 6.22 6.18 6.15 6.06

0.050 9 3.07 3.01 2.94 2.90 2.86 2.83 2.80 2.79 2.78 2.75
0.025 3.87 3.77 3.67 3.61 3.56 3.51 3.47 3.45 3.43 3.39
0.010 5.11 4.96 4.81 4.73 4.65 4.57 4.52 4.48 4.46 4.40
0.005 6.23 6.03 5.83 5.73 5.62 5.52 5.45 5.41 5.38 5.30

0.050 10 2.91 2.85 2.77 2.74 2.70 2.66 2.64 2.62 2.61 2.58
0.025 3.62 3.52 3.42 3.37 3.31 3.26 3.22 3.20 3.18 3.14
0.010 4.71 4.56 4.41 4.33 4.25 4.17 4.12 4.08 4.06 4.00
0.005 5.66 5.47 5.27 5.17 5.07 4.97 4.90 4.86 4.83 4.75

0.050 11 2.79 2.72 2.65 2.61 2.57 2.53 2.51 2.49 2.48 2.45
0.025 3.43 3.33 3.23 3.17 3.12 3.06 3.03 3.00 2.99 2.94
0.010 4.40 4.25 4.10 4.02 3.94 3.86 3.81 3.78 3.75 3.69
0.005 5.24 5.05 4.86 4.76 4.65 4.55 4.49 4.45 4.41 4.34

0.050 12 2.69 2.62 2.54 2.51 2.47 2.43 2.40 2.38 2.37 2.34
0.025 3.28 3.18 3.07 3.02 2.96 2.91 2.87 2.85 2.83 2.79
0.010 4.16 4.01 3.86 3.78 3.70 3.62 3.57 3.54 3.51 3.45
0.005 4.91 4.72 4.53 4.43 4.33 4.23 4.17 4.12 4.09 4.01

Tablas estadísticas 21
Universidad Peruana de Ciencias Aplicadas

Tabla N° 5.3

TABLA DE LA DISTRIBUCIÓN F

Áreas bajo la curva: P(F  c)  

v1
 v2 1 2 3 4 5 6 7 8 9 10
0.050 13 4.7 3.8 3.4 3.2 3.0 2.9 2.8 2.8 2.7 2.7
0.025 6.4 5.0 4.3 4.0 3.8 3.6 3.5 3.4 3.3 3.2
0.010 9.1 6.7 5.7 5.2 4.9 4.6 4.4 4.3 4.2 4.1
0.005 11.4 8.2 6.9 6.2 5.8 5.5 5.3 5.1 4.9 4.8

0.050 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60
0.025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15
0.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94
0.005 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60

0.050 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54
0.025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06
0.010 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
0.005 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42

0.050 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35
0.025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77
0.010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37
0.005 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85

0.050 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25
0.025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64
0.010 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17
0.005 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59

0.050 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16
0.025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51
0.010 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98
0.005 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34

0.050 40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08
0.025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39
0.010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80
0.005 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12

0.050 45 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.10 2.05
0.025 5.38 4.01 3.42 3.09 2.86 2.70 2.58 2.49 2.41 2.35
0.010 7.23 5.11 4.25 3.77 3.45 3.23 3.07 2.94 2.83 2.74
0.005 8.71 5.97 4.89 4.29 3.91 3.64 3.43 3.28 3.15 3.04

0.050 50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03
0.025 5.34 3.97 3.39 3.05 2.83 2.67 2.55 2.46 2.38 2.32
0.010 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70
0.005 8.63 5.90 4.83 4.23 3.85 3.58 3.38 3.22 3.09 2.99

0.050 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99
0.025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27
0.010 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63
0.005 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90

0.050 70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97
0.025 5.25 3.89 3.31 2.97 2.75 2.59 2.47 2.38 2.30 2.24
0.010 7.01 4.92 4.07 3.60 3.29 3.07 2.91 2.78 2.67 2.59
0.005 8.40 5.72 4.66 4.08 3.70 3.43 3.23 3.08 2.95 2.85

0.050 120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91
0.025 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16
0.010 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47
0.005 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71

Tablas estadísticas 22
Universidad Peruana de Ciencias Aplicadas

Tabla N° 5.4
TABLA DE LA DISTRIBUCIÓN F

Áreas bajo la curva: P(F  c)  

v1
 v2 12 15 20 24 30 40 50 60 70 120
0.050 13 2.6 2.5 2.5 2.4 2.4 2.3 2.3 2.3 2.3 2.3
0.025 3.2 3.1 2.9 2.9 2.8 2.8 2.7 2.7 2.7 2.7
0.010 4.0 3.8 3.7 3.6 3.5 3.4 3.4 3.3 3.3 3.3
0.005 4.6 4.5 4.3 4.2 4.1 4.0 3.9 3.9 3.8 3.8

0.050 14 2.53 2.46 2.39 2.35 2.31 2.27 2.24 2.22 2.21 2.18
0.025 3.05 2.95 2.84 2.79 2.73 2.67 2.64 2.61 2.60 2.55
0.010 3.80 3.66 3.51 3.43 3.35 3.27 3.22 3.18 3.16 3.09
0.005 4.43 4.25 4.06 3.96 3.86 3.76 3.70 3.66 3.62 3.55

0.050 15 2.48 2.40 2.33 2.29 2.25 2.20 2.18 2.16 2.15 2.11
0.025 2.96 2.86 2.76 2.70 2.64 2.59 2.55 2.52 2.51 2.46
0.010 3.67 3.52 3.37 3.29 3.21 3.13 3.08 3.05 3.02 2.96
0.005 4.25 4.07 3.88 3.79 3.69 3.59 3.52 3.48 3.45 3.37

0.050 20 2.28 2.20 2.12 2.08 2.04 1.99 1.97 1.95 1.93 1.90
0.025 2.68 2.57 2.46 2.41 2.35 2.29 2.25 2.22 2.20 2.16
0.010 3.23 3.09 2.94 2.86 2.78 2.69 2.64 2.61 2.58 2.52
0.005 3.68 3.50 3.32 3.22 3.12 3.02 2.96 2.92 2.88 2.81

0.050 24 2.18 2.11 2.03 1.98 1.94 1.89 1.86 1.84 1.83 1.79
0.025 2.54 2.44 2.33 2.27 2.21 2.15 2.11 2.08 2.06 2.01
0.010 3.03 2.89 2.74 2.66 2.58 2.49 2.44 2.40 2.38 2.31
0.005 3.42 3.25 3.06 2.97 2.87 2.77 2.70 2.66 2.63 2.55

0.050 30 2.09 2.01 1.93 1.89 1.84 1.79 1.76 1.74 1.72 1.68
0.025 2.41 2.31 2.20 2.14 2.07 2.01 1.97 1.94 1.92 1.87
0.010 2.84 2.70 2.55 2.47 2.39 2.30 2.25 2.21 2.18 2.11
0.005 3.18 3.01 2.82 2.73 2.63 2.52 2.46 2.42 2.38 2.30

0.050 40 2.00 1.92 1.84 1.79 1.74 1.69 1.66 1.64 1.62 1.58
0.025 2.29 2.18 2.07 2.01 1.94 1.88 1.83 1.80 1.78 1.72
0.010 2.66 2.52 2.37 2.29 2.20 2.11 2.06 2.02 1.99 1.92
0.005 2.95 2.78 2.60 2.50 2.40 2.30 2.23 2.18 2.15 2.06

0.050 45 1.97 1.89 1.81 1.76 1.71 1.66 1.63 1.60 1.59 1.54
0.025 2.25 2.14 2.03 1.96 1.90 1.83 1.79 1.76 1.74 1.68
0.010 2.61 2.46 2.31 2.23 2.14 2.05 2.00 1.96 1.93 1.85
0.005 2.88 2.71 2.53 2.43 2.33 2.22 2.16 2.11 2.08 1.99

0.050 50 1.95 1.87 1.78 1.74 1.69 1.63 1.60 1.58 1.56 1.51
0.025 2.22 2.11 1.99 1.93 1.87 1.80 1.75 1.72 1.70 1.64
0.010 2.56 2.42 2.27 2.18 2.10 2.01 1.95 1.91 1.88 1.80
0.005 2.82 2.65 2.47 2.37 2.27 2.16 2.10 2.05 2.02 1.93

0.050 60 1.92 1.84 1.75 1.70 1.65 1.59 1.56 1.53 1.52 1.47
0.025 2.17 2.06 1.94 1.88 1.82 1.74 1.70 1.67 1.64 1.58
0.010 2.50 2.35 2.20 2.12 2.03 1.94 1.88 1.84 1.81 1.73
0.005 2.74 2.57 2.39 2.29 2.19 2.08 2.01 1.96 1.93 1.83

0.050 70 1.89 1.81 1.72 1.67 1.62 1.57 1.53 1.50 1.49 1.44
0.025 2.14 2.03 1.91 1.85 1.78 1.71 1.66 1.63 1.60 1.54
0.010 2.45 2.31 2.15 2.07 1.98 1.89 1.83 1.78 1.75 1.67
0.005 2.68 2.51 2.33 2.23 2.13 2.02 1.95 1.90 1.86 1.77

0.050 120 1.83 1.75 1.66 1.61 1.55 1.50 1.46 1.43 1.41 1.35
0.025 2.05 1.94 1.82 1.76 1.69 1.61 1.56 1.53 1.50 1.43
0.010 2.34 2.19 2.03 1.95 1.86 1.76 1.70 1.66 1.62 1.53
0.005 2.54 2.37 2.19 2.09 1.98 1.87 1.80 1.75 1.71 1.61

Tablas estadísticas 23
Universidad Peruana de Ciencias Aplicadas

PLAN CALENDARIO CICLO 2014-2


CURSO : Estadística Aplicada 2
CÓDIGO : MA145
CRÉDITOS : 4
HORAS SEMANALES : 5 horas semanales
18-ago PROFESORES : Celia Cárdenas, Rafael Aviles, Freud Melgar, Raúl Ramirez
Sem Fecha Sesión1 (Laboratorio - 2 horas) Sesión 2 (Teoría-3 horas)
Control Estadístico de la Calidad. Control del proceso estadístico: Introducción al
1 18-ago Lab. 1: Elaboración de Base de Datos en MINITAB. Uso,
diagrama de control, Diagrama de control para mediciones, Estimación de la
manejo y elaboracion de estadisticas descriptivas. Uso, capacidad del proceso, Diagramas de control para mediciones individuales,
manejo y elaboración de Gráficas de Distribución de Diagramas de control para atributos, El diagrama C (para defectos), El diagrama U
23-ago
Probabilidad : Z, T, X2 y F (para defectos por unidad).

2 25-ago Prueba de hipótesis: Definición. Errores. Prueba de hipótesis para una media.
Lab. 2: Graficas de Control / Confiabilidad y Supervivencia
Prueba de hipótesis para una varianza. Prueba de hipótesis para una proporción
con MINITAB Y EXCEL.
30-ago poblacional.
Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis para
3 01-sep dos medias de poblaciones independientes . Prueba de hipótesis para la diferencia
Lab. 3: Prueba de hipótesis con MINITAB y EXCEL para un
de promedios de muestras relacionadas.Prueba de Hipotesis para dos
parámetro: Varianza, media y proporción.
proporciones poblacionales.
06-sep

4 08-sep Lab. 4: Prueba de hipótesis con MINITAB y EXCEL para dos


Práctica calificada 1
varianzas, dos medias poblaciones independientes y
(Hasta Prueba de Hipótesis 2 parámetros)
13-sep relacionadas, para dos proporciones.

5 15-sep Distribución Chi-Cuadrado:


Lab. 5: Chi cuadrado: Independencia, Homogeneidad de Prueba de Independencia y Homogeneidad de Proporciones.
Proporciones con MINITAB Y EXCEL. Prueba de bondad de ajuste utilizando el Método clásico.
20-sep Retroalimentación de PC 01

6 22-sep
Lab. 6: Chi cuadrado : Prueba de Bondad de Ajuste. Experimento de un factor. ANOVA de una vía.
(Usar MINITAB Y EXCEL) Pruebas de comparaciones múltiples. Experimento de un factor.
27-sep

7 29-sep Práctica calificada 2 Diseño de bloques aleatorios. ANOVA de dos factores.


(Hasta Bondad de Ajuste)
04-oct
8 06-oct
11-oct
SEMANA PARCIALES
Regresión lineal simple. Gráfico de dispersión. Método de mínimos cuadrados.
9 13-oct Lab. 7: Análisis de varianza de un factor con MINITAB Y Coeficiente de determinación. Coeficiente de correlación. Inferencia sobre los
EXCEL. Pruebas de Normalidad Kolmogorov - Smirnov. parámetros del modelo. Predicción. Análisis de los residuales. Validación de los
18-oct
supuestos del modelo.
10 20-oct Modelo de regresión curvilíneo simple.
Lab. 8: ANOVA de bloques y dos factores con MINITAB Y
Validación del modelo curvilíneo.
25-oct EXCEL.
Estimación por intervalo para el pronóstico.

11 27-oct Práctica calificada 3


Lab. 9: Modelo de regresión lineal simple. Análisis de los
supuestos de la regresión lineal con MINITAB Y EXCEL.
01-nov
Modelo de Regresión Lineal Múltiple - Parte I

12 03-nov Modelo de Regresión Lineal Múltiple - Parte II.


Lab. 10 Modelo de regresión curvilíneo simple. Estimación
Ecuación estimada. Supuestos del modelo. Matriz de correlaciones.
por intervalo para el pronóstico con MINITAB Y EXCEL.
Coeficiente de correlación múltiple.
08-nov

13 10-nov Lab. 11 Modelos de regresión Lineal Múltiple con MINITAB Serie de Tiempo. Componentes de una Serie de Tiempo.
Y EXCEL.Pruebas de significancia F y t. Pronósticos para un Método de Medias Móviles Medición del error de pronóstico.
modelo de regresión múltiple. Análisis de residuales. Métodos: MAD, MSE, MAPE, MPE.
15-nov Interpretación de salidas del MINITAB. Suavización exponencial.

14 17-nov
Práctica calificada 4
CASOS DE APLICACIÓN
22-nov

24-nov
Lab. 12: Serie de Tiempo. Método de medias móviles en
15 Presentación y Exposición de Trabajo de Investigación
Excel. Métodos de suavización exponencial. Pronósticos.
29-nov

16 01-dic

06-dic
SEMANA FINALES
08-dic
17 Devolución de exámenes y Retroalimentación de EB
13-dic

SISTEMA DE EVALUACIÓN
El Promedio Final (PF) se obtiene con la siguiente fórmula:
PF = PC1 (0,12) + PC2 (0,14) + PC3 (0,14) + PC4 (0,15) +TF (0,20) + EB (0,25)
Donde:
PC: Práctica calificada. TF: Trabajo final EB : Evaluación Final.

Tablas estadísticas 24

También podría gustarte