Está en la página 1de 81

UNIVERSIDAD PERUANA DE

CIENCIAS APLICADAS

MA145: ESTADÍSTICA APLICADA II

MANUAL DE EXCEL Y MINITAB


CONTENIDO
UNIDAD I: INFERENCIA ESTADÍSTICA ....................................................................................................... 1
1.1. Prueba de hipótesis para la diferencia de medias con muestras independientes ............................ 1
1.2. Prueba de hipótesis para la diferencia de medias con muestras relacionadas .............................. 21
UNIDAD II: DISEÑO Y ANÁLISIS DE EXPERIMENTOS................................................................................ 25
2.1. ANOVA de un factor ........................................................................................................................ 25
2.2. ANOVA de dos factores ................................................................................................................... 32
UNIDAD III: MODELOS DE PRONÓSTICOS .............................................................................................. 47
3.1. Regresión lineal simple .................................................................................................................... 47
3.2. Regresión no lineal simple ............................................................................................................... 54
3.3. Regresión lineal múltiple ................................................................................................................. 60
3.4. Suavización exponencial simple ...................................................................................................... 69
3.5. Método de descomposición ............................................................................................................ 74
UNIDAD I: INFERENCIA ESTADÍSTICA
1.1. Prueba de hipótesis para la diferencia de medias con muestras independientes

Toma de decisión estadística con el criterio del p – valor

Caso: PERUCAR S.A.


PERUCAR S.A. es una empresa que brinda servicios de taller automotriz desde el año 1999. Cubre todas las
exigencias de un servicio automotriz moderno, enfocándose en ofrecer a sus clientes un trato personalizado
en un taller equipado con tecnología de punta y con altos estándares de calidad. Actualmente, entre los
servicios que brinda, está el de la conversión de motores de autos de gasolina a gas GNV o GLP.
El ingeniero de producción afirma que, los motores convertidos a GLP producen un menor rendimiento de
kilómetros por galón que los convertidos a GNV. Si el ingeniero corrobora su hipótesis, tomará la decisión de
prescindir del servicio de conversión de gasolina a GLP. Por tal razón, se registraron los kilómetros recorridos
de 9 autos que usan combustible GLP y de 12 autos que usan combustible GNV, los datos se muestran a
continuación:

GLP 44 27 35 25 44 47 44 35 40
GNV 31 41 40 42 28 24 39 41 27 36 26 38

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del 5%.

Antes de empezar a desarrollar el caso presentado es necesario activar el complemento “Análisis de


datos”. A continuación, se presenta el procedimiento

Paso 1: Activar el complemento “Análisis de datos”

1°. Click en el menú: Archivo

2°. Click en: Opciones

1
3°. Click en: Complemento, luego el botón: Ir…

4°. Seleccionar: Herramientas para análisis, luego dar click


en el botón: Aceptar

Prueba de hipótesis para el cociente de varianzas poblacionales


Como parte del desarrollo del caso presentado, es necesario verificar si las varianzas poblacionales se
asumirán iguales o diferentes. Para esto, se utilizará el análisis de la Prueba de hipótesis de homogeneidad
de dos varianzas.

Hipótesis:
𝐇𝟎 : 𝛔𝟐𝟏 = 𝛔𝟐𝟐
𝐇𝟏 : 𝛔𝟐𝟏 ≠ 𝛔𝟐𝟐

Paso 2: Realizar la prueba de hipótesis de dos varianzas


1°. Click en el menú: Datos, luego click en: Análisis de datos

2
2°. Click en: Prueba F para varianzas de dos
muestras, luego click en el botón: Aceptar

3°. Click en la imagen de: Rango para la


variable 1 → En este paso se realiza la selección
de los datos para la variable 1

4°. Selección de los datos de la


variable 1

5°. Realizar 3° y 4° para la variable 2

6°. Click en: Rótulos, ingresar el nivel de


significación en: Alfa, luego click en el
botón: Aceptar

3
7°. Resultados

El p-valor se puede obtener fácilmente de la siguiente forma:


p – valor = 2 * P(F<=f) una cola = 2*0.30297683 = 0.60595366

▪ Decisión: Como el p -valor > α, no se rechaza H0


▪ Conclusión: Con 5% de nivel de significación, la evidencia muestral es insuficiente para afirmar que las
varianzas de los kilómetros recorridos por galón con GLP y los kilómetros recorridos por galón con GNV,
son heterogéneas. Luego, se asume que las varianzas son homogéneas.

Prueba de hipótesis para la diferencia de promedios poblacionales


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la
diferencia de medias para muestras independientes y varianzas homogéneas

Hipótesis:
𝐇𝟎 : 𝝁𝟏 − 𝝁𝟐 ≥ 𝟎 → K = 0
𝐇𝟏 : 𝝁𝟏 − 𝝁𝟐 < 𝟎 → K = 0

Paso 3: Realizar la prueba de hipótesis para la diferencia de medias para muestras independientes y varianzas
homogéneas
1°. Click en el menú: Datos, luego click en: Análisis de datos

2°. Seleccionar: Prueba t para dos muestras suponiendo varianzas iguales, luego click en el botón: Aceptar

4
3°. Seleccionar los datos para la
variable 1 y variable 2 en Rango para
la variable 1 y Rango para la variable
2, respectivamente. Click en:
Rótulos, ingresar el valor de K en:
Diferencia hipotética entre las
medias, ingresar el nivel de
significación en: Alfa, click en el
botón: Aceptar

4°. Resultados

El p-valor se puede obtener fácilmente de la siguiente forma:


Unilateral izquierda Bilateral Unilateral derecha
Si el Tcal es positivo: Si el Tcal es positivo:
p - valor = P(T<=t) dos colas
p - valor = 1 - P(T<=t) una cola p - valor = P(T<=t) una cola
(Se utiliza el mismo criterio
cuando Tcal resulta positivo o
Si el Tcal es negativo: Si el Tcal es negativo:
negativo)
p - valor = P(T<=t) una cola p - valor = 1 - P(T<=t) una cola

p – valor = 1 - P(T<=t) una cola = 1 - 0.145641344 = 0.854358656

▪ Decisión: Como el p -valor > α, no se rechaza H0


▪ Conclusión: Con 5% de nivel de significación, la evidencia muestral es insuficiente para afirmar que los
motores convertidos a GLP producen un menor rendimiento de kilómetros por galón que los convertidos
a GNV.
▪ Por lo tanto, el Ingeniero de producción NO tomará la decisión de prescindir los servicios de conversión
de gasolina a GLP.

5
Caso: VINOS PERÚ S.A.C.
Vinos Perú S.A.C. es una empresa que se dedica a la fabricación y embotellamiento de vinos en la provincia
de Cañete, el Ingeniero de Producción de la empresa ha recibido un informe donde se indica que, la
producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná (1) que en la
de Imperial Cañete (2). Encarga a un grupo de ingenieros industriales de dicha empresa la verificación de la
conclusión del informe. Si se corrobora lo indicado en el informe, el Ingeniero tomará la decisión de modificar
el programa de producción de vino de las máquinas destiladoras de la planta de Imperial Cañete, caso
contrario, se mantendrá el programa de producción en ambas plantas. Por tal razón, registró la producción
de la planta Lunahuaná durante 8 días y de la planta Imperial Cañete durante 9 días, los datos se muestran a
continuación:

Producciones docenas de vino


46 104 107 94 44 54 100 36
Planta Lunahuaná

Producciones docenas de vino


72 51 72 64 42 40 56 34 41
Planta Imperial Cañete

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del 5%.

Prueba de hipótesis para el cociente de varianzas poblacionales


Como parte del desarrollo del caso presentado, es necesario verificar si las varianzas poblacionales se
asumirán iguales o diferentes. Para esto, se utilizará el análisis de la Prueba de hipótesis de homogeneidad
de dos varianzas.

Hipótesis:
𝐇𝟎 : 𝛔𝟐𝟏 = 𝛔𝟐𝟐
𝐇𝟏 : 𝛔𝟐𝟏 ≠ 𝛔𝟐𝟐

Paso 1: Realizar la prueba de hipótesis de dos varianzas


1°. Click en el menú: Datos, luego click en: Análisis de datos

2°. Click en: Prueba F para varianzas de dos


muestras, luego click en el botón: Aceptar

6
3°. Click en la imagen de: Rango para la
variable 1 → En este paso se realiza la selección
de los datos para la variable 1

4°. Selección de los datos de la


variable 1

5°. Realizar 3° y 4° para la variable 2

6°. Click en: Rótulos, ingresar el nivel de


significación en: Alfa, luego click en el botón:
Aceptar

7°. Resultados

7
El p-valor se puede obtener fácilmente de la siguiente forma:
p – valor = 2 * P(F<=f) una cola = 2*0.024407331 = 0.048814662

▪ Decisión: Como el p -valor < α, se rechaza H0


▪ Conclusión: Con 5% de nivel de significación y en base a la información muestral, existe evidencia para
afirmar que las varianzas de la Cantidad de producción de vinos en la Planta de Lunahuaná y la Cantidad
de producción de vinos en la Planta de Imperial Cañete son heterogéneas. Luego, se asume que las
varianzas son heterogéneas.

Prueba de hipótesis para la diferencia de promedios poblacionales


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la
diferencia de medias para muestras independientes y varianzas homogéneas

Hipótesis:
𝐇𝟎 : 𝝁𝟏 − 𝝁𝟐 ≤ 𝟎 → K = 0
𝐇𝟏 : 𝝁𝟏 − 𝝁𝟐 > 𝟎 → K = 0

Paso 2: Realizar la prueba de hipótesis para la diferencia de medias para muestras independientes y varianzas
homogéneas
1°. Click en el menú: Datos, luego click en: Análisis de datos

2°. Seleccionar: Prueba t para dos muestras suponiendo varianzas iguales, luego click en el botón: Aceptar

3°. Seleccionar los datos para la variable 1 y


variable 2 en Rango para la variable 1 y Rango
para la variable 2, respectivamente. Click en:
Rótulos, ingresar el valor de K en: Diferencia
hipotética entre las medias, ingresar el nivel de
significación en: Alfa, click en el botón: Aceptar

8
4°. Resultados

El p-valor se puede obtener fácilmente de la siguiente forma:


Unilateral izquierda Bilateral Unilateral derecha
Si el Tcal es positivo: Si el Tcal es positivo:
p - valor = P(T<=t) dos colas
p - valor = 1 - P(T<=t) una cola p - valor = P(T<=t) una cola
(Se utiliza el mismo criterio
cuando Tcal resulta positivo o
Si el Tcal es negativo: Si el Tcal es negativo:
negativo)
p - valor = P(T<=t) una cola p - valor = 1 - P(T<=t) una cola

p – valor = P(T<=t) una cola = 0.05582

▪ Decisión: Como el p -valor < α, se rechaza H0


▪ Conclusión: Al 5% de nivel de significancia, la evidencia muestral es insuficiente para afirmar que la
producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná que en
la planta de Imperial Cañete.
▪ Por lo tanto, el Ingeniero de producción se mantendrá el programa de producción en ambas plantas.

9
Toma de decisión estadística con los valores críticos

Caso: PERUCAR S.A.


PERUCAR S.A. es una empresa que brinda servicios de taller automotriz desde el año 1999. Cubre todas las
exigencias de un servicio automotriz moderno, enfocándose en ofrecer a sus clientes un trato personalizado
en un taller equipado con tecnología de punta y con altos estándares de calidad. Actualmente, entre los
servicios que brinda, está el de la conversión de motores de autos de gasolina a gas GNV o GLP.
El ingeniero de producción afirma que, los motores convertidos a GLP producen un menor rendimiento de
kilómetros por galón que los convertidos a GNV. Si el ingeniero corrobora su hipótesis, tomará la decisión de
prescindir del servicio de conversión de gasolina a GLP. Por tal razón, se registraron los kilómetros recorridos
de 9 autos que usan combustible GLP y de 12 autos que usan combustible GNV, los datos se muestran a
continuación:
GLP 44 27 35 25 44 47 44 35 40

GNV 31 41 40 42 28 24 39 41 27 36 26 38

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del 5%.

Prueba de hipótesis para el cociente de varianzas poblacionales


Como parte del desarrollo del caso presentado, es necesario verificar si las varianzas poblacionales se
asumirán iguales o diferentes. Para esto, se utilizará el análisis de la Prueba de hipótesis de homogeneidad
de dos varianzas

▪ Planteamientos de las hipótesis:


𝐇𝟎 : 𝛔𝟐𝟏 = 𝛔𝟐𝟐
𝐇𝟏 : 𝛔𝟐𝟏 ≠ 𝛔𝟐𝟐

▪ Estadístico de prueba: Fcal = 1.38044 (Valor obtenido del reporte de Análisis de datos, revisar manual para
calcular el p – valor en Excel)

Utilizando el complemento “Análisis de datos” se obtiene el reporte siguiente

El valor “F=1.380435” que se muestra en la tabla corresponde al valor del Estadístico de prueba

Para decidir, si se rechaza o no la hipótesis nula, es necesario identificar los puntos críticos de la distribución
F y, con ellos, establecer las regiones críticas.

10
▪ Establecer las regiones críticas y calcular los valores críticos

1°. Seleccionar cualquier celda,


luego Ir al menú: Fórmulas, luego
click en: Insertar función

2°. Click en: Estadísticas

3°. Seleccionar la función: INV.F.CD, luego click en: Aceptar

α
1-
2
n1 – 1
n2 – 1
Cálculo del Fcritico 1 = Fcrítico 1 = F(1 - α, n1 - 1, n2 - 1)
2

α
4°. Ingresar en: Probabilidad = 1 - 2, luego ingresar
en Grados_de_libertad1 = n1 – 1, luego ingresar en
Fcrítico 1 Grados_de_libertad2 = n2 – 1

11
α
Cálculo del Fcrítico 1 = F(α,
n1 - 1, n2 - 1) n1 – 1 2
2
α n2 – 1
5°. Ingresar en: Probabilidad = 2, luego
ingresar en
Grados_de_libertad1 = n1 – 1, luego ingresar en
Grados_de_libertad2 = n2 – 1

Fcrítico 2

6°. Al dar click en el botón: Aceptar, en el paso 4° y 5°

Regiones críticas y valores críticos

α/2 = 0.025

α/2 = 0.025
0.23566 = Fcrítico 1 1.38044 = Fcal 3.66382 = Fcrítico 2

Los criterios de rechazo y no rechazo se determina con la siguiente regla:


Si Fcrítico 1 ≤ Fcal ≤ Fcrítico 2 → No se rechaza Ho
Si Fcal < Fcrítico 1 o Fcal > Fcrítico 2 → Sí se rechaza Ho

▪ Decisión: Como el Fcrítico 1 < Fcal < Fcrítico 2, no se rechaza H0


▪ Conclusión: Con 5% de nivel de significación, la evidencia muestral es insuficiente para afirmar que las
varianzas de los kilómetros recorridos por galón con GLP y los kilómetros recorridos por galón con GNV,
son heterogéneas. Luego, se asume que las varianzas son homogéneas.

Prueba de hipótesis para la diferencia de promedios poblacionales


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la
diferencia de medias para muestras independientes y varianzas homogéneas.
▪ Planteamientos de las hipótesis:
𝐇𝟎 : 𝝁𝟏 − 𝝁𝟐 ≥ 𝟎
𝐇𝟏 : 𝝁𝟏 − 𝝁𝟐 < 𝟎

▪ Estadístico de prueba: tcal = 1.08550 (Valor obtenido del reporte de Análisis de datos, revisar el manual
para calcular el p – valor en Excel)

12
Utilizando el complemento “Análisis de datos” se obtiene el reporte siguiente

El valor “t = 1.08550” que se muestra en la tabla corresponde al valor del Estadístico de prueba.

Para decidir, si se rechaza o no la hipótesis nula, es necesario identificar los puntos críticos de la distribución
T y, con ellos, establecer las regiones críticas

▪ Establecer las regiones críticas y calcular los valores críticos

1°. Seleccionar cualquier celda,


luego Ir al menú: Fórmulas, luego
click en: Insertar función

2°. Click en: Estadísticas

13
3°. Seleccionar la función: INV.T, luego click en: Aceptar

α Cálculo del tcritico = t (α, n1 + n2 – 2)


n1 + n2 – 2
4°. Ingresar en: Probabilidad = α, luego
ingresar en Grados_de_libertad = n1 + n2 – 2

tcrítico

tcrítico = t (1 – α, n1 + n2 – 2) → Prueba de hipótesis unilateral derecha

tcrítico = t (α, n1 + n2 – 2) → Prueba de hipótesis unilateral izquierda

tcrítico 1 =t α
( , n1 + n2 - 2)
2 } Prueba de hipótesis bilateral
tcrítico 2 =t α
(1 - , n1 + n2 - 2)
2

5°. Al dar click en el botón: Aceptar, en el paso 4°

Región crítica y valor crítico

α = 0.05

tcrítico = -1.729133 tcal = 1.08550

14
Los criterios de rechazo y no rechazo se determina con la siguiente regla:
Si tcal ≥ tcrítico → No se rechaza Ho
Si tcal < tcrítico → Sí se rechaza Ho

▪ Decisión: Como el tcal > tcrítico, no se rechaza H0


▪ Conclusión: Con 5% de nivel de significación, la evidencia muestral es insuficiente para afirmar que los
motores convertidos a GLP producen un menor rendimiento de kilómetros por galón que los convertidos
a GNV.
▪ Por lo tanto, el Ingeniero de producción NO tomará la decisión de prescindir los servicios de conversión
de gasolina a GLP.

15
Caso: VINOS PERÚ S.A.C.
Vinos Perú S.A.C. es una empresa que se dedica a la fabricación y embotellamiento de vinos en la provincia
de Cañete, el Ingeniero de Producción de la empresa ha recibido un informe donde se indica que, la
producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná (1) que en la
de Imperial Cañete (2). Encarga a un grupo de ingenieros industriales de dicha empresa la verificación de la
conclusión del informe. Si se corrobora lo indicado en el informe, el Ingeniero tomará la decisión de modificar
el programa de producción de vino de las máquinas destiladoras de la planta de Imperial Cañete, caso
contrario, se mantendrá el programa de producción en ambas plantas. Por tal razón, registró la producción
de la planta Lunahuaná durante 8 días y de la planta Imperial Cañete durante 9 días, los datos se muestran a
continuación:

Producciones docenas de vino


46 104 107 94 44 54 100 36
Planta Lunahuaná
Producciones docenas de vino
72 51 72 64 42 40 56 34 41
Planta Imperial Cañete

Considere que las muestras son aleatorias e independientes y que provienen de poblaciones normales. En
base a lo presentado, ¿qué decisión tomará el Ingeniero de Producción? Use un nivel de significación del 5%.

Prueba de hipótesis para el cociente de varianzas poblacionales


Como parte del desarrollo del caso presentado, es necesario verificar si las varianzas poblacionales se
asumirán iguales o diferentes. Para esto, se utilizará el análisis de la Prueba de hipótesis de homogeneidad
de dos varianzas

▪ Planteamientos de las hipótesis:


𝐇𝟎 : 𝛔𝟐𝟏 = 𝛔𝟐𝟐
𝐇𝟏 : 𝛔𝟐𝟏 ≠ 𝛔𝟐𝟐

▪ Estadístico de prueba: Fcal = 4.56726 (Valor obtenido del reporte de Análisis de datos, revisar manual para
calcular el p – valor en Excel)

Utilizando el complemento “Análisis de datos” se obtiene el reporte siguiente

El valor “F = 4.56726” que se muestra en la tabla corresponde al valor del Estadístico de prueba

Para decidir, si se rechaza o no la hipótesis nula, es necesario identificar los puntos críticos de la distribución
F y, con ellos, establecer las regiones críticas.

16
▪ Establecer las regiones críticas y calcular los valores críticos

1°. Seleccionar cualquier celda,


luego Ir al menú: Fórmulas, luego
click en: Insertar función

2°. Click en: Estadísticas

3°. Seleccionar la función: INV.F.CD, luego clic en: Aceptar

𝛂
𝟏 −
𝟐
n1 – 1
Cálculo del Fcrítico 1 = F(1 - α,
n1 - 1, n2 - 1)
n2 – 1 2
α
4°. Ingresar en: Probabilidad = 1 – 2, luego
ingresar
en Grados_de_libertad1 = n1 – 1, luego ingresar en
Grados_de_libertad2 = n2 – 1

Fcrítico 1

17
𝛂
Cálculo del Fcrítico 2 = F( α, n1 - 1, n2 - 1) 𝟐
2 n1 – 1
n2 – 1
α
5°. Ingresar en: Probabilidad = 2, luego ingresar en
Grados_de_libertad1 = n1 – 1, luego ingresar en
Grados_de_libertad2 = n2 – 1

Fcrítico 2

6°. Al dar clic en el botón: Aceptar, en el paso 4° y 5°

Regiones críticas y valores críticos


α/2 = 0.025

α/2 = 0.025
0.20411 = Fcrítico 1 Fcrítico 2 = 4.52856 4.56726 = Fcal

Los criterios de rechazo y no rechazo se determina con la siguiente regla:


Si Fcrítico 1 ≤ Fcal ≤ Fcrítico 2 → No se rechaza Ho
Si Fcal < Fcrítico 1 o Fcal > Fcrítico 2 → Sí se rechaza Ho

▪ Decisión: Como el FCal > FCrítico, se rechaza H0


▪ Conclusión: Con 5% de nivel de significación y en base a la información muestral, existe evidencia para
afirmar que las varianzas de la Cantidad de producción de vinos en la Planta de Lunahuaná y la Cantidad
de producción de vinos en la Planta de Imperial Cañete son heterogéneas. Luego, se asume que las
varianzas son heterogéneas.

Prueba de hipótesis para la diferencia de promedios poblacionales


Para responder el problema de investigación, se utilizará el análisis de la prueba de hipótesis para la
diferencia de medias para muestras independientes y varianzas homogéneas.

▪ Planteamientos de las hipótesis:


𝐇𝟎 : 𝝁𝟏 − 𝝁𝟐 ≤ 𝟎
𝐇𝟏 : 𝝁𝟏 − 𝝁𝟐 > 𝟎

▪ Estadístico de prueba: tcal = 1.08550 (Valor obtenido del reporte de Análisis de datos, revisar el manual
para calcular el p – valor en Excel)

18
Utilizando el complemento “Análisis de datos” se obtiene el reporte siguiente

El valor “t = 1.74462” que se muestra en la tabla corresponde al valor del Estadístico de prueba.
Para decidir, si se rechaza o no la hipótesis nula, es necesario identificar los puntos críticos de la distribución
T y, con ellos, establecer las regiones críticas

▪ Establecer las regiones críticas y calcular los valores críticos

1°. Seleccionar cualquier celda, luego Ir al


menú: Fórmulas, luego click en: Insertar
función

2°. Clic en: Estadísticas

3°. Seleccionar la función: INV.T, luego click en: Aceptar

19
1–α Cálculo del tcritico = t (1 – α, v)
v
4°. Ingresar en: Probabilidad = 1 – α, luego
ingresar en Grados_de_libertad = v

tcrítico

tcrítico = t (1 – α, v) → Prueba de hipótesis unilateral derecha

tcrítico = t (α, v) → Prueba de hipótesis unilateral izquierda

tcrítico 1 =t α
( , v)
2 } Prueba de hipótesis bilateral
tcrítico 2 =t α
(1 - , v)
2

5°. Al dar click en el botón: Aceptar, en el paso 4°

Región crítica y valor crítico

α = 0.05

tcal = 1.74462 tcrítico = 1.81246

Los criterios de rechazo y no rechazo se determina con la siguiente regla:


Si tcal ≤ tcrítico → No se rechaza Ho
Si tcal > tcrítico → Sí se rechaza Ho

▪ Decisión: Como el tcal < tcrítico, no se rechaza H0


▪ Conclusión: Al 5% de nivel de significancia, la evidencia muestral es insuficiente para afirmar que la
producción promedio por día de vinos (caja de 12 botellas) es mayor en la planta de Lunahuaná que en la
planta de Imperial Cañete.
▪ Por lo tanto, el Ingeniero de producción se mantendrá el programa de producción en ambas plantas.

20
1.2. Prueba de hipótesis para la diferencia de medias con muestras relacionadas

Caso: Producción de papas


La papa requiere de uniformidad y buen tamaño, para ello, es esencial el uso de fertilizantes con las mejores
características para una excelente producción.
Un ingeniero Agrónomo desea comparar la producción de papa, en quintales por hectárea, luego de aplicar
dos tipos de fertilizantes. Para iniciar el estudio se seleccionó una muestra de 10 hectáreas de papas a las
que se aplicó primero el fertilizante A y luego de 6 meses se aplicó el fertilizante B a un nuevo sembrío de
papa, finalmente se registró la producción de papa, en quintales por hectárea luego de la aplicación de cada
fertilizante. Los resultados se muestran en la tabla siguiente:

Fertilizante A (1) 48.5 48.6 50.2 54.3 56.5 59.8 59.4 60.2 65.4 67.5
Fertilizante B (2) 48 49.5 51.2 53.6 55.9 58.7 60.2 61.3 64.5 66.8

Si la producción de papa obtenida con la aplicación del fertilizante A es diferente a la obtenida con el
fertilizante B entonces, el Ingeniero Agrónomo tendrá que realizar una prueba más para decidir qué
fertilizante usará. ¿Cuál será la decisión del Ingeniero Agrónomo? Asuma que las variables en estudio siguen
una distribución normal y use un nivel de significación de 5%.

▪ Planteamiento de las hipótesis


H0 : μd = 0
H1 : μd ≠ 0

1°. Clic en el menú “Datos” y luego clic en “Análisis de datos”

2°. Seleccionar “Prueba t para dos muestras emparejadas” y luego clic en el botón “Aceptar”

3°. Seleccionar los datos para la variable 1 y


variable 2 en Rango para la variable 1 y Rango
para la variable 2, respectivamente. Luego “Clic
en “Rótulos”, ingresar el valor de K en
“Diferencia hipotética entre las medias”,
ingresar el nivel de significación en “Alfa” y clic
en el botón “Aceptar”

21
Prueba t para medias de dos muestras emparejadas
Fertilizante A (1) Fertilizante B (2)
Media 57.04 56.97
Varianza 44.58044444 40.84011111
Observaciones 10 10
Coeficiente de correlación de Pearson 0.991558283
Diferencia hipotética de las medias 0
Grados de libertad 9
Estadístico t 0.247127242 T cal
P(T<=t) una cola 0.405177428
Valor crítico de t (una cola) 1.833112933
P(T<=t) dos colas 0.810354856
Valor crítico de t (dos colas) 2.262157163

▪ Estadístico de prueba: t cal = 0.2471

Para decidir, si se rechaza o no la hipótesis nula, se puede utilizar el criterio de los valores críticos o el criterio
del p – valor.

Si se utiliza el Criterio de los valores críticos.

▪ Establecer las regiones críticas y calcular los valores críticos

1°. Seleccionar cualquier celda, Ir al menú


“Fórmulas” y luego clic en “Insertar función”

2°. Clic en “Estadísticas”

3°. Seleccionar la función “INV.T” y luego clic en “Aceptar”

22
α/2 Cálculo del tcrítico 1 = t(α, v)
v 2

4°. Ingresar en “Probabilidad” = α/2 y luego


ingresar en “Grados_de_libertad” = v

tcrítico 1

1 - α/2
Cálculo del tcrítico 2 = t(1− α, v)
v 2

5°. Ingresar en “Probabilidad” = 1 – α/2 y luego


ingresar en “Grados_de_libertad” = v

tcrítico 2

tcrítico = t (1 – α, v) → Prueba de hipótesis unilateral derecha

tcrítico = t (α, v) → Prueba de hipótesis unilateral izquierda

tcrítico 1 =t α
( , v)
2 } Prueba de hipótesis bilateral
tcrítico 2 =t α
(1 - , v)
2

6°. Al dar clic en el botón: Aceptar, en el paso 4° y 5°

Región crítica y valor crítico

Los criterios de rechazo y no rechazo se determina con la siguiente regla:


Si t crítico 1 ≤ t cal ≤ t crítico 2 → No se rechaza H0
Si t cal < t crítico 1 o t crítico 2 < t cal → Sí se rechaza H0

▪ Decisión: Como el t crítico 1 ≤ t cal ≤ t crítico 2, no se rechaza H0


▪ Conclusión: Al 5% de nivel de significancia, la evidencia muestral es insuficiente para afirmar que la
producción de papa obtenida con la aplicación del fertilizante A es diferente que la obtenida con el
fertilizante B.

23
Si se utiliza el Criterio del p – valor
Prueba t para medias de dos muestras emparejadas
Fertilizante A (1) Fertilizante B (2)
Media 57.04 56.97
Varianza 44.58044444 40.84011111
Observaciones 10 10
Coeficiente de correlación de Pearson 0.991558283
Diferencia hipotética de las medias 0
Grados de libertad 9
Estadístico t 0.247127242
P(T<=t) una cola 0.405177428
Valor crítico de t (una cola) 1.833112933
P(T<=t) dos colas 0.810354856
Valor crítico de t (dos colas) 2.262157163

El p-valor se puede obtener fácilmente de la siguiente forma:


Unilateral izquierda Bilateral Unilateral derecha
Si el Tcal es positivo: Si el Tcal es positivo:
p - valor = P(T<=t) dos colas
p - valor = 1 - P(T<=t) una cola p - valor = P(T<=t) una cola
(Se utiliza el mismo criterio
cuando Tcal resulta positivo o
Si el Tcal es negativo: Si el Tcal es negativo:
negativo)
p - valor = P(T<=t) una cola p - valor = 1 - P(T<=t) una cola

p – valor = 0.8104

▪ Decisión: Como el p -valor > α, no se rechaza H0


▪ Conclusión: Al 5% de nivel de significancia, la evidencia muestral es insuficiente para afirmar que la
producción de papa obtenida con la aplicación del fertilizante A es diferente que la obtenida con el
fertilizante B.
▪ Por lo tanto, el Ingeniero agrónomo no tendrá que realizar una prueba más para decidir qué fertilizante
usará para el sembrado de papas.

24
UNIDAD II: DISEÑO Y ANÁLISIS DE EXPERIMENTOS
2.1. ANOVA de un factor
Caso: Longitud de ruptura del papel
La calidad de la producción del papel está determinada por una serie de parámetros que están en
correspondencia con la utilización del producto final. En la producción de papel periódico se tienen en cuenta
las siguientes propiedades: longitud de ruptura, opacidad, brillantez, resistencia en seco, espesor, lisura, etc.
La longitud de ruptura es la longitud límite, de una tira de papel, por encima de la cual, si el papel se
suspendiera por un extremo, se rompería por su propio peso (m). Dentro de todas estas características la
más significativa es la longitud de ruptura debido a que las partiduras de papel limitan la productividad de
las máquinas de impresión continuo, además es muy trabajoso el montaje de la hoja y la puesta en marcha
del equipo de impresión con la consiguiente pérdida de tiempo, el bajo rendimiento y grandes pérdidas de
papel.
Para analizar el tipo de papel que brinda mejores resultados garantizando todos los requisitos anteriores se
decidió realizar un diseño completamente al azar, donde se evaluó cuatro tecnologías para producir papel.
Cada tecnología fue asignada aleatoriamente a las unidades experimentales (unidades de masa de corteza
de árbol) y se registró la longitud de ruptura, como se detalla en la tabla a continuación:

Tecnología I Tecnología II Tecnología III Tecnología IV


Pulpa química Pulpa quím-mec Pulpa mecánica Pulpa quím-term-mec
4200 4234 3780 4420
4220 4320 3705 4550
4190 4225 3745 4520
4210 4290 3700 4420
4205 4245 3680 4540

A un nivel de significación de 1%, ¿el tipo de tecnología de producción influye en la longitud de ruptura del
papel? Determine la tecnología que mejora la longitud promedio de ruptura del papel.

Diseño del experimento


Variable Respuesta: Longitud de ruptura del papel
Factor: Tipo de tecnología Niveles o tratamientos: I, II, III, IV
Unidad experimental: Una unidad de masa de corteza de árbol

Salidas del minitab


Ingreso de datos al minitab

Los tratamientos se consideran en una


sola columna y por cada repetición se
otorga el nombre del tratamiento

La variable se considera en
una sola columna

25
Procedimiento para generar los residuos, la gráfica de los residuos vs orden, la tabla de Anova. Los residuos
aparecerán en la vista de datos

Esta opción nos va


otorgar la gráfica
“residuos vs
orden” para
observar la prueba
de independencia
Esta opción nos va otorgar
de errores
almacenar los errores o
residuales para realizar dos
supuestos: Normalidad de
errores y homogeneidad de
varianzas

26
Supuesto 1: Prueba de normalidad para los residuos
ESTADISTICA/ESTADISTICAS BASICAS/PRUEBA DE NORMALIDAD

27
Normalidad de los errores
Hipótesis
Ho: Los errores siguen una distribución normal
H1: Los errores no siguen una distribución normal
Nivel de significación
 = 0,01
Estadístico de prueba
AD =0,242
Valor p = 0,737 >  = 0,01, No se Rechaza H0
Conclusión: Con un nivel de significación del 1%, los errores siguen una distribución normal. Se cumple el
supuesto.

Supuesto 2: Prueba de homogeneidad de varianzas


ESTADÍSTICAS/ANOVA/PRUEBA DE IGUALDAD DE VARIANZAS

28
Pruebas

Estadística
Método de prueba Valor p
Bartlett 8.07 0.045

Homogeneidad de varianzas
Hipótesis
Ho: 𝜎12 = 𝜎22 = 𝜎32 = 𝜎42
H1: Al menos una varianza es diferente

Nivel de significación
 = 0.01

Estadístico de prueba
Bartlett = 8,07

Valor p = 0,045 >  = 0,01 No se Rechaza H0


Conclusión: Con un nivel de significación del 1%, las varianzas de los residuos para las cuatro tecnologías son
iguales. Se cumple el supuesto.

ANOVA: Prueba de hipótesis del factor producto químico

Modelo lineal general: Longitud de ruptura vs. Tecnología


Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Tecnología 3 1564704 521568 275.26 0.000
Error 16 30317 1895
Total 19 1595021

ANOVA
Hipótesis
H0: El tipo de tecnología no afecta a la longitud de ruptura de una unidad de masa de corteza de papel.
H1: El tipo de tecnología afecta a la longitud de ruptura de una unidad de masa de corteza de papel.

29
Nivel de significación
 = 0.01

Estadístico de prueba
Fcal = 275.26

Región crítica
F (0.01; 3,16) como no hay en la tabla, se usa F (0.01; 3,15) = 5.42 < Fcal= 275.26
Valor p = 0.000 <  = 0.01 Se Rechaza H0
Conclusión: Con un nivel de significación del 1%, el tipo de producto químico influye en la resistencia de la
fibra de algodón.

Comparaciones: Prueba de Tukey


ESTADISTICAS/ANOVA/MODELO LINEAL GENERAL…/COMPARACIONES

30
Comparaciones por parejas de Tukey: Respuesta = Longitud de ruptura, Término = Tecnología
Agrupar información utilizando el método de Tukey y una confianza de 99%

Tecnologia N Media Agrupación


Tecnología IV 5 4490.0 A
Tecnología II 5 4262.8 B
Tecnología I 5 4205.0 B
Tecnología III 5 3722.0 C

Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias

Diferencia
de las EE de Valor p
Diferencia de niveles medias diferencia IC de 99% Valor T ajustado
Tecnología II - Tecnología I 57.8 27.5 ( -43.2, 158.8) 2.10 0.195
Tecnología III - Tecnología I -483.0 27.5 (-584.0, -382.0) -17.54 0.000
Tecnología IV - Tecnología I 285.0 27.5 ( 184.0, 386.0) 10.35 0.000
Tecnología III - Tecnología II -540.8 27.5 (-641.8, -439.8) -19.64 0.000
Tecnología IV - Tecnología II 227.2 27.5 ( 126.2, 328.2) 8.25 0.000
Tecnología IV - Tecnología III 768.0 27.5 ( 667.0, 869.0) 27.90 0.000

Prueba de comparaciones:
H0: µi = µj
H1: µi ≠ µj, Para todo i ≠ j

μIII μI μII μIV

Con un nivel de confianza del 99%, la Tecnología IV es la que presenta la mayor longitud promedio de ruptura
de papel.

31
2.2. ANOVA de dos factores

Caso: Duración de las baterías


Un ingeniero está diseñando una batería que se usará en un dispositivo el cuál se someterá a variaciones de
temperatura extrema. El único parámetro de diseño que puede seleccionar en este punto es el material de
la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el dispositivo esté fabricado y se envíe
al campo, el ingeniero no tendrá control sobre las temperaturas extremas en las que operará el dispositivo,
pero sabe por experiencia que la temperatura probablemente afectará la vida efectiva de la batería.

El ingeniero decide probar los tres materiales de la placa (M1, M2 y M3) con tres niveles de temperatura
(15°F, 70°F y 125°F), ya que estos niveles de temperatura son consistentes con el medio ambiente donde se
usará finalmente el producto.
Se prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las 36 pruebas
se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos de la vida de las baterías
en horas.
Tipo de Temperatura
material 15 °F 70 °F 125 °F
130 155 34 40 20 70
M1
74 180 80 75 82 58
150 188 136 122 25 70
M2
159 126 106 115 58 45
138 110 174 120 96 104
M3
168 160 150 139 82 60

Utilice nivel de significación 5%. ¿El tipo de material y/o la temperatura influyen en el tiempo de duración de
las baterías? ¿Qué tipo de material y/o temperatura recomendaría utilizar?

Procesamiento, análisis y sustentación de la información.

Los factores se
consideran en una
sola columna

La variable se
considera en una
sola columna

32
Esta opción nos va otorgar
almacenar los errores o
residuales para realizar dos
supuestos: Normalidad de
errores y homogeneidad de
varianzas

33
Se selecciona los
dos factores para
agregar a “términos
del modelo” la
interacción

34
35
36
Prueba de varianzas iguales: Tiempo vs. Tipo de material, Temperatura
Tipo de material Temperatura

M1 1 25 °F Prueba de Bartlett

1 5 °F
Valor p 0.732

70 °F

M2 1 25 °F

1 5 °F

70 °F

M3 1 25 °F

1 5 °F

70 °F

0 1 00 200 300 400


Intervalos de confianza de Bonferroni de 95% para Desv.Est.

37
Modelo lineal general: Duración vs. Tipo de material, Temperatura
Método

Codificación de factores (-1, 0, +1)

Información del factor

Factor Tipo Niveles Valores

Tipo de material Fijo 3 M1, M2, M3

Temperatura Fijo 3 125°F, 15°F, 70°F

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p

Tipo de material 2 10684 5341.9 7.91 0.002

Temperatura 2 39119 19559.4 28.97 0.000

Tipo de material*Temperatura 4 9614 2403.4 3.56 0.019


Error 27 18231 675.2

Total 35 77647

Pruebas
Estadística
Método de prueba Valor p

Bartlett 5.24 0.732

Pruebas
Estadística
Método de prueba Valor p

Bartlett 5.24 0.732

Comparaciones para Duración


Comparaciones por parejas de Tukey: Tipo de material*Temperatura
Agrupar información utilizando el método de Tukey y una confianza de 95%

Tipo de
material*Temperatura N Media Agrupación

M2 15°F 4 155.75 A

M3 70°F 4 145.75 A B
M3 15°F 4 144.00 A B

M1 15°F 4 134.75 A B

M2 70°F 4 119.75 A B

M3 125°F 4 85.50 B C
M1 125°F 4 57.50 C

M1 70°F 4 57.25 C
M2 125°F 4 49.50 C
Las medias que no comparten una letra son significativamente diferentes.

38
Supuesto: Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Anderson Darling: AD = 0.340
Valor p= 0.478 > α = 0.05
Decisión: No se Rechaza H0
Conclusión: Con un nivel de significación del 5%, se asume que los errores se distribuyen normalmente. Se
cumple supuesto.

Supuesto: Varianzas constantes entre los tratamientos


H0: σ21 = σ22 = σ23 = σ24 = σ25 = σ26 = σ27 = σ28 = σ29
H1: Al menos una varianza es diferente
Barttlet = 5.24
Valor p = 0.732 > α = 0.05
Decisión: No se Rechaza H0
Conclusión: Con un nivel de significación del 5%, se asume que existe homogeneidad de varianza. Se cumple
supuesto.

Se asume que se cumple los supuestos para realizar el análisis


Análisis de varianza
H0: No existe interacción entre el tipo de material y la temperatura sobre la vida efectiva de la batería.
H1: Existe interacción entre el tipo de material y la temperatura sobre la vida efectiva de la batería.
F cal= 3.56
Valor – p = 0.019 < 0.05
Decisión: Se rechaza H0
Conclusión: Con un nivel de significación del 5%, la evidencia muestral es suficiente para afirmar que existe
interacción entre el tipo de material y la temperatura sobre la vida efectiva de la batería.

Prueba de comparaciones:
H0: µi = µj
H1: μi ≠ μj Para todo i ≠ j

Con un nivel de confianza del 95%, el tratamiento o interacción del material de placa M2 con la temperatura
de 15 °F proporcionan un mayor promedio de vida de las baterías, respecto a los tratamientos o
interacciones: M3 – 125°F, M1 – 125°F, M1 – 70°F, M2 – 125°F. Sim embargo, el tratamiento o interacción
del material de placa M2 con la temperatura de 15 °F, no presenta un mayor promedio de vida de las baterías
que los tratamientos o interacciones: M3 – 70°F, M3 – 15°F, M1 – 15°F, M2 – 70°F, respecto a estas son
iguales.

39
Caso: Teñido de fibra sintetica
En el departamento de control de calidad de la planta de acabado de telas se está estudiando el efecto de
dos factores el tiempo de ciclo (en minutos) y la temperatura (°C) sobre el teñido de algodón y fibra sintética,
la cual se utiliza en la manufactura de camisas para caballeros. Se seleccionaron tres niveles de tiempo, tres
niveles de temperatura, y se tiñeron tres pequeñas muestras de tela dentro de cada conjunto de condiciones.
La tela teñida fue comparada con un estándar y se le asignó una calificación numérica. Los resultados
aparecen a continuación.

Temperatura
Tiempo de ciclo
80° 100° 150°
23 29 28
40 28 30 27
25 28 30
26 37 35
50 29 39 40
27 35 37
22 26 26
60 28 29 30
23 25 31

A un nivel de significación 1%. ¿El tiempo de ciclo y/o la temperatura influye en la calificación obtenida en
las telas? ¿Qué tiempo de ciclo y/o temperatura presenta mayores calificaciones en promedio?

Esta opción nos va otorgar almacenar


los errores o residuales para realizar dos
supuestos: Normalidad de errores y
homogeneidad de varianzas

40
Se selecciona los dos
factores para agregar a
“términos del modelo” la
interacción

41
42
43
Prueba de varianzas iguales: RESID1 vs. Temperatura, Tiempo
Temperatura Tiempo

1 00° 40 Prueba de Bartlett

50
Valor p 0.936

60

1 50° 40

50

60

80° 40

50

60

0 20 40 60 80 1 00 1 20 1 40
Intervalos de confianza de Bonferroni de 99% para Desv.Est.

Modelo lineal general: Calificación vs. Tiempo, Temperatura


Método

Codificación de factores (-1, 0, +1)


Información del factor

Factor Tipo Niveles Valores


Tiempo Fijo 3 40, 50, 60
Temperatura Fijo 3 100°, 150°, 80°
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Tiempo 2 279.19 139.593 28.55 0.000
Temperatura 2 187.19 93.593 19.14 0.000
Tiempo*Temperatura 4 61.93 15.481 3.17 0.039
Error 18 88.00 4.889
Total 26 616.30

Pruebas
Estadística
Método de prueba Valor p
Bartlett 2.97 0.936

44
Comparaciones para Calificación
Comparaciones por parejas de Tukey: Tiempo
Agrupar información utilizando el método de Tukey y una confianza de 99%

Tiempo N Media Agrupación


50 9 33.8889 A
40 9 27.5556 B
60 9 26.6667 B
Las medias que no comparten una letra son significativamente diferentes.
Comparaciones por parejas de Tukey: Temperatura
Agrupar información utilizando el método de Tukey y una confianza de 99%

Temperatura N Media Agrupación


150° 9 31.5556 A
100° 9 30.8889 A
80° 9 25.6667 B
Las medias que no comparten una letra son significativamente diferentes.

Supuesto: Normalidad de errores


H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Anderson Darling: AD = 0.470
Valor p = 0.228 > α = 0.01
Decisión: No se Rechaza H0
Conclusión: Con un nivel de significación del 1%, se asume que los errores se distribuyen normalmente. Se
cumple supuesto.

Supuesto: Varianzas constantes entre los tratamientos


H0: σ21 = σ22 = σ23 = σ24 = σ25 = σ26 = σ27 = σ28 = σ29
H1: Al menos una varianza es diferente
Barttlet = 2.97
Valor p = 0.936 > α = 0.01
Decisión: No se Rechaza H0
Conclusión: Con un nivel de significación del 1%, se asume que existe homogeneidad de varianza. Se cumple
supuesto.

Se asume que se cumple los supuestos para realizar el análisis


Análisis de varianza
H0: No existe interacción entre el tiempo de ciclo y la temperatura sobre la calificación promedio obtenida
sobre las telas teñidas.
H1: Existe interacción entre el tiempo de ciclo y la temperatura sobre la calificación promedio obtenida sobre
las telas teñidas.
F cal = 3.17
Valor p = 0.039 > 0.01
Decisión: No se rechaza H0
Conclusión: Con un nivel de significación del 1%, la evidencia muestral es insuficiente para afirmar que existe
interacción entre el tiempo de ciclo y la temperatura sobre la calificación promedio obtenida sobre las telas
teñidas.

45
Prueba de hipótesis del tiempo de ciclo
H0: El tiempo de ciclo no afecta la calificación promedio obtenida sobre las telas teñidas.
H1: El tiempo de ciclo afecta la calificación promedio obtenida sobre las telas teñidas.

F cal = 19.14
Valor p = 0.000 <  = 0.01
Decisión: Se rechaza H0
Conclusión: Con un nivel de significación del 1%, la evidencia muestral es suficiente para afirmar que el
tiempo de ciclo afecta la calificación promedio obtenida sobre las telas teñidas.

Prueba de hipótesis de la temperatura


H0: La temperatura no afecta la calificación promedio obtenida sobre las telas teñidas.
H1: La temperatura afecta la calificación promedio obtenida sobre las telas teñidas.

F cal = 28.55
Valor p = 0.000 <  = 0.01
Decisión: Se rechaza H0
Conclusión: Con un nivel de significación del 1%, la evidencia muestral es suficiente para afirmar que la
temperatura afecta la calificación promedio obtenida sobre las telas teñidas.

Prueba de comparaciones:
H0: µi = µj
H1: μi ≠ μj Para todo i ≠ j

Con un nivel de confianza del 99%,


Existen diferencias entre el tiempo de ciclo de 50-40 y 50-60.
No existen diferencias entre el tiempo de ciclo de 40-60.

Con un nivel de confianza del 99%,


Existen diferencias entre la temperatura de 150-80 y 100-80.
No existen diferencias entre el tiempo de ciclo de 150-100.

o El tiempo de ciclo que presenta mayor calificación promedio es de 50.


o La temperatura que presenta mayor calificación promedio es 150 y 100.

46
UNIDAD III: MODELOS DE PRONÓSTICOS
3.1. Regresión lineal simple

Caso: Conductividad térmica


En la construcción de carreteras que experimentan heladas intensas, es
importante que la densidad del concreto (kg/m2) seleccionado tenga un
valor bajo de conductividad térmica para reducir al mínimo los daños
provocados por cambios de temperatura. Suponga que existe una relación
lineal entre las variables de estudio y que se toman 12 trozos al azar de
diferentes densidades de concreto y se registra la conductividad. El registro
se muestra a continuación en la siguiente tabla:

Conductividad
0.080 0.095 0.115 0.130 0.150 0.175 0.205 0.230 0.272 0.100 0.095 0.085
térmica (x)
Densidad del
300 500 600 700 750 900 1000 1330 1500 680 450 400
concreto (y)

A continuación, realice los procedimientos con ayuda del software MINITAB para responder las preguntas
que se muestran a continuación.

a. Identifique y describa las variables del modelo.


b. Realice la validación de los supuestos del modelo, nivel de significancia 1%.
c. Presente el modelo de regresión lineal simple.
d. Interprete el coeficiente de regresión estimado.
e. Valide el modelo, utilizando un nivel de significancia igual a 1%.
f. ¿Qué porcentaje de la variabilidad de la Conductividad Térmica es explicada por el modelo de regresión
estimado? Explique este resultado.
g. Pronostique, con un nivel de confianza del 99%, la conductividad térmica promedio cuando la densidad
del concreto es de 650 kg/m2. Interprete.
h. Pronostique, con un nivel de confianza del 99%, la conductividad térmica cuando la densidad del
concreto es de 650 kg/m2. Interprete.

Solución

a. Según el contexto presentado, las variables del modelo y la relación entre ellas son:

Variable dependiente (explicada, regresada): y: Conductividad térmica

Variable independiente (explicativa, regresora): x: Densidad del concreto

Para a validación de los supuestos del modelo, primero se tiene que estimar el modelo y los residuales
utilizando Minitab:

47
Paso 1: Estadísticas / Regresión / Regresión / Ajustar modelo de regresión

Paso 2: Ingreso variable Y y X

i ii

Paso 3: Seleccionar las opciones

i) Resultados: Marcar Estadístico de Durbin Watson

48
ii) Almacenamiento: seleccionar Residuos

b. Realice la validación de los supuestos del modelo:


Supuesto 1: Normalidad de los errores
Usando los residuos, realizas la prueba de normalidad

49
H0: Los errores se distribuyen normalmente.
Hipótesis
H1: Los errores no se distribuyen normalmente.
Nivel de significación α = 0.01

Valor del estadístico de prueba AD = 0.370

p - valor 0.365
Decisión estadística Como el p – valor > α, No rechazo H0
Con un nivel de significación de 0.01, no se puede descartar que los
Conclusión
errores se distribuyen normalmente.

Supuesto 2 y 3: No autocorrelación de los errores y homocedasticidad

H0: Los errores no están autocorrelacionados (los errores son independientes)


H1: Los errores están autocorrelacionados (los errores son dependientes)
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 2.24515

Como DW = 2.24515 pertenece al intervalo [1.5;2.5], se asume que los errores no están auto
correlacionados y la varianza de los errores es constante (homocedasticidad). Por lo tanto, se cumplen
ambos supuestos.

c. Presente el modelo de regresión lineal simple.


Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 0.01684 0.00925 1.82 0.099
X: Densidad del concreto 0.000168 0.000011 15.20 0.000 1.00

Ecuación de regresión
Y: Conductividad térmica = 0.01684 + 0.000168 X: Densidad del concreto

50
Ecuación de regresión lineal simple estimada ŷ = 0.01684+0.000168X

d. Interprete el coeficiente de regresión estimado:

Por cada kg/m2 adicional de la densidad del concreto, la conductividad


β̂ 1 =0.000168 térmica promedio aumenta en 0.000168 (se dice que incrementa porque el
signo es positivo).

e. Validación del modelo:

Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 0.01684 0.00925 1.82 0.099
X: Densidad del concreto 0.000168 0.000011 15.20 0.000 1.00

Prueba individual
Hipótesis H0 : 𝛽1 =0 (El modelo de regresión lineal simple no es válido)
H1 : 𝛽1 ≠0 (El modelo de regresión lineal simple es válido)

Nivel de significación α = 0.01

Valor del estadístico de prueba Tcal = 15.20

P_valor requerido 0.000

Decisión estadística Como p – valor < α, Rechazo H0


Con un 1% de significación, la información muestra es suficiente
para afirmar que existe relación lineal entre la conductividad
Conclusión
térmica y la densidad del concreto. Por lo tanto, el modelo de
regresión lineal simple es válido.

Otra alternativa es para validar el modelo es: Prueba conjunta (ANOVA)

H0: β1 = 0
H1: β 1 ≠ 0
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 0.042030 0.042030 231.08 0.000
X 1 0.042030 0.042030 231.08 0.000
Error 10 0.001819 0.000182
Total 11 0.043849
Fcal= 231.08 p – valor = 0.000

Decisión: Como el p – valor < α, se rechaza H0


Conclusión: Con un nivel de significación del 1%, la información muestra es suficiente para afirmar que
existe relación lineal entre la conductividad térmica y la densidad del concreto. Por lo tanto, el modelo de
regresión lineal simple es válido.

51
f. ¿Qué porcentaje de la variabilidad de la Conductividad Térmica es explicada por el modelo de
regresión estimado? Interprete.

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.0134863 95.85% 95.44% 94.49%

Interpretación:
▪ El 95.85% de la variabilidad de la conductividad térmica (y) es explicada por el modelo de
regresión estimado.
▪ La variabilidad de los datos muestrales (yi) alrededor de la recta de regresión (ŷ) es 0.0134863

g. Pronostique, con un nivel de confianza del 99%, la conductividad térmica promedio cuando la
densidad del concreto es de 650 kg/m2. Interprete.

Ruta: Estadísticas / Regresión / Regresión / Predecir

Ingresamos el valor de x = 650

i ii

52
i) Opciones: Digitamos el nivel de confianza

ii) Almacenamiento: seleccionamos Ajustes pronosticados, Límites de confianza y Límites de


predicción

Nota.
IC → Intervalo de confianza del promedio de Y
IP → Intervalo de confianza del valor individual de Y

Predicción
Ajuste EE de ajuste IC de 99% IP de 99%
0.126000 0.0040757 (0.113083; 0.138917) (0.0813493; 0.170651)

El intervalo que va de 0.113083 a 0.138917 ofrece un 99% de confianza de contener a la verdadera


conductividad térmica promedio, cuando la densidad del concreto es 650 km/m2.

h. Pronostique, con un nivel de confianza del 99%, la conductividad térmica cuando la densidad del
concreto es de 650 kg/m2. Interprete.

Predicción
Ajuste EE de ajuste IC de 99% IP de 99%
0.126000 0.0040757 (0.113083; 0.138917) (0.0813493; 0.170651)

El intervalo que va de 0.0813493 a 0.170651 ofrece un 99% de confianza de contener a la verdadera


conductividad térmica, cuando la densidad del concreto es 650 km/m2.

53
3.2. Regresión no lineal simple

Caso: Concentración medida por el espectrómetro


Un ingeniero químico está calibrando un espectrómetro para medir la concentración de CO en
muestras de aire, esta calibración implica que debe comprobar que existe una relación no lineal en
la concentración verdadera de CO (x) y la concentración medida por el espectrómetro y). Para tal
fin, selecciona 11 muestras de aire en las que conoce su verdadera concentración de CO y las
compara con la concentración medida por el espectrómetro. Los datos son los siguientes (las
unidades son ppm):

Concentración de CO 12 21 31 34 37 49 34 34 42 51 56
Concentración espectro 16 25 26 28 42 48 33 29 37 42 45

Use un nivel de significación del 8%.

Solución

Variable independiente o predictora (x): Concentración de monóxido de carbono


Variable dependiente o respuesta (y): Concentración medida por el espectrómetro.

Transformación de las variables: x2, Ln(x), Ln(y)

Paso 1: Calc / Calculadora

Transformación de X a X2

Nombre que la celda de la


variable creada X2
Expresión para transformar
la variable X en X^2

independientes.

54
Transformación de X a Ln(X)

Nombre que la celda de la


variable creada Ln(X)
Expresión para transformar
la variable X en Ln(X)

Transformación de Y a Ln(Y)

Nombre que la celda de la


variable creada Ln(Y)
Expresión para transformar
la variable Y en Ln(Y)

Luego de dar clic en el botón: Aceptar, en cada transformación se obtienen cada uno de las nuevas
columnas.

55
Generar las salidas para los modelos de regresión
Paso 2: Regresión/ Regresión/ Ajustar modelo de regresión

Modelo cuadrático: Y vs X, X^2 Modelo exponencial: Ln(Y) vs X

Modelo potencia: Ln(Y) vs Ln(X)

Modelo cuadrático Modelo exponencial

Resumen del modelo Resumen del modelo


R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
4.29685 84.99% 81.24% 76.25% 0.127772 86.16% 84.63% 77.50%

Modelo potencia

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.117802 88.24% 86.93% 84.72%

56
Paso 1: Ranking de los modelos

Modelo R2 Ranking
Cuadrático 84.99% 2
Exponencial 84.63% 3
Potencia 88.24% 1

Paso 2: Validez del mejor modelo del Ranking y verificación del cumplimiento de los supuestos

Validez del mejor modelo del Ranking

Modelo potencia

Prueba individual
H0: β1 = 0
H1: β1 ≠ 0
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.016 0.301 3.37 0.008
Ln(X) 0.6979 0.0849 8.22 0.000 1.00

Tcal = 8.22 p – valor = 0.000

Decisión: Como el p – valor < α = 0.08, se rechaza H0


Conclusión: Al 8% de nivel de significación, la información muestral es suficiente para afirmar que el
coeficiente de regresión es significativo. Por lo tanto, el modelo potencia es válido.

Otra alternativa es: Prueba conjunta (ANOVA)


H0: β1 = 0
H1: β1 ≠ 0
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 0.93700 0.937005 67.52 0.000
Ln(X) 1 0.93700 0.937005 67.52 0.000
Error 9 0.12490 0.013877
Falta de ajuste 7 0.10992 0.015703 2.10 0.360
Error puro 2 0.01497 0.007487
Total 10 1.06190

Fcal = 67.52 p – valor = 0.000

Decisión: Como el p – valor < α = 0.08, se rechaza H0


Conclusión: Al 8% de nivel de significación, la información muestral es suficiente para afirmar que existe un
modelo potencia que relacione la concentración de monóxido de carbono y la concentración medida por el
espectrómetro.

57
Verificación del cumplimiento de los supuestos

Normalidad de los errores


H0: Los errores siguen una distribución normal
H1: Los errores no siguen una distribución normal

AD = 0.668 p – valor = 0.251

Decisión: Como el p – valor > α = 0.08, no se


rechaza H0

Conclusión: Al 8% de nivel de significación, se


asume que los errores siguen una distribución
normal. Por lo tanto, se cumple el supuesto.

Independencia de los errores y homocedasticidad


H0: Los errores no están autocorrelacionados
H1: Los errores están autocorrelacionados
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.77410

Como el valor de DW = 1.77410 pertenece al intervalo [1.5, 2.5], entonces se asume que los errores son
independientes o no existe autocorrelación de los errores. Además, se asume que los errores tienen varianzas
constantes (homocedasticidad).

Al verificar la validez del modelo y el cumplimiento de los supuestos, el modelo potencia será utilizado
para realizar el pronóstico.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1.016 0.301 3.37 0.008
Ln(X) 0.6979 0.0849 8.22 0.000 1.00

̂ = 1.016 + 0.6979Ln(X)
Modelo potencia linealizado: Ln(Y)

Modelo potencia: Ŷ = e1.016 *X0.6979 = 2.7621*X0.6979

Paso 3: Pronóstico de la concentración medida por el espectrómetro (Y), a través de un intervalo de


confianza

▪ Estimar mediante un intervalo de confianza del 90%, la concentración promedio de CO medida por el
espectrómetro, cuando la concentración verdadera de CO del medio ambiente partir de 80 ppm.

58
Paso 3: Regresión / Regresión/ Predecir

Ingresar Ln(X) = Ln (80) = 4.382026….

Clic en el botón Opciones, para ingresar


el nivel de confianza

Ingresar el nivel de confianza

Predicción
Ajuste EE de ajuste IC de 90% IP de 90%
4.07393 0.0812340 (3.92502; 4.22284) (3.81162; 4.33624)

IC de 90%: Intervalo de confianza para un valor medio


IP de 90%: Intervalo de confianza para un valor individual

En nuestro caso, nos piden un intervalo de confianza para un valor medio


IC (μLn(y) / Ln(X) = 4.382026) = [3.92502, 4.22284]

IC (μy/ X = 110) = [e3.92502, e4.22284] = [50.65409, 68.22697] ppm

Interpretación del intervalo: Con un nivel de confianza del 90%, el intervalo de 50.65409 a 68.22697 ppmm.
contiene la concentración de CO media por el espectrómetro, cuando a concentración de CO del medio
ambiente es 80 ppmm.

59
3.3. Regresión lineal múltiple

Caso: Resistencia al desprendimiento


La tabla siguiente contiene los datos sobre cuatro variables recolectados
en una fábrica de semiconductores. En esta fábrica, el semiconductor
terminado es alambre adherido en una tablilla. Las variables reportadas
son la resistencia al desprendimiento (una medida de la cantidad de fuerza
requerida para romper la unión), la longitud del alambre (mm), la altura de
la matriz (mm), la altura del poste(mm) y la altura del amarre(mm). Se
desea determinar un modelo que relaciones la resistencia al
desprendimiento con las cuatro variables presentadas.

Longitud del alambre Altura de la matriz Altura del poste Altura del amarre Resistencia al desprendimiento
(x1) (x2) (x3) (x4) (y)
8 350 2 2 25.02
2 360 1 2 29.88
11 400 3 2 37.00
22 600 3 4 59.00
4 200 1 1 16.86
2 200 1 1 9.95
1 340 1 2 23.56
20 600 4 4 56.00
25 603 3 4 57.00
4 198 2 1 17.08
8 260 1 2 24.45
17 590 2 4 56.63
8 250 2 2 23.60
8 300 2 2 27.50
2 375 1 2 26.47
13 490 3 2 40.00
15 432 3 3 44.88
15 480 3 4 46.59
18 598 3 4 58.00
12 500 3 3 41.95
9 345 2 2 26.34
6 223 2 2 22.13
14 550 3 4 54.22
4 220 2 1 17.89
5 235 1 1 21.15
10 550 2 4 51.48
5 215 2 2 21.65
9 245 1 1 24.35
16 520 3 3 54.12
2 199 1 1 9.60

60
Paso 1: Gráfica / Gráfica de dispersión/ Simple

Ingreso variable Y y X1, X2, X3, X4/ Múltiples gráficas

61
Gráfica de dispersión de Y vs. X1; X2; X3; X4
X1: Longitud del alambre X2: Altura de la matriz
60

40

Y: Resistencia 20

0 6 12 18 24 200 300 400 500 600


X3: Altura del poste X4: Altura del amarre
60

40

20

1 2 3 4 1 2 3 4

La resistencia al desprendimiento está relacionada linealmente con cada una de las variables independientes.

Paso 2: Estadística/ Regresión/ Regresión/ Ajustar modelo de regresión

Ingresar: Respuesta: Variable Y/ Predictores continuos: Variables X1, X2, X3, X4

62
Estimación del Modelo Completo:

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -2.13 1.91 -1.12 0.275
X1: Longitud del alambre 0.567 0.194 2.92 0.007 5.25
X2: Altura de la matriz 0.0588 0.0106 5.57 0.000 8.20
X3: Altura del poste 0.25 1.09 0.23 0.820 3.08
X4: Altura del amarre 3.23 1.30 2.48 0.020 7.19

Modelo de regresión lineal múltiple estimada: Ŷ = -2.13 + 0.567X1 +0.0588X2 +0.25X3 +3.23X3

Medidas de bondad de ajuste:

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.96299 97.02% 96.54% 95.82%

▪ El 96.54% de la variabilidad de la resistencia al desprendimiento es explicada por la longitud del


alambre, la altura de la matriz, la altura del poste y la altura del amarre.
▪ La variabilidad de los valores muestrales (y) alrededor de la recta de regresión estimada (ŷ) es
2.96299.

Validación Global (o conjunta):


H0 : β1 = β2 = β3 = β4 = 0
H1 : Al menos un βi ≠0

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 4 7138.92 1784.73 203.29 0.000
X1: Longitud del alambre 1 75.05 75.05 8.55 0.007
X2: Altura de la matriz 1 272.06 272.06 30.99 0.000
X3: Altura del poste 1 0.46 0.46 0.05 0.820
X4: Altura del amarre 1 54.04 54.04 6.16 0.020
Error 25 219.48 8.78
Total 29 7358.41

Estadístico de prueba: Fcal = 203.29 p – valor = 0.000

Decisión: Como el p – valor < α, se rechaza H0


Conclusión: Al 5% de nivel de significación, la evidencia muestral es suficiente para afirmar que existe un
modelo que relacione la resistencia al desprendimiento con la longitud del alambre, la altura de la matriz, la
altura del poste y la altura del amarre.

63
Validación de los coeficientes de regresión:

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -2.13 1.91 -1.12 0.275
X1: Longitud del alambre 0.567 0.194 2.92 0.007 5.25
X2: Altura de la matriz 0.0588 0.0106 5.57 0.000 8.20
X3: Altura del poste 0.25 1.09 0.23 0.820 3.08
X4: Altura del amarre 3.23 1.30 2.48 0.020 7.19

H0 :β1 =0 H0 :β2 =0 H0 :β3 =0 H0 :β4 =0


H1 :β1 ≠0 H1 :β2 ≠0 H1 :β3 ≠0 H1 :β4 ≠0

Tcal = 2.92 Tcal = 5.57 Tcal = 0.23 Tcal = 2.48


p – valor = 0.004 p – valor = 0.000 p – valor = 0.820 p – valor = 0.020
Decisión: RH0 Decisión: RH0 Decisión: NRH0 Decisión: RH0

Conclusión: Al 5% de nivel de significación, la evidencia muestral es suficiente para afirmar que solo la
longitud del alambre, la altura de la matriz y la altura del amarre influye en la explicación de la resistencia al
desprendimiento. Por lo tanto, el modelo no es válido

Paso 3: Estadística/ Regresión/ Regresión/ Ajustar modelo de regresión

Botón: Paso a paso/ Método: Paso a paso/ Alfa a entrar: 0.05 y Alfa a retirar: 0.05/ Incluir detalles para
cada paso

64
Botón: Almacenamiento/ Residuos y Distancia de cook

Botón: Resultados/ Estadístico de Durbin - Watson

Estimación del segundo modelo:

Selección de términos escalonada


Términos candidatos: X1: Longitud del alambre; X2: Altura de la matriz; X3: Altura del poste; X4: Altura del
amarre
-----Paso 1----- -----Paso 2----- -----Paso 3----
Coef P Coef P Coef P
Constante -5.36 -2.44 -1.92
X2: Altura de la matriz 0.10370 0.000 0.07858 0.000 0.0590 0.000
X1: Longitud del alambre 0.677 0.001 0.590 0.001
X4: Altura del amarre 3.24 0.018

S 3.91475 3.18737 2.90850


R-cuad. 94.17% 96.27% 97.01%
R-cuad.(ajustado) 93.96% 96.00% 96.67%
R-cuad. (pred) 93.46% 95.35% 96.11%
Cp de Mallows 22.88 7.24 3.05
α a entrar = 0.05; α a retirar = 0.05

65
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -1.92 1.64 -1.17 0.253
X1: Longitud del alambre 0.590 0.162 3.65 0.001 3.79
X2: Altura de la matriz 0.0590 0.0104 5.70 0.000 8.16
X4: Altura del amarre 3.24 1.28 2.53 0.018 7.19

Modelo de regresión lineal múltiple estimada: Ŷ =-1.92 + 0.590X1 + 0.0590X2 + 3.24X4

Interpretación de los coeficientes de regresión:


β̂ 1 =0.590 ; Por cada milímetro en la longitud del alambre la resistencia al desprendimiento incrementa en
promedio en 0.590, manteniendo constante la altura de la matriz y la altura del amarre.
β̂ 2 =0.0590 ; Por cada milímetro de altura en la matriz la resistencia al desprendimiento incrementa en
promedio en 0.0590, manteniendo constante la longitud del alambre y la altura del amarre.
β̂ 4 =3.24 ; Por cada milímetro en la altura del amarre al desprendimiento incrementa en promedio en 3.24,
manteniendo constante la longitud del alambre y la altura de la matriz

Medidas de bondad de ajuste:


Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
2.90850 97.01% 96.67% 96.11%

▪ El 96.67% de la variabilidad de la resistencia al desprendimiento es explicada por la longitud del alambre,


la altura de la matriz y la altura del amarre.
▪ La variabilidad de los valores muestrales (y) alrededor de la recta de regresión estimada (ŷ) es 2.90850.

Evaluación de los supuestos:


Normalidad de los errores

Paso 3: Estadística básicas/ Prueba de normalidad/ Variable: RESID

66
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente

AD = 0.416 p – valor = 0.312

Decisión: Como el p – valor > α, NRH0


Conclusión: Al 5% del nivel de significación, la evidencia muestral es insuficiente para afirmar que los errores
no se distribuyen normalmente. Por lo tanto, se asume que los errores se distribuyen normalmente.

No autocorrelación de los errores y homocedasticidad


H0: Los errores no están autocorrelacionados (los errores son independientes)
H1: Los errores están autocorrelacionados (los errores son dependientes)
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.73103

Como DW = 1.73103 pertenece al intervalo [1.5; 2.5], existe independencia de los errores y
homocedasticidad. Por lo tanto, se cumplen ambos supuestos.

Ausencia de colinealidad:

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV

Constante -1.92 1.64 -1.17 0.253

X1: Longitud del alambre 0.590 0.162 3.65 0.001 3.79

X2: Altura de la matriz 0.0590 0.0104 5.70 0.000 8.16


X4: Altura del amarre 3.24 1.28 2.53 0.018 7.19

Como el FIV es menor que 10 en todas las variables independientes, se puede concluir que no hay problemas
de multicolinealidad entre las variables X1, X2 y X4.

Detección de datos influyentes:

Estadísticas
Variable N N* Mínimo Máximo
COOK 30 0 0.00012 0.26287

67
Se puede observar que no existe observaciones influyentes, todas las distancias de cook son menores que 1.
Por lo tanto, se cumplen todos los supuestos del modelo.

Finalmente, el segundo modelo queda listo para utilizarlo en el pronóstico

Estimar el pronóstico solicitado:


Con 95% de confianza, ¿cuál será el valor de la resistencia al desprendimiento del alambre adherido en un
semiconductor cuando la longitud del alambre es 16, la altura de la matriz 550, la altura del poste igual a 3 y
la altura del amarre 4?

Paso 4: Estadística básicas/ Regresión/ Regresión/ Predecir

Ingresar los valores correspondientes de las variables independientes para realizar el pronóstico: X1 = 16,
X2 = 550, X4 = 4.
Botón: Opciones/ Nivel de confianza: 95

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
52.9494 0.969401 (50.9568; 54.9420) (46.6475; 59.2512)

IC (Y/X1=16, X2=550, X3=4) = [46.6475; 59.2512]

Con un 95% de confianza, el intervalo de 46.6475 a 59.2512 contiene la resistencia al desprendimiento del
alambre adherido en un semiconductor, cuando la longitud del alambre es 16 mm, la altura de la matriz 550
mm y la altura del amarre 4 mm.

68
3.4. Suavización exponencial simple

Caso: Restaurante “El Álamo”


El restaurante turístico El Álamo, ubicado en el distrito de Lurín, ofrece a sus clientes desayunos y almuerzos
tradicionales de la zona, y atiende a sus clientes todos los días de la semana. En este, su quinto año de
funcionamiento está considerando la posibilidad de no abrir el local un día a la semana. El Gerente de
Operaciones de dicho restaurante piensa que los lunes son los días ideales para no abrir y dar descanso a
todo su personal. Para ello ha recolectado información diaria del número de clientes que han asistido a su
restaurante en las últimas 3 semanas completas. Los datos se muestran a continuación:

Nro. de Nro. de Nro. de


Semana Dia Semana Dia Semana Dia
clientes clientes clientes
1 Lunes 24 2 Lunes 20 3 Lunes 24
1 Martes 28 2 Martes 28 3 Martes 28
1 Miércoles 38 2 Miércoles 24 3 Miércoles 34
1 Jueves 32 2 Jueves 24 3 Jueves 22
1 Viernes 16 2 Viernes 20 3 Viernes 20
1 Sábado 12 2 Sábado 32 3 Sábado 26
1 Domingo 28 2 Domingo 32 3 Domingo 29

Analice la serie y de ser necesario utilice un alfa igual a 0.3, 0.5 y 0.7 para obtener el mejor pronóstico. El
gerente tomará dicha decisión si el número de clientes que asistirían el lunes de la cuarta semana sería menor
a 20. Considere el PEMA como medida del error. Use el nivel de significación de 0.05.

Interpretación: ¿El gerente de operaciones decidirá no abrir el local los días lunes?

Representación:
Y: Número de clientes que asistieron al restaurante
X: Tiempo (días)

Datos en minitab

69
En minitab:
Para obtener la gráfica de la serie
Estadísticas/serie de tiempo/gráfica de serie de tiempo

70
En el gráfico de la serie no se observa tendencia ni estacionalidad, por lo tanto, no existe tendencia. La serie
es estacionaria por lo que se usará el modelo de suavización exponencial simple.
Cálculo y Análisis:

Calcular los pronósticos para las constantes de suavización de 0.3, 0.5 y 0.7

Estadísticas / Series de tiempo / Suavizado exp. Simple

Para una constante de suavización (α = 0.3)

Este mismo procedimiento se replica para alfa: 0.5 y 0.7. Las salidas son:

Tabla resumen
Constante de suavización Pronósticos PEMA (MAPE)
α = 0.3 26.3376 24.4814
α = 0.5 26.7932 25.5277
α = 0.7 27.6952 26.5493

71
Calcular el CEF y la señal de rastreo (SR) para cada constante de suavización.

α= 0.3 0.5 0.7

Para hallar el CEF


ESTADISTICAS /ESTADISTICAS BÁSICAS/

Estadísticos descriptivos: RESID1; RESID2; RESID3


Estadísticas
Variable Suma
RESID1 7.79
RESID2 5.59
RESID3 5.28

72
Dando como resultado lo siguiente:

Constante de suavización CEF DAM Señal de rastreo


α = 0.3 7.79 5.4185 7.79 / 5.4185 = 1.4377
α = 0.5 5.59 5.6824 5.59 / 5.6824 = 0.9838
α = 0.7 5.28 6.0876 5.28 / 6.0876 = 0.8673

Comentario: Analizando la señal de rastreo para α = 0.3, 0.5 y 0.7 se observa que éstos se encuentran dentro
de los límites admisibles; [-2;2] por lo que no se descarta ningún pronóstico.

Mejor modelo de pronóstico.

Constante de suavización Pronósticos PEMA (MAPE)


α = 0.3 26.3376 24.4814
α = 0.5 26.7932 25.5277
α = 0.7 27.6952 26.5493

▪ El mejor modelo de pronóstico del número de clientes que asisten a restaurante es la suavización
exponencial simple con un alfa de 0.3, dado que el PEMA en este caso es el menor entre los tres.
▪ El número de clientes que asistirían al restaurante el próximo lunes sería de 26.33 clientes.

Argumentación: El gerente decidirá seguir atendiendo los días lunes en vista que se espera más de 20 clientes
para ese día.

73
3.5. Método de descomposición

Caso: Gas natural


Gas natural húmedo: La producción de gas natural en Tacna ha ido incrementando en los últimos cuatro
años por la demanda del mercado local según el Ministerio de Energía y Minas (MEM), específicamente por
el sector eléctrico. Luis Arredondo, ingeniero de la planta de producción del lote 99, considera que la
producción correspondiente al II trimestre del 2020 será superior a 425 millones de pies cúbicos por día. De
confirmarse su pronóstico, se procedería a la exportación del producto.

El ingeniero Arredondo revisa la información histórica de la producción por trimestre de gas natural húmedo
(en millones de pies cúbicos por día), desde el primer trimestre del año 2016 al primer trimestre del 2020.
Los datos del histórico de la producción de gas húmedo (en millones de pies cúbicos por día) se presentan a
continuación:

Producción de gas húmedo (millones


Año Trimestre Tiempo
de pies cúbicos por día)
I 1 360
II 2 360
2016
III 3 365
IV 4 380
I 5 370
II 6 384
2017
III 7 400
IV 8 410
I 9 385
II 10 396
2018
III 11 402
IV 12 425
I 13 405
II 14 412
2019
III 15 418
IV 16 430
2020 I 17 422

Utilice para las pruebas necesarias, un nivel de significación del 1%.

Datos en Minitab:

74
Para obtener la gráfica de la serie

Estadísticas/serie de tiempo/gráfica de serie de tiempo

75
Interpretación: Determinar si el Ingeniero Arredondo, jefe de planta, procederá a la exportación de gas
natural.

Representación.
Variable dependiente: Producción de gas (en millones de pies cúbicos al día)
Variable independiente: Tiempo (trimestre)

Componentes que presenta la serie:


Tendencia: En gráfico de la serie de tiempo se observa tendencia positiva es decir se observa un
crecimiento a medida que el tiempo avanza.

Estacional: En el gráfico de la serie hay un patrón que se repite al inicio del I trimestre en cada año.

Serie no estacionaria y se usará el modelo multiplicativo.

Cálculo y Análisis:
Cálculo de los índices estacionales ajustados

Estadísticas/serie de tiempo/Descomposición

Tener en cuenta que:


• Si una serie mensual tiene un patrón que se repite cada año, la longitud estacional es 12 (MA=12).
• Si una serie trimestral tiene un patrón que se repite cada año, la longitud estacional es 4 (MA=4).
• Si una serie bimestral tiene un patrón que se repite cada año, la longitud estacional es 6 (MA=6)

Los índices estacionales ajustados son:

Índices estacionales Ajustados


Período Índice

1 0.97633
2 0.99168
3 0.99687
4 1.03512

76
Interpretaciones de los índices estacionales ajustados:
Índice estacional para el trimestre I: (1 - 0.97633) x 100 % = 2.37%
En el I trimestre, la producción de gas natural húmedo está por debajo en un 2.37% con respecto al promedio
de la producción del año.

Índice estacional para el trimestre IV: (1.0351 – 1) x 100 % = 3.51%


En el IV trimestre la producción de gas natural húmedo está por encima en un 3.51% con respecto al
promedio de la producción del año.

Obtener la serie desestacionalizada, Y sin estacionalidad = DAjE1

Estime el mejor modelo de tendencia a partir de Y sin estacionalidad (DAjE1) usando regresión simple.

Ruta: Calc / Calculadora:


Para generar: las variables que se usaran en los modelos cuadrático, potencia y exponencial
Para obtener Tcuad Para obtener LN_ DAjE1

Para obtener LN_T

77
Se obtienen los modelos: Lineal, cuadrático, potencia y exponencial:

Estadísticas / Regresión / Regresión / Ajustar modelo de regresión


Teniendo en cuenta las salidas del MINITAB, el ranking en función del coeficiente de determinación de los
modelos generados es el siguiente:

Modelo R2 Ranking
Lineal 93.42% 2°
Cuadrático 93.80% 1°
Exponencial 93.03% 3°
Potencia 83.61% 4°

Modelo Lineal Modelo cuadrático

Modelo Exponencial Modelo Potencia

78
El primer modelo a validar es el modelo cuadrático.

Validación del modelo cuadrático:


Prueba Global
H0: β1 = β2 = 0
H1: Al menos un βi ≠ 0

P valor = 0.00 < α = 0.01, Se Rechaza Ho


Al nivel de significación del 1 %, la evidencia muestral es suficiente para afirmar que al menos un coeficiente
de regresión es significativo.

Prueba individual
Ho: β2 = 0
H1: β2 ≠ 0

P valor = 0.372 > α = 0.01, No se Rechaza Ho


Al nivel de significación del 1 %, la evidencia muestral es suficiente para afirmar que el coeficiente del término
cuadrático no es significativo. Por lo tanto, el modelo cuadrático no es válido.

Según el ranking, el segundo modelo a validar es el modelo lineal.

Validación del modelo lineal:


Prueba individual
Ho: β1 = 0
H1: β1 ≠ 0

P valor = 0.00 < α = 0.01, se rechaza H0.


Al nivel de significación del 1%, la evidencia muestral es suficiente para afirmar que el coeficiente de regresión
es significativo. Por lo tanto, el modelo lineal es válido.

Estimando la ecuación de tendencia: Ŷ sin estacionalidad = 359.54 + 4.059t

Pronóstico para el II trimestre del 2020:

Reemplazando en la ecuación: Ŷ sin estacionalidad = 359.54 + 4.059(18) = 432.602

Año Trimestre Tiempo Ŷ sin estacionalidad IEA Pronóstico

2020 II 18 432.602 0.9917 429.011

▪ El mejor modelo de estimación para la tendencia es el modelo de regresión lineal simple.


▪ El pronóstico para el segundo trimestre del 2020 es 429 millones de pies cúbicos por día, mayor a 425
millones de pies cúbicos por día.

Argumentación y Comunicación: Sí se procederá a la exportación de gas natural, pues el pronóstico para el


segundo trimestre del 2020 es mayor a 425 millones de pies cúbicos por día.

79

También podría gustarte