Está en la página 1de 83

UNIVERSIDAD DE CIENCIAS APLICADAS

DEPARTAMENTO DE CIENCIAS

CUADERNO DE TRABAJO

CURSO : ESTADÍSTICA APLICADA II

CÓDIGO : MA145

ÁREA : CIENCIAS
Contenido
Unidad 1: Inferencia estadística....................................................................................................................1
Tema: Intervalos de confianza..................................................................................................................1
Conceptos básicos (después de revisar la infografía).................................................................................3
Caso de aplicación......................................................................................................................................4
Lectura complementaria............................................................................................................................6
Tema: Prueba de hipótesis para una media y una proporción poblacional...............................................7
De la teoría a la práctica (después de revisar la infografía)........................................................................8
Casos de aplicación..................................................................................................................................10
Lectura complementaria..........................................................................................................................13
Tema: Prueba de hipótesis para el cociente de varianzas y diferencia de medias con muestras
independientes.......................................................................................................................................15
De la teoría a la práctica (después de revisar la infografía)......................................................................16
Casos de aplicación..................................................................................................................................17
Lectura complementaria..........................................................................................................................22
Tema: Prueba de hipótesis para diferencia de medias con muestras relacionadas y diferencia de
proporciones..........................................................................................................................................23
De la teoría a la práctica (después de revisar la infografía)......................................................................24
Casos de aplicación..................................................................................................................................25
Unidad 2: Diseño y Análisis de experimentos.............................................................................................28
Tema: ANOVA de un factor.....................................................................................................................28
Conceptos básicos (después de revisar la infografía)...............................................................................28
Casos de aplicación..................................................................................................................................31
Tema: ANOVA de dos factores................................................................................................................35
De la teoría a la práctica (después de revisar la infografía)......................................................................36
Casos de aplicación..................................................................................................................................38
Unidad 3: Modelos de pronósticos.............................................................................................................41
Tema: Análisis de regresión lineal simple...............................................................................................41
Conceptos básicos (después de revisar la infografía)...............................................................................41
Casos de aplicación..................................................................................................................................44
Tema: Análisis de regresión no lineal simple...........................................................................................49
Conceptos básicos (después de revisar la infografía)...............................................................................50
Casos de aplicación..................................................................................................................................52
Tema: Análisis de regresión lineal múltiple.............................................................................................56
Conceptos básicos (después de revisar la infografía)...............................................................................57
Casos de aplicación..................................................................................................................................59
Tema: Series de tiempo y suavización exponencial simple......................................................................64
Conceptos básicos (después de revisar la infografía)...............................................................................64
Casos de aplicación..................................................................................................................................67
Tema: Método de descomposición.........................................................................................................70
Conceptos básicos (después de revisar la infografía)...............................................................................70
Casos de aplicación..................................................................................................................................72
Unidad 1: Inferencia estadística
Tema: Intervalos de confianza
Bibliografía:
 Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 7. Sección
7.1, 7.2 y 7.4
 Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 8. Sección 8.3 y 8.5

Conocimientos previos
Actividad estudiante con profesor

 Cuestionario sobre Saberes previos


Responda el cuestionario para autoevaluar sus conocimientos sobre estadística

https://forms.office.com/r/wuD7SHLBeF

 Relaciona con una línea los conceptos de la fila superior con las notaciones de la parte inferior:

Media Media Varianza Varianza Nivel de Proporción Proporción


muestral poblacional muestral poblacional confianza poblacional muestral

α µ x ^p 1-α σ2 S P S2

 Responde el siguiente problema:


Se sabe por estudios anteriores que el diámetro de cierto tubo de acero (X) es una variable aleatoria, que
se distribuye normalmente con media 3 y variación de 0,25 pulgadas. Si se selecciona un tubo al azar, la
probabilidad de que su diámetro supere las 3,1 pulgadas es:

¿Cuál es la variable?

¿Qué distribución tiene?

¿Cuáles son sus parámetros?

¿Cómo representa simbólicamente la probabilidad solicita?

¿Cuál es la respuesta a la pregunta formulada?

1
 Utilizando las tablas estadísticas normal estándar Z, t-Student y F-Snedecor o MS Excel, halle los valores
siguientes:

Z0,95 =

Z0,025 =

Z0,99 =

Z0,01 =

T (0,025;15) =

T (0,975;15) =

T (0,05;12) =

F (0,025;3;5) =

F (0,975;3;5) =

F (0,01;5;4) =

Use las tablas estadísticas:


 Tabla Normal (Cola izquierda=área acumulada)
 Tabla T-Student (Cola derecha)
 Tabla F-Snedecor (Cola derecha)

2
Conceptos básicos (después de revisar la infografía)

Fórmulas para hallar el intervalo de confianza para una media y para una proporción, a partir de la
distribución de la media y la proporción muestral.

La variable aleatoria t sigue una distribución T con n-1 grados de libertad (Formulario pg. 5):

x−μ
t= T ( n−1 )
S
√n
Donde:
x : promedio muestral
μ :es el promedio poblacional
S: desviación estándar muestral
n: tamaño de la muestra

Esto significa que para una variable aleatoria x , con un tamaño de muestra n, se cumple:

( )
x−μ
P −t α / 2 ≤ ≤−t α / 2 =1−α
S
1-α
√n
α/2 α/2
-T 0
T

Finalmente, despejando el parámetro (µ) se obtiene la fórmula del Intervalo de confianza (IC) para la
media poblacional, cuando la varianza poblacional se desconoce:

(
P x - t α / 2; n-1 .
S
√n
≤ μ ≤ x + t α /2 ; n-1 .
S
√n ) =1- α
Intervalo de confianza de µ, cuando σ es desconocida

De manera similar para la proporción, el intervalo de confianza se deduce a partir de la distribución de la


variable aleatoria Z que sigue una distribución normal.
^p −P
Z= N ( 0.1)

√ p^ ( 1 - p^ )
n
La fórmula del IC de la proporción se deduce a partir del requisito que la distribución de proporciones
muestrales que es aproximadamente normal, donde x sigue una distribución binomial (n,p)

Finalmente, la fórmula del IC para la proporción es:

(
P p^ - z1- α /2 .
√ p^ ( 1 - p^ )
n
≤ P ≤ p^ + z1-α / 2 .

^p (1 - p^ )
n )
=1–α

Intervalo de confianza de P

3
Caso de aplicación
Caso: Desafíos laborales y personales
Los últimos estudios destacan que los empresarios consideran que el éxito de asumir un rol
ejecutivo no solo depende de su desempeño sino principalmente con la forma de enfrentar la
labor diaria, efectivizando la administración del tiempo.

En el CADE 2021, se encuestó a una muestra al azar de 500 ejecutivos participantes del
CADE y se indagó sobre la principal competencia que tiene un ejecutivo actualmente, obteniéndose los
siguientes resultados:
Canti dad de ejecuti vos

Distribución de los ejecutivos según competencia principal

225
60
100 95
20
Capacidad de re- Empatía y calidez Eficiencia en la Pasión y dedicación Otro
alizar tareas en administración
paralelo del tiempo

Principal competencia

La CEO de la empresa Potencial Global supone que “menos del 25% de los participantes del CADE consideran
que la eficiencia en la administración del tiempo es la principal competencia que tienen los ejecutivos de
hoy”. De confirmarse este supuesto, lanzará un diplomado sobre gestión del tiempo. Sobre la base de los
datos recolectados en la muestra, ¿es correcto lo que afirma la CEO? Para el cálculo de la estimación
considere un nivel de confianza del 95%.

¿Qué piensa la CEO? ¿Qué distribución tiene la


¿Cuál es la variable
¿Tomará alguna aleatoria?
variabe? ¿cuáles son sus ¿Qué datos disponemos?
decisión? parámetros?

¿Qué heramienta ¿Cuál es el resultado ¿Cómo interpretamos este ¿Cómo ayuda esta
estadística utilizaremos? obtenido? valor? respuesta a la CEO?

4
Caso: Resistencia al rompimiento
Los procesos de fabricación de tubos se clasifican en: con costura longitudinal,
con costura helicoidal, sin costura acabado en frío y sin costura acabado en
caliente. Los tubos sin costura cuando son estirados en frío poseen un
diámetro interior y exterior más uniformes entre sí y con tolerancias precisas,
y una mayor facilidad para el mecanizado, comparado con los tubos sin
costura que son acabados en caliente.

La empresa Forte S.A.C está evaluando la posibilidad de introducir el proceso de fabricación sin costura
estirado en frío y con esto esperaría mejorar la calidad del producto. En esta primera etapa de evaluación, se
debe validar si con este nuevo proceso de fabricación se logra producir tubos de tres pulgadas de diámetro,
conforme exige la norma técnica. Para esto, se toma una muestra simple aleatoria de 16 tubos fabricados
con este nuevo proceso y se les mide su diámetro (en pulgadas). Los resultados obtenidos son los siguientes:
2,97 3,12 3,05 3,14 3,03 2,99 3,12 3,07
3,01 3,05 3,09 3,12 3,01 2,99 3,14 3,12
Se conoce que el diámetro de los tubos de acero es una variable aleatoria que responde a una distribución
normal. Verifique con 98% de confianza si la norma técnica, en cuanto al diámetro medio, se cumple.
Sobre la rúbrica de la competencia Razonamiento cuantitativo
Definición: Resuelve situaciones problemáticas en contexto real utilizando datos numéricos a través de la
interpretación, representación, calculo, análisis y argumentación.
Dimensiones Estimación
Interpretación: Relaciona datos e
Da significado a información numérica
información pertinente en
numérica en diversos formatos,
diversos formatos para definir una
en situaciones de situación
contexto real. problemática en
un contexto real.
Representación: Describe la variable,
Describe mediante su distribución, el
expresiones (los) parámetro(s) y
matemáticas y/o estadísticos utilizando
estadísticas, correctamente las
situaciones de notaciones y
contexto real. representaciones
simbólicas
Cálculo: Utiliza Calcula la estimación Resúmenes
algoritmos y puntual, el margen de
procedimientos error, el límite inferior n =16 Promedio = 3.064 Desviación estándar = 0.059
estándar de la y superior del
matemática y/o intervalo de confianza
estadística en que permita resolver
situaciones de la situación
contexto real. problemática en un
contexto real

Análisis y Sustenta el resultado


argumentación: del intervalo
Sustenta los utilizando un lenguaje
resultados y su formal estadístico y
aplicación brinda alguna
práctica, alternativa de
planteando una respuesta a la
solución situación
problemática

5
Lectura complementaria

1. Requisitos para usar el IC de una proporción


 La muestra es aleatoria simple.
 Las condiciones para la distribución binomial se satisfacen. Esto es, hay un número fijo de ensayos,
los ensayos son independientes, hay dos categorías de resultados y las probabilidades permanecen
constantes para cada ensayo.
 Existen al menos 5 éxitos y al menos 5 fracasos. (Cuando p y q se desconocen, estimamos sus
valores utilizando la proporción muestral, de manera que este requisito es una forma de verificar
que np ≥ 5 y nq ≥ 5 se cumplan para que la distribución normal sea una aproximación adecuada
para la distribución binomial. Triola, página 320

2. Requisitos para usar el IC de una media

IC para una media con varianza desconocida


 La muestra es aleatoria simple.
 La muestra proviene de una población distribuida normalmente o n > 30
IC para una media con varianza conocida
 La muestra es aleatoria simple.
 El valor de la desviación estándar poblacional σ es conocido.
Cualquiera o ambas de estas condiciones se satisfacen: la población está normalmente distribuida o n
>30.

6
Tema: Prueba de hipótesis para una media y una proporción poblacional

Bibliografía:
 Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 8. Sección 8.1,
8.2, 8.3 y 8.5

Verificando tus conocimientos previos


Actividad online (cuestionario a partir de un video o lectura)
Autoevaluación del video de Prueba de hipótesis de una media:
https://www.youtube.com/watch?v=BN4o3R5XPDM
A partir de lo revisado en el video responde la siguiente evaluación directamente en el cuaderno o también
lo puede hacer en el enlace que le indicará su profesor.

1. Una hipótesis estadística es:

2. El nivel de significación es:

3. La distribución del estadístico de prueba de una media es:

4. Si se desea probar que el tiempo promedio de navegación es diferente de 6 horas:

 El tipo de prueba que se usaría es: a. Unilateral izquierda b. Unilateral derecha c. Bilateral

 La hipótesis alternativa tendría la forma: a. H 1: µ > 6 b. H0: µ > 6 c. H0: µ = 6 d. H1: µ ≠ 6

 La región crítica sería una gráfica del tipo: a. Cola derecha b. Cola izquierda c. Dos colas

7
De la teoría a la práctica (después de revisar la infografía)

a. Complete los espacios en blanco:

Notación del Nivel de significación:

Fórmula del estadístico de prueba de una media:

Notación/símbolo de la hipótesis alternativa:

Notación/símbolo de la hipótesis nula:

Seleccione la(s) alternativa(s) correcta(s) o complete los espacios en blanco

b. En una prueba de hipótesis bilateral de una media, la hipótesis alternativa es:

a. H1: x> 5 b. H1: x < 5 c. H0: x > 5 d. H0: x = 5 e. H1: x ≠ 5


f. H1: µ > 5 g. H1: µ < 5 h. H0: µ > 5 i. H0: µ = 5 j. H1: µ ≠ 5

c. En una prueba de hipótesis de una media, unilateral izquierda, la región crítica está determinada por:
a. Una gráfica con la región sombreada a la derecha (cola a la derecha)
b. Una gráfica con la región sombreada a la izquierda (cola a la izquierda)
c. Una gráfica con dos regiones sombreadas a la izquierda y a la derecha (dos colas)

d. En una prueba de hipótesis unilateral derecha para una media, cuando el tamaño de la muestra es 20 y
el T cal resulta 2,25, con un nivel de significancia del 1%, complete:

El punto crítico es: _______________________________________

El valor crítico es: ________________________________________

La decisión es:

a. Rechazo H0 b. No rechazo H0 c. Acepto H1 d. No acepto H1

8
e. Complete el siguiente resumen para la prueba de hipótesis de una media:

PRUEBA DE HIPÓTESIS
Caso A: Caso B: Caso C:
Unilateral Izquierda Bilateral Unilateral Derecha
Planteamiento:

H0: __ µ0 H0: __ µ0 H0: __ µ0

H1: __ µ0 H1: __ µ0 H1: __ µ0

Nivel de significación:
Supuestos:

Estadístico de prueba:

Regiones de rechazo y no rechazo de Ho:

     

Decisión:

Se rechaza H0 cuando _______________________________________________________

No se rechaza H0 cuando_____________________________________________________

Conclusión:

Si se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ______________________________

__________________________________________________________________________________”

Si no se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ___________________________

_________________________________________________________________________________”

9
Casos de aplicación
Caso: Samsung en la línea de fabricación de relojes inteligentes

Un reloj inteligente es un reloj de pulsera dotado con varias funcionalidades como, el


de acceder a internet, realizar y recibir llamadas telefónicas, enviar y recibir correos
electrónicos y SMS, recibir notificaciones del teléfono inteligente e incluso consultar las
redes sociales.

La empresa trasnacional Tecnology ha anunciado la llegada de su último reloj inteligente al mercado


peruano (el Tecnology Galaxy Watch). José Martínez, gerente de calidad de la empresa, quiere garantizar
que el lote de relojes inteligentes que enviará a nuestro país cumple con la especificación de calidad, es
decir “máximo el 2% de la producción podría ser defectuosa”. De no cumplirse este estándar, implementará
mejoras en el proceso de fabricación de los relojes. Para ello selecciona una muestra 180 unidades de un
lote de producción y obtiene 5 productos defectuosos. A la luz de los resultados obtenidos, ¿se deberá
realizar mejoras en el proceso de fabricación? Use nivel de significación estándar.

En cada pregunta marque con un aspa o una cruz la opción correcta:

Pregunta 1: ¿Cuál es la problemática que deberá resolver?

a. La producción del lote de relojes inteligentes Tecnology Galaxy es defectuosa


b. ¿Debe realizarse mejoras en el proceso de fabricación?
c. La proporción de defectuosos en el lote de relojes inteligentes Tecnology Galaxy es mayor a 2%
d. La proporción de defectuosos en el lote de relojes inteligentes Tecnology Galaxy es máximo 2%

Pregunta 2: ¿Cuál es la variable y el parámetro del problema?

a. La variable es la Proporción de productos defectuosos y el parámetro por estimar es la proporción


b. La variable es la Proporción de productos defectuosos y el parámetro por estimar es el promedio
c. La variable es el Número de productos defectuosos y el parámetro por estimar es la proporción
d. La variable es el Número de productos defectuosos y el parámetro por estimar es el promedio

Pregunta 3: ¿Cuál es la hipótesis alternativa?

a. H0: P > 0.02 g. H0: x ≤ 0.02 m. H1: µ ≤ 0.02

b. H0: P ≤ 0.02 h. H0: ^p > 0.02 n. H1: x > 0.02

c. H0: µ > 0.02 i. H0: ^p≤ 0.02 o. H1: x ≤ 0.02

d. H0: µ ≤ 0.02 j. H1: P > 0.02 p. H1: ^p > 0.02

e. H0: x > 0.02 k. H1: P ≤ 0.02 q. Ninguna de las anteriores

f. H1: ^p≤ 0.02 l. H1: µ > 0.02

10
Pregunta 4. Calcule el estadístico de prueba, tenga en cuenta las siguientes indicaciones:

x- μ
Tcal =
 Si el parámetro es µ, el estadístico de prueba es Tcalculado: S
√n
p^ - P
Zcal =
 Si el parámetro es P, el estadístico de prueba es Z calculado:

Escriba el valor del estadístico de prueba apropiado al problema: ______________


√ P ×( 1 - P)
n

Borrador:

Pregunta 5. El tipo de prueba es:

a. Bilateral b. Unilateral derecha c. Unilateral izquierda

Pregunta 6. Sombree la(s) región(es) crítica(s) según corresponda.

Pregunta 7. ¿Cuáles son los puntos críticos? Estime sus valores en las tablas correspondientes.

a. - T (0,025; 179) y T (0,025; 179)


b. - T (0,05; 179) y T (0,05; 179)

c. - T (0,025; 179)
d. T (0,025; 179)
e. - T (0,05; 179)

11
f. T (0,05; 179)

g. - Z (0,025) y Z (0,025)
h. - Z (0,05) y Z (0,05)

i. Z (0,025)
j. Z (0,975)

k. Z (0,05)
l. Z (0,95)

Pregunta 8. Ubique los puntos críticos en la región crítica sombreada de la pregunta 6.

Pregunta 9. ¿Cuál es la decisión y conclusión estadística?

a. Rechazo H0, con un 5% de nivel de significación se puede afirmar la hipótesis alternativa


b. Rechazo H1, con un 5% de nivel de significación no se puede afirmar la hipótesis nula
c. No Rechazo H0, con un 5% de nivel de significación no se puede afirmar la hipótesis alternativa
d. No Rechazo H1, con un 5% de nivel de significación se puede afirmar la hipótesis alternativa
e. Acepto H0, con un 5% de nivel de significación se puede afirmar la hipótesis nula
f. Acepto H1, con un 5% de nivel de significación se puede afirmar la hipótesis alternativa

¿Por qué?

Pregunta 10. ¿Cuál es la respuesta a la pregunta de investigación?

12
Lectura complementaria

1. La diferencia entre una hipótesis nula e hipótesis alternativa es:


Hipótesis nula: H0 (Status quo – lo que debe ser) es la afirmación de que el valor de un parámetro
poblacional (como una proporción, media o varianza) es igual a un valor establecido. (El término nula se
usa para indicar ningún cambio, ningún efecto o ninguna diferencia). La hipótesis nula se prueba en
forma directa, en el sentido de que suponemos (o fingimos) que es verdadera, y llegamos a una
conclusión para rechazarla o no.
Hipótesis alternativa: H1 o Ha (hipótesis del investigador) es la afirmación de que el parámetro tiene un
valor que, de alguna manera, difiere de la hipótesis nula.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 395

2. La región crítica (o región de rechazo) es:


Es el conjunto de todos los valores del estadístico de prueba que pueden provocar que rechacemos la
hipótesis nula.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 399

3. Criterio de decisión es:


Son las reglas utilizadas para rechazar o no una hipótesis nula. Estas reglas pueden basarse en valores
críticos (percentiles) o en áreas (valor p).

Método tradicional:
 Si el valor del estadístico de prueba cae dentro de la región crítica, se rechaza Ho.
 Si el valor del estadístico de prueba no cae dentro de la región crítica, no se rechaza Ho.

Método del valor p


 Si valor p ≤   Se rechaza H0
 Si valor p >   No se rechaza H0
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 402

4. Las colas en una distribución (cola izquierda/cola derecha/dos colas) son:


Las colas representan el tipo de prueba que se realiza: Hipótesis unilateral izquierda (cola izquierda),
hipótesis unilateral derecha 8cola derecha) e hipótesis bilateral (dos colas)
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 400

Son las regiones extremas limitadas por los valores críticos. La determinación de los valores P y de los
valores críticos se ve afectada si una región crítica se encuentra en dos colas, en la cola derecha o en la
cola izquierda. Por lo tanto, es importante determinar de manera correcta si una prueba de hipótesis es
de dos colas, de cola izquierda o de cola derecha.

Prueba de dos colas (bilateral): La región crítica se encuentra en las dos


regiones (colas) extremas bajo la curva

Prueba de cola izquierda (unilateral izquierda): La región crítica se


encuentra en la región (cola) extrema izquierda bajo la curva.

Prueba de cola derecha (unilateral derecha): La región crítica se encuentra


en la región (cola) extrema derecha bajo la curva.

13
5. El valor P (o p valor o valor de probabilidad) es:
La probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo como el
que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera. Los valores P se
pueden calcular después de encontrar el área que está más allá del estadístico de prueba. La siguiente
es una herramienta para la memoria que sirve para interpretar el valor P: Si P es un valor bajo, la
hipótesis nula se rechaza. Si P es un valor alto, la hipótesis nula se queda.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 400

6. Si el valor de n = 16 y nivel de significación es 0.025, ¿Cuál es el valor crítico de una prueba de


hipótesis de una media con cola a la izquierda?
Punto crítico = T (0.025,15)
Valor crítico = 2.1314 (Tabla de distribución T-Student)

 = 0.025

T (0.025,15) = -2.1314  valor crítico

7. Redacción de la conclusión

14
Triola (2018, p.366)

Tema: Prueba de hipótesis para el cociente de varianzas y diferencia de medias con


muestras independientes
Bibliografía:
 Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 9, pág. 473-
486, 497-506
 Mendenhall W.,Beaver R. y,Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México, D.F. Capítulo 10. Pág.401-408, 342-346, 376-387.

Verificando tus conocimientos previos


Actividad online (cuestionario a partir de un video o lectura)
Revise la lectura sobre la “comparación de la variación en dos muestras” que
aparece en el libro Estadística del autor Triola (2013, pp. 497-499). Luego conteste el
cuestionario siguiente:

A partir de lo revisado en la lectura anterior, responde la siguiente evaluación.

1. ¿En honor a quién recibió el nombre de Prueba F?

2. ¿Cuál es el objetivo de esta prueba de hipótesis?

3. ¿Cuál sería la hipótesis nula y la alternante?

4. ¿Cuál es el estadístico de prueba de esta hipótesis y qué distribución tiene?

15
5. ¿Cuáles son los requisitos que se debe cumplir para realizar esta prueba?

16
De la teoría a la práctica (después de revisar la infografía)

Problema 1: Suponga que se tiene las siguientes hipótesis sobre las varianzas de dos poblaciones:
2 2
H0: σ 1 = σ 2
2 2
H1: σ 1 ≠ σ2

Se recoge información de cada población a partir de muestras aleatorias de tamaños n 1 = 21 y n2 = 25,

respectivamente. Con los datos recopilados se obtiene un valor crítico para el estadístico igual a Fcal = 0,25.
Al nivel de significación de α = 0,05; complete los espacios en blanco
a. El tipo de prueba es: _____________________________________________________________________

b. El (los) valor(es) crítico(s) es (son): __________________________________________________________

c. La decisión estadística es: _________________________________________________________________

Problema 2: Un equipo de consejeros de tutoría en estadística de la UPC sostiene que, los estudiantes que
llevan por primera vez el curso de Estadística obtienen mejores calificaciones en promedio que los
estudiantes que llevan por segunda vez el curso. Identifique cuál es la hipótesis alterna correcta:
a. H1: µ1 - µ2 < 0 b. H1: µ1 - µ2 ≠ 0 a. H1: µ1 - µ2 > 0

Problema 3: Se seleccionan dos muestras aleatorias de tamaños n 1 = 60 y n2 = 42, respectivamente, y con


esta información se calcula el valor de la estadística de prueba el cual resulta T cal = 1,78. Considerando que
se está evaluando una prueba unilateral derecha, bajo el supuesto que las varianzas son homogéneas y a un
nivel de significación de 5%, complete los espacios en blanco con la información solicitada:
a. El punto y el valor críticos son, respectivamente: ____________________________________________
b. La decisión estadística será: _____________________________________________________________

Criterio basado en el valor p (aplicada


para cualquier tipo de hipótesis):

Si valor p ≤ α  Se rechaza H0
Si valor p > α  No se rechaza H0

Valores críticos para una prueba de hipótesis bilateral para el cociente de varianzas
Cálculo del valor crítico cola izquierda
Cálculo del valor crítico cola derecha
1
F1 =
Ftab [ α
2
;( n2 - 1); ( n1 - 1 ) ] F 2 = Ftab
[ α
2
; (n1- 1) ; (n2 - 1)
]
17
Casos de aplicación
Caso: Bicicletas BICORP S.A

La fábrica de bicicletas BICORP S.A. produce aros de aleación en dos plantas A y B. El ingeniero sospecha que
“hay diferencias en los tiempos de producción entre las plantas”, presunción que se explicaría porque en el
último trimestre se han implementado máquinas modernas para la producción de los aros en la planta A. De
ser cierta la sospecha, el ingeniero recomendará la compra de máquinas similares para la planta B. Para tal
fin, se registró el tiempo de producción (en minutos) de 10 aros de aleación seleccionados aleatoriamente
de cada una de las plantas. Los datos registrados son los siguientes:

Planta A (1) 85,0 35,0 95,0 82,5 68,0 63,5 59,5 63,0 67,0 64,0
Planta B (2) 100,0 94,0 112,0 47,0 39,0 58,0 89,0 78,5 64,0 77,0

A un nivel de significancia del 1%, ¿el ingeniero recomendará la compra de estas máquinas modernas para la
planta B? Considere que las muestras son independientes y que provienen de poblaciones normalmente
distribuidas.

A continuación, se muestran las salidas de las pruebas de hipótesis, obtenidas con los programas MS Excel y
Minitab, las cuales ayudarán a verificar la sospecha del ingeniero.

Salidas de Excel:
Prueba t para dos muestras suponiendo varianzas iguales
  Planta A (1) Planta B (2)
Media 68.250 75.850
Varianza 272.347 561.114
Observaciones 10 10
Varianza agrupada 416.7306
Diferencia hipotética de las medias 0
Grados de libertad 18
Estadístico t -0.8325
P(T<=t) una cola 0.2080
Valor crítico de t (una cola) 2.5524
P(T<=t) das colas 0.4161
Valor crítico de t (dos colas) 2.8784  

Prueba t para dos muestras suponiendo varianzas desiguales


  Planta A (1) Planta B (2)
Media 68.250 75.850
Varianza 272.347 561.114
Observaciones 10 10
Diferencia hipotética de las medias 0
Grados de libertad 16
Estadístico t -0.8325
P(T<=t) una cola 0.2087
Valor crítico de t (una cola) 2.5835
P(T<=t) das colas 0.4174
Valor crítico de t (dos colas) 2.9208  

18
Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1

Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1

Nivel de significancia α = 0.01

Método Estadística de prueba GL1 GL2 Valor p


F 0.485 9 9 0.297

Prueba T e IC de dos muestras: Planta A, Planta B


Método
Método del valor p
μ₁: media de población de Planta A Si valor p ≤ α  Se rechaza H0
µ₂: media de población de Planta B Si valor p > α  No se rechaza H0
Diferencia: μ₁ - µ₂
Se presupuso igualdad de varianzas para este análisis.

Estadísticas descriptivas
Muestra N Media Desv.Est. Error estándar de la media
lanta A 10 68.3 16.5 5.2
Planta B 10 75.8 23.7 7.5

Estimación de la diferencia
Diferencia Desv.Est. agrupada IC de 99% para la diferencia
-7.60 20.41 (-33.88, 18.68)

Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0

Valor T GL Valor p
-0.832 18 0.416

19
20
21
Caso: Empresa MAUSA SAC

MAUSA SAC es una empresa que cuenta con más de 20 años de experiencia en todo lo relacionado a la
construcción de centros comerciales. Uno de sus objetivos es evaluar el medio ambiente para viabilizar los
proyectos de construcción. El ingeniero responsable del área de medio ambiente afirma que, el nivel
promedio de asbesto (desechos de construcción y otros) en el distrito de Santiago de Surco es inferior que
en el distrito de San Borja. Si esto se verifica, llevará a cabo la construcción de un Centro Comercial en el
distrito donde exista menor nivel promedio de asbesto. Le encargan a Ud. registrar aleatoriamente el nivel
de Asbesto de algunos proyectos en los distritos mencionados. Los resultados registrados fueron los
siguientes:

Santiago de Surco (1) 12 8 10 12 11 9 10 10 12 12 9 10


San Borja (2) 13 17 10 7 10 14 11 13 15 10 10 10 11 15

Según los resultados encontrados, ¿Qué recomendaría al responsable del área de medio ambiente? Use un
nivel de significación de 5%. Asuma que los datos del nivel de Asbesto fueron obtenidos a partir de muestras
independientes en cada distrito y que provienen de poblaciones normalmente distribuidas.

Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1

Hipótesis alterna H₁: σ₁² / σ₂² ≠ 1

Nivel de α = 0.05
significancia
Método Estadística de prueba GL1 GL2 Valor p
F 0.26 11 13 0.031

Prueba T e IC de dos muestras: Santiago de Surco (1), San Borja (2)


Método
μ₁: media de población de Santiago de Surco (1)
µ₂: media de población de San Borja (2)
Diferencia: μ₁ - µ₂

No se presupuso igualdad de varianzas para este análisis.

Estadísticas descriptivas
Muestra N Media Desv.Est. Error estándar de la media
antiago de Surco (1) 12 10.42 1.38 0.40
San Borja (2) 14 11.86 2.71 0.73

Estimación de la diferencia
Diferencia IC de 95% para la diferencia
-1.440 (-3.172, 0.291)

Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0

22
Valor T GL Valor p
-1.74 19 0.098

23
Lectura complementaria

1. Se dice que dos muestras son independientes si:


Dos muestras son independientes si los valores muestrales seleccionados de una población no están
relacionados, pareados o asociados de alguna manera con los valores muestrales seleccionados de la
otra población
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 473

2. Una empresa industrial debe decidir entre dos posibles proveedores (Proveedor A y Proveedor B) de
barriles de combustible requeridos para la producción. ¿Las muestras que se eligen de la producción
de cada proveedor son independientes? ¿Porqué?
Si, constituyen dos muestras independientes. Porque, los valores muestrales para la producción del
proveedor A no están relacionados/pareados con los valores muestrales para la producción del
Proveedor B.

3. En una prueba de hipótesis para comparar dos medias de muestras independientes, ¿cuáles son los
supuestos?
 21 y 22 se desconocen (suponiendo que las 21 y 22 son iguales o no)
 Las dos muestras son independientes.
 Ambas muestras son aleatorias simples.
 Cualquiera o ambas de estas condiciones se satisfacen: los dos tamaños de muestra son grandes
(con n1 > 30 y n2 > 30 o ambas muestras provienen de poblaciones que tienen distribuciones
normales. (Estos métodos son robustos frente a desviaciones respecto de la normalidad, de manera
que, para muestras pequeñas, el requisito de normalidad es menos estricto, en el sentido de que los
procedimientos se comportan bien siempre y cuando no existan valores atípicos ni desviaciones
demasiado pronunciadas respecto de la normalidad).
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 474, 480

24
Tema: Prueba de hipótesis para diferencia de medias con muestras relacionadas y
diferencia de proporciones

Bibliografía:
 Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulos 9, pág. 462-
472,487-493.
 Mendenhall W., Beaver R. y,Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México, D.F. Capítulo 8. Pág. 307-310, 388-391

Verificando tus conocimientos previos


Actividad online (cuestionario a partir de un video o lectura)
Autoevaluación de la Prueba de hipótesis para diferencia de medias en muestras
relacionadas y diferencia de proporciones estudiada en el libro.

A partir de lo revisado en
el libro de Triola (2013,
p. 487-493) responde las
preguntas que aparece
en este enlace

25
De la teoría a la práctica (después de revisar la infografía)

Caso 1: Una empresa certificadora de la calidad del agua extrae 30 muestras del recorrido del rio Jeque para
analizar el oxígeno disuelto (OD). Se usaron 2 métodos para hacer estos análisis: el método de Winkler (MW)
y el método de electrodos (ME). Se desea probar si existen diferencias entre los métodos.

1. ¿Utilizará una prueba de muestras independientes o muestras pareadas? En el Caso 1

2. Plantear las hipótesis respectivas del Caso 1.

Revisa la bibliografía de la unidad, y a partir de ello, completa lo siguiente (Marque con una (X) Verdadero o
Falso):
 Para validar la prueba de hipótesis para la diferencia de proporciones se utiliza la distribución normal.
‫۝‬Verdadero ‫۝‬Falso
 Para validar la prueba de hipótesis para la diferencia de medias para muestras dependientes se utiliza la
distribución t de Student. ‫۝‬Verdadero ‫۝‬Falso

Caso 2: Suponga que tenemos dos muestras aleatorias independientes de tamaños 60 y 70,
respectivamente. A partir de estas, muestras se obtienen las proporciones muestrales para cierta
21 25
característica de interés, cuyos valores son: ^p1 = y ^p2 = ; α = 0,05. A continuación, se formulan las
60 70
siguientes hipótesis y, con los datos recolectados en las muestras aleatorias, se obtiene el estadístico de
prueba cuyo valor resultado es Zcal= -1,91

H0: P1 = P2
H1: P1 ≠ P2

En cada caso contestar lo siguiente:

a. El tipo de prueba de hipótesis es: ___________________________________________

b. Valor crítico es: _______________

c. La decisión es: _______________

Caso 3: Un equipo de ingenieros sostiene que la proporción de víctimas resultante de choques


automovilísticos son menores en el caso de los automóviles equipados con bolsas de aire (1) que aquellos
automóviles que no tienen bolsa de aire (2). Identificar la hipótesis alterna correcta:

a. H1: P1 – P2 < 0 b. H1: P1 – P2 = 0 c. H1: P1 – P2 > 0


26
Casos de aplicación
Caso: Campaña de publicidad

Con el objetivo de incrementar las ventas de una conocida marca de Filtros de aire para autos, se decide
realizar una gran campaña publicitaria. Luego se recopiló una muestra aleatoria sobre las ventas en miles de
soles registradas en 10 tiendas donde se comercializa dicho Filtro, antes y después de la campaña. Los datos
se muestran a continuación:

10, 14, 11,


Antes de la Campaña 12,2 9,8 10,8 14,0 12,2 12,6 17,8
6 6 9
14, 10, 12, 15,
Después de la Campaña 11,6 11,4 10,8 11,9 14,3 16,1
7 5 3 4

Asumiendo que el monto de ventas tiene una distribución normal, realice el análisis para responder a la
pregunta: ¿Fue efectiva la campaña? Use un nivel de significación del 5%.

Prueba t para medias de dos muestras emparejadas


  Antes de la Campaña Después de la Campaña
Media 12.65 12.9
Varianza 5.4294 4.1289
Observaciones 10 10
Coeficiente de correlación de Pearson 0.4104
Diferencia hipotética de las medias 0
Grados de libertad 9
Estadístico t -0.3320
P(T<=t) una cola 0.3738
Valor crítico de t (una cola) 1.8331
P(T<=t) das colas 0.7475
Valor crítico de t (dos colas) 2.2622  

Prueba
Hipótesis nula H₀: diferencia_μ = 0
Hipótesis alterna H₁: diferencia_μ ≠ 0

Valor T Valor p
-0.332 0.748

27
Dimensiones Prueba de hipótesis

Interpretación: Relaciona datos e


Da significado a información numérica
información pertinente en
numérica en diversos formatos,
diversos formatos para definir una
en situaciones de situación
contexto real. problemática en un
contexto real.

Representación: Describe la variable,


Describe mediante su distribución, el
expresiones (los) parámetro,
matemáticas y/o plantea las hipótesis y
estadísticas, describe los
situaciones de supuestos asociados
contexto real. utilizando
correctamente las
notaciones y
representaciones
simbólicas

Cálculo: Utiliza Calcula el estadístico


algoritmos y de prueba, región(es)
procedimientos y valor(es) crítico(s),
estándar de la p-value de la(s)
matemática y/o prueba(s) respectivas
estadística en
situaciones de
contexto real.

Análisis y Sustenta el resultado


argumentación: de la prueba de
Sustenta los hipótesis utilizando
resultados y su un lenguaje formal
aplicación estadístico y brinda
práctica, alguna alternativa de
planteando una respuesta a la
solución situación
problemática

28
Caso: Ensayo clínicos Lipitor
Un equipo de ingenieros químicos tiene conocimiento que el
Lipitor es un fármaco que se utiliza para controlar el colesterol. En
ensayos clínicos del Lipitor, 124 sujetos fueron tratados con el
medicamento y 270 sujetos recibieron un placebo. De los que
fueron tratados con Lipitor, 7 desarrollaron infecciones. De los
que recibieron un placebo, 27 desarrollaron infecciones. Utilice un
nivel de significancia de 0.05 para someter a prueba la afirmación
de que la tasa de infecciones para los individuos tratados con
Lipitor fue menor a los que recibieron un placebo. En caso de
que, la afirmación sea cierta, el equipo de químicos recomendará
usar el fármaco Lipitor.

Dimensiones Prueba de hipótesis

Interpretación: Relaciona datos e


Da significado a información numérica
información pertinente en
numérica en diversos formatos,
diversos formatos para definir una
en situaciones de situación
contexto real. problemática en un
contexto real.
Representación: Describe la variable,
Describe mediante su distribución, el
expresiones (los) parámetro,
matemáticas y/o plantea las hipótesis y
estadísticas, describe los
situaciones de supuestos asociados
contexto real. utilizando
correctamente las
notaciones y
representaciones
simbólicas
Cálculo: Utiliza Calcula el estadístico
algoritmos y de prueba, región(es)
procedimientos y valor(es) crítico(s),
estándar de la p-value de la(s)
matemática y/o prueba(s) respectivas
estadística en
situaciones de
contexto real.

Análisis y Sustenta el resultado


argumentación: de la prueba de
Sustenta los hipótesis utilizando
resultados y su un lenguaje formal
aplicación estadístico y brinda
práctica, alguna alternativa de
planteando una respuesta a la
solución situación
problemática

29
Unidad 2: Diseño y Análisis de experimentos
Tema: ANOVA de un factor

Bibliografía:
 Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 12. Sección 12.1 y 12.4
 Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección
12.1 y 12.2.

Conceptos básicos (después de revisar la infografía)

Análisis de varianza (Anva o Anova)

Método de prueba de igualdad de tres o más medias poblacionales, por medio del análisis de las
varianzas muestrales. El análisis de varianza de un factor se utiliza con datos clasificados con base en
un tratamiento (o factor), que es una característica que nos permite distinguir entre sí a las distintas
poblaciones. (Triola, 2013, p.629)

Planteamiento de hipótesis

No hay diferencia en las El factor en estudio no afecta a


H0: µ1 = µ 2 =… = µ k
medias poblacionales la variable respuesta

Al menos un µi es Hay diferencia en al menos El factor en estudio afecta a la


H1:
diferente una media poblacional variable respuesta

Supuestos del modelo DCA

En el análisis de varianza del modelo simple o de un factor, se supone que las observaciones siguen una
distribución normal e independiente con la misma varianza para cada tratamiento o nivel de factor.
Estos supuestos deberán verificarse examinando los residuales.
(Montgomery, 2003, p.576)

Estadístico de prueba
CM(Tr)
F calculado =
CME

30
Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA:

Fuente de Grados de Cuadrado


Suma de cuadrados F Calculado F Crítico
variación libertad medio
k 2 2
Tratamiento y y SC ( Tr )
k–1 SC ( Tr ) = ∑ i. - .. CM ( Tr ) =
s i=1 ni n. k - 1

SCE CM ( Tr ) F
Error n. – k SCE = SCT - SC( Tr ) CME = F = ( α, k-1, n -k )
n. -k CME .

n. – 1 k n 2
y ..
SCT = ∑ ∑ y -
2
Total ij
donde ( n. = Σ i=1 n i )
k
i=1 j=1 n.

Criterio de decisión (Región critica)

Punto crítico:

F (, grado de libertad Tratamiento, grado de libertad Error)


Decisión

 Se Rechaza H0 Si F cal > F (, gl Tratamiento, gl error)


 No se Rechaza H0 Si F cal ≤ F (, gl Tratamiento, gl error)

Criterio basado en el valor p (aplica para cualquier tipo de hipótesis):


Si valor p ≤ ⍺  Se rechaza H0

Si valor p > ⍺  No se rechaza H0

Comparación Múltiples:

Los métodos de comparación múltiple son los procedimientos usados para comparar las medias de
tratamientos individuales en el análisis de varianza.
(Montgomery, 2003, p.581)

Prueba de Tukey HSD


Se usará esta prueba para evaluar si existen diferencias significativas entre las medias de cada “par de
tratamientos”.

, Ϭ͗ࣆ࢏ ൌ ࣆ࢐
, ϭ͗ࣆ࢏ ് ࣆ࢐ Para todo i ≠ j

 n= número de observaciones por tratamiento


 k= número de tratamientos
HSD = qα ( k, n - k )
√ CME
nk



q = es un multiplicador (Tabla de Tukey-Tabla A5)
CME = cuadrado medio del error
nk = tamaño de muestra de los grupos (si no es un modelo balanceado se
usa el promedio armónico.
31
Cuando se realiza el análisis con la probabilidad:

o Si valor p ≤ α  Se Rechaza H0 (Existen diferencias significativas)


o Si valor p > α  No se Rechaza H0 (No Existen diferencias significativas)

Cuando se realiza el análisis con intervalos:

o Si: µi - µj  IC (µi - µj) = [LI, LS] = [-, -]  µi - µj < 0  µi < µj

o Si: µi - µj  IC (µi - µj) = [LI, LS] = [+, +]  µi - µj > 0  µi > µj

o Si: µi - µj  IC (µi - µj) = [LI, LS] = [-, +]  µi - µj ≈ 0  µi = µj

32
Casos de aplicación
Caso: Desaceleración en automóviles

En la siguiente tabla se presentan las mediciones de desaceleración (en fuerza de gravedad g) de tres
tamaños de automóviles. Los valores más grandes indican mayores cantidades de desaceleración ante un
choque frontal, las cuales suelen provocar lesiones graves en los conductores. Con dicha información calcule
la tabla de ANOVA:

Automóviles compactos 44 43 44 54 38 43 42 45 44 50
Automóviles medianos 41 49 43 41 47 42 37 43 44 34
Automóviles grandes 32 37 38 45 37 33 38 45 43 42

Fuente de Grados de Suma de Cuadrado medio F calc


variación libertad (gl) Cuadrados (SC) (SC/gl) CM(Tr)/CME

Tratamientos

Error

Total

Y.. = 1258 ∑ ∑ Y2ij =53452

Cálculo del estadístico de prueba:

Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 1%, se
quiere probar si existen diferencias en las mediciones de desaceleración (en g) en pruebas de choque de los
tres tipos de automóviles.

33
Caso: Resistencia a la tensión de una fibra sintética

El ingeniero de desarrollo de productos desea investigar si el porcentaje de algodón que se incorpora en la


producción de cierta fibra sintética influye en la resistencia a la tensión (lb/pulgada2) de las prendas que se
confeccionan con dicha fibra.
Para tal fin, decide evaluar cinco diferentes niveles de peso porcentual de algodón, estos son: 15%, 20%,
25%, 30% y 35%; donde medirá la resistencia a la tensión en los ejemplares de la fibra sintética. Los datos de
25 prendas se muestran a continuación:
15% 20% 25% 30% 35%
7 12 20 19 7
7 13 18 25 10
15 15 18 22 11
11 14 19 19 9
9 14 19 23 11
Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 5%, el
ingeniero considera que a mayor peso porcentual de algodón mayor será la resistencia de la fibra. Según el
análisis realizado, ¿Qué peso porcentual de algodón sugiere utilizar?

Pregunta 1: Completar los siguientes elementos del experimento:


Factor en estudio
Tratamientos
Variable respuesta
Unidad experimental
Hipótesis alternativa

Pregunta 2: Completar la siguiente tabla de Análisis de Varianza:

Fuente de Grados de Suma de Cuadrado


F calculado
variación libertad cuadrados medio
Tratamientos 578.24
Error 20 4.56
Total
Pregunta 3: Completar la siguiente la siguiente gráfica e indique la decisión:

Decisión: ___________________

Fcal = ______ Fcrítico= ______

Conclusión:

34
Recuerda:
 INV.F.CD (probabilidad, grados de libertad1, grados de libertad2)

Pregunta 4: ¿Qué peso porcentual de algodón sugiere utilizar?

El siguiente reporte proviene del programa estadístico MINITAB:


Comparaciones por parejas de Tukey: Nivel Peso%
Agrupar información utilizando el método de Tukey y una confianza de 95%
Nivel Peso% N Media Agrupación
30.00% 5 21.6 A
25.00% 5 18.8 A
20.00% 5 13.6 B
15.00% 5 9.8 B
35.00% 5 9.6 B
Las medias que no comparten una letra son significativamente diferentes.

Pruebas simultáneas de Tukey para diferencias de las medias


Diferencia de Nivel Diferencia EE de IC simultáneo Valor p
Peso% niveles de medias diferencia de 95% Valor T ajustado
20.00% - 15.00% 3.80 1.35 (-0.24, 7.84) 2.81 0.072
25.00% - 15.00% 9.00 1.35 (4.96, 13.04) 6.66 0.000
30.00% - 15.00% 11.80 1.35 (7.76, 15.84) 8.74 0.000
35.00% - 15.00% -0.20 1.35 (-4.24, 3.84) -0.15 1.000
25.00% - 20.00% 5.20 1.35 (1.16, 9.24) 3.85 0.008
30.00% - 20.00% 8.00 1.35 (3.96, 12.04) 5.92 0.000
35.00% - 20.00% -4.00 1.35 (-8.04, 0.04) -2.96 0.053
30.00% - 25.00% 2.80 1.35 (-1.24, 6.84) 2.07 0.270
35.00% - 25.00% -9.20 1.35 (-13.24, -5.16) -6.81 0.000
35.00% - 30.00% -12.00 1.35 (-16.04, -7.96) -8.89 0.000
Nivel de confianza individual = 99.28%

35
Hallando el peso porcentual sugerido usando Valor P (p-value):

Hallando el peso porcentual sugerido usando intervalos de confianza (lower y upper):

36
Tema: ANOVA de dos factores

Bibliografía:
 Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 13. Sección 13.1 y 13.4
 Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección
12.3 y 12.4.

Verificando tus conocimientos previos


Actividad estudiante con profesor

La pregunta de investigación es: ¿Qué factores influyen en la mayor conservación del queso?

A partir de revisar el siguiente video sobre la conservación de queso: https://youtu.be/Q-8-D4Xisy8

Discuta con sus compañeros de su sección e indique al menos dos factores que puede incluirse en la
hipótesis de investigación.

La hipótesis de investigación es:

Complete los elementos del diseño experimental:

Factor A

Niveles del factor A

Factor B

Niveles

Tratamientos

Número de tratamientos

Variable respuesta

Unidad experimental

Modelo matemático

Hipótesis estadística

H1:

37
De la teoría a la práctica (después de revisar la infografía)

Un ingeniero sospecha que el tipo de pintura tapaporos y el método de aplicación


afectan el tiempo de duración de la pintura de las piezas de las aeronaves. Él está
interesado en determinar si algún tipo de pintura con algún nivel del método de
aplicación influyen en el tiempo de duración de la pintura de las piezas de las
aeronaves. Idea dos experimentos, obteniendo las siguientes gráficas.

¿En cuál de las gráficas se logra apreciar el interés del ingeniero?

Se puede presentar cualesquiera de las dos situaciones siguientes:

Sin Interacción Con Interacción

Para cualesquiera de los métodos de aplicación que Para el método de aplicación T1 y T2 la pintura P2,
se use, el tipo de pintura P1 sería la que presenta obtiene la mayor duración; mientras para T3 la
mayor tiempo de duración. pintura P1 obtiene la mayor duración.

Hipótesis inicial en un Diseño Factorial:


H0: No existe interacción entre los niveles de los factores sobre la variable respuesta.
H1: Existe interacción entre los niveles de los factores sobre la variable respuesta.

Analizar los efectos de cada


¿Se rechaza H0? No
factor por separado

Si

Prueba de comparación por


pares para la interacción

Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA:
38
Fuente de Grados de Suma de Cuadrado
F cal
variación libertad cuadrados medio
CM(A)
A a-1 SC(A) CM(A)
CME
CM(B)
B b -1 SC(B) CM(B)
CME

CM(AB)
AB (a -1) (b -1) SC(AB) CM(AB)
CME

Error ab (n – 1) SCE CME

Total abn - 1 SCT

Fuente de Grados de Cuadrado


Suma de cuadrados F calculado F crítico
variación libertad medio
a 2
1 y… SC(A) CM(A)
Factor A a–1
bn
∑ y - abn 2
i..
a - 1 CME
F [α, a-1, ab (n – 1)]
i = 1

b 2
1 y… SC(B) CM(B)
Factor B b–1
an
∑ y - abn 2
.j.
b-1 CME
F [α, b-1, ab (n – 1)]
j=1

1
a b
y 2…
n
∑ ∑ y2ij. - abn SC(AB) CM(AB)
Interacción AxB (a – 1) (b – 1) i=1 j=1 F [α, (a-1) (b-1), ab (n – 1)]
(a - 1) (b - 1) CME
SC(Subtotales) – SCA - SCB

SCE
Error ab (n – 1) SCT – SC(A) – SC(B) – SC(AB)
ab (n - 1)
a b n 2
y…
Total abn – 1 ∑ ∑ ∑ y ijk - 2
abn
i=1 j=1 k=1

Casos de aplicación
Caso: Tecno Gas S.A.

39
Tecno Gas S. A. es una empresa que fabrica y comercializa termas a gas para uso doméstico e industrial. La
terma a gas es un artefacto calentador de agua que funciona de forma continua mediante la combustión de
gas. Su planta de producción está ubicada en la ciudad del Callao y sus productos se comercializan a través
de sus locales de venta y centros comerciales ubicados en Lima y Provincias. Constantemente está
mejorando su tecnología para producir termas a gas a un precio competitivo y de primerísima calidad,
reduciendo al mínimo las fallas y reclamos de los clientes. El jefe del departamento de ingeniería está
interesado en determinar si hay influencia del turno de producción y la capacidad de las termas en el
porcentaje de termas con defecto. Para esto diseña un experimento factorial con tres niveles del turno de
producción y tres niveles de la capacidad de las termas, obteniendo la siguiente información:

Turno de Capacidad
producción 10 L 14 L 18 L
3.8 5.5 4.5
Mañana 4.0 5.0 4.0
4.2 4.8 4.2
4.5 5.0 3.8
Tarde 4.2 5.3 4.0
4.8 5.8 3.5
5.0 6.0 3.8
Noche 4.5 5.8 4.0
5.2 5.5 4.1

¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos? Realice el análisis correspondiente con un nivel de
significación del 5%.

Pregunta 1: Completar los siguientes elementos del experimento:

Variable Respuesta Porcentaje de termas con defectos

Factor A Turno de producción

Niveles del Factor A


Factor B Capacidad de la terma

Niveles del Factor B

Tratamientos

Unidad experimental
Número de réplicas por
tratamiento
Modelo Yijk = μ + τ i + β j + (τβ)ij  +  εijk

Hipótesis alterna

Pregunta 2: Prueba de supuestos:

Prueba Anderson Darling Prueba de Barlett


AD = 0,327 EP = 2,34
40
Valor – p = 0,505 Valor – p = 0,969

Pregunta 3: Completar la siguiente tabla de Análisis de Varianza:

Fuente de Grados de Suma de Cuadrado


F calculado
Variación libertad cuadrados medio
Turno 2 0,9267

Capacidad 9,4289

Turno*Capacidad 4
Error 1,5333

Total 26 13,1867

Pregunta 4: Completar la siguiente la siguiente gráfica e indique la decisión:

Decisión: ____________

F cal = ______ F crítico=

Conclusión:

¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos?

El siguiente reporte proviene del programa estadístico Minitab:

Agrupar información utilizando el método de Tukey y una confianza de 95%

Turno*Capacida
d N Media Agrupación

41
Noche 14 L 3 5.76667 A        
Tarde 14 L 3 5.36667 A B      
Mañana 14 L 3 5.10000 A B C    
Noche 10 L 3 4.90000   B C D  
Tarde 10 L 3 4.50000     C D E
Mañana 18 L 3 4.23333       D E
Mañana 10 L 3 4.00000         E
Noche 18 L 3 3.96667         E
Tarde 18 L 3 3.76667         E
Las medias que no comparten una letra son significativamente diferentes.

Si hubiera salido el siguiente reporte como resultado del caso anterior: ¿Qué capacidad de terma y/o turno
de producción debe elegir jefe de departamento de ingeniería, para obtener menor porcentaje de termas
con defectos?

Agrupar información utilizando el método de Tukey y una confianza de 95%

Turno*Capacida
d N Media Agrupación

Noche 14 L 3 5.76667 A        
Tarde 14 L 3 5.36667 A B      
Mañana 14 L 3 5.10000 A B C    
Noche 10 L 3 4.90000   B C D  
Tarde 10 L 3 4.50000     C D
Mañana 18 L 3 4.23333       D
Mañana 10 L 3 4.00000       D
Noche 18 L 3 3.76667         E
Tarde 18 L 3 3.56667         E
Las medias que no comparten una letra son significativamente diferentes.

Unidad 3: Modelos de pronósticos


Tema: Análisis de regresión lineal simple

Bibliografía: 42
 Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México D. F. Capítulo 12
Conceptos básicos (después de revisar la infografía)

Sobre la relación entre las variables, se puede usar el diagrama de dispersión o el coeficiente de correlación
para identificar la relación entre dos variables dependiente (y) e independiente (x).

Relación linea positiva Relación lineal negativa

40 40

35 35
Y

30 30

25 25

20 r = 0.998 20 r = -0.998
10 12 14 16 18 20 22 24 10 12 14 16 18 20 22 24
X X

Relación no lineal Sin relación


500
60

400

50

300

40
Y

200

30
100

0 r = 0.594 20 r = -0.078
0 5 10 15 20 10 15 20 25 30 35 40
X X

Sobre las medidas de bondad de ajuste


El coeficiente de determinación mide la proporción o el porcentaje de la variación total en Y explicada por el
modelo de regresión, su notación es R 2. El error estándar mide la variabilidad, o dispersión, de los valores
muestrales alrededor de la recta de regresión, su notación es S o se.

43
El análisis de varianza en la regresión lineal simple:

Fuente de variación Grados de libertad Suma de cuadrados Cuadrado medio F cal

SCR
Regresión 1 SCR CMR =
1
SCE CMR
Error n-2 SCE CME = CME
n-2
Total n-1 SCT

2
R =
SCR
SCT
S=
SCE
n-2 √
= √CME

1. A continuación, se muestra el análisis de varianza en la regresión lineal simple, de un estudio realizado


sobre la fuerza de impulso de un motor (y) en función de la temperatura de escape (x) en °F, es:

Fuente de variación Grados de libertad Suma de cuadrados Cuadrado medio F cal


Regresión 1 6,2881 6,2881
Error 9 1,6283 0,1809 34,7601
Total 10 7,9164

A partir de esta información, el coeficiente de determinación es _____ y el error estándar es ___.

2. Sobre los supuestos, marque con una “X” la opción correcta.


a. Los supuestos del modelo de regresión son:

Varianza constante de errores


Normalidad de las variables
(homocedasticidad)

Independencia de los errores


Normalidad de los errores
(Independencia = no autocorrelación)

Heterocedasticidad
Autocorrelación de los errores

b. Para asumir la no autocorrelación de los errores y la homocedasticidad, el estadístico Durbin Watson


debe estar comprendido en el intervalo:

a. [0, 4] b. [1, 3] c. [1.5, 2.5] d. [-1.5, 2.5] e. [1.5, 3.5]

3. Sobre la validación del modelo, marque con una “X” la opción correcta.

a. En la prueba individual (coeficientes), la hipótesis alterna para evaluar la adecuación del modelo a la
población es:

44
. i. H1: β0 ≠ 0 ii. H0: β0 = 0 iii. H 1: β1 = 0 iv. H1: β1 ≠ 0

b. Para validar la prueba de hipótesis individual (coeficientes) se utiliza:

i. Distribución Normal ii. Distribución t – student ii. Distribución de Fisher

c. La validación del modelo de regresión lineal simple puede realizarce usando ANOVA o la prueba de
coeficientes.

i. Verdadero ii. Falso

En resumen, el análisis de regresión se puede esquematizar así:

Análisis de regresión Más de una


Una variable X
(Estimar Y) variable X

Regresión Simple Regresión


Múltiple
Relación lineal Relación no lineal

Regresión lineal Regresión no


simple lineal simple

45
Casos de aplicación
Caso: Ciudad Campo Verde

En la ciudad Campo Verde existe una flota considerable de combis antiguas que,
no solo congestionan el tráfico sino también, podrían estar emitiendo
cantidades alarmantes de monóxido de nitrógeno (NO).
La Gerencia Municipal de Campo Verde desea saber, si efectivamente la
antigüedad de los vehículos y la emisión de NO están relacionadas; de ser así,
estimar en cuánto se incrementa la emisión de NO por cada año de antigüedad
de los vehículos.

Para comprobar lo anterior, la gerencia municipal solicita al ingeniero Flores un estudio técnico al respecto,
a partir de una muestra seleccionada al azar de 30 combis. Si en este estudio comprueba que la emisión
media de NO, de una combi con una antigüedad de 15 años, supera los 11 mg/m 3; la Gerencia Municipal
solicitará el retiro de circulación de las unidades de 15 años a más de antigüedad.

1. ¿Cuál es la problemática que deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuál es la emisión de NO de una combi con una antigüedad de 15 años?
b. ¿La Gerencia Municipal solicitará el retiro de circulación de las unidades que tengan 15 años a más
de antigüedad?
c. ¿Existe relación lineal entre la emisión de NO y la antigüedad de las combis?

2. Defina la variable dependiente (Y) e independiente (X) del problema

Y:

X:

3. A partir del caso, se obtuvo el siguiente diagrama de dispersión de las variables de estudio, ¿cuál es la
relación entre ellas?

46
4. Teniendo en cuenta el siguiente reporte: “Coeficientes”, modele la ecuación de regresión lineal simple
estimado e interprete el coeficiente de regresión.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645  
X 1.0276 0.0907 11.33 0.000 1.00

Modelo de regresión lineal simple


estimado

Interpretación del coeficiente de


regresión estimado (β^ 1)

5. Teniendo en cuenta el siguiente reporte: “Resumen del modelo”, indique la interpretación del coeficiente
de determinación y el error estándar.

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
1.94392 82.10% 81.46% 78.42%

R2 =

S=

Tener en cuenta:
 El coeficiente de determinación R2 mide la proporción o el porcentaje de la
variación total en Y explicada por el modelo de regresión
 El coeficiente de no determinación (1 - R2) mide la proporción o el porcentaje de la
variación total en Y no explicada por el modelo de regresión
 El error estándar S mide la variabilidad, o dispersión, de los valores muestrales ( y i )
alrededor de la recta de regresión ( ^y i ), en las mismas unidades que la variable

47
6. Según la prueba de Anderson Darling, verifique si se cumple el supuesto de normalidad de los errores.
Usar nivel de significación del 5%.

Tener en cuenta para el supuesto de normalidad de los errores:


 Estadístico Anderson Darling: Es más efectivo en tamaño de muestras pequeñas
 Estadístico Kolgomorov – Smirnov: Es más efectivo en tamaño de muestras
grandes (n > 30)

7. Con el estadístico Durbin Watson, verifique el cumplimiento de los supuestos correspondientes:

Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.82889

Tener en cuenta:
Según Ángeles, C. (2002), si el estadístico Durbin Watson (d) está en el intervalo [1.5,
2.5], puede asumirse que el supuesto de independencia de errores se cumple.

Bajo el mismo criterio del estadístico Durbin Watson se puede asumir que se cumple el
supuesto de homocedasticidad

8. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique la validez del modelo, usando
la prueba global (ANOVA) o la prueba individual (coeficiente), con un nivel de significación del 5%. (para
la toma decisión utilice el criterio del valor – p)
48
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645  
X 1.0276 0.0907 11.33 0.000 1.00

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 485.18 485.185 128.40 0.000
 X 1 485.18 485.185 128.40 0.000
Error 28 105.81 3.779    
  Falta de ajuste 9 79.15 8.795 6.27 0.000
  Error puro 19 26.65 1.403    
Total 29 590.99      

Hipótesis:

Estadístico de
prueba:

Decisión:

Conclusión
estadística:

9. Con un nivel de confianza del 95%, la emisión media de NO de una combi con una antigüedad de 15
años es:

Formula del IC


2
1 (x0 - x)
Valor medio ^y0 ± t α * se * +
(2 ,n-2) n s xx


2
1 ( x0- x )
Valor individual ^y0 ± t α * se * 1+ +
(2 ,n-2) n s xx
SCR
se = √ CME S xx =
β^ 1
2

49
Estadísticas
Variable N Media Desv.Est.
X 30 7.5333 3.9804

10. ¿Cuál es la respuesta a la pregunta de investigación?

50
Tema: Análisis de regresión no lineal simple

Bibliografía:
 Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 10. Página 471
 Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage
Learning. Capítulo 13. Página 508
 Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 10. Página 570

Verificando tus conocimientos previos


Autoevaluación del análisis de regresión no lineal estudiada del libro

A partir de lo revisado en la bibliografía sugerida del tema de análisis de regresión no lineal simple responde
la siguiente evaluación.

Se obtuvo el siguiente modelo de regresión lineal del tiempo de demora (en minutos) de reparto, en función
del número de cajas a repartir: ^y = -141 + 85.1X . Además, se obtuvo el diagrama de dispersión y la tabla
de coeficientes.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -141 114 -1.24 0.270  
X 85.1 36.8 2.31 0.069 1.00

Con la información mostrada y a un nivel de significancia de 5%, ¿el modelo de regresión lineal es válido?

51
Conceptos básicos (después de revisar la infografía)

Sobre la transformación de los modelos


Para una relación de función exponencial, sólo la variable dependiente (y) se transforma para alcanzar
linealidad, mientras que, para una relación de función de potencia, tanto la variable independiente (x) como
la variable dependiente (y) se transforman. A continuación, se muestran las gráficas de las funciones
intrínsecamente lineales

Regresión Exponencial

Regresión Potencia

Sobre la validez de los modelos


Para verificar la validez de los modelos se realizará la prueba conjunta o prueba individual para el modelo
lineal, exponencial y potencia, mientras que para el modelo cuadrático se realizará la prueba conjunta y la
prueba individual. A continuación, se presenta las pruebas para cada modelo:
Prueba conjunta (Se utiliza la tabla Prueba individual (Se utiliza la
Modelo
ANOVA) tabla de Coeficiente)

Lineal, Exponencial y H0: β1 = 0 H0: β1 = 0


Potencial H1: β1 ≠ 0 H1: β1 ≠ 0

H0: β1 = β2 = 0 H0: β2 = 0
Cuadrático
H1: Al menos un βi ≠ 0 H1: β2 ≠ 0

Tener en cuenta:
Para el modelo cuadrático, exponencial y potencia se verifican los mismos supuestos del
modelo lineal simple (normalidad de los errores, no autocorrelación de los errores y
varianza de los errores constante).

52
Sobre el pronóstico de la variable dependiente (y)
El intervalo de confianza para el valor medio o individual de la variable dependiente (y), de las funciones
intrínsicamente lineales

Modelo Valor individual Valor medio

√ √
2 2
Exponencial
1 (x0 - x ) 1 ( x0 - x )
Ln ( y 0 ) ± t α S 1+ + Ln ( y 0 ) ± t α S +
(2 , n- 2 ) n s xx (2 , n- 2) n sxx

√ √
2 2

Potencia 1 ( ln ( x 0) - ln (x) ) 1 ( ln ( x 0 ) - ln (x) )


Ln ( y 0 ) ± t α S 1+ + Ln ( y 0 ) ± t α S +
(2 , n- 2 ) n s xx (2 , n- 2 ) n sxx

SCR
Donde : S = √CME Sxx =
β^ 21
Estas expresiones corresponden al IC del modelo linealizado. Para calcular los valores en la escala original de
“Y”, se debe elevar cada uno de los términos del intervalo a la “potencia e”.

Indique para cada modelo la ecuación correcta:

a. ^y = β^ 0 + β^ 1 x + β^ 2 x
2
Modelo exponencial

b. ^y = β^ 0 + β^ 1 x Modelo potencia

^
c. ^y = β^ 0 x β
1
Modelo lineal

^
d. ^y = β^ 0 e β x1
Modelo cuadrático

53
Casos de aplicación
Caso: Security S.R.L.

EL Gerente de una empresa de seguridad desea adquirir cámaras de video


vigilancia de la compañía “Security S.R.L.” para ser utilizadas en una zona
cuya temperatura es de 25 °C. El representante de la empresa informa
que la vida útil de dichos equipos esta relacionado con la temperatura del
medio ambiente donde trabajan. El Gerente tomará la decisión de
adquirir un lote de 200 cámaras y las enviará a una zona geográfica cuya
temperatura ambiente es aproximadamente 25 °C, si la vida útil es mínimo de 15 años. Para ayudar al
Gerente a decidirse por adquirir este producto, le entrega los datos de una muestra aleatoria de 10 equipos
de video vigilancia donde se registró la temperatura ambiente y el tiempo de vida de las cámaras. ¿Qué
decisión deberá tomar el Gerente de la empresa de seguridad? Utilice un α = 0,05

1. ¿Cuál es la problemática que deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuál es el tiempo de vida útil de una cámara de video vigilancia, cuando la temperatura del medio
ambiente es de 25°C?
b. ¿El Gerente de la compañía adquirirá el lote de las 200 cámaras y las enviará a una zona geográfica
cuya temperatura ambiente es aproximadamente 25 °C?
c. ¿Existe relación no lineal entre la temperatura ambiente y el tiempo de vida útil de las cámaras?

2. Defina la variable dependiente e independiente del problema


Y:
X:

3. Teniendo los reportes del MINITAB, escribir la ecuación de cada modelo y ordenarlos según el coeficiente
de determinación
Modelo lineal Modelo cuadrático
Resumen del modelo Resumen del modelo
R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
2.79077 92.89% 92.00% 90.12% 2.57603 94.70% 93.18% 88.85%
Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 5.15 1.59 3.23 0.012   Constante 1.33 2.87 0.46 0.657  
X 0.8687 0.0850 10.22 0.000 1.00 X 1.620 0.492 3.29 0.013 39.41
X^2 -0.0225 0.0146 -1.55 0.166 39.41
Modelo exponencial Modelo potencia
Resumen del modelo Resumen del modelo
R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
0.241346 86.54% 84.86% 81.04% 0.154253 94.50% 93.82% 92.02%
Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 1.951 0.138 14.16 0.000   Constante 1.058 0.154 6.86 0.000  
X 0.05272 0.00735 7.17 0.000 1.00 Ln(X) 0.6983 0.0595 11.73 0.000 1.00

54
Modelos Ecuación del modelo R2 Ranking (prioridad)
Lineal
Cuadrático
Exponencial
Potencia

4. Teniendo en cuenta del MINITAB, verifique la validez del mejor modelo según el ranking elaborado en el
paso anterior.

Modelo lineal Modelo cuadrático

Análisis de Varianza Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 813.79 813.793 104.49 0.000 Regresión 2 829.65 414.824 62.51 0.000
 X 1 813.79 813.793 104.49 0.000  X 1 71.83 71.834 10.82 0.013
Error 8 62.31 7.788       X^2 1 15.86 15.856 2.39 0.166
Total 9 876.10       Error 7 46.45 6.636    
Total 9 876.10      

Modelo exponencial Modelo potencia

Análisis de Varianza Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 2.9969 2.99690 51.45 0.000 Regresión 1 3.2725 3.27253 137.54 0.000
 X 1 2.9969 2.99690 51.45 0.000   Ln(X) 1 3.2725 3.27253 137.54 0.000
Error 8 0.4660 0.05825     Error 8 0.1904 0.02379    
Total 9 3.4629       Total 9 3.4629      

55
5. Teniendo en cuenta los resultados obtenidos del MINITAB, verifique el cumplimiento de los supuestos
del mejor modelo válido.

Modelo lineal Modelo cuadrático

Estadístico de Durbin-Watson Estadístico de Durbin-Watson

Estadístico de Durbin-Watson = 2.58721 Estadístico de Durbin-Watson = 2.29086

Modelo exponencial Modelo potencia

Estadístico de Durbin-Watson Estadístico de Durbin-Watson


Estadístico de Durbin-Watson = 2.99505 Estadístico de Durbin-Watson = 2.30840

6. Presente y realice la transformación, de ser necesario, de la ecuación del mejor modelo valido y que
cumplió todos los supuestos.

56
7. Con un nivel de confianza del 95%, el tiempo de vida útil de una cámara de video vigilancia, cuando la
temperatura del medio ambiente es de 25 °C es:
Modelo lineal Modelo cuadrático
Predicción Predicción
EE de EE de
Ajuste ajuste IC de 95% IP de 95% Ajuste ajuste IC de 95% IP de 95%
26.8657 1.19037 (24.1207; 29.6107) (19.8692; 33.8622) 27.7659 1.24356 (24.8253; 30.7064) (21.0019; 34.5299)
Modelo exponencial Modelo potencia

Predicción Predicción

Ajuste EE de ajuste IC de 95% IP de 95% Ajuste EE de ajuste IC de 95% IP de 95%


3.26850 0.102944 (3.03111; 3.50588) (2.66344; 3.87355) 3.30571 0.0666561 (3.15200; 3.45942) (2.91822; 3.69321)

Estimación puntual:

Intervalo de confianza:

Interpretación del intervalo:

8. ¿Cuál es la respuesta a la pregunta de investigación?

57
Tema: Análisis de regresión lineal múltiple

Bibliografía:
 Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México D. F. Capítulo 13. Página 528
 Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 11. Página 483
 Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage
Learning. Capítulo 13. Página 560

Verificando tus conocimientos previos


Autoevaluación del análisis de regresión lineal múltiple estudiada del libro

A partir de lo revisado en la bibliografía sugerida del tema de análisis de regresión lineal múltiple responde
la siguiente evaluación

1. Análisis de regresión lineal múltiple es:

2. Cuáles son los supuestos que tiene que cumplir

3. En el siguiente caso identifique la variable dependiente y las variables regresoras:

El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los
pronósticos del monto de las ventas (en miles de soles) de su principal producto en función del gasto
mensual en publicidad (miles de soles), número medio de pedidos y el número de vendedores.

58
Conceptos básicos (después de revisar la infografía)

Estimación y validación del modelo

1. La estimación de un modelo de regresión lineal múltiple dio como resultado la siguiente ecuación:
^y = 10.5 + 2.5 X1 + 1.82 X2 - 0.94 X3, la interpretación de β^ 3 es:

2. Las hipótesis de la prueba conjuntan son:

3. El estadístico de prueba y el valor crítico de la prueba conjunta son:

4. Las hipótesis de la prueba individual para el coeficiente β 2 son:

5. El estadístico de prueba y el valor critico de la prueba individual para el coeficiente β 2 son:

Verificación de los supuestos

6. Los supuestos del modelo de regresión lineal múltiple:

a. Normalidad de los datos


b. Normalidad de los errores
c. Heterocedasticidad
d. Homocedasticidad
e. Multicolinealidad
f. Independencia de las variables regresoras
g. Independencia de los errores

59
Multicolinealidad
Cuando existen fuertes dependencias entre las variables regresoras (independientes), se dice que existe
multicolinealidad. La multicolinealidad puede tener efectos de consecuencias sobre las estimaciones de los
coeficientes de regresión y sobre la aplicabilidad general del modelo. Los factores de inflación de la varianza
(VIF) son medidas de multicolinealidad muy útiles. Entre mayor sea el factor de inflación de la varianza, más
marcada será la multicolinealidad. Algunos autores han sugerido que, si cualquiera de los factores de
inflación de la varianza excede 10, entonces la multicolinealidad constituye un problema.
(Montgomery y Runger, 2005)

Regresión por pasos


Suponga que tenemos datos acerca de la variable dependiente (y) y un buen número de posibles variables
independientes, x1, x2, …, xk. Un análisis de regresión por pasos ajusta una variedad de modelos a los datos,
agregando y eliminando variables cuando la significancia de ellas en presencia de las otras variables es
significativa o no significativa, respectivamente. Una vez que el programa haya hecho un número suficiente
de iteraciones y no hay más variables significativas cuando se suman al modelo y ninguna de las variables del
modelo son no significativas cuando son eliminadas, el procedimiento se detiene. Un excelente método de
regresión por pasos es el método paso a paso.

Observaciones influyentes
Las observaciones poco comunes (también llamadas observaciones influyentes) son observaciones que
tienen un impacto desproporcionado en un modelo de regresión. Es importante identificar las observaciones
poco comunes porque pueden producir resultados engañosos. Por ejemplo, una observación poco común
puede ejercer una gran influencia al determinar R 2, las estimaciones de los coeficientes de regresión o la
magnitud del cuadrado medio de error.

Un excelente diagnóstico para detectar observaciones influyentes es la medida de la distancia desarrollada


por Dennis R. Cook. Un valor Di-Cook > 1 indicará que el punto es influyente.

60
Casos de aplicación
Caso: Adquisición de nueva maquinaria

El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los pronósticos
del monto de las ventas (en miles de soles) de su principal producto en función del gasto mensual en
publicidad (miles de soles), número medio de pedidos y el número de vendedores. El gerente de la empresa
comprará una nueva maquinaria para aumentar la producción, si el monto de las ventas supera los 5500
soles, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos es de 50 y el número de
vendedores es 18. Los datos son presentados a continuación.

Y: Monto de las X1: Gasto en X2: Número medio de X3: Número de


ventas publicidad pedidos vendedores
6,8 0,80 52 16
6,7 0,84 48 10
7,0 1,04 53 18
3,9 0,34 33 17
5,4 0,76 35 19
3,9 0,58 32 16
5,1 0,74 38 19
5,8 0,74 40 10
5,0 0,68 37 19
6,7 0,88 46 19
5,4 0,74 36 11
6,3 0,84 44 12
6,4 0,78 44 18
6,6 0,72 52 6

Use un nivel de significación del 5% y un nivel de confianza del 95% (alfa a entrar 0.05 y un alfa a retirar
0.05).

1. ¿Cuál es la problemática que deberá resolver?

a. ¿El gerente de la empresa debe comprar una nueva maquinaria para aumentar la producción?
b. ¿Estimar las ventas, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos es
de 50 y el número de vendedores es 18?
c. Determinar un modelo de regresión lineal que permita realizar los pronósticos del monto de las
ventas
d. Determinar si el monto de las ventas supera los 5500 soles

2. Teniendo en cuenta el siguiente reporte del programa MINITAB, modele la ecuación de regresión lineal
múltiple estimado e interprete las medidas de bondad de ajuste.

Resumen del modelo

61
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.308456 93.19% 91.15% 86.85%

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600  
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18

R2 =

S=

Modelo de regresión lineal


múltiple estimado

Tener en cuenta:
El coeficiente múltiple de determinación R 2 tiene una grave desventaja: a mayor
número de variables incluidas, se incrementa R 2. A causa de esta desventaja, la
comparación de diferentes ecuaciones de regresión múltiple se logra mejor con el
2
coeficiente ajustado de determinación, que es R Ajustada para el número de variables y
el tamaño de la muestra.

R 2Ajustada = R2 = 1 - ( 1 - R2 ) (nn -- 1p )
3. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice la prueba global para el modelo
de regresión completo:

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 13.0257 4.34190 45.63 0.000
  X1 1 1.1757 1.17567 12.36 0.006
  X2 1 2.1784 2.17845 22.90 0.001
  X3 1 0.0681 0.06809 0.72 0.417
Error 10 0.9514 0.09514    
Total 13 13.9771      

62
4. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice la prueba individual para cada
coeficiente del modelo de regresión completo.

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600  
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18

Tener en cuenta:
Si en el modelo completo existen puntos influyentes deben eliminarse y luego aplicar la
regresión por pasos (método paso a paso)

5. Como el modelo de regresión lineal múltiple completo no resulta valido se aplica el método paso a paso,
para la selección del mejor modelo. Escriba la ecuación de regresión lineal múltiple estimado, interprete
los coeficientes del modelo e interprete las medidas de bondad de ajuste obtenido por el método paso a
paso, a partir del reporte del MINITAB, que se muestra a continuación:

Resumen del modelo


R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.304442 92.71% 91.38% 87.78%

63
Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977  
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96
R2 modelo
R2 =
completo=91.15%
S modelo
S=
completo=0.308456
Modelo de regresión
lineal múltiple
estimado
β^ 1 =

β^ 2 =

6. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique el supuesto de normalidad de
los errores

Gráfica de probabilidad de RESID


Normal
99
Media -7.29575E-16
Desv.Est. 0.2800
95 N 14
AD 0.579
90
Valor p 0.109
80
70
Porcentaje

60
50
40
30
20

10
5

1
-0.75 -0.50 -0.25 0.00 0.25 0.50
RESID

7. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique el supuesto de


independencia de los errores y homocedasticidad.

Estadístico de Durbin-Watson

64
Estadístico de Durbin-Watson 2.17108
=

8. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique el supuesto de la no


multicolinealidad entre variables independientes

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constant -0.015 0.501 -0.03 0.977  
e
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.016 5.65 0.000 1.96
2

9. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice el análisis de la detección de
datos influyentes

Estadísticas

Mínim
Variable N o Máximo

COOK 14 0.0008 0.8034

10. Con un nivel de confianza del 95%, el monto de las ventas cuando el gasto en publicidad es de 800
soles y el número medio de pedidos es de 50 es:

Predicción

Ajuste EE de ajuste IC de 95% IP de 95%

6.6385 0.132153 (6.34768; 6.92942) (5.90807; 7.36903)


5

Intervalo:

65
Interpretación del intervalo:

11. ¿Cuál es la respuesta a la pregunta de investigación?

Tema: Series de tiempo y suavización exponencial simple

Bibliografía:
 Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y
economía. 10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 765
 Gujarati Damodar N. y Porter Dawn C. (2010). Econometría. México Dc. Graw Hill. Capítulo 21 y 22
pag. 737
 Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson
Prentice Hall. Capítulo 5. Pag 175

Conceptos básicos (después de revisar la infografía)

1. Serie de tiempo es:

2. Características de:

Serie estacionaria Serie no estacionaria

Responda lo siguiente:

3. En suavización exponencial, si usted desea dar un peso significativo a las observaciones más recientes,
entonces la constante de suavización deberá ser:

a. cercana a 0 b. Cercana a 1 c. Cercana a 0.5 d. Menor al error

4. ¿Cuál de las siguientes opciones se emplea para alertar al usuario acerca de un modelo de pronóstico
que tiene un error significativo en los últimos períodos?

a. Una constante de suavización


66
b. Una señal de rastreo
c. Un coeficiente de regresión

La suavización exponencial, es un método de pronóstico que se basa en suavizar (promediar), los valores
pasados de una serie en forma exponencialmente creciente. Supone que los datos son estacionarios (sin
estacionalidad).
Las observaciones se ponderan asignando los pesos (α) más grandes a las más recientes.

Modelo matemático:

^ 2 3
Yt + 1 = α Yt + α ( 1 - α ) Y t - 1 + α ( 1 - α ) Y t - 2 + α ( 1 - α ) Yt - 3 + ...

Suavización exponencial simple


Sin embargo, la técnica de suavización exponencial simple puede ser usada como método de pronóstico
cuando los datos son estacionarios (sin estacionalidad).

Modelo matemático:
^
Yt = α Yt + (1 - α) ^
Yt
+ 1

Ŷt+1: Nuevo valor suavizado o valor de pronóstico para el siguiente periodo (t +1).
α: Constante de suavización (0 < α < 1)
Yt: Valor real de la serie en el periodo t
Ŷt: Valor suavizado en el periodo t

Donde para el primer valor: Ŷ1= Y1

Medición del error de pronóstico


El error o residual de un pronóstico en el período t, se calcula: e t = Yt – Ŷt

et = error de pronóstico en el período t


Yt = Valor real de la serie en el período t
Ŷt = Valor del pronóstico en el período t

Indicadores de medición del error en el pronóstico:


1. Desviación Absoluta de la Media (DAM)
2. Porcentaje de Error Medio Absoluto (PEMA)
El mejor pronóstico es el que presenta el menor valor en el indicador de la medición del error.

DAM o MAD: Mide la exactitud del pronóstico que


Desviación Absoluta de la Media evita el problema de los errores positivos y
negativos que se compensan entre sí. Expresa
exactitud en las mismas unidades que los datos, lo
cual ayuda a conceptualizar la cantidad de error.

Porcentaje de Error Medio Absoluto PEMA O MAPE: Mide la exactitud de los valores
ajustados de las series de tiempo. PEMA expresa la 67
exactitud como un porcentaje.
Señal de rastreo o señal de control
La señal de rastreo mide cuan bien se ajustan los pronósticos a los datos reales. En el caso que la señal de
rastreo se encuentra fuera de los límites [-2; 2], esto nos indicará un cambio en el valor de la constante de
suavización (α), y se desecha el pronóstico. (Render B.)

CEF Suma de errores


Señal de rastreo (SR) = =
DAM Desviación media absoluta

Donde:
n ∑|Yt ^ t|
-Y
CEF = ∑ ( Yt ^ t)
-Y DAM =
t=1
n
t=1

Procedimiento para seleccionar el mejor pronóstico en series estacionarias

Identificar el tipo de serie y/o componentes

A través de

Grafica de serie

No estacionaria Estacionaria

Método de Aplicar la técnica estadística para obtener


descomposición pronósticos (Suavización exponencial simple)

Modelo: , 0<α<1

Con las constantes (α) elegidas calcular el


pronóstico

Evaluar la idoneidad del pronóstico

Descartar el No
¿SR ɛ [-2, 2]?
pronóstico 68
Si
PEMA)

Casos de aplicación
Caso: Empresa Aceros S.A.

La empresa Aceros S.A., se dedica a la distribución de aceros, la cual corta hojas de acero de bobinas
suministradas por grandes fabricantes. Un pronóstico exacto de utilización de bobinas podría ser muy útil
para controlar los inventarios de materia prima y eso le permitirá al gerente de la empresa tomar la decisión
de abastecimiento oportuno. Si el pronóstico para la cantidad de acero utilizado para el siguiente periodo es
mayor que 250 kg., entonces decidirá hacer nuevo pedido.

Las cantidades utilizadas en los últimos 16 meses de utilización de acero (en kg) se proporcionan a
continuación:

Año Mes Cantidad de acero (kg)


Octubre 206.807
2020 Noviembre 131.075
Diciembre 124.357
Enero 149.954
Febrero 169.799
Marzo 216.843
Abril 288.965
Mayo 219.018
Junio 65.885
2021
Julio 179.739
Agosto 251.969
Setiembre 205.806
Octubre 304.58
Noviembre 293.434
Diciembre 273.725
2022 Enero 210.629

¿Qué decisión deberá tomar el gerente de la empresa distribuidora de acero? Use un nivel de significación
de 0.05

1. ¿Cuál es la problemática que deberá resolver? Marca con “x” la opción correcta.
a. ¿Existe relación lineal entre la cantidad de acero usado y el tiempo?
b. ¿EL gerente decidirá hacer nuevo pedido de acero para controlar el inventario de materia prima?
c. ¿Cuánto es el pronóstico de cantidad de acero utilizado para el siguiente periodo?
d. ¿La cantidad de acero utilizado para el siguiente periodo es mayor que 250 kg?

69
2. Defina la variable dependiente e independiente del problema.

Y:

X:

1. Identificar el tipo de serie y/o componentes

3. Analice el gráfico de la serie y señale el tipo de serie: estacionaria o no estacionaria

2. Aplicar la técnica estadística para obtener pronósticos


4. Calcular el pronóstico con el método de suavización exponencial simple: ^
Yt + 1 = α Yt + ( 1 - α ) ^
Yt,
donde se utilizó α = 0.3, 0.5, 0.7

70
α = 0.3
t Mes Cantidad de acero (Yt) z෠ƚ et |e t| |e t|/Yt
1 Octubre 206.807 206.8070 0.0000 0.0000 0.0000
2 Noviembre 131.075 206.8070 -75.7320 75.7320 0.5778
3 Diciembre 124.357 184.0874 -59.7304 59.7304 0.4803
4 Enero 149.954 166.1683 -16.2143 16.2143 0.1081
5 Febrero 169.799 161.3040 8.4950 8.4950 0.0500
6 Marzo 216.843 163.8525 52.9905 52.9905 0.2444
7 Abril 288.965 179.7496 109.2154 109.2154 0.3780
8 Mayo 219.018 212.5143 6.5037 6.5037 0.0297
9 Junio 65.885 214.4654 -148.5804 148.5804 2.2551
10 Julio 179.739 169.8913 9.8477 9.8477 0.0548
11 Agosto 251.969 172.8456 79.1234 79.1234 0.3140
12 Setiembre 205.806 196.5826 9.2234 9.2234 0.0448
13 Octubre 304.58 199.3496 105.2304 105.2304 0.3455
14 Noviembre 293.434 230.9187 62.5153 62.5153 0.2130
15 Diciembre 273.725 249.6733 24.0517 24.0517 0.0879
16 Enero 210.629 256.8888 -46.2598 46.2598 0.2196
17 Febrero Pronóstico 243.0109 120.6796 50.8571 0.3377
CEF DAM PEMA
Tabla de resumen
Constante de suavización Pronósticos PEMA
α = 0,3 243,010 33,77%
α = 0,5
α = 0,7

3. Evaluar la idoneidad del pronostico

5. A partir del cálculo de la señal de rastreo, evaluar la idoneidad del pronóstico calculado con cada
constante de suavización (α = 0,3; α = 0,5 y α = 0,7).

Constante de suavización CEF DAM Señal de rastreo (SR)


α = 0,3 120,6796 50,8571

4. Escoger el mejor modelo de pronóstico

6. En base a la medición del error PEMA, escoger el mejor pronóstico.

71
7. La respuesta de la problemática del caso es:

72
Tema: Método de descomposición

Bibliografía:
 Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y
economía. 10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 780
 Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson
Prentice Hall. Capítulo 5.3 Pag 151

Conceptos básicos (después de revisar la infografía)

1. Mencione y describa los componentes de una serie no estacionaria.

2. Si por lo general las ventas de una empresa son más altas en los meses de verano que en los meses de
invierno. Esta variación se denomina Componente:

a. Tendencia b. Estacional c. Aleatorio d. Cíclico

3. Un índice estacional puede ser menor que uno, igual a uno o mayor que uno. Explique qué significaría
cada uno de estos valores.

4. ¿Qué diferencia encuentra Ud. en Y e Y sin estacionalidad?

73
Modelo multiplicativo

El modelo multiplicativo permite descomponer una serie de tiempo no estacionaria como el producto de
cuatro componentes:
Y=TxExCxI
Donde:
Y: Valor real de la variable de interés.
T: Tendencia. Componente que representa el crecimiento o disminución en la serie sobre un periodo a largo
plazo.
E: Estacionalidad. Es un patrón de cambio que se repite de manera regular en periodos de corto plazo.
C: Ciclo/Cíclico. Es la fluctuación en forma de onda alrededor de la tendencia, muestran variaciones a
periodos de mediano plazo.
I: Componente irregular. Son variaciones aleatorias que ocurren en una serie por acontecimientos
inesperados.

Hay series de tiempo no estacionarios que solo contienen el componente de tendencia o solo el
componente estacional o ambos componentes, el de tendencia y estacional a la vez. En este último caso, el
modelo multiplicativo a considerar es:
^
Yt = ^Tt x E
^
t

Donde: ^
Yt : Pronóstico de la variable de interés en el periodo t
^T :Componente estimado de tendencia sin estacionalidad para el periodo t
t
^
E t : Componente estimado de estacionalidad para el periodo t

Procedimiento para realizar pronóstico en serie de tiempo no estacionaria

^ ).
Paso 1: Estimar y analizar el componente estacional ( E
Calcular los índices estacionales ajustados ( E
^ t = IEA )

Paso 2: Desestacionalizar la serie de tiempo.

(
Serie sin el componente estacional Y sin estacionalidad =
Y
^
E
=
Y
IEA )

Paso 3: Estimar el mejor modelo para la tendencia ( T


^ t).
A partir de la serie sin estacionalidad ( Y
^ sin estac ionalidad ), utilizando regresión simple.

Paso 4: Calcular los pronósticos ( Y


^ t ).
Con el mejor modelo de regresión ( Y
^ t  =  T ^ t)
^ t  x  E

74
Casos de aplicación
Caso. Rapid Pinturas S.A.

La fábrica Rapid Pinturas S.A. se dedica a la producción de pinturas desde hace 5 años. Con la finalidad de
incrementar la producción, el gerente de la fábrica decidirá crear una nueva planta de producción solo si, el
número operaciones a realizar en el primer trimestre del 2021, es mayor a 200 operaciones.

Para ello cuenta con datos desde el cuarto trimestre del 2016 hasta el cuarto trimestre del 2020. Analice la
serie histórica del número de operaciones y prepare un informe que ayude a tomar la decisión al gerente.
Use un nivel de significación del 5%.

1. ¿Cuál es la problemática que se deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuánto es el número de operaciones cuando la empresa tiene 5 años de funcionamiento?
b. ¿La fábrica Rapid Pinturas S.A. solicitará crear una nueva planta de producción?
c. ¿Existe relación lineal entre el número de operaciones y producción de pinturas?

2. Defina la variable dependiente (Y) e independiente (X) del problema

Y:

X:

3. A partir del caso se obtuvo la siguiente gráfica de la serie, ¿qué conclusiones podría mencionar?

75
^ ).
Paso 1: Estimar y analizar el componente estacional ( E
Calcular los índices estacionales ajustados ( E
^ t = IEA )

4. Analice los índices estacionales ajustados obtenidos con MINITAB.

Método Índices estacionales

Tipo de modelo Modelo multiplicativo Período Índice


Datos Y 1 0.98464
Longitud 17 2 0.98291
Número de valores 0 3 1.03050
faltantes 4 1.00194

Interpretación de los índices estacionales ajustados.

Índice estacional
Trimestre Interpretación
ajustado (IEA)
En el I trimestre, el número de operaciones está por debajo en un
I 0.98464 1.536% con respecto al promedio del número de operaciones del
año.

II 0.98291

En el III trimestre, el número de operaciones está por encima en un


III 1.03050 3.05 % con respecto al promedio del número de operaciones del
año.

IV 1.00194

Paso 2: Desestacionalizar la serie de tiempo.

(
Serie sin el componente estacional Ysin estacionalidad =
Y
^
=
Y
E IEA )
5. Dividir cada valor de la serie (Y), entre su respectivo índice estacional ajustado (IEA), es decir:
Y
Y sin estacionalidad =
IEA

Tiempo Número de operaciones Y sin estacionalidad


Año Trimestre
(t) (Y t) En Minitab: DAjE1
81
1 2016 IV 81 = 80.84316426
1.00194
2 I 96 97.49756256
3 II 100 101.7387146
2017
4 III 120 116.4483261
5 IV 121 120.7657145
. . . . .
. . . . .
. . . . .

76
Paso 3: Estimar el mejor modelo para la tendencia ( T
^ t).
A partir de la serie sin estacionalidad ( Y
^ sin estac ionalidad ), utilizando regresión simple.

6. Se estima el mejor modelo de la tendencia usando regresión simple. Asuma que se cumplen los
supuestos de todos los modelos de regresión.

- Variable dependiente o respuesta:


- Variable independiente:

Análisis de regresión: DAjE1 vs. T Análisis de regresión: DAjE1 vs. T, T^2


Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 88.04 2.53 34.73 0.000   Constante 80.62 3.43 23.51 0.000  
T 5.537 0.247 22.38 0.000 1.00 T 7.879 0.877 8.98 0.000 18.05
T^2 -0.1301 0.0473 -2.75 0.016 18.05
Resumen del modelo
R-cuad. R-cuad. Resumen del modelo
S R-cuad. (ajustado) (pred) R-cuad. R-cuad.
4.99695 97.09% 96.90% 95.85% S R-cuad. (ajustado) (pred)
4.16892 98.11% 97.84% 96.74%
Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Análisis de Varianza
Regresión 1 12508.3 12508.3 500.94 0.000
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
 T 1 12508.3 12508.3 500.94 0.000
Regresión 2 12639.5 6319.75 363.62 0.000
Error 15 374.5 25.0    
 T 1 1403.0 1402.96 80.72 0.000
Total 16 12882.8      
  T^2 1 131.2 131.22 7.55 0.016
Error 14 243.3 17.38    
Total 16 12882.8      

Análisis de regresión: LN(DAjE1) vs. T Análisis de regresión: LN(DAjE1) vs. LN(T)


Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 4.5236 0.0314 144.00 0.000   Constante 4.3600 0.0211 206.85 0.000  
T 0.04231 0.00307 13.80 0.000 1.00 Ln(T) 0.27621 0.00996 27.74 0.000 1.00

Resumen del modelo Resumen del modelo


R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
0.0619237 92.70% 92.21% 89.31% 0.0316968 98.09% 97.96% 97.32%

Análisis de Varianza Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 0.73052 0.730516 190.51 0.000 Regresión 1 0.77296 0.772964 769.36 0.000
 T 1 0.73052 0.730516 190.51 0.000   Ln(T) 1 0.77296 0.772964 769.36 0.000
Error 15 0.05752 0.003835     Error 15 0.01507 0.001005    
Total 16 0.78803      
77
Total 16 0.78803      

Paso 4: Calcular los pronósticos ( Y


^ t ).
Con el mejor modelo de regresión ( Y
^ t  =  T ^ t)
^ t  x  E

7. Calcular el pronóstico para el I trimestre de 2021

8. La respuesta a la problemática del caso es:

78
MISCELÁNEA

1) La compañía JUGOS S.A. envasa limonada congelada en lastas cuyo peso medio es de 16 onzas.
Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La
tabla siguiente muestra los resultados obtenidos durante un día de la última semana.
15,5 16,0 15,7 15,9
16,1 16,0 15,2 15,9
Asuma que el peso de las latas tiene distribución normal. Estime con 98% de confianza el peso promedio
de las latas. ¿No se cumplió el estándar? Explique.

2) El personal de dos clínicas privadas que tienen las mismas especialidades, ha estudiado los tiempos de
espera de pacientes (en minutos) que llagan solicitando servicio de emergencia. Los siguientes fueron
reunidos en un período de un mes.
Clínica 1 Clínica 2
' '
k Tiempos N° pacientes xi k  Tiempos N° pacientes xi
1 0 - 4 50 2 1 0 - 4 2 2
2 4 - 8 85 6 2 4 - 8 5 6
3 8 - 12 105 10 3 8 - 12 25 10
4 12 - 16 38 14 4 12 - 16 236 14
5 16 - 20 10 18 5 16 - 20 25 18
6 20 - 24 8 22 6 20 - 24 5 22
7 24 - 28 4 26 7 24 - 28 2 26
Total 300   Total  300  
¿Existen diferencias significativas entre los tiempos promedio de atención de ambas clínicas? Utilice un
nivel de significación de 5%.

3) Al pesar un reactivo en un laboratorio aparecen diferencias debidas a las balanzas usadas y a la habilidad
del personal que realizan las mediciones. Se elige tres balanzas y tres técnicos de laboratorio, los
resultados de las mediciones, en gramos, se muestran a continuación:
  Personal
Balanza 1 2 3
1.81 2.04 2.03
1 1.91 1.97 1.98
1.91 1.99 1.94
1.94 2.08 2.03
2 1.90 2.14 1.98
1.99 2.08 2.00
1.83 1.98 1.91
3 1.92 2.05 2.06
1.96 2.03 2.04
a) ¿Puede asegurarse al nivel de significación α=0,05 que hay habilidad homogénea de todos los
técnicos del laboratorio?, ¿Existe interacción entre los factores? Use α=0,05 .
b) Analice los supuestos del modelo. Use α=0,05 .
c) Encuentre el(los) mejor(es) procedimiento(s)

4) Responda brevemente.
Marque verdadero (V) o falso (F) según corresponda:
a. Una ventaja de la multicolinealidad es que los coeficientes de regresión fluctúan de ( )
79
manera notoria de una muestra a otra.
b. Son supuestos del análisis de regresión múltiple: los errores tienen distribución ( )
normal, con media igual a cero y varianza constante.
c. Si el coeficiente de Durbin Watson tiende a dos, existen problemas de ( )
multicolinealidad.
d. La significancia estadística de las variables independientes se verifica con la prueba ( )
conjunta.

5) Un ingeniero industrial de una gran cadena de supermercados le gustaría utilizar el espacio en el estante
para predecir las ventas de alimento para mascotas. Se selecciona una muestra aleatoria de 12 tiendas
de igual tamaño, obteniéndose los siguientes resultados:
Tienda Espacio en el estante (en pies) Ventas semanales (cientos de dólares)
1 5 1.60
2 5 1.88
3 5 1.40
4 10 1.90
5 10 2.26
6 10 2.35
7 15 2.50
8 15 2.70
9 15 2.80
10 20 2.60
11 20 2.90
12 20 3.10

a) Calcule e interprete un intervalo de 95% para la pendiente.


b) ¿Existe una relación lineal significativa entre el espacio del estante y las ventas semanales? Use
α=5 % .
6) Las ventas de aluminio (Y), trimestrales, desde 1985 se indican a continuación (en millones de dólares)

Año Trimestr Y Y sin estacionalidad Los índices estacionales ajustados


e por trimestre son:
2018 1 210 173.0 respectivamente
2018 2 180 156.7
2018 3 60 136.7 Trimestre Índice
2018 4 246 205.3 1 121.4
2019 1 214 176.3 2 114.9
2019 2 216 188.0 3 43.9
2019 3 82 186.8 4 119.8
2019 4 230 192.0
2020 1 246 ?
2020 2 228 ?
2020 3 91 ?
2020 4 280 233.7
Pronostique las ventas de aluminio para 2021

80

También podría gustarte