Está en la página 1de 288

Estadística Aplicada 2 (MA145), ciclo 2013-1

Item Type info:eu-repo/semantics/learningObject

Authors Cuadros, Gonzalo; Tarazona, Enver; Cárdenas Solís, Celia;


Ramírez Infante, Raúl

Publisher Universidad Peruana de Ciencias Aplicadas (UPC)

Rights info:eu-repo/semantics/closedAccess

Download date 12/08/2023 01:22:05

Link to Item http://hdl.handle.net/10757/271215


PRE GRADO

AUTOR : GONZALO CUADROS


ENVER TARAZONA
CELIA CARDENAS
RAUL RAMIREZ

DOCENTES : CELIA CÁRDENAS


RAUL RAMIREZ
MERCEDES TORIBIO
ANA VARGAS

TÍTULO : GUÍA DEL ALUMNO

FECHA : MARZO 2013

CURSO : ESTADÍSTICA APLICADA 2

CÓDIGO : MA145

ÁREA : CIENCIAS

CICLO : 2013 -1
INDICE
1. Muestreo
Conceptos y definiciones básicas 3
Ventajas y desventajas del muestreo frente al censo 4
Encuesta por muestreo: Diseño 5
El cliente 6
Problema específico de investigación 7
Los objetivos, variables, información disponible, análisis cualitativo y cuestionario 8
Diseño de muestreo 16
Definición de la población meta 16
Determinación del marco de muestreo 16
Selección de la técnica del muestreo 16
Determinación del tamaño de muestra 24
Diseño del trabajo de campo 24
Elección de la muestra 24
Recogida de datos 25
Preparación y análisis de los datos 25
Preparación y presentación del reporte 25

2. Prueba de hipótesis
Conceptos generales 29
Prueba de hipótesis para una media poblacional 31
Prueba de hipótesis para una varianza poblacional 32
Prueba de hipótesis para una proporción poblacional 34
Prueba de hipótesis para dos varianzas poblacionales 36
Prueba de hipótesis para dos medias poblacionales 37
Prueba de hipótesis para dos proporciones poblacionales 39

3. Uso de la distribución Ji cuadrada


Prueba de independencia 44
Prueba de homogeneidad de proporciones 47
Prueba de bondad de ajuste 49
Otras pruebas 55

4. Diseños Experimentales
Introducción 60
Diseño completamente aleatorizado 62
Prueba para la diferencia de medias 66
Diseño con Bloques Completos Aleatorizados 70
Experimento Factorial axb 74
Tipos de modelos 74
Diseño factorial de dos factores 75
Pruebas de hipótesis 76
Descomposición de la suma de cuadrados 77
Ejercicios 81

5. Análisis de Regresión Lineal Simple


Análisis de regresión lineal simple y de Correlación 90
El diagrama de dispersión 90
El método de mínimos cuadrados 92

1
La línea recta estimada 93
Descomposición de la varianza total 94
Supuestos de la Regresión 95
Coeficiente de determinación y de no determinación 95
Error estándar de la estimación 95
Coeficiente de correlación 96
Inferencia sobre los coeficientes de regresión 96
Inferencia sobre el coeficiente de correlación 97
Pronósticos 97
Regresión no lineal 107
Ejercicios 112

6. Regresión Múltiple
6.1 Elección de las variables de predicción 132
6.2 El modelo de regresión múltiple 132
6.3 Supuestos del análisis de regresión múltiple 132
6.4 Ecuación de regresión muestral 132
6.5 Coeficiente de regresión 133
6.6 El error estándar de la estimación 134
6.7 Coeficiente de determinación múltiple 134
6.8 Pruebas de hipótesis 135
6.8.1 Pruebas individuales 135
6.8.2 Prueba conjunta 135
6.9 Intervalo de confianza para los coeficientes poblacionales 136
6.10 Multicolinealidad 136
Ejercicios 153

7. Series de Tiempo
Modelo Multiplicativo 177
Tendencia 177
Componente Cíclica 178
Componente estacional 178
Componente irregular 179
Estudio de una serie de tiempo 179
Modelo de tendencia 179
Descomposición de una serie de tiempo 181
Ejercicios 191

8. Método de Atenuación Exponencial


Tipos de Pronósticos 195
Definición de la Atenuación Exponencial 195
Características de la Atenuación Exponencial 196
Señal de Rastreo 196
Medición del Error de Pronóstico 197
Ejercicios 208

MISCELANEA 212
SÍLABO 204
PLAN CALENDARIO

2
1. Muestreo

1.1. Conceptos y definiciones básicas.

La población es el conjunto de todos los elementos que tienen una o más características
comunes. Por ejemplo: la población de todos estudiantes de ingeniería industrial matriculados el
2013 0 en las universidades de Lima, la población de computadoras del Pabellón D de la UPC
en Enero de 2013, la población de vehículos vendidos en el Motor Show Nov-Dic 2012 llevado
a cabo en el Jockey Club, etc.

Esta definición, en todos los casos, debe considerar:

Elemento:: es la unidad acerca de la cual se está solicitando información.


Unidad de muestreo: Es el elemento o elementos que se encuentran disponibles para su
selección en alguna de las etapas de muestreo. En los procedimientos más simple, la unidad
de muestreo puede ser lo mismo que el elemento.
Alcance y tiempo

El marco muestral es una lista de todas las unidades de muestreo que conforman la población y
están disponibles para su elección en la etapa correspondiente del procedimiento de muestreo.

El censo. es la medición de cada elemento de la población que deseamos describir.

Ejemplo.
Los censos nacionales que lleva a cabo el INEI cada cierto período de tiempo.
Los censos se remontan a las primeras civilizaciones conocidas (5000 años a. de J.C). Por
ejemplo los censos romanos que se realizaban cada 5 años.

La muestra es un subconjunto de elementos que han sido extraídos de una población.

El muestreo es el procedimiento mediante el cual se extraen algunos elementos de una


población y sólo de esa parte de la población se obtiene información de seguridad mensurable,
para a través de ella estimar las características importantes de la población.

3
1.2. Ventajas y desventajas del muestreo frente al censo
Ventajas que brinda el muestreo:

a) Ahorro de dinero debido a que el costo por unidad medida u observada


es fijo y se ahorra si se consideran menos unidades al trabajar
únicamente con una muestra.
b) Ahorro de tiempo, como el número de mediciones es menor, se
requiere menos tiempo para completar éste proceso.

c) Mayor precisión, la muestra puede ser más precisa porque:


Se reduce la magnitud de los errores no muestrales.
Menos personal necesario para hacer las mediciones (u
observaciones)
Personal con mejor preparación.
Puede variar las condiciones del estudio si se demora su ejecución.
d) Conveniencia; es conveniente el uso de una muestra si el estudio
ocasiona, por ejemplo, la destrucción de la unidad estudiada o el sesgo
en mediciones futuras.

Ejemplo.
Para verificar la letalidad de cierto veneno para ratas se experimentará
con una muestra de estos animales.

Desventajas del muestreo:


a) Las estimaciones resultantes del muestreo están afectas del
inevitable error de muestreo.

b) La información proveniente de una muestra no proporciona


información tipo inventario para cada uno de los elementos de la
población.

c) Las estimaciones no pueden subdividirse para pequeños dominios


de análisis, considerando que no todos ellos pueden estar
representados debidamente en la muestra.

4
d) Requiere de personal especializado y experimentado.

Ejercicios
1) Defina la población, muestra, unidad de muestreo, elemento y variables; en cada uno
de los siguientes casos:

a) Cuando se desea determinar el porcentaje de estudiantes de la UPC que aprobaron


al menos un curso en el ciclo de verano extraordinario.

b) Se quiere determinar cuál es el tiempo promedio que tarda un alumno en


desarrollar una práctica calificada del curso matemática básica.

c) SISTEMAS S.A. desea estudiar la confiabilidad de su sistema de cómputo. Se sabe


que la confiabilidad de un sistema de cómputo se mide en términos de la vida de
un componente de hardware específico, por ejemplo, la unidad de disco. Con
objeto de estimar la confiabilidad del sistema de SISTEMAS S.A., se prueban 100
componentes de computadora hasta que fallen, y se registra el tiempo de vida.

2) ¿Cuál es la diferencia entre censo y muestreo?

Tarea de investigación
3) ¿Qué tipo de información brindan los censos realizados por el INEI? Liste la
información que proporciona por rubros de investigación.

4) Investigue las características de la Encuesta de Hogares que realiza el INEI en cuanto


a:
a) Población.
b) Muestra
c) Elemento.
d) Periodicidad.
e) Información recolectada.

1.3. Encuesta por muestreo: Diseño


La encuesta por muestreo, es el conjunto de procesos, actividades y operaciones a realizar con la
finalidad de investigar sobre una problemática de interés.
El gráfico siguiente muestra los pasos a seguir en una encuesta por muestreo:

5
1.3.1. El cliente
¿Quién es?, ¿dispone de medios?, ¿tiene exigencias?, ¿tiene objetivos claros?, etc.

6
1.3.2. Problema específico de investigación

Tema de
investigación
Realidad:
Objeto, fenómeno o
situación

Obstáculo a la Obstáculo a la
Problema comprensión de la intervención o a la
general realidad acción sobre lo real

Necesidad de Necesidad Necesidad Necesidad de


Pregunta describir la de explicar de producir elegir o
general realidad la realidad o crear algo seleccionar
real algo real

 Ausencia total o parcial de investigaciones sobre un


objeto, sobre la existencia de un fenómeno y las
condiciones en las cuales se produce.
 Incertidumbre respecto a la posibilidad de reproducir las
observaciones de una investigación anterior.
 Imposibilidad de generalizar conclusiones de una
Problema investigación a causa de problemas metodológicos.
específico
 Contradicción aparente entre diversas observaciones.
 Falta de verificación total o parcial de modelos, de
interpretaciones, de teorías.
 Estancamiento en el progreso de los conocimientos sobre
una realidad dada.

Necesidad de saber ciertas cosas


Pregunta específicas
específico

Hipótesis

Uso de métodos de
investigación

7
1.3.3. Los objetivos, variables, información disponible, análisis cualitativo
y cuestionario
A. Objetivos
La definición de los objetivos de un estudio reposa sobre tres etapas importantes:

Etapa 1. Elección / Identificación de un problema general de investigación (un tema, una


pregunta general)

Etapa 2. Establecimiento de la problemática:


 Definición de los conceptos
 Identificación de las variables
 Delimitación del campo de estudio
 Identificación de las variables y sus relaciones.
Esta etapa se basa en la formulación de hipótesis.

Etapa 3.Definición del problema específico de investigación.


 Formulación de preguntas específicas.
 Ubicación de esas preguntas en la problemática.
Aquí también es importante la formulación de hipótesis.

B. Las variables
Son las características que se desea medir en la población.

Clasificación
 Variable directa: Ejemplo: facultad, edad, peso, etc.
 Indicador: Variable que identifica a un concepto.
Ejemplo: Calidad en el servicio de cafetería de la universidad.

Medición de variables
Medición significa asignar números u otros símbolos a las características de los objetos de
acuerdo con ciertas reglas especificadas con anterioridad.
La medición de las variables se realiza a través de las escalas.
La escala de medición de una variable tiene gran influencia en la manera de utilizarlas en el
análisis.

Escala de medición primarias


Escala nominal: Si los datos observados se clasifican en diversas categorías distintas en las
que no se identifica ningún orden.
Ejemplo
Variable categórica Categoría
Profesión Administrador
Economista
Ingeniero
Medico
Profesor
Otra

8
¿Tiene celular de CLARO? 1: Sí
2: No

Nacionalidad Argentino
Boliviano
Chileno
Peruano

Escala ordinal: Cuando los datos observados se clasifican en distintas categorías en las que
se establece algún orden.

Ejemplo
Variable Categoría
categórica
Primero
Ciclo académico Segundo
...

Bachiller
Grado académico Magíster
Doctor

Escala de intervalos: Es una escala ordenada en la que la diferencia entre las mediciones es
una cantidad significativa. Existe un cero relativo.
Ejemplo: Temperatura : 0 grados Centigrados

Escala de razón: Cuando además de establecer diferencias significativas entre las


mediciones, es posible establecer cocientes significativos. Existe un cero absoluto.

Ejemplo:
Variable cuantitativa Nivel de
medición
Temperatura Intervalo
Talla de una persona Razón
Peso de una bolsa de arroz Razón

9
Otras escalas de medición

Escala Características básicas Ejemplos Ventajas Desventajas


Grado de acuerdo con
Fácil de
base en una escala de 1
Escala de Medición de las elaborar, Se lleva más
(por completo en
Likert acitudes aplicar y tiempo
desacuerdo) a 5 (por
aprender
completo de acuerdo)
Diferencial Imagen de marcas, Controversias
Escala de siete puntos
semántico productos y Versátil sobre si los datos
con etiquetas bipolares
empresas son de intervalos
La calificación
Escala de Reacción a los puede ser
Colocar una marca en Fácil de
clasificación comerciales de confusa a menos
una línea continua elaborar
continua televisión de que sea por
computadora

Ejemplos:

1. Escala de Likert

Instrucciones
A continuación, presentamos diversas opiniones sobre la tienda SAGA. Favor de indicar si
está de acuerdo o en desacuerdo con cada una, marcando con X su elección en la escala
siguiente:
1 = por completo en desacuerdo
2 = en desacuerdo
3 = no estoy de acuerdo ni en desacuerdo
4 = de acuerdo
5 = por completo de acuerdo

Las Cuenta
Tiene un Vende una
Vende políticas con No me
servicio Me gusta extensa Carga
mercancía de crédito tiendas en gusta la
Alternativas deficiente comprar variedad precios
de alta de Saga todo publicidad
en sus en Saga. de adecuadas
calidad son Estados que usa
tiendas mercancía
terribles Unidos
Por completo
5 5 5 5 5 5 5 5
de acuerdo

De acuerdo 4 4 4 4 4 4 4 4

No estoy de
acuerdo ni en 3 3 3 3 3 3 3 3
desacuerdo
En
2 2 2 2 2 2 2 2
desacuerdo
Total
1 1 1 1 1 1 1 1
desacuerdo

10
2. Escala de diferencial semántico
Para medir el concepto de sí mismo, los conceptos personales y los conceptos del producto.
Tosco :---: ---:---: ---:---: ---:--: ---: Delicado
Incómodo :---: ---:---: ---:---: ---:--: ---: Cómodo
Dominante :---: ---:---: ---:---: ---:--: ---: Sumiso
Agradable :---: ---:---: ---:---: ---:--: ---: Desagradable
Contemporáneo :---: ---:---: ---:---: ---:--: ---: Anticuado
Racional :---: ---:---: ---:---: ---:--: ---: Emocional
Formal :---: ---:---: ---:---: ---:--: ---: Informal
Modesto :---: ---:---: ---:---: ---:--: ---: Vanidoso

3. Escala de clasificación continua


Entre las producciones nacionales, la serie “Al fondo hay sitio” puede calificarse como:
Quizá la peor Quizá la mejor
0 10 20 30 40 50 60 70 80 90 100
Colocar una marca en una línea continua que represente su opinión.

C. La información disponible
Una de las primeras etapas que precede al estudio de un problema específico consiste en
buscar la información disponible: Fuente interna (en el cliente) o Fuente externa (de otras
instituciones).
Esta información es secundaria, en la medida en que no es obtenida o construida
específicamente para el estudio.
Los principales medios para obtenerla son:
 La investigación documental (obras específicas, revistas científicas, prensa especializada,
etc)
 La consulta de expertos
 El análisis de estudios similares
 Internet
D. El análisis cualitativo
El análisis cualitativo tiene por objeto contribuir a la definición de la problemática y al
planteamiento de las preguntas específicas. Puede, en particular, facilitar la selección de los
indicadores (variables) que deben ser medidos en el transcurso de la encuesta.
Se pueden utilizar varios métodos, entre los que tenemos:

 Discusiones de grupo  Entrevistas individuales

11
E. Elaboración del formato de recolección de datos.
El cuestionario
Un cuestionario, ya sea que se trate de un programa, una forma de entrevista o un
instrumento de medición, es un conjunto formal de preguntas para obtener información por
parte de los entrevistados.
Por lo general el cuestionario es parte del paquete de recopilación de datos que también
puede incluir:
 Los procedimientos del trabajo de campo (instrucciones para seleccionar, acercarse e
interrogar a los entrevistados)
 Alguna recompensa, regalo o pago que se ofrece a los entrevistados.
 Apoyo para la comunicación, como mapas, fotografías, anuncios, productos y tarjetas
de respuestas.

El siguiente diagrama esquematiza el proceso de diseño de cuestionarios:

Especificar la información necesaria

Especificar el tipo de modelo de entrevista

Determinar el contenido de las preguntas individuales

Diseñar las preguntas para superar la incapacidad y la


falta de disposición del entrevistado para responder

Decidir sobre la estructura de las preguntas

Determinar la redacción de las preguntas

Acomodar las preguntas en el orden apropiado

Identificar la forma y disposición

Reproducir el cuestionario

Eliminar los problemas mediante la prueba previa

12
Ejemplo de cuestionario
Encuesta Alumnos UPC (*)
Código: __________________
Facultad: ___________________
Ciclo (considere el de mayor número de cursos que esta matriculado): ____________

1. Promedio ponderado del ciclo anterior: _____________

2. Cuantas semanas antes del finalizar el ciclo considera que debe ser la pre matricula para el
siguiente ciclo ______________________________

3. En el proceso de matricula 2006-2, tuviste algún problema.


a. SI b. NO
4. ¿Cuántos problemas tuviste? _____________________
5. ¿Cuántos de los problemas que tuviste se pudieron resolver?_______________
6. Cual piensas que puede ser la causa más importante para que secretaría académica no
pueda brindar un servicio de matricula optimo.
a. Falta de personal para la atención al alumno.
b. Falta de una infraestructura adecuada.
c. Eficiencia en su personal.
d. Falta de coordinación entre secretaria académica y las áreas y/o carreras.
e. Fallas en el reglamento de matricula.
f. Fallas en el sistema de matricula en línea.
7. Como calificas dentro de la matricula lo siguiente:
Alternativa Servicio Trato recibido Proceso
Muy bueno 5 5 5
Bueno 4 4 4
Regular 3 3 3
Malo 2 2 2
Muy Malo 1 1 1

8. Si tuviste que acercar a la oficina de secretaria académica para resolver algún problema
relacionado con la matricula ¿Cuántos MINUTOS se demoraron para atenderte?
________________________ MINUTOS

13
9. ¿Qué porcentaje de los cursos que te prematriculas finalmente te matriculas?_______________

10. ¿Has hecho alguna vez matricula complementaria?


a. SI
b. NO.
11. Cómo calificas este proceso
a. Muy bueno
b. Bueno
c. Regular
d. Deficiente

12. Con la matricula complementaria en que rubros encontraste mayor problemática.


a. Permiso para dispersión de niveles.
b. Permiso para llevar cursos de otra carrera.
c. Extensión de vacantes en algún curso.
d. Muy poca oferta de horarios.
e. Atención para la matricula complementaria.

13. Cuantos cursos que pensabas matricularte no pudiste hacerlo con la matricula
complementaria. ___________________________

14. Cual de estos problemas te gustaría cambiar


a. La duda en la prematricula acerca de los cursos.
b. Las largas colas para ser atendido
c. Los pocos salones para elegir
d. La poca información acerca de las fechas para cada parte del proceso de matricula.

¡Gracias por tu colaboración!

(*) Tomado del trabajo de investigación: Matricula. Ciclo 2006-2

14
Ejercicios
1) Especifique si cada una de las siguientes variables es cualitativa o cuantitativa. Por
cada variable, identifique la escala de medición:
a) Precio de una bolsa de arroz.
b) La calificación de un examen.
c) El año de nacimiento.
d) Indicadores macroeconómicos de un país.
e) Grupos organizados feministas.
f) Empresas del sector industrial.
g) La temperatura ambiente (ºC)
h) Opinión sobre la nueva ley del libro en una escala de 1 a 5 puntos.
2) ¿Cuáles son los pasos a seguir en una encuesta por muestreo?
3) ¿Por qué es importante definir los objetivos de la investigación?
4) ¿Cuáles son las fuentes de información primaria?
5) ¿En qué consiste la información disponible?
6) ¿Cómo se clasifica las variables? Cite dos ejemplos.
7) ¿Qué diferencias existen entre la escala nominal y la ordinal?
8) Cite dos ejemplos de variables medidas en escala de intervalos.
9) Cite dos ejemplos de variables medidas en escala de razón.
10) Cite un ejemplo de escala de diferencial semántico.
11) Cite dos ejemplos de escala Likert.
12) Cite dos ejemplos de escala de clasificación continua.
13) ¿Qué es un cuestionario?
14) ¿Qué involucra el tratamiento de un cuestionario?
15) ¿Qué procesos son posibles de resolver en el tratamiento, análisis e interpretación de
resultados?
16) Diseñe un cuestionario para recolectar información referente a la opinión que tienen
los alumnos de la UPC sobre la calidad de atención de la nueva cafetería.

Un cambio a la conciencia
“Un número cada vez mayor de gente en todo el mundo está llegando a la conclusión de
que la conciencia es fundamental, que la mente o el espíritu tienen una realidad,
comparable a los objetos materiales (Harman 1988: Renesch 1991, Cook 1991; Rothschild
1991). Muchos tuvieron experiencias transformadoras (sueños que cambiaron sus vidas,
viajes interiores que revelaron nuevas visiones, experiencias cercanas a la muerte, una
serie de conocimientos intuitivos [Porter, s/fecha] que los llevó a darse cuenta de que son
más que su cuerpo físico y su mente lógica, que existen categorías de realidad más allá de
lo que se puede ver, tocar, saborear y oler.
Al reexaminar las conjeturas, los valores y las orientaciones de sus vidas, la gente está
comenzando a considerarse a sí mismas como la creadora de sus realidades. Pone énfasis
en la interconexión y la totalidad –de todos y de todo- y subraya el papel fundamental de la
sabiduría interior y la autoridad interior (Harman 1988, 1992). En general, se compromete
a efectuar un cambio diferente en el mundo ”
Tomado de: La Cuarta Ola El mundo de los negocios en el siglo XXI.Herman Bryant
Maynard, Jr y Susan E. Mehrtens. pg. 53

15
1.3.4. Diseño de muestreo
Involucra definir la población meta y el marco de muestreo, cálculo del tamaño de muestra y
la elección de la técnica de muestreo a utilizar.

1.3.4.1. Definición de la población meta


La población meta es el conjunto de elementos que tienen características de interés para
el investigador. Es muy importante definir claramente la población, porque de esto
dependerá el éxito del trabajo de investigación (explicitar tiempo y espacio, por ejemplo
Nacimientos registrados en Lima, durante Agosto del 2012).

Ejemplo
Se desea conocer qué porcentaje de los estudiantes de la UPC practican deporte.
Entonces la población meta está constituida por los estudiantes que están matriculados
en el ciclo 2012-2.

1.3.4.2. Determinación del marco de muestreo.


El marco de muestreo consiste en una lista o grupo de indicaciones para identificar la
población meta.

Ejemplo
Listado de los estudiantes matriculados en el ciclo 2012-2 proporcionada por secretaría
académica.

1.3.4.3. Selección de la técnica de muestreo.


En esta etapa se decidirá si se emplea una técnica probabilística o no probabilística para
la selección de la muestra elegida.

1.3.4.3.1. Muestreo no probabilístico.


Cuando la selección de un elemento que formará parte de la muestra se basa en el
criterio del investigador. No todos los elementos de la población tienen una
probabilidad conocida de pertenecer a la muestra. Algunos de estos procedimientos
son:

Muestreo de conveniencia.- En este tipo de muestreo,


los elementos se seleccionan, como su nombre lo indica,
de acuerdo a la conveniencia del investigador.
Ejemplo.
En el estudio sobre los beneficios de utilizar un celular de
la marca CLARO, se puede entrevistar a los estudiantes
que están en el área de la cafetería. Como puede notarse
no se especifica la población total de la que fue extraída
la muestra ni todos los miembros de dichas poblaciones
tuvieron oportunidad de ser seleccionados. No es posible
medir cuan adecuadas son las inferencias que podamos
hacer a partir de estas muestras.

16
Muestreo de comparación.- En este tipo de muestreo se selecciona la muestra de
acuerdo con lo que un experto piensa acerca de la contribución de los diferentes
elementos de la población a la cuestión particular que se esta investigando.

Ejemplo.
La declaración de expertos como testigos en la corte; la selección de un
supermercado para probar presentación de un producto; etc.
En todos los casos se desconoce la magnitud y la dirección del error.

Muestreo por grupos.- Es este muestreo se busca obtener una muestra que sea
similar en composición a la población de acuerdo con algunas características de
control.
Debe de tenerse en cuenta una descripción de aquellas características de control y
además conocer la distribución de éstas en toda la población. Con esta información se
forman subgrupos de la población que son muestreados por algún procedimiento no
probabilístico.

1.3.4.3.2. Muestreo probabilístico:


En el muestreo probabilístico, la selección de cada elemento de la muestra se hace
siguiendo reglas matemáticas de decisión. Todos los elementos de la población
tienen una probabilidad real y conocida de ser seleccionados.

A. Muestreo aleatorio simple.


Es el procedimiento de seleccionar muestras en el que al seleccionar en forma
aleatoria y sin reemplazo a “n” unidades de muestreo de una población que contiene
un total de N unidades, se garantiza que cada uno de los elementos tiene la misma
probabilidad de ser elegida.

Pasos a seguir para seleccionar una N


muestra aleatoria simple
n
Se enumeran las unidades del marco
muestral con números sucesivos.
Con un generador de números aleatorios,
se seleccionan tantos elementos del
marco muestral como sea el tamaño
requerido de la muestra.

17
B. Muestreo aleatorio estratificado.
Estratificar significa dividir a la población en varias partes de acuerdo con ciertas
características de sus elementos. El objetivo de estratificar la población es buscar
homogeneidad entre los estratos, a fin de reducir el error estándar de los estimadores.

Pasos a seguir para seleccionar una muestra estratificada


1. Se divide a la población en estratos que sean mutuamente excluyentes y
colectivamente exhaustivos. Esto es, que incluyan a todos los elementos de la
población y que cada elemento pertenezca solamente a un estrato.
2. Para cada uno de los estratos, se seleccionan muestras aleatorias simples
N1 N2 N3

n1 n2 n3

Recomendaciones para el uso de muestras estratificadas

 Si se tiene que usar más de una variable para formar los estratos, cuidar que estas
no estén relacionadas entre sí.
 No se deben considerar la formación de muchos estratos, generalmente se usan
entre 3 y 8 estratos.
 Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto
pueden no ser considerados.

C. Muestreo sistemático.
En el muestreo sistemático, se debe elegir un elemento del marco muestral cada
cierto intervalo. Este muestreo supone que se cuenta con una enumeración completa
de los elementos de la población. El tamaño del intervalo (K), es el recíproco de la
fracción de muestreo. K debe ser un número entero, redondeado por truncamiento.

1 N
K 
f n

Procedimiento para seleccionar una muestra sistemática:

El procedimiento consiste en seleccionar aleatoriamente un número entero entre 1 y


k, llamado arranque aleatorio (A), y a partir de este número elegido seleccionar el
siguiente que ocupa la posición A + K del listado del marco muestral, y así
sucesivamente hasta completar la muestra necesaria.

18
Ejemplo 1 (N = 12, n = 4, K = 3)
1.- 12 6.- 37 11.- 90
2.- 23 7.- 40 12.- 97 ¿Cuál es el arranque
aleatorio para este
3.- 35 8.- 54
ejemplo? Use la
4.- 23 9.- 74 columna C3
5.- 35 10.-86 .............
______

Ejercicio (N = 15, n = 6, K = 2.5 = 2)


1.- 45 6.- 87 11.- 90
2.- 33 7.- 43 12.- 99 ¿Cuál es el arranque
3.- 55 8.- 59 13.- 35 aleatorio para este
4.- 45 9.- 63 14.- 32 ejemplo? Use la
5.- 39 10.-82 15.- 83 columna C4
..............
______

D. Muestreo por conglomerados.


Este muestreo es útil cuando las unidades de análisis en la población se consideran
agrupadas en conglomerados. Cada conglomerado constituirá una unidad de
muestreo.

 Muestreo por conglomerados en una etapa


Se selecciona una muestra aleatoria de conglomerados y el análisis se realizará
considerado todas las unidades de análisis que conforman dichos conglomerados
elegidos.

N


3° n




 Muestreo por conglomerado en dos etapas.


En los conglomerados seleccionados al azar, se podría seleccionar una submuestra de
unidades y enumerar únicamente esa submuestra de unidades (muestreo polietápico).

19
N


3° n




EJEMPLOS DESARROLLADOS

Muestreo aleatorio simple

Utilice los datos de la Tabla Nº 1 para estimar el costo promedio de reparación,


mediante una muestra de 10 elementos seleccionados aleatoriamente. Utilice
como columna de arranque la C1; C7; C15 de la tabla de números aleatorios.

Muestra X021 X131 X003 X053 X137 X019 X012 X014 X093 X092
Costo
571 244 438 116 107 386 365 434 283 134
Reparación

571  ...  134


x  307,8
10

Muestreo estratificado

Seleccione una muestra aleatoria estratificada de 12 fallas con asignación


proporcional al tamaño del estrato (tipo de falla) y estime cuál es el costo
promedio gastado en la reparación para cada uno de los estratos y para la
muestra total, indique además el error muestral si se sabe que el costo de
reparación promedio poblacional es de 257.8067 dólares.

Estrato1: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.


Estrato2: utilice las columnas C7, C9, C10, C11 de la tabla de números
aleatorios
Estrato 3: utilice las columnas C1, C3, C5 de la tabla de números aleatorios.
Estrato 4: utilice las columnas C7, C9, C10, C12 de la tabla de números aleatorios

20
SOLUCIÓN

Estrato Ni Proporción ni
Electrónico 33 0.2200 2.64 3
Eléctrico 49 0.3267 3.92 4
Mecánico 38 0.2533 3.04 3
Montaje 30 0.2000 2.4 2
Total 150 12

Estrato 1: Electrónico Estrato 2: Eléctrico Estrato 3: Mecánico Estrato 4: Montaje


X02 = 593 X35 = 573 X083=182 X 135= 253
X16= 358 X 41= 242 X 098= 135 X126 = 231
X29=232 X66=231 X 109= 279
X40=278
Media estrato 1= 394.33 Media estrato 2 = 331 Media estrato 3 = 198.66 Media estrato 4 = 242
Media de toda la muestra = 298.9166 Error muestral = 41.1099

Muestreo sistemático
Utilice la tabla de números aleatorios y a partir de la primera fila de la columna C5
seleccione una muestra de tamaño 12 de los datos contenidos en la Tabla 2. Aplique un
muestreo sistemático.

Elabore un listado con el número del dato seleccionado y su valor respectivo

SOLUCIÓN

N=_________ K= _________ A=__________

Nº X1 X5 X9 X13 X17 X21 X25 X29 X33 X37 X41 X45


Kilometraje
153 89 28 34 20 24 126 57 66 68 56 56
en miles

Promedio Muestral : 64.75

Promedio Poblacional: 61.02

Error Muestral: _______

21
Tabla No 1
Costo de Turno Costo de Turno Costo de Turno

Intensi

Intensi

Intensi
Tipo de Tipo de Tipo de

dad

dad

dad
N° reparación de la N° reparación de la N° reparación de la
Falla Falla Falla
(dólares) Falla (dólares) Falla (dólares) Falla
1 Electrónico 458 Día Grave 51 Eléctrico 353 Noche Leve 101 Mecánico 300 Día Leve
2 Electrónico 593 Día Grave 52 Eléctrico 196 Noche Leve 102 Mecánico 113 Día Leve
3 Electrónico 438 Día Grave 53 Eléctrico 116 Noche Leve 103 Mecánico 165 Día Leve
4 Electrónico 570 Día Grave 54 Eléctrico 224 Noche Leve 104 Mecánico 102 Día Leve
5 Electrónico 442 Día Grave 55 Eléctrico 269 Noche Leve 105 Mecánico 222 Día Leve
6 Electrónico 220 Día Grave 56 Eléctrico 297 Noche Leve 106 Mecánico 260 Día Leve
7 Electrónico 533 Día Grave 57 Eléctrico 261 Noche Leve 107 Mecánico 208 Día Leve
8 Electrónico 326 Día Grave 58 Eléctrico 136 Noche Leve 108 Mecánico 175 Noche Leve
9 Electrónico 285 Día Grave 59 Eléctrico 317 Noche Leve 109 Mecánico 279 Noche Leve
10 Electrónico 510 Día Grave 60 Eléctrico 134 Noche Leve 110 Mecánico 111 Noche Leve
11 Electrónico 436 Día Grave 61 Eléctrico 113 Noche Leve 111 Mecánico 114 Noche Grave
12 Electrónico 365 Noche Grave 62 Eléctrico 237 Noche Leve 112 Mecánico 138 Noche Grave
13 Electrónico 222 Noche Grave 63 Eléctrico 283 Noche Leve 113 Mecánico 171 Noche Grave
14 Electrónico 434 Noche Grave 64 Eléctrico 277 Noche Leve 114 Mecánico 97 Noche Grave
15 Electrónico 424 Noche Trivial 65 Eléctrico 123 Noche Leve 115 Mecánico 146 Noche Grave
16 Electrónico 358 Noche Trivial 66 Eléctrico 231 Noche Leve 116 Mecánico 190 Noche Grave
17 Electrónico 222 Noche Trivial 67 Eléctrico 129 Noche Leve 117 Mecánico 168 Noche Grave
18 Electrónico 280 Noche Trivial 68 Eléctrico 241 Noche Leve 118 Mecánico 258 Noche Grave
19 Electrónico 386 Noche Trivial 69 Eléctrico 159 Noche Leve 119 Mecánico 115 Noche Grave
20 Electrónico 346 Noche Trivial 70 Eléctrico 387 Noche Leve 120 Mecánico 127 Noche Grave
21 Electrónico 571 Noche Trivial 71 Eléctrico 311 Noche Leve 121 Montaje 91 Noche Grave
22 Electrónico 222 Noche Trivial 72 Eléctrico 318 Día Leve 122 Montaje 120 Noche Grave
23 Electrónico 293 Noche Trivial 73 Eléctrico 376 Día Leve 123 Montaje 108 Noche Grave
24 Electrónico 488 Noche Trivial 74 Eléctrico 292 Día Leve 124 Montaje 159 Noche Grave
25 Electrónico 449 Noche Trivial 75 Eléctrico 389 Día Leve 125 Montaje 129 Noche Grave
26 Electrónico 600 Noche Grave 76 Eléctrico 146 Día Leve 126 Montaje 231 Noche Grave
27 Electrónico 410 Día Grave 77 Eléctrico 334 Día Leve 127 Montaje 268 Noche Grave
28 Electrónico 271 Día Grave 78 Eléctrico 274 Día Leve 128 Montaje 298 Noche Grave
29 Electrónico 232 Día Grave 79 Eléctrico 113 Día Trivial 129 Montaje 177 Noche Grave
30 Electrónico 252 Día Grave 80 Eléctrico 190 Día Trivial 130 Montaje 230 Noche Grave
31 Electrónico 336 Día Grave 81 Eléctrico 163 Día Trivial 131 Montaje 244 Noche Grave
32 Electrónico 465 Día Grave 82 Eléctrico 115 Día Trivial 132 Montaje 141 Noche Grave
33 Electrónico 374 Día Grave 83 Mecánico 182 Día Trivial 133 Montaje 80 Noche Trivial
34 Eléctrico 374 Día Grave 84 Mecánico 225 Día Trivial 134 Montaje 288 Noche Trivial
35 Eléctrico 573 Día Grave 85 Mecánico 219 Día Trivial 135 Montaje 253 Noche Trivial
36 Eléctrico 346 Día Grave 86 Mecánico 288 Día Trivial 136 Montaje 185 Día Trivial
37 Eléctrico 451 Día Grave 87 Mecánico 166 Día Trivial 137 Montaje 107 Día Trivial
38 Eléctrico 567 Día Grave 88 Mecánico 123 Día Trivial 138 Montaje 260 Día Trivial
39 Eléctrico 545 Noche Grave 89 Mecánico 207 Día Trivial 139 Montaje 245 Día Trivial
40 Eléctrico 278 Noche Grave 90 Mecánico 220 Día Trivial 140 Montaje 131 Día Trivial
41 Eléctrico 242 Noche Grave 91 Mecánico 260 Día Trivial 141 Montaje 113 Día Trivial
42 Eléctrico 242 Noche Grave 92 Mecánico 134 Día Trivial 142 Montaje 261 Día Trivial
43 Eléctrico 247 Noche Grave 93 Mecánico 283 Día Trivial 143 Montaje 118 Día Trivial
44 Eléctrico 262 Noche Trivial 94 Mecánico 325 Día Trivial 144 Montaje 93 Día Trivial
45 Eléctrico 265 Noche Trivial 95 Mecánico 218 Día Trivial 145 Montaje 169 Día Trivial
46 Eléctrico 282 Noche Trivial 96 Mecánico 197 Día Trivial 146 Montaje 289 Día Trivial
47 Eléctrico 283 Noche Trivial 97 Mecánico 250 Día Trivial 147 Montaje 145 Día Trivial
48 Eléctrico 285 Noche Trivial 98 Mecánico 135 Día Trivial 148 Montaje 117 Día Trivial
49 Eléctrico 286 Día Trivial 99 Mecánico 290 Día Trivial 149 Montaje 89 Día Trivial
50 Eléctrico 286 Día Trivial 100 Mecánico 303 Día Trivial 150 Montaje 155 Día Trivial

22
Tabla No 2
Precio del Categoría del
Nº Origen Kilometraje (miles)
componente componente
1 Nacional 153 $75+ Lujo
2 Nacional 23 menos de $25 Económico
3 Importado 76 $75+ Lujo
4 Nacional 24 menos de $25 Económico
5 Importado 89 $75+ Lujo
6 Nacional 24 menos de $25 Económico
7 Nacional 137 $75+ Lujo
8 Importado 159 $75+ Lujo
9 Nacional 28 $25 - $49 Económico
10 Nacional 23 menos de $25 Económico
11 Nacional 21 menos de $25 Económico
12 Importado 17 menos de $25 Económico
13 Importado 34 $25 - $49 Estándar
14 Importado 47 $25 - $49 Estándar
15 Importado 33 $25 - $49 Estándar
16 Importado 41 $25 - $49 Estándar
17 Nacional 20 menos de $25 Económico
18 Importado 22 menos de $25 Económico
19 Importado 21 menos de $25 Económico
20 Nacional 13 menos de $25 Económico
21 Nacional 24 menos de $25 Económico
22 Nacional 32 $25 - $49 Estándar
23 Nacional 109 $75+ Lujo
24 Importado 89 $75+ Lujo
25 Nacional 126 $75+ Lujo
26 Importado 82 $75+ Lujo
27 Nacional 105 $75+ Lujo
28 Nacional 178 $75+ Lujo
29 Nacional 57 $50 - $74 Estándar
30 Importado 50 $50 - $74 Estándar
31 Importado 55 $50 - $74 Estándar
32 Importado 52 $50 - $74 Estándar
33 Importado 66 $50 - $74 Lujo
34 Importado 62 $50 - $74 Lujo
35 Importado 61 $50 - $74 Lujo
36 Importado 59 $50 - $74 Estándar
37 Nacional 68 $50 - $74 Lujo
38 Nacional 62 $50 - $74 Lujo
39 Nacional 57 $50 - $74 Estándar
40 Nacional 65 $50 - $74 Lujo
41 Importado 56 $50 - $74 Estándar
42 Nacional 59 $50 - $74 Lujo
43 Importado 66 $50 - $74 Lujo
44 Nacional 65 $50 - $74 Lujo
45 Importado 56 $50 - $74 Estándar
46 Importado 54 $50 - $74 Estándar
47 Importado 51 $50 - $74 Estándar
48 Nacional 60 $50 - $74 Estándar
49 Nacional 61 $50 - $74 Estándar
50 Nacional 59 $50 - $74 Estándar

23
1.3.4.4. Determinación del tamaño de muestra
El tamaño de muestra constituye el número de elementos que deberán ser seleccionados
de la población meta, ya sea utilizando una técnica probabilística o no probabilística.
Para el cálculo del tamaño de muestra es necesario tener en cuenta algunas
consideraciones previas que se desarrollarán en el capítulo de inferencia.

1.3.4.5. Diseño del trabajo de campo


El trabajo de campo comprende los siguientes aspectos: la selección, capacitación y
supervisión de las personas que recolectarán los datos; asimismo la validación del
trabajo de campo y la evaluación de los encuestadores.

Es importante que los entrevistadores reúnan


ciertas características, como gozar de buena salud,
ser sociables, comunicativos, agradables,
educados y tener experiencia.

En la capacitación de los entrevistadores deberá


considerarse los aspectos importantes del trabajo
de campo, incluyendo el establecimiento del
contacto inicial, modo de hacer las preguntas,
indagar sobre las mismas, la manera de registrar
las respuestas y la forma de terminar la entrevista.

La supervisión de los entrevistadores comprende la edición y control de calidad


(verificación de que tanto los procedimientos de control de la muestra y el control del
trabajo de campo se realicen apropiadamente), control de la falsificación y control de la
oficina central (incluye la tabulación de la variables, las características demográficas y
las respuestas claves)

La validación del trabajo de campo permite verificar si realmente los encuestadores


realizaron las entrevistas. Para esto el supervisor puede realizar llamadas telefónicas o
una reencuesta entre el 10 a 25% de los entrevistados para confirmar si la entrevista se
llevó a cabo y si se respetó las indicaciones para el levantamiento de la información.

En la evaluación de los encuestadores se tomará en cuenta los criterios de costo y


tiempo, índices de respuestas, calidad de la entrevista y calidad de los datos.

1.3.4.6. Elección de la muestra


Se seleccionará los elementos del marco de muestreo que conformarán la muestra
aplicando la técnica de muestreo apropiada para el estudio que se desea llevar a cabo.

24
1.3.4.7. Recogida de datos
Llegado el momento previsto para el levantamiento de los datos se procederá utilizando
según sea el caso alguno de los siguientes medios:

A. De observación, cuando se registra sistemáticamente


un acontecimiento, un comportamiento no verbal, una
situación, etc. Por ejemplo,
 Ambiente natural o artificial.
 Recolección a escondidas.
 Observación mecánica o humana.

B. De comunicación, se busca que la información sea


proporcionada por los individuos. Tal es el caso
 Entrevista personal.
 Cuestionario por correo.
 Entrevista telefónica.

1.3.4.8. Preparación y análisis estadísticos de los datos


Cuando se preparan los datos para su respectivo análisis se llevan acabo las siguientes
actividades:
 Verificación de los cuestionarios.
 Edición.
 Codificación.
 Trascripción (llenado de la base de datos)
 Depuración de la base de datos.
 Ajuste de los datos en forma estadística.
 Selección de la estrategia para el análisis de los datos.

Para realizar el análisis estadístico de los datos se empleará convenientemente alguna


técnica univariada o multivariada según sea el objetivo de la investigación.

1.3.4.9. Preparación y presentación del reporte


Este proceso empieza con la interpretación de los resultados del análisis de datos y lleva
a conclusiones y recomendaciones. Después, se describe, el reporte formal y se realiza la
presentación oral. Luego que la gerencia lea el reporte es importante que el investigador
lleve acabo un seguimiento, ayudando a la gerencia y realizando una evaluación
detallada del proyecto de investigación.

25
Ejercicios

1) ¿Qué diferencias existen entre los muestreos no probabilísticos de conveniencia,


comparación y por grupos?

2) ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo


probabilístico?

3) Seleccione una muestra aleatoria simple de tamaño 10 de los primeros 100 números
naturales.

4) Seleccione una muestra aleatoria simple de tamaño 20 de los 200 primeros números
impares.

5) Seleccione una muestra sistemática de 10 alumnos de la clase. Considere el total de


alumnos de la clase.

6) Seleccione una muestra de 10 distritos de Lima Metropolitana, utilizando el muestreo


por conglomerados (Utilice el mapa de Lima- Metropolitana)

7) Práctica de técnicas de muestreo

El siguiente listado corresponde a una población de 50 trabajadores de la empresa


textiles SA.

Seleccione una muestra aleatoria de tamaño 8.

Utilice los muestreos probabilísticos estudiados en clase, para estimar :

 La experiencia laboral promedio.


 La experiencia laboral promedio por sexo.
 La edad promedio para los que tienen una opinión buena del curso de capacitación.
 etc.

26
RELACIÓN DE LOS EMPLEADOS DE LA EMPRESA TEXTILES S.A.
N° Sección Edad Sexo Experiencia laboral (meses) Opinión sobre el curso de capacitación
1 S001 18 F 2 Bueno
2 S001 20 F 4 Bueno
3 S001 25 M 10 Bueno
4 S001 20 F 4 Bueno
5 S001 22 F 5 Bueno
6 S001 23 M 5 Bueno
7 S001 20 F 2 Bueno
8 S001 35 M 13 Bueno
9 S001 35 M 14 Bueno
10 S001 32 M 100 Bueno
11 S001 31 F 20 Bueno
12 S001 33 M 10 Bueno
13 S002 30 F 20 Bueno
14 S002 30 F 20 Malo
15 S002 31 F 100 Malo
16 S002 32 M 110 Malo
17 S002 35 M 15 Malo
18 S002 35 M 15 Malo
19 S002 25 M 12 Malo
20 S002 28 F 45 Malo
21 S002 29 F 50 Malo
22 S002 27 F 40 Malo
23 S002 26 M 20 Malo
24 S003 24 M 10 Malo
25 S003 26 M 25 Malo
26 S003 23 M 5 Malo
27 S003 20 F 2 Malo
28 S003 20 F 2 Malo
29 S003 20 F 4 Malo
30 S003 35 F 15 Malo
31 S003 35 F 15 Malo
32 S003 32 M 9 Bueno
33 S003 31 F 80 Bueno
34 S003 33 M 12 Bueno
35 S003 30 F 20 Bueno
36 S003 30 F 20 Bueno
37 S004 31 M 95 Bueno
38 S004 32 M 6 Bueno
39 S004 35 F 50 Bueno
40 S004 35 F 60 Bueno
41 S004 25 M 20 Bueno
42 S004 26 M 30 Bueno
43 S004 24 M 12 Bueno
44 S004 26 F 35 Bueno
45 S004 23 M 10 Bueno
46 S004 20 F 4 Bueno
47 S004 38 F 20 Bueno
48 S004 39 F 120 Bueno
49 S004 40 F 150 Bueno
50 S004 45 F 100 Malo

27
“Estados Unidos suele ser el país adonde primero llega el futuro, y si sufrimos el
derrumbamiento de nuestras antiguas instituciones, también somos los precursores de una
nueva civilización. Esto significa vivir con una gran incertidumbre. Significa esperar
desequilibrios y trastornos. E implica que nadie posea la verdad plena y definitiva acerca del
lugar al que nos dirigimos o siquiera sobre el rumbo que deberíamos seguir.
Necesitamos percibir por dónde vamos, sin dejar atrás ningún grupo, mientras creamos el
futuro en nuestra esfera. Estos cuantos criterios pueden ayudarnos a distinguir unas políticas
arraigadas en el pasado de la segunda ola de las que tal vez contribuyan a facilitar nuestro
camino hacia el futuro de la tercera ola. El peligro de cualquier lista de criterios estriba, sin
embargo, en que algunas personas sientan la tentación de aplicarlos literal, mecánica e
incluso fanáticamente. Y eso es lo contrario de lo que se requiere.
La tolerancia ante el error, la ambigüedad y sobre todo la diversidad, respaldadas por un
sentido de humor y de las proporciones son herramientas imprescindibles para disponer
nuestro equipo de supervivencia en el asombroso viaje del próximo milenio. Hemos de
prepararnos para la incursión quizá más apasionante de la historia”
Tomado de: La Creación de una Nueva Civilización. Alvin y Heidi Toflfler. Pg. 112-113.

Los estudiantes califican a los maestros


“Muchas universidades equiparan las buenas calificaciones de los estudiantes con una buena
enseñanza, y una razón es la facilidad para administrar y medir evaluaciones de los
estudiantes.
No obstante, un estudio que comparó evaluaciones de los maestros hechas por los estudiantes
con la cantidad de material aprendido encontró una marcada correlación negativa entre los
dos factores. Los maestros a los que los estudiantes daban calificaciones altas al parecer
inducían menos aprendizaje.
En un estudio relacionado, un público dio una calificación alta a un conferencista que
comunicó muy poca información pero que era interesante y entretenido.
Tomado de: Estadística Elemental. Mario Triola. Pg 48.

28
2. Prueba de hipótesis
2.1. Conceptos generales.
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la suposición
sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a


favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra
estimación inicial del parámetro poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.

Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la


información muestral. La hipótesis alternativa se especifica como opción posible si se
rechaza la nula.

Tipos de errores

Información muestral
Aceptar H0 Rechazar H0

La H0 es cierta No hay error Error I


realidad H0 es falsa Error II No hay error

Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

P(Error I)  
El valor  es fijado por la persona que realiza la investigación (por lo general varía entre
1% -10%)

Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.

P(Error II)  

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

29
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.

Potencia de prueba  1  

Como el valor de  depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.

Pasos a seguir en una Prueba de Hipótesis


 Paso 1: Planteo de hipótesis.
 Paso 2: Nivel de significación.
 Paso 3: Prueba estadística.
 Paso 4: Suposiciones.
 Paso 5: Regiones críticas. Criterios de decisión.
 Paso 6: Realización de la prueba.
 Paso 7: Resultados y conclusiones.

Procedimiento general

Sea θ el parámetro que representa: ( ,  2 , p, 1   2 , p1  p2 ,  12 /  22 )

1. Planteo de las hipótesis.


H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0
    
H1 :    0 H1 :    0 H1 :    0 H1 :    0 H1 :    0

2. Fijar el nivel de significación


3. Pruebas estadísticas

Distribución simétrica (Z, t)


E
 Distribución asimétrica positiva (  , F )
2

4. Supuestos
a) Supuestos para: (, 2 , 1  2 , 21 / 22 ) b) Supuestos para: p, p1  p 2
 Poblacion(es) normalmente  Muestra(s) tomada(s) al azar.
distribuida(s).  Muestra(s) grande(s)
 Muestra(s) tomada(s) al azar.

30
5. Regiones críticas

Prueba Unilateral de Extremo Inferior

H1:  < o

Prueba Unilateral de Extremo Superior

H1:  > o

Prueba Bilateral

H1:  ≠ o

6. Calculo del Estadístico de prueba

7. Resultados y conclusiones.

2.2. Prueba de hipótesis para un parámetro.


2.2.1. Prueba de hipótesis para una media poblacional.
Ejemplo.
Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de
que   800 horas contra la alternativa   800 horas si una muestra aleatoria de 28 focos
tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.

Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)
31
1. Planteo de hipótesis.
H 0 :   800

H 1 :   800

2. Nivel de significación.
  0.05

3. Prueba estadística
_
x 
Zc  ~ N(0.1)
/ n

4. Supuestos.
 Población normal.
 Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

784  800
Zc   2.12
40 / 28

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.

2.2.2. Pruebas de hipótesis para una varianza poblacional.


Ejemplo.
Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables
producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el
proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8
cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento
aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad.

32
Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N(  , 2402)

1. Planteo de hipótesis.

H 0 :   240
2 2



H 1 :   240
2 2

2. Nivel de significación.
  0.05

3. Prueba estadística
(n  1)s 2
c2  ~ (2n 1)
2

4. Supuestos.
 Población normal.
 Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios

Si  c2  14.07 No se rechaza H0
Si  c2  14.07 Se rechaza H0
0.05
0.95

6. Cálculos
(8  1)3002
c 
2
 10.938
2402

7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.

33
2.2.3.Pruebas de hipótesis para una proporción poblacional.
Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación
se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use
  0.05 .

Solución.
Sea p: Proporción de artículos defectuosos.

1. Planteo de hipótesis.
H 0 : p  0.02

H 1 : p  0.02

2. Nivel de significación.
  0.05

3. Prueba estadística
p̂  p
Zc  ~ N(0.1)
p(1  p)
n

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

0.05  0.02
Zc   3.712
0.02(1  0.98)
300

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.

34
Ejercicios
1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fabrica
de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente
considera que la recepción de materiales demora en promedio más de 50 minutos. Setenta casos
tomados al azar toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos.
Fije  en 1% y pruebe la hipótesis e indique si será necesario incorporar al asistente.

2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la
ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se
tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia
a la ruptura es, respectivamente,

30,1 22,5 28,9 29,8 31,4 27,0 24,3 22,8 22,3 33,4
32,7 27,5 27,7 28,9 30,4 31,2 26,4 29,4 29,1 23,5

Al nivel de significación   0.05 y suponiendo normalidad:


a. ¿se admite la hipótesis del químico?
b. ¿será correcto afirmar que la variabilidad de la resistencia es menor de 4,2 onzas?

3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia
peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante
eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por
controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la
cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50
especímenes de agua produjo las siguientes estadísticas: y  3,1 ppm y s  0,5 ppm. ¿Proporcionan
tales estadísticas suficientes pruebas para detener el proceso? Utilice   0,01.

4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio, 5.23 onzas con una
desviación estándar de 0.24 onzas. Pruebe la hipótesis de que   5.5 onzas contra la hipótesis
alternativa,   5.5 onzas en el nivel de significancia de 0.05

5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se
elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la
afirmación de la empresa? Utilice un nivel de significancia de 0.05.

35
6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las
especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran
defectuosas. Pruebe la afirmación del fabricante al nivel de significación:
a) 0.01
b) 0.05

2.3. Pruebas de hipótesis para dos parámetros.


2.3.1. Pruebas de hipótesis para dos varianzas poblacionales.
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las
resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 ,  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.

H 0 :  1   2
2 2



H 1 :  1   2
2 2

2. Nivel de significación.
  0.05

3. Prueba estadística
S12 1
Fc  2  2 ~ f ( n1 1, n 2 1)
S 2 1
 22

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.

36
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025
0.025 Si 0.226  fc  4.43 No se rechaza H0
Si fc < 0.226 o fc > 4.43 Se rechaza H0

0.226 4.43

6. Cálculos 7. Conclusiones.
(0.0042) Con 5% de nivel de significación la
Fc   1.75
(0.0024) información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.

2.3.2. Pruebas de hipótesis para dos medias poblacionales.


2.3.2.1. Muestras independientes

Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 ,  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.
H 0 :  1   2

H 1 :  1   2

2. Nivel de significación.
  0.05

3. Prueba estadística

37
_ _

donde: S2p  (n1  1)s1  (n 2  1)s 2


2 2
( x1  x 2 )  (1   2 )
tc  ~ t ( n1  n 2  2)
1 n1  n 2  2
1 
S   
2
p
 n1 n 2 

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -2.120  tc  2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
0.95

-2.120 t(16, 0.025) = 2.120

6. Cálculos
(1.2367  0.9778)  (0)
tc   9.561
1 1
0.0033  
9 9

7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.

2.3.2.2. Muestras relacionadas

Ejemplo
El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de
dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las
medidas de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente
tabla:

Rodajes
1 2 3 4 5 6
Medida del diámetro antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida del diámetro después 91,7 93,9 97,4 112,8 101,3 84,0

¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga
que la distribución de las diferencias de medidas los diámetros antes y después del
programa es aproximadamente normal.

Solución.

38
Sean X1: Medida de cintura antes (mm.)
X2: Medida de cintura después (mm.)

1. Planteo de hipótesis.
H 0 : D  2

H 1 : D  2

2. Nivel de significación.
  0.05

3. Prueba estadística
dD
tc  ~ t n 1
Sd / n

4. Supuestos.
 Las diferencias tienen distribución normal.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.57  tc  2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95

-2.57 2.57

6. Cálculos

1.5  2
tc   0.794
1.543 / 6

7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el departamento de I&D .

2.3.3. Prueba de hipótesis para dos proporciones poblacionales.


Como parte del programa nacional de prevención, el Instituto de Defensa Civil desea evaluar
la recordación del contenido de dos comerciales de televisión. Se pasó cada uno en un área de
prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una
encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas

39
que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los
siguientes resultados:

Comercial Personas que lo Personas que recordaron el


vieron mensaje principal
A(20 seg) 150 63
B(30 seg) 200 60

Use   0.05 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.

Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.

1. Planteo de hipótesis.
H0 : p1  p 2

H1 : p1  p 2

2. Nivel de significación.
  0.05
3. Prueba estadística
p̂1  p̂ 2
Zc  ~ N(0.1)
1 1 
p(1  p )  

 n1 n 2 

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos 7. Conclusiones.
63 60 Con 5% de nivel de significación y a

150 200 partir de la información muestral,
Zc   2.328
 1 1  hay diferencias significativas en las
(0.351)(0.649)   proporciones que recuerdan los dos
 150 200 
comerciales.

40
Ejercicios
1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar
como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121
¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso?
Asuma poblaciones normales. Use   0.05 .
Prueba de muestras independientes

Prueba de
Lev ene para la
igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
conf ianza para la
Dif erenci Error típ. dif erencia
Sig. a de de la
F Sig. t gl (bilateral) medias dif erencia Inf erior Superior
Se han asumido
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
v arianzas iguales
No se han asumido
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
v arianzas iguales

2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):
x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122

Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.

41
3) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los
siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en
jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de
almacenamiento.
Residuos de ácido sórbico en jamón
Rebanada Antes del almacenamiento Después del almacenamiento di
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104
Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de
significancia de 0.05, para decir que la duración del almacenamiento disminuyen las
concentraciones residuales de ácido sórbico?
Prueba de muestras relacionadas
Diferencias relacionadas
Error 95% Intervalo de
típ. de confianza para la
Desviación la diferencia Sig.
Media típ. media Inferior Superior t gl (bilateral)
198,625 210,165 74,305 22,922 374,328 2,673 7 ,032
antes - después

4) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la
exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos
se colocaron en cámaras de respiración, una de las cuales contenía una alta concentración de CO.
Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se
colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la
frecuencia respiratoria en número de respiraciones por minuto.
Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
A un nivel de significación del 5%, se puede afirmar que un ambiente con CO influye sobre la
capacidad de respiración. Asuma normalidad.

42
5) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un
estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616
adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un
terminal de computadora o un procesador de texto en su trabajo.

a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan
con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con   0.03 .

b) Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se
obtuvo que 105 adultos utilizan con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe
diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y
de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05.

6) Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras de


procedimiento existente y del nuevo para determinar si este tiene como resultado una mejoría. Si se
encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos
de procedimiento nuevo también lo son, al nivel de 5% de significación, ¿mejoró el proceso luego de
los cambios?

43
3. Uso de la Distribución Ji-cuadrado

Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:

1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.

La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.

3.1. Prueba de Independencia.

Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.

Variable 2
Columna Columna Columna
...
1 2 c
Fila 1
Fila 2
Variable .
1 .
.
Fila r

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).

44
Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.

Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 60 29 112
trabajo (calificación Promedio 28 79 60 167
del empleador) Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?

Solución

Las variables que se muestran en la tabla son:

Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,


promedio y muy bueno.
Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del
promedio, promedio o sobre el promedio.

La prueba de independencia compara las frecuencias observadas frente a las frecuencias


esperadas bajo el supuesto de que ambas variables sean independientes.

Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:

(Total de la columna) x (Total de la fila)


Frecuencia esperada 
Total de la tablal

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)

Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
trabajo (calificación Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
del empleador) Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400

45
Pasos para realizar la prueba de independencia

1) Formulación de las hipótesis


H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la
calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente
de la calificación en el programa de capacitación.

2) Fijación del nivel de significación: 0,01.

3) Estadístico de prueba

(oi  ei ) 2
k
 
2
c ~  2 con v  (r  1)(c  1) gl
i 1 ei

4) Áreas y criterio de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.

0,01

 20,01 = 13,277

Criterio:
Si  c2 > 13,277 se rechaza H0
Si  c2 ≤ 13,277 no se rechaza H0.

5) Cálculos previos
(23  16,80) 2 (28  25,05) 2 (63  45,98) 2
 c2    ...   20,18
16,80 25,05 45,98

6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.

Nota. (Corrección de Yates)


Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o
cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la
corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:

 
2
k o
i  ei  0,5
2

 2 con v  (r  1)(c  1) gl


c
i 1 ei

46
Salida SPSS:
Tabla de contingencia Rendimiento * Aprovechamiento

Rec uento
Aprov echamiento
Debajo del Sobre el
Promedio Promedio Promedio Tot al
Rendimient o Def icient e 23 60 29 112
Muy Bueno 9 49 63 121
Promedio 28 79 60 167
Tot al 60 188 152 400

Pruebas de chi-cuadrado

Sig. asintót ica


Valor gl (bilateral)
Chi-cuadrado de Pearson 20. 179a 4 .000
Razón de v erosimilit udes 20. 892 4 .000
N de casos v álidos 400
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 16.80.

3.2. Prueba de Homogeneidad de Proporciones

Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la


misma en r poblaciones.

Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:

Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.

Pasos para realizar la prueba de homogeneidad de proporciones

1) Formulación de las hipótesis


H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i.
H1: No todas las proporciones son iguales.

47
2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba
(oi  ei ) 2
k
 
2
c ~  2 con v  (r  1)(c  1) gl
i 1 ei

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.

0,05

 0,05
2
= 5,991

Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0

5) Cálculos previos

Material A Material B Material C Total


Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300

(41  36) 2 (79  84) 2 (78  70) 2


 
2
c   ...   4,575
36 84 70

6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes
para rechazar que la probabilidad de desintegración es la misma para los tres tipos de
materiales.

Salida SPSS:

Tabla de contingencia Estado * Materi al

Rec uento
Mat erial
A B C Tot al
Estado Des integra 41 27 22 90
Intact o 79 53 78 210
Tot al 120 80 100 300

48
Pruebas de chi-cuadrado

Sig. asintót ica


Valor gl (bilateral)
Chi-cuadrado de Pearson 4. 575a 2 .101
Razón de v erosimilit udes 4. 727 2 .094
N de casos v álidos 300
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mínima esperada es 24.00.

3.3. Prueba de Bondad de Ajuste

La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.

Ejemplo 1: Bondad de ajuste a una distribución de Poisson.

Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con   4,6 . Use   0,05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:

e   x
Pr  X  x  
x!
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr  X  13  1  Pr  X  13
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:

49
N° mensajes por Frecuencias Probabilidades Frecuencias
k
radio observadas (oi) de Poisson esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0

Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 18 22,4 0,8643
2 47 42,8 0,4121
3 76 65,2 1,7890
4 68 74,8 0,6182
5 74 69,2 0,3329
6 46 52,8 0,8758
7 39 34,8 0,5069
8 15 20,0 1,2500
9 9 10,0 0,1000
10 8 8,0 0,0000
Total 400 400,0 6,7492

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: La variable aleatoria tiene distribución de Poisson con parámetro   4,6
H1: La variable aleatoria no tiene distribución de Poisson con parámetro   4,6 .

2) Fijación del nivel de significación: 0,05

50
3) Estadístico de prueba

k
(oi  ei ) 2
 
2
c ~  2 con v  k  1  m
i 1 ei

En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de


parámetros estimados (0 en el ejemplo). Si el valor de  no hubiese sido dado, hubiese sido
necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.

0,05

 20,05 = 16,919

Criterios:
Si  c2 > 16,919 se rechaza H0
Si  c2 ≤ 16,919 no se rechaza H0

5) Cálculos previos
(18  22,4) 2 (47  42,8) 2 (8  8,0) 2
c 
2
  ...   6,7492
22,4 42,8 8,0

6)   4,6
proporciona un buen ajuste.

Ejemplo 2 : Bondad de ajuste a una distribución binomial.

Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.

Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario


estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al
azar sea defectuoso puede estimarse de la siguiente manera:

51
Total de bombillos defectuosos 1142
pˆ    0,1142
Total de bombillos en las 1000 cajas 10000

En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:

10 
Pr X  x     p x 1  p 
10 x

x

Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad

Pr  X  6  Pr  X  6  Pr  X  7   Pr  X  8  Pr  X  9   Pr  X  10 

N° de bombillos Frecuencias Probabilidades Frecuencias


k
defectuosos observadas (oi) binomiales esperadas (ei)
1 0 334 0,2974 297,4
2 1 369 0,3834 383,4
3 2 191 0,2224 222,4
4 3 63 0,0765 76,5
5 4 22 0,0173 17,3
6 5 12 0,0027 2,7
7 6 o más 9 0,0003 0,3
Total 1000 1,000 1000

Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 334 297,4 4,5042
2 369 383,4 0,5408
3 191 222,4 4,4332
4 63 76,5 2,3823
5 43 20,3 25,3837
Total 1000 1000 37,2445

52
Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: El número de bombillos defectuosos por caja sigue una distribución binomial.
H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.

2) Fijación del nivel de significación: 0,05

3) Estadístico de prueba

(oi  ei ) 2
k
 
2
c ~  2 con v  k  1  m
i 1 ei

En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.

0,05

 20,05 = 7.815

Criterios:
Si  c2 > 7,815 se rechaza H0
Si  c2 ≤ 7,815 no se rechaza H0

5) Cálculos previos
(334  297,4) 2 (369  383,4) 2 (43  20,3) 2
c 
2
  ...   37,24
297,4 383,4 20,3

6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un


buen ajuste para el número de bombillos defectuosos por caja.

Ejemplo 3: Bondad de ajuste a una distribución de frecuencias.

Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?

53
Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.

Frecuencias Probabilidades Frecuencias


k Tipo de galleta
observadas (oi) teóricas esperadas (ei)
1 A 26 1/3 20
2 B 21 1/3 20
3 C 13 1/3 20
Total 60 1 60

Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: No hay preferencias por ninguno de los tipos de galleta.
H1: Sí hay preferencias por al menos uno de los tipos de galleta.

Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.

H0: pA = pB = pC
H1: Al menos un p es diferente.

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

k
(oi  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En este ejemplo k = 3 (número de categorías) y m = 0 (no se estima ningún parámetro).

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 2.

0,05

 20,05 = 5.991

54
Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0-

5) Cálculos previos
(26  20) 2 (21  20) 2 (13  20) 2
 c2     4,3
20 20 20

6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia
con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por
sobre las demás.

3.4. Otras pruebas

La prueba Ji-Cuadrado de bondad de ajuste es bastante útil cuando la variable aleatoria en


cuestión es discreta y el tamaño de muestra lo suficientemente grande como para asegurar
frecuencias altas en cada categoría. Para otros casos, como por ejemplo evaluar el ajuste a una
distribución normal, existen otras pruebas y métodos más adecuados como por ejemplo:

 Los métodos gráficos Q-Q y PP.


 Prueba de Kolmogorov-Smirnov.

En esta sección se revisará la prueba de Kolmogorov-Smirnov con la ayuda del SPSS para
realizar los cálculos.

Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use   0,01.

12 15 16 18 19 14 10 15 16 14

Las hipótesis en este caso son las siguientes:

H0: La variable en estudio tiene una distribución normal.


H1: La variable en estudio no tiene una distribución normal.

A continuación se presentan los resultados obtenidos para esta prueba con SPSS:

55
Prueba de Kolmogorov-Smirnov para una muestra

X
N 10
Parámet ros normales a,b Media 14.90
Desv iación t ípica
2.644

Dif erencias más Absoluta .167


extremas Positiv a .139
Negativ a -.167
Z de Kolmogorov -Smirnov .527
Sig. asintót. (bilateral) .944
a. La distribución de cont raste es la Normal.
b. Se han calculado a partir de los datos.

El estadístico de prueba en este procedimiento es el valor D definido como la máxima distancia


vertical entre la distribución de probabilidades acumulada empírica obtenida con los datos y la
distribución de probabilidades teórica establecida en H0 (en este caso la distribución normal).

El criterio de decisión queda definido por:


Si D > valor crítico de la tabla se rechaza H0
Si D ≤ valor crítico de la tabla no se rechaza H0.

En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.
Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser
mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En
conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.

Ejercicios 8

1) Un criminalista realizó una investigación para determinar si la incidencia de ciertos tipos de


crímenes varían de una parte a otra en una ciudad grande. Los crímenes particulares de
interés son asalto, robo, hurto y homicidio. La siguiente tabla muestra el número de delitos
cometidos en tres áreas de la ciudad durante el año pasado:

Frecuencias observadas Frecuencias esperadas


Tipo de Distrito Tipo de Distrito
delito I II III delito I II III
Asalto 162 310 258 Asalto 171,1 348,9 210,0
Robo 118 196 193 Robo 118,9 242,3 145,8
Secuestro 451 996 458 Secuestro 446,6 910,5 547,9
Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

56
2) La presencia de agua en el aceite perjudica la salud del lubricante, lo que ocasiona que
pierda sus propiedades. Se desea comprobar si es que esta afecta a todos los tipos de
camiones por igual, para lo cual se evaluó la presencia de agua en el aceite del motor de los
camiones seleccionados en las tres muestras aleatorias para cada tipo de camión,
obteniéndose los siguientes resultados.

Presencia de Agua en el Aceite


Tipo de
Total
Camión
Baja Normal Alta

Tipo I 3 2 8 13

Tipo II 6 4 3 13

Tipo III 2 6 5 13

Total 11 12 16 39

¿Se puede concluir que la presencia de agua en el aceite afecta a todos los tipos de camiones de
manera similar? Use un nivel de significación del 5%.

3) En el centro de reparaciones de autos se desea determinar si existe alguna relación entre el


tiempo que tiene que esperar sus clientes antes de ser atendidos y el tipo de servicio que
solicitan. Para ello realizó un estudio tomando una muestra de 200 clientes, obteniendo los
siguientes resultados.

Tiempo de Espera (minutos)


Servicio Menos de 10 De 10 a 20 Más de 20 Total
Reemplazo de
llantas 18 11 7 36
Revisión de
Motor 35 43 9 87
Cambio de
Aceite 25 41 11 77
Total 78 95 27 200

¿Se puede concluir que existe relación entre el tiempo de espera y el tipo de servicio que
solicitan los clientes del centro de reparaciones? Use un nivel de significación del 5%.

4) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American


Journal of Public Health, las viudas viven más que los viudos. Considere los siguientes datos
de sobrevivencia de 100 viudas y 100 viudos después de la muerte del cónyuge:

57
Años vividos Viuda Viudo
Menos de 5 25 39
De 5 a 10 42 40
Más de 10 33 21

¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y
viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la muerte
de su compañero?

5) La directiva de una corporación grande está interesada en determinar si existe una


asociación entre el tiempo de cambio de turno de sus empleados y el nivel de estrés
relacionado con problemas observados en el trabajo. En un estudio de obreros de línea de
ensamblaje se reveló lo siguiente:

Nivel de estrés
Tiempo de cambio
Alto Moderado Bajo
Menor de 15 minutos 7 8 18
15 a 45 minutos 17 9 28
Más de 45 minutos 20 6 7

A un nivel de significación del 5%, ¿cuál es su conclusión?

6) Ante la cercanía de las fiestas navideñas, se han fabricado 300 juguetes utilizando tres tipos
formulaciones diferentes de plástico y luego se realizó una prueba de resistencia con estos
juguetes. Los resultados se muestran en la siguiente tabla:

Mezcla
Resultado
A B C
No resistió 41 27 22
Si resistió 79 53 78

Al nivel de significación del 3%, ¿podría afirmar que la proporción de artículos que no
resisten la prueba de resistencia es la misma al utilizar las 3 formulaciones de plástico?

7) Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:

Calificación A B C D F
Frecuencia 14 18 32 20 16

Pruebe la hipótesis, al nivel de significación de 0,05, de que todas las calificaciones son
igualmente probables.

8) Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.

58
Número de ventas Número de días
0 50
1 75
2 65
3 15
4 5

Se desea verificar cuál es la distribución teórica para el número de ventas que se realiza
diariamente a un nivel de significación del 5%.

9) Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las
proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,
tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de
0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de
5:2:2:1.

10) Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:

Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12
¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un
nivel de significación del 5%.
4.

59
4. Diseños Experimentales
4.1 Introducción

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables, susceptibles a manipulación) de
un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios
en la variable de salida (variable respuesta, no manipulable).

Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de empaque y
dos sustancias preservantes (factores) en el tiempo de duración (variable respuesta) de cierto
alimento. El exportador podría entonces realizar una serie de experimentos para evaluar cuál de
las 6 combinaciones entre método de empaque y sustancia preservante da mejores resultados; a
cada una de estas 6 combinaciones se les denomina tratamientos. Suponga que el exportador
decide realizar 5 repeticiones del experimento con cada tratamiento. Como las condiciones
ambientales (humedad, temperatura, etc.) pueden influir en el tiempo de duración del producto,
los 6 tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea. Dado que
el tiempo de duración promedio del producto es de aproximadamente 10 días, el exportador
decide realizar una réplica quincenal (por ejemplo, empezar la primera réplica con los 6
tratamientos el día primero, la segunda el día 15, la tercera el día primero del siguiente mes y así
sucesivamente).
Este ejemplo ayuda a definir los siguientes términos:

Factor: Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables.

Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto
será evaluado en los resultados del experimento. El interés principal del experimentador es
evaluar el efecto de estos factores. En el ejemplo anterior, el método de empaque y la sustancia
preservante son dos factores en estudio. A los distintos valores de los factores en estudio que
son evaluados se les llama niveles del factor. En el ejemplo, el factor método de empaque tiene
3 niveles y el factor sustancia preservante 2 niveles.

Factor de bloqueo: Es un factor cuyo efecto en la variable respuesta no es de interés para el


experimentador, pero cuyo efecto debe ser controlado para disminuir la variabilidad en los
resultados del experimento. En el ejemplo, cada repetición del experimento es llevada a cabo en
una quincena diferente. Se puede anticipar que habrá diferencias de temperatura y humedad
entre quincenas, diferencias que se sabe pueden afectar los resultados del experimento. Por lo
tanto, en este ejemplo, las quincenas deben ser consideradas como bloques.

Tratamiento: Es un conjunto de procedimientos cuyo efecto se mide y compara con los de


otros tratamientos. Un tratamiento corresponde a una combinación de los niveles de los factores
en estudio, pudiendo ser estos uno o más.

Unidad experimental: Es la unidad a la cual se le aplica un tratamiento y en la cual se mide el


efecto de un tratamiento. En el ejemplo, la unidad experimental podría ser un empaque de
alimento.

60
Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos. En el
ejemplo, la variable respuesta puede ser el tiempo de duración observado de cada empaque.

Error experimental: Es la variabilidad existente entre los resultados de unidades


experimentales tratadas en forma similar. Cualquier factor no controlable contribuye al error
experimental. El error experimental proviene de dos fuentes principales: variabilidad inherente
al material experimental (en el ejemplo, habrán diferencias entre las distintas muestras de
alimentos sometidas a cada tratamiento y en cada réplica) y variabilidad resultante de cualquier
falta de uniformidad en la realización física del experimento (en el ejemplo, si las muestras de
alimento son colocadas en posiciones diferentes sobre un anaquel, estarán sometidas a
diferencias de luz, calor, humedad, polvo, etc.).

Cualquier problema experimental involucra dos aspectos:

 El diseño del experimento


 El análisis estadístico de los datos.

Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño
empleado.

Es importante en este tipo de análisis estadísticos que el experimentador haya seguido de cerca
todos los pasos del experimento, desde el diseño del mismo, hasta el análisis final de los datos.
Analizar datos cuya recogida no fue planificada puede traer ciertos problemas:

Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto
provoca que los datos recogidos no sean consistentes lo que obviamente traerá confusiones en la
interpretación.

61
Variables altamente correlacionadas: Cuando dos variables del proceso están
correlacionadas, se pueden producir dos tipos diferentes de situación engañosa al analizar datos
recogidos durante las operaciones habituales.

1. Confusión de los efectos.

2. Relación no causal. Variable oculta.

Confusión

Variable1
Variable3
Variable2

Relación no causal
Variable1 Variable2

Variable3
En este capítulo se presentan tres casos de análisis:

 El diseño completamente al azar (DCA): Este es un diseño en el que solo se contempla un


factor de estudio.
 El diseño de bloques completos al azar (DBCA): Este es un diseño en el que se contempla
un factor de estudio y un factor de bloqueo.
 El experimento factorial axb: Este es un diseño con dos factores en estudio, con a y b
niveles respectivamente.

4.2 Diseño Completamente al Azar

Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una de
tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que las
medias de estas k poblaciones son todas iguales. Las poblaciones que se desea comparar suelen
ser producto de la aplicación de distintos tratamientos a ciertas unidades de análisis. Considere
por ejemplo el caso en el que se desea comparar el efecto de 5 programas de incentivos en la
productividad de los trabajadores; en este caso, los 5 programas de incentivos serían los 5
tratamientos aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad
de análisis sería un trabajador (quien recibe el tratamiento).
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

Tratam. Tratamiento Tratamiento ... Tratamiento


Muestra 1 2 k
1 y11 y21 ... yk1
2 y12 y22 ... yk2
3 y13 y23 ... yk3

62
. . . ... .
. . . ... .
. . . ... .
ni y1n1 y1n2 ... y1nk
Totales yi. y1. y2. ... yk.

En esta tabla
ni
yi.   yij
j 1
k
Defina al total de las n.   ni observaciones por
i 1
k k ni
y..   yi.   yij
i 1 i 1 j 1

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales
se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales
y que tienen variancias iguales.

Si i denota la media de las i-ésima población y  2 denota la variancia común de las k


poblaciones, se puede expresar cada observación yij como i más el valor de un componente
aleatorio:
yij  i   ij para i  1, 2,..., k; j  1, 2,..., ni

Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar i por    i , donde  es la media general para todas las

   0 . Con estos nuevos


k
poblaciones y i es el efecto del i-ésimo tratamiento, con i 1 i
parámetros se puede escribir el modelo para este diseño de la siguiente manera:

yij     i   ij para i  1, 2, ..., k ; j  1, 2, ..., ni


donde:
yij : La j- ésima observación en la i-ésima muestra.
 : Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
 ij : Error aleatorio asociado a la observación yij, donde  ij ~ N(0,  2 )

Tabla del análisis de variancia


Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
CM(Tr)
y2 y2
k
SC(Tr)
Tratamientos k–1 SC(Tr)   i   CM(Tr)  CME
i 1 ni n k 1

63
SCE
Error n. – k SCE  SCT  SC(Tr) CME 
n  k
k n
y2
n. – 1 SCT   y  2
ij
Total i 1 j 1 n

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay


diferencias entre los tratamientos, la cantidad Fc del cuadro de Análisis de Variancia seguiría
una distribución F con los grados de libertad de tratamientos y del error. Entonces, se puede
utilizar esta distribución para evaluar la hipótesis nula de que no hay diferencias entre las
medias de los tratamientos.

Ejemplo.
El vicepresidente de mercadeo de un banco importante planea poner en marcha cierto tipo de
promociones para atraer nuevos clientes en cuatro sucursales del banco. Él está convencido de
que diferentes tipos de promociones atraerán a personas de diferentes grupos de ingreso, por lo
que, de haber diferencias entre los ingresos promedio de los clientes de cada sucursal, se optará
por un programa de promociones distinto para cada una. Considere a los montos de los
depósitos como una medida representativa de los ingresos de los clientes. En la siguiente tabla
se presentan datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en miles de
soles) ¿Debe el vicepresidente optar por un programa de promociones distinto para cada
sucursal? Evalúe esta posibilidad con un nivel de significación del 5%.

Depósito Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4


1 5,3 3,3 3,6 4,3
2 2,6 4,6 2,8 2,5
3 3,6 2,1 4,5 1,8
4 3,8 3,5 3,8 3,0
5 2,7 5,0 1,9 3,9
6 5,1 2,8 4,1 3,5
7 4,2 2,5 5,1 4,1
Total Yi. 27,3 23,8 25,8 23,1 Y.. = 100

Solución.
H0: 1 = 2 = 3 = 4 = 0
H1: Al menos un i ≠ 0
Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el gran total
es 100, y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:

2
 4 7 
  yij 
 
 i 1 j 1   (100)  357,1429
2

n. 28

64
SCT  (5,3) 2  (2,6) 2  . . .  (4,1) 2  357,14  27,0171
(27,3) 2  (23,8) 2  (25,8) 2  (23,1) 2
SC(Tr)   357,1429  1,5686
7

La tabla del análisis de variancia es:

Fuente de Grados de Suma de Cuadrado


Fc Ft
variación libertad cuadrados medio
Tratamientos 4–1=3 1,5686 0,5229 0,4931 3,01
Error 28 – 4 = 24 25,4486 1,0604
Total 28 – 1 = 27 27,0171

Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F 0,05 con 3 y
24 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; se concluye entonces que no se puede rechazar la hipótesis de que las medias de los
depósitos en las 4 sucursales son iguales y la recomendación sería no implementar programas de
promociones diferentes para cada sucursal.

A continuación se presenta la salida del SPSS para el análisis de variancia para una vía de este
ejemplo, junto con las pruebas para la verificación de los supuestos.

Supuesto de Homogeneidad de Variancias:

H0:  12   22   32   42 (esto es, la variancia es la misma en las cuatro sucursales)


H1: Al menos una variancia es diferente.

Prueba de homogeneidad de v arianzas

Deposito
Estadístico
de Levene gl1 gl2 Sig.
.037 3 24 .990

Con un valor de probabilidad de 0.99, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de homogeneidad de variancias.

Supuesto de Normalidad:

H0: Los errores del modelo tienen distribución normal.


H1: Los errores del modelo no tienen distribución normal.

65
Prueba de Kolmogorov -Smirnov para una muestra

Residuo para
Deposito
N 28
a,b
Parámetros normales Media .0000
Desviación típica
.97084

Diferencias más Absoluta .081


extremas Positiva .081
Negativa -.081
Z de Kolmogorov-Smirnov .427
Sig. asintót. (bilateral) .993
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

Con un valor de probabilidad de 0.993, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de normalidad.

Análisis de Variancia:

ANOVA

Deposito
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 1.569 3 .523 .493 .690
Intra-grupos 25.449 24 1.060
Total 27.017 27

4.3 Prueba para la diferencia de medias

Se supone que el experimentador tiene a su disposición mediciones relativas a varios


tratamientos. El análisis de variancia indica si hay evidencias de que al menos una de las medias
sea diferente o no. Cuando se rechaza la hipótesis nula, el análisis de variancia no revela cuál o
cuáles de las medias son significativamente diferentes; en estos casos se deben utilizar otras
pruebas estadísticas.

Prueba de Rango Múltiple de Duncan y Prueba de Diferencia Mínima Significativa

Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u
observaciones. En esta sección se asumirá que todas las muestras tienen n repeticiones. Estas
pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par de
tratamientos.

La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiado de mínima significación, Rp, dado por

66
R p  S X .rp

En esta expresión p es el número de medias de tratamientos comprendidas, luego de ordernarlas


ascendentemente, entre las dos medias que se están comparando (incluidas las dos medias en
comparación). Aquí S X es un estimador de la desviación estándar común a todos los
tratamientos y es definido por

CME
Sx 
n

El valor de rp depende del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para   0,05 y
  0,01 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.

Ejemplo

Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total


0,25 0,18 0,19 0,23
0,33 0,28 0,25 0,30
0,22 0,21 0,27 0,28
0,30 0,23 0,24 0,28
0,27 0,25 0,18 0,24
0,28 0,20 0,26 0,34
0,32 0,27 0,28 0,20
0,24 0,19 0,24 0,18
0,31 0,24 0,25 0,24
0,26 0,22 0,20 0,28
0,20 0,29 0,21 0,22
0,28 0,16 0,19 0,21
Total 3,26 2,72 2,76 3,00 11,740
Media 0,272 0,227 0,230 0,250

La tabla del análisis de variancia es:

Fuente de Grados de Suma de Cuadrado Fc Ft


variación libertad cuadrados medio
Laboratorios 3 0,0156 0,0052 3,133 2,82
Error 44 0,0728 0,0017
Total 47 0,0884

Determine qué medias difieren de las otras. Use un nivel de significación   0.05 .

67
Solución:

Primero ordene las cuatro medias en orden creciente de magnitud:

Laboratorio B C D A
Media 0,227 0,230 0,250 0,272

Luego, calcule el S X usando el cuadrado medio del error 0.0017.

0.0017
SX   0.0119
12

Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para   0.05 y
44 grados de libertad:

p 2 3 4
rp 2,85 3,00 3,09

Multiplicando cada valor de rp por S X se obtiene finalmente:

p 2 3 4
Rp 0,034 0,036 0,037

El rango de las 4 medias es:


 Entre B y A: 0,272 - 0,227 = 0,045 > 0,037, entonces existen diferencias significativas entre
las medias de B y A.

Los rangos de 3 medias son:


 Entre C y A: 0,272 - 0,230 = 0,042 > 0,036, entonces existen diferencias significativas entre
las medias de C y A.
 Entre B y D: 0,250 - 0,227 = 0,023 < 0,036, entonces no existen diferencias significativas
entre las medias de B y D.

Los rangos de 2 medias son:


 Entre B y C: 0,230 – 0,227 = 0,003 < 0,034, entonces no existen diferencias significativas
entre las dos medias (B y C)
 Entre D y C: 0,250 – 0,230 = 0,02 < 0,034, entonces no existen diferencias significativas
entre las dos medias (D y C)
 Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas
entre las dos medias (A y D)

Estos resultados pueden resumirse en un diagrama de líneas como el que se muestra a


continuación. La idea es que los tratamientos unidos por una línea no presentan diferencias
significativas.

68
B C D A
0,227 0,230 0,250 0,272

Desarrollando el ejemplo utilizando el SPSS se obtienen los siguientes resultados:

Prueba de homogeneidad de v arianzas

Peso de recubrimiento ¿Cuáles son las hipótesis?


Estadístico Ho:
de Levene gl1 gl2 Sig. ………………………………………………
.360 3 44 .782 H1:
………………………………………………

ANOVA

Peso de recubrimiento
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos .01556 3 .00519 3.133 .0349
Intra-grupos .07283 44 .00166
Total .08839 47

Peso de recubrimiento
a
Duncan
Subconjunto para alfa
= .05
Laboratorio N 1 2
B 12 .2267
C 12 .2300
D 12 .2500 .2500
A 12 .2717
Sig. .192 .199
Se muestran las medias para los grupos en los
subconjuntos homogéneos.
a. Usa el tamaño muestral de la media
armónica = 12.000.

Para la prueba de diferencia mínima significativa utilice

2CME
SX 
n

69
y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la
distribución t de Student con los grados de libertad del error como se muestra a continuación:

DMS  t 1 / 2  S X

Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye
que hay diferencias significativas entre dicho par de tratamientos.

A continuación se presentan los resultados de esta prueba usando SPSS:

Comparacio nes múltipl es

Variable dependi ente: pesos

Diferenci a de In tervalo d e confi an za al 95 %


(I) laboratori o (J) laboratori o med ias (I-J) Erro r típ ico Si g. Límite in ferior Límite superi or
DMS Lab orato rio A Lab orato rio B ,045 00* ,016 61 ,010 ,011 5 ,078 5
Lab orato rio C ,041 67* ,016 61 ,016 ,008 2 ,075 1
Lab orato rio D ,021 67 ,016 61 ,199 -,01 18 ,055 1
Lab orato rio B Lab orato rio A -,04 500* ,016 61 ,010 -,07 85 -,01 15
Lab orato rio C -,00 333 ,016 61 ,842 -,03 68 ,030 1
Lab orato rio D -,02 333 ,016 61 ,167 -,05 68 ,010 1
Lab orato rio C Lab orato rio A -,04 167* ,016 61 ,016 -,07 51 -,00 82
Lab orato rio B ,003 33 ,016 61 ,842 -,03 01 ,036 8
Lab orato rio D -,02 000 ,016 61 ,235 -,05 35 ,013 5
Lab orato rio D Lab orato rio A -,02 167 ,016 61 ,199 -,05 51 ,011 8
Lab orato rio B ,023 33 ,016 61 ,167 -,01 01 ,056 8
Lab orato rio C ,020 00 ,016 61 ,235 -,01 35 ,053 5
*. La d iferencia en tre las medi as es si gnifi cat iva al nivel .0 5.

4.4 Diseño con Bloques Completos al Azar

Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos


aplicados sobre b bloques. Los bloques son utilizados para controlar una fuente de variabilidad
adicional a los tratamientos, que aunque no es el objetivo fundamental de la investigación,
puede ser identificada de antemano. Esto puede ocurrir por ejemplo en experimentos en donde
los datos se toman por días, y en donde se sabe que los resultados pueden diferir entre los
distintos días, o cuando cada tratamiento es evaluado en un mismo individuo (una persona, una
máquina, etc), de modo que se espera que existan diferencias en los resultados atribuibles a cada
individuo. En términos más generales, la idea es que las observaciones sean lo más homogéneas
dentro del bloque y heterogéneas entre bloques.

Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:

70
Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1

B2 y12 y22 y32 ... yi2 ... ya2 y. 2


B3 y13 y23 y33 ... yi3 ... ya3 y. 3
. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... . .

Bj y1j y2j y3j ... yij ... yaj y. j


. . . . ... . ... .
Bb y1b y2b y3b ... yib ... yab y. b

Totales y 1. y 2. y 3. ... y i. ... y a. y..

Cada observación puede ser expresada con el siguiente modelo lineal.

yij     i   j   ij para i  1,2,..., a ; j  1,2,..., b

donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
 : Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
 ij : Es el error aleatorio correspondiente a la observación yij.

En este modelo se tiene que:

a b


i 1
i 0 
j 1
j 0

Las sumas de cuadrados se pueden calcular con las siguientes fórmulas:

a b
y..2
SCT   yij2 
i 1 j 1 ab
a
yi2. y..2
SC(Tr)   
i 1 b ab
b y.2j y..2
SCB   
j 1 a ab

71
SCE  SCT  SC(Tr)  SCB
Tabla del análisis de variancia

Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
yi2. y..2
a
SC(Tr) CM(Tr)
Tratamientos a-1 SC(Tr)    CM(Tr)  FT 
i 1 b ab a 1 CME
b y.2j y..2 SCB
Bloques b-1 SCB    CMB 
j 1 a ab b 1
SCE
Error (a - 1)(b - 1) SCE  SCT  SC(Tr)  SCB CME 
(a  1)(b  1)
a b
y..2
Total ab - 1 SST   y ij2 
i 1 j1 ab

Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la
razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se
hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las
diferencias individuales para los niveles del bloque.

Ejemplo
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los
lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra
fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de
laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los
siguientes resultados:

Lugar A Lugar B Lugar C Lugar D Lugar E Suma


Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6
Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6
Agencia 3 20,9 5,9 14 27,1 3 70,9
Suma 63,9 20,3 42,6 80,2 11,1 218,1

¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre
sí? ¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación?
Utilice un nivel de significación de 0,05.

Solución
1. Las hipótesis nula y alterna son.

H 0 : 1   2   3

H 1 : No todas las  son iguales

72
2. El nivel de significación:   0,05 .

3. Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados
de libertad.
Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8 grados de
libertad.

4. Cálculos.
a b
Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y  y
i 1 j 1
2
ij  4336,97

en las expresiones para calcular la suma de cuadrados, se obtiene:

2
 3 5 
  yij 
 
 i 1 j 1   (218,1)  3171,17
2

ab (15)
SCT  4336,97  3171,17  1165,80
(81,6) 2 (65,5) 2 (70,9) 2
SC(Tr)     3171,17  26,57
5 5 5
(63,9) 2 (11,1) 2
SCB   ...   3171,17  1117,26
3 3
SCE  SCT  SC(Tr)  SCB  21,96

El cuadro de análisis de variancia es.

Fuente de Grados de Suma de Cuadrado F Ft


variación libertad cuadrados medio
Tratamientos 3–1=2 26,57 13,29 4,84 4,46
Bloques 5–1=4 1117,26 279,32
Error (3-1)(5-1)=8 21,96 2,75
Total (3)(5) – 1 = 14 1165,80

5. Decisión.

Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.

A continuación se presentan los resultados obtenidos con SPSS para el análisis de variancia.

73
Pruebas de los efectos inter-sujetos

Variable dependiente: Contaminante


Suma de
cuadrados Media
Fuente tipo I gl cuadrática F Signif icación
Modelo corregido 1143.835a 6 190.639 69.445 .000
Intersección 3171.174 1 3171.174 1155.185 .000
Agencia 26.572 2 13.286 4.840 .042
Lugar 1117.263 4 279.316 101.748 .000
Error 21.961 8 2.745
Total 4336.970 15
Total corregida 1165.796 14
a. R cuadrado = .981 (R cuadrado corregida = .967)

4.5 Experimento Factorial axb.

Usualmente en los experimentos se desea estudiar el efecto de dos o más factores. Por diseño
factorial se entiende que en cada ensayo o réplica completa del experimento se investigan todas
las combinaciones posibles de los niveles de los factores.

Por ejemplo.
Factor A: con a niveles
Factor B: con b niveles.

74
Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.

4.5.1. Tipos de modelos

Modelo de efectos fijos


Cuando el investigador sólo está interesado en estudiar ciertos niveles de los factores
involucrados y por lo tanto la selección no es aleatoria. Los resultados sólo serán útiles para los
niveles considerados en el estudio y las hipótesis están referidas a las medias de los niveles
seleccionados. En esta sección solo se tratará el caso de un experimento factorial con dos
factores fijos.

Modelo de efectos aleatorios


Cuando el investigador está interesado en un gran número de posibles niveles, y no es posible
estudiarlos todos, la mejor manera de estudiarlos es seleccionar aleatoriamente una cantidad de
niveles de la población de niveles de cada factor en estudio. Los resultados podrán generalizarse
para toda población de niveles. En este caso las hipótesis están referidas a la variancia de los
factores.

75
Modelo de efectos mixtos
Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los
otros factores, también considerados en el estudio, son fijados por el investigador.

4.5.2. Diseño factorial de dos factores

En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.

Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo que se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería. El ingeniero decide probar los
tres materiales de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles
de temperatura son consistentes con el medio ambiente donde se usará finalmente el producto.
Se prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las
36 pruebas se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos.

Vida en horas de las baterías


Tipo de Temperatura (B)
material (A) 15°F 70°F 125°F
130 155 34 40 20 70
M1
74 180 80 75 82 58
150 188 136 122 25 70
M2
159 126 106 115 58 45
138 110 174 120 96 104
M3
168 160 150 139 82 60

¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?

Las observaciones de un experimento factorial de este tipo pueden describirse con el siguiente
modelo:

yijk     i   j  ( )ij   ijk


donde:
i  1, 2,..., a
j  1, 2,..., b
k  1, 2,..., n

76
En este modelo  es el efecto de la media global,  i es el efecto del nivel i-ésimo del factor A,
 j es el efecto del nivel j-ésimo del factor B, (  )ij es el efecto de la interacción entre  i y  j ,
y  ijk es un componente de error aleatorio. Se supone que los errores tienen distribución normal
con media cero y variancia constante.

4.5.3. Pruebas de hipótesis

Efecto de la interacción entre ambos factores:

H 0 : ( )ij  0  i, j Ho: No hay interacción entre los dos factores en estudio
H1: Hay interacción entre los dos factores en estudio
H1 : al menos un ( )ij  0

1) Si la hipótesis nula es rechazada, al nivel de significación α, podemos concluir que


efectivamente el tipo de material interacciona con temperatura en la vida efectiva de la
batería.

En este caso el análisis es el siguiente: Se fija un nivel de uno de los factores y se compara
las medias de los niveles del otro factor.

Fijando ai: Ho: No hay diferencia en las medias de los niveles del factor B.
H1: Hay diferencia en las medias de los niveles del factor B.

Fijando bj: Ho: No hay diferencia en las medias de los niveles del factor A.
H1: Hay diferencia en las medias de los niveles del factor A.

2) Si la hipótesis nula no es rechazada, al nivel de significación α, podemos concluir que el


tipo de material no interacciona con la temperatura en el proceso de fabricación de la
batería, por lo tanto sólo es necesario comparamos las medias de los niveles de cada uno de
los factores en promedio con los niveles del otro factor.
Para el efecto principal del factor A:
H 0 :  1   2  ...   a  0
H1 : al menos un  i  0

Ho: No hay diferencia en las medias de los niveles del factor A.


H1: Hay diferencia en las medias de los niveles del factor A.

Para el efecto principal del factor B:


H 0 : 1   2  ...  b  0
H1 : al menos un  j  0

Ho: No hay diferencia en las medias de los niveles del factor B.


H1: Hay diferencia en las medias de los niveles del factor B.

77
4.5.4. Descomposición de la suma de cuadrados

En este diseño, el cuadro de análisis de variancia está dado por:

Fuentes de Grados de Libertad Sumas de Cuadrados Medios


Fc
Variación (gl) Cuadrados (SC) (CM)
SC( A) CM( A)
A a–1 SC(A)
gl( A) CM(Error)
SC( B) CM( B)
B b–1 SC(B)
gl( B) CM(Error)
SC( AB) CM( AB)
AB (a – 1)(b-1) SC(AB)
gl( AB) CM(Error)
Error SC(Error)
ab( n – 1) SC(Error)
Experimental gl(Error)
Total abn – 1 SC(Total)

A continuación se presenta el cuadro de análisis de varianza (SPSS) para el ejemplo tratado en


esta sección:

Los resultados de este análisis indican lo siguiente:

Ho: No hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
H1: Hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.

Se rechaza H0 (Sig. = 0,019), por lo que se concluye que existe un efecto de interacción entre el
tipo de material y la temperatura sobre la vida de la batería, por lo tanto se debe analizar los
efectos simples. Por lo tanto las hipótesis serán:

78
Fijamos 15°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 70°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 150°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos M1: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M2: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M3: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.

Analizaremos el gráfico de las medias marginales y corroboraremos lo observado con la tabla


de comparación por pares que se muestra a continuación:

De este gráfico y la tabla anterior, se pueden desprender las siguientes conclusiones:


 A los 15°F, aparentemente las baterías tienen el mismo tiempo de vida con los tres tipos de
material.
Esto se corrobora puesto que

Comparaciones sig Conclusión


M1 y M2 0.263 No hay diferencias
significativas
M2
M1 y M3 0.619 No hay diferencias
significativas
M2 y M3 0.528 No hay diferencias M1 M3
significativas
Todos los sig son mayores que 0.05, lo
cual indica que no hay diferencias
entre cada par de medias.

79
 A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida
del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece
ser la peor opción.
Analizando las pruebas de comparación se tiene

Comparaciones de medias Sig Conclusión


M1 y M2 0.002 Hay diferencias significativas
M1 y M3 0.000 Hay diferencias significativas
M2 y M3 0.168 No hay diferencias significativas

µ1 µ2 µ3

Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías
fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que
sean fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.

 A los 150°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1
y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la
comparación de medias nos indica que al nivel se significación del 5% no se encontró
diferencia entre ellos.

Comparaciones de medias sig Conclusión


M1 y M2 0.667 No hay diferencias significativas
M1 y M3 0.139 No hay diferencias significativas
M2 y M3 0.06 No hay diferencias significativas

Conclusión: Al nivel de significación del 5%, a los 150°F no importa el tipo de material que
se use.
Se puede analizar de igual forma fijando los niveles del otro factor.

80
Seguidamente, se muestran las salidas para validar los supuestos:

 Homogeneidad de las Varianzas:

 Normalidad de los Errores:


Prueba de Kolmogorov-Smirnov para una muestra

Resi duo
para vida
N 36
Parámetros normalesa,b Media ,0000
Desviación típica
22,82276

Diferencias más extremas Absolut a ,106


Positiva ,068
Negativa -,106
Z de Kolmogorov-Smirnov ,636
Sig. asintót. (bilateral) ,814
a. La dist ribuci ón de contraste es la Normal.
b. Se han calcul ado a partir de l os dat os.

81
Ejercicios 9

1) Para determinar la mejor disposición de los instrumentos sobre el tablero de control de un


aeroplano, se prueban tres distintos arreglos simulando una situación de emergencia y se
observa el tiempo de reacción requerido para corregir la avería. Los tiempos de reacción (en
décimas de segundo) de 28 pilotos (aleatoriamente asignados a los diversos arreglos) son
los siguientes:

Total
Disposición 1 14 13 9 15 11 13 14 10 12 111
Disposición 2 10 12 9 7 11 8 12 9 10 13 101
Disposición 3 11 5 9 10 6 8 8 7 6 70
282

 y 2
ij  3030

a) Con un nivel de significación de 0.01 pruebe si se puede rechazar la hipótesis nula de


que las diferencias entre las disposiciones no tienen efecto alguno.
b) De rechazar la hipótesis nula en a), realice la prueba de Duncan.

Salidas de SPSS:

82
2) En un estudio se investigó la importancia de los valores éticos corporativos entre personas
que se especializan en mercadotecnia. Los datos siguientes muestran las puntuaciones sobre
la evaluación realizada; las puntuaciones más altas indican valores éticos mayores.
a) Indique el modelo lineal e interprete sus componentes.
b) Usando   0,05 pruebe si hay diferencias significativas en la importancia de los
valores entre los tres grupos.
c) De rechazar la hipótesis nula en b), realice la prueba de DMS.

Gerentes de Investigadores de Publicidad


mercadotecnia mercadotecnia
5 2 8
5 3 9  y 2
ij  543
4 2 6
5 4 9
4 3 6
4 4 8
Total 27 18 46

Salidas de SPSS:

83
3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una
tienda de departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar.
Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes disposiciones y se
mide el tiempo que emplean (en minutos).

Arreglo 1 Arreglo 2 Arreglo 3 Arreglo 4 Total


Cuadrilla A 48,2 53,1 51,2 58,6 211,1
Cuadrilla B 49,5 52,9 50,0 60,1 212,5
Cuadrilla C 50,7 56,8 49,9 62,4 219,8
Cuadrilla D 48,6 50,6 47,5 57,5 204,2
Cuadrilla E 47,1 51,8 49,1 55,3 203,3
Cuadrilla F 52,4 57,2 53,5 61,7 224,8
Total 296,5 322,4 301,2 355,6 1275,7

Sabiendo que,  yij2  68 281,53 , pruebe con un nivel de significación de 0,01 si las
cuatro disposiciones producen distintos tiempos promedio de montaje.

84
Salidas de SPSS:

85
4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis sujetos en
un diseño de bloques completos al azar. A los sujetos, que juegan el papel de bloques, se les
asignan las siguientes tres dietas en orden aleatorio.
Dieta 1: mezcla de grasa y carbohidratos
Dieta 2: alta en grasa
Dieta 3: alta en carbohidratos
Al final del período de tres días cada sujeto se coloca un aparato para caminata y se mide el
tiempo de duración del agotamiento en segundos. Se registraron los siguientes datos:

Sujeto Total
Dieta I II III IV V VI
1
2
84
91
35
48
91 57
71 45
56
61
45
61
368
377
 y 2
ij
 108064

3 122 53 110 71 91 122 569


Total 297 136 272 173 208 228 1314

a) Defina el modelo en términos del problema.


b) Utilice nivel de significación de 0,01 para determinar si hay diferencias significativas
entre las dietas.
Salidas de SPSS:

86
5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar el
efecto que tiene el tamaño de un anuncio en revistas y el diseño mismo del anuncio, sobre
la cantidad de pedidos recibidos (en miles). Se consideraron tres diseños de anuncios y dos
tamaños de anuncios. Los datos que se obtuvieron aparecen en la tabla siguiente. Aplique el
procedimiento de análisis de variancia para experimentos factoriales e investigue si hay
efectos apreciables debidos al tipo de diseño, tamaño del anuncio o interacción entre esos
dos factores. Use   0,05 .

Tamaño del anuncio


Pequeño Grande Total
8 12 20
A 12 8 20
14 16 30
22 26 48
Diseño B 14
20
30
30
44
50
 y 2
ijk  5882
10 18 28
C 18 14 32
15 17 32
Total 84 133 171

87
Salidas de SPSS:

88
6) La empresa MOVITEL S.A. desea investigar el número de reclamos que realizan los
usuarios de diferentes tipos de servicios y el motivo del reclamo. Para ello recoge la
información en tres semanas diferentes que se muestra en la siguiente tabla:

Servicio
Motivo del
Internet Internet Móvil Teléfono Cable
reclamo
32 34 30 15
Instalación 28 33 35 20
31 38 37 22
26 24 32 26
Sobre
23 32 28 25
facturación
24 31 34 22
Servicio 27 32 30 20
No 25 29 27 15
Disponible 28 33 31 22

Utilizando las siguientes salidas obtenidas con el SPSS y un nivel de significación del 5%,
responda a las siguientes preguntas.
a) Valide los supuestos.
b) ¿Existirán diferencias en la cantidad de reclamos por parte de los usuarios en relación a
los servicios y motivos considerados?
c) Para cada tipo de reclamo ¿Cuál(es) es (son) el (los) tipo(s) de servicio(s) más críticos?

Salidas de SPSS:

89
90
5. Análisis de Regresión Lineal Simple

5.1. Análisis de Regresión Lineal Simple y de Correlación


El análisis de regresión lineal simple y de correlación comprende el estudio de los datos
muestrales para saber si dos variables están relacionadas linealmente entre sí en una población.

El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede
usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen
conocidos los valores de la otra.

El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.

Ejemplos
 ¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
 ¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?

Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.

5.1.1. El diagrama de dispersión


El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en
un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de
tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se
estimará una recta y en el segundo caso una curva.

A: PRIMER TIPO B: SEGUNDO TIPO

91
C:Tercer tipo

Ejemplo 1
La alcaldesa de cierta ciudad desea dar de baja a un conjunto de autos que emitan excesiva
cantidad de Monóxido de nitrógeno (NO); por ser uno de los elementos que contamina el
medio ambiente, los técnicos y asesores desean saber, si la cantidad de Monóxido de
nitrógeno (NO en mg/m3) expulsado por los autos se relaciona con la antigüedad de los
autos. Para el estudio seleccionaron una muestra de 10 autos y les solicitaron que utilizaran
una nueva gasolina reformulada que acaba de ingresar al mercado, y posteriormente hicieron
la medición respectiva.

Año Antigüedad del auto (años) Monóxido de Nitrógeno (mg/m3)


2009 2 1,8
2008 3 5,16

92
2009 2 4,8
2000 11 12,97
2004 7 5,92
1995 16 20,66
2002 9 10,16
2009 2 4,17
1999 12 13,52
2007 4 1,33

A continuación se presenta el diagrama de dispersión para estos datos, de donde resulta


evidente que a mayor antigüedad del auto, mayor será la cantidad de monóxido de carbono
emitida. Además, se aprecia que esta relación podría describirse bastante bien con una línea
recta.

5.1.2. El método de los mínimos cuadrados


El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido
como el método de mínimos cuadrados, cuya recta resultante tiene dos características
importantes:

La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).

Considere el siguiente modelo para describir la relación entre los valores de las variables X e
Y
yi   0  1 xi   i
y sea yˆ  ˆ  ˆ x la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
0 1
minimiza es:
n

(y
i 1
i  yˆ i ) 2

Los valores de  0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:

93
n
 n 
 yi
i 1
 n 0  1   xi 
 i 1 
n
 n   n 2

i 1
x y
i i   0  i
 x
 i 1 
   1   xi 
 i 1 

Resolviendo las ecuaciones simultáneas para  0 y 1 se tiene

 n   n  n 
n  xi y i     xi   y i 
ˆ1   i 1   i 1  i 1 
2
y ˆ0  y  ˆ1 x
 n 2  n 
n  xi     xi 
 i 1   i 1 

5.1.3. La línea recta estimada


La línea recta estimada tiene dos importantes componentes:

 La pendiente de la recta y
 La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)

La ecuación lineal es la siguiente:

Punto de corte
yˆ i  ˆ0  ˆ1 xi Pendiente

Ejemplo
Estime la ecuación de la recta del ejemplo anterior.

Antigüedad
Nº del auto Monóxido de Nitrógeno (mg/m3): Y XY X2 Y2
(años): X

1 2 1,8 3,60 4 3,24


2 3 5,16 15,48 9 26,6256
3 2 4,8 9,60 4 23,04
4 11 12,97 142,67 121 168,2209
5 7 5,92 41,44 49 35,0464
6 16 20,66 330,56 256 426,8356
7 9 10,16 91,44 81 103,2256

94
8 2 4,17 8,34 4 17,3889
9 12 13,52 162,24 144 182,7904
10 4 1,33 5,32 16 1,7689
Suma 68,00 80,49 810,69 688,00 988,18

5.1.4. Descomposición de la varianza total

Y yˆ i  ˆ0  ˆ1 xi

(xi, yi)
yi
yi  yˆ i
yi  y
yˆ i  y
y

x xi X

La distancia ( yi  y ) se puede descomponer de la siguiente manera:

( yi  y )  ( yˆ i  y )  ( yi  yˆ i )

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:


 y )   ( yˆ i  y )  ( yi  yˆ i )
n n

(y 2 2
i
i 1 i 1
n n n
  ( yˆ i  y ) 2   ( yi  yˆ i ) 2  2 ( yˆ i  y )( yi  yˆ )
i 1 i 1 i 1
Operando algebraicamente se obtiene la siguiente relación:
n n n

 ( yi  y ) 2   ( yˆ i  y ) 2   ( yi  yˆ i ) 2
i 1 i 1 i 1

    
SCT  SCR  SCE

95
Sumas de Cuadrados
2
 n 
  yi 
  ( yi  y ) 2   yi2   i 1 
n n
SCT
i 1 i 1 n
  n 
2

 n 2 
  xi  
n n
 
SCR   ( yˆ i  y )   1  ( xi  x )   1   xi 
ˆ ˆ
2 2 2 2 i 1

i 1 i 1  i 1 n 
 
 
n
SCE   ( yi  yˆ i ) 2  SCT  SCR
i 1

96
5.1.5. Supuestos de la Regresión
 Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.

 Los errores o residuos tienen media igual a cero y varianza igual a 2. Se
suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se
muestra el valor de la media de los residuos y su varianza.

 Los errores o residuos aleatorios asociados a cualquier par de valores


asociados a la variable dependiente Y, no se encuentran autocorrelacionados.
Para realizar la verificación de esta prueba utilizamos la prueba de Durbin –
Watson cuyo estadístico toma valores desde Cero hasta cuatro.

Si D-W se aproxima a Cero, decimos que los residuos presentan


autocorrelación positiva.
Si D-W toma valores en el intervalo que va desde 1 a 3, decimos que no
existe autocorrelación entre los residuos.
Si D-W se aproxima a Cuatro, decimos que los residuos presentan
autocorrelación negativa.

5.1.6. Coeficiente de determinación y de no determinación


El coeficiente de determinación (r2) y de no determinación (1- r2) se calculan de la siguiente
manera:
SCR SCR
r2  y (1  r 2 )  1 
SCT SCT

El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total de y que es


explicada por la regresión.

5.1.7. Error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores
muestrales alrededor del plano de regresión. Es definido por:

SCE SCE
Se    CME
n p n2

donde p es el número de parámetros a estimar (intercepto y pendiente).

5.1.8. Coeficiente de correlación

97
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por  varía dentro del
intervalo de -1 y 1. Si   0 entonces no existe correlación o asociación lineal entre las
variables, conforme más cercano a 1 ó a -1 sea, mayor será la asociación, y cuando  es
exactamente 1 ó -1 la asociación es perfecta.

 es r y se calcula mediante la siguiente fórmula:

1 n
cov( X , Y )  ( xi  x )( yi  y )
n i 1
r 
S X SY 1 n 1 n

n i 1
( xi  x ) 2
. 
n i 1
( yi  y ) 2

 n   n  n 
n  xi yi     xi   yi 
  i 1   i 1  i 1 
  n 2   n 2    n 2   n 2 
n  xi     xi  .n  yi     yi  
  i 1   i 1     i 1   i 1  

5.1.9. Inferencia sobre los coeficientes del modelo de regresión


5.1.9.1. Inferencia para β0

El intervalo de confianza de ( 1   )x100% para  0 y el estadístico de prueba


para contrastar las hipótesis H 0 :  0   0* y H1 :  0   0* se calculan con las
siguientes fórmulas:

ˆ0  t / 2 s
x 2
i
t
ˆ0   0*
~ t ( n2)
nS xx
s
 xi2
nS xx

5.1.9.2. Inferencia para β1

El intervalo de confianza de ( 1   )x100% para  1 y el estadístico de prueba


para contrastar las hipótesis H 0 : 1  1* y H1 : 1  1* se calculan con las
siguientes fórmulas:

s ˆ1  1*
ˆ1  t / 2 t ~ t ( n2)
S xx s
S xx

98
5.1.10. Inferencia sobre el coeficiente de correlación
Para probar las hipótesis:
H0 :   0
H1 :   0

El estadístico de prueba es:


r n2
t ~ t ( n2)
1 r2

Si se asume que X e Y siguen la distribución normal multivariada, es posible probar


las hipótesis más generales:
H0 :   0
H1 :    0
El estadístico de prueba es:
n  3  (1  r )(1   0 ) 
Z ln   ~ N (0,1)
2  (1  r )(1   0 ) 

5.1.11. Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:

Valor medio
1 ( x0  x ) 2
yˆ 0  t ( n2, / 2) Se 
n S xx

Valor individual
1 ( x0  x ) 2
yˆ 0  t ( n 2, / 2) Se 1  
n S xx
 x  2

Donde: S xx   x     xi  x 
2 i 2
i
n

Otra forma:
2
SCR  S 
S xx  2   e 
ˆ1  S b1 
Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.

Aplicación con el SPSS

99
Referente al ejercicio sobre la cantidad de monóxido de nitrógeno emitido, se calcula el
coeficiente de correlación lineal de las variables, la recta estimada, y se realizan las pruebas
de hipótesis para los coeficientes:

Correlaciones
Y.MONOXIDO X.ANTIGUEDAD
**
Y.MONOXIDO Correlación de Pearson 1 ,950
Sig. (bilateral) ,000
N 10 10
**
X.ANTIGUEDAD Correlación de Pearson ,950 1
Sig. (bilateral) ,000
N 10 11
**. La correlación es significativa al nivel 0,01 (bilateral).

b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,950 ,903 ,891 2,02740 1,770

a. Variables predictoras: (Constante), X.ANTIGUEDAD


b. Variable dependiente: Y.MONOXIDO

b
ANOVA

Modelo Suma de cuadrados gl Media cuadrática F Sig.


a
1 Regresión 307,435 1 307,435 74,795 ,000

Residual 32,883 8 4,110

Total 340,318 9

a. Variables predictoras: (Constante), X.ANTIGUEDAD


b. Variable dependiente: Y.MONOXIDO

a
Coeficientes

Coeficientes no Coeficientes Intervalo de confianza de 95.0%


estandarizados tipificados para B

Modelo B Error típ. Beta t Sig. Límite inferior Límite superior

100
1 (Constante) ,111 1,120 ,099 ,924 -2,471 2,693

X.ANTIGUEDAD 1,167 ,135 ,950 8,648 ,000 ,856 1,479

a. Variable dependiente: Y.MONOXIDO

Análisis de los residuales

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized
Residual

N 14
a,b
Parámetros normales Media ,0000000

101
Desviación típica ,91132730
Diferencias más extremas Absoluta ,118
Positiva ,105
Negativa -,118
Z de Kolmogorov-Smirnov ,443
Sig. asintót. (bilateral) ,990

a. La distribución de contraste es la Normal.


b. Se han calculado a partir de los datos.

Pronósticos

Preguntas a resolver con las salidas obtenidas con el programa SPSS.


a. Analice los supuestos del modelo. Use   0,05.
b. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
c. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de un año de
antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en más
de 0.85 (mg/m3)?

102
d. Con 95% de confianza, ¿cuál será la cantidad emitida de monóxido de nitrógeno cuando un
auto tiene 20 años de antigüedad?
e. Con 95% de confianza, ¿cuál será la cantidad promedio emitida de monóxido de nitrógeno
cuando un auto tiene 20 años de antigüedad?
f. ¿Qué porcentaje de la variabilidad de la cantidad emitida de monóxido de carbono por el
auto es explicada por el modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que la emisión de monóxido de
nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75?

Solución:

Y = Monóxido de carbono (Variable dependiente)


X = antigüedad del auto. (Variable inpendiente)

a) Verificación de supuestos:

Ho: Los errores se distribuyen normalmente


H1: Los errores No se distribuyen normalmente

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized Residual

N 10
a,b
Parámetros normales Media ,0000000
Desviación típica 1,91145221
Diferencias más extremas Absoluta ,191
Positiva ,109
Negativa -,191
Z de Kolmogorov-Smirnov ,603
Sig. asintót. (bilateral) ,860
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

Sig = 0.86 > 0.05 ;


Decisión: No se rechaza Ho.
Conclusión: Con un 5% de significación, se asume que los errores tienen distribución
normal.

Ho: No existe autocorrelación entre los residuos.


H1: Si existe autocorrelación entre los residuos.

b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,950 ,903 ,891 2,02740 1,770

103
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,950 ,903 ,891 2,02740 1,770

a. Variables predictoras: (Constante), X.ANTIGUEDAD


b. Variable dependiente: Y.MONOXIDO

DW = 1.77 se encuentra en el intervalo [1; 3]

Decisión: No se rechaza Ho.


Conclusión: No existe autocorrelación entre los residuos.

Se cumples ambos supuestos.

b) Validación del modelo: Modelo de regresión estimado: Yˆ 0.1109  1.1674 X

a
Coeficientes

Coeficientes no estandarizados Coeficientes tipificados

Modelo B Error típ. Beta t Sig.

1 (Constante) ,1109 1,120 ,099 ,924

X.ANTIGUEDAD 1,1674 ,135 ,950 8,648 ,000

a. Variable dependiente: Y.MONOXIDO

Ho: β1 = 0 (El modelo de regresión No es significativo)


H1: β 1 = 0 (El modelo de regresión Si es significativo)

Sig = 0.00 < 0.05

Decisión: Se rechaza Ho

Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo de
regresión estimado es significativo.

β1= 1.1674. Si antigüedad del auto aumenta en un año, la emisión de monóxido de nitrógeno
será de 1.1674 mg/m3

c) Prueba de hipótesis para un valor cualquiera de la pendiente


Ho: β1 = 0.85

104
H1: β1 > 0.85

1.1674  0.85
tcalculado   2.351  tcritico (0.05;8)  1.8595
0.135
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que por cada incremento de
un año de antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en
más de 0.85 (mg/m3).

d) Intervalo de confianza del 95% para un valor individual.

NOTA: Utilizar todos los decimales que nos brinda el SPSS.


n 10
Xo 20 Prom X 6.8
Y0 23.45824468
SXX 225.6000
Se 2.02740
T(0.025;8) 2.306004135
IC indiv 17.0610113 29.85548

1 20  6.8
2
23.45824..  2.3060014  2.0274 1  
10 225.6

IC = < 17.061 ; 29.855 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno,
cuando un auto tiene 20 años de antigüedad, se encontrará entre 17.061 y 29.855 unidades de
mg/m3.

e) Intervalo de confianza del 95% para un valor promedio.

1 20  6.8
2
23.45824..  2.3060014  2.0274 
10 225.6
IC = < 19.09165 ; 27.8248 >

Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno
promedio, cuando un auto tiene 20 años de antigüedad, se encontrará entre 19.092 y 27.825
unidades de mg/m3.

f) Explicación de la variabilidad

Utilizamos el Rcuadrado (R2) = 0.903.

105
El 90.3% de la variabilidad de la cantidad de monóxido de nitrógeno emitida por un auto es
explicada por el modelo de regresión estimada.

g) Prueba de hipótesis para la asociación de las variables:

Ho: ρ0 = 0 (No existe asociación lineal entre las variables)


H1: ρ0 ≠ 0 (Si existe asociación lineal entre las variables)

0.9505 10  2
t cal   8.6498  tcritico (0.05;8)  2.3060041
1  0.9034
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significancia del 5% se puede afirmar la antigüedad del auto
está correlacionado con la emisión de monóxido de nitrógeno.
h) Prueba de hipótesis para un valor del coeficiente de correlación

Ho: ρ0 = 0
H1: ρ0 < 0.75

10  3  (1  0.9505)(1  0.75) 
Zcal  ln    2.286
2  (1  0.9505)(1  0.75) 

Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, no se puede afirmar que la emisión de
monóxido de nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75.

Ejemplo 2:
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:

Temperatura, x Azúcar transformada, y


1,0 8,1
1,1 7,8
1,2 8,5
1,3 8,2
1,4 9,5
1,5 8,9
1,6 9,0
1,7 10,2
1,8 9,3
1,9 9,9
2,0 10,5

106
Correl aciones

AZUCAR_Y TEMP ER_X


Correlación de AZUCAR_Y 1.000 .891
Pearson TEMP ER_X .891 1.000
Sig. (unilateral) AZUCAR_Y . .000
TEMP ER_X .000 .
N AZUCAR_Y 11 11
TEMP ER_X 11 11

Resumen del modelo(b)


R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación Durbin-Watson
1 ,891(a) ,794 ,771 ,4253 3,147
a. Variables predictoras: (Constante), temper_x b Variable dependiente: azucar_y

ANOVAb

Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 6.288 1 6.288 34.756 .000 a
Resi dual 1.628 9 .181
Total 7.916 10
a. Variables predictoras: (Constante), TEMPER_X
b. Variable dependiente: AZUCAR_Y
Coef icientesa

Coefici entes no Coefici entes Intervalo de confianza para B al


estandari zados estandari zados 95%

Modelo B Error típ. Beta t Sig. Lí mite inferior Lí mite superior


1 (Constante) 5,495 ,622 8,839 ,000 4,089 6,902
temper_x 2,391 ,406 ,891 5,895 ,000 1,473 3,308
a. Variable dependiente: azucar_y

Prueba de Kolmogorov-Smirnov para una muestra


Unstandardized
Residual
N 11
Media ,000000
Parámetros normales(a,b)
Desviación típica ,4035186
Diferencias más extremas Absoluta ,179
Positiva ,179
Negativa -,125
Z de Kolmogorov-Smirnov ,595
Sig. asintót. (bilateral) ,871
a La distribución de contraste es la Normal.
b Se han calculado a partir de los datos.

Responder las siguientes preguntas con las salidas mostradas anteriormente:

a. Elabore el diagrama de dispersión para los datos.


b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de un ºC de
temperatura, la cantidad de azúcar trasformada se incrementará en más de 2.4 unidades.
e. Con 95% de confianza, ¿cuál será la cantidad de azúcar trasformada cuando la temperatura
sea de 2 º F?

107
f. Con 95% de confianza, ¿cuál será la cantidad media de azúcar trasformada cuando la
temperatura sea de 2 º F?
g. ¿Qué porcentaje de la variabilidad de la cantidad de azúcar trasformada es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la de azúcar trasformada y la
temperatura están correlacionadas en más de 0.90?

108
5.2. Regresión no lineal
Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se
gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por β0 e β1 x . Si se
toma logaritmos a la ecuación y   0 e 1 x esta se convierte en:
ln y  ln  0  1 x
y *   0*  1 x .................. (1)
la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser
tratada bajo los mismos lineamientos presentados en la sección anterior.
Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se
muestran algunas transformaciones importantes:

Transformación
Forma funcional que relaciona y con x Función
apropiada
Exponencial y   0 e 1 x y*  ln y y*  f ( x)
y*  ln y
Potencia y   0 x 1 y*  f ( x*)
x*  ln x
1 1
Recíproca y   0  1   x*  y  f (x*)
 x x
1
y* 
Función 1 y
y y*  f ( x*)
hiperbólica  0  1 x 1
x* 
x

Función exponencial
y y
0
1  0
1  0

0
x x

Función potencia

109
y 1  1 y

0  1  1
1  0

0
x x

Función recíproca

y y

0
1  0
1  0

0

x x

Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):
Millas conducidas (en miles) x Porcentaje usable y Lny
1 98,2 4,587
2 91,7 4,519
5 81,3 4,398
10 64,0 4,159
20 36,4 3,595
30 32,6 3,484
40 17,1 2,839

a. Realice un diagrama de dispersión entre estas dos variables.


b. Determine el mejor modelo de regresión no lineal a un nivel de significación del 1,5%.
c. Estime el porcentaje de neumáticos usables, cuando el número de millas recorridas ha sido
de 15000 millas. Utilice un intervalo de predicción del 95%.

110
SOLUCION:
a. Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la
estimación con SPSS.

b. Debajo se muestra la salida que arroja el SPSS.


Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Y: Porcentaje usable


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .933 69.795 1 5 .000 91.660 -2.040
Cuadrático .986 142.721 2 4 .000 99.897 -3.924 .048
Potencia .840 26.270 1 5 .004 126.278 -.428
Exponencial .979 229.924 1 5 .000 99.496 -.043
La v ariable independiente esX: Millas conducidas (en miles).

Lineal
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5675.152 1 5675.152 69.795 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 406.557 5 81.311
.966 .933 .920 9.017 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-2.040 .244 -.966 -8.354 .000
(en miles)
(Constante) 91.660 5.080 18.042 .000

Cuadrático

111
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5997.661 2 2998.830 142.721 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 84.048 4 21.012
.993 .986 .979 4.584 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-3.924 .497 -1.858 -7.900 .001
(en miles)
X: Millas conducidas
.048 .012 .922 3.918 .017
(en miles) ** 2
(Constante) 99.897 3.330 29.998 .000

Potencia
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2.142 1 2.142 26.270 .004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .408 5 .082
.917 .840 .808 .286 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(X: Millas conducidas
-.428 .084 -.917 -5.125 .004
(en miles))
(Constante) 126.278 25.995 4.858 .005
La v ariable dependient e es ln(Y: Porcentaje usable).

Exponencial
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2.496 1 2.496 229.924 .000
R R cuadrado corregida la estimación Residual .054 5 .011
.989 .979 .974 .104 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-.043 .003 -.989 -15.163 .000
(en miles)
(Constante) 99.496 5.840 17.036 .000
La v ariable dependiente es ln(Y : Porcentaje usable).

Iniciar con el modelo cuadrático: R2 = 0.986. Y = 99.897 – 3.924X + 0.048X2

Validación: ( α = 1.5%)
Ho: β 2 = 0 (El modelo de regresión No es significativo)
H1: β 2 = 0 (El modelo de regresión Si es significativo)
Sig = 0.017 > 0.015

112
Decisión: No se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo cuadrático
no es válido.

Segundo modelo a evaluar: Exponencial. R2 = 0.979. Y = 99.496 e - 0.43 X


Ho: β 1= 0 (El modelo de regresión No es significativo)
H1: β 1= 0 (El modelo de regresión Si es significativo)

Sig = 0.000 < 0.015

Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo exponencial
es válido.

Nota: La siguiente tabla resulta de ingresar en el programa SPSS, la variable Ln Y


Coeficientesa

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.600 .059 78.369 .000
X: Millas conducidas
-.04278 .003 -.989 -15.163 .000
(en miles)
a. Variable dependient e: LnY

A partir de la salida que presenta el SPSS, la ecuación estimada es:

yˆ*  4,600  0,04278x

de dónde se tiene que ˆ0  e 4.6  99.484 aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:

yˆ  99,484 e  0,04278 x

c. Intervalo de confianza individual, α = 5%


Dato: Xo = 15 (miles de millas)

n 7
Xo 15 Prom X 15.42857
Yo 52.37390244 Sxx 1363.714
LnYo 3.958408422
T(0.025;5) 2.570581836
Se 0.104187608

IC = < 3,67207696; 4,24473988 > aplicar la función exponencial

113
IC = < < 39,33352; 69,73762 >

Interpretación: Con un nivel de confianza del 95%, se espera que el porcentaje de


neumáticos usables, cuando el número de millas recorridas ha sido de 15000 millas se
encuentre entre 39.334% y 69.738 %.

Ejercicios 20

1. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el
roce entre dos piezas provoca un calentamiento que, a su vez, produce la soldadura
entre ambas. Suponga que se realiza un experimento sobre este tipo de soldadura,
haciendo rodar a una velocidad prefijada (en m/mn) una pieza y llevándola hasta el
reposo mediante el rozamiento con otra pieza. El calor generado por este rozamiento
provoca una soldadura de presión caliente cuya resistencia medimos en ksi. Los datos
del experimento se recogen en la tabla siguiente. Se está tratando de analizar el efecto
que tiene la velocidad sobre la resistencia de la soldadura.

Velocidad 90,31 87,32 99,77 99,86 99,42 100,98 102,81 103,73 105,2 89,18 98,21
Resistencia 63,79 56,9 82,76 84,48 86,21 87,93 90,5 94,83 96,55 64,69 81,03

De las salidas siguientes responda las siguientes preguntas; a excepción de las preguntas e
y f respectivamente:

114
a. Elabore el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
velocidad en una unidad, la resistencia se incrementará en más de 0.55 (ksi)?
e. Con 95% de confianza, ¿cuál será la resistencia de la soldadura cuando la velocidad
sea de 105 m/mn?
f. Con 95% de confianza, ¿cuál será la resistencia media de la soldadura cuando la
velocidad sea de 105 m/mn?
g. ¿Qué porcentaje de la variabilidad de la resistencia de la soldadura es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la resistencia de la
soldadura y la velocidad aplicada están correlacionadas en menos de 0.42?

2. Un ingeniero químico está calibrando un espectrómetro para medir la concentración de

115
CO en muestras de aire. Esta calibración implica que debe comprobar que no hay
diferencias significativas entre la concentración verdadera de CO (x) y la
concentración medida por el espectrómetro (y). Para ello toma 11 muestras de aire en
las que conoce su verdadera concentración de CO y las compara con la concentración
medida por el espectrómetro. Los datos son los siguientes (las unidades son ppm):

Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración medida espect. 1 12 20 29 38 48 61 68 79 91 97
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

a. Elabore el diagrama de dispersión para los datos.


b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
concentración de CO en una unidad, la concentración medida por el espectrómetro se
incrementará en más de 0.98 ppm?
e. Con 95% de confianza, ¿cuál será la concentración medida por el espectrómetro

116
cuando concentración de CO en el aire sea de 105 ppm?
f. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el
modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

3. Suponga que un ingeniero que labora en una distribuidora eléctrica de cierta ciudad de
Canadá, desea encontrar un modelo matemático que le permita predecir el consumo de
electricidad en su localidad a partir de las temperaturas mínimas que se pronostican
para el día siguiente. Los datos que tiene son una muestra la temperatura pronosticada
y el consumo real:

Temperatura
pronosticada (º C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo(megawatios) 15,5 13,5 11 8,5 14,8 9,85 10,5 8,5 10 9,5

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:

117
a. Interpretar el
diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de la de
la temperatura en un grado centígrado, el consumo de electricidad disminuirá en más
de 0.2 megawatios?
e. Con 95% de confianza, ¿cuál será el consumo de electricidad el consumo de
electricidad cuando la temperatura sea de -18 ºC?
f. ¿Qué porcentaje del consumo de electricidad es explicada por el modelo de regresión
estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%

4. Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de


cierto país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en
μgr/m3. Para ello seleccionaron aleatoriamente 11 ciudades, y registraron el contenido
de SO2 en el aire y el número de fábricas con más de 20 empleados.

Contenido de SO2 10 13 12 17 56 36 29 14 10 24 110


Fábricas 213 91 453 454 412 80 434 136 207 368 3344

De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta


e:

118
a. Interpretar el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use   0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de una
fábrica en la ciudad, el contenido de SO2 en el aire se incrementará en más de 0.03
unidades.
e. Con 95% de confianza, ¿cuál será el contenido de SO2 en el aire cuando el número de
fábricas sea 800?
f. ¿Qué porcentaje de la variabilidad del contenido de SO2 en el aire es explicada por el
modelo de regresión estimada?

119
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que el contenido de SO2 en el
aire y el número de fábricas están correlacionadas en más de 0.92?

5. Una empresa dedicada a la producción de herramientas de acero, desea presentar al


mercado un nuevo tipo de punta para taladros. Antes de ello desea saber si la
deformación (en mm.) que sufre el acero a temperatura normal afecta la dureza del
acero (en kg/mm2). Para investigar esta relación se ha tomado la siguiente muestra de
datos:

Dureza (en kg/mm2) 68 67 65 53 44 40 37 34 32


Deformación (mm) 6 9 11 13 22 26 28 33 35

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el


programa SPSS o EXCEL.

Lineal

Cuadrático

120
Potencia

Exponencial

121
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime la dureza del acero si la deformación que sufre el acero es de 40 mm. Utilice un
intervalo de predicción del 95%.
c. Estime la dureza media del acero si la deformación que sufre el acero es de 30 mm.
Utilice un intervalo de predicción del 95%.

6. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementado


notablemente en los últimos meses. Los estudios realizados por el gerente de la
empresa argumenta que el mayor uso de Internet dentro de la misma es la principal
causa del mayor gasto en teléfono, lo que ha hecho que se estudie la posibilidad de
acogerse a alguno de los múltiples bonos o tarifas especiales que ofrecen las
compañías, lo que hasta la fecha todavía no se ha llevado a cabo. Los datos recogidos
son:

Gasto ($) 55 100 118 120 142 70 125 98 125 65


Minutos de internet 200 500 700 800 1000 220 795 440 950 170

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el


programa SPSS o EXCEL.

Lineal

122
Cuadrático

Potencia

Exponencial

123
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime el gasto mensual de un mes si el tiempo de conexión del internet es de 1100
minutos. Utilice un intervalo de predicción del 90%.
c. Estime el gasto mensual promedio si el tiempo de conexión del internet es de 1200
minutos. Utilice un intervalo de predicción del 95%.

7. Un economista del Departamento de Recursos Humanos del Estado de Florida está


preparando un estudio sobre el comportamiento del consumidor. Él recolectó los datos
que aparecen en miles de dólares para determinar si existe una relación entre el ingreso
del consumidor y los niveles de consumo. Determine cuál es la variable dependiente.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1

De las salidas siguientes responda a la pregunta a, para las preguntas b y c, utilice el


programa SPSS o EXCEL.

Lineal

124
Cuadrático

Potencia

Exponencial

125
¿Qué es el éxito?
““Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por
poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda
derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta
de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich
Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”
tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%
del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.
Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en
alguna empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos
van juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le
brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable
que padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este
libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,
sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un
consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo
cierto.
Fría, tosca, tolerante y efectiva.

Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.

126
6. Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con
un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.

6.1. Elección de las variables de predicción


Se debe tomar en cuenta los siguientes pasos para la selección de variables de un modelo de
regresión lineal múltiple:

Identificar la variable dependiente y las variables de predicción o predictoras que se van a


incluir en el modelo.
Seleccionar una muestra aleatoria, y registrar todas las variables para cada elemento de la
muestra.
Identificar las relaciones entre las variables de predicción y la dependiente, y entre las
propias variables de predicción (matriz de correlaciones).

6.2. El modelo de regresión lineal múltiple

y   0  1 x1   2 x2     k xk  
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
 : error aleatorio.

6.3. Supuestos del modelo de regresión lineal múltiple


 Los errores tienen distribución normal.
 Los errores tienen media igual a cero y varianza igual a  2.
 Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la variable
dependiente y, son independientes.

6.4. Ecuación de regresión muestral


A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros:
yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk
donde:
ŷ : valor estimado de la variable dependiente.
ˆ , ˆ , ˆ ,..., ˆ : estimaciones puntuales de los parámetros poblacionales.
0 1 2 k
x1, x2,... , xk : son las variables predictoras .

 0 : Intercepto del modelo.

127
 1 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X1;
manteniendo constante x2,….. xk.
 2 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X2,
manteniendo constante x1, ….. xk.
 : Error aleatorio asociado a Y.
Estimación de los parámetros el modelo

Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:

y1   0  1 x11   2 x12   3 x13  ...   k x1k   1


y 2   0  1 x 21   2 x 22   3 x 23  ...   k x 2 k   2

y n   0  1 x n1   2 x n 2   3 x n 3  ...   k x nk   n

Esta muestra puede ser expresada en forma matricial de la siguiente manera:

 0 
 y1  1 x11 x12 ... x1k     1 
y  1 x 21 x 22 ... x 2 k   1  
Y   2 X β   2  ε   2
       
       
 yn  1 x n1 xn 2 ... x nk 
 k   n 
 

donde Y  Xβ  ε .

El estimador de mínimos cuadrados para el vector β es:


βˆ  (X' X) 1 X' Y

Las propiedades estadísticas del estimador del vector de parámetros β son:


E(βˆ )  β
Cov(βˆ )   2 ( X ' X) 1

6.5. Coeficiente de regresión

Los valores ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora correspondiente,
manteniendo constantes las otras variables de predicción.

Los errores estándar y la covarianza de los estimadores ˆ0 , ˆ1 , ˆ2 ,..., ˆk se determinan mediante
los elementos de la matriz ( X ' X) 1 de la siguiente manera:

128
c00 c01 c02 ... c0 k 
c c11 c12 ... c1k 
 10
X X
´ 1
 c 20 c 21 c 22 ... c 2 k 
 
 
c k 0 ... c kk 
 c k1 ck 2

Los errores estándar de los coeficientes estimados ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k son:

 ˆ   c00
0

 ˆ   c11
1

 ˆ   c 22
2


 ˆ   c kk
k

El estimador de  2 , la varianza de los errores es:


SCE
S2 
n p
donde p es el número de parámetros a estimar.

6.6. El error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y
observados alrededor del plano de regresión.

SCE
Se   CME
n p

6.7. Coeficiente de determinación múltiple (r2)


El coeficiente de determinación múltiple mide el porcentaje de la variabilidad de y que se puede
explicar mediante las variables de predicción. Un valor de r2 cercano a 1 significa que la
ecuación es muy exacta porque explica una gran porción de la variabilidad de y. Se define
como:
SCR
r2 
SCT
Por cada variable independiente adicional en el modelo, el coeficiente de determinación
incrementará su valor. Por tal razón se suele calcular el coeficiente de determinación corregido,

129
útil para comparar el poder predictivo de modelos alternativos con diferente número de
variables independientes:

n 1
2
rcorregido  1 (1  r 2 )
n p

6.8. Pruebas de hipótesis


Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha
examinado la matriz de correlaciones para determinar aquellas combinaciones de variables que
son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor
ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud
del analista.

6.8.1. Pruebas individuales


Las hipótesis nula y alternante para las pruebas individuales son:

H0 : i  0
H1 :  i  0

y el estadístico de prueba es:

ˆi
tc  ~ t ( n p )
 ˆ
I

donde  ˆ  s cii
i

6.8.2. Prueba conjunta


Las hipótesis nula y alternante para la prueba conjunta son:

H 0 : 1   2  ...   k  0
H1 : Al menos un  i es diferente de cero

y el estadístico de prueba es:

CMR
Fc  ~ F( p 1, n p )
CME

6.9. Intervalos de confianza para los coeficientes de regresión

130
Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su
estimación puntual y el error estándar como se muestra a continuación:

LC( j )  ˆ j  t ( / 2,n p ) s cii

6.10. Multicolinealidad
Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.

Cuando dos variables tienen una alta correlación, los coeficientes ˆ0 , ˆ1 ,..., ˆk , estimadores de
 0 , 1 ,... k no son confiables. La estimación ˆ k de  k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.

Regla práctica para seleccionar las variables predictoras en regresión múltiple.

 Una variable predictora debe tener una correlación fuerte con la variable dependiente.
 Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por
debajo de la menor de las dos correlaciones entre las variables predictoras y la variable
dependiente).

Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de regresión


para hacer pronósticos, la multicolinealidad puede no causar ninguna dificultad seria.

Las consecuencias adversas son:

Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente
puede producir un coeficiente de regresión negativo si la correlación con otra variable
independiente es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para
evaluar la importancia relativa de las distintas variables independientes. Cuando las
variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico
de la variable dependiente. Por esto, es difícil separar la influencia individual de cada
variable independiente cuando la multicolinealidad está presente.

Ejemplo 1
El objetivo radica en determinar una ecuación de regresión para la producción de gasolina
expresada como un porcentaje respecto al total de petróleo crudo como una función lineal de las
propiedades de destilación de cierto tipo de petróleo crudo.

131
Se han identificado las siguientes variables de predicción:
X1: la gravedad del petróleo crudo (°API) o densidad;
X2: la presión de vapor del petróleo crudo (psi);
X3: el punto de 10% ASTM para el petróleo crudo (°F)
X4: el punto final ASTM para la gasolina (°F).
Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el líquido.
Los datos del estudio se muestran en la tabla siguiente:

Registros Y X1 X2 X3 X4
1 24,8 29,5 7,5 226 460
2 28 38,4 7,1 220 365
3 34,9 40,3 2,4 228 395
4 38,2 52,6 1,85 217 572
5 23,2 32,2 7,3 384 172
6 25,8 33,8 6,8 356 328
7 48,1 50,8 1,2 210 273
8 36,1 41,3 5,6 195 358
9 32,1 38,1 4,5 205 444
10 34,7 50,8 2,9 195 345
11 31,7 32,2 3,5 236 402
12 33,6 38,4 3,05 220 410
13 30,4 40 2,85 217 340
14 20,6 30,8 8,6 275 347
15 27,8 32,3 6,1 297 416
16 45,7 55,8 2,8 190 427

De las salidas siguientes responda las preguntas siguientes:

YX1X2X3X4

132
YX1X2X3
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,918 ,842 ,802 3,35305 1,440

a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION, X1.GRAVEDAD


b. Variable dependiente: Y.PRODUCCION

YX1X2X4
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,915 ,837 ,796 3,40945 1,453

a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X2.Presión


b. Variable dependiente: Y.Producción de gasolina

133
YX1X3X4
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,887 ,786 ,733 3,89693 2,203
a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad, X3.Punto ASTM
b. Variable dependiente: Y.Producción de gasolina

YX2X3X4
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,866 ,750 ,688 4,21553 ,847

a. Variables predictoras: (Constante), X4.Punto final, X2.Presión, X3.Punto ASTM


b. Variable dependiente: Y.Producción de gasolina

134
YX1X2
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,914 ,835 ,810 3,28861 1,447

a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD


b. Variable dependiente: Y.PRODUCCION

YX1X3
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,883 ,781 ,747 3,79612 2,133

a. Variables predictoras: (Constante), X3.PUNTOASTM, X1.GRAVEDAD


b. Variable dependiente: Y.PRODUCCION

YX1X4

135
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,871 ,758 ,721 3,98788 2,162

a. Variables predictoras: (Constante), X4.Punto final, X1.Gravedad


b. Variable dependiente: Y.Producción de gasolina

Y2X3
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,858 ,735 ,695 4,16814 ,873

a. Variables predictoras: (Constante), X3.PUNTOASTM, X2.PRESION


b. Variable dependiente: Y.PRODUCCION

YX2X4

b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,839 ,704 ,658 4,40863 1,093

136
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,839 ,704 ,658 4,40863 1,093

a. Variables predictoras: (Constante), X4.Punto final, X2.Presión


b. Variable dependiente: Y.Producción de gasolina

YX3X4

b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,649 ,421 ,332 6,16568 1,101

a. Variables predictoras: (Constante), X4.Punto final, X3.Punto ASTM


b. Variable dependiente: Y.Producción de gasolina

YX1
b
Resumen del modelo

137
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,870 ,758 ,740 3,84324 2,166

a. Variables predictoras: (Constante), X1.GRAVEDAD


b. Variable dependiente: Y.PRODUCCION

YX2
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,839 ,703 ,682 4,25249 1,091

a. Variables predictoras: (Constante), X2.PRESION


b. Variable dependiente: Y.PRODUCCION

YX3
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,631 ,398 ,355 6,05860 1,099

a. Variables predictoras: (Constante), X3.PUNTOASTM


b. Variable dependiente: Y.PRODUCCION

138
YX4
b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,197 ,039 -,030 7,65467 1,672

a. Variables predictoras: (Constante), X4.PTOFINAL


b. Variable dependiente: Y.PRODUCCION

a. Analice la existencia de la multicolinealidad.


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estimar la producción de gasolina, cuando la gravedad de petróleo crudo es de 60 °API, la
presión de vapor del petróleo crudo es 5 psi, el punto de 10% ASTM es 150 °F y el punto final
ASTM es 500 °F.
g. Halle un intervalo de predicción al 95%, para la producción promedio de gasolina, cuando la
gravedad de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el
punto de 10% ASTM es 150 °F y el punto final ASTM es 500 °F.
h. Halle un intervalo de predicción al 95%, para la producción de gasolina, cuando la gravedad
de petróleo crudo es de 60 °API, la presión de vapor del petróleo crudo es 5 psi, el punto de
10% ASTM es 150 °F y el punto final ASTM es 500 °F.

SOLUCION:

a. Análisis de la multicolinealidad

139
Analizar en valor absoluto cada coeficiente de correlación:

Variables Correlaciones Correlaciones de


predictoras entre Xi y Xj Y con cada Xi Análisis
rYX1 = 0.870
X1 Vs. X2 r X1X2 = 0.753 rYX2 = 0.839 No existe multicolinealidad
rYX1 = 0.870
X1 Vs. X3 r X1X3 = 0.584 rYX3 = 0.631 No existe multicolinealidad
rYX1 = 0.870 Existe multicolinealidad X1
X1 Vs. X4 r X1X4 = 0.218 rYX4 = 0.197 * y X4 no pueden ir juntos
rYX2 = 0.839
X2 Vs. X3 r X2X3 = 0.578 rYX3 = 0.631 No existe multicolinealidad
rYX2 = 0.839 Existe multicolinealidad X2
X2 Vs. X4 r X2X4 = 0.263 rYX4 = 0.197 * y X4 no pueden ir juntos
rYX3 = 0.631 Existe multicolinealidad X3
X3 Vs. X4 r X3X4 = 0.519 rYX4 = 0.197 * y X4 no pueden ir juntos

b. Selección del mejor modelo

Prioridad Modelo R2 Corregido


1 Y Vs. X1,X2 0.810
2 Y Vs. X1,X2,X3 0.802
3 Y Vs. X1,X3 0.747
4 Y Vs. X1 0.740
5 Y Vs. X2,X3 0.695
6 Y Vs. X2 0.682
7 Y Vs. X3 0.355
8 Y Vs. X4 -0.030

El mejor modelo: Y = β0+ β1+ β2 + e por tener mayor R2 corregido

c. Validación del modelo

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:


H0: 1   2  0 (No existe un modelo)
H1: Al menos un coeficiente es diferente de cero (Sí existe modelo)
b
ANOVA

140
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
a
1 Regresión 712,940 2 356,470 32,961 ,000

Residual 140,595 13 10,815

Total 853,534 15

a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD


b. Variable dependiente: Y.PRODUCCION

Sig = 0.000 < 0.05


Se rechaza Ho

Con un nivel de significación de 0.05, la gravedad del petróleo crudo y la presión del petróleo
crudo son significativas al modelo, y está expresado por:

d. Pruebas individuales para el modelo:

Y 18.850 + 0.494 X1 - 1.359 X2

a
Coeficientes

Coeficientes no estandarizados Coeficientes tipificados

Modelo B Error típ. Beta t Sig.

1 (Constante) 18,850 8,224 2,292 ,039


X1.GRAVEDAD ,494 ,153 ,552 3,226 ,007
X2.PRESION -1,359 ,549 -,423 -2,474 ,028
a. Variable dependiente: Y.PRODUCCION

Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.007 < 0.05
Se rechaza Ho

Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, la gravedad del petróleo y la presión de vapor
del petróleo crudo son significativas para el modelo.

Interpretación de los coeficientes:

141
β1 = 0.494
Cuando la gravedad de petróleo crudo se incrementa en una unidad °API y manteniendo
constante la presión de vapor del petróleo crudo, la producción de gasolina se incrementa en
0.494 %.

β2 = -1.359
Cuando la presión de vapor del petróleo crudo se incrementa en un psi y manteniendo constante
la gravedad de petróleo crudo, la producción de gasolina disminuye en 1.359 %.

e. Supuestos del modelo

Ho: Los errores tienen distribución normal


H1: Los errores no tienen distribución normal

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardized
Residual

N 16
a,b
Parámetros normales Media ,0000000
Desviación típica 3,06153243
Diferencias más extremas Absoluta ,111
Positiva ,101
Negativa -,111
Z de Kolmogorov-Smirnov ,444
Sig. asintót. (bilateral) ,989

a. La distribución de contraste es la Normal.


b. Se han calculado a partir de los datos.

Sig = 0.989 > 0.05

Se rechaza Ho

Se concluye que los errores tienen distribución normal

Ho: Los errores No están autocorrelacionados.

142
H1: Los errores están autocorrelacionados.

b
Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación Durbin-Watson

1 ,914a ,835 ,810 3,28861 1,447


a. Variables predictoras: (Constante), X2.PRESION, X1.GRAVEDAD
b. Variable dependiente: Y.PRODUCCION

DW =0 1.447 encuentra en el intervalo de [ 1 ; 3]

Se rechaza Ho

Se concluye que los errores no están autocorrelacionados.

f. Estimación puntual: Y = 18.850 + 0.494 (60) - 1.359 (5) = 41.695

La producción de gasolina será de 41.695, cuando la gravedad de petróleo crudo es de 60


°API, la presión de vapor del petróleo crudo es 5 psi

g. Intervalo de confianza utilizando el programa SPSS: colocar debajo del último dato de
X1 y X2, 60 y 5 respectivamente, luego ejecutar el programa.

IC = < 34,45677 ; 48,91405 >

Con un nivel de confianza del 95%, se espera que la producción promedio de gasolina
cuando la gravedad del petróleo sea de 60 ºAPI y la presión del vapor del petróleo crudo
sea de 5 psi, sea de 34.457 y 48.914 %.

Ejemplo2
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados.
Actualmente, la administración se encuentra examinando el proceso de distribución desde el
almacén y está interesada en estudiar los factores que afectan los costos de distribución del
almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la
que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los
costos de distribución del almacén, las ventas y el número de pedidos recibidos.

 Costos de distribución (miles de $)


 Ventas (miles de $)
 Número de pedidos

Los datos del estudio se muestran en la tabla siguiente:

Mes Ventas Nº pedidos Costo Mes Ventas Nº pedidos Costo

143
1 386 4015 52,95 13 372 3977 62,98
2 446 3806 71,66 14 328 4428 72,30
3 512 5309 85,58 15 408 3964 58,99
4 401 4262 63,69 16 491 4582 79,38
5 457 4296 72,81 17 527 5582 94,44
6 458 4097 68,44 18 444 3450 59,74
7 301 3213 52,46 19 623 5079 90,50
8 484 4809 70,77 20 596 5735 93,24
9 517 5237 82,03 21 463 4269 69,33
10 503 4732 74,39 22 389 3708 53,71
11 535 4413 70,84 23 547 5387 89,18
12 353 2921 54,08 24 415 4161 62,98
Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
yi   0  1 x1   2 x2   i i  1, 2, . . . , 24
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos

A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
SPSS.

Análisis de la Multicolinealidad

144
Variables Correlaciones Correlaciones de Y
predictoras entre Xi y Xj con cada Xi Análisis
rYX1 = 0.843 No existe
X1 Vs. X2 r X1X2 = 0.8 rYX2 = 0.917 multicolinealidad

Selección del mejor modelo

MODELOS POSIBLES Y X1 Y X2 Y X1X2


R2corregido 0.698 0.834 0.862
Orden 3º 2º 1º

Analizaremos el primer modelo: Y = β0+ β1+ β2 + e

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:


H0 : 1   2  0 (No existe un modelo)
H1 : Al menos un coeficiente es diferente de cero (Sí existe modelo)

Sig= 0.000 < 0.05


Se rechaza Ho

Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo
de regresión lineal múltiple entre las variables analizadas, y está expresado por:

Costos = – 3.2975 + 0.0486 Ventas + 0.0119 Número de pedidos


Pruebas individuales

Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.

Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.000 < 0.05
Se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, las ventas y el número de pedidos son
significativas al modelo.

Interpretación de los coeficientes:

β1 = 0.0486

145
Cuando las ventas se incrementan en una unidad y manteniendo constante el número de pedidos,
el costo de distribución se incrementa en 0.0486 unidades.
β2= 0.0119
Cuando el número de pedidos se incrementan en una unidad y manteniendo constante las ventas,
el costo de distribución se incrementa en 0.0119 unidades.

Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se
obtienen las siguientes tablas.

Regresión por el origen

Ho: β0 = 0
H1: β0 ≠ 0
Sig = 0.602 > 0.05
Decisión: No se rechaza Ho

Conclusión. Con un nivel de significación de 0.05, el intercepto no es significativas para el


modelo.
En el nuevo modelo no se consideraría el intercepto, haremos una nueva corrida, indicando al
programa, realizar las estimación sin intercepto. Los resultados son los siguientes:
c,d
Resumen del modelo

R cuadrado
b
Modelo R R cuadrado corregida Error típ. de la estimación Durbin-Watson
a
1 ,998 ,996 ,996 4,74504 2,270

a. Variables predictoras: X2.PEDIDOS, X1.VTAS


b. Para la regresión a través del origen (el modelo sin término de intersección), R cuadrado mide la proporción
de la variabilidad de la variable dependiente explicado por la regresión a través del origen. NO SE PUEDE
comparar lo anterior con la R cuadrado para los modelos que incluyen una intersección.

Compare el valor de R2 corregido aumento de 0.862 a 0.996.


a,b
Coeficientes

Coeficientes no estandarizados Coeficientes tipificados

Modelo B Error típ. Beta t Sig.

1 X1.VTAS ,04614 ,020 ,296 2,339 ,029

X2.PEDIDOS ,01141 ,002 ,703 5,556 ,000

a. Variable dependiente: Y.COSTO


b. Regresión lineal a través del origen

Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:

146
Mes Costo de Costo estimado ( ŷ ) Residual
distribución (y) yˆ  0.04614 x1  0.01141x2 (y- ŷ )
1 52.95 ? ?
2 71.66 64.0049 7.6551
3 85.58 84.1994 1.3806
4 63.69 67.1316 -3.4416
5 72.81 70.1033 2.7067

Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.

Gráfico de dispersión de los residuales con los valores predichos


Este gráfico permite observar si se cumple el supuesto de homogeneidad de varianzas.

147
Ejercicios 21

1) Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad (%),
temperatura del aire (ºF) y presión barométrica (lb/pulg2) influyen en la emisión de óxido
nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, en
condiciones experimentales variantes. Los datos son los siguientes:

Óxido nitroso Humedad Temperatura Presión


0,760 17,2 78,24 26,18
0,747 26,66 68,2 27,35
0,918 38,7 78,24 29,24
0,867 51,6 81,5 28,27
0,953 55,9 78,24 29,78
1,000 61,92 88,02 29,39
0,949 68,8 81,5 29,69
0,937 37,84 81,5 29,48
0,845 27,52 77,24 29,09
0,873 30,1 78,5 29,6
0,911 43 81,5 29,38
0,826 30,1 72,98 29,35

Utilice las salidas mostradas en la solución de las preguntas siguientes:

YX1X2X3

148
YX1X2

YX1X3

149
YX2X3

YX1

YX2

150
YX3

a. Analice la existencia de la multicolinealidad.


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la emisión de óxido nitroso para 50% de humedad, una temperatura de
una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.
g. Halle un intervalo de predicción al 95%, para la emisión promedio de óxido nitroso cuando
la humedad es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.
h. Halle un intervalo de predicción al 95%, para la emisión de óxido nitroso cuando la humedad
es 50%, una temperatura de 76 °F y una presión barométrica 29,30 lb/pulg2.

2) Especialistas preocupados por la contaminación atmosférica en diferentes ciudades de cierto


país, decidieron llevar a cabo un estudio del contenido de SO2 en el aire en gr/m3. Para ello
seleccionaron aleatoriamente 11 ciudades, y registraron el contenido de SO2 en el aire; el
número de fábricas con más de 20 empleados; el número de horas de funcionamiento al mes
y el número de trabajadores.

151
Contenido de SO2 Nº de fábricas Nº de horas Nº de empleados
10 213 260 36
13 91 380 100
12 453 360 67
17 454 420 86
56 412 620 127
36 80 515 114
29 434 485 111
14 136 396 116
10 207 255 128
24 368 455 115
110 3344 815 122

Utilice las salidas mostradas en la solución de las preguntas siguientes:

YX1X2X3

152
Y X1X2

YX1X3

YX2X3

153
YX1

YX2

154
YX3

a. Analice la existencia de la multicolinealidad.


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente el contenido de SO2 en aire para una ciudad con 500 fábricas, 300 horas
de funcionamiento y 120 empleados.

3) La resistencia a la tensión de una fibra se ve afectada por el tiempo de secado, la


temperatura de secado, y el porcentaje de algodón en la fibra. En la siguiente tabla se
muestran los datos.

Resistencia Tiempo (min) Temperatura (°F) %de algodón


213 2 115 13
220 2.3 145 15
216 2.3 130 15
234 2.5 146 18
230 3 148 20
235 3.4 151 19
238 3.4 135 19
230 3.4 145 19
236 4 149 16
231 4 141 16
243 4.1 155 17
Utilice las salidas mostradas en la solución de las preguntas siguientes:

155
YX1X2X3

YX1X2

156
YX1X3

YX2X3

YX1

157
YX2

YX3

a. Analice la existencia de la multicolinealidad


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación

158
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la resistencia cuando el tiempo de secado sea de 3.8 min, la temperatura
de secado de 140°F y el % de algodón en la fibra de 14%.
g. Halle un intervalo de predicción al 98% para la resistencia promedio cuando el tiempo de
secado sea de
3.8 min, la temperatura de secado de 140°F y el % de algodón en la fibra de 14%.

4) Una empresa de desarrollo de software desea establecer un modelo que permita relacionar
sus Ventas en función del número de pedidos de los tipos de software que desarrolla
(Sistemas, Educativos y Automatizaciones Empresariales). Para tal propósito analiza 10
proyectos, seleccionados aleatoriamente, de los que fueron atendidos en el presente año.
En la Tabla se ha registrado Ventas miles de $); Nº pedidos de sistemas), Nº de pedidos de
Aplicaciones Educativas y Nº de pedidos de Automatizaciones empresariales.

Ventas miles Nº pedidos de Nº de pedidos de Aplicaciones Nº de pedidos de


de S/. Sistemas Educativas Automatizaciones empresariales
449 55 105 75
520 40 140 68
490 45 110 70
515 35 130 64
506 38 125 67
480 50 115 72
470 48 100 70
460 51 103 73
490 44 118 69
450 53 98 74

Con las salidas siguientes responda las siguientes preguntas:

YX1X2X3

159
YX1X2

YX1X3

160
YX2X3

YX1

161
YX2

YX3

a. Analice la existencia de la multicolinealidad


b. Determine el mejor modelo de regresión lineal múltiple.
c. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de

162
significación de 0.01.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Es posible afirmar que por un software adicional de Aplicaciones Educativas,
permaneciendo constante las demás variables las ventas aumentan en más de 1000 dólares.
Use un α=0.05.
g. Estime puntualmente las ventas cuando el número de pedidos para Sistemas,
Aplicaciones Educativas y Automatizaciones empresariales sea de 53, 100 y 71
respectivamente.
h. Halle un intervalo de predicción al 95% para las ventas promedio cuando el número de
pedidos para Sistemas, Aplicaciones Educativas y Automatizaciones empresariales sea de
53, 100 y 71 respectivamente.

5) Los siguientes datos corresponden al uso mensual de agua de una planta de producción
(galones) a su producción mensual (toneladas), la media de la temperatura ambiente
mensual (°F), y el número mensual de días de operación de la planta durante un período de
12 meses.

Uso de agua Producción Media de la temperatura Días de operación


1878 62 63,7 21
1721 54,9 49,6 23
2135 97,4 35,7 17
1980 83,3 64,5 19
2031 84,4 58,1 20
2228 98,5 67,4 19
2254 82,1 68,7 18
2378 101 69,2 21
2522 100,6 64,8 19
2609 108,2 70,3 20
2654 99,8 75,1 19
2648 115,4 82,1 21

Con las salidas siguientes responda las preguntas que se presentan a continuación:

163
YX1X2X3

YX1X2

164
YX1X3

YX2X3

YX1

165
YX2

YX3

166
a. Determine si hay multicolinealidad, justifique su respuesta.
b. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.01.
c. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
d. Probar los supuestos del modelo de regresión lineal múltiple.
e. Con un nivel de confianza del 99%, elabore un intervalo de confianza para el consumo de
agua mensual, cuando la producción mensual es de 80 tn., la temperatura promedio es de 70 ºF
y los días de operación al mes es de 22.

6) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y diferentes
temperaturas de recocido se les mide su dureza con los resultados que se muestran en la
siguiente tabla. Ajuste una ecuación de la forma y   0  1 x1   2 x2  e , donde x1
representa el contenido de cobre, x2 representa la temperatura de recocido y y representa la
dureza.

Contenido de cobre Temperatura del


Dureza (Rockwell 30-T)
(%) recocido (grados F)
78.9 .02 1000
65.1 .02 1100
55.2 .02 1200
56.4 .02 1300
80.9 .10 1000
69.7 .10 1100
57.4 .10 1200
55.4 .10 1300
85.3 .18 1000
71.8 .18 1100
60.7 .18 1200
58.9 .18 1300

Correlaciones

Y X1 X2
Correlaci ón de Pearson Y 1.000 .208 -.925
X1 .208 1.000 .000
X2 -.925 .000 1.000
Sig. (unilateral) Y . .258 .000
X1 .258 . .500
X2 .000 .500 .
N Y 12 12 12
X1 12 12 12
X2 12 12 12

167
Resumen del modelob

R cuadrado Error típ. de


Modelo R R cuadrado corregi da la estimaci ón Durbin-Watson
1 .948 a .899 .877 3.7909 2.180
a. Variables predi ctoras: (Constante), X2, X1
b. Variable dependiente: Y

ANOVAb

Suma de Media
Model o cuadrados gl cuadrática F Sig.
1 Regresión 1152.189 2 576.094 40.087 .000 a
Resi dual 129.340 9 14.371
Total 1281.529 11
a. Variables predictoras: (Constante), X2, X1
b. Variable dependiente: Y

Coef ici entesa

Interval o de
Coeficientes no Coeficientes confianza para B al
estandari zados estandari zados 95%
Límite Límite
B Error típ. Beta t Sig. inferior superior
1 (Constante) 161.336 11.433 14.112 .000 135.474 187.199
X1 32.969 16.754 .208 1.968 .081 -4.931 70.868
X2 -8.550E-02 .010 -.925 -8.735 .000 -.108 -.063
a. Variable dependiente: Y

Sin X1
Resumen del modelob

R cuadrado Error típ. de


Modelo R R cuadrado corregi da la estimaci ón Durbin-Watson
1 .925 a .856 .841 4.3011 1.537
a. Variables predi ctoras: (Constante), X2
b. Variable dependiente: Y

ANOVAb

Suma de Media
Model o cuadrados gl cuadrática F Sig.
1 Regresión 1096.537 1 1096.537 59.275 .000 a
Resi dual 184.992 10 18.499
Total 1281.529 11
a. Variables predictoras: (Constante), X2
b. Variable dependiente: Y

168
Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza


estandari zados estandari zados para B al 95%
Límite Límite
B Error típ. Beta t Sig. inferior superior
1 (Constante) 164.633 12.831 12.831 .000 136.043 193.223
X2 -8.550E-02 .011 -.925 -7.699 .000 -.110 -.061
a. Variable dependiente: Y

Análisis de residuales

Hist ograma
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Y
Variable dependiente: Y
Frec uencia

5
1. 00

. 75

. 50
Prob acum e sperada

. 25
1 Std. De v = . 95
Mean = 0. 00

0 N = 12. 00
0. 00
-1.50 -1.00 -.50 0. 00 . 50 1. 00 1. 50 0. 00 . 25 . 50 . 75 1. 00

Regresión Residuo tipificado Prob acum observada

Gráfico de dispersión
Variable dependiente: Y
Regresión Residuo tipificado

1. 5

1. 0

.5

0. 0

-.5

-1.0

-1.5

-2.0
-1.5 -1.0 -.5 0. 0 .5 1. 0 1. 5

Regresión Valor pronosticado tipificado

169
y x2 PRE_1 RES_1 LMCI_1 UMCI_1 LICI_1 UICI_1
78.9 1000 79.13 -.23 74.50 83.76 68.49 89.78
65.1 1100 70.58 -5.48 67.55 73.61 60.53 80.63
55.2 1200 62.03 -6.83 59.00 65.06 51.98 72.08
56.4 1300 53.48 2.92 48.85 58.11 42.84 64.13
80.9 1000 79.13 1.77 74.50 83.76 68.49 89.78
69.7 1100 70.58 -.88 67.55 73.61 60.53 80.63
57.4 1200 62.03 -4.63 59.00 65.06 51.98 72.08
55.4 1300 53.48 1.92 48.85 58.11 42.84 64.13
85.3 1000 79.13 6.17 74.50 83.76 68.49 89.78
71.8 1100 70.58 1.22 67.55 73.61 60.53 80.63
60.7 1200 62.03 -1.33 59.00 65.06 51.98 72.08
58.9 1300 53.48 5.42 48.85 58.11 42.84 64.13
1150 66.31 63.54 69.07 56.33 76.28

7) Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de
una compañía de mudanzas solicitó los últimos registros de los pesos de los equipos (en miles
de libras), las distancias a que fueron trasladados (en miles de millas) y los daños sufridos (en
dólares). Con la información solicitada corrió un análisis de regresión múltiple con el software
SPSS, los resultados se muestran a continuación:
Correlations

Daño (en Peso (miles Dist ancias


dólares) de libras) (miles de millas)
Pearson Daño (en dólares) 1.000 .937 .090
Correlatio Peso (miles de libras) .937 1.000 -.091
n Dist ancias (miles de
.090 -.091 1.000
millas)

Model Summaryb

Adjusted Std. Error of Durbin-


Model R R Square R Square the Est imate Wat son
1 .954a .910 .884 12.32 2.132
a. Predictors: (Constant), DI STANCI Dist ancias (miles de
millas), PESO Peso (miles de libras)
b. Dependent Variable: DAÑO Daño (en dólares)

ANOVA

Sum of
Model Squares df Mean Square F Sig.
1 Regression 10690.097 2 5345.049 35.218 .000
Residual 1062.403 7 151.772
Total 11752.500 9

170
Coeffi ci entsa

St anda
rdized
Unstandardized Coef f ici 95% Conf idence
Coef f icients ents Interv al f or B
St d. Lower Upper
B Error Beta t Sig. Bound Bound
1 (Constant) 22.583 17.264 1.308 .232 -18.240 63.406
Peso (miles de libras) 27.371 3.276 .953 8.355 .000 19.625 35.118
Dist ancias (miles de millas) 11.365 7.341 .177 1.548 .166 -5.994 28.723
a. Dependent Variable: Daño (en dólares)

a) ¿Cuál es el modelo estimado? ¿Qué porcentaje de la variabilidad total de los daños es


explicado por el modelo?
b) El gerente afirma que el verdadero coeficiente de la distancia recorrida es menor de 9000
millas. Verifique tal afirmación. Use   0.01 .
c) Evalúe la presencia de multicolinealidad.

171
7. Series de Tiempo
Introducción:

Hoy en día, las empresas, comercios e industrias tienen que planificar y proyectarse en el futuro con el afán
de superarse y progresar. La planificación y a su vez la previsión se suelen basar en lo que ha ocurrido en las
experiencias previas, una de las técnicas más utilizadas para hacer inferencias sobre el futuro en base a lo
ocurrido en el pasado es el análisis de series de tiempo.

Este análisis nos va a permitir responder preguntas como ¿Cómo saber si nuestras ventas han ido en
aumento? ¿Tendremos suficiente productos para abastecer la demanda en temporada alta? ¿El costo del
componente electrónico cubrirá el gasto de compra de las materias primas del próximo trimestre? ¿Cuál será
la demanda de electricidad para el próximo mes?

Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos
numéricos que se obtienen en períodos regulares y específicos a través del tiempo.

7.1 Descomposición de una serie de tiempo


Modelo Multiplicativo
El modelo que más se utiliza para la descomposición de las series de tiempo es el modelo multiplicativo,
en el que se analiza la serie como el producto de las siguientes componentes:

Y = T.C.E.I
donde :

Y = valor real de la variable de interés.


T = tendencia secular
C = componente cíclica
E = componente estacional
I = componente irregular

7.2 Componentes

7.2.1Tendencia
La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el crecimiento
o disminución de la serie durante un período largo.

172
Y

Años

Las fuerzas básicas responsables de la tendencia de una serie de tiempo son población, crecimiento,
inflación de precios, cambios tecnológicos e incrementos de la productividad.

7.2.2 Componente Cíclica


Son llamados también ciclos económicos y muestran las variaciones en períodos de mediano plazo.

Años
Para estudiar los ciclos se requiere información de por lo menos15 sa 20 años.
El estudio de los ciclos ha
sido descartado por ciertos autores que consideran que dicho componente puede ser asimilado por el
componente de tendencia.

7.2.3 Componente Estacional


Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de manera casi
regular. Por lo general están asociados a los diferentes meses del año.

El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.

173
7.2.4 Componente irregular
Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por ejemplo a
causa de huelgas, imprevistos, corte de energía eléctrica, pero también con la misma naturaleza aleatoria
de la variable.

7.3 Estudio de una serie de tiempo


7.3.1 Modelo de tendencia
El modelo multiplicativo Y = T x I se usa para analizar los datos de la serie de tiempo.

7.3.2 Recta de Tendencia

El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos observados
de la serie de tiempo es el de mínimos cuadrados. Para el análisis, Y es la variable que se está
analizando y T es un valor codificado que se usa para representar el año, trimestre o mes según el
periodo especificado.

Ejemplo
Se registran las ventas trimestrales de bombillas LED de una importante compañía eléctrica durante
el período 2005-2012. Con los datos registrados estimar la ecuación de tendencia.

Año Ventas (Y) Trimestre Año Ventas (Y) Trimestre


2005 6833 1 7115 2009 10,946 1 10
2005 7,557 2 7,621 2009 10,357 2 10,026
2005 8,065 3 7,895 2009 8,761 3 10,036
2005 9,314 4 8,153 2009 8,444 4 10,03
2006 9,009 1 8,394 2010 7,754 1 10,007
2006 7357 2 8157 2010 8,924 2 9,968
2006 9,404 3 8,826 2010 10,118 3 9,912

174
2006 9,447 4 9,018 2010 10,889 4 9,84
2007 8,388 1 9,193 2011 11,14 1 9,751
2007 9,831 2 9,351 2011 10,183 2 9,646
2007 10,409 3 9,493 2011 10,398 3 9,524
2007 11,351 4 9,619 2011 9,853 4 9,386
2008 8,701 1 9,728 2012 9,103 1 9,231
2008 8,168 2 9,821 2012 8,234 2 9,06
2008 9,752 3 9,897 2012 8,758 3 8,872
2008 10,826 4 9,956

La gráfica siguiente nos permite ver la tendencia de la serie.

Estos valores de la variable dependiente Y, sin estacionalidad, son los que debemos
analizar con ayuda del paquete estadístico SPSS para los cuatro tipos de tendencias:
Lineal, Cuadrático, Exponencial y Potencia.

Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad, Utilice un nivel
de significación del 5%.
Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, permitieron
seleccionar el modelo cuadrático por ser aquel modelo que tiene el mayor R cuadrado.

175
Y: Ventas (miles de nuevos soles)
ANOVA
Cuadrático
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.

R R cuadrado Error típico de la


Regresión 1,978E7 2 9888230,59 720,060 ,000
R cuadrado corregida estimación
Residual 384510,50 28 13732,52

,990 ,981 ,980 117,17 Total 2,016E7 30

La variable independiente es T. La variable independiente es T.

Coeficientes

Coeficientes no Coeficientes

estandarizados estandarizados

B Error típico Beta t Sig.

T 336,472 9,717 3,732 34,629 ,000

T ** 2 -8,790 ,295 -3,216 -29,838 ,000

(Constante) 6865,511 67,446 101,792 ,000

Validando los coeficientes respectivos:


Para T, Sig = 0.000 < α = 0.05; Rechazamos Ho;
Para T2, Sig = 0.000 < α = 0.05; Rechazamos Ho;
Se verifica que el modelo Cuadrático es válido.

7.4 Descomposición de una serie de tiempo


Datos estacionales

Los datos de una serie de tiempo se registran mensuales o trimestrales por lo que son muy
utilizados para hacer proyecciones de futuras transacciones en las organizaciones,
comercio e industria.

La descomposición de una serie de tiempo mensual o trimestral puede revelar la


componente estacional e irregular, además de las componentes de tendencia y cíclica. Al
estudiar cada uno de estas componentes por separado se puede contar con información útil
que permita al analista combinar los elementos para realizar un buen pronóstico.

Los pronósticos que usan series de tiempo mensual o trimestral se hacen, por lo general,
para 1 a 12 meses o para 1 a 4 trimestres futuros.

176
El analista debe tener de 4 a 7 años de datos mensuales o trimestrales para realizar los
cálculos necesarios para la estacionalidad.

Ejemplo 1

Se registró la demanda de unidades de disco duro para computadora de una importante


empresa de componentes para computadora que inicia sus operaciones en el país.
Pronostique la demanda para el cuarto trimestre del 2012 utilizando promedio móvil
centrado a 4 trimestres.

Trimestres
Año I II III IV
2010 33 36 45 51
2011 36 42 47 53
2012 36 45 49

Solución:

Ordenar los datos en columnas de la siguiente manera:

Año Trimestre Demanda


2010 1 33
2010 2 36
2010 3 45
2010 4 51
2011 1 36
2011 2 42
2011 3 47
2011 4 53
2012 1 36
2012 2 45
2012 3 49
2012 4

1. Calcular el total móvil de los cuatro trimestres para la serie temporal.

Total móvil de
Año Trim. Demanda
4 trimestres
1 33

2010 2 36
165
3 45

177
168
4 51
174
1 36
176
2 42
2011 178
3 47
178
4 53
181
1 36
183
2 45
2012
3 49

2. Calcular el promedio móvil de cuatro trimestres.

Total móvil de Prom. Móvil


Año Trim. Demanda
4 trimestres de 4 trimestres
1 33

2 36
2010 165 41.25
3 45
168 42
4 51
174 43.5
1 36
176 44
2 42
2011 178 44.5
3 47
178 44.5
4 53
181 45.25
1 36
183 45.75
2 45
2012
3 49

178
3. Calcular el promedio móvil centrado (PMC)

Total móvil de Prom. Móvil PMC


Año Trim. Demanda
4 trimestres de 4 trimestres
1 33
41.63 = (41.25+42)/2
2 36
2010 165 41.25
3 45 41.63
168 42
4 51 42.75
174 43.5
1 36 43.75
176 44
2 42 44.25
2011 178 44.5
3 47 44.50
178 44.5
4 53 44.88
181 45.25
1 36 45.50
183 45.75
2 45
2012
3 49

4. Calcular el porcentaje del valor real (Y) con respecto al valor del promedio móvil
centrado (PMC) para cada trimestre de la serie.

Se observa que 42.25 está a la altura del 3er trimestre del 2010, por esto el cálculo de
IE empieza desde aquí. El primer valor se calcula de la siguiente manera:

Y 45
x 100  x100  108.11
PMC 42.25

Demanda Total móvil de Prom. Móvil PMC IE


Año Trim.
(1) 4 trimestres de 4 trimestres (2) (1)/(2)
1 33
2010
2 36
170 41.25

179
3 45 41.63 108.11
168 42
4 51 42.75 119.30
174 43.5
1 36 43.75 82.29
176 44
2 42 44.25 94.92
2011 178 44.5
3 47 44.50 105.62
178 44.5
4 53 44.88 118.11
181 45.25
1 36 45.50 79.12
183 45.75
2 45
2012
3 49

5. Organizar los valores del índice estacional (IE) calculados en la última columna de la
tabla anterior en la siguiente tabla por trimestres.

Trimestres
Año I II III IV
2010 108,1081 119,2982
2011 82,2857 94,9153 105,6180 118,1058
2012 79,1209
Promedio 80,7033 94,9153 106,8630 118,7020 401,18364 Suma

6. Calcular el índice estacional ajustado (IEA). La constante de ajuste se calcula de la


siguiente manera:

400
Constante de ajuste   0,997
401.18

Índices
desajustados*constante de
Trimestres ajuste IEA
I 80,7033*0,9970 80,4652
II 94,9153 94,6352
III 106,8630 106,5478
IV 118,7020 118,3518

180
Total de índices estacional 400,00
Media de los índices estacionales 100,00

Finalmente la serie sin la componente de estacionalidad:.

Y sin
Año Trim. Demanda IEA
estacionalidad
1 33 80.47 41.01

2 36 94.64 38.04
2010
3 45 106.55 43.17

4 51 118.35 43.09

1 36 80.47 42.25

2 42 94.64 42.27
2011
3 47 106.55 44.11

4 53 118.35 44.78

1 36 80.47 43.50

2 45 94.64 44.38
2012
3 49 106.55 45.99

4 118.35

Es decir,

Y sin
t estacionalidad
1 41,01
2 38,04
3 43,17
4 43,09
5 42,25
6 42,27
7 44,11
8 44,78

181
9 43,50
10 44,38
11 45,99
12

Lineal
ANOVA
Resumen del modelo Suma de Media
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
R R cuadrado corregida la estimación Regresión 29,010 1 29,010 16,153 ,003
Residual 16,164 9 1,796
,801 ,642 ,602 1,340 Total 45,174 10
La variable independiente es t.
La variable independiente es t.

Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
B Error típico Beta t Sig.
t ,514 ,128 ,801 4,019 ,003
(Constante) 39,881 ,867 46,019 ,000

Cuadrático
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 29,249 2 14,624 7,347 ,015
R R cuadrado corregida la estimación Residual 15,925 8 1,991
,802 ,647 ,559 1,411 Total 45,174 10
La variable independiente es t.
La variable independiente es t.

Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
B Error típico Beta t Sig.
t ,714 ,593 1,114 1,203 ,264
t ** 2 -,017 ,048 -,321 -,346 ,738
(Constante) 39,448 1,549 25,459 ,000

Potencia
ANOVA
Resumen del modelo Suma de Media

R cuadrado Error típico de cuadrados gl cuadrática F Sig.

R R cuadrado corregida la estimación Regresión ,015 1 ,015 13,22 ,005

,771 ,595 ,550 ,034 Residual ,010 9 ,001

La variable independiente es t. Total ,026 10

La variable independiente es t

182
Coeficientes

Coeficientes

Coeficientes no estandarizados estandarizados

B Error típico Beta t Sig.

ln(t) ,053 ,014 ,771 3,636 ,005

(Constante) 39,470 ,994 39,694 ,000

La variable dependiente es ln(Y).

Exponencial ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
R R cuadrado corregida la estimación Regresión ,016 1 ,016 15,057 ,004
,791 ,626 ,584 ,033
La variable independiente es t. Residual ,010 9 ,001

Total ,026 10

Coeficientes La variable independiente es t.

Coeficientes no estandarizados Coeficientes estandarizados

B Error típico Beta t Sig.

(t) ,012 ,003 ,791 3,880 ,004

(Constante) 39,905 ,845 47,230 ,000

La variable dependiente es ln(Y).

Se observa que el modelo cuadrático es el que tiene el Rcuadrado = 64.7% de valor más alto.

Validando los coeficientes respectivos:


Para t, Sig = 0.264 > α = 0.05; No rechazar Ho;
Para t , Sig = 0.738 > α = 0.05; No rechazar Ho;
2

Se verifica que el modelo cuadrático no es válido.

El siguiente modelo a analizar es el modelo lineal, con un Rcuadrado = 64.2% el segundo valor
más alto.

Validando los coeficientes respectivos:


Para t, Sig = 0.003 < α = 0.05; Rechazar Ho;
Se verifica que el modelo lineal es válido.

183
Para pronosticar el valor de la demanda para el cuarto trimestre del 2012 se utiliza el modelo lineal
validado, Y = 39.881 + 0.514 t
Y = 39.881 + 0.514*12 = 46.049 (demanda sin estacionalidad)

Pronóstico
Y sin
Año Trimestre t estacionalidad IEA Y con estacionalidad
2012 4 12 46,049 118,35 54,499

Ejemplo 2

Nokia Lumia 610 facilita la conexión y el contacto con amigos, proporcionando acceso instantáneo a las
redes sociales y unificando todos los contactos del móvil, correo, Facebook, Twitter y LinkedIn, en un sólo
lugar. Las empresas de redes sociales han visto incrementada sus ventas registradas (en miles de dólares)
durante los dos últimos años.

Año Trimestre Ventas (Y) Año Trimestre Ventas (Y)

I 4308
I 2129
II 4652
II 3078
2011 2012
III 4890
III 3501
IV 4720
IV 3984

a. Calcular los índices estacionales. Interpretar el índice estacional del cuarto trimestre. Use un
promedio móvil centrado de 3 trimestres.

Año Trimestre Ventas (Y) PMC IE


I 2129
II 3078 2902,67 73,35
2011
III 3501 3521,00 87,42
IV 3984 3931,00 89,06
I 4308 4314,67 92,34
II 4652 4616,67 93,31
2012
III 4890 4754,00 97,85
IV 4720

184
Ordenando los valores del IE en la tabla siguiente:

Año I II III IV
2011 73,35 87,42 89,06
2012 92,34 93,31 97,85
Promedio 92,3362176 83,3302138 92,6363927 82,09958571 350,40241 Suma

Calculando la constante de ajuste = 400/350.40 = 1.14

Índices
desajustados*constante de
ajuste
Trimestres IEA
I 92.3362*1.14 105,405916
II 83.3302*1.14 95,1251606
III 92.6364*1.14 105,748579
IV 82.0995*1.14 93,7203437
Total de índices estacional 400
Media de los índices estacionales 100

Interpretación:
Se puede decir que en el cuarto trimestre, por efecto de la estacionalidad, las ventas disminuyeron
en 6.28% respecto al promedio anual.

b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para la serie
desestacionalizada en función del tiempo usando el modelo potencia. Estime el primer
trimestre del año 2013.

Coeficientes

Coeficientes no Coeficientes
estandarizados estandarizados

B Error típico Beta t Sig.

ln(t) ,396 ,024 ,989 16,323 ,000


(Constante) 2239,342 80,460 27,832 ,000

La variable dependiente es ln(Y).

0.396
Modelo potencia: Y = 2239.342X

185
Estime la venta para el año 2013 (con estacionalidad).

Y con E =
t Y sin E IEA (Y sin IE*IEA)*100
2239.342*9^0.396 = 5634.85
9 5345.65 105.41

La venta para el año 2013 es de 5634.85 miles de dólares.

Ejercicios 22

1. Una importante empresa de telecomunicaciones ha reportado las ventas (en miles de


nuevos soles) de baterías para celulares durante el periodo 2006-2012.

Trimestre 2006 2008 2009 2010 2011 2012


1 16,2 19,1 16,3 23,2 22,8 24,4
2 17,7 19,2 19,3 22,7 24,2 23,0
3 18,7 20,3 18,5 21,2 20,0 21,6
4 21,2 21,5 20,3 19,3 18,5

En base a la información anterior, pronosticar el valor de las ventas para el cuarto


trimestre del 2012

2. Una importante empresa de venta de maquinaria pesada está estudiando la demanda


de sus productos, para ello cuenta con información trimestral de las ventas (en
dólares) de los últimos 6 años:
Trimestres
Año I II III IV
2007 125.2 214.1 156.0 196.9
2008 241.3 170.2 121.0 99.6
2009 124.0 145.3 103.3 89.9
2010 122.3 220.1 171.0 216.3
2011 221.5 150.2 165.5 99.4
2012 124.1 140.7 102.1

En base a la información anterior,

a. Calcular el promedio móvil central para cuatro trimestral.


b. Calcular los índices estacionales.

186
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2012

3. El nuevo director de comercialización de una importante compañía utilizó publicidad en


televisión para anunciar las nuevas baterías para teléfonos celulares, las cuales por ser
de larga duración alcanzaron niveles de ventas altos. El nuevo director de
comercialización sugirió al director de la compañía seguir con la campaña, pero el
director sospecha que las ventas tan extraordinarias pueden atribuirse a influencias de
tendencia, estacional y a la variación aleatoria. El registro de las ventas trimestrales de
los últimos cuatro años se presenta a continuación:

Trimestre 2009 2010 2011 2012 2013


I 375,67 533,67 692,00 847,00
II 522,67 615,33 917,33 925,55
III 573,67 775,33 965,67 975,65
IV 514,33 678,33 840,67 885,95

a. Calcular los promedios móviles a 3 trimestres


b. Calcular los índices estacionales.
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronosticar la venta futura de baterías para
el próximo año

4. Los accionistas de una importante empresa manufacturera desean ampliar la fábrica


para cubrir con la demanda. El ingeniero industrial a cargo indica que se tardará un año
en completar la planta, asimismo anotó que si las ventas mensuales superan la
capacidad de producción por dos mese seguidos, las ventas se perderán por escasez de
inventario. Por otra parte, si la planta opera a menos del 50% de su capacidad en un
mes, se experimenta una perdida. En base a la información de las ventas de los últimos
seis años, el ingeniero industrial realizará proyecciones precisas de ventas que le
permitan cumplir con sus clientes.
Los datos de ventas (en nuevos soles) registrados de los últimos seis años son los
siguientes:

Trimestre 2007 2008 2009 2010 2011 2012


1 7971,33 7426,00 8272,00 6930,67 8228,34 8527,00
2 8791,67 8930,33 8901,00 10154,00 11356,33 10731,00
3 8554,00 9534,67 9531,33 9555,33 10631,33 11769,67
4 7321,67 7724,33 7724,33 8440,00 8707,67

187
Con sus conocimientos de series de tiempo, ayude al ingeniero industrial a realizar los
siguientes cálculos:

a. Calcule los promedios móviles de orden 3.


b. Calcule los índices estacionales.
c. ¿Cómo interpreta los índices estacionales mencionados en el ejemplo?
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2012.

5. Los siguiente datos corresponden al consumo de energía(en miles de soles) de una


comunidad de la región del Mantaro durante los últimos dos años:

Año Trimestre Ventas


I 2139
II 3078
2011 III 3501
IV 4984
I 4308
II 4753
2012 III 4890
IV 4720

a. Calcule los índices estacionales. Interprete el índice estacional del cuarto trimestre.
Use un promedio móvil centrado de 3 trimestres.

b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para
la serie desestacionalizada en función del tiempo, usando el modelo potencia:

a
Coeficientes

Modelo Coeficientes
Coeficientes no estandarizados tipificados

B Error típ. Beta t Sig.

1 (Constante) 7,653 ,141 54,245 ,000

Ln(Consumo) ,470 ,095 ,896 4,932 ,003

a. Variable dependiente: ln(Consumo)

Estime el consumo para el año 2013 (con estacionalidad)

188
Y sin Y con
X(trimestres) Estacionalidad IEA Estacionalidad
9
2013 10
11
12

3. Los siguientes datos corresponden a los ingresos trimestrales de una empresa de venta y
servicio de software para el periodo 2005 - 2012.

Trimestre 2005 2006 2007 2008 2009 2010 2011 2012


1 5575,1 7375,1 8441,8 9925,4 11149,5 16034,8 12923,179 13043,96
2 4456 9384,8 11706,3 11954,4 13675,5 18493 16466,959 19074,15
3 7551 8981,2 10921,3 12111,2 14363,7 21295,9 13807,32 18719,52
4 7356,7 8834,6 10317,4 12555,2 16791,6 15195,1 14474,594

a. Calcular los promedios móviles centrados para 4 trimestres.


b. Calcular los índices de estacionalidad trimestral ajustados. Interprete.
c. Eliminar el componente estacional de la serie.
d. Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad. Utilice un
nivel de significación del 5%
e. Pronosticar los ingresos para el siguiente año.

8 Método de Atenuación Exponencial

189
8.1 Tipos de Pronósticos
De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres
principales criterios.
• El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos
últimos ayudan a establecer el curso general de la organización en un plazo largo de
tiempo, mientras que los primeros se utilizan para diseñar las estrategias que se
utilizarán inmediatamente y serán ejecutadas por niveles medios en la organización.
• El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno
micro y macro, y cómo es que aquí se generan diferente tipos de detalles en una
organización. Estos tipos de detalles son el micro pronóstico y el macro pronóstico. Un
ejemplo de micro pronóstico es que el gerente de producción sepa cuanto se necesitará
para la producción anual de un producto determinado, mientras que un macro detalle
sería conocer el incremento en la carga tributaria (impuestos) que el gobierno aplicará en
el siguiente año fiscal.
• El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el
primero se aplica cuando se emite el juicio de una persona, mientras que los
cuantitativos se refieren a procesos mecánicos que dan como resultado datos
matemáticos.

8.2. Definición de la Atenuación Exponencial

El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores
dependen de los llamados parámetros de atenuación. Una vez que se han elegido tales
parámetros, es fácil calcular los pronósticos, el método se puede adaptar fácilmente para
considerar los factores estacionales y tendencias.

Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es
llamada atenuación exponencial doble. En algunos casos seria necesario extender este
proceso hasta una atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la
atenuación exponencial triple puede manejar casi todas las demás series de tiempo del
negocio.

8.3 Características de la atenuación exponencial con un parámetro (simple)

• La atenuación exponencial es un método utilizado para revisar constantemente una


estimación a la luz de experiencias más recientes. Se supone que los datos son
estacionarios.

190
• Las observaciones se ponderan asignando pesos mayores ”alfa” a las mas recientes, para
la siguiente α*(1- α)y así sucesivamente

• El valor real de α determina el grado hasta el cual la observación más reciente puede
influir en el valor del pronóstico, es decir cuando α tiende a :

* 1 el nuevo pronóstico incluirá un ajuste sustancial de cualquier error ocurrido en el


pronóstico anterior.

* 0 el nuevo pronóstico es similar al anterior

Yˆt 1  Yt  1  Yˆt

Ŷ t+1 : Nuevo valor atenuado o valor de pronóstico para el siguiente periodo.


α : Constante de atenuación ( 0< α < 1)
Y t : Nueva observación o valor real de la serie en el periodo t
Ŷ t : Valor atenuado anterior o experiencia promedio de la serie atenuada al periodo t-1

Ŷ t = Y t para el primer valor

La atenuación exponencial es el pronóstico anterior más α veces el error (Y t - Ŷ t) en el


pronóstico anterior

8.4. Señal de rastreo

• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.

• Un sistema de rastreo proporciona un método para monitorear la necesidad de cambio


(actualizar alfa) contiene un nivel de variaciones permisibles entre el pronóstico y los
valores reales.

• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.

Señal de Rastreo = CEF / DAM

CEF = Suma de los errores (valor observado menos valor pronosticado)


DAM = Es el promedio de los errores absolutos

191
Gráfico de límites de señal de rastreo

+1.5

+ 1.0
Señal de
Rastreo + 0.5

-0.5

-1.0
-1.5

5 10 15 20
25
Número de Observaciones

8.5. Medición del error en el pronóstico

Para calcular el error o residual de cada periodo de pronóstico se utiliza:

et  Yt  Yˆ
et : error de pronóstico en periodo t
Yt : valor real en el periodo t
Yˆ : valor del pronóstico en el periodo t
 Desviación Absoluta de la Media
n

Y t  Yˆ
DAM  t 1
n
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original

 Error Medio Cuadrado

 Y 
n
 Yˆ
2
t
EMC  t 1
192
n
El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.

 Porcentaje de Error Medio Absoluto

n Yt  Yˆ
 Yt
t 1
PEMA 
n
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie

 Porcentaje Medio de Error


n
Y  Yˆ 
t 1 Yt
t

PME 
n
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico

Ejemplo 1

Una empresa importadora de equipos hidráulicos obtuvo la representación de una marca alemana de motores
para piscinas domiciliarias; el fabricante solicita información real y estimada de las ventas ( en miles de
dólares) y desea que se realicen diversas medidas del error y señal de rastreo para cada pronóstico e
identificar si alguno se encuentra fuera de control.
Trimestre
Año
I II III IV
2008 2790 3785 3370 3075
2009 2949 3857 3453 3283
2010 3102 4142 3605 3261
2011 3257 4361 3856 3606
2012 3339 4513

La cifra correspondiente al trimestre II del 2012, es una cifra aproximada para el cierre de junio 2012.

a. Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9

193
α= 0.1 α= 0.3 α= 0.5 α= 0.7 α= 0.9
t Trimestre Ventas( Y) Yestimado Yestimado Yestimado Yestimado Yestimado
1 2008-1 2790
2 2008-2 3785 2790.0000 2790.0000 2790.0000 2790.0000 2790.0000
3 2008-3 3370 2889.5000 3088.5000 3287.5000 3486.5000 3685.5000
4 2008-4 3075 2937.5500 3172.9500 3328.7500 3404.9500 3401.5500
5 2009-1 2949 2951.2950 3143.5650 3201.8750 3173.9850 3107.6550
6 2009-2 3857 2951.0655 3085.1955 3075.4375 3016.4955 2964.8655
7 2009-3 3453 3041.6590 3316.7369 3466.2188 3604.8487 3767.7866
8 2009-4 3283 3082.7931 3357.6158 3459.6094 3498.5546 3484.4787
9 2010-1 3102 3102.8137 3335.2311 3371.3047 3347.6664 3303.1479
10 2010-2 4142 3102.7324 3265.2617 3236.6523 3175.6999 3122.1148
11 2010-3 3605 3206.6591 3528.2832 3689.3262 3852.1100 4040.0115
12 2010-4 3261 3246.4932 3551.2983 3647.1631 3679.1330 3648.5011
13 2011-1 3257 3247.9439 3464.2088 3454.0815 3386.4399 3299.7501
14 2011-2 4361 3248.8495 3402.0461 3355.5408 3295.8320 3261.2750
15 2011-3 3856 3360.0646 3689.7323 3858.2704 4041.4496 4251.0275
16 2011-4 3606 3409.6581 3739.6126 3857.1352 3911.6349 3895.5028
17 2012-1 3339 3429.2923 3699.5288 3731.5676 3697.6905 3634.9503
18 2012-2 4513 3420.2631 3591.3702 3535.2838 3446.6071 3368.5950

b. Calcule todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.1

194
α = 0.1

t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado


Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 2889.5000 480.5000 480.5000 230880.2500 0.1426 0.1426
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 2937.5500 137.4500 137.4500 18892.5025 0.0447 0.0447
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 2951.2950 -2.2950 2.2950 5.2670 0.0008 -0.0008
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 2951.0655 905.9345 905.9345 820717.3183 0.2349 0.2349
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3041.6590 411.3411 411.3411 169201.4594 0.1191 0.1191
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3082.7931 200.2069 200.2069 40082.8208 0.0610 0.0610
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3102.8137 -0.8137 0.8137 0.6622 0.0003 -0.0003
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3102.7324 1039.2676 1039.2676 1080077.1973 0.2509 0.2509
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3206.6591 398.3409 398.3409 158675.4431 0.1105 0.1105
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3246.4932 14.5068 14.5068 210.4466 0.0044 0.0044
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3247.9439 9.0561 9.0561 82.0129 0.0028 0.0028
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3248.8495 1112.1505 1112.1505 1236878.7103 0.2550 0.2550
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3360.0646 495.9354 495.9354 245951.9608 0.1286 0.1286
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3409.6581 196.3419 196.3419 38550.1402 0.0544 0.0544
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3429.2923 -90.2923 90.2923 8152.6983 0.0270 -0.0270
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3420.2631 1092.7369 1092.7369 1194074.0110 0.2421 0.2421
SUMA 7395.3676 7582.1697 6232457.9007 1.9421 1.8859
n = 17 CEF
PROMEDIO 446.0100 366615.1706 0.1142 0.1109
DAM EMC PEMA PEM

Para alfa = 0.3


α = 0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3088.5000 281.5000 281.5000 79242.2500 0.0835 0.0835
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3172.9500 -97.9500 97.9500 9594.2025 0.0319 -0.0319
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3143.5650 -194.5650 194.5650 37855.5392 0.0660 -0.0660
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3085.1955 771.8045 771.8045 595682.1862 0.2001 0.2001
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3316.7369 136.2632 136.2632 18567.6460 0.0395 0.0395
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3357.6158 -74.6158 74.6158 5567.5169 0.0227 -0.0227
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3335.2311 -233.2311 233.2311 54396.7257 0.0752 -0.0752
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3265.2617 876.7383 876.7383 768669.9773 0.2117 0.2117
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3528.2832 76.7168 76.7168 5885.4647 0.0213 0.0213
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3551.2983 -290.2983 290.2983 84273.0753 0.0890 -0.0890
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3464.2088 -207.2088 207.2088 42935.4771 0.0636 -0.0636
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3402.0461 958.9539 958.9539 919592.4986 0.2199 0.2199
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3689.7323 166.2677 166.2677 27644.9479 0.0431 0.0431
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3739.6126 -133.6126 133.6126 17852.3297 0.0371 -0.0371
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3699.5288 -360.5288 360.5288 129981.0353 0.1080 -0.1080
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3591.3702 921.6298 921.6298 849401.5268 0.2042 0.2042
SUMA 3592.8638 6776.8844 4637167.3993 1.7796 0.7927
n = 17 CEF
PROMEDIO 398.6403 272774.5529 0.1047 0.0466
DAM EMC PEMA PEM

Para alfa = 0.5

195
α = 0.5
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3287.5000 82.5000 82.5000 6806.2500 0.0245 0.0245
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3328.7500 -253.7500 253.7500 64389.0625 0.0825 -0.0825
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3201.8750 -252.8750 252.8750 63945.7656 0.0857 -0.0857
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3075.4375 781.5625 781.5625 610839.9414 0.2026 0.2026
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3466.2188 -13.2188 13.2188 174.7354 0.0038 -0.0038
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3459.6094 -176.6094 176.6094 31190.8713 0.0538 -0.0538
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3371.3047 -269.3047 269.3047 72525.0147 0.0868 -0.0868
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3236.6523 905.3477 905.3477 819654.3787 0.2186 0.2186
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3689.3262 -84.3262 84.3262 7110.9033 0.0234 -0.0234
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3647.1631 -386.1631 386.1631 149121.9289 0.1184 -0.1184
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3454.0815 -197.0815 197.0815 38841.1346 0.0605 -0.0605
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3355.5408 1005.4592 1005.4592 1010948.2602 0.2306 0.2306
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3858.2704 -2.2704 2.2704 5.1547 0.0006 -0.0006
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3857.1352 -251.1352 251.1352 63068.8851 0.0696 -0.0696
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3731.5676 -392.5676 392.5676 154109.3178 0.1176 -0.1176
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3535.2838 977.7162 977.7162 955928.9712 0.2166 0.2166
SUMA 2468.2838 7026.8874 5038685.5753 1.8586 0.4529
n = 17 CEF
PROMEDIO 413.3463 296393.2691 0.1093 0.0266
DAM EMC PEMA PEM

Para alfa = 0.7


α = 0.7
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3486.5000 -116.5000 116.5000 13572.2500 0.0346 -0.0346
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3404.9500 -329.9500 329.9500 108867.0025 0.1073 -0.1073
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3173.9850 -224.9850 224.9850 50618.2502 0.0763 -0.0763
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3016.4955 840.5045 840.5045 706447.8145 0.2179 0.2179
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3604.8487 -151.8487 151.8487 23058.0125 0.0440 -0.0440
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3498.5546 -215.5546 215.5546 46463.7834 0.0657 -0.0657
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3347.6664 -245.6664 245.6664 60351.9695 0.0792 -0.0792
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3175.6999 966.3001 966.3001 933735.8571 0.2333 0.2333
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3852.1100 -247.1100 247.1100 61063.3393 0.0685 -0.0685
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3679.1330 -418.1330 418.1330 174835.1992 0.1282 -0.1282
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3386.4399 -129.4399 129.4399 16754.6871 0.0397 -0.0397
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3295.8320 1065.1680 1065.1680 1134582.9336 0.2442 0.2442
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 4041.4496 -185.4496 185.4496 34391.5507 0.0481 -0.0481
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3911.6349 -305.6349 305.6349 93412.6782 0.0848 -0.0848
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3697.6905 -358.6905 358.6905 128658.8484 0.1074 -0.1074
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3446.6071 1066.3929 1066.3929 1137193.7341 0.2363 0.2363
SUMA 2004.4031 7862.3279 5714032.9103 2.0784 0.3109
n = 17 CEF
PROMEDIO 462.4899 336119.5830 0.1223 0.0183
DAM EMC PEMA PEM

Para alfa = 0.9

196
α = 0.9
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3685.5000 -315.5000 315.5000 99540.2500 0.0936 -0.0936
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3401.5500 -326.5500 326.5500 106634.9025 0.1062 -0.1062
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3107.6550 -158.6550 158.6550 25171.4090 0.0538 -0.0538
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 2964.8655 892.1345 892.1345 795903.9661 0.2313 0.2313
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3767.7866 -314.7866 314.7866 99090.5721 0.0912 -0.0912
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3484.4787 -201.4787 201.4787 40593.6484 0.0614 -0.0614
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3303.1479 -201.1479 201.1479 40460.4638 0.0648 -0.0648
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3122.1148 1019.8852 1019.8852 1040165.8486 0.2462 0.2462
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 4040.0115 -435.0115 435.0115 189234.9866 0.1207 -0.1207
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3648.5011 -387.5011 387.5011 150157.1396 0.1188 -0.1188
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3299.7501 -42.7501 42.7501 1827.5723 0.0131 -0.0131
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3261.2750 1099.7250 1099.7250 1209395.0504 0.2522 0.2522
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 4251.0275 -395.0275 395.0275 156046.7267 0.1024 -0.1024
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3895.5028 -289.5028 289.5028 83811.8423 0.0803 -0.0803
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3634.9503 -295.9503 295.9503 87586.5653 0.0886 -0.0886
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3368.5950 1144.4050 1144.4050 1309662.7411 0.2536 0.2536
SUMA 1787.2883 8515.0110 6425308.6847 2.2411 0.2512
n = 17 CEF
PROMEDIO 500.8830 377959.3344 0.1318 0.0148
DAM EMC PEMA PEM

Calculando el valor del CEF y DAM para cada valor de α

α = 0.1 α = 0.3 α = 0.5 α = 0.7 α = 0.9


CEF 7395.3676 3592.8638 2468.2838 2004.4031 1787.2883
DAM 446.01 398.6403 413.3463 462.4899 500.883
Señal de rastreo 16.5812 9.0128 5.9715 4.3339 3.5683

La señal de rastreo nos indica que para ningún valor de α la señal de rastreo se encuentra bajo control, es
decir, el proceso muestra niveles fuera del rango admisible. (+ / - 1.5), por lo tanto No se recomienda usar
ningún α.

c. Compare los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA y
la Señal de rastreo)

Método del
pronóstico DAM EMC PEMA PME
α = 0.1 446.0100 36615.171 0.1142 0.1109
α = 0.3 398.6403 272774.55 0.1047 0.0466
α = 0.5 413.3463 296393.27 0.1093 0.0266
α = 0.7 462.4899 336119.58 0.1223 0.0183
α = 0.9 500.8830 377959.33 0.1318 0.0148

197
El PEMA, porcentaje del error medio absoluto, se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
Por eso debemos buscar un valor pequeño del PEMA. El mejor pronóstico sería con α = 0.03, siempre y
cuando se encuentre dentro del rango permisible (+/- 1.5)

d. Con el modelo elegido pronostique el ingreso por ventas para el tercer trimestre del 2011.
Supongamos que el mejor modelo elegido es aquel en el que se utilizó α = 0.3

α = 0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado Yt estimado
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3088.5000
4 2008-4 3075 0.1*3370+(1-0.1)*2799.9500 3172.9500
5 2009-1 2949 0.1*3075+(1-0.1)*2805.6505 3143.5650
6 2009-2 3857 0.1*2949+(1-0.1)*2808.3440 3085.1955
7 2009-3 3453 0.1*3857+(1-0.1)*2809.7506 3316.7369
8 2009-4 3283 0.1*3453+(1-0.1)*2820.2230 3357.6158
9 2010-1 3102 0.1*3283+(1-0.1)*2826.5508 3335.2311
10 2010-2 4142 0.1*3102+(1-0.1)*2831.1153 3265.2617
11 2010-3 3605 0.1*4142+(1-0.1)*2833.8242 3528.2832
12 2010-4 3261 0.1*3605+(1-0.1)*2846.4869 3551.2983
13 2011-1 3257 0.1*3261+(1-0.1)*2854.4869 3464.2088
14 2011-2 4361 0.1*3257+(1-0.1)*2858.5520 3402.0461
15 2011-3 3856 0.1*4361+(1-0.1)*2862.5365 3689.7323
16 2011-4 3606 0.1*3856+(1-0.1)*2877.5211 3739.6126
17 2012-1 3339 0.1*3606+(1-0.1)*2887.3059 3699.5288
18 2012-2 4513 0.1*3339+(1-0.1)*2894.4928 3591.3702
Pronóstico 3867.8591
Las ventas esperadas en equipos hidráulicos
para el tercer trimestre del 2011 ascienden
3867.8591 = 4513*0.3 + 3591.3702* (1-0.3)
a 3867.8591 US$

Ejemplo 2
Un ingeniero de sistemas de un banco internacional con sucursal en Lima, ha logrado cifras estacionarias en
la ocurrencia de incidencias en su departamento. Los siguientes datos corresponden a las incidencias
reportadas durante el periodo 2009-2012.

Trimestre 2009 2010 2011 2012


1 18 18 49 15
2 19 20 50 16
3 20 36 33 14

198
4 16 51 26 13

a. Utilizar un modelo de atenuación exponencial simple con α = 0.2, 0.4, 0.6 y 0.8 para estimar las
incidencias.
Yˆt 1  Yt  1   Yˆt

0,2 0,4 0,6 0,8


Trimestre Incidencias Y estimado Y estimado Y estimado Y estimado
1 18
2 19 18,2000 18,1200 18,1680 18,1296
3 20 18,8000 18,6800 18,7520 18,6944
4 16 18,6000 18,8600 18,7040 18,8288
1 18 17,7000 17,6700 17,6880 17,6736
2 20 18,2500 18,0750 18,1800 18,0960
3 36 22,3250 20,9575 21,7780 21,1216
4 51 32,1625 30,2788 31,4090 30,5048
1 49 41,1813 40,3994 40,8685 40,4932
2 50 45,2906 44,8197 45,1023 44,8762
3 33 44,2453 45,3698 44,6951 45,2349
4 26 37,2227 38,3449 37,6716 38,2103
1 15 29,4113 30,8525 29,9878 30,6795
2 16 22,4057 23,0462 22,6619 22,9694
3 14 18,8028 19,2831 18,9949 19,2255
4 13 16,2014 16,5216 16,3295 16,4831

b. Calcular todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.2

Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,2000 1,8000 1,8000 3,2400 0,0900 0,0900
4 16 18,5600 -2,5600 2,5600 6,5536 0,1600 -0,1600
5 18 18,0480 -0,0480 0,0480 0,0023 0,0027 -0,0027
6 20 18,0384 1,9616 1,9616 3,8479 0,0981 0,0981
7 36 18,4307 17,5693 17,5693 308,6796 0,4880 0,4880
8 51 21,9446 29,0554 29,0554 844,2177 0,5697 0,5697
9 49 27,7557 21,2443 21,2443 451,3219 0,4336 0,4336

199
10 50 32,0045 17,9955 17,9955 323,8370 0,3599 0,3599
11 33 35,6036 -2,6036 2,6036 6,7789 0,0789 -0,0789
12 26 35,0829 -9,0829 9,0829 82,4990 0,3493 -0,3493
13 15 33,2663 -18,2663 18,2663 333,6584 1,2178 -1,2178
14 16 29,6131 -13,6131 13,6131 185,3153 0,8508 -0,8508
15 14 26,8904 -12,8904 12,8904 166,1635 0,9207 -0,9207
16 13 24,3124 -11,3124 11,3124 127,9694 0,8702 -0,8702
Suma 20,2494 161,0028 2845,0845 6,5423 -2,3585
promedio 10,7335 189,6723 0,4362 -0,1572
DAM EMC PEMA PME

Para alfa = 0.4

Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,4000 1,6000 1,6000 2,5600 0,0800 0,0800
4 16 19,0400 -3,0400 3,0400 9,2416 0,1900 -0,1900
5 18 17,8240 0,1760 0,1760 0,0310 0,0098 0,0098
6 20 17,8944 2,1056 2,1056 4,4336 0,1053 0,1053
7 36 18,7366 17,2634 17,2634 298,0236 0,4795 0,4795
8 51 25,6420 25,3580 25,3580 643,0290 0,4972 0,4972
9 49 35,7852 13,2148 13,2148 174,6312 0,2697 0,2697
10 50 41,0711 8,9289 8,9289 79,7250 0,1786 0,1786
11 33 44,6427 -11,6427 11,6427 135,5517 0,3528 -0,3528
12 26 39,9856 -13,9856 13,9856 195,5970 0,5379 -0,5379
13 15 34,3914 -19,3914 19,3914 376,0249 1,2928 -1,2928
14 16 26,6348 -10,6348 10,6348 113,0993 0,6647 -0,6647
15 14 22,3809 -8,3809 8,3809 70,2393 0,5986 -0,5986
16 13 19,0285 -6,0285 6,0285 36,3432 0,4637 -0,4637
Suma -3,4572 142,7505 2139,5304 5,7732 -2,4278
promedio 9,5167 142,6354 0,3849 -0,1619
DAM EMC PEMA PME

Para alfa = 0.6

Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,6000 1,4000 1,4000 1,9600 0,0700 0,0700

200
4 16 19,4400 -3,4400 3,4400 11,8336 0,2150 -0,2150
5 18 17,3760 0,6240 0,6240 0,3894 0,0347 0,0347
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,1002 16,8998 16,8998 285,6046 0,4694 0,4694
8 51 29,2401 21,7599 21,7599 473,4948 0,4267 0,4267
9 49 42,2960 6,7040 6,7040 44,9433 0,1368 0,1368
10 50 46,3184 3,6816 3,6816 13,5541 0,0736 0,0736
11 33 48,5274 -15,5274 15,5274 241,0990 0,4705 -0,4705
12 26 39,2109 -13,2109 13,2109 174,5291 0,5081 -0,5081
13 15 31,2844 -16,2844 16,2844 265,1810 1,0856 -1,0856
14 16 21,5138 -5,5138 5,5138 30,4015 0,3446 -0,3446
15 14 18,2055 -4,2055 4,2055 17,6862 0,3004 -0,3004
16 13 15,6822 -2,6822 2,6822 7,1942 0,2063 -0,2063
Suma -6,5452 115,1831 1573,9314 4,5069 -1,7543
promedio 7,6789 104,9288 0,3005 -0,1170
DAM EMC PEMA PME

Para alfa = 0.8


Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,8000 1,2000 1,2000 1,4400 0,0600 0,0600
4 16 19,7600 -3,7600 3,7600 14,1376 0,2350 -0,2350
5 18 16,7520 1,2480 1,2480 1,5575 0,0693 0,0693
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,5501 16,4499 16,4499 270,5999 0,4569 0,4569
8 51 32,7100 18,2900 18,2900 334,5235 0,3586 0,3586
9 49 47,3420 1,6580 1,6580 2,7490 0,0338 0,0338
10 50 48,6684 1,3316 1,3316 1,7732 0,0266 0,0266
11 33 49,7337 -16,7337 16,7337 280,0161 0,5071 -0,5071
12 26 36,3467 -10,3467 10,3467 107,0549 0,3980 -0,3980
13 15 28,0693 -13,0693 13,0693 170,8078 0,8713 -0,8713
14 16 17,6139 -1,6139 1,6139 2,6046 0,1009 -0,1009
15 14 16,3228 -2,3228 2,3228 5,3953 0,1659 -0,1659
16 13 14,4646 -1,4646 1,4646 2,1449 0,1127 -0,1127
Suma -5,8839 92,7381 1200,8649 3,5612 -1,2203
promedio 6,1825 80,0577 0,2374 -0,0814
DAM EMC PEMA PME

201
En la siguiente tabla se muestra el CEF, DAM y Señal de muestreo para las constantes de atenuación 0.2,
0.4, 0.6 y 0.8

0,2 0,4 0,6 0,8


CEF 20,2494 -3,4572 -6,5452 -5,8839
DAM 10,7335 9,5167 7,6789 6,1825
Señal de
rastreo 1,8866 -0,3633 -0,8524 -0,9517

La señal de rastreo nos indica que para α = 0.2 la señal de rastreo esta fuera de control, + / - 1.5, por lo tanto
se descarta el uso de este valor como coeficiente para realizar pronósticos de atenuación exponencial.

c. Comparar los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA
y la Señal de rastreo)

Método de Señal de
pronóstico DAM EMC PEMA PME rastreo
0,2 10,7335 189,6723 0,4362 -0,1572 1,8866
0,4 9,5167 142,6354 0,3849 -0,1619 -0,3633
0,6 7,6789 104,9288 0,3005 -0,117 -0,8524
0,8 6,1825 80,0577 0,2374 -0,0814 -0,9517

El PEMA (porcentaje de error medio absoluto) se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
El menor PEMA corresponde a α= 0.8; cuyo valor de Señal de rastreo es -0.9517, que se encuentra dentro de
control.
Por lo tanto el mejor pronóstico es utilizando la constante de atenuación α de 0.8

d. Con el modelo elegido pronostique las incidencias esperadas para el primer trimestre 2013

t Incidencias Y estimado
1 18 18,0000
2 19 18,0000
3 20 18,8000
4 16 19,7600
5 18 16,7520
6 20 17,7504
7 36 19,5501

202
8 51 32,7100
9 49 47,3420
10 50 48,6684
11 33 49,7337
12 26 36,3467
13 15 28,0693
14 16 17,6139
15 14 16,3228
16 13 14,4646
Pronóstico 13,2929

Las incidencias esperadas para el primer trimestre del 2013 son de 13.29 incidencias

Ejercicios

1. Usando el método de suavización exponencial estime el consumo para el primer trimestre del
2012 usando los valores de 0.3 y 0.6 para la constante de atenuación.

Año Trimestre Ventas


I 2139
II 3078
2010 III 3501
IV 4984
I 4308
II 4753
2011 III 4890
IV 4720

Complete la tabla con las medidas del error de pronóstico, y diga cuál de los pronósticos es el mejor
justifique con DAM, PEMA y señal de rastreo.

SEÑAL DE
ALFA DAM PEMA RASTREO
0,3

0,6

203
2. La oficina de abastecimientos de una importante empresa siderúrgica estima que ante el boom
de la minería en el país las ventas aumentaran para los próximos trimestres. El ingeniero
industrial de turno cuenta con la información mensual de los últimos cuatro años:

MESES 2009 2010 2011 2012


Enero 541 588 638 789
Febrero 338 481 621 765
Marzo 448 633 817 987
Abril 479 349 853 998
Mayo 532 706 905 1107
Junio 577 791 994
Julio 599 812 999
Agosto 576 776 978
Septiembre 546 738 920
Octubre 511 679 846
Noviembre 496 655 809
Diciembre 536 701 867

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine
el mejor para preparar el pronóstico.

3. Ante la llegada del próximo verano, los socios de una empresa de bebidas alcohólicas desean
ampliar la fábrica. El ingeniero industrial de turno indica que se tardará dos años en completar
la planta. La capacidad de producción actual es de 12000 barriles al mes. Como la cerveza tiene
una vida de almacenamiento relativamente breve, la producción (incluido el proceso de
añejamiento) y las ventas, deben ocurrir dentro de unas cuantas semanas una de la otra.
Asimismo, si las ventas mensuales superan la capacidad de producción por dos mese seguidos,
las ventas se perderán por escasez de inventario. Por otra parte, si la planta opera a menos del
50% de su capacidad en un mes, se experimenta una perdida. Se necesita para ello proyecciones
precisas de ventas. Los datos de ventas (en barriles) de los seis años pasados son:

MESES 2009 2010 2011 2012


Enero 7133 7561 7637 7963
Febrero 6637 7017 7544 7878
Marzo 8046 9214 9504 10040
Abril 8792 9365 9843 9808
Mayo 9113 10095 9898 10725
Junio 8795 10702 11328 11660
Julio 10234 10774 11301 10918
Agosto 9888 9951 10778 11477
Septiembre 8382 9441 9815 9914
Octubre 8254 8731 8748 9444
Noviembre 7438 7915 8604 8849
Diciembre 7481 8674 8771 8420

204
Use las contantes de suavización de 0.7 y 0.8. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo.

4. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes fabricantes.
Un pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los inventarios
de materia prima. Del precio de ventas, 80% es el costo de los materiales adquiridos. Aunque la
determinación de las cantidades de adquisición implica muchas consideraciones, se ha
establecido que un modelo de atenuación exponencial sería de mucha utilidad para establecer un
pronóstico para el siguiente mes de Agosto. Las tasas actuales de los últimos 19 meses de
utilización de bobinas (en Lbs) se proporcionan a continuación.

Mes Utilización de Mes Utilización de acero


acero ( Lbs) ( Lbs)
Enero 151560 Noviembre 658852
Febrero 206807 Diciembre 179739
Marzo 131075 Enero 251969
Abril 124357 Febrero 205806
Mayo 134580 Marzo 304580
Junio 149454 Abril 293434
Julio 169799 Mayo 273725
Agosto 216843 Junio 210626
Setiembre 288965 Julio 193540
Octubre 219018 Agosto

Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para calcular el pronóstico.

205
5. Los programas de Gestión de Dispositivos Móviles Privados (BYO por sus siglas en inglés)
se están generalizando para dar respuesta a una realidad cada vez más palpable en las
organizaciones: la tendencia creciente a que los trabajadores utilicen el mismo dispositivo móvil
tanto para uso privado como para uso profesional. La compañía SMART ha registrado las
ventas de Smartphone, PDA, Iphone, Ipad, etcétera en miles de dólares durante los últimos ocho
años y el gerente de producción desea que le den una proyección de las ventas para el próximo
año. El encargado realiza la proyección de acuerdo con tres métodos de pronóstico y debe
decidir cuál es el más adecuado.

Año Ventas Método A Método B Método C

2005 265 263 270 266

2006 300 302 305 305

2007 310 312 325 306

2008 335 330 350 340

2009 355 360 340 370

2010 400 402 450 421

2011 420 415 452 415

2012 450 442 460 463

2013 Pronóstico 488 500 499

a. Calcular todas las medidas de error para los tres métodos.


b. Comparar todos los resultados anteriores y diga cuál de los pronósticos para el 2013 se debe
presentar al gerente de producción.

206
MISCELÁNEA

207
1. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado
b. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?
c. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?
2. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuáles son las desventajas del muestreo frente al censo?
b. Indique la(s) alternativa(s) falsa(s) en relación a la información disponible.
Representa la información primaria.
Un medio para obtenerla es a través de revistas especializadas.
No está relacionada con los objetivos de investigación.
Las fuentes para conseguirlas pueden ser internas, externas o ambas.
c. ¿En qué consiste el diseño del trabajo de campo?

3. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. Establezca un par de ejemplos tal que, en el primero, el Elemento sea diferente de la Unidad de
muestreo y en el segundo el Elemento sea lo mismo que la Unidad de muestreo. Indique
explícitamente cuál es el Elemento y cuál la Unidad de muestreo.
b. Mencione y explique dos ventajas y dos desventajas del Muestreo frente al Censo.
c. Plantee un ejemplo para cada tipo de variable según su escala de medición. Muestre la
categorización de cada una de ellas.
d. ¿Cuál es el objetivo de Estratificar una población?
e. Explique paso a paso el procedimiento a seguir para aplicar un muestreo sistemático.
f. En una encuesta por muestreo explique en qué consiste el diseño del trabajo de campo.
g. ¿Cuál es la diferencia sustancial entre muestreo no probabilístico y muestreo probabilístico?
h. ¿Qué factores afectan al tamaño de muestra? Explique la influencia de cada uno de ellos.
i. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado.
j. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?
k. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?
l. ¿En qué consiste el error de tipo I?
m. ¿Qué podría pasar si se acepta Ho?

4. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. Si en una prueba de bondad de ajuste la distribución hipotética no es correcta, ¿qué espera que ocurra
con el valor del estadístico de prueba?
b. En un análisis de varianza de dos factores ¿cuántas variables se analizan y en qué escala de medición
debe estar cada una de ellas?
c. ¿Cuáles son los supuestos del análisis de varianza?
d. Si en una prueba de independencia de criterios la afirmación hipotética no es correcta, ¿qué espera
que ocurra con el valor del estadístico de prueba?
e. ¿Cómo interpreta el error estándar del coeficiente de regresión?
f. ¿Por qué es importante el coeficiente de determinación ajustado o corregido?
g. ¿Qué problemas origina la presencia de multicolinealidad en un modelo de regresión múltiple?
h. ¿Cómo interpreta el error típico del coeficiente de correlación?
i. ¿Qué problemas genera la presencia de multicolinealidad en un modelo de regresión múltiple?

j. En un análisis de varianza de dos factores, ¿qué implica que exista interacción entre los factores?
k. ¿Por qué es importante el coeficiente de determinación corregido en el análisis de regresión
múltiple?
l. ¿Cómo interpreta la frecuencia esperada en la prueba de bondad de ajuste?
5. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuál es la utilidad de la prueba ANOVA de un factor?

208
b. ¿Cuál es la utilidad de las pruebas de hipótesis individuales en el análisis de regresión?
c. Liste y defina las componentes de una serie de tiempo.

6. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. ¿Cómo interpreta el error de tipo I?
b. ¿Por qué la prueba de bondad de ajuste es una prueba de cola superior?

7. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. Señale las características de la distribución Ji cuadrado.
b. ¿Bajo qué condiciones se puede efectuar un Análisis de Varianza?
c. ¿Por qué las pruebas de bondad de ajuste son siempre de extremo superior?
d. ¿Cuándo decimos que un modelo de regresión lineal es válido?
e. Se desea investigar, si existe alguna relación entre el promedio de calificaciones obtenido por los
estudiantes de universidad y sus ingresos 10 años después de su graduación. ¿Qué herramienta
estadística permitirá obtener una adecuada conclusión del estudio?
f. ¿Cuáles son los supuestos de la regresión?
g. ¿Qué tipo de datos se usan para la prueba de bondad de ajuste.

8. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. ¿Cómo interpreta el error estándar de la proporción muestral?
b. ¿Cómo interpreta el nivel de significación en una prueba de hipótesis?
c. ¿En qué se basa para establecer la hipótesis alternativa en una prueba de hipótesis?

9. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.


a. ¿Qué relación existe entre la longitud del intervalo de confianza y la variabilidad de los datos?
b. ¿Qué tipo de errores pueden cometerse al realizar una prueba de hipótesis?
c. ¿Qué condiciones permiten aplicar correctamente la distribución Ji-cuadrado?
d. ¿Cómo afecta la variabilidad de los datos a la región de rechazo de una prueba de hipótesis?

10. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. ¿Qué consecuencias produce la existencia de multicolinealidad?
b. ¿Por qué es importante el coeficiente de determinación ajustado en el modelo múltiple de regresión?
c. ¿Cómo se detecta la multicolinealidad?
d. ¿Cuál es la interpretación del error estándar de los coeficientes de la regresión?

11. En el presente ciclo académico, se desea investigar la percepción de los alumnos de UPC del servicio de
fotocopias en el centro de información. A usted se le encarga realizar el diseño del trabajo de
investigación. Para ello debe definir y justificar lo siguiente: población, unidad de muestreo, técnica de
muestreo a utilizar y cómo la aplicaría. Además proponga tres variables generales y cinco variables que
aporten directamente al tema a investigar.

12. Secretaría académica esta constantemente preocupada por mejorar los servicios que ofrece buscando en
todo momento brindar una mejor atención a los alumnos. Revisando las estadísticas de los reclamos que
hicieron los alumnos sobre las evaluaciones continuas el semestre anterior, notó que se incrementó en
relación a semestres anteriores. A Secretaría Académica le preocupa este hallazgo y por lo tanto decide
encargarle a usted investigar sobre las causas que motivarían dicho incremento en los reclamos de las
evaluaciones continuas.
Se cree que una posible causa es el desconocimiento de los procedimientos que estipula el reglamento.

Reglamento de la Revisión de notas de exámenes

209
La solicitud de revisión de notas se presenta a la Secretaría Académica en el acto de devolución del
examen y a través del formato establecido.
La Secretaría Académica remite la solicitud con el examen al profesor, el cual debe observar lo
siguiente:
 Se acepta una revisión de nota cuando haya habido un error de suma o se haya omitido corregir la
totalidad de la respuesta. No se admite reclamos sobre los criterios de evaluación ni sobre la
rigurosidad de la calificación.
 El examen que se solicita revisar se debe anexar a la solicitud. No se acepta exámenes respondidos
con lápiz; ni los que tengan alguna identificación del alumno, distinta a su código; ni aquellos en
que el alumno haya añadido algo después de corregido el examen. En este último caso, el alumno
recibe además la sanción correspondiente.
 El trámite en la Secretaría académica debe ser realizado por el propio alumno o por aquella
persona a quien éste le haya otorgado poder para recoger el examen.
 Toda gestión directa ante el profesor de la asignatura cuya nota se solicita revisar invalida el
proceso de revisión de nota, además de aplicarse las sanciones correspondientes.
 No se puede reclamar más de una vez por una misma práctica o un mismo examen.
Después de revisar las solicitudes, el profesor debe elaborar un cuadro resumen y presentarlo junto a
los exámenes a la Secretaría Académica y al Director de Carrera o de Área respectivo.

El reglamento exige que el reclamo de una evaluación continua que ya fue ingresada al sistema se
efectúe a través de Secretaria Académica.
En caso la nota aún no ha sido ingresada al sistema, se puede efectuar el reclamo directamente con el
profesor del curso.
El profesor tiene 7 días para registrar la nota en el sistema, a partir de ahí el alumno tiene solo 10 días
para presentar su reclamo en Secretaria Académica.

a) Identifique la población, el elemento, la unidad de muestreo, un objetivo de investigación, dos


variables cualitativas y dos cuantitativas indique las escalas respectivas.
b) Utilice el esquema de diseño de un cuestionario, para elaborar el formato precodificado que permita
recabar la información necesaria para este estudio.

13. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a. ¿Por qué la prueba F no es suficiente para validar un modelo de regresión cuadrático?
b. ¿Qué función importante cumple el coeficiente de determinación corregido en un modelo de
regresión múltiple?

14. Los datos de la Tabla N°1, representan la relación de todos los clientes con tarjeta de un establecimiento
de comercial.
a) Seleccione una muestra aleatoria sistemática de 8 empleados y estime cuál es el porcentaje de
clientes que pagaron con tarjeta de la tienda. Calcule el error cometido. Utilice la columna C12 de la
tabla de números aleatorios.
b) Seleccione una muestra aleatoria estratificada de 15 empleados con asignación proporcional al
tamaño del estrato y estime cuál es el monto promedio gastado en la última compra por los clientes
con tarjeta dorada o la normal.
Estrato1: utilice las columnas C1C2, C2C3, C3C4, C5C6 de la tabla de números aleatorios.
Estrato2: utilice las columnas C7C8, C8C9, C9C10, C10C11 de la tabla de números aleatorios.

15. La siguiente es una lista de establecimientos de Marco’s Pizza, ubicados en Lucas Country (Estados
Unidos). Además se indica si la tienda es de propiedad de consorcio (C) o de administrador (M), así
como las ventas semanales en miles de dólares.

210
a. Seleccione una muestra aleatoria simple de 5 tiendas, para ello considere las columnas C6C7. En
base a la muestra obtenida estime la proporción de tiendas de propiedad del consorcio (C).
b. Seleccione una muestra aleatoria de cinco tiendas mediante un muestreo sistemático, obtenga el
punto de arranque columna C2. Con la muestra obtenida estime las ventas medias semanales de la
tiendas.
c.

Domicilio Tipo Ventas
Identificación
01 2607 Starr Av. C 20
02 309 W. Alexis Rd. C 30
03 2652 W Central Av C 25
04 630 Dixie Hwy M 12
05 3510 Dorr St C 25
06 5055 Glendale Av. C 40
07 3382 Lagrange St. M 42
08 2525 W Laskey Rd C 60
09 303 Louisiana Av. C 64
10 146 Main St C 51
11 835 S McCord Rd M 34
12 3501 Monroe St M 26
13 2004 Ottawa River Rd C 66
14 2116 N Reynolds Rd C 52
15 3678 Rugby Dr C 24
16 1419 South Av C 33
17 1234 W. Silvana Av C 28
18 4624 Woodville Rd M 29
19 5155 S Main M 35
20 106 E. Airport Hwy C 48
21 6725 W Central M 49
22 4552 Woodville Rd C 57
23 1316 Michigan Av C 65
24 4552 Monroe M 60
25 1852 North Rd M 54

16. Se registra a los empleados de una empresa. Los datos se muestran en la tabla anexa. Considere que los
datos constituyen una población.
Le encargan a usted que responda las siguientes preguntas.
a. Seleccione una muestra aleatoria simple de 20 empleados y calcule la proporción de hombres
indicando el error muestral. Utilice la columna C2, de ser necesario utilice las columnas C4, C7, C9,
C11, C12, C15.
b. Seleccione una muestra estratificada de tamaño 20 con asignación proporcional al Área. Utilice las
siguientes columnas de ser necesario para la selección de las muestras.
Estrato 1: C1, C3, C5
Estrato 2: C2, C3, C4
Estrato 3: C6, C8, C10
 Calcule los promedios y las desviaciones estándar de las edades para cada uno de los estratos.
 Estime la edad promedio
 Si la edad promedio de la población es 46,183 años. Cuanto difiere el promedio estimado del
promedio poblacional dado, comente el resultado obtenido.

211
Edad Sueldo Edad Sueldo
N° Sexo (Años) Área Anual S/. N° Sexo
(Años) Área Anual S/.
1 H 52 A 57 000 61 M 40 B 21 900
2 H 46 A 40 200 62 M 63 B 45 000
3 M 75 A 21 450 63 M 54 B 32 100
4 M 57 A 21 900 64 H 65 B 36 000
5 H 49 A 45 000 65 M 22 B 21 900
6 H 46 A 32 100 66 M 46 B 27 900
7 H 48 A 36 000 67 H 26 B 24 000
8 M 38 A 21 900 68 H 34 B 30 300
9 M 59 A 27 900 69 H 58 B 28 350
10 M 58 A 24 000 70 H 31 B 27 750
11 M 54 A 30 300 71 H 40 B 35 100
12 H 39 A 28 350 72 M 28 B 27 300
13 H 44 A 27 750 73 H 42 B 23 550
14 M 55 A 35 100 74 M 64 B 35 100
15 H 42 A 27 300 75 H 22 B 23 250
16 H 40 A 40 800 76 H 30 B 29 250
17 H 42 A 46 000 77 H 35 B 30 750
18 H 48 A 103 750 78 H 40 B 22 350
19 H 42 A 42 300 79 M 55 B 30 000
20 M 65 A 26 250 80 H 42 B 30 750
21 M 41 B 38 850 81 M 68 B 34 800
22 H 64 B 21 750 82 H 65 B 60 000
23 M 39 B 24 000 83 H 34 B 35 550
24 M 71 B 16 950 84 H 66 B 45 150
25 M 62 B 21 150 85 H 29 B 73 750
26 H 38 B 31 050 86 H 53 B 25 050
27 H 50 B 60 375 87 M 23 C 27 000
28 H 41 B 32 550 88 H 46 C 26 850
29 H 61 B 135 000 89 M 70 C 33 900
30 H 43 B 31 200 90 H 35 C 26 400
31 H 40 B 36 150 91 H 21 C 28 050
32 H 51 B 110 625 92 H 42 C 30 900
33 H 43 B 42 000 93 H 38 C 57 000
34 H 55 B 92 000 94 H 47 C 40 200
35 H 43 B 81 250 95 H 62 C 21 450
36 M 41 B 31 350 96 H 56 C 21 900
37 H 50 B 29 100 97 H 34 C 45 000
38 H 42 B 31 350 98 H 63 C 32 100
39 H 44 B 36 000 99 H 20 C 36 000
40 M 71 B 19 200 100 H 39 C 21 900
41 M 43 B 23 550 101 H 57 C 27 900
42 H 44 B 35 100 102 H 41 C 46 000
43 H 41 B 23 250 103 M 47 C 103 750
44 H 41 B 29 250 104 H 33 C 42 300
45 H 66 B 30 750 105 H 31 C 26 250
46 M 64 B 22 350 106 M 19 C 38 850
47 M 66 B 30 000 107 M 56 C 21 750
48 H 57 B 30 750 108 M 31 C 24 000
49 H 46 B 34 800 109 H 65 C 16 950
50 H 44 B 60 000 110 H 59 C 21 150
51 H 42 B 35 550 111 H 45 C 31 050
52 H 41 B 45 150 112 H 27 C 60 375
53 H 50 B 73 750 113 H 31 C 32 550
54 H 73 B 25 050 114 M 39 C 135 000
55 H 44 B 27 000 115 M 46 C 60 375
56 H 42 B 26 850 116 M 52 C 32 550
57 H 41 B 33 900 117 M 43 C 135 000
58 M 40 B 26 400 118 H 34 C 31 200
59 H 43 B 28 050 119 H 32 C 36 150
60 H 45 B 30 900 120 H 44 C 110 625

17. A continuación se muestran datos correspondientes a un total de 60 empleados de la empresa “La


Novedosa”. Seleccione una muestra aleatoria simple de tamaño 20, utilizando la Tabla de números

212
aleatorios. Para ello tome como unidades el valor de la primera fila de la columna 10 y como las decenas
el valor de la primera fila de la columna 9. Suponga que los salarios actuales se distribuyen
normalmente.
a. En su cuadernillo registre el número correspondiente al empleado seleccionado.
b. Con un nivel de significación del 5%, ¿se puede afirmar que la variabilidad de los salarios actuales
entre hombres y mujeres difieren significativamente?
c. ¿Es correcto afirmar que los hombres perciben en la actualidad un salario superior al de las mujeres?
Use un nivel de significación del 5%.

Datos de todos los empleados de la empresa “La Novedosa”


Nivel Salario Salario Tiempo de Experiencia
Categoría
N° Sexo Edad educativo actual inicial empleo previa
laboral
(años) (años) ($) ($) (meses) (meses)
1 Hombre 52 15 Directivo 57 000 27 000 98 144
2 Hombre 46 16 Administrativo 40 200 18 750 98 36
3 Mujer 75 12 Administrativo 21 450 12 000 98 381
4 Mujer 57 8 Administrativo 21 900 13 200 98 190
5 Hombre 49 15 Administrativo 45 000 21 000 98 138
6 Hombre 46 15 Administrativo 32 100 13 500 98 67
7 Hombre 48 15 Administrativo 36 000 18 750 98 114
8 Mujer 38 12 Administrativo 21 900 9 750 98 100
9 Mujer 59 15 Administrativo 27 900 12 750 98 115
10 Mujer 58 12 Administrativo 24 000 13 500 98 244
11 Mujer 54 16 Administrativo 30 300 16 500 98 143
12 Hombre 39 8 Administrativo 28 350 12 000 98 26
13 Hombre 44 15 Administrativo 27 750 14 250 98 34
14 Mujer 55 15 Administrativo 35 100 16 800 98 137
15 Hombre 42 12 Administrativo 27 300 13 500 97 66
16 Hombre 40 12 Administrativo 40 800 15 000 97 24
17 Hombre 42 15 Administrativo 46 000 14 250 97 48
18 Hombre 48 16 Directivo 103 750 27 510 97 70
19 Hombre 42 12 Administrativo 42 300 14 250 97 103
20 Mujer 65 12 Administrativo 26 250 11 550 97 48
21 Mujer 41 16 Administrativo 38 850 15 000 97 17
22 Hombre 64 12 Administrativo 21 750 12 750 97 315
23 Mujer 39 15 Administrativo 24 000 11 100 97 75
24 Mujer 71 12 Administrativo 16 950 9 000 97 124
25 Mujer 62 15 Administrativo 21 150 9 000 97 171
26 Hombre 38 15 Administrativo 31 050 12 600 96 14
27 Hombre 50 19 Directivo 60 375 27 480 96 96
28 Hombre 41 15 Administrativo 32 550 14 250 96 43
29 Hombre 61 19 Directivo 135 000 79 980 96 199
30 Hombre 43 15 Administrativo 31 200 14 250 96 54
31 Hombre 40 12 Administrativo 36 150 14 250 96 83
32 Hombre 51 19 Directivo 110 625 45 000 96 120
33 Hombre 43 15 Administrativo 42 000 15 000 96 68
34 Hombre 55 19 Directivo 92 000 39 990 96 175
35 Hombre 43 17 Directivo 81 250 30 000 96 18
36 Mujer 41 8 Administrativo 31 350 11 250 96 52
37 Hombre 50 12 Administrativo 29 100 13 500 96 113

213
38 Hombre 42 15 Administrativo 31 350 15 000 96 49
39 Hombre 44 16 Administrativo 36 000 15 000 96 46
40 Mujer 71 15 Administrativo 19 200 9 000 96 23
41 Mujer 43 12 Administrativo 23 550 11 550 96 52
42 Hombre 44 15 Administrativo 35 100 16 500 95 90
43 Hombre 41 12 Administrativo 23 250 14 250 95 46
44 Hombre 41 8 Administrativo 29 250 14 250 95 50
45 Hombre 66 12 Seguridad 30 750 13 500 95 307
46 Mujer 64 15 Administrativo 22 350 12 750 95 165
47 Mujer 66 12 Administrativo 30 000 16 500 95 228
48 Hombre 57 12 Seguridad 30 750 14 100 94 240
49 Hombre 46 15 Administrativo 34 800 16 500 94 93
50 Hombre 44 16 Directivo 60 000 23 730 94 59
51 Hombre 42 12 Administrativo 35 550 15 000 94 48
52 Hombre 41 15 Administrativo 45 150 15 000 94 40
53 Hombre 50 18 Directivo 73 750 26 250 94 56
54 Hombre 73 12 Administrativo 25 050 13 500 94 444
55 Hombre 44 12 Administrativo 27 000 15 000 94 120
56 Hombre 42 15 Administrativo 26 850 13 500 94 5
57 Hombre 41 15 Administrativo 33 900 15 750 94 78
58 Mujer 40 15 Administrativo 26 400 13 500 94 3
59 Hombre 43 15 Administrativo 28 050 14 250 94 36
60 Hombre 45 12 Administrativo 30 900 15 000 94 102

18. La compañía JUGOS S.A. envasa limonada congelada en latas cuyo peso medio es de 16 onzas.
Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La
tabla siguiente muestra los resultados obtenidos durante un día de la última semana.

15,5 16,0 15,7 15,9


16,1 16,0 15,2 15,9
Asuma que el peso de las latas tiene distribución normal. Es correcto pensar, con un nivel de
significación del 5% que el peso promedio de las latas está por debajo del estándar.

19. Los restaurantes de comida rápida afirman que el tiempo que sus clientes esperan para recibir su orden es
de 4 minutos. Durante el verano del presente año se visitó a 15 restaurantes de comida rápida como
Wendy’s, Mc Donald’s y Burger King. Durante cada visita, el cliente se dirigió al pasaje para
automóviles y ordenó una comida básica como “Combo” o un sandwich, papas y una malteada. Se
registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos, en minutos, para 15
visitas.

0,9 1,2 1,9 2,8 1,8 6,8 3,0 2,8


2,7 4,8 2,6 5,0 7,2 2,8 7,3

Si se sabe que el tiempo entre pedir y recibir la orden sigue una distribución normal, con un nivel de
significación del 5%:
a. ¿Qué puede decir de la afirmación que hacen los restaurantes de comida rápida respecto al tiempo
de espera de sus clientes?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es mayor a 1,8
minutos?

214
20. Un centro de atención médica cuenta con un registro de 3 500 pacientes, desea establecer como política
que si menos del 40% de sus pacientes están satisfechos con la atención recibida, se replantearán las
estrategias de bienestar de los pacientes. En un intento por determinar la proporción de pacientes que
están satisfechos con la atención recibida, selecciona una muestra aleatoria de 400 pacientes,
encontrando que 140 de ellos manifestaban estar satisfechos. Con un nivel de significación del 4%, ¿se
deberá replantear las estrategias de satisfacción de los pacientes?

21. La Asociación nacional de constructores de viviendas, suministró los datos sobre el costo de los
proyectos más frecuentes de remodelación de vivienda. Algunos datos de las muestras de los costos, en
cientos de soles para esas dos clases de remodelaciones son:

Cocina 25,2 17,4 22,8 21,9 19,7 23,0 19,7 16,9 21,8
Recámara principal 18,0 22,9 26,4 24,8 26,9 17,8 24,6 21,0

Si se sabe que los costos siguen una distribución normal con la misma variabilidad, con un nivel de
significación del 2,5% ¿considera usted que la remodelación de la recámara principal es más costosa?

22. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.


a) ¿Qué tipo de error se puede estar cometiendo al aceptar la hipótesis nula en una prueba de
hipótesis?
b) ¿Cuándo considera que es más adecuado la comparación de medias con muestras dependientes en
lugar de utilizar muestras independientes?

23. Investigación de Mercados S. A., basa sus tarifas en la hipótesis de que las preguntas de una encuesta
telefónica se pueden contestar en un tiempo medio no mayor de 15 minutos. Si es necesario un mayor
tiempo de encuesta, se aplica una tarifa adicional. Suponga que en una muestra de 35 entrevistas se
obtiene una media de 17 minutos y una variabilidad de 4 minutos. Con un nivel de significación del 5%:
a. ¿Se justifica la tarifa adicional?
b. ¿Será correcto afirmar que la variabilidad de la duración de las llamadas es menor a 5 minutos?

24. Un restaurante de comida rápida planea una oferta especial que permita a los clientes comprar vasos de
diseño especial con conocidos personajes de caricaturas. Si más del 15% de los clientes compran esos
vasos, se implantará la promoción. En una prueba preliminar en varios locales, 88 de 500 clientes los
compraron. ¿Se debe implantar la promoción especial? Use un nivel de significación del 1%.

25. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más
tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las
horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de
significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes
pasan más tiempo, en promedio, viendo televisión que leyendo?

Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Televisión 11 19 8 5 16 8 4 12 10 14 15 18
Leyendo 6 10 3 10 5 8 7 14 14 8 10 10

26. La asociación internacional de transporte aéreo hizo una encuesta entre viajeros de negocios para
determinar la evaluación de aeropuertos internacionales. La calificación máxima posible era 10. Suponga
que se pidió a una muestra aleatoria que calificara al aeropuerto de Miami, y a otra muestra aleatoria se
le pidió que calificara al aeropuerto de Los Ángeles. Las respuestas son los siguientes.

215
Miami 6 7 4 9 4 8 4 9 9 7
Los Ángeles 10 3 5 3 9 5 6 6

Si las calificaciones que recibe cada aeropuerto sigue una distribución normal, con un nivel de
significación del 2%:
a. ¿Se puede afirmar que la variabilidad en las calificaciones que recibe cada aeropuerto es la misma?
b. ¿Se puede concluir que alguno de los aeropuertos es favorecido por la calificación asignada?

27. En una encuesta realizada el año pasado se determinó que 20% de 505 hombres y 25% de 426 mujeres
encuestados, estaban a favor de prohibir la venta libre de cerveza, vinos y licores en el país. A un nivel
de significación del 5%, ¿se puede asegurar que la proporción de mujeres que favorece la prohibición
supera a la proporción de hombres en más de un 2%?

28. Durante el verano del año 2009 se visitó a 30 restaurantes de comida rápida como Wendy’s, McDonald’s
y Burger King (The Cincinnati Enquirer, 9 de Julio de 2009). Durante cada visita, el cliente se dirigió al
pasaje para automóviles y ordenó una comida básica como “combo” o un sándwich, papas y una
malteada. Se registro el tiempo (en minutos) entre pedir y recibir la orden. Los siguientes datos son los
tiempos para 30 visitas.

0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1
6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5
2,6 3,3 5,0 4,0 7,2 9,1 2,8 3,6 7,3 9,0

Si el tiempo entre pedir y recibir la orden tiene distribución normal, a un nivel de significación del 4%
conteste las preguntas siguientes:
a. Si un gerente de un restaurante de comida rápida afirma que el tiempo promedio es de 3 minutos,
basado en los datos recopilados, ¿será correcta la afirmación?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es menor a 3 minutos?

29. Acme Ltd. Vende dos tipos de amortiguadores de caucho para coches de bebés. Las pruebas de desgaste
para medir la durabilidad revelaron que 13 amortiguadores del tipo I duraron un promedio de 11,3
semanas, con una desviación estándar de 3,5 semanas; mientras que 10 del tipo 2 duraron un promedio
de 7,5 semanas, con una desviación estándar de 2,7 semanas. El tipo 1 es más costoso de fabricar y el
CEO (Director ejecutivo) de Acme no desea utilizarlo a menos que tenga un promedio de duración de
por lo menos ocho semanas más que el tipo 2. Suponga que los datos provienen de poblaciones
normales. A un nivel de significación del 2%:
a. ¿Considera usted que la variabilidad de la durabilidad de los dos tipos de amortiguadores son
distintos?
b. ¿Qué decisión deberá tomar el Director Ejecutivo de Acme?

30. La cantidad media de ingresos per cápita disponibles en Colorado es de $ 13 901 dólares (basado en
datos de la Oficina de Análisis Económicos de Estados unidos). Tom Phelps planea abrir un
concesionario de automóviles Cadillac y quiere verificar esa cifra para una región específica de
Colorado, ya que en el caso que el ingreso promedio per cápita es menor a $ 13 901 Phelps no abriría un
concesionario. Phelps encuentra resultados de una encuesta reciente de 25 personas, con una media de $
13 447 dólares y una desviación estándar de $ 4 883. Al nivel de significación del 5%, ¿usted que le
aconseja a Tom Phelps? ¿Tendría razón Phelps para preocuparse respecto al nivel de ingresos en esta
región?

216
31. Las compañías de seguros automovilísticos están comenzando a pensar en aumentar las tarifas para las
personas que usan teléfonos mientras conducen. El Nacional Consumers Group asegura que el problema
no es realmente grave porque sólo el 10% de los conductores usa teléfonos. La industria de seguros
realiza un estudio y encuentra que, de 500 conductores seleccionados al azar, 90 usan teléfonos (basados
en datos de la revista Prevention). Al nivel de significación del 5%, pruebe la aseveración del grupo de
consumidores.

32. El alza en los precios de medicamentos recetados por los médicos provocó que el Congreso considerara
leyes que obligarían a las compañías farmacéuticas a ofrecer descuentos a los ciudadanos carentes de
beneficios en medicamentos. El Comité de reformas gubernamentales internas proporcionó datos acerca
de los costos de las recetas para algunos fármacos de uso común. Suponga que de un total de 100 recetas,
se selecciona la siguiente muestra cuyos datos representan el costo en nuevos soles de las recetas para
Zocor, un fármaco que se emplea para reducir el colesterol.

110 112 115 99 100 98 104 126

Suponiendo que se trata de una población normal, con un nivel de significación del 5%, será correcto
afirmar que:
a. El costo promedio para una receta de Zocor es superior a los 103 nuevos soles.
b. La desviación estándar de los costos de este medicamento es diferente de los 8 nuevos soles.

33. Una gran compañía de seguros de automóviles formó muestras de asegurados solteros y casados y anotó
la cantidad que tuvieron un reclamo durante el último período de tres años. Los resultados fueron los
siguientes: de 400 asegurados solteros 76 tuvieron reclamo y de 900 casados, 90 tuvieron reclamo.
Analizando con un nivel de significación del 5%, ¿se puede decir que la proporción de solteros que
tuvieron reclamos supera a la proporción de casados en más de un 5%?

34. Se desea analizar el consumo en dólares en un restaurante dentro de semana y durante el fin de semana.
Para ello se seleccionaron dos muestras independientes correspondientes a los consumos que mostramos
a continuación:

Dentro de semana 8 8 6 7 4 9
Fin de semana 10 12 9 7 7 9

Suponga que los consumos siguen una distribución normal. Con nivel de significación del 2%, compare,
analice y escriba sus conclusiones respecto a:
a. La variabilidad de los datos de ambos grupos.
b. ¿Los consumos promedios dentro de semana y del fin de semana son distintos?

35. En una encuesta se preguntó a 1 035 adultos sobre su percepción respecto a la participación de las
compañías estadounidenses en la economía global. 704 de los encuestados respondieron bien o
excelente. En una encuesta similar, realizada cuatro años después, 582 de 1 004 adultos encuestados
respondieron a la misma pregunta como bien o excelente. Con los resultados muestrales ¿se puede
concluir que la proporción de adultos que respondieron bien o excelente se incrementó en los últimos
cuatro años? Use un nivel de significación del 10%.

217
36. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de
compras de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión
sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde
los valores mayores indicaban un mayor potencial de compra. Los datos se presentan en la siguiente
tabla, al nivel de significación del 5%, ¿se podría decir que el comercial ha tenido efecto en las
compras?

Calificación de la compra
Individuo
Antes Después
1 5 6
2 4 6
3 7 7
4 3 4
5 5 3
6 8 9
7 5 7
8 6 6

37. En una encuesta de ventas al detalle que realizó American Express se encontró que 16% de los
consumidores estadounidenses utilizaron Internet para comprar regalos durante la temporada vacacional
de 1999 (USA Today, 18 de enero de 2000). Si en la encuesta participaron 1285 clientes. Pruebe a un
nivel de significación del 3% que la proporción poblacional de clientes que usan Internet para comprar
regalos es menor al 18%.

38. En una prueba de la calidad de dos comerciales de televisión se pasó uno en una área de prueba seis
veces, durante un periodo de una semana. La semana siguiente se llevó a cabo una encuesta telefónica
para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les pidió
definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados.

Personas que lo Personas que recordaron el mensaje


Comercial
vieron principal
A 150 95
B 200 110

Al nivel de significación del 1%, ¿no existe diferencia en las proporciones que recuerden los dos
comerciales?

39. El departamento de calidad de una importante cadena de supermercados realiza periódicamente análisis a
los productos alimenticios en envases, de tal manera que no sólo sean aptos para su consumo sino que
cumplan con las especificaciones indicadas en los envases. Tal es el caso de la mantequilla de maní
Boné, a la que luego de examinar 12 frascos de 250 gramos se obtuvieron las siguientes cantidades de
impurezas no tóxicas en gramos:

5,8 4,8 5,3 7,0 5,8 9,0 3,5 4,5 5,3 8,0 5,0 4,8

Asuma que la cantidad de impurezas no tóxicas en gramos en cada envase tiene distribución normal.
a. ¿Se puede afirmar con un nivel de significación del 3% que la cantidad promedio de impurezas no
tóxicas de dicha marca de mantequilla de maní supera los 4,8 gramos?
b. A un nivel de significación del 4%, ¿será correcto pensar que la desviación estándar de la cantidad
de impurezas no tóxicas de la marca de mantequilla de maní analizada es distinta de 2,0 gramos?

218
40. En una encuesta aleatoria de 1000 hogares realizada en Lima, se encontró que 9% de los hogares tenía al
menos un miembro con educación superior. ¿Este resultado refuta la aseveración que en los hogares de
Lima es al menos 12%? Use un nivel de 0,05 de significación.

41. Una máquina dispensadora de café sirve bebidas en vasos de ternopol. Al observarse que el llenado de
los vasos es diferente, se selecciona una muestra aleatoria de 7 vasos antes de ajustar la máquina y 5
vasos luego de ajustar la máquina, obteniéndose los registros siguientes:

14,4 16,2 15,3 18,4 15,3 13,8 17,2


Muestra antes del ajuste
Muestra después del ajuste 16,4 15,8 18,8 17,2 19,4
Si se supone que las cantidades servidas siguen una distribución normal con varianza constante antes y
después del ajuste, construya e interprete un intervalo de confianza del 95% para la diferencia del
contenido promedio de café servido por la máquina.

42. En un estudio sobre la eficacia de ciertos ejercicios para reducir peso, un grupo de 14 personas hicieron
estos ejercicios durante un mes mostraron los siguientes resultados:
Peso antes 92 82 78 93 83 88 73 83 84 76 92 82 110 68
Peso después 90 79 79 91 82 87 74 83 83 75 91 80 107 67

a. Use un nivel de 0,05 de significación para probar si el método es efectivo. Indique explícitamente
las suposiciones necesarias para realizar la prueba.
b. Use un nivel de 0,10 de significación para probar si las varianzas de las poblaciones son iguales.
Comente los resultados.

43. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que pueden
reconocer la marca de un producto de limpieza con base a la forma y color del recipiente. De las 1 400
amas de casa, 420 fueron capaces de identificar la marca del producto. A un nivel de significación del
2,5% ¿se puede afirmar que la proporción de amas de casa que reconocen la marca del producto, es
superior al 35%?

44. Se instala una máquina Corkill para llenar botellas pequeñas con 9,0 gramos de medicamento. Se desea
saber, a un nivel de significación del 5%, si la máquina está cumpliendo con las especificaciones
respecto al contenido de cada botella y para ello se seleccionó una muestra aleatoria de 8 botellas, que
proporcionó los siguientes pesos en gramos: 9,2; 8,7; 8,9; 8,6; 8,8; 8,5; 8,7 y 9,0. Si se sabe que los pesos
en cada botella se distribuyen normalmente, con los resultados que proporciona la muestra seleccionada,
¿a qué conclusión llegaría?

45. A usted se le solicita que compare los costos, en dólares, de 10 servicios diferentes que ofrecen los
nuevos concesionarios de autos de su zona. Los datos se indican a continuación:
Servicio 1 2 3 4 5 6 7 8 9 10
Concesionario 1 44 46 49 45 42 33 28 38 36 49
Concesionario 2 36 35 34 39 37 32 31 30 29 45

a. ¿Se puede afirmar a un nivel de significación del 5% que la variabilidad de los datos para cada
concesionario son iguales?

219
b. A un nivel de significación del 5%, ¿qué concesionario le conviene utilizar?

46. Una compañía de seguros afirma que, en comparación con su mayor competidor, entre sus empleados
hay un mayor número de trabajadores capacitados en el último año. De una muestra aleatoria de 420
empleados suyos, 155 han recibido algún curso de capacitación en el último año. En cambio, de 336
empleados seleccionados al azar de su mayor competidor, 144 han recibido algún curso en el último año.
A un nivel de significación del 5%, se puede decir que la afirmación de la compañía de seguros es
correcta.

47. Una Universidad cuenta con un total de 5000 estudiantes, de los cuales 2400 proceden de la región donde
se ubica la universidad y el resto procede de otras regiones. Una muestra aleatoria de 250 estudiantes de
la región, indica que el 48% prefirió acampar en la playa el pasado fin de semana largo. Así mismo de
250 estudiantes procedentes de otras regiones, el 40% también prefirió acampar en una playa. A un nivel
de significación del 6% ¿la proporción de estudiantes de la región donde se ubica la universidad que
prefirieron acampar en la playa supera en más del 3% a la respectiva proporción de estudiantes que
proceden de otras regiones?

48. Una agencia de seguros local desea comparar los gastos medios ocasionados por daños en accidentes
similares en dos modelos de automóviles. Nueve ejemplares del primer modelo y siete del segundo
modelo son sometidos a una colisión controlada obteniendo los siguientes gastos, en dólares, por daños
sufridos:

Colisión 1 2 3 4 5 6 7 8 9

345 310 305 345 355 375 320 310 305


Modelo 1
Modelo 2 340 325 345 310 315 280 290
Si se supone que los gastos por daños en ambos modelos de automóviles siguen una distribución normal,
a un nivel de significación del 5%:
a. ¿Se puede afirmar que la variabilidad de los gastos por daños para cada modelo de auto son iguales?
b. ¿Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones de cada modelo de
auto?

49. Un centro de estudios que cuenta con 350 estudiantes altamente calificados, realizó un estudio para
analizar el monto en dólares, que este tipo de alumnos, habían recibido como ayuda financiera en el
transcurso de un año. Una muestra aleatoria de 51 alumnos altamente calificados, mostró que este monto
era en promedio de $2 637,00 en un año, con una desviación estándar de $617,50. Al nivel de
significación del 5%:
a. ¿Se puede afirmar que el monto promedio de apoyo financiero que recibe este tipo de alumno es
superior a $2 500,00?
b. ¿Es correcto afirmar que la variabilidad de este monto es menor de $600,00?
50. Un invernadero comercial desea probar la eficacia de ciertos fertilizantes en el crecimiento de las plantas.
A 400 plantas se les da tratamiento con el fertilizante de la marca Silux y a otras380 con el fertilizante de
la marca Esso. De las 400 plantas tratadas con el fertilizante de la marca Silux, 350 florecen en dos
semanas y de las 380 tratadas con el fertilizante Esso, sólo florecen 250 en dos semanas, ¿se puede
concluir, con un nivel de significación del 5%, que el fertilizante Silux es más eficaz que el fertilizante
Esso?

51. Una compañía supone que una llamada telefónica logra acelerar más que una carta el cobro de cuentas
morosas. Dos grupos de clientes morosos fueron contactados, unos por teléfono y otros por correo.

Método Aplicado Tiempo transcurrido para efectuar el pago 220


Carta 10 9 9 11 11 12 10
Llamada telefónica 7 3 5 3 8 4 9 9 2
Posteriormente se registró el tiempo en días que transcurrieron entre el envío de la carta o la llamada
telefónica y la recepción del pago.

Se sabe que el tiempo para la recepción el pago, luego de haber sido contactado el cliente moroso, sigue
una distribución normal. A un nivel de significación del 10%:
a. ¿Existe evidencia significativa para afirmar que la variabilidad en el tiempo para la recepción del
pago es similar tanto para clientes contactados por carta como por teléfono?
b. ¿Puede la compañía afirmar que los clientes morosos responden más rápidamente a las llamadas
telefónicas que a las cartas?

52. Los datos anexos corresponden a la ganancia anual por acción en dólares, de una muestra aleatoria de 9
empresas seleccionadas del “Digest of Earnings Reports”, sección de la revista The Wall Street
Journal del mes de marzo de 2003. A un nivel de significación del 2% ¿fueron en promedio diferentes
las ganancias por acción en marzo de 2001 y marzo de 2002?

Empresa 1 2 3 4 5 6 7 8 9
Ganancias en 2001 1,38 1,26 3,64 3,5 2,47 3,21 1,05 1,98 2,72
Ganancias en 2002 2,48 1,5 4,59 3,06 2,11 2,8 1,59 0,92 0,47

53. Una entidad financiera, está evaluando los montos correspondientes a préstamos financieros otorgados
por dos entidades bancarias “En ti confío” y “Presto al toque”, durante el primer trimestre del presente
año. Se sabe ambas entidades bancarias realizaron durante este período de estudio un total de 130
préstamos financieros. Posteriormente, se seleccionó una muestra aleatoria de cada entidad bancaria
encontrándose los siguientes montos en miles de dólares otorgados en calidad de préstamo:
Si se sabe que los montos correspondientes a prestamos financieros siguen una distribución normal,

1.1. En ti 75 88 65 100 100 95 82 57 42 100 72 49 100 85 90


confío
a. ¿SePresto
puede afirmar 95
al toque que 80
las entidades
72 63 100 bancarias
45 81 presentan
92 50 72 diferentes variabilidades en los montos
correspondientes a sus préstamos financieros, con un nivel de significación del 2%?
b. ¿Es correcto afirmar que la entidad bancaria “En ti confío” otorga en promedio los mayores montos
correspondientes a prestamos financieros con un nivel de significación del 2%?

54. En una prueba de calidad de dos comerciales de televisión se pasó cada uno de ellos en un área de prueba
seis veces, durante un período de una semana. En la semana siguiente se llevó a cabo una encuesta
telefónica para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les
pidió definieran el principal mensaje en ellos. Los resultados que se obtuvieron se presentan a
continuación:
Personas que vieron Personas que recordaron
Comercial
el comercial el mensaje principal

150 63
A
B 200 60
Con un nivel de significación del 5%, ¿se puede concluir que alguno de los comerciales es más
recordado?

55. Una empresa de la construcción realiza una innovación tecnológica a un parque de pequeñas
excavadoras. Para verificar la efectividad o no de la innovación, se diseña un experimento estadístico

221
para comparar la producción diaria en toneladas de material excavado antes y después de la innovación,
empleándose los mismos operarios. De acuerdo con los resultados experimentales resumidos en la tabla
que se muestra más abajo, ¿se puede afirmar que la innovación mejora la producción diaria promedio?
Utilice un 5% de nivel de significación en su prueba estadística.

Producción diaria en toneladas


Excavadora No.
Antes de la innovación Después de la innovación
1 1,7 1,9
2 1,4 1,5
3 2,1 2,2
4 1,9 2,0
5 2,2 2,2
6 1,4 1,5
7 1,9 1,8

56. Con fines de recaudación la Sunat ha estado aplicando dos métodos para registrar las declaraciones
juradas de sus contribuyentes. El primero exige al contribuyente presentarse personalmente ante un
encargado de la Sunat; el segundo le permite enviar por correo su declaración jurada. Los directivos de la
recaudación de impuestos piensan que el primer método ocasiona menos errores que el segundo. Por
ello, autoriza un examen aleatorio de 50 listados de la presentación personal ante el encargado y 75
listados del registro por correo. Un 10 % de las presentaciones personales contienen errores y 13,3% de
los formularios enviados por correo también los contienen. A un nivel de significación del 5%, ¿se puede
afirmar que los directivos de la Sunat tienen razón?

57. Una gran empresa de corretaje de acciones quiere determinar la eficiencia de sus nuevos ejecutivos de
cuenta en la obtención de clientes. Luego de terminar su capacitación, los nuevos ejecutivos dedican
varias semanas a visitar a posibles clientes para que abran cuentas en la empresa. Los datos adjuntos
contienen los números de nuevas cuentas abiertas en sus dos primeras semanas por 10 ejecutivas de
cuenta seleccionadas al azar de un total de 80 y 8 ejecutivos también seleccionados aleatoriamente de un
total de 90.

12 11 14 13 13 14 13 12 14 12
Ejecutivas

13 10 11 12 13 12 10 12
Ejecutivos
a. Con un nivel de significación del 5%, ¿se puede afirmar que la eficiencia de cada tipo de ejecutivo,
presenta la misma variabilidad?
b. ¿Parece ser que las mujeres son más eficaces en la creación de nuevas cuentas que los hombres? Use
un  = 5%.

58. Una operación de ensamblaje en una planta manufacturera requiere de un período de entrenamiento de
aproximadamente un mes para que un nuevo operario alcance la máxima eficiencia. Se sugirió un nuevo
método de entrenamiento y se realizó una prueba para comparar el nuevo método con el procedimiento
estándar. Se entrenó a dos grupos, de diez y nueve obreros nuevos cada uno, durante tres semanas; un
grupo utilizó el nuevo método y el otro el procedimiento de entrenamiento estándar. Se registró el
tiempo, en minutos, que tardó cada trabajador en montar el dispositivo al final del período de tres
semanas. Estas mediciones aparecen en la siguiente tabla:

Procedimiento estándar 32 37 35 28 41 44 35 31 34 42
Procedimiento nuevo 35 31 29 25 34 40 27 32 31

222
Si se supone que los tiempos de ensamble se distribuyen normalmente.
a. ¿Se puede afirmar con un nivel de significación del 5%, que la variabilidad de los tiempos de
ensamble de cada procedimiento son iguales?
b. A un nivel de significación del 5%, diría usted que el procedimiento nuevo ofrece un tiempo medio
de ensamble menor que el procedimiento estándar?

59. Una institución financiera suministró los datos


Empleado de Decisión de aprobar el crédito
de la tabla siguiente acerca de autorizaciones de
crédito Autorizado Rechazado
crédito por parte de cuatro empleados de
crédito. Use un nivel de significación de 5% y Zegarra A. 24 16
pruebe si la decisión de autorizar el crédito está Rubio L. 17 13
asociado con el empleado de crédito que revisa Polar J. 35 15
la solicitud. Barrios S. 11 9

60. Un vendedor hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias de
ventas que vemos a continuación.

Número de ventas Número de días


0 50
1 75
2 65
3 15
4 5

A un nivel de significación del 5%, ¿considera usted que el número de ventas que se realiza por día
sigue una distribución binomial?

61. El jefe de la división de mercadotecnia, de una empresa líder en la


elaboración de jabón debe decidir entre cuatro diferentes envolturas Envoltura Frecuencia
para empaquetar los productos. Para contar con una base de datos que A 95
le permita tomar una decisión, este jefe divisional coloca el jabón en B 98
las distintas envolturas y las distribuye en los cinco supermercados. C 102
Al final de dos semanas, el anota que se han vendido las siguientes D 105
cantidades de jabón. A un nivel de significación del 5%, ¿es correcto 400
pensar que alguna envoltura favorece las ventas?

62. En una de las islas, la cadena de hoteles tiene tres hoteles, Golden Palm, Palm Royale, Palm Princess. Al
tabular las respuestas a la pregunta “¿elegiría este hotel otra vez?” se obtuvieron los siguientes
resultados.
Al nivel de significación del 5%,
Hotel ¿existen indicios de una diferencia
¿Regresaría
al hotel? Golden Palm Palm significativa en la satisfacción del
Palm Royale Princess
cliente entre los tres hoteles?
Sí 128 199 186 (Indique el tipo de prueba,
No 88 33 66 formule la hipótesis adecuada y
contrástela)

A continuación se presentan los resultados obtenidos mediante el SPSS

223
Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral )
Chi-cuadrado de P earson 40.228 2 .000
Corrección por cont inuidad
Razón de verosimili tud 40.964 2 .000
Asociación lineal por lineal 10.938 1 .001
N de casos váli dos 700

63. Se desea analizar, con un nivel de significación del 5%, si existe relación entre el conocimiento que
tienen los alumnos de las noticias de actualidad con la facultad de estudios a la que pertenecen. Para ello
se seleccionó aleatoriamente a 100 estudiantes distribuidos según como se muestra en la tabla siguiente:

Nivel de conocimiento
Facultad Total
Bajo Medio Alto
Publicidad 20 13 2 35
Administración 8 10 10 28
Ingeniería 12 13 12 37
Total 40 36 24 100

¿A qué conclusión llega usted, luego de analizar los datos?

64. Un supermercado está interesado en analizar algunos tipos de electrodomésticos que requieren
reparación dentro del período de garantía. Para ello se seleccionó muestras aleatorias de cada tipo de
electrodoméstico, los datos se registraron en la tabla siguiente:

Microonda Licuadora Microprocesador Tostadora


s

A un nivel de significación
Requiere del 5%, ¿se puede8afirmar que la6 probabilidad 7de que algún electrodoméstico
9
requiera reparación dentro
reparación del período de garantía es similar entre ellos?
No requiere reparación 35 30 40 39
65. Se está considerando cuatro marcas de lámparas eléctricas para su uso en una gran planta manufacturera.
El director de compras pidió muestras de 100 a cada fabricante. Las cantidades de productos aceptables e
inaceptables de cada uno se indican a continuación. Al nivel de significación del 5%, ¿existe alguna
diferencia en la calidad de las bombillas?

Fabricante
Producto
A B C D
Aceptable 12 8 5 11
Inaceptable 88 92 95 89

224
66. El directorio de una empresa está conformado por cuatro funcionarios. Se desea analizar el
comportamiento que tiene el número de funcionarios que llegan tarde a una sesión del directorio. Para
ello se realizaron las siguientes observaciones:

N° de funcionarios N° de
que llegan tarde observaciones a. ¿Qué distribución considera que sigue el número de
0 8 funcionarios que llegan tarde a una sesión del
1 15 directorio? Justifique su respuesta.
2 25 b. Con un nivel de significación del 5%, pruebe si su
67. E
3 8 afirmación anterior es válida. n
4 7 u
Total 63 n
estudio realizado respecto al servicio de fotocopias de la
universidad, se ha registrado el número de alumnos que se encontraban en la cola de espera al arribo de
un nuevo usuario, durante las horas punta. Los registros se han consolidado en la tabla que a
continuación se muestra.

N° de alumnos
en espera a. ¿Qué distribución considera que sigue el número de
N° de alumnos que se encuentran en cola al arribo de un
observacio nuevo usuario? Justifique su respuesta.
b. Con un nivel de significación del 5%, pruebe si su
nes afirmación anterior es válida. 68. In
0 8 ve
1 15 sti
2 25 gadores del Oak Ridge National Laboratory desarrollaron un
3 8 programa de computadora para estimar los casos de cáncer de la
4 7 tiroides esperados y en exceso que ocurren dentro del plazo de
vida de las
5 a máspersonas expuestas
2 a las pruebas de armas atómicas en el sitio de prueba de Nevada en la
década Total
de 1950. De las aproximadamente
65 23 000 personas expuestas a la precipitación radiactiva de las
pruebas, se esperaba que 58 desarrollaran cáncer a la tiroides. Según el programa de computadora, los 58
casos se pueden clasificar por sexo y nivel de radiación (dosis) en el momento de la exposición, como se
muestra en la tabla:

Sexo
Dosis (rads.) Totales
Masculino Femenino
Menos de 1 6 13 19
Entre 1 y 10 8 18 26
11 o más 3 10 13
Totales 17 41 58

Suponga que los datos representan una muestra aleatoria de 58 pacientes con cáncer de tiroides Realice
una prueba para determinar si las dos direcciones de clasificación, dosis y sexo, en el momento de
exposición, son independientes. Utilice   0,01 .

69. Se está realizando un estudio a consumidores de cigarrillos suaves, fuertes y extra fuertes. Se desea
establecer si ellos están dispuestos a dejar su hábito de fumar para mejorar su condición de salud actual.
Para ello se seleccionó aleatoriamente a fumadores de cada tipo de cigarrillo y se le hizo la consulta. Los
resultados se muestran en la tabla.
A un nivel de significación del 5%,
Dejaría de
Suave Fuerte Extra fuerte considera usted que la proporción de
fumar
personas dispuestas a dejar de fumar es
30 15 8 similar en cada grupo.
Si
225
No 80 75 62
70. La oficina de inspectoría de locales públicos, realiza cuatro inspecciones cada día y desea analizar la
distribución del número de locales sancionados por incumplimiento de las normas de seguridad. Para ello
recopila información a lo largo de 300 días de trabajo, obteniéndose los resultados que se muestran en la
tabla.

N° de locales sancionados N° de días Al nivel de significación del 5%, se puede


0 65 afirmar que el número de locales 71. D
1 100 sancionados por día sigue una o
2 90 distribución binomial? s
3 20 ci
4 25

entos hombres de varios niveles gerenciales seleccionados al azar fueron entrevistados respecto a su
interés o preocupación por los temas ambientales. La respuesta de cada persona se registró en cada una
de tres categorías: sin interés, algo de interés y gran interés. Los resultados fueron:
Nivel directivo Sin interés Algo de interés Gran preocupación
Gerencia superior 15 13 12
Gerencia media 27 26 27
Supervisor 28 21 31

Utilizando un nivel de significación del 1%, determine si hay alguna relación entre el nivel directivo y
su interés por los temas ambientales.
72. El atentado con bomba a principios de 1993, del hoy desaparecido, World Trade Center, impulsó a un
estudiante que elaboraba una tesis en psicología anormal a estudiar atentados cometidos en todo el
mundo. Recogió los datos que aquí se reproducen sobre el número de actos terroristas diarios perpetrados
en todo un año. Al nivel del 10%, ¿puede el estudiante deducir que esos actos ocurren de acuerdo con
una distribución de Poisson?

Número de atentados diarios Número de días


0 156
1 93
2 74
3 20
4 8
5 14
Más de 5 0

73. El departamento de Recursos Humanos de Enigma Enterprise desea determinar si el ausentismo de sus
empleados se relaciona con la edad. Para tal fin se toma una muestra de 200 empleados al azar y se
clasifica según la edad y la causa del ausentismo. Los resultados son los siguientes:

Causa Menos de 30 años De 30 a 50 años Más de 50 años


Enfermedad 40 28 52
Otra 20 36 24

¿Se encuentra la edad de los empleados relacionada con las causas del ausentismo? Considere un nivel
de significación del 10%.

226
74. El número de llamadas que recibe la central telefónica de Enigma Enterprise entre 8:00 y 8:01 horas
durante un período de 100 días es como sigue:

Número de llamadas 0 1 2 3 4 5 6 7 Total


Frecuencia observada 4 10 25 30 15 11 5 0 100

A un nivel de significación del 0,05 pruebe la hipótesis según la cual las frecuencias observadas siguen
la distribución de Poisson.

75. Una socióloga desea saber si existe alguna relación entre el nivel de instrucción y las actividades sociales
de una persona. Decidió manejar tres niveles de instrucción: Asistió o terminó la instrucción
universitaria, asistió o terminó la preparatoria y asistió o terminó la primaria. Cada persona llevó un
registro de sus actividades sociales, como jugar boliche en grupo, asistir a bailes o ceremonias. La
socióloga los dividió en frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al
promedio. A un nivel de significación del 5%, ¿cuál debe ser la conclusión de la socióloga?

Actividad social
Instrucción Superior al Inferior al
Promedio
promedio promedio
Universitaria 18 12 10
Preparatoria 17 15 13
Primaria 9 9 22

76. Diariamente, de lunes a sábado, un panadero hornea tres pasteles de chocolate. Si no los vende ese
mismo día los dona a un comedor popular. Use los datos mostrados en la siguiente tabla para probar a un
nivel de significación de 0,05 si se puede considerar el número de pasteles de chocolate vendidos
diariamente como valores de una variable aleatoria binomial.
Número de pasteles de chocolate
Número de días
vendidos diariamente
0 1
1 16
2 55
3 228

77. Un estudio de la relación entre las condiciones de las instalaciones en gasolineras y la agresividad en el
precio de la gasolina, reporta los siguientes datos basados en una muestra de 441 gasolineras. Al nivel de
significación del 1%, ¿sugiere la información que las condiciones de las instalaciones y la política de
precios son independientes entre sí?

Condición de la Política de precios


instalación Agresiva Neutral No agresiva
Anticuada 24 15 17
Condición estándar 52 73 80
Moderna 58 86 36

78. Un asesor de dirección pretende estudiar la intensidad de los conflictos organizativos a partir de los datos
recogidos aquí sobre 64 empresas durante el año pasado.
a. ¿Qué distribución cree usted que sigue el número de conflictos que se presentan al año? Justifique
adecuadamente su supuesto.
b. A un nivel de significación del 1%, ¿puede decir que su supuesto anterior es correcto?

227
Número de conflictos Número de empresas
0 9
1 11
2 12
3 24
4 ó más 8

79. Se realizó una encuesta entre amas de casa de los sectores socioeconómicos A, B y C para determinar su
preferencia por uno de dos detergentes más utilizados en el mercado. Los resultados de la investigación
se muestran en la siguiente tabla. Sobre la base de los datos mostrados y usando un nivel de significación
de 0,05 verifique si la preferencia por un detergente depende del nivel socioeconómico.

Número que favorece el Número que favorece el


detergente Alfa detergente Beta
Nivel A 197 203
Nivel B 260 240
Nivel C 232 168

80. Publicidad Pacifico, investiga la relación entre el tipo favorito de mensaje comercial y el nivel de
ingresos para una muestra de consumidores. Los datos son:
Pruebe, a un nivel de significación del
1.2. Comercial favorito 5%, si el nivel de ingreso se relaciona
con la preferencia de comerciales.
Ingreso A B C
Bajo 25 40 70
Medio 30 30 30
Alto 45 20 10
81. Los registros históricos de una central de bomberos, indican que el número promedio de llamadas que
recibe la central para que atienda una emergencia, es de cuatro llamadas por hora. Se obtiene una
muestra aleatoria de 200 intervalos de una hora y se registran las frecuencias de llamadas del servicio.
Los resultados son:

N° de intervalos de una Utilice un nivel de significación del 5%,


Número de para probar si el número de llamadas que
hora
llamadas recibe la central de bomberos, sigue una
0 45 distribución de Poisson.
1 99
2 32
3 19
4 ó más 5
Total 200
82. Por la temporada de verano se ha realizado un estudio respecto a la opinión que tienen los visitantes de la
playa que visita. Se seleccionaron aleatoriamente cuatro playas y los resultados se muestran en la tabla.

San Bartolo Totoritas Puerto Azul


Pucussana
39 30 35 40
Favorable
Desfavorable 18 12 16 14
228
A un nivel de significación del 10%, ¿se puede afirmar que la opinión favorable se presenta en
proporción similar en las diferentes playas?

83. Un grupo de amigos desea analizar el


gasto, en soles, que realizan las N° Pucussana San Bartolo Totoritas Puerto Azul
personas que visitan algún balneario. 1 42 48 35 31
Seleccionaron aleatoriamente las 2 43 40 26 49
playas que se muestran ene la tabla y se 3 50 39 31 47
registraron el gasto total que realizaron. 4 43 45 30 54
Si un grupo de jóvenes le consulta a 5 38 35 27 52
qué balneario deben dirigirse sabiendo
que no cuentan con mucho dinero, ¿cuál sería su consejo? Use un nivel de significación del 5%.

84. Respecto a la pregunta anterior, uno de los amigos del equipo de investigación considera que el día,
durante la semana, en que se visita el balneario también puede influenciar al gasto de los visitantes. Por
ello propuso analizar los datos de la tabla, con un nivel de significación del 5%, con la intención de
determinar si algún balneario o algún día de la semana o una combinación de ambos, permitiría un menor
gasto.

Pucussana San Bartolo Totoritas Puerto Azul


48 49 40 45
Lun - Mie 46 50 40 44
46 51 38 48
46 51 38 44
Jue - Vie 45 50 36 42
48 50 35 46
48 48 37 48
Sáb - Dom 50 47 36 46
51 53 35 48

85. Las compras de arroz embolsado de 24 familias fueron registradas, según lugar de residencia y forma
como fue propalado el comercial en dichas ciudades

Formas que fue propalado el comercial


Región de residencia
Televisión Radio
Norte 25; 29; 27; 28 25; 18; 27; 25
Centro 30; 28; 32; 27 19; 18: 24; 22
Sur 29; 34; 31; 30 21; 19; 20; 22

Analice los datos considerando un nivel de significación del 5%. Identifique el modelo y las
componentes del modelo, los factores, los niveles del factor y la variable respuesta. Determine si es
posible la mejor combinación de tratamientos.

86. Los siguientes datos resultaron de un experimento realizado por una cadena de tiendas para investigar si
las ventas de cierto producto (miles de dólares) depende del color de la etiqueta y el tamaño del paquete
(onzas)

Color Tamaño del paquete (onzas)


10 12 16

229
Rojo 189,7 185,1 189,0
188,6 179,4 193,0
190,1 177,3 191,1
Verde 165,1 161,7 163,3
165,9 159,8 166,6
167,6 161,6 170.3

a) Determine el modelo convenientemente e identifique las componentes del modelo.


b) Formule las hipótesis adecuadas y contrástelas considerando un nivel de significación del 5%.
c) Determine si es posible, ¿cuál es la mejor combinación de tratamientos?
Los resultados obtenidos mediante el SPSS son los siguientes:

Pruebas de l os ef ectos i nter-sujetos

Variable dependiente: VENTAS Ventas


Suma de
Fuent e cuadrados tipo I gl Media cuadrática F Significación
Modelo corregido 2502.838 a 5 500.568 83.583 .000
Intersección 556582.836 1 556582.836 92935.909 .000
COLOR 2253.442 1 2253.442 376.271 .000
TAMAÑO 230.814 2 115.407 19.270 .000
COLOR * TAMAÑO 18.581 2 9.291 1.551 .252
Error 71.867 12 5.989
Total 559157.540 18
Total corregida 2574.704 17
a. R cuadrado = .972 (R cuadrado corregi da = .960)

Subconjuntos homogéneos

VENTAS Ventas
a,b
Al nivel de significación del 5%, ¿se podría
Duncan
Subconj unt o
decir que existe diferencia de preferencia de
Tamaño del paquete (oz) N 1 2 envoltura?
12 6 170.8167
10 6 177.8333
16 6 178.8833
Significación 1.000 .472
Se m uestran las m edias par a los grupos en subconj untos hom ogéneos.
Basado en la sum a de cuadrados tipo I
El térm ino error es la Media cuadrática (Error) = 5.989.
a. Usa el tamaño muestral de la medi a armónica = 6.000
b. Alfa = .05.

230
Medias marginales estimadas de Ventas
Medias marginales estimadas de Ventas 200
200

190
190

Medias marginales estimada s


180
180

170
170 Tamaño
color
10
160 160

12 Rojo

150 16 150 Verde


Rojo Verde 10 12 16

color Tamaño del paquete (oz)

87. Se desea analizar el tiempo, en minutos, de


espera para ser atendido en el servicio de N° Centro de Información Losa deportiva Cafetín
fotocopias de la universidad, para ello se 1 1,0 2,2 2,7
realizaron observaciones en los diferentes 2 2,2 4,4 4,9
puntos donde se brinda este servicio: Centro 3 2,4 4,6 5,1
de Información, Losa deportiva y Cafetín. 4 2,4 4,6 5,1
Los datos se muestran en la siguiente tabla. 5 2,2 4,4 4,9
Si usted y su equipo de trabajo necesitan 6 3,6 5,8 6,3
urgentemente sacar copias de su trabajo de 7 3,1 5,3 5,8
aplicación, con un nivel de significación del
5%, a cuál de los servicios de fotocopias recurriría.
88. Suponga que usted y su equipo de investigación, con respecto al caso de la pregunta anterior, tienen la
sospecha que el tiempo de espera para ser atendido en los servicios de fotocopias estaría afectado además
por el turno en el que nos presentamos al servicio. Para realizar este análisis se obtuvo la información
que se muestra en la tabla. Con un nivel de significación del 5% ¿se puede afirmar que algún lugar de
atención o algún turno de atención o una combinación de ambos determina un tiempo de espera
conveniente para el alumno?

Centro de Información Losa deportiva Cafetín


1,5 4,2 3,8
Mañana 4,7 7,3 6,8
4,1 6,6 7,2
3,6 5,9 6,5
Tarde 4,8 7,3 7,2
3,8 6,1 6,7
3,4 5,6 6,2
Noche 4,4 6,8 7,4
3,1 5,3 6,2

89. Con el propósito de mejorar el desempeño alumnos al presentarse en el examen GMAT que se califica
desde 200 hasta 800; las más altas indican mayor aptitud. Una prestigiosa universidad planea ofrecer los
siguientes tres programas de preparación: Una sesión de repaso de tres horas, un programa de un día y un
curso intensivo de 10 semanas. Al examen se presentan generalmente alumnos de tres carreras:
Administración, Ingeniería y alumnos de Ciencias. Además se cuenta con la siguiente información:

231
Administració
Programa Ingeniería Ciencias
n
500 540 480 Elabore un informe completo
Repaso de 520 450 420 y detallado de la información
3 horas 580 460 400 que se le presenta. Utilice
un nivel de significación del
460 560 420 5%
Programa de
500 580 430
un día
540 620 480
560 600 480
Curso de 10
570 570 420
semanas
600 580 410

90. Los siguientes datos corresponden al número de hornos de Sucursal Sucursal Sucursal
microondas que se vende en cada una de las tres sucursales Alfa Beta Gamma
de una compañía distribuidora de artículos domésticos. 21 32 24
15 20 17
Las tablas de salidas de resultados que brinda el software 17 30 20
SPSS al introducir los datos anteriores en la opción de 22 26 12
comparación de medias para análisis de varianza de un 24 15
factor se muestran a continuación. 21

TABLA ANOVA

VENTA
Suma de Cuadrado
cuadrados gl medio F Sig.
Entre
214.150 2 107.075 5.873 .017
tratamientos
Dentro de
218.783 12 18.232
tratamientos
Total 432.933 14

Procedimiento de comparación múltiple

Dependent Variable: VENTA


LSD

Difer encia de Intervalo de confianza del 95%


(I) SUCURSAL (J) SUCURSAL medias (I-J) Error típico Sig. Límite inferior Límite superior
Alpha Betha -7.6500* 2.8643 .020 -13.8908 -1.4092
Gamma .5833 2.7562 .836 -5.4219 6.5886
Betha Alpha 7.6500* 2.8643 .020 1.4092 13.8908
Gamma 8.2333* 2.5855 .008 2.5999 13.8668
Gamma Alpha -.5833 2.7562 .836 -6.5886 5.4219
Betha -8.2333* 2.5855 .008 -13.8668 -2.5999
*. La diferencia de medias es significativa al nivel de 0.05.

a. Al nivel de significación del 5%, ¿se puede concluir que existe una diferencia en el número
promedio de hornos de microondas que se venden en cada sucursal?
b. Determine la o las sucursales que logran mayores niveles de ventas de este tipo de artículo
doméstico. Argumente.

232
91. Un parque de diversiones ha estudiado métodos para
disminuir el tiempo de espera (en minutos) para los
juegos, haciendo que las personas entren a ellos y Juego
salgan en una forma más eficiente. Se han propuesto Rueda Casa del Canal de
tres métodos alternos de entrada y salida a los de la terror lanchas
juegos. Para tener en cuenta diferencias potenciales fortuna
debidas al tipo de juego y a la interacción posible 41 52 50
entre el método de entrada y salida y el tipo de Método 40 50 48
juego, se diseñó un experimento factorial. Con los 1 43 44 46
siguientes datos, pruebe si hay algún efecto 49 50 48
importante debido al método de entrar y salir, al tipo Método 2 17 48 45
de juego y a la interacción. La salida del análisis 51 46 44
factorial utilizando el paquete SPSS en su opción 47 43 51
Modelo lineal general se muestran a continuación.
Método 3 49 42 50
Prueba de los efectos inter-sujetos
50 46 49
Dependent Variable: Tiempo
Suma de
cuadrados Media
Fuente Tipo III gl cuadrática F Sig.
Modelo corregido 110.111a 8 13.764 1.745 .212
Intersección 40138.889 1 40138.889 5088.028 .000
JUEGO 5.444 2 2.722 .345 .717
MÉTODO 13.778 2 6.889 .873 .450
JUEGO * MÉTODO 90.889 4 22.722 2.880 .086
Error 71.000 9 7.889
Total 40320.000 18
Total corregida 181.111 17
a.

a. Pruebe todas las hipótesis relevantes a un nivel de significación del 10%.


b. Resuma sus conclusiones.

92. Los siguientes datos muestran el número de reclamos procesados diariamente en 4 líneas de transporte de
pasajeros, a quienes se observó durante varios días. Se puede afirmar que el número medio de reclamos
por día son iguales en las líneas de transporte. Use un nivel de significación del 5%.

Línea 1 Línea 2 Línea 3 Línea 4


15 12 15 13
17 10 14 12
14 13 13 12
12 12 16 14
12 10
9

233
a
Contraste de Levene sobre la igualdad de las varianzas error

Variable dependiente: Número de quejas


F gl1 gl2 Signif icación
.392 3 15 .761
Contrasta la hipótesis nula de que la v arianza error de la
v ariable dependiente es igual a lo largo de todos los grupos.
a. Diseño: Intercept+Línea

Pruebas de los efectos inter-sujetos

Variable dependiente: Número de quejas


Suma de
cuadrados Media
Fuente tipo I gl cuadrática F Signif icación
Modelo corregido 30.706a 3 10.235 3.405 .045
Intersección 3159.211 1 3159.211 1051.124 .000
Línea 30.706 3 10.235 3.405 .045
Error 45.083 15 3.006
Total 3235.000 19
Total corregida 75.789 18
a. R cuadrado = .405 (R cuadrado corregida = .286)

Reclamos
a,b,c
Duncan
Subconjunto
Línea N 1 2
Línea 4 6 11,67
Línea 2 4 11,75
Línea 3 5 14,00 14,00
Línea 1 4 14,50
Signif icación ,070 ,668
Se m uest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo III
El término error es la Media cuadrática (Error) = 3,006.
a. Usa el tamaño muestral de la media armónica = 4,615
b. Los tamaños de los grupos son distintos. Se
empleará la media armónica de los t amaños de los
grupos. No se garantizan los niv eles de error tipo I.
c. Alf a = ,05.

Número de quejas
a,b,c
Duncan
Subconjunto
Línea N 1 2
Línea 4 6 11.67
Línea 2 4 11.75
Línea 3 5 14.00 14.00
Línea 1 4 14.50
Signif icación .070 .668
Se muest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo I
El término error es la Media cuadrática (Error) = 3.006.
a. Usa el tamaño muestral de la media armónica = 4.615
b. Los tamaños de los grupos son distintos. Se
empleará la media armónica de los t amaños de los
grupos. No se garantizan los niv eles de error tipo I.
c. Alf a = .05.

93. Un investigador de mercados de una cadena de supermercados está interesado en el estudio del efecto de
la colocación de estantes sobre la venta de un producto. Se estudiaron cuatro lugares distintos donde
colocar los estantes: normal (A), colocación adicional en la tienda (B), nueva colocación y un anunciador
del producto (C) y colocación normal con listones de propaganda (D). Se tomaron tres tamaños de
tiendas diferentes: pequeña, mediana y grande. Para cada colocación de estantes se seleccionó una

234
muestra aleatoria de dos tiendas de cada tamaño. Los resultado de las ventas semanales (en cientos de
dólares) se muestran en el siguiente cuadro:

Ubicación del estante


Tamaño de
A B C D
tienda
45 56 65 48
Pequeña 44 58 70 50
50 63 71 53
57 69 73 60
Mediana 60 70 75 55
65 78 80 57
70 75 82 71
Grande 72 74 80 72
78 82 89 75

a. Pruebe todas la hipótesis relevantes a un nivel de significación del 5%.


b. Resuma sus conclusiones.
Prueba de Kolmogorov-Smirnov para una muestra

Residuo
para Vent as
N 36
Parámet ros normales a,b Media ,0000
Desv iación t ípica a
Contraste de Levene sobre la igualdad de las varianzas error
3,05193

Dif erencias más Absoluta ,182 Variable dependiente: Ventas semanales, en


extremas cientos de dólares
Positiv a ,182
Negativ a F gl1 gl2 Signif icación
-,115
,694 11 24 ,732
Z de Kolmogorov -Smirnov 1,094
Sig. asintót. (bilateral) Contrasta la hipótesis nula de que la v arianza error de la
,182
v ariable dependiente es igual a lo largo de todos los grupos.
a. La distribución de cont raste es la Normal.
a. Diseño: Intersección+Ubicación+Tamaño+Ubicación
b. Se han calculado a partir de los datos. * Tamaño

Pruebas de los efectos inter-sujetos

Variable dependiente: Ventas semanales, en cient os de dólares


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Signif icación
Modelo corregido 4382,889a 11 398,444 29,333 ,000
Intersección 158935,111 1 158935,111 11700,744 ,000
Ubicación 1644,000 3 548,000 40,344 ,000
Tamaño 2542,389 2 1271,194 93,585 ,000
Ubicación * Tamaño 196,500 6 32,750 2,411 ,058
Error 326,000 24 13,583
Total 163644,000 36
Total corregida 4708,889 35
a. R cuadrado = ,931 (R cuadrado corregida = ,899)

235
Ubicación del estante

Comparaciones múltiples

Variable dependiente: Ventas semanales, en cient os de dólares

Interv alo de conf ianza al


Dif erencia 95%.
entre Límite
(I) Ubicación (J) Ubicación medias (I-J) Error típ. Signif icación Límite inf erior superior
DMS A B -9,33* 1,737 ,000 -12,92 -5,75
C -16,00* 1,737 ,000 -19,59 -12,41
D ,00 1,737 1,000 -3,59 3,59
B A 9,33* 1,737 ,000 5,75 12,92
C -6,67* 1,737 ,001 -10,25 -3,08
D 9,33* 1,737 ,000 5,75 12,92
C A 16,00* 1,737 ,000 12,41 19,59
B 6,67* 1,737 ,001 3,08 10,25
D 16,00* 1,737 ,000 12,41 19,59
D A ,00 1,737 1,000 -3,59 3,59
B -9,33* 1,737 ,000 -12,92 -5,75
C -16,00* 1,737 ,000 -19,59 -12,41
Basado en las medias observ adas.
*. La dif erencia de medias es signif icativ a al niv el ,05.

Subconjuntos homogéneos

Ventas semanales, en cientos de dólares


a,b
Duncan
Subconjunto
Ubicación N 1 2 3
A 9 60,11
D 9 60,11
B 9 69,44
C 9 76,11
Signif icación 1,000 1,000 1,000
Se muest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados t ipo I II
El término error es la Media cuadrática (Error) = 13,583.
a. Usa el tamaño muestral de la media armónica = 9,000
b. Alf a = ,05.

Tamaño de tienda
Comparaciones múltiples

Variable dependiente: Ventas semanales, en cient os de dólares

Interv alo de conf ianza al


Dif erencia 95%.
entre Límite
(I) Tamaño (J) Tamaño medias (I-J) Error típ. Signif icación Límite inf erior superior
DMS Pequeña Mediana -10,50* 1,505 ,000 -13,61 -7,39
Grande -20,58* 1,505 ,000 -23,69 -17,48
Mediana Pequeña 10,50* 1,505 ,000 7,39 13,61
Grande -10,08* 1,505 ,000 -13,19 -6,98
Grande Pequeña 20,58* 1,505 ,000 17,48 23,69
Mediana 10,08* 1,505 ,000 6,98 13,19
Basado en las medias observ adas.
*. La dif erencia de medias es signif icativ a al niv el ,05.

236
Subconjuntos homogéneos

Ventas semanales, en cientos de dólares


a,b
Duncan
Subconjunto
Tamaño N 1 2 3
Pequeña 12 56,08
Mediana 12 66,58
Grande 12 76,67
Signif icación 1,000 1,000 1,000
Se muest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados t ipo I II
El término error es la Media cuadrática (Error) = 13,583.
a. Usa el tamaño muestral de la media armónica = 12,000
b. Alf a = ,05.

Ubicación * Tamaño

Variable dependient e: Ventas semanales, en cientos de dólares


Interv alo de conf ianza al
95%.
Límite
Ubicación Tamaño Media Error típ. Límite inf erior superior
A Pequeña 46,333 2,128 41,942 50,725
Mediana 60,667 2,128 56,275 65,058
Grande 73,333 2,128 68,942 77,725
B Pequeña 59,000 2,128 54,608 63,392
Mediana 72,333 2,128 67,942 76,725
Grande 77,000 2,128 72,608 81,392
C Pequeña 68,667 2,128 64,275 73,058
Mediana 76,000 2,128 71,608 80,392
Grande 83,667 2,128 79,275 88,058
D Pequeña 50,333 2,128 45,942 54,725
Mediana 57,333 2,128 52,942 61,725
Grande 72,667 2,128 68,275 77,058

94. Una compañía que vende regalos por correo cuenta con los siguientes datos muestrales para las ventas,
en dólares, realizadas. Clasificados por la forma como se efectuó el pago y el distrito de residencia del
cliente. Pruebe a un nivel de significación del 5%, si hay algún efecto importante en las ventas debido al
distrito de residencia del cliente, a la forma de pago y a la interacción.

Forma de Distrito de residencia


pago San Isidro La Molina Miraflores Surco
93 81 89 84
a. T
arjeta de 90 80 90 83
crédito
90 81 88 85
89 85 80 85
Cheque 88 84 80 90
88 86 79 90
80 87 76 95
Efectivo 80 90 75 95
78 92 71 96

95. Tres variedades de espárragos (A, B y C) y cuatro tipos de fertilizante (Frontex, Silux, Esso y Grass) son
considerados para ser utilizados en la región norte del país. Para ver si alguna variedad o un tipo de
fertilizante afectan de manera diferenciada a la producción, cada combinación de variedad de planta y

237
tipo de fertilizante se utiliza en tres terrenos diferentes resultando los datos de producciones por hectárea
de la tabla siguiente:

Tipo de fertilizante
Variedad de
Frontex Silux Esso Grass
espárrago
10,5 12,8 12,1 10,8
A 9,2 11,2 12,6 9,1
7,9 13,3 14,0 12,5
8,1 12,7 14,4 11,3
B 8,6 13,7 15,4 12,5
10,1 11,5 13,7 14,5
16,1 16,6 20,8 16,4
C 15,3 19,2 18,0 18,9
17,5 18,5 21,0 17,2

a. Presente un gráfico donde se muestre el efecto de interacción.


b. ¿Se puede afirmar si alguna variedad de espárrago, algún fertilizante o alguna combinación de estos
determina la mayor producción? Utilice un nivel de significación del 5%.
Prueba de Kolmogorov-Smirnov para una muestra

Residuo para
Producción
N 36
Parámet ros normales a,b Media .0000
Desv iación t ípica
1.06601 a
Contraste de Levene sobre la igualdad de las varianzas error
Dif erencias más Absoluta .153 Variable dependiente: Producción por hectárea
extremas Positiv a .107 F gl1 gl2 Significación
Negativ a -.153 .333 11 24 .969
Z de Kolmogorov -Smirnov .918
Contrasta la hipótesis nula de que la v arianza error de la
Sig. asintót. (bilateral) .368 v ariable dependiente es igual a lo largo de todos los grupos.
a. La distribución de cont raste es la Normal. a. Diseño: Intersección+Fertilizante+Variedad+Fertilizante
b. Se han calculado a partir de los datos. * Variedad

Pruebas de los efectos inter-sujetos

Variable dependient e: Producción por hectárea


Suma de
cuadrados Media
Fuente tipo I gl cuadrática F Signif icación
Modelo corregido 406.427a 11 36.948 22.295 .000
Intersección 6889.000 1 6889.000 4156.956 .000
Fert ilizant e 86.931 3 28.977 17.485 .000
Espárrago 310.875 2 155.438 93.794 .000
Fert ilizant e * Espárrago 8.621 6 1.437 .867 .533
Error 39.773 24 1.657
Total 7335.200 36
Total corregida 446.200 35
a. R cuadrado = .911 (R cuadrado corregida = .870)

Producción por hectárea


Producción por hectárea
a,b
Duncan a,b
Duncan
Subconjunto
Subconjunto
Tipo de f ertilizante N 1 2 3
Variedad de espárrago N 1 2
Front ex 9 11.478 A 12 11.333
Grass 9 13.689 B 12 12.208
Silux 9 14.389 C 12 17.958
Esso 9 15.778 Signif icación .109 1.000
Signif icación 1.000 .260 1.000
Se muest ran las medias para los grupos en subconjunt os
Se muest ran las medias para los grupos en subconjuntos homogéneos.
homogéneos. Basado en la suma de cuadrados tipo I
Basado en la suma de cuadrados t ipo I El término error es la Media cuadrática (Error) = 1.657.
El término error es la Media cuadrática (Error) = 1.657. a. Usa el tamaño muestral de la media armónica = 12.
a. Usa el tamaño muestral de la media armónica = 9.000 000
b. Alf a = .05. b. Alf a = .05.

96. Se pide a cuatro personas que beban una marca determinada de café y registren el número de tazas que
consumen durante el día. Se hace lo mismo con bebedores de otras tres marcas. Los resultados se
muestran en la siguiente tabla. Con un nivel de significación de 0,05 pruebe si existe alguna diferencia en
el número promedio de tazas promedio consumidas, para cada marca.

238
Marca A Marca B Marca C Marca D
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 5

239
El propietario de una cadena de salas cinematográficas, desea estimar el ingreso semanal bruto en función de
los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:

Ingreso semanal bruto Publicidad en TV Publicidad en periódicos Publicidad en radio



(miles de dólares) (miles de dólares) (miles de dólares) (miles de dólares)
1 96 5,0 2,5 3,5
2 90 2,0 2,0 1,2
3 95 4,0 2,5 2,6
4 92 2,5 2,5 1,5
5 95 3,0 3,3 1,8
6 94 3,5 2,3 2,0
7 94 2,5 3,2 1,1
8 94 3,0 2,8 1,8

a. Analice la presencia de multicolinealidad.


b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime el ingreso semanal bruto en una semana en que el gasto de publicidad fue de $3 000,00 en
TV, $3 300,00 en periódicos y $1 800,00 en radio.
d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones del
precio en menos de un 80%?

Regression: Y, X1, X2, X3


Correlati ons

Ingreso Publicidad en
semanal Publicidad periódicos Publicidad en
bruto (miles en TV (miles (miles de radio (miles
de dólares) de dólares) dólares) de dólares)
Pearson Correlation Ingreso semanal bruto
1.000 .808 .522 .709
(miles de dólares)
Publicidad en TV (miles
.808 1.000 -.053 .978
de dólares)
Publicidad en periódicos
.522 -.053 1.000 -.157
(miles de dólares)
Publicidad en radio
.709 .978 -.157 1.000
(miles de dólares)
Sig. (1-tailed) Ingreso semanal bruto
. .008 .092 .024
(miles de dólares)
Publicidad en TV (miles
.008 . .451 .000
de dólares)
Publicidad en periódicos
.092 .451 . .356
(miles de dólares)
Publicidad en radio
.024 .000 .356 .
(miles de dólares)
N Ingreso semanal bruto
8 8 8 8
(miles de dólares)
Publicidad en TV (miles
8 8 8 8
de dólares)
Publicidad en periódicos
8 8 8 8
(miles de dólares)
Publicidad en radio
8 8 8 8
(miles de dólares)

ANOVAb
Model Summary
Sum of
Adjusted Std. Error of Model Squares df Mean Square F Sig.
Model R R Square R Square the Est imat e 1 Regression 25.170 3 8.390 101.747 .000a
Residual .330 4 8.246E-02
1 .994a .987 .977 .29
Total 25.500 7
a. Predictors: (Constant), Publicidad en radio (miles de a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
dólares), Publicidad en periódicos (miles de dólares), periódicos (miles de dólares), Publicidad en TV (miles de dólares)
Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)

240
Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 81.798 .772 106.021 .000
Publicidad en TV (miles
2.955 .622 1.488 4.750 .009
de dólares)
Publicidad en periódicos
2.149 .286 .496 7.514 .002
(miles de dólares)
Publicidad en radio
-1.619 .766 -.669 -2.112 .102
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)

Regression: Y, X1, X2
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 24.802 2 12.401 88.877 .000a
Residual .698 5 .140
Adjusted Std. Error of Total 25.500 7
Model R R Square R Square the Est imat e
1 .986a .973 .962 .37 a. Predictors: (Constant), Publicidad en periódicos (miles de dólares), Publicidad en
a. Predictors: (Const ant ), Publicidad en periódicos (miles TV (miles de dólares)
de dólares), Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal bruto (miles de dólares)

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 81.975 .998 82.165 .000
Publicidad en TV (miles
1.663 .147 .838 11.308 .000
de dólares)
Publicidad en periódicos
2.454 .321 .567 7.648 .001
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)

Regression: Y, X1, X3
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 20.515 2 10.257 10.288 .017a
Residual 4.985 5 .997
Adjusted Std. Error of
Total 25.500 7
Model R R Square R Square the Est imat e
1 .897a .805 .726 1.00 a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en TV
a. Predictors: (Constant), Publicidad en radio (miles de (miles de dólares)
dólares), Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 85.820 1.932 44.417 .000
Publicidad en TV
5.242 1.887 2.640 2.778 .039
(miles de dólares)
Publicidad en radio
-4.531 2.299 -1.873 -1.971 .106
(miles de dólares)
a. Dependent Variable: Ingreso semanal brut o (miles de dólares)

Regression: Y, X2, X3

241
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 23.310 2 11.655 26.605 .002a
Residual 2.190 5 .438
Adjusted Std. Error of Total 25.500 7
Model R R Square R Square the Est imat e
1 .956a .914 .880 .66 a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
a. Predictors: (Constant), Publicidad en radio (miles de periódicos (miles de dólares)
dólares), Publicidad en periódicos (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 82.530 1.742 47.364 .000
Publicidad en periódicos
2.813 .575 .649 4.894 .004
(miles de dólares)
Publicidad en radio
1.961 .321 .811 6.109 .002
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)

97. Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales y los años de
experiencia de sus vendedores.

Vendedor 1 2 3 4 5 6 7 8 9 10
Años de experiencia 1 3 4 4 6 8 10 10 11 13
Ventas anuales (miles de dólares) 75 97 92 102 103 111 119 123 117 136

a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta.


Considere un nivel de significación del 5%.
b. Se puede afirmar que los gastos en publicidad se correlacionan en más de 0,95. Para la prueba
considere  = 0,01.
c. Estime las ventas anuales promedio, a un nivel de confianza del 95%, para un vendedor que tiene
12 años de experiencia.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: ventas


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constant e b1 b2
Li neal ,918 89,081 1 8 ,000 78,021 4,211
Cuadrático ,921 40,550 2 7 ,000 75,387 5,271 -,076
Potencia ,928 103,261 1 8 ,000 74,032 ,208
Exponencial ,891 65,508 1 8 ,000 80,038 ,040
La vari able independiente esaños_experiencia.

Lineal

ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2518,338 1 2518,338 89,081 ,000
R R cuadrado corregi da la estimaci ón Resi dual 226,162 8 28,270
,958 ,918 ,907 5,317 Total 2744,500 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.

242
Coef ici entes

Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia 4,211 ,446 ,958 9,438 ,000
(Constante) 78,021 3,547 21,995 ,000

Cuadrático

ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2526,437 2 1263,219 40,550 ,000
R R cuadrado corregi da la estimaci ón Resi dual 218,063 7 31,152
,959 ,921 ,898 5,581 Total 2744,500 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.

Coef ici entes

Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia 5,271 2,130 1,199 2,474 ,043
años_experiencia ** 2 -,076 ,148 -,247 -,510 ,626
(Constante) 75,387 6,368 11,838 ,000

Potencia
ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,241 1 ,241 103,261 ,000
R R cuadrado corregi da la estimaci ón Resi dual ,019 8 ,002
,963 ,928 ,919 ,048 Total ,259 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.

Coef ici entes

Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
ln(años_experiencia) ,208 ,020 ,963 10,162 ,000
(Constante) 74,032 2,859 25,895 ,000
La variable dependiente es ln(ventas).

Exponencial
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,231 1 ,231 65,508 ,000
R R cuadrado corregi da la estimaci ón Resi dual ,028 8 ,004
,944 ,891 ,878 ,059 Total ,259 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.

243
Coef ici entes

Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia ,040 ,005 ,944 8,094 ,000
(Constante) 80,038 3,172 25,233 ,000
La variable dependiente es ln(ventas).

98. Explique cuáles son los supuestos de la regresión múltiple.

99. Un estudio de mercado trata de averiguar si es afectiva la propaganda televisada de un producto que salió
a la venta con relación al tiempo de publicidad (en horas / semana). Se recopilaron datos a partir de la
segunda semana de iniciada la publicidad resultando el cuadro que sigue.

Tiempo de propaganda 20 25 28 36 40
Venta del producto (dólares) 300 310 320 350 420

a. Analice los datos considerando un nivel de significación del 5%.


b. Estime la venta si el tiempo de propaganda es 22 horas.

100. Los datos siguientes presentan el número de dormitorios, el número de baños y los precios a que se
vendieron recientemente ocho casas unifamiliares en cierta comunidad.

Número de
dormitorios Número de baños Precio (en dólares)
3 2 78800
2 1 74300
4 3 83800
2 1 74200
3 2 79700
2 2 74900
5 3 88400
4 2 82900

a. Analice los datos con un nivel de significación del 10% y determine el modelo de regresión.
b. Estime el precio de venta de una casa con tres dormitorios y dos baños.
Correlaciones

precio nºdormi torios nºbaños


precio Correlación de P earson
Sig. (bilat eral)
N
nºdormi torios Correlación de P earson ,996**
Sig. (bilat eral) ,000
N 8
nºbaños Correlación de P earson ,869** ,839**
Sig. (bilat eral) ,005 ,009
N 8 8
**. La correlación es si gni ficativa al nivel 0,01 (bi lateral).

244
Regresión: precio=f(nºbaños, nºdormitorios)
ANOVAb

Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 185269167 2 92634583 675,343 ,000 a
Resi dual 685833,333 5 137166,667
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,998 a ,996 ,995 370,360 a. Variables predictoras: (Constante), nºbaños, nºdormitori os
a. Variables predictoras: (Constante), nºbaños, nºdormi torios b. Variable dependiente: preci o

Coef icientesa

Coefici entes no Coefici entes


estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 65191,667 418,000 155,961 ,000
nºdormitorios 4133,333 228,591 ,903 18,082 ,000
nºbaños 758,333 340,497 ,111 2,227 ,076
a. Variable dependiente: precio

Regresión: precio=f(nºdormitorios)
ANOVAb

Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 184588803 1 184588803 810,668 ,000 a
Resi dual 1366197,2 6 227699,531
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,996 a ,993 ,991 477,179 a. Variables predictoras: (Constante), nºdormitorios
a. Variables predictoras: (Constante), nºdormitorios b. Variable dependiente: preci o

Coef icientesa

Coefici entes no Coefici entes


estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 65373,239 528,216 123,762 ,000
nºdormitorios 4560,563 160,176 ,996 28,472 ,000
a. Variable dependiente: precio

Regresión: precio=f(nºbaños)
ANOVAb

Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 140422500 1 140422500 18,504 ,005 a
Resi dual 45532500 6 7588750,0
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,869 a ,755 ,714 2754,769 a. Variables predictoras: (Constante), nºbaños
a. Variables predictoras: (Constante), nºbaños b. Variable dependiente: preci o

Coef ici entesa

Coeficientes no Coeficientes
estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 67775,000 2921,873 23,196 ,000
nºbaños 5925,000 1377,384 ,869 4,302 ,005
a. Variable dependiente: precio

245
101. Los siguientes datos se refieren al crecimiento de de una colonia de bacterias en un medio de cultivo:

Días de la inoculación N° de bacterias


3 115000
6 147000
9 239000
12 356000
15 579000
18 864000

Debajo se muestra el diagrama de dispersión correspondiente a dos ajustes diferentes:

Gráfico de dispersión
N° bacterias

1000000

800000

600000

400000

Observada
200000
Linea l

0 Exponencial
2 4 6 8 10 12 14 16 18 20

Días de la inoculación

a. ¿Cuál es el modelo lineal ajustado?, ¿cuál es el modelo exponencial ajustado?, ¿cuál de los
dos modelos ajusta mejor a los datos recogidos, compárelos? Use α  0,05.
b. Pronostique el número de bacterias a los 10 días de inoculación.

Debajo se muestra la salida del SPSS del modelo lineal y el modelo exponencial linealizado.
Modelo lineal

246
Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado corregi da la estimaci ón
1 .952 a .907 .884 98550.881
a. Variables predi ctoras: (Const ante), X Días de la inoculación

ANOVAb

Modelo Suma de cuadrados gl Media cuadrática F Sig.


1 Regresión 378745728571.428 1 378745728571.428 38.997 .003 a
Resi dual 38849104761.905 4 9712276190.476
Total 417594833333.333 5
a. Variables predictoras: (Constante), X Días de la inoculaci ón
b. Variable dependiente: Y N° Bacterias

Coef icientesa

Coeficientes no Coeficientes
estandari zado s estandari zado s
Modelo B Erro r típ . Bet a t Si g.
1 (Const an te) -1 32066 .667 917 45.877 -1 .4 39 .223
X D ías d e l a i noculación 490 38.095 785 2.722 .952 6.24 5 .003
a. Variable depend iente: Y N° Bacterias

Modelo linealizado

Resumen del modelo

R R cuadrado Error típ. de


R cuadrado corregi da la estimaci ón
1 .997 a .994 .993 .06588
a. Variables predi ctoras: (Const ante), X Días de la inoculación

ANOVAb

Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 3.036 1 3.036 699.672 .000 a
Resi dual .017 4 .004
Total 3.054 5
a. Variables predi ctoras: (Const ante), X Días de la inoculación
b. Variable dependiente: LNY

247
Coef ici entesa

Coeficientes no Coeficientes
estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 11.151 .061 181.824 .000
X Días de la i noculación .139 .005 .997 26.451 .000
a. Variable dependiente: LNY

102. Suponga que desea desarrollar un modelo para predecir la valuación de casas unifamiliares de
acuerdo con el área que tiene calefacción, la antigüedad de la casa y el tamaño del lote. Se selecciona una
muestra de 15 casas unifamiliares. Se registraron la valuación (en miles de dólares), el área de las casas
que tiene calefacción (en miles de pies cuadrados), la antigüedad de las casas (en años) y el tamaño del
lote (miles de pies cuadrados) con los siguientes resultados:

Casa Valuación (miles Área con calefacción Edad (años) Tamaño del lote
de dólares) (miles de pie2) (miles de pie2)
1 70,40 1,60 32,00 2,50
2 79,30 1,39 1,00 1,80
3 75,70 1,45 8,33 1,50
4 79,20 1,50 2,75 2,30
5 74,50 1,54 12,58 1,80
6 75,80 1,55 16,00 2,30
7 78,50 1,59 1,75 1,80
8 76,80 1,59 7,17 1,80
9 77,40 1,71 11,50 2,50
10 85,90 1,76 0,00 1,95
11 84,40 1,85 3,42 3,00
12 83,80 1,89 2,75 2,05
13 86,70 1,90 0,00 2,50
14 79,10 1,93 7,42 2,65
15 85,90 1,93 2,00 3,00

a. Estime el modelo lineal con todas las variables independientes, ¿qué porcentaje de la
variabilidad en la valuación de las casas es explicado por el modelo?, ¿este modelo es
significativo? Use α  0,05.
b. De incluir todas las variables en el modelo para estimar la valuación de la casa, ¿este modelo
presentará problemas de multicolinealidad?, ¿qué propone para remediar esto?
c. Estime el mejor modelo para pronosticar la valuación de las casas unifamiliares. Analícelo
con 5% de nivel de significación.
d. Pronostique la valuación para una casa que tiene un área con calefacción de 1750 pies
cuadrados, 10 años de antigüedad y 2500 pies cuadrados.

Los resultados obtenidos mediante el SPSS son los siguientes:

248
Correl aciones

X1 Area con X3 Tamaño


Y Valuaci ón calefacción X2 Edad del l ote
Correlaci ón de Pearson Y Valuaci ón 1.000 .679 -.808 .360
X1 Area con calefacción .679 1.000 -.270 .687
X2 Edad -.808 -.270 1.000 .075
X3 Tamaño del l ot e .360 .687 .075 1.000
Sig. (unilateral) Y Valuaci ón . .003 .000 .093
X1 Area con calefacción .003 . .166 .002
X2 Edad .000 .166 . .395
X3 Tamaño del l ot e .093 .002 .395 .
N Y Valuaci ón 15 15 15 15
X1 Area con calefacción 15 15
ANOVA b 15 15
Resumen del modelo
X2 Edad 15 15 15 15
R Error típ. Suma de Media
X3 Tamaño del l ot e 15 cuadrados 15gl cuadrática15 F Sig. 15
R cuadrado de la
1 Regresión 290.244 3 96.748 30.501 .000 a
R cuadrado corregida estimación
Resi dual 34.892 11 3.172
1 .945 a .893 .863 1.78101
Total 325.136 14
a. Variables predi ctoras: (Constante), X3 Tamaño
a. Variables predi ctoras: (Const ante), X3 Tamaño del
del l ote, X2 Edad, X1 Area con calefacción lote, X2 Edad, X1 Area con cal efacción
b. Variable dependiente: Y Valuación

Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza para B al


estandari zados estandari zados 95%
Modelo B Error típ. Beta t Sig. Límite i nferior Límite superior
1 (Constante) 62.388 4.904 12.723 .000 51.596 73.181
X1 Area con calefacción 9.869 3.938 .380 2.506 .029 1.202 18.535
X2 Edad -.410 .063 -.717 -6.489 .000 -.549 -.271
X3 Tamaño del lote 1.604 1.531 .153 1.048 .317 -1.766 4.974
a. Variable dependiente: Y Val uación

Gráfico P-P normal de regresión Residuo tipificado


Variable dependiente: Valuación
1. 00

. 75

. 50
Prob acum e sperada

. 25

0. 00
0. 00 . 25 . 50 . 75 1. 00

Prob acum observada

249
Sin X1

Resumen del modelob ANOVAb

R Error típ. Suma de Media


R cuadrado de la cuadrados gl cuadrática F Sig.
R cuadrado corregida estimación 1 Regresión 270.319 2 135.160 29.59 .000 a
1 .912 a .831 .803 2.13730 Resi dual 54.817 12 4.568
a. Variables predi ctoras: (Const ante), X3 Total 325.136 14
Tamaño del l ote, X2 Edad a. Variables predi ctoras: (Const ante), X3 Tamaño del
b. Variable dependiente: Y Valuación lote, X2 Edad
b. Variable dependiente: Y Valuación

Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza para B al


estandari zados estandari zados 95%
Modelo B Error típ. Beta t Sig. Límite i nferior Límite superior
1 (Constante) 73.161 2.833 25.828 .000 66.989 79.332
X2 Edad -.480 .068 -.840 -7.066 .000 -.629 -.332
X3 Tamaño del lot e 4.430 1.243 .424 3.565 .004 1.722 7.138
a. Variable dependiente: Y Val uación

Sin X2

Resumen del model ob ANOVAb

R Error típ. Suma de Media


R cuadrado de la cuadrados gl cuadrática F Sig.
R cuadrado corregi da estimación 1 Regresión 156.671 2 78.336 5.58 .019 a
1 .694 a .482 .396 3.74683 Resi dual 168.465 12 14.039
a. Variables predictoras: (Constant e), X3 Total 325.136 14
Tamaño del lote, X1 Area con calefacci ón a. Variables predi ctoras: (Const ante), X3 Tamaño del
b. Variable dependiente: Y Valuación lote, X1 Area con cal efacción
b. Variable dependiente: Y Valuación

Coef icientesa

Coefici entes no Coefici entes Intervalo de confianza para B al


estandari zados estandari zados 95%
B Error típ. Beta t Sig. Lí mite inferior Lí mite superior
1 (Constante) 48.646 9.304 5.228 .000 28.373 68.919
X1 Area con calefacción 21.199 7.425 .816 2.855 .014 5.021 37.376
X3 Tamaño del l ote -2.095 2.990 -.200 -.701 .497 -8.609 4.419
a. Variable dependiente: Y Valuación

250
Sin X1, X2
Resumen del modelob ANOVAb

R Error t íp.
R cuadrado de la Suma de Media
R cuadrado corregida estimación cuadrados gl cuadrática F Sig.
1 .360 a .130 .063 4.66490 1 Regresión 42.239 1 42.239 1.94 .187 a
a. Variables predictoras: (Constante), X3 Tamaño del lote Resi dual 282.897 13 21.761
b. Variable dependiente: Y Valuaci ón Total 325.136 14
a. Variables predictoras: (Constante), X3 Tamaño del lote
b. Variable dependiente: Y Valuaci ón

Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza para B al


estandari zados estandari zados 95%
Modelo B Error típ. Beta t Sig. Límite i nferior Límite superior
1 (Constante) 71.156 6.151 11.568 .000 57.867 84.445
X3 Tamaño del lot e 3.769 2.705 .360 1.393 .187 -2.075 9.613
a. Variable dependiente: Y Val uación

Sin X1, X3
Resumen del modelob ANOVAb

Suma de Media
R Error típ. cuadrados gl cuadrática F Sig.
R cuadrado de la 1 Regresión 212.277 1 212.277 24.5 .000 a
R cuadrado corregida estimación Resi dual 112.859 13 8.681
1 .808 a .653 .626 2.94643 Total 325.136 14
a. Variables predictoras: (Constante), X2 Edad a. Variables predi ctoras: (Constante), X2 Edad
b. Variable dependiente: Y Val uación b. Variable dependiente: Y Valuación

Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza para B al


estandari zados estandari zados 95%
Modelo B Error típ. Beta t Sig. Límite i nferior Límite superior
1 (Constante) 82.908 1.018 81.408 .000 80.708 85.108
X2 Edad -.462 .093 -.808 -4.945 .000 -.664 -.260
a. Variable dependiente: Y Val uación

Sin X2, X3

Resumen del modelob ANOVAb

R cuadrado Error típ. de Suma de Media


R R cuadrado corregi da la estimaci ón cuadrados gl cuadrática F Sig.
1 .679 a .461 .419 3.67274 1 Regresión 149.779 1 149.779 11.10 .005 a
a. Variables predi ctoras: (Const ante), X1 Area con calefacción Resi dual 175.357 13 13.489
b. Variable dependiente: Y Valuación Total 325.136 14
a. Variables predi ctoras: (Const ante), X1 Area con calefacción
b. Variable dependiente: Y Valuación

251
Coef ici entesa

Coeficientes no Coeficientes Interval o de confianza para B al


estandari zados estandari zados 95%
Modelo B Error típ. Beta t Sig. Límite i nferior Límite superior
1 (Constante) 49.974 8.929 5.597 .000 30.683 69.264
X1 Area con calefacción 17.625 5.289 .679 3.332 .005 6.198 29.051
a. Variable dependiente: Y Val uación

103. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.

Veces que salió el anuncio 41 38 29 32 25 21 21 16


Familias espectadoras 275 241 219 198 193 189 161 160

a. Establezca y verifique los supuestos del análisis


b. A un nivel de significación del 5%, determine e interprete el modelo de regresión lineal para este
conjunto de datos.
c. ¿Será correcto afirmar que si un anuncio sale una vez más al aire en una semana, la cantidad de
familias espectadoras se incrementará en más de cuatro millones?
d. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire
30 veces en una semana.
e. A un nivel de significación del 5%, ¿considera usted que la correlación entre las variables en estudio
es inferior a 0,95?

104. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:

Gastos de publicidad 1 2 4 6 10 14 20 23 27 32
Ingresos 19,2 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8

a. A un nivel de significación del 10%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.

105. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:

Gastos de publicidad 2 4 6 10 14 20 23 27 32
Ingresos 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8

a. A un nivel de significación del 10%, determine e interprete el modelo de regresión lineal para este
conjunto de datos.
b. ¿Será correcto afirmar que si el gasto en publicidad se incrementa en mil dólares, el ingreso se
incrementará en menos de $900?
c. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.
d. A un nivel de significación del 10%, ¿considera usted que la correlación entre las variables en
estudio es superior a 0,90?

252
106. La siguiente tabla muestra el peso, potencia, velocidad al cuarto de kilómetro y tiempo para acelerar
de 0 a 100 km por hora de 16 autos deportivos.
a. Analice la presencia de multicolinealidad.
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime la velocidad desarrollada por el auto al cuarto de kilómetro si los valores correspondientes a
las variables independientes se corresponden con los valores del auto número 7.

Velocidad al cuarto de kilómetro Precio Peso Potencia


N° Segundos de 0 a 100 km/h
(km/h) (miles de $) (kg) (HP)
1 136,1 25,066 1316,52 155 9,4
2 144,3 26,382 1399,32 195 8,0
3 145,9 25,035 1185,42 195 7,3
4 147,5 23,200 1484,42 225 7,0
5 148,5 42,762 1391,50 185 6,8
6 149,6 44,988 1490,40 215 7,5
7 150,0 40,900 1308,24 189 6,8
8 150,0 45,560 1298,12 201 6,3
9 156,1 41,120 1511,10 236 6,5
10 159,3 47,518 1719,02 320 5,9
11 164,3 50,144 1493,16 345 5,4
12 166,0 24,865 1581,94 305 5,6
13 166,0 27,770 1589,30 305 5,6
14 168,9 40,989 1612,30 320 5,5
15 173,8 93,758 1410,36 290 5,2
16 187,0 69,742 1526,74 450 4,6

107. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.

Veces que salió el anuncio 80 68 50 35 32 55 25 14 21 10


Familias espectadoras 680 365 260 220 200 270 165 125 150 108

a. A un nivel de significación del 5%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire
30 veces en una semana.

108. Una empresa farmacéutica prepara medicamentos especiales a pedido. A la propietaria le preocupa
los gastos relacionados con cada entrega. Para investigar al respecto, reunió información en una muestra
aleatoria de 10 entregas recientes. Los factores a considerar como relacionados con los gastos de entrega
son:
Preparación Tiempo en minutos transcurrido entre el momento en el que se hace el pedido y aquel en
el que está listo para la entrega.
Entrega Tiempo en minutos de transporte de la planta al cliente.
Distancia Distancia recorrida en kilómetros desde la planta hasta el cliente.

253
Analice la multicolinealidad, determine e interprete la ecuación de regresión que permita estimar los
gastos con un nivel de significación del 5%.

Gasto Preparació
N° Entrega Distancia
(en dólares) n
1 21,16 3 19 8
2 20,36 9 19 7
3 17,96 12 12 4
4 21,16 5 13 8
5 22,63 8 30 11
6 22,63 8 31 11
7 15,99 8 13 4
8 18,76 5 14 7
9 19,68 7 18 8
10 18,76 12 12 5

Regression: Y, X1, X2, X3


Correlati ons

Tiempo de Tiempo de Dist ancia


Gasto en preparación transporte hasta el
dólares en minutos en minutos client e en km
Pearson Correlation Gasto en dólares 1.000 -.331 .789 .928
Tiempo de preparación
-.331 1.000 -.133 -.430
en minutos
Tiempo de transporte
.789 -.133 1.000 .883
en minutos
Dist ancia hasta el
.928 -.430 .883 1.000
client e en km
Sig. (1-tailed) Gasto en dólares . .175 .003 .000
Tiempo de preparación
.175 . .357 .107
en minutos
Tiempo de transporte
.003 .357 . .000
en minutos
Dist ancia hasta el
.000 .107 .000 .
client e en km
N Gasto en dólares 10 10 10 10
Tiempo de preparación
10 10 10 10
en minutos
Tiempo de transporte
10 10 10 10
en minutos
Dist ancia hasta el
10 10 10 10
client e en km

ANOVAb

Sum of
Model Summaryb
Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 35.327 3 11.776 15.148 .003a
Model R R Square R Square the Est imat e atson Residual 4.664 6 .777
1 .940a .883 .825 .8817 .511 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km, Tiempo de a. Predictors: (Constant), Distancia hasta el client e en km, Tiempo de preparación en
preparación en minutos, Tiempo de transporte en minutos minutos, Tiempo de transporte en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

254
Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 12.635 1.816 6.957 .000
Tiempo de preparación
.135 .138 .186 .982 .364
en minutos
Tiempo de transporte
-.101 .108 -.341 -.936 .385
en minutos
Dist ancia hasta el
1.105 .338 1.309 3.271 .017
client e en km
a. Dependent Variable: Gasto en dólares

Regression: Y, X1, X2
ANOVAb

Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 27.010 2 13.505 7.282 .019a
Adjusted Std. Error of Durbin-W Residual 12.981 7 1.854
Model R R Square R Square the Est imat e atson
Total 39.991 9
1 .822a .675 .583 1.3618 1.502
a. Predictors: (Constant), Tiempo de transporte en minutos, Tiempo a. Predictors: (Constant), Tiempo de transporte en minutos, Tiempo de preparación
de preparación en minutos en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 17.113 1.844 9.282 .000
Tiempo de preparación
-.167 .158 -.230 -1.060 .324
en minutos
Tiempo de transporte
.225 .065 .759 3.493 .010
en minutos
a. Dependent Variable: Gasto en dólares

Regression: Y, X1, X3

ANOVAb

Model Summaryb Sum of


Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 34.646 2 17.323 22.685 .001a
Model R R Square R Square the Est imat e atson Residual 5.345 7 .764
1 .931a .866 .828 .8739 .794 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km, Tiempo de a. Predictors: (Constant), Distancia hasta el client e en km, Tiempo de preparación en
preparación en minutos minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 13.507 1.546 8.737 .000
Tiempo de preparación
6.026E-02 .111 .083 .543 .604
en minutos
Dist ancia hasta el
.813 .129 .963 6.295 .000
client e en km
a. Dependent Variable: Gasto en dólares

Regression: Y, X2, X3

255
ANOVAb

Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 34.577 2 17.289 22.353 .001a
Adjusted Std. Error of Durbin-W
Model R R Square R Square the Est imat e atson
Residual 5.414 7 .773
1 .930a .865 .826 .8794 .741 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km, Tiempo de a. Predictors: (Constant), Distancia hasta el client e en km, Tiempo de transporte en
transporte en minutos minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 14.183 .901 15.736 .000
Tiempo de transporte
-3.96E-02 .088 -.133 -.450 .666
en minutos
Dist ancia hasta el
.883 .250 1.045 3.532 .010
client e en km
a. Dependent Variable: Gast o en dólares

Regression: Y, X1
ANOVAb

Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 4.388 1 4.388 .986 .350a
Adjusted Std. Error of Durbin-W
Model R R Square R Square the Est imat e atson Residual 35.603 8 4.450
1 .331a .110 -.002 2.1096 1.704 Total 39.991 9
a. Predictors: (Constant), Tiempo de preparación en minut os a. Predictors: (Constant), Tiempo de preparación en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 21.758 1.978 11.000 .000
Tiempo de preparación
-.240 .242 -.331 -.993 .350
en minutos
a. Dependent Variable: Gasto en dólares

Regression: Y, X2
ANOVAb

Model Summaryb Sum of


Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 24.927 1 24.927 13.237 .007a
Model R R Square R Square the Est imat e atson Residual 15.064 8 1.883
1 .789a .623 .576 1.3722 1.919 Total 39.991 9
a. Predictors: (Constant), Tiempo de transporte en minutos a. Predictors: (Constant), Tiempo de transporte en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 15.663 1.245 12.579 .000
Tiempo de transporte
.235 .064 .789 3.638 .007
en minutos
a. Dependent Variable: Gast o en dólares

Regression: Y, X3

256
ANOVAb

Sum of
Model Summaryb
Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 34.420 1 34.420 49.431 .000a
Model R R Square R Square the Est imat e atson Residual 5.571 8 .696
1 .928a .861 .843 .8345 .783 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km a. Predictors: (Constant), Distancia hasta el client e en km
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares

Coefficientsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 14.191 .855 16.597 .000
Dist ancia hasta
.783 .111 .928 7.031 .000
el cliente en km
a. Dependent Variable: Gasto en dólares

109. La gerencia de un empresa de servicios de iluminaciones eléctricas, estudia las relaciones entre los
consumos de energía (en miles de kilowatts-hora, kWh) y el número de habitaciones en una residencia
privada unifamiliar. Una muestra aleatoria de 10 residencias proporcionó los siguientes datos.

N° de habitaciones 12 9 14 6 10 8 10 10 5 7
Consumo (miles de kWh) 9 7 10 5 8 6 8 10 4 7

a. Determine, valide é interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Estime con nivel de confianza del 95% el consumo de una residencia que tiene 11 habitaciones.

ANOVAb
Model Summaryb
Sum of
Adjusted Std. Error of Model Squares df Mean Square F Sig.
Model R R Square R Square the Est imat e 1 Regression 29.733 1 29.733 35.680 .000a
1 .904a .817 .794 .91 Residual 6.667 8 .833
a. Predictors: (Constant), Número de habitaciones Total 36.400 9
b. Dependent Variable: consumo de energía (miles de a. Predictors: (Constant), Número de habit aciones
kWh) b. Dependent Variable: consumo de energí a (miles de kWh)

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 1.333 1.056 1.263 .242
Número de habitaciones .667 .112 .904 5.973 .000
a. Dependent Variable: consumo de energía (miles de kWh)

110. Se desea analizar la capacidad de ahorro de una familia. Para ello se recopila información de siete
observaciones correspondiente al Ingreso mensual y al Ahorro mensual, ambos en miles de soles.
Ingreso 1,1 1,2 3,2 4,8 4,5 3,8 5,2
Ahorro 0,5 0,5 0,9 1,2 1,0 1,0 1,3

a. A un nivel de significación del 5%, determine el modelo de regresión.


b. Será correcto afirmar, con un nivel de confianza del 5%, que la correlación entre el Ingreso y el
ahorro mensual es superior a 0,95?

257
Universidad Peruana de Ciencias Aplicadas

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ahorro mensual, en miles de soles


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .969 156.739 1 5 .000 .287 .185
Cuadrático .970 64.910 2 4 .001 .325 .149 .006
Potencia .979 232.843 1 5 .000 .458 .589
Exponencial .974 187.281 1 5 .000 .393 .231
La v ariable independiente esIngreso mensual, en miles de soles.

Lineal
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .570 1 .570 156.739 .000
.984 .969 .963 .060 Residual .018 5 .004
La v ariable independiente esIngreso mensual, en miles Total .589 6
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual,
.185 .015 .984 12.520 .000
en miles de soles
(Constante) .287 .055 5.206 .003

Cuadrático
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .571 2 .285 64.910 .001
.985 .970 .955 .066 Residual .018 4 .004
Total .589 6
La v ariable independiente esIngreso mensual, en miles
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual, en
.149 .097 .795 1.530 .201
miles de soles
Ingreso mensual, en
.006 .016 .192 .370 .730
miles de soles ** 2
(Constante) .325 .121 2.695 .054

Potencia
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .898 1 .898 232.843 .000
.989 .979 .975 .062 Residual .019 5 .004
La v ariable independiente esIngreso mensual, en miles Total .917 6
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.

Estadística Aplicada 2 258


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Ingreso mensual,
.589 .039 .989 15.259 .000
en miles de soles)
(Constante) .458 .022 21.034 .000
La v ariable dependient e es ln(Ahorro mensual, en miles de soles).

Exponencial
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .894 1 .894 187.281 .000
.987 .974 .969 .069 Residual .024 5 .005
Total .917 6
La v ariable independiente esIngreso mensual, en miles
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual,
.231 .017 .987 13.685 .000
en miles de soles
(Constante) .393 .025 15.858 .000
La v ariable dependiente es ln(Ahorro mensual, en miles de soles).

111. La distribuidora de alimentos ALICORP realizó un estudio para relacionar la utilidad neta por la
venta de comestibles con el costo de transporte para un período de 10 años cuando el costo de venta
aumentaba rápidamente. Se obtuvieron los siguientes datos (en miles de dólares), ajustados por la
inflación:
Costo de transporte 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad Neta 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere  = 0,05.
b. Estime la utilidad neta, a un nivel de confianza del 95%, si el costo de transporte es de 12 500
dólares.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: utilidad neta


Resumen del m odelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .970 254.677 1 8 .000 -42.544 10.461
Cuadrático .989 326.918 2 7 .000 13.565 -4.383 .918
Potencia .992 939.786 1 8 .000 .410 2.177
Exponencial .977 332.617 1 8 .000 3.776 .279
La v ariable independiente escosto de transport e.

Lineal
ANOVA
Resumen d el mod elo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión 4667.077 1 4667.077 254.677 .000
.985 .970 .966 4.281
Residual 146.604 8 18.325
La v ariable independiente escosto de transport e.
Total 4813.681 9
La v ariable independiente escosto de transporte.

Estadística Aplicada 2 259


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transporte 10.461 .656 .985 15.959 .000
(Constante) -42.544 5.448 -7.809 .000

Cuadrático ANOVA
ANOVA
Resumen d el mod elo Suma de Media
Resumen d el mod elo cuadrados
Suma de gl cuadrática
Media F Sig.
R cuadrado Error típico de Regresión 4762.691
cuadrados gl 2 2381.346
cuadrática 326.918
F .000
Sig.
R R cuadrado corregida
R cuadrado la estimación
Error típico de Regresión
Residual 4762.691
50.990 72 2381.346
7.284 326.918 .000
.995
R .989
R cuadrado .986
corregida 2.699
la estimación
Residual
Total 50.990
4813.681 97 7.284
.995 independiente
La v ariable .989 escosto de.986
transport e. 2.699
LaTotal 4813.681escosto de transporte.
v ariable independiente 9
La v ariable independiente escosto de transport e.
La v ariable independiente escosto de transporte.
Coeficien tes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transport e -4.383 4.118 -.413 -1.064 .322
costo de transport e ** 2 .918 .253 1.404 3.623 .008
(Constante) 13.565 15.863 .855 .421

Potencia
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de Coeficien tes cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión 3.366 1 3.366 939.786 .000
.996 .992 .991 .060 Residual
Coef icientes
.029 8 .004
La v ariable independiente escosto de transport e. Coef icientes no Total estandarizad
3.395 9
estandarizados os
La v ariable independiente escosto de transporte.
B Error típico Beta t Sig.
ln(costo de transport e) 2.177 .071 .996 30.656 .000
(Constante) .410 .060 6.808 .000
La v ariable dependient e es ln(utilidad neta).

Exponencial
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 3.315 1 3.315 332.617 .000
R R cuadrado corregida la estimación Residual .080 8 .010
.988 .977 .974 .100 Total 3.395 9
La v ariable independiente escosto de transport e. La v ariable independiente escosto de transporte.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transporte .279 .015 .988 18.238 .000
(Constante) 3.776 .480 7.871 .000
La v ariable dependiente es ln(ut ilidad neta).

112. La empresa Enigma vende sus productos en diversos territorios, y a cada uno de ellos se asigna sólo
un representante de ventas. Esta empresa encomendó al Dpto. de Mercadotecnia la realización de un
estudio para determinar si diversas variables predictoras (independientes) pueden explicar las ventas en
cada territorio.
Las variables predictoras consideradas fueron:
X1 : Tiempo de antigüedad en el empleo, en meses.
X2 : Gastos en publicidad (decenas de miles de dólares)
X3 : Indicador de cambio en el mercado, durante los últimos cuatro años.

Estadística Aplicada 2 260


Universidad Peruana de Ciencias Aplicadas

Los datos considerados por el Dpto. de Mercadotecnia se muestran en la tabla.

a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el


modelo de regresión. Interprete los coeficientes de regresión.
b. Interprete los coeficientes del modelo propuesto y estime puntualmente las ventas esperadas para un
empleado que tiene una antigüedad promedio de 60 meses en el empleo, un gasto promedio en
publicidad de 50 000 dólares y un indicador de cambio en el mercado de 0,15.

Regresión YX1X2X3

Cor relacio nes

Y X1 X2 X3
Correlación de Pearson Y 1.000 .927 .898 .527
X1 .927 1.000 .800 .511
X2 .898 .800 1.000 .598
X3 .527 .511 .598 1.000
Sig. (unilateral) Y . .000 .000 .022
X1 .000 . .000 .026
X2 .000 .000 . .009
X3 .022 .026 .009 .
N Y 15 15 15 15
X1 15 15 15 15
X2 15 15 15 15
X3 15 15 15 15

Resumen del modelo ANOVAb

R cuadrado Error típ. de la Suma de Media


Modelo R R cuadrado corregida estimación Modelo cuadrados gl cuadrática F Sig.
1 .963a .928 .908 .4986 1 Regresión 35.270 3 11.757 47.295 .000a
a. Variables predictoras: (Constante), X3, X1, X2 Residual 2.734 11 .249
Total 38.004 14
a. Variables predictoras: (Constante), X3, X1, X2
b. Variable dependiente: Y

Coeficien tesa

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -.192 .698 -.275 .788
X1 1.281E-02 .003 .583 4.309 .001
X2 8.391E-02 .027 .459 3.165 .009
X3 -1.028 2.284 -.046 -.450 .661
a. Variable dependiente: Y

Regresión Y X2X1
ANOVAb

Resumen del modelo Suma de Media


Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 35.219 2 17.610 75.883 .000a
Modelo R R cuadrado corregida estimación Residual 2.785 12 .232
1 .963a .927 .915 .4817 Total 38.004 14
a. Variables predictoras: (Constante), X2, X1
a. Variables predictoras: (Constante), X2, X1
b. Variable dependiente: Y

Estadística Aplicada 2 261


Universidad Peruana de Ciencias Aplicadas

Coeficien tesa

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -.146 .667 -.219 .830
X1 1.272E-02 .003 .578 4.438 .001
X2 7.952E-02 .024 .435 3.338 .006
a. Variable dependiente: Y

Regresión YX3X1
ANOVAb
Resumen del modelo Suma de Media
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 Regresión 32.780 2 16.390 37.648 .000a
1 .929a .863 .840 .6598 Residual 5.224 12 .435
a. Variables predictoras: (Constante), X3, X1 Total 38.004 14
a. Variables predict oras: (Constante), X3, X1
b. Variable dependiente: Y

Coeficientesa

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.861 .340 5.473 .000
X1 1.957E-02 .003 .890 7.146 .000
X3 1.628 2.811 .072 .579 .573
a. Variable dependiente: Y

Regresión YX3X2

ANOVAb
Resumen del modelo
Suma de Media
R cuadrado Error típ. de la Modelo cuadrados gl cuadrática F Sig.
Modelo R R cuadrado corregida estimación 1 Regresión 30.654 2 15.327 25.026 .000a
1 .898a .807 .774 .7826 Residual 7.350 12 .612
a. Variables predictoras: (Constante), X3, X2 Total 38.004 14
a. Variables predictoras: (Constante), X3, X2
b. Variable dependiente: Y
Coeficien tesa

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -1.996 .876 -2.279 .042
X2 .166 .029 .908 5.730 .000
X3 -.370 3.577 -.016 -.103 .919
a. Variable dependiente: Y

Regresión YX1
ANOVAb

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 32.634 1 32.634 79.000 .000a
R cuadrado Error típ. de la Coeficientesa
Modelo R R cuadrado corregida estimación Residual 5.370 13 .413
Coef icient
Total 38.004 14
1 .927a .859 .848 .6427
es
a. Variables predict
a. Variables predictoras: (Constante), X1 oras: (Constante), X1
Coef icientes no estandari
b. Variable dependiente: Y
Estadística Aplicada 2
estandarizados zados 262
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.974 .271 7.279 .000
X1 2.038E-02 .002 .927 8.888 .000
a. Variable dependiente: Y
Universidad Peruana de Ciencias Aplicadas

Regresión YX2
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 30.648 1 30.648 54.162 .000a
Residual 7.356 13 .566
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Total 38.004 14
1 .898a .806 .792 .7522 a. Variables predict oras: (Constante), X2
a. Variables predictoras: (Constante), X2 b. Variable dependiente: Y

Coeficien tesa

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -1.975 .819 -2.412 .031
X2 .164 .022 .898 7.360 .000
a. Variable dependiente: Y

Regresión YX3

Resumen del modelo ANOVAb

R cuadrado Error típ. de la Suma de Media


Modelo R R cuadrado corregida estimación Modelo cuadrados gl cuadrática F Sig.
1 .527a .278 .222 1.4533 1 Regresión 10.547 1 10.547 4.994 .044a
a. Variables predictoras: (Constante), X3 Residual 27.457 13 2.112
Total 38.004 14
a. Variables predictoras: (Constante), X3
b. Variable a
dependiente:
Coeficientes Y

Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 2.500 .722 3.461 .004
X3 11.894 5.322 .527 2.235 .044
a. Variable dependiente: Y

113. El gerente de ventas de una compañía se está preparando para una reunión de ventas, y le gustaría
mostrar al grupo de vendedores la forma como se relaciona el número de visitas a clientes con el valor
anual de pedidos que se reciben. De sus registros se recolectó la siguiente información muestral para el
último año. Los datos muestrales fueron los siguientes:
5 4 6 7 8 1 3 4 1 3
Número de visitas
Valor de pedidos (miles de dólares) 8,7 7,1 13,7 15,1 16,7 2,2 4,6 7,5 2,3 6,1
a. Encuentre, valide e interprete el modelo de regresión lineal, sustentando cómo determina la variable
dependiente y la variable independiente. Use un nivel de significación del 5%.
b. ¿Se puede afirmar que por cada visita adicional que se realice, los pedidos se incrementa en más de 2
150 dólares? Use un nivel de significación del 5%.
c. Se puede afirmar que la correlación en la población no es superior a 0,98. Use un nivel de
significación del 5%.
d. Estime a un nivel de confianza del 95% el valor de pedidos, si se realizan un total de 9 visitas.

Estadística Aplicada 2 263


Universidad Peruana de Ciencias Aplicadas

Regression Lineal
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 231.690 1 231.690 227.435 .000a
Residual 8.150 8 1.019
Adjusted Std. Error of
Model R R Square R Square the Est imat e Total 239.840 9
1 .983a .966 .962 1.009 a. Predictors: (Constant), N° de v isitas
a. Predictors: (Constant), N° de v isitas b. Dependent Variable: Valor del pedido (miles de $)

Coeffi ci entsa

St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) -.677 .681 -.994 .349
N° de v isit as 2.161 .143 .983 15.081 .000
a. Dependent Variable: Valor del pedido (miles de $)

114. Un profesor de Estadística de la UPC quiere estimar la nota final de sus actuales alumnos del curso
de Estadística Experimental teniendo como base la nota final que obtuvieron en el curso de Estadística
Aplicada a los Negocios. Para tal fin toma como base una muestra al azar de 10 alumnos que llevaron los
cursos en semestres anteriores (si el alumno llevó un curso más de una vez, se toma la nota que obtuvo
en la primera oportunidad). Las notas de los alumnos seleccionados se muestran a continuación:

Alumno 1 2 3 4 5 6 7 8 9 10
E. Aplicada 10,5 04,5 14,5 13,5 19,0 16,5 18,0 11,5 17,5 10,5
E. Experimental 13,0 05,0 13,5 16,0 17,0 15,5 16,5 12,5 18,0 13,5

a. Dibuje el diagrama de dispersión y describa la tendencia.


b. Encuentre e interprete la ecuación de regresión sustentando cómo determina la variable dependiente
y la variable independiente.
c. Usando el estadístico t realice la prueba de hipótesis para el coeficiente de regresión poblacional.
Tome = 5%.
d. Estime el intervalo de confianza para el promedio de las notas finales en Estadística Experimental de
un grupo de alumnos que obtuvieron en Estadística Aplicada una nota final de 13,0. Tome un nivel
de confianza de 90 %. Interprete el resultado obtenido.
e. Estime el intervalo de confianza para la nota final en Estadística Experimental de un alumno si
obtuvo en Estadística Aplicada una nota final de 13,0. Tome como nivel de confianza de 90 %.
Interprete el resultado obtenido.
f. Si el alumno de la pregunta e) está llevando por segunda vez el curso, ¿sería válido el la estimación
obtenida para su nota final de Estadística Experimental? Sustente.

115. Un supervisor analizó una muestra de empleados correspondiente al número de horas extras
trabajadas y la antigüedad en años del trabajador. Los datos recogidos se muestran a continuación:

Horas extras 4 2 8 5 7 3 9 3 1 4 4 6
Antigüedad 4,5 2,0 7,0 5,0 7,0 3,0 8,0 4,0 1,0 4,5 4,5 6,0

a. Determine, valide e interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Con un nivel de confianza del 95% estime el número de horas extras trabajadas por un empleado
que tiene en la empresa una antigüedad de 6 años.
c. ¿Se puede afirmar a un nivel de significación del 5%, que por cada año adicional en la empresa, el
empleado realizará más de una hora extra de trabajo?
d. ¿Se puede afirmar que la correlación en la población es menor a 0,98? Use un nivel de significación
del 10%.

Estadística Aplicada 2 264


Universidad Peruana de Ciencias Aplicadas

116. Una compañía de seguros de vida analiza la relación entre el número de suscripciones que logra un
vendedor y el tiempo, en semanas, que tiene en capacitación. Los datos se muestran a continuación:

Tiempo en semanas 1 3 5 7 9 11 13 15
N° de suscripciones 1 2 5 6 20 60 120 350

a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta. Considere
un nivel de significación del 5%.
b. Se puede afirmar que el tiempo de capacitación y número de suscripciones se correlacionan en
menos de 0,98. Para la prueba considere  = 0,01.
c. Estime el número de suscripciones, a un nivel de confianza del 90%, para un vendedor con 10
semanas de capacitación.

117. Un equipo de analistas, realiza una investigación de las utilidades anuales, en millones de dólares de
diversas compañías. Para ello recoge datos de una revista especializada, que clasifica por sus utilidades a
las compañías más grandes. Su muestra aleatoria de empresas cubre las siguientes variables de
predicción potenciales: Inventario inicial, Activos, Inversión de accionistas y las Ventas al año, todas
estas variables en millones de dólares.

Compañía Utilidades Inventario Inicial Activos Inversión Accionistas Ventas


1 45,0 30 37,1 40 75,0
2 28,0 25 35,4 28 60,5
3 15,0 29 36,0 24 58,2
4 25,9 13 42,0 22 54,1
5 30,2 29 35,0 33 69,4
6 45,4 11 39,4 27 57,3
7 10,2 30 33,0 24 55,1
8 30,5 26 35,0 31 68,7
9 56,9 22 37,2 40 73,0
10 34,1 16 41,5 26 58,0

a. Analice la presencia de multicolinealidad.


b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime la utilidad de una compañía, con los datos correspondientes a la segunda compañía
seleccionada.
d. A un nivel de significación del 5%, ¿se puede afirmar que el modelo explica a las variaciones de
la utilidad en menos de un 98%?
118. La empresa Sally’s Software, Inc. es un proveedor de programas de computación para América Latina.

Nota: Los años se han codificado desde:


1998 1999 2000 2001 2002 1998 = 1 hasta 2002 = 5
Año
Ventas 0,92 1,42 1,65 3,96 4,2
Su presencia en el mercado crece rápidamente y sus ventas en millones de dólares para los últimos cinco
años se indican a continuación:
a. Basado en los datos presentados determine y valide el modelo de regresión. Justifique su respuesta.
Considere  = 0,05.

Estadística Aplicada 2 265


Universidad Peruana de Ciencias Aplicadas

b. Se puede afirmar que las ventas y el tiempo que tiene la empresa en el mercado se correlacionan en
más de 0,95. Para la prueba considere  = 0,05.
c. Estime con una confianza del 95% las ventas promedio de la empresa para el año 2003.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ventas en millones de dólares


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .883 22.556 1 3 .018 -.300 .910
Cuadrático .901 9.115 2 2 .099 .480 .241 .111
Potencia .876 21.203 1 3 .019 .800 .980
Exponencial .931 40.782 1 3 .008 .605 .406
La v ariable independiente esAño.

Lineal
ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 8.281 1 8.281 22.556 .018
R R cuadrado corregida la estimación Residual 1.101 3 .367
.939 .883 .843 .606 Total 9.382 4
La v ariable independiente esAño. La v ariable independiente esAño.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .910 .192 .939 4.749 .018
(Constante) -.300 .635 -.472 .669

Cuadrático
ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 8.455 2 4.227 9.115 .099
R R cuadrado corregida la estimación Residual .928 2 .464
.949 .901 .802 .681 Total 9.382 4
La v ariable independiente esAño. La v ariable independiente esAño.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .241 1.113 .249 .217 .848
Año ** 2 .111 .182 .704 .612 .603
(Constante) .480 1.461 .329 .774

Potencia
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 1.552 1 1.552 21.203 .019
R R cuadrado corregida la estimación Residual .220 3 .073
.936 .876 .835 .271 Total 1.772 4
La v ariable independiente esAño. La v ariable independiente esAño.

Estadística Aplicada 2 266


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Año) .980 .213 .936 4.605 .019
(Constante) .800 .190 4.219 .024
La v ariable dependiente es ln(Vent as en millones de dólares).

Exponencial
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 1.650 1 1.650 40.782 .008
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .121 3 .040
.965 .931 .909 .201 Total 1.772 4
La v ariable independiente esAño. La v ariable independiente esAño.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .406 .064 .965 6.386 .008
(Constante) .605 .128 4.740 .018
La v ariable dependiente es ln(Vent as en millones de dólares).

119. Una compañía de seguros de salud, reúne datos acerca de riesgos de ataque cardiaco. Un estudio de
10 años de duración arrojó datos acerca de cómo se relaciona la edad (X 1), la presión sanguínea (X2) y el
hábito de fumar (X3), con el riesgo de ataque. En la tabla adjunta vemos los datos de una parte de este
estudio. El riesgo equivale a la probabilidad (por 100) de que una persona tenga un ataque dentro de los
siguientes 10 años. Para la variable fumador, 1 indica que se trata de un fumador y 0 que se trata de un
no fumador.
a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el
modelo de regresión. Interprete los coeficientes de regresión.
b. Estime el riesgo de sufrir un ataque cardiaco en los próximos diez años, de un cliente cuya edad es
de 56 años, tiene una presión sanguínea de 100 y tiene el hábito de fumar.

Regresión: Y; X1; X2; X3


Correlati ons

Riesgo
de ataque Presión
cardiaco Edad en años sanguínea Fumador
Pearson Correlation Riesgo de at aque
1.000 .957 .986 .668
cardiaco
Edad en años .957 1.000 .963 .635
Presión sanguínea .986 .963 1.000 .649
Fumador .668 .635 .649 1.000
Sig. (1-tailed) Riesgo de at aque
. .000 .000 .001
cardiaco
Edad en años .000 . .000 .001
Presión sanguínea .000 .000 . .001
Fumador .001 .001 .001 .
N Riesgo de at aque
20 20 20 20
cardiaco
Edad en años 20 20 20 20
Presión sanguínea 20 20 20 20
Fumador 20 20 20 20

Estadística Aplicada 2 267


Universidad Peruana de Ciencias Aplicadas

ANOVAb

Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 3421.470 3 1140.490 199.474 .000a
Adjusted Std. Error of
Residual 91.480 16 5.717
Model R R Square R Square the Est imat e
1 .987a .974 .969 2.39 Total 3512.950 19
a. Predictors: (Constant), Fumador, Edad en años, a. Predictors: (Constant), Fumador, Edad en años, Presión sanguínea
Presión sanguínea b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -121.034 11.671 -10.370 .000
Edad en años .153 .211 .108 .727 .478
Presión sanguínea .892 .159 .851 5.618 .000
Fumador 1.248 1.407 .047 .887 .388
a. Dependent Variable: Riesgo de ataque cardiaco

Regresión: Y; X1; X2
ANOVAb

Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 3416.970 2 1708.485 302.606 .000a
Adjusted Std. Error of Residual 95.980 17 5.646
Model R R Square R Square the Est imat e
Total 3512.950 19
1 .986a .973 .969 2.38
a. Predictors: (Constant), Presión sanguínea, Edad en a. Predictors: (Constant), Presión sanguínea, Edad en años
años b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -124.966 10.729 -11.647 .000
Edad en años .163 .209 .115 .778 .447
Presión sanguínea .917 .155 .875 5.910 .000
a. Dependent Variable: Riesgo de ataque cardiaco

Regresión: Y; X1; X3
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3240.985 2 1620.493 101.294 .000a
Adjusted Std. Error of Residual 271.965 17 15.998
Model R R Square R Square the Est imat e Total 3512.950 19
1 .961a .923 .913 4.00 a. Predictors: (Constant), Fumador, Edad en años
a. Predictors: (Constant), Fumador, Edad en años b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -61.133 7.944 -7.696 .000
Edad en años 1.264 .123 .894 10.231 .000
Fumador 2.664 2.315 .101 1.151 .266
a. Dependent Variable: Riesgo de ataque cardiaco

Regresión: Y; X2; X3

Estadística Aplicada 2 268


Universidad Peruana de Ciencias Aplicadas

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3418.450 2 1709.225 307.480 .000a
Residual 94.500 17 5.559
Adjusted Std. Error of
Model R R Square R Square the Est imat e Total 3512.950 19
1 .986a .973 .970 2.36 a. Predictors: (Constant), Fumador, Presión sanguínea
a. Predictors: (Constant), Fumador, Presión sanguí nea b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -127.100 8.044 -15.800 .000
Presión sanguínea 1.000 .055 .954 18.253 .000
Fumador 1.300 1.385 .049 .938 .361
a. Dependent Variable: Riesgo de ataque cardiaco

Regresión: Y; X1
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3219.798 1 3219.798 197.701 .000a
Adjusted Std. Error of Residual 293.152 18 16.286
Model R R Square R Square the Est imat e Total 3512.950 19
1 .957a .917 .912 4.04 a. Predictors: (Constant), Edad en años
a. Predictors: (Constant), Edad en años b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -66.067 6.747 -9.792 .000
Edad en años 1.354 .096 .957 14.061 .000
a. Dependent Variable: Riesgo de ataque cardiaco

Regresión: Y; X2
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
Model Summary
1 Regression 3413.555 1 3413.555 618.178 .000a
Adjusted Std. Error of Residual 99.395 18 5.522
Model R R Square R Square the Est imat e Total 3512.950 19
1 .986a .972 .970 2.35 a. Predictors: (Constant), Presión sanguínea
a. Predictors: (Constant), Presión sanguínea b. Dependent Variable: Riesgo de ataque cardiaco

Coeffici entsa

Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -131.599 6.439 -20.439 .000
Presión sanguínea 1.033 .042 .986 24.863 .000
a. Dependent Variable: Riesgo de ataque cardiaco

Estadística Aplicada 2 269


Universidad Peruana de Ciencias Aplicadas

120. Laboratorios Enigma Unidos S.A. desea encontrar un modelo de regresión para estimar la efectividad
del analgésico Dolorex. Los siguientes datos corresponden al porcentaje de efectividad de un analgésico
y la cantidad en miligramos de tres diferentes medicamentos que están presentes en cada cápsula del
analgésico.

Mezcla Medicamento A Medicamento B Medicamento C Efectividad de analgésico


1 15 20 10 47
2 15 20 20 54
3 15 30 10 58
4 15 30 20 66
5 30 20 10 59
6 30 20 20 67
7 30 30 10 71
8 30 30 20 83
9 45 20 10 72
10 45 20 20 82
11 45 30 10 85
12 45 30 20 94

a. Determine la variable dependiente.


b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.
e. Estime la efectividad del analgésico si contiene 15 miligramos del medicamento A, 20 miligramos
del medicamento B y 10 miligramos del medicamento C.

121. La empresa metalúrgica Aceros Enigma S.A quiere precisar la importancia de determinados factores
que participan en los procesos de fabricación y determinan la dureza del acero templado. En uno de sus
estudios se reunieron los datos para determinar la relación de tres variables del proceso (contenido de
cobre, temperatura de templado y presión del horno) y la dureza del acero.

Dureza del acero Temperatura de Presión del


Prueba Contenido de cobre
templado templado horno
1 78,9 0,02 1000 1,5
2 55,2 0,02 1200 2,0
3 80,9 0,10 1000 2,5
4 57,4 0,10 1200 1,5
5 85,3 0,18 1000 2,0
6 60,7 0,18 1200 2,5
7 66,6 0,14 1000 1,5
8 74,5 0,14 1200 2,0
9 81,8 0,20 1000 2,5
10 77,1 0,20 1200 1,5

a. Determine la variable dependiente.


b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. Determine el mejor modelo de regresión. Interprete los coeficientes de regresión.
e. Estime la dureza del acero templado si el contenido de cobre es 0,02, la temperatura es de 1000 y la
presión del horno es de 1,5.

Estadística Aplicada 2 270


Universidad Peruana de Ciencias Aplicadas

122. Enigma Mudanzas S.A. le ha encargado que encuentre la relación existente que explique entre la
distancia recorrida por la mudanza y el daño que recibe la carga (expresado en soles). A continuación es
presentan los datos de una muestra proporcionados por la compañía de mudanza de las últimas 20
mudanzas donde se registran las distancias que se trasladaron y el daño en que se incurrió.

Distancia Daño
Entrega
(en miles de kilómetros) (nuevos soles)
1 1,5 200
2 2,2 224
3 1,0 138
4 2,0 180
5 0,8 246
6 1,6 372
7 0,5 101
8 0,9 220
9 3,4 390
10 3,9 450
11 2,7 307
12 2,1 214
13 4,0 480
14 1,3 120
15 1,1 110
16 2,6 300
17 3,2 387
18 1,4 172
19 0,9 151
20 3,3 368

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere  = 0,05
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba considere
 = 0,05.
c. Estime a cuanto ascendería el daño si la distancia recorrida por la mudanza es de 2000 kilómetros.
123. Un editor de libros universitarios realizó un estudio para relacionar la utilidad por la venta de libros
con el costo de venta para un período de 10 años cuando el costo de venta aumentaba rápidamente. Se
obtuvieron los siguientes datos (en miles de dólares), ajustados por la inflación:

Costo 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere  = 0,05.
b. Se puede afirmar que la utilidad y el costo se correlacionan en más de 0,95. Para la prueba
considere  = 0,05.
c. Estime la utilidad media, a un nivel de confianza del 95%, si el costo de venta es de 10 500
dólares.

Estadística Aplicada 2 271


Universidad Peruana de Ciencias Aplicadas

124. Hamburguesas Enigma necesita saber la relación existente entre la cantidad de horas de apertura del
local de venta a la semana y los beneficios totales con fines de predicción. Tomando como base los
registros contables, se pudo obtener los siguientes datos

Semana 1 2 3 4 5 6 7
Beneficios (miles de soles) 12,2 17,9 25,8 37,0 53,3 78,8 112,9
Apertura del local (horas) 87 85 82 78 69 56 39

a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere  = 0,05.
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba
considere  = 0,05.
c. Estime el beneficio de un local que tiene un tiempo de apertura de 75 horas.

125. El gerente de ventas de un importante fabricante de automóviles está estudiando las ventas.
Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una
distribuidora. Para investigar, selecciona al azar a 12 distribuidores. De ellos obtiene el número de
vehículos vendidos el último mes, los minutos de publicidad radiofónica comprados en dicho período, el
número de vendedores de tiempo completo empleados en la distribuidora y si ésta se localiza en la
ciudad o no (1 = “Sí”; 0 = “No”).
a. Determine la variable dependiente.
b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. A un nivel de significación del 5%, determine el modelo de regresión. Interprete los coeficientes de
regresión.
e. ¿Cuántos automóviles esperaría que se vendan en una distribuidora con 20 vendedores, que paga 15
minutos de publicidad y se localiza en una ciudad?

La información es la siguiente:

Tiempo de
Automóviles vendidos
Publicidad Fuerza de ventas Ciudad
en el último mes
(minutos)
127 18 10 1
138 15 15 0
159 22 14 1
144 23 12 1
139 17 12 0
128 16 12 1
161 25 14 1
180 26 17 1
102 15 7 0
163 24 16 1
106 18 10 0
149 25 11 1

Regression

Estadística Aplicada 2 272


Universidad Peruana de Ciencias Aplicadas

Descriptive Statistics

Mean Std. Dev iat ion N


Automóv iles v endidos
141.33 23.21 12
en el último mes
Tiempo de publicidad
20.33 4.23 12
(minutos)
Fuerza de v enta 12.50 2.84 12
Ciudad .67 .49 12

Correlati ons

Automóv iles Tiempo de


v endidos en publicidad Fuerza de
el último mes (minutos) v enta Ciudad
Pearson Correlation Automóv iles v endidos
1.000 .808 .872 .639
en el último mes
Tiempo de publicidad
.808 1.000 .537 .713
(minutos)
Fuerza de v enta .872 .537 1.000 .389
Ciudad .639 .713 .389 1.000
Sig. (1-tailed) Automóv iles v endidos
. .001 .000 .013
en el último mes
Tiempo de publicidad
.001 . .036 .005
(minutos)
Fuerza de v enta .000 .036 . .105
Ciudad .013 .005 .105 .
N Automóv iles v endidos
12 12 12 12
en el último mes
Tiempo de publicidad
12 12 12 12
(minutos)
Fuerza de v enta 12 12 12 12
Ciudad 12 12 12 12

ANOVAb

Model Summary Sum of


Model Squares df Mean Square F Sig.
Adjusted Std. Error of 1 Regression 5504.422 3 1834.807 34.928 .000a
Model R R Square R Square the Est imat e Residual 420.245 8 52.531
1 .964a .929 .902 7.25 Total 5924.667 11
a. Predictors: (Constant), Ciudad, Fuerza de v enta, a. Predictors: (Constant), Ciudad, Fuerza de v enta, Tiempo de publicidad (minutos)
Tiempo de publicidad (minutos) b. Dependent Variable: Automóv iles v endidos en el último mes

Coeffi ci entsa

St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) 31.133 13.396 2.324 .049
Tiempo de
2.152 .805 .392 2.673 .028
publicidad (minutos)
Fuerza de v ent a 5.014 .911 .615 5.507 .001
Ciudad 5.665 6.332 .120 .895 .397
a. Dependent Variable: Automóv iles v endidos en el último mes

Regression
ANOVAb

Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 5462.379 2 2731.189 53.172 .000a
Adjusted Std. Error of
Model R R Square R Square the Est imat e Residual 462.288 9 51.365
1 .960a .922 .905 7.17 Total 5924.667 11
a. Predictors: (Constant), Fuerza de v enta, Tiempo de a. Predictors: (Constant), Fuerza de v enta, Tiempo de publicidad (minutos)
publicidad (minutos) b. Dependent Variable: Automóv iles v endidos en el último mes

Estadística Aplicada 2 273


Universidad Peruana de Ciencias Aplicadas

Coeffi ci entsa

St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) 25.295 11.569 2.186 .057
Tiempo de
2.619 .606 .477 4.324 .002
publicidad (minutos)
Fuerza de v ent a 5.023 .900 .616 5.579 .000
a. Dependent Variable: Automóv iles v endidos en el último mes

126. Conteste las siguientes preguntas, justificando adecuadamente sus respuestas.


a. ¿Cuáles son los supuestos fundamentales del análisis de correlación?
b. ¿Cuáles son las limitaciones del análisis de series de tiempo?
c. ¿Cuál es la metodología para elegir el mejor modelo de regresión múltiple?. Explique paso a paso.

127. El departamento de Mercadotecnia de una conocida cadena de supermercados desea estudiar la


flexibilidad de los precios de los paquetes de máquinas de afeitar desechables. Se seleccionó una muestra
aleatoria de 15 tiendas con igual afluencia de clientes y colocación de artículos para la venta (es decir,
junto a las cajas registradoras). El número de paquetes vendidos y el precio en cada tienda se presentan
en la siguiente tabla:

Tienda Ventas Precio de Venta Tienda Venta Precio de Venta


1 142 4,00 9 115 4,30
2 151 4,00 10 126 4,30
3 163 4,00 11 77 4,60
4 168 4,00 12 86 4,60
5 176 4,00 13 95 4,60
6 91 4,30 14 100 4,60
7 100 4,30 15 106 4,60
8 107 4,30

a. Determine el mejor modelo de regresión. Use un nivel de significación del 5%.


b. Según el modelo obtenido, ¿cuál será la venta estimada para la tienda 10?

Estimación curvilínea
Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Ventas__


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .782 46.728 1 13 .000 601.800 -112.000
Cuadrático .862 37.561 2 12 .000 4410.667 -1889.333 206.667
Potencia .791 49.295 1 13 .000 36270.900 -3.941
Exponencial .783 47.006 1 13 .000 5914.069 -.914
La v ariable independiente esPrecio_v ent a.

Lineal
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 11289.600 1 11289.600 46.728 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 3140.800 13 241.600
.885 .782 .766 15.543 Total 14430.400 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.

Estadística Aplicada 2 274


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v ent a -112.000 16.384 -.885 -6.836 .000
(Constante) 601.800 70.567 8.528 .000

Cuadrático
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 12442.800 2 6221.400 37.561 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación
Residual 1987.600 12 165.633
.929 .862 .839 12.870 Total 14430.400 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v enta -1889.333 673.719 -14.921 -2.804 .016
Precio_v enta ** 2 206.667 78.323 14.039 2.639 .022
(Constante) 4410.667 1444.684 3.053 .010

Potencia
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión .759 1 .759 49.295 .000
R R cuadrado corregida la estimación Residual .200 13 .015
.890 .791 .775 .124 Total .959 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.

Coeficientes

Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Precio_v enta) -3.941 .561 -.890 -7.021 .000
(Constante) 36270.900 29685.833 1.222 .243
La v ariable dependiente es ln(Vent as__).

Exponencial
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión .751 1 .751 47.006 .000
R R cuadrado corregida la estimación Residual .208 13 .016
.885 .783 .767 .126 Total .959 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v ent a -.914 .133 -.885 -6.856 .000
(Constante) 5914.069 3394.034 1.742 .105
La v ariable dependiente es ln(Ventas__).

Estadística Aplicada 2 275


Universidad Peruana de Ciencias Aplicadas

128. Michelle Sutchiffe, analista del grupo Profesional Investment, realiza una investigación de las ganancias
por acción de corporaciones grandes. Michelle recoge datos de la revista Fortune 500, que clasifica por
sus ventas a las 500 corporaciones más grandes. Su muestra aleatoria de 30 empresas cubre las siguientes
variables de predicción potenciales: ventas, utilidades, activos e inversión de accionistas.

Inversión de Utilidades como


Ventas Ganancias Activos
Corporación accionistas porcentajes de
(millones) por acción (millones)
(millones) inversión (%),
IBM 54,217 8,72 63,699 38,263 13,7
Boeing 15,355 3,10 12,566 4,987 9,6
Unisys 9,713 3,15 9,958 4,545 12,7
Coca-Cola 7,658 2,43 8,356 3,224 28,4
Northrop 6,053 2,01 3,124 948 9,9
Pfizer 4,920 4,08 6,923 3,882 17,8
Time, Inc. 4,194 4,18 4,424 1,248 20,0
United Brands 3,268 3,86 1,116 419 14,2
Hercules 2,693 14,74 3,492 2,190 37,5
Paccar 2,424 6,26 1,300 801 14,0
Squibb 2,157 3,42 2,782 1,526 23,5
Maytag 1,909 1,91 855 415 36,8
Trinova 1,682 2,20 1,320 631 11,9
Amdahl 1,505 2,82 1,508 766 19,1
Holly Farms 1,407 4,31 685 343 20,9
Dow jones 1,314 2,10 1,943 848 24,0
Timken 1,230 0,78 1,467 923 1,1
Clorox 1,126 1,96 933 616 17,0
Ball 1,054 2,80 795 397 16,7
Portlatch 992 3,13 1,307 638 13,7
Ferro 871 2,30 532 260 12,2
Telex 822 5,24 618 3,541 22,0
Sealed Power 774 2,12 562 288 9,1
Roper 714 2,12 250 81 24,5
Ametek 620 0,94 538 253 16,3
Coleman 599 2,72 404 184 10,4
Shaklee 572 1,77 414 252 9,3
Carlisle 543 2,25 309 186 10,1
Lukens 503 3,87 323 152 14,3
Russell 480 1,17 445 280 16,6

a. Realice el análisis completo de regresión múltiple y elija el mejor modelo. Use un nivel de
significancia del 5% para las pruebas de hipótesis.
b. Calcule el error (la diferencia entre el valor observado y el valor estimado) en el que se incurre al
utilizar el modelo para la compañía Clorox.

Estadística Aplicada 2 276


Universidad Peruana de Ciencias Aplicadas

129. La administradora de una empresa de bienes raíces, quiere determinar si el precio de venta de una casa
puede explicarse por el área del terreno. Para realizar este estudio la administradora recogió los datos
correspondientes al precio de venta y al área del terreno:

Precio de venta
90,4 127,3 109,6 131,2 61,3 107,9 135,8 97,8 116,7 164,8 88,8 120,5 109,8
(miles de $)
Área del terreno
4 5 4 8 2 6 7 3 6 9 3 7 6
(cientos de m2)

a. Basado en los datos presentados determine y valide el mejor modelo de regresión. Justifique su
respuesta. Considere  = 0,05.
b. Se puede afirmar que el precio de venta y el área del terreno se correlacionan en más de 0,9. Para la
prueba considere  = 0,05.
c. Estime el precio de venta de una casa, si el área del terreno es de 1 000 m2.

130. Las ventas de cierto medicamento (y), trimestrales, desde 2006 se indican a continuación (en
millones de dólares)

Los índices estacionales ajustados


Año Trimestre y Promedio y sin por trimestre son: respectivamente
móvil centrado estacionalidad
1 210 - 173,0 Trimestre Índice
2 180 - 156,7 1 121,4
2006
3 60 ? 136,7 2 114,9
4 246 ? 205,3 3 43,9
1 214 186,8 176,3 4 119,8
2 216 187,5 188,0 400,0
2007
3 82 189,5 186,8
4 230 195,0 192,0 Y la ecuación estimada de la
1 246 197,6 ? tendencia es:
2008
2 228 205,0 ? ŷ  151,96  5,55t
3 91 - ?
4 280 - 233,7

Complete la tabla, interprete el índice estacional del segundo trimestre y pronostique las ventas del
medicamento para el primer y tercer trimestre de 2008.
131. Las tiendas SAGA desea analizar sus ventas trimestrales, en miles de dólares, de equipos de música
para el auto. Para ello cuenta con registros de ventas de dos años
Año Primer Segundo Tercer trimestre Cuarto
trimestre trimestre trimestre
2003 6,0 5,6 7,5 7,8
2004 6,3 5,9 8,0 8,4
Usando los promedios móviles (cada tres trimestres), calcule los índices estacionales ajustados para cada
trimestre.

Estadística Aplicada 2 277


Universidad Peruana de Ciencias Aplicadas

132. El propietario de la empresa Anderson Belts, Inc., está estudiando el ausentismo entre sus
empleados. Su personal de trabajo es reducido, y consta sólo de cinco personas. Para los últimos tres
años registró los siguientes números de inasistencias de empleados, en días, para cada trimestre.

Trimestre Determine un índice estacional para cada


Año I II III 1V uno de cuatro trimestres. Utilice medias
2002 4 10 7 3 móviles para cada dos trimestres.
2003 5 12 9 4
2004 6 16 12 4

133. Un poblado en EEUU, tiene tiendas, restaurantes y moteles. Hay dos temporadas de auge: de invierno,
para la práctica de esquí en las pendientes de montaña de 10 000 pies de alto; y de verano, cuando los
turistas visitan los parques. En los últimos años se registraron los siguientes datos correspondientes al
volumen total de ventas, en miles de dólares:
Año Invierno Primavera Verano Otoño
2000 114,0 84,3 119,6 75,0
2001 120,7 79,6 130,7 69,6
2002 125,2 80,2 127,6 72,0

Usando los promedios móviles (cada tres trimestres) y los índices estacionales estime las ventas por
trimestre para el año 2003.

La recta de tendencia entre la variable tiempo (t) y ventas (Y) es:


Y = 104,4 – 0,6969 t
(El tiempo se ha codificado tomándose el primer período del año 2000 como 1)

134. Una compañía transnacional de venta de juguetes, desarrolló la siguiente ecuación de tendencia
desestacionalizada, en millones de dólares, con base en seis años de datos trimestrales:
y = 7,3841 + 0,1496 t
La siguiente tabla muestra los Índices Móviles Ajustados correspondientes a cada trimestre:

Trimestre
I II III IV
IMA 0,76491 0,57470 1,14141 1,51898

Determine el pronóstico de ventas para el séptimo año.

135. El directorio de una compañía de aire acondicionado y de calefacción está examinando los datos
correspondientes a los ingresos trimestrales (en miles de $). Los datos son los siguientes:

Año Trimestre I Trimestre II Trimestre III Trimestre IV


2005 27 34 45 44
2006 33 36 46 51
2007 34 40 47 53
2008 35 42 49 55

a. Calcule los índices estacionales de estos datos (use un promedio móvil centrado de 4 trimestres).
b. Estime el ingreso de la compañía, para el tercer trimestre del año 2008.

Estadística Aplicada 2 278


Universidad Peruana de Ciencias Aplicadas

Ingresos
Año Trimestre Ingresos PM PMC Y / PMC IEA desestacionalizados
I 27 0,80089 33,71261
II 34 37,50 0,91112 37,31689
2005
III 45 39,00 38,250 1,17647 1,11516 40,35294
IV 44 39,50 39,250 1,12102 1,17284 37,51587
I 33 39,75 39,625 0,83281 0,80089 41,20430
II 36 41,50 40,625 0,88615 0,91112 39,51200
2006
III 46 41,75 41,625 1,10511 1,11516 41,24967
IV 51 42,75 42,250 1,20710 1,17284 43,48431
I 34 43,00 42,875 0,79300 0,80089 42,45292
II 40 43,50 43,250 0,92486 0,91112 43,90222
2007
III 47 43,75 43,625 1,07736 1,11516 42,14641
IV 53 44,25 44,000 1,20455 1,17284 45,18958
I 35 44,75 44,500 0,78652 0,80089 43,70153
II 42 45,25 45,000 0,93333 0,91112 46,09734
2008
III 49 1,11516 43,93987
IV 55 1,17284 46,89484

Año Trimestre I Trimestre II Trimestre III Trimestre IV


2005 1,17647 1,12102
2006 0,83281 0,88615 1,10511 1,20710
2007 0,79300 0,92486 1,07736 1,20455
2008 0,78652 0,93333
IE 0,80411 0,91478 1,11965 1,17756 4,01609
IEA 0,80089 0,91112 1,11516 1,17284 4,00000
FC = 0,99599

Estadística Aplicada 2 279


Universidad Peruana de Ciencias Aplicadas

Año Trimestre T Y cee IMA Y estimado


I 17 0,80089
II 18 0,91112
2009
III 19 48,75120 1,11516 54,36541
IV 20 1,17284

Estadística Aplicada 2 280


Universidad Peruana de Ciencias Aplicadas

SILABO

ESPECIFICACIONES GENERALES

CURSO : Estadística Aplicada 2


CÓDIGO MA145
CICLO : 2013-1

PROFESORES : Celia Cárdenas


Raúl Ramírez
Mercedes Toribio
Ana Vargas

CRÉDITOS : 4
HORAS SEMANALES : 10

CORREO ELECTRÓNICO DEL PROFESOR : pcmaccar@upc.edu.pe


pcmarrar@upc.edu.pe
pcmamtor@upc.edu.pe
pcmaavar@upc.edu.pe

ÁREA O CARRERA Ciencias

INTRODUCCIÓN
El curso de Estadística Aplicada 2 para estudiantes de Ingeniería Industrial e Ingeniería de Sistemas,
comprende el estudio de diversos métodos de Estadística Inferencial que sirven de apoyo en el proceso de
toma de decisiones a partir de información proveniente de las diferentes ramas de la ingeniería.
Para afianzar los contenidos teóricos del curso se ha considerado prácticas en un laboratorio equipado con
el software estadístico SPSS, actualmente muy utilizado en diferentes áreas de investigación.
Muestreo/ Diseño de la encuesta por muestreo/ Pruebas de hipótesis/ Uso de la distribución Chi
Cuadrado/ Análisis de variancia/ Análisis factorial/ Análisis de regresión lineal y no lineal simple/
Análisis de correlación/ Análisis de regresión múltiple/ Series de tiempo.

LOGRO DEL CURSO


El alumno al término del curso aplica convenientemente métodos y técnicas estadísticas, para la
transformación de datos en información útil que permita la toma de decisiones frente a situaciones de
incertidumbre, utilizando las ventajas que hoy en día brinda la tecnología de información y comunicación
de manera creativa en su ámbito profesional.

Estadística Aplicada 2 281


Universidad Peruana de Ciencias Aplicadas

RED DE APRENDIZAJE

3. Pruebas: Independencia,
Homogeneidad de proporciones
y Bondad de ajuste

4. Diseños
Experimentales
2. Estimación y
1. Muestreo Prueba de
hipótesis

5. Análisis de
regresión

6. Series de
Tiempo

UNIDADES DE APRENDIZAJE

UNIDAD 1: Muestreo
LOGRO: El alumno al término de la unidad 1, aplica la teoría de muestreo y utiliza SEMANA
apropiadamente las técnicas aprendidas en problemas reales concernientes con su 1y2
especialidad: Muestreo Aleatorio Simple, Muestreo Sistemático, Muestreo Estratificado,
Muestreo de Conglomerados.

TEMARIO:
Conceptos y definiciones básicas: Población, marco muestral, muestra, censo y
muestreo: Ventajas y desventajas. Diseño de la encuesta por muestreo. Tipos de
muestreo. Determinación del tamaño de muestra.

UNIDAD 2: Pruebas de hipótesis


LOGRO: El alumno al término de la unidad 2, toma decisiones relacionadas con SEMANA
información propias de su especialidad, modelando satisfactoriamente casos sencillos 2, 3 y 4
que conducen a la verificación de hipótesis.

TEMARIO:
Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la
media, la varianza y la proporción poblacional. Uso del valor p. Potencia Prueba. Prueba
de hipótesis para dos varianzas. Prueba de hipótesis para dos medias poblacionales:
Muestras independientes y muestras relacionadas. Prueba de hipótesis para dos
proporciones poblacionales

Estadística Aplicada 2 282


Universidad Peruana de Ciencias Aplicadas

UNIDAD 3: Uso de la distribución Chi Cuadrado


LOGRO: El alumno al término de la unidad 3, utiliza la distribución Chi Cuadrado para SEMANA
verificar hipótesis de interés relacionados con su área de trabajo. 5y6

TEMARIO:
Prueba de homogeneidad. Prueba de independencia. Prueba de bondad de ajuste. Uso de
la Ji Cuadrado. Prueba de Kolmogorov-Smirnov.

UNIDAD 4: Experimentos Factoriales


LOGRO: El alumno al término de la unidad 4, aplica técnicas del análisis de varianza SEMANA
para modelar experimentos factoriales y realiza los análisis de comprobación respectivos 7,8 y 9
en casos relacionados con su área de trabajo. Para esto contará con apoyo del software
SPSS.

TEMARIO:
Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental.
Análisis de varianza: Diseño completamente aleatorizado. Comparaciones múltiples.
Prueba de rango múltiple de Duncan. Diseño de bloques completamente aleatorizados.
Anova de dos vías.

UNIDAD 5: Análisis de Regresión y Correlación


LOGRO: El alumno al término de la unidad 5, modela regresiones lineales y no lineales SEMANA
con información propia de su especialidad estableciendo patrones de comportamiento 10, 11 y 12
actuales y pronostica futuros eventos en su campo de trabajo con el apoyo del software
SPSS.
TEMARIO:
Regresión simple: Objetivos y suposiciones del análisis de regresión. Diagrama de
dispersión. Estimación de los parámetros de la línea de regresión por el método de
mínimos cuadrados. Descomposición de la varianza total. Coeficiente de determinación.
Coeficiente de correlación. Error estándar de la estimación. Intervalos de predicción para
un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión. Análisis de regresión no lineal: Ajuste de una curva exponencial y potencia a
una nube de puntos. Análisis de regresión múltiple: Objetivos de análisis de regresión
múltiple. Modelo de regresión múltiple. Interpretación de la matriz de correlaciones.
Estimaciones de los coeficientes de regresión.

UNIDAD 6: Series de Tiempo


LOGRO: El alumno al término de la unidad 6, modela problemas sobre el SEMANA
comportamiento de las series de tiempo y pronostica de manera óptima. 13, 14 y 15
TEMARIO:
Introducción a las series de tiempo: Modelo aditivo y multiplicativo. Método de medias
móviles y suavización exponencial. Medición del error de pronóstico. Predicción
mediante series de tiempo.

Estadística Aplicada 2 283


Universidad Peruana de Ciencias Aplicadas

METODOLOGÍA
 En las clases teórico prácticas se priorizarán los aspectos conceptuales, cálculo e
interpretación de los resultados.
 Se desarrollará laboratorios semanales empleando el programa SPSS para reforzar lo visto en
las clases teóricas.
 Se tomarán 4 prácticas calificadas las semanas: 2,4,6 Y 7.
 La Prácticas Calificadas 1 y 3 se tomarán en horario de Teoría y las prácticas 2 y 4 se
tomarán en Laboratorio con uso del software SPSS y Excel.
 Se tomará 1 examen final, en el cual se evaluará todo el contenido del curso, con los
siguientes criterios: Modelación, Interpretación y Toma de decisiones. (y uno adicional de
recuperación).
 Se desarrolla un trabajo de investigación el cual es evaluado constantemente a través del Aula
Virtual por el profesor del curso, para ser entregado y expuesto antes del examen final.

SISTEMA DE EVALUACIÓN

El Promedio Final (PF) se obtiene con la siguiente fórmula:

PF = PC1 (0,12) + PC2 (0,14) + PC3(0.14) + TF (0,20) + PC4 (0,15) +) + EB (0,25)

Donde:
EB : Evaluación final.
PC : Práctica calificada.
TF : Trabajo final
Las prácticas calificadas y el trabajo final se desarrollan de acuerdo al siguiente
cronograma:

CRONOGRAMA

UNIDAD SEMANA TIPO DE EVALUACIÓN PESO RECUPERABLE


1,2 Semana 4 PC 1 12% Si
2, 3, 4 Semana 7 PC 2 14% Si
4, 5 Semana 11 PC 3 14% Si
Trabajo final Semana 14 Informes y exposición 20% No
5, 6 Semana 15 PC 4 15% Si
1–6 Semana 16 Examen Final 25% Si

Estadística Aplicada 2 284


Universidad Peruana de Ciencias Aplicadas

BIBLIOGRAFÍA

1. Básica
MONTGOMERY, Douglas, RUNGER, George
2005 Probabilidad y Estadística, Aplicaciones a la Ingeniería. 2da. Edición. Editorial LIMUSA
WILEY
(519.5 MONT2005)

2. De consulta

WALPOLE, Ronald
1999 Probabilidad y Estadística para Ingenieros. 6ta. Edición. México. Prentice-Hall
Hispanoamericana S.A. Pearson.
(519.5 WALP)

MENDENHALL, William
1997 Probabilidad y Estadística para Ingeniería y Ciencias. 4ta. Edición. México. Prentice-Hall
Hispanoamericana S.A.
(519.5 MEND/P)

HANKE
1997 Estadística para negocios. 2da. Edición. México. McGraw-Hill.
(519.54 HANK)

HERNÁNDEZ, Roberto
2006 Metodología de la investigación. 4ra. Edición. México. McGraw-Hill.
(001.42 HERN 2006)

Estadística Aplicada 2 285


Universidad Peruana de Ciencias Aplicadas

PLAN CALENDARIO CICLO 2013-1


CURSO : Estadística Aplicada 2
CÓDIGO : MA145
CRÉDITOS : 4
HORAS SEMANALES : 5 horas semanales

18-mar PROFESORES : Celia Cárdenas, Raul Ramirez, Mercedes Toribio, Ana Vargas
Sem Fecha Sesión1 (Laboratorio - 2 horas) Sesión 2 (Teoría-3 horas)
Muestreo. Conceptos y definiciones básicas. Ventajas y desventajas del muestreo.
18-mar Etapas de una encuesta por muestreo. Diseño de muestreo. Diseño del formato del
cuestionario. Escalas de medición. Tipos de muestreo: Muestreo no probabilístico.
1 Muestreo probabilístico: Muestreo aleatorio simple, muestreo aleatorio simple
Lab. 1: Elaboración de Base de Datos en SPSS y Selección
estratificado, muestreo sistemático y muestreo por conglomerados. Diseño del
23-mar de casos de una Base de Datos en SPSS.
trabajo de campo. Recogida de datos. Preparación de los datos y elaboración del
formato del trabajo de investigación.

25-mar Prueba de hipótesis: Definición. Errores. Prueba de hipótesis SEMANA SANTA


2 para una media. Prueba de hipótesis para una varianza. Prueba (SI SU SEGUNDA SESION ES DIA LABORABLE, SE PROGRAMARA CLASE
de hipótesis para una proporción poblacional. INTEGRADORA)
30-mar

Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis para


01-abr
dos medias de poblaciones independientes . Prueba de hipótesis para la diferencia
Lab. 2: Prueba de hipótesis con SPSS y Excel para un
3 de promedios de muestras relacionadas.Prueba de Hipotesis para dos
parámetro
proporciones poblacionales.
06-abr

08-abr Práctica calificada 1


Lab. 3: Prueba de hipótesis con SPSS para varianzas,
4
medias dos poblaciones independientes y relacionadas.
Distribución Chi-Cuadrado: Prueba de Independencia y Homogeneidad de
13-abr
Proporciones.

Lab. 4: Chi cuadrado: Independencia, Homogeneidad de


15-abr
Proporciones con SPSS. Chi cuadrado : Prueba de Bondad Distribución Chi- Cuadrado. Prueba de bondad de ajuste utilizando el Método
5
de Ajuste. (Usar Excel) ** Programar recuperación 01 de clásico. Retroalimentación de PC 01
20-abr
Mayo)

22-abr Lab. 5: Análisis de varianza de un factor con SPSS. Pruebas


Experimento de un factor. ANOVA de una vía. Pruebas de comparaciones múltiples.
6 de Normalidad Kolmogorov - Smirnov. (Recuperar 01 de
Experimento de un factor.
27-abr Mayo si corresponde)

29-abr Diseño de bloques aleatorios. ANOVA de dos factores.


7 Práctica calificada 2
04-may

06-may
8
11-may
SEMANA PARCIALES
13-may
Regresión lineal simple. Gráfico de dispersión. Método de mínimos cuadrados.
Coeficiente de determinación. Coeficiente de correlación. Inferencia sobre los
9 Lab. 6: ANOVA de bloques y dos factores.
18-may parámetros del modelo. Predicción. Análisis de los residuales. Validación de los
supuestos del modelo.

20-may Lab. 7: Modelo de regresión lineal simple. Análisis de los


Modelo de regresión curvilíneo simple. Validación del modelo curvilíneo. Estimación
10
supuestos de la regresión lineal en SPSS. por intervalo para el pronóstico.
25-may

27-may Lab. 8 Modelo de regresión curvilíneo simple. Estimación


11 Práctica calificada 3
por intervalo para el pronóstico en SPSS.del SPSS.
01-jun

03-jun Lab. 9 Modelos de regresión Lineal Múltiple en SPSS.


Modelo de Regresión Lineal Múltiple. Ecuación estimada. Supuestos del modelo.
Pruebas de significancia F y t. Pronósticos para un modelo
12 Matriz de correlaciones. Coeficiente de correlación múltiple.Retroalimentación de
de regresión múltiple. Análisis de residuales. Interpretación
08-jun PC 03
de salidas del SPSS.

10-jun
Serie de Tiempo. Componentes de una Serie de Tiempo. Método Medición del error de pronóstico. Métodos: MAD, MSE, MAPE, MPE.
13
15-jun de Medias Móviles Suavización exponencial.

17-jun Lab. 10: Serie de Tiempo. Método de medias móviles en


14 Presentación y Exposición de Trabajo de Investigación
Excel. Métodos de suavización exponencial. Pronósticos.
22-jun

24-jun
15 Práctica calificada 4
29-jun CASOS DE APLICACIÓN

01-jul
16
06-jul
SEMANA FINALES
08-jul
17 Devolución de exámenes y Retroalimentación de EB
13-jul

SISTEMA DE EVALUACIÓN
El Promedio Final (PF) se obtiene con la siguiente fórmula:
PF = PC1 (0,12) + PC2 (0,14) + PC3 (0,14) + PC4 (0,15) +TF (0,20) + EB (0,25)
Donde:
PC: Práctica calificada. TF: Trabajo final
EB : Evaluación final.

Estadística Aplicada 2 286

También podría gustarte