Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Separata MA145 2013 1
Separata MA145 2013 1
Rights info:eu-repo/semantics/closedAccess
CÓDIGO : MA145
ÁREA : CIENCIAS
CICLO : 2013 -1
INDICE
1. Muestreo
Conceptos y definiciones básicas 3
Ventajas y desventajas del muestreo frente al censo 4
Encuesta por muestreo: Diseño 5
El cliente 6
Problema específico de investigación 7
Los objetivos, variables, información disponible, análisis cualitativo y cuestionario 8
Diseño de muestreo 16
Definición de la población meta 16
Determinación del marco de muestreo 16
Selección de la técnica del muestreo 16
Determinación del tamaño de muestra 24
Diseño del trabajo de campo 24
Elección de la muestra 24
Recogida de datos 25
Preparación y análisis de los datos 25
Preparación y presentación del reporte 25
2. Prueba de hipótesis
Conceptos generales 29
Prueba de hipótesis para una media poblacional 31
Prueba de hipótesis para una varianza poblacional 32
Prueba de hipótesis para una proporción poblacional 34
Prueba de hipótesis para dos varianzas poblacionales 36
Prueba de hipótesis para dos medias poblacionales 37
Prueba de hipótesis para dos proporciones poblacionales 39
4. Diseños Experimentales
Introducción 60
Diseño completamente aleatorizado 62
Prueba para la diferencia de medias 66
Diseño con Bloques Completos Aleatorizados 70
Experimento Factorial axb 74
Tipos de modelos 74
Diseño factorial de dos factores 75
Pruebas de hipótesis 76
Descomposición de la suma de cuadrados 77
Ejercicios 81
1
La línea recta estimada 93
Descomposición de la varianza total 94
Supuestos de la Regresión 95
Coeficiente de determinación y de no determinación 95
Error estándar de la estimación 95
Coeficiente de correlación 96
Inferencia sobre los coeficientes de regresión 96
Inferencia sobre el coeficiente de correlación 97
Pronósticos 97
Regresión no lineal 107
Ejercicios 112
6. Regresión Múltiple
6.1 Elección de las variables de predicción 132
6.2 El modelo de regresión múltiple 132
6.3 Supuestos del análisis de regresión múltiple 132
6.4 Ecuación de regresión muestral 132
6.5 Coeficiente de regresión 133
6.6 El error estándar de la estimación 134
6.7 Coeficiente de determinación múltiple 134
6.8 Pruebas de hipótesis 135
6.8.1 Pruebas individuales 135
6.8.2 Prueba conjunta 135
6.9 Intervalo de confianza para los coeficientes poblacionales 136
6.10 Multicolinealidad 136
Ejercicios 153
7. Series de Tiempo
Modelo Multiplicativo 177
Tendencia 177
Componente Cíclica 178
Componente estacional 178
Componente irregular 179
Estudio de una serie de tiempo 179
Modelo de tendencia 179
Descomposición de una serie de tiempo 181
Ejercicios 191
MISCELANEA 212
SÍLABO 204
PLAN CALENDARIO
2
1. Muestreo
La población es el conjunto de todos los elementos que tienen una o más características
comunes. Por ejemplo: la población de todos estudiantes de ingeniería industrial matriculados el
2013 0 en las universidades de Lima, la población de computadoras del Pabellón D de la UPC
en Enero de 2013, la población de vehículos vendidos en el Motor Show Nov-Dic 2012 llevado
a cabo en el Jockey Club, etc.
El marco muestral es una lista de todas las unidades de muestreo que conforman la población y
están disponibles para su elección en la etapa correspondiente del procedimiento de muestreo.
Ejemplo.
Los censos nacionales que lleva a cabo el INEI cada cierto período de tiempo.
Los censos se remontan a las primeras civilizaciones conocidas (5000 años a. de J.C). Por
ejemplo los censos romanos que se realizaban cada 5 años.
3
1.2. Ventajas y desventajas del muestreo frente al censo
Ventajas que brinda el muestreo:
Ejemplo.
Para verificar la letalidad de cierto veneno para ratas se experimentará
con una muestra de estos animales.
a) Las estimaciones resultantes del muestreo están afectas del
inevitable error de muestreo.
4
d) Requiere de personal especializado y experimentado.
Ejercicios
1) Defina la población, muestra, unidad de muestreo, elemento y variables; en cada uno
de los siguientes casos:
Tarea de investigación
3) ¿Qué tipo de información brindan los censos realizados por el INEI? Liste la
información que proporciona por rubros de investigación.
5
1.3.1. El cliente
¿Quién es?, ¿dispone de medios?, ¿tiene exigencias?, ¿tiene objetivos claros?, etc.
6
1.3.2. Problema específico de investigación
Tema de
investigación
Realidad:
Objeto, fenómeno o
situación
Obstáculo a la Obstáculo a la
Problema comprensión de la intervención o a la
general realidad acción sobre lo real
Hipótesis
Uso de métodos de
investigación
7
1.3.3. Los objetivos, variables, información disponible, análisis cualitativo
y cuestionario
A. Objetivos
La definición de los objetivos de un estudio reposa sobre tres etapas importantes:
B. Las variables
Son las características que se desea medir en la población.
Clasificación
Variable directa: Ejemplo: facultad, edad, peso, etc.
Indicador: Variable que identifica a un concepto.
Ejemplo: Calidad en el servicio de cafetería de la universidad.
Medición de variables
Medición significa asignar números u otros símbolos a las características de los objetos de
acuerdo con ciertas reglas especificadas con anterioridad.
La medición de las variables se realiza a través de las escalas.
La escala de medición de una variable tiene gran influencia en la manera de utilizarlas en el
análisis.
8
¿Tiene celular de CLARO? 1: Sí
2: No
Nacionalidad Argentino
Boliviano
Chileno
Peruano
Escala ordinal: Cuando los datos observados se clasifican en distintas categorías en las que
se establece algún orden.
Ejemplo
Variable Categoría
categórica
Primero
Ciclo académico Segundo
...
Bachiller
Grado académico Magíster
Doctor
Escala de intervalos: Es una escala ordenada en la que la diferencia entre las mediciones es
una cantidad significativa. Existe un cero relativo.
Ejemplo: Temperatura : 0 grados Centigrados
Ejemplo:
Variable cuantitativa Nivel de
medición
Temperatura Intervalo
Talla de una persona Razón
Peso de una bolsa de arroz Razón
9
Otras escalas de medición
Ejemplos:
1. Escala de Likert
Instrucciones
A continuación, presentamos diversas opiniones sobre la tienda SAGA. Favor de indicar si
está de acuerdo o en desacuerdo con cada una, marcando con X su elección en la escala
siguiente:
1 = por completo en desacuerdo
2 = en desacuerdo
3 = no estoy de acuerdo ni en desacuerdo
4 = de acuerdo
5 = por completo de acuerdo
Las Cuenta
Tiene un Vende una
Vende políticas con No me
servicio Me gusta extensa Carga
mercancía de crédito tiendas en gusta la
Alternativas deficiente comprar variedad precios
de alta de Saga todo publicidad
en sus en Saga. de adecuadas
calidad son Estados que usa
tiendas mercancía
terribles Unidos
Por completo
5 5 5 5 5 5 5 5
de acuerdo
De acuerdo 4 4 4 4 4 4 4 4
No estoy de
acuerdo ni en 3 3 3 3 3 3 3 3
desacuerdo
En
2 2 2 2 2 2 2 2
desacuerdo
Total
1 1 1 1 1 1 1 1
desacuerdo
10
2. Escala de diferencial semántico
Para medir el concepto de sí mismo, los conceptos personales y los conceptos del producto.
Tosco :---: ---:---: ---:---: ---:--: ---: Delicado
Incómodo :---: ---:---: ---:---: ---:--: ---: Cómodo
Dominante :---: ---:---: ---:---: ---:--: ---: Sumiso
Agradable :---: ---:---: ---:---: ---:--: ---: Desagradable
Contemporáneo :---: ---:---: ---:---: ---:--: ---: Anticuado
Racional :---: ---:---: ---:---: ---:--: ---: Emocional
Formal :---: ---:---: ---:---: ---:--: ---: Informal
Modesto :---: ---:---: ---:---: ---:--: ---: Vanidoso
C. La información disponible
Una de las primeras etapas que precede al estudio de un problema específico consiste en
buscar la información disponible: Fuente interna (en el cliente) o Fuente externa (de otras
instituciones).
Esta información es secundaria, en la medida en que no es obtenida o construida
específicamente para el estudio.
Los principales medios para obtenerla son:
La investigación documental (obras específicas, revistas científicas, prensa especializada,
etc)
La consulta de expertos
El análisis de estudios similares
Internet
D. El análisis cualitativo
El análisis cualitativo tiene por objeto contribuir a la definición de la problemática y al
planteamiento de las preguntas específicas. Puede, en particular, facilitar la selección de los
indicadores (variables) que deben ser medidos en el transcurso de la encuesta.
Se pueden utilizar varios métodos, entre los que tenemos:
11
E. Elaboración del formato de recolección de datos.
El cuestionario
Un cuestionario, ya sea que se trate de un programa, una forma de entrevista o un
instrumento de medición, es un conjunto formal de preguntas para obtener información por
parte de los entrevistados.
Por lo general el cuestionario es parte del paquete de recopilación de datos que también
puede incluir:
Los procedimientos del trabajo de campo (instrucciones para seleccionar, acercarse e
interrogar a los entrevistados)
Alguna recompensa, regalo o pago que se ofrece a los entrevistados.
Apoyo para la comunicación, como mapas, fotografías, anuncios, productos y tarjetas
de respuestas.
Reproducir el cuestionario
12
Ejemplo de cuestionario
Encuesta Alumnos UPC (*)
Código: __________________
Facultad: ___________________
Ciclo (considere el de mayor número de cursos que esta matriculado): ____________
2. Cuantas semanas antes del finalizar el ciclo considera que debe ser la pre matricula para el
siguiente ciclo ______________________________
8. Si tuviste que acercar a la oficina de secretaria académica para resolver algún problema
relacionado con la matricula ¿Cuántos MINUTOS se demoraron para atenderte?
________________________ MINUTOS
13
9. ¿Qué porcentaje de los cursos que te prematriculas finalmente te matriculas?_______________
13. Cuantos cursos que pensabas matricularte no pudiste hacerlo con la matricula
complementaria. ___________________________
14
Ejercicios
1) Especifique si cada una de las siguientes variables es cualitativa o cuantitativa. Por
cada variable, identifique la escala de medición:
a) Precio de una bolsa de arroz.
b) La calificación de un examen.
c) El año de nacimiento.
d) Indicadores macroeconómicos de un país.
e) Grupos organizados feministas.
f) Empresas del sector industrial.
g) La temperatura ambiente (ºC)
h) Opinión sobre la nueva ley del libro en una escala de 1 a 5 puntos.
2) ¿Cuáles son los pasos a seguir en una encuesta por muestreo?
3) ¿Por qué es importante definir los objetivos de la investigación?
4) ¿Cuáles son las fuentes de información primaria?
5) ¿En qué consiste la información disponible?
6) ¿Cómo se clasifica las variables? Cite dos ejemplos.
7) ¿Qué diferencias existen entre la escala nominal y la ordinal?
8) Cite dos ejemplos de variables medidas en escala de intervalos.
9) Cite dos ejemplos de variables medidas en escala de razón.
10) Cite un ejemplo de escala de diferencial semántico.
11) Cite dos ejemplos de escala Likert.
12) Cite dos ejemplos de escala de clasificación continua.
13) ¿Qué es un cuestionario?
14) ¿Qué involucra el tratamiento de un cuestionario?
15) ¿Qué procesos son posibles de resolver en el tratamiento, análisis e interpretación de
resultados?
16) Diseñe un cuestionario para recolectar información referente a la opinión que tienen
los alumnos de la UPC sobre la calidad de atención de la nueva cafetería.
Un cambio a la conciencia
“Un número cada vez mayor de gente en todo el mundo está llegando a la conclusión de
que la conciencia es fundamental, que la mente o el espíritu tienen una realidad,
comparable a los objetos materiales (Harman 1988: Renesch 1991, Cook 1991; Rothschild
1991). Muchos tuvieron experiencias transformadoras (sueños que cambiaron sus vidas,
viajes interiores que revelaron nuevas visiones, experiencias cercanas a la muerte, una
serie de conocimientos intuitivos [Porter, s/fecha] que los llevó a darse cuenta de que son
más que su cuerpo físico y su mente lógica, que existen categorías de realidad más allá de
lo que se puede ver, tocar, saborear y oler.
Al reexaminar las conjeturas, los valores y las orientaciones de sus vidas, la gente está
comenzando a considerarse a sí mismas como la creadora de sus realidades. Pone énfasis
en la interconexión y la totalidad –de todos y de todo- y subraya el papel fundamental de la
sabiduría interior y la autoridad interior (Harman 1988, 1992). En general, se compromete
a efectuar un cambio diferente en el mundo ”
Tomado de: La Cuarta Ola El mundo de los negocios en el siglo XXI.Herman Bryant
Maynard, Jr y Susan E. Mehrtens. pg. 53
15
1.3.4. Diseño de muestreo
Involucra definir la población meta y el marco de muestreo, cálculo del tamaño de muestra y
la elección de la técnica de muestreo a utilizar.
Ejemplo
Se desea conocer qué porcentaje de los estudiantes de la UPC practican deporte.
Entonces la población meta está constituida por los estudiantes que están matriculados
en el ciclo 2012-2.
Ejemplo
Listado de los estudiantes matriculados en el ciclo 2012-2 proporcionada por secretaría
académica.
16
Muestreo de comparación.- En este tipo de muestreo se selecciona la muestra de
acuerdo con lo que un experto piensa acerca de la contribución de los diferentes
elementos de la población a la cuestión particular que se esta investigando.
Ejemplo.
La declaración de expertos como testigos en la corte; la selección de un
supermercado para probar presentación de un producto; etc.
En todos los casos se desconoce la magnitud y la dirección del error.
Muestreo por grupos.- Es este muestreo se busca obtener una muestra que sea
similar en composición a la población de acuerdo con algunas características de
control.
Debe de tenerse en cuenta una descripción de aquellas características de control y
además conocer la distribución de éstas en toda la población. Con esta información se
forman subgrupos de la población que son muestreados por algún procedimiento no
probabilístico.
17
B. Muestreo aleatorio estratificado.
Estratificar significa dividir a la población en varias partes de acuerdo con ciertas
características de sus elementos. El objetivo de estratificar la población es buscar
homogeneidad entre los estratos, a fin de reducir el error estándar de los estimadores.
n1 n2 n3
Si se tiene que usar más de una variable para formar los estratos, cuidar que estas
no estén relacionadas entre sí.
No se deben considerar la formación de muchos estratos, generalmente se usan
entre 3 y 8 estratos.
Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto
pueden no ser considerados.
C. Muestreo sistemático.
En el muestreo sistemático, se debe elegir un elemento del marco muestral cada
cierto intervalo. Este muestreo supone que se cuenta con una enumeración completa
de los elementos de la población. El tamaño del intervalo (K), es el recíproco de la
fracción de muestreo. K debe ser un número entero, redondeado por truncamiento.
1 N
K
f n
18
Ejemplo 1 (N = 12, n = 4, K = 3)
1.- 12 6.- 37 11.- 90
2.- 23 7.- 40 12.- 97 ¿Cuál es el arranque
aleatorio para este
3.- 35 8.- 54
ejemplo? Use la
4.- 23 9.- 74 columna C3
5.- 35 10.-86 .............
______
N
1°
2°
3° n
4°
5°
6°
7°
8°
19
N
1°
2°
3° n
4°
5°
6°
7°
8°
EJEMPLOS DESARROLLADOS
Muestra X021 X131 X003 X053 X137 X019 X012 X014 X093 X092
Costo
571 244 438 116 107 386 365 434 283 134
Reparación
Muestreo estratificado
20
SOLUCIÓN
Estrato Ni Proporción ni
Electrónico 33 0.2200 2.64 3
Eléctrico 49 0.3267 3.92 4
Mecánico 38 0.2533 3.04 3
Montaje 30 0.2000 2.4 2
Total 150 12
Muestreo sistemático
Utilice la tabla de números aleatorios y a partir de la primera fila de la columna C5
seleccione una muestra de tamaño 12 de los datos contenidos en la Tabla 2. Aplique un
muestreo sistemático.
SOLUCIÓN
21
Tabla No 1
Costo de Turno Costo de Turno Costo de Turno
Intensi
Intensi
Intensi
Tipo de Tipo de Tipo de
dad
dad
dad
N° reparación de la N° reparación de la N° reparación de la
Falla Falla Falla
(dólares) Falla (dólares) Falla (dólares) Falla
1 Electrónico 458 Día Grave 51 Eléctrico 353 Noche Leve 101 Mecánico 300 Día Leve
2 Electrónico 593 Día Grave 52 Eléctrico 196 Noche Leve 102 Mecánico 113 Día Leve
3 Electrónico 438 Día Grave 53 Eléctrico 116 Noche Leve 103 Mecánico 165 Día Leve
4 Electrónico 570 Día Grave 54 Eléctrico 224 Noche Leve 104 Mecánico 102 Día Leve
5 Electrónico 442 Día Grave 55 Eléctrico 269 Noche Leve 105 Mecánico 222 Día Leve
6 Electrónico 220 Día Grave 56 Eléctrico 297 Noche Leve 106 Mecánico 260 Día Leve
7 Electrónico 533 Día Grave 57 Eléctrico 261 Noche Leve 107 Mecánico 208 Día Leve
8 Electrónico 326 Día Grave 58 Eléctrico 136 Noche Leve 108 Mecánico 175 Noche Leve
9 Electrónico 285 Día Grave 59 Eléctrico 317 Noche Leve 109 Mecánico 279 Noche Leve
10 Electrónico 510 Día Grave 60 Eléctrico 134 Noche Leve 110 Mecánico 111 Noche Leve
11 Electrónico 436 Día Grave 61 Eléctrico 113 Noche Leve 111 Mecánico 114 Noche Grave
12 Electrónico 365 Noche Grave 62 Eléctrico 237 Noche Leve 112 Mecánico 138 Noche Grave
13 Electrónico 222 Noche Grave 63 Eléctrico 283 Noche Leve 113 Mecánico 171 Noche Grave
14 Electrónico 434 Noche Grave 64 Eléctrico 277 Noche Leve 114 Mecánico 97 Noche Grave
15 Electrónico 424 Noche Trivial 65 Eléctrico 123 Noche Leve 115 Mecánico 146 Noche Grave
16 Electrónico 358 Noche Trivial 66 Eléctrico 231 Noche Leve 116 Mecánico 190 Noche Grave
17 Electrónico 222 Noche Trivial 67 Eléctrico 129 Noche Leve 117 Mecánico 168 Noche Grave
18 Electrónico 280 Noche Trivial 68 Eléctrico 241 Noche Leve 118 Mecánico 258 Noche Grave
19 Electrónico 386 Noche Trivial 69 Eléctrico 159 Noche Leve 119 Mecánico 115 Noche Grave
20 Electrónico 346 Noche Trivial 70 Eléctrico 387 Noche Leve 120 Mecánico 127 Noche Grave
21 Electrónico 571 Noche Trivial 71 Eléctrico 311 Noche Leve 121 Montaje 91 Noche Grave
22 Electrónico 222 Noche Trivial 72 Eléctrico 318 Día Leve 122 Montaje 120 Noche Grave
23 Electrónico 293 Noche Trivial 73 Eléctrico 376 Día Leve 123 Montaje 108 Noche Grave
24 Electrónico 488 Noche Trivial 74 Eléctrico 292 Día Leve 124 Montaje 159 Noche Grave
25 Electrónico 449 Noche Trivial 75 Eléctrico 389 Día Leve 125 Montaje 129 Noche Grave
26 Electrónico 600 Noche Grave 76 Eléctrico 146 Día Leve 126 Montaje 231 Noche Grave
27 Electrónico 410 Día Grave 77 Eléctrico 334 Día Leve 127 Montaje 268 Noche Grave
28 Electrónico 271 Día Grave 78 Eléctrico 274 Día Leve 128 Montaje 298 Noche Grave
29 Electrónico 232 Día Grave 79 Eléctrico 113 Día Trivial 129 Montaje 177 Noche Grave
30 Electrónico 252 Día Grave 80 Eléctrico 190 Día Trivial 130 Montaje 230 Noche Grave
31 Electrónico 336 Día Grave 81 Eléctrico 163 Día Trivial 131 Montaje 244 Noche Grave
32 Electrónico 465 Día Grave 82 Eléctrico 115 Día Trivial 132 Montaje 141 Noche Grave
33 Electrónico 374 Día Grave 83 Mecánico 182 Día Trivial 133 Montaje 80 Noche Trivial
34 Eléctrico 374 Día Grave 84 Mecánico 225 Día Trivial 134 Montaje 288 Noche Trivial
35 Eléctrico 573 Día Grave 85 Mecánico 219 Día Trivial 135 Montaje 253 Noche Trivial
36 Eléctrico 346 Día Grave 86 Mecánico 288 Día Trivial 136 Montaje 185 Día Trivial
37 Eléctrico 451 Día Grave 87 Mecánico 166 Día Trivial 137 Montaje 107 Día Trivial
38 Eléctrico 567 Día Grave 88 Mecánico 123 Día Trivial 138 Montaje 260 Día Trivial
39 Eléctrico 545 Noche Grave 89 Mecánico 207 Día Trivial 139 Montaje 245 Día Trivial
40 Eléctrico 278 Noche Grave 90 Mecánico 220 Día Trivial 140 Montaje 131 Día Trivial
41 Eléctrico 242 Noche Grave 91 Mecánico 260 Día Trivial 141 Montaje 113 Día Trivial
42 Eléctrico 242 Noche Grave 92 Mecánico 134 Día Trivial 142 Montaje 261 Día Trivial
43 Eléctrico 247 Noche Grave 93 Mecánico 283 Día Trivial 143 Montaje 118 Día Trivial
44 Eléctrico 262 Noche Trivial 94 Mecánico 325 Día Trivial 144 Montaje 93 Día Trivial
45 Eléctrico 265 Noche Trivial 95 Mecánico 218 Día Trivial 145 Montaje 169 Día Trivial
46 Eléctrico 282 Noche Trivial 96 Mecánico 197 Día Trivial 146 Montaje 289 Día Trivial
47 Eléctrico 283 Noche Trivial 97 Mecánico 250 Día Trivial 147 Montaje 145 Día Trivial
48 Eléctrico 285 Noche Trivial 98 Mecánico 135 Día Trivial 148 Montaje 117 Día Trivial
49 Eléctrico 286 Día Trivial 99 Mecánico 290 Día Trivial 149 Montaje 89 Día Trivial
50 Eléctrico 286 Día Trivial 100 Mecánico 303 Día Trivial 150 Montaje 155 Día Trivial
22
Tabla No 2
Precio del Categoría del
Nº Origen Kilometraje (miles)
componente componente
1 Nacional 153 $75+ Lujo
2 Nacional 23 menos de $25 Económico
3 Importado 76 $75+ Lujo
4 Nacional 24 menos de $25 Económico
5 Importado 89 $75+ Lujo
6 Nacional 24 menos de $25 Económico
7 Nacional 137 $75+ Lujo
8 Importado 159 $75+ Lujo
9 Nacional 28 $25 - $49 Económico
10 Nacional 23 menos de $25 Económico
11 Nacional 21 menos de $25 Económico
12 Importado 17 menos de $25 Económico
13 Importado 34 $25 - $49 Estándar
14 Importado 47 $25 - $49 Estándar
15 Importado 33 $25 - $49 Estándar
16 Importado 41 $25 - $49 Estándar
17 Nacional 20 menos de $25 Económico
18 Importado 22 menos de $25 Económico
19 Importado 21 menos de $25 Económico
20 Nacional 13 menos de $25 Económico
21 Nacional 24 menos de $25 Económico
22 Nacional 32 $25 - $49 Estándar
23 Nacional 109 $75+ Lujo
24 Importado 89 $75+ Lujo
25 Nacional 126 $75+ Lujo
26 Importado 82 $75+ Lujo
27 Nacional 105 $75+ Lujo
28 Nacional 178 $75+ Lujo
29 Nacional 57 $50 - $74 Estándar
30 Importado 50 $50 - $74 Estándar
31 Importado 55 $50 - $74 Estándar
32 Importado 52 $50 - $74 Estándar
33 Importado 66 $50 - $74 Lujo
34 Importado 62 $50 - $74 Lujo
35 Importado 61 $50 - $74 Lujo
36 Importado 59 $50 - $74 Estándar
37 Nacional 68 $50 - $74 Lujo
38 Nacional 62 $50 - $74 Lujo
39 Nacional 57 $50 - $74 Estándar
40 Nacional 65 $50 - $74 Lujo
41 Importado 56 $50 - $74 Estándar
42 Nacional 59 $50 - $74 Lujo
43 Importado 66 $50 - $74 Lujo
44 Nacional 65 $50 - $74 Lujo
45 Importado 56 $50 - $74 Estándar
46 Importado 54 $50 - $74 Estándar
47 Importado 51 $50 - $74 Estándar
48 Nacional 60 $50 - $74 Estándar
49 Nacional 61 $50 - $74 Estándar
50 Nacional 59 $50 - $74 Estándar
23
1.3.4.4. Determinación del tamaño de muestra
El tamaño de muestra constituye el número de elementos que deberán ser seleccionados
de la población meta, ya sea utilizando una técnica probabilística o no probabilística.
Para el cálculo del tamaño de muestra es necesario tener en cuenta algunas
consideraciones previas que se desarrollarán en el capítulo de inferencia.
24
1.3.4.7. Recogida de datos
Llegado el momento previsto para el levantamiento de los datos se procederá utilizando
según sea el caso alguno de los siguientes medios:
25
Ejercicios
3) Seleccione una muestra aleatoria simple de tamaño 10 de los primeros 100 números
naturales.
4) Seleccione una muestra aleatoria simple de tamaño 20 de los 200 primeros números
impares.
26
RELACIÓN DE LOS EMPLEADOS DE LA EMPRESA TEXTILES S.A.
N° Sección Edad Sexo Experiencia laboral (meses) Opinión sobre el curso de capacitación
1 S001 18 F 2 Bueno
2 S001 20 F 4 Bueno
3 S001 25 M 10 Bueno
4 S001 20 F 4 Bueno
5 S001 22 F 5 Bueno
6 S001 23 M 5 Bueno
7 S001 20 F 2 Bueno
8 S001 35 M 13 Bueno
9 S001 35 M 14 Bueno
10 S001 32 M 100 Bueno
11 S001 31 F 20 Bueno
12 S001 33 M 10 Bueno
13 S002 30 F 20 Bueno
14 S002 30 F 20 Malo
15 S002 31 F 100 Malo
16 S002 32 M 110 Malo
17 S002 35 M 15 Malo
18 S002 35 M 15 Malo
19 S002 25 M 12 Malo
20 S002 28 F 45 Malo
21 S002 29 F 50 Malo
22 S002 27 F 40 Malo
23 S002 26 M 20 Malo
24 S003 24 M 10 Malo
25 S003 26 M 25 Malo
26 S003 23 M 5 Malo
27 S003 20 F 2 Malo
28 S003 20 F 2 Malo
29 S003 20 F 4 Malo
30 S003 35 F 15 Malo
31 S003 35 F 15 Malo
32 S003 32 M 9 Bueno
33 S003 31 F 80 Bueno
34 S003 33 M 12 Bueno
35 S003 30 F 20 Bueno
36 S003 30 F 20 Bueno
37 S004 31 M 95 Bueno
38 S004 32 M 6 Bueno
39 S004 35 F 50 Bueno
40 S004 35 F 60 Bueno
41 S004 25 M 20 Bueno
42 S004 26 M 30 Bueno
43 S004 24 M 12 Bueno
44 S004 26 F 35 Bueno
45 S004 23 M 10 Bueno
46 S004 20 F 4 Bueno
47 S004 38 F 20 Bueno
48 S004 39 F 120 Bueno
49 S004 40 F 150 Bueno
50 S004 45 F 100 Malo
27
“Estados Unidos suele ser el país adonde primero llega el futuro, y si sufrimos el
derrumbamiento de nuestras antiguas instituciones, también somos los precursores de una
nueva civilización. Esto significa vivir con una gran incertidumbre. Significa esperar
desequilibrios y trastornos. E implica que nadie posea la verdad plena y definitiva acerca del
lugar al que nos dirigimos o siquiera sobre el rumbo que deberíamos seguir.
Necesitamos percibir por dónde vamos, sin dejar atrás ningún grupo, mientras creamos el
futuro en nuestra esfera. Estos cuantos criterios pueden ayudarnos a distinguir unas políticas
arraigadas en el pasado de la segunda ola de las que tal vez contribuyan a facilitar nuestro
camino hacia el futuro de la tercera ola. El peligro de cualquier lista de criterios estriba, sin
embargo, en que algunas personas sientan la tentación de aplicarlos literal, mecánica e
incluso fanáticamente. Y eso es lo contrario de lo que se requiere.
La tolerancia ante el error, la ambigüedad y sobre todo la diversidad, respaldadas por un
sentido de humor y de las proporciones son herramientas imprescindibles para disponer
nuestro equipo de supervivencia en el asombroso viaje del próximo milenio. Hemos de
prepararnos para la incursión quizá más apasionante de la historia”
Tomado de: La Creación de una Nueva Civilización. Alvin y Heidi Toflfler. Pg. 112-113.
28
2. Prueba de hipótesis
2.1. Conceptos generales.
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la suposición
sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis nula (Ho).
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.
Tipos de errores
Información muestral
Aceptar H0 Rechazar H0
Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.
P(Error I)
El valor es fijado por la persona que realiza la investigación (por lo general varía entre
1% -10%)
Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.
P(Error II)
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
29
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.
Potencia de prueba 1
Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.
Procedimiento general
3. Pruebas estadísticas
4. Supuestos
a) Supuestos para: (, 2 , 1 2 , 21 / 22 ) b) Supuestos para: p, p1 p 2
Poblacion(es) normalmente Muestra(s) tomada(s) al azar.
distribuida(s). Muestra(s) grande(s)
Muestra(s) tomada(s) al azar.
30
5. Regiones críticas
H1: < o
H1: > o
Prueba Bilateral
H1: ≠ o
7. Resultados y conclusiones.
Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)
31
1. Planteo de hipótesis.
H 0 : 800
H 1 : 800
2. Nivel de significación.
0.05
3. Prueba estadística
_
x
Zc ~ N(0.1)
/ n
4. Supuestos.
Población normal.
Muestra tomada al azar.
Áreas Criterios
0.025 0.025 Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95
-1.96 1.96
6. Cálculos
784 800
Zc 2.12
40 / 28
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.
32
Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N( , 2402)
1. Planteo de hipótesis.
H 0 : 240
2 2
H 1 : 240
2 2
2. Nivel de significación.
0.05
3. Prueba estadística
(n 1)s 2
c2 ~ (2n 1)
2
4. Supuestos.
Población normal.
Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si c2 14.07 No se rechaza H0
Si c2 14.07 Se rechaza H0
0.05
0.95
6. Cálculos
(8 1)3002
c
2
10.938
2402
7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.
33
2.2.3.Pruebas de hipótesis para una proporción poblacional.
Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación
se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use
0.05 .
Solución.
Sea p: Proporción de artículos defectuosos.
1. Planteo de hipótesis.
H 0 : p 0.02
H 1 : p 0.02
2. Nivel de significación.
0.05
3. Prueba estadística
p̂ p
Zc ~ N(0.1)
p(1 p)
n
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
Áreas Criterios
0.025 0.025 Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95
-1.96 1.96
6. Cálculos
0.05 0.02
Zc 3.712
0.02(1 0.98)
300
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.
34
Ejercicios
1) Debido al tiempo excesivo que toma la recepción de materiales, el área de logística de una fabrica
de amortiguadores está considerando incorporar otro asistente para el área de almacén. El gerente
considera que la recepción de materiales demora en promedio más de 50 minutos. Setenta casos
tomados al azar toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos.
Fije en 1% y pruebe la hipótesis e indique si será necesario incorporar al asistente.
2) Un químico ha desarrollado un material plástico que, según él, tiene una resistencia media a la
ruptura superior a 29 onzas por pulgada cuadrada. Para comprobar la bondad del método se
tomaron 20 láminas de plástico en mención hallándose que en cada una de éstas que la resistencia
a la ruptura es, respectivamente,
30,1 22,5 28,9 29,8 31,4 27,0 24,3 22,8 22,3 33,4
32,7 27,5 27,7 28,9 30,4 31,2 26,4 29,4 29,1 23,5
3) El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una sustancia
peligrosa) en el agua. Una empresa manufacturera importante produce PCB como aislante
eléctrico descarga pequeñas cantidades de su planta. La gerencia de la compañía, en un intento por
controlar la cantidad de PCB en sus descargas, ha dado instrucciones de parar la producción si la
cantidad media de PCB en el efluente es mayor que 3 pmm. Un muestreo aleatorio de 50
especímenes de agua produjo las siguientes estadísticas: y 3,1 ppm y s 0,5 ppm. ¿Proporcionan
tales estadísticas suficientes pruebas para detener el proceso? Utilice 0,01.
4) Una muestra aleatoria de 64 bolsas de material químico, pesan en promedio, 5.23 onzas con una
desviación estándar de 0.24 onzas. Pruebe la hipótesis de que 5.5 onzas contra la hipótesis
alternativa, 5.5 onzas en el nivel de significancia de 0.05
5) Una empresa afirma que los lotes de cierto producto contienen 2% de artículos defectuosos. Si se
elige una muestra de 100 artículos de dicho lote, y resulta que 8 son defectuosos, ¿es válida la
afirmación de la empresa? Utilice un nivel de significancia de 0.05.
35
6) Un fabricante sostiene que más del 95% de los equipos que envió a una fábrica está acorde con las
especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló que 18 eran
defectuosas. Pruebe la afirmación del fabricante al nivel de significación:
a) 0.01
b) 0.05
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
H 0 : 1 2
2 2
H 1 : 1 2
2 2
2. Nivel de significación.
0.05
3. Prueba estadística
S12 1
Fc 2 2 ~ f ( n1 1, n 2 1)
S 2 1
22
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
36
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025
0.025 Si 0.226 fc 4.43 No se rechaza H0
Si fc < 0.226 o fc > 4.43 Se rechaza H0
0.226 4.43
6. Cálculos 7. Conclusiones.
(0.0042) Con 5% de nivel de significación la
Fc 1.75
(0.0024) información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
H 0 : 1 2
H 1 : 1 2
2. Nivel de significación.
0.05
3. Prueba estadística
37
_ _
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
6. Cálculos
(1.2367 0.9778) (0)
tc 9.561
1 1
0.0033
9 9
7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.
Ejemplo
El departamento de I&D afirma que un nuevo sistema de enfriamiento reducirá la medida de
dilatación de materiales en promedio dos milímetros en un turno de ocho horas. Las
medidas de seis rodajes se registraron antes y después del turno de ocho horas en la siguiente
tabla:
Rodajes
1 2 3 4 5 6
Medida del diámetro antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida del diámetro después 91,7 93,9 97,4 112,8 101,3 84,0
¿La afirmación del departamento de I&D es válida al nivel de significación de 5%? Suponga
que la distribución de las diferencias de medidas los diámetros antes y después del
programa es aproximadamente normal.
Solución.
38
Sean X1: Medida de cintura antes (mm.)
X2: Medida de cintura después (mm.)
1. Planteo de hipótesis.
H 0 : D 2
H 1 : D 2
2. Nivel de significación.
0.05
3. Prueba estadística
dD
tc ~ t n 1
Sd / n
4. Supuestos.
Las diferencias tienen distribución normal.
Áreas Criterios
0.025 0.025 Si -2.57 tc 2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95
-2.57 2.57
6. Cálculos
1.5 2
tc 0.794
1.543 / 6
7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el departamento de I&D .
39
que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los
siguientes resultados:
Use 0.05 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.
1. Planteo de hipótesis.
H0 : p1 p 2
H1 : p1 p 2
2. Nivel de significación.
0.05
3. Prueba estadística
p̂1 p̂ 2
Zc ~ N(0.1)
1 1
p(1 p )
n1 n 2
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
-1.96 1.96
6. Cálculos 7. Conclusiones.
63 60 Con 5% de nivel de significación y a
150 200 partir de la información muestral,
Zc 2.328
1 1 hay diferencias significativas en las
(0.351)(0.649) proporciones que recuerdan los dos
150 200
comerciales.
40
Ejercicios
1) Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de mar
como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121
¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del colapso?
Asuma poblaciones normales. Use 0.05 .
Prueba de muestras independientes
Prueba de
Lev ene para la
igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
conf ianza para la
Dif erenci Error típ. dif erencia
Sig. a de de la
F Sig. t gl (bilateral) medias dif erencia Inf erior Superior
Se han asumido
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
v arianzas iguales
No se han asumido
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
v arianzas iguales
2) Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):
x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122
Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.
41
3) En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se registraron los
siguientes datos acerca de la comparación de residuos de ácido sórbico, en partes por millón, en
jamón inmediatamente después de sumergirlo en una solución de ácido y después de 60 días de
almacenamiento.
Residuos de ácido sórbico en jamón
Rebanada Antes del almacenamiento Después del almacenamiento di
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104
Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al nivel de
significancia de 0.05, para decir que la duración del almacenamiento disminuyen las
concentraciones residuales de ácido sórbico?
Prueba de muestras relacionadas
Diferencias relacionadas
Error 95% Intervalo de
típ. de confianza para la
Desviación la diferencia Sig.
Media típ. media Inferior Superior t gl (bilateral)
198,625 210,165 74,305 22,922 374,328 2,673 7 ,032
antes - después
4) Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica la
exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los sujetos
se colocaron en cámaras de respiración, una de las cuales contenía una alta concentración de CO.
Se realizaron varias mediciones de respiración para cada sujeto en cada cámara. Los sujetos se
colocaron en las cámaras de respiración en una secuencia aleatoria. Los siguientes datos dan la
frecuencia respiratoria en número de respiraciones por minuto.
Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
A un nivel de significación del 5%, se puede afirmar que un ambiente con CO influye sobre la
capacidad de respiración. Asuma normalidad.
42
5) El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa. Un
estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de 616
adultos trabajan utilizando con regularidad una computadora personal, una microcomputadora, un
terminal de computadora o un procesador de texto en su trabajo.
a) ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que utilizan
con regularidad equipo de cómputo en su trabajo excede en mas de 25% Pruebe con 0.03 .
b) Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra se
obtuvo que 105 adultos utilizan con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo ¿Existe
diferencias significativas entre los porcentajes de adultos, de las empresas del sector industrial y
de salud, que utilizan algún equipo de cómputo en su trabajo? Use nivel de significación 0,05.
43
3. Uso de la Distribución Ji-cuadrado
Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:
1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.
La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.
Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.
Variable 2
Columna Columna Columna
...
1 2 c
Fila 1
Fila 2
Variable .
1 .
.
Fila r
Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).
44
Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.
Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 60 29 112
trabajo (calificación Promedio 28 79 60 167
del empleador) Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?
Solución
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)
Calificación en el programa de
capacitación Total
Debajo del Sobre el
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
trabajo (calificación Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
del empleador) Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400
45
Pasos para realizar la prueba de independencia
3) Estadístico de prueba
(oi ei ) 2
k
2
c ~ 2 con v (r 1)(c 1) gl
i 1 ei
0,01
20,01 = 13,277
Criterio:
Si c2 > 13,277 se rechaza H0
Si c2 ≤ 13,277 no se rechaza H0.
5) Cálculos previos
(23 16,80) 2 (28 25,05) 2 (63 45,98) 2
c2 ... 20,18
16,80 25,05 45,98
6) Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.
2
k o
i ei 0,5
2
46
Salida SPSS:
Tabla de contingencia Rendimiento * Aprovechamiento
Rec uento
Aprov echamiento
Debajo del Sobre el
Promedio Promedio Promedio Tot al
Rendimient o Def icient e 23 60 29 112
Muy Bueno 9 49 63 121
Promedio 28 79 60 167
Tot al 60 188 152 400
Pruebas de chi-cuadrado
Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:
Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.
47
2) Fijación del nivel de significación: 0,05.
3) Estadístico de prueba
(oi ei ) 2
k
2
c ~ 2 con v (r 1)(c 1) gl
i 1 ei
0,05
0,05
2
= 5,991
Criterios:
Si c2 > 5,991 se rechaza H0
Si c2 ≤ 5,991 no se rechaza H0
5) Cálculos previos
6) Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son insuficientes
para rechazar que la probabilidad de desintegración es la misma para los tres tipos de
materiales.
Salida SPSS:
Rec uento
Mat erial
A B C Tot al
Estado Des integra 41 27 22 90
Intact o 79 53 78 210
Tot al 120 80 100 300
48
Pruebas de chi-cuadrado
La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.
Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con 4,6 . Use 0,05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:
e x
Pr X x
x!
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr X 13 1 Pr X 13
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:
49
N° mensajes por Frecuencias Probabilidades Frecuencias
k
radio observadas (oi) de Poisson esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0
Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.
50
3) Estadístico de prueba
k
(oi ei ) 2
2
c ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 16,919
Criterios:
Si c2 > 16,919 se rechaza H0
Si c2 ≤ 16,919 no se rechaza H0
5) Cálculos previos
(18 22,4) 2 (47 42,8) 2 (8 8,0) 2
c
2
... 6,7492
22,4 42,8 8,0
6) 4,6
proporciona un buen ajuste.
Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.
51
Total de bombillos defectuosos 1142
pˆ 0,1142
Total de bombillos en las 1000 cajas 10000
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:
10
Pr X x p x 1 p
10 x
x
Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad
Pr X 6 Pr X 6 Pr X 7 Pr X 8 Pr X 9 Pr X 10
Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.
52
Pasos para realizar la prueba de bondad de ajuste
3) Estadístico de prueba
(oi ei ) 2
k
2
c ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 7.815
Criterios:
Si c2 > 7,815 se rechaza H0
Si c2 ≤ 7,815 no se rechaza H0
5) Cálculos previos
(334 297,4) 2 (369 383,4) 2 (43 20,3) 2
c
2
... 37,24
297,4 383,4 20,3
Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?
53
Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.
Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.
Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.
H0: pA = pB = pC
H1: Al menos un p es diferente.
3) Estadístico de prueba
k
(oi ei ) 2
c2 ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 5.991
54
Criterios:
Si c2 > 5,991 se rechaza H0
Si c2 ≤ 5,991 no se rechaza H0-
5) Cálculos previos
(26 20) 2 (21 20) 2 (13 20) 2
c2 4,3
20 20 20
6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia
con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por
sobre las demás.
En esta sección se revisará la prueba de Kolmogorov-Smirnov con la ayuda del SPSS para
realizar los cálculos.
Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use 0,01.
12 15 16 18 19 14 10 15 16 14
A continuación se presentan los resultados obtenidos para esta prueba con SPSS:
55
Prueba de Kolmogorov-Smirnov para una muestra
X
N 10
Parámet ros normales a,b Media 14.90
Desv iación t ípica
2.644
En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.
Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser
mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En
conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.
Ejercicios 8
¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?
56
2) La presencia de agua en el aceite perjudica la salud del lubricante, lo que ocasiona que
pierda sus propiedades. Se desea comprobar si es que esta afecta a todos los tipos de
camiones por igual, para lo cual se evaluó la presencia de agua en el aceite del motor de los
camiones seleccionados en las tres muestras aleatorias para cada tipo de camión,
obteniéndose los siguientes resultados.
Tipo I 3 2 8 13
Tipo II 6 4 3 13
Tipo III 2 6 5 13
Total 11 12 16 39
¿Se puede concluir que la presencia de agua en el aceite afecta a todos los tipos de camiones de
manera similar? Use un nivel de significación del 5%.
¿Se puede concluir que existe relación entre el tiempo de espera y el tipo de servicio que
solicitan los clientes del centro de reparaciones? Use un nivel de significación del 5%.
57
Años vividos Viuda Viudo
Menos de 5 25 39
De 5 a 10 42 40
Más de 10 33 21
¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y
viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la muerte
de su compañero?
Nivel de estrés
Tiempo de cambio
Alto Moderado Bajo
Menor de 15 minutos 7 8 18
15 a 45 minutos 17 9 28
Más de 45 minutos 20 6 7
6) Ante la cercanía de las fiestas navideñas, se han fabricado 300 juguetes utilizando tres tipos
formulaciones diferentes de plástico y luego se realizó una prueba de resistencia con estos
juguetes. Los resultados se muestran en la siguiente tabla:
Mezcla
Resultado
A B C
No resistió 41 27 22
Si resistió 79 53 78
Al nivel de significación del 3%, ¿podría afirmar que la proporción de artículos que no
resisten la prueba de resistencia es la misma al utilizar las 3 formulaciones de plástico?
7) Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:
Calificación A B C D F
Frecuencia 14 18 32 20 16
Pruebe la hipótesis, al nivel de significación de 0,05, de que todas las calificaciones son
igualmente probables.
8) Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.
58
Número de ventas Número de días
0 50
1 75
2 65
3 15
4 5
Se desea verificar cuál es la distribución teórica para el número de ventas que se realiza
diariamente a un nivel de significación del 5%.
9) Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las
proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,
tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de
0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de
5:2:2:1.
10) Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:
Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12
¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un
nivel de significación del 5%.
4.
59
4. Diseños Experimentales
4.1 Introducción
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables, susceptibles a manipulación) de
un proceso o sistema, de manera que sea posible observar e identificar las causas de los cambios
en la variable de salida (variable respuesta, no manipulable).
Suponga por ejemplo que un exportador desea evaluar el efecto de tres métodos de empaque y
dos sustancias preservantes (factores) en el tiempo de duración (variable respuesta) de cierto
alimento. El exportador podría entonces realizar una serie de experimentos para evaluar cuál de
las 6 combinaciones entre método de empaque y sustancia preservante da mejores resultados; a
cada una de estas 6 combinaciones se les denomina tratamientos. Suponga que el exportador
decide realizar 5 repeticiones del experimento con cada tratamiento. Como las condiciones
ambientales (humedad, temperatura, etc.) pueden influir en el tiempo de duración del producto,
los 6 tratamientos deben ser sometidos a prueba en cada réplica en forma simultánea. Dado que
el tiempo de duración promedio del producto es de aproximadamente 10 días, el exportador
decide realizar una réplica quincenal (por ejemplo, empezar la primera réplica con los 6
tratamientos el día primero, la segunda el día 15, la tercera el día primero del siguiente mes y así
sucesivamente).
Este ejemplo ayuda a definir los siguientes términos:
Factor: Es una variable independiente o de entrada que puede afectar los resultados del
experimento. Los factores se pueden clasificar en controlables y no controlables.
Factor en estudio: Un factor en estudio es aquel cuyos valores son controlados y cuyo efecto
será evaluado en los resultados del experimento. El interés principal del experimentador es
evaluar el efecto de estos factores. En el ejemplo anterior, el método de empaque y la sustancia
preservante son dos factores en estudio. A los distintos valores de los factores en estudio que
son evaluados se les llama niveles del factor. En el ejemplo, el factor método de empaque tiene
3 niveles y el factor sustancia preservante 2 niveles.
60
Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos. En el
ejemplo, la variable respuesta puede ser el tiempo de duración observado de cada empaque.
Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño
empleado.
Es importante en este tipo de análisis estadísticos que el experimentador haya seguido de cerca
todos los pasos del experimento, desde el diseño del mismo, hasta el análisis final de los datos.
Analizar datos cuya recogida no fue planificada puede traer ciertos problemas:
Datos inconsistentes: Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto
provoca que los datos recogidos no sean consistentes lo que obviamente traerá confusiones en la
interpretación.
61
Variables altamente correlacionadas: Cuando dos variables del proceso están
correlacionadas, se pueden producir dos tipos diferentes de situación engañosa al analizar datos
recogidos durante las operaciones habituales.
Confusión
Variable1
Variable3
Variable2
Relación no causal
Variable1 Variable2
Variable3
En este capítulo se presentan tres casos de análisis:
Suponga que se cuenta con los resultados de k muestras aleatorias independientes, cada una de
tamaño ni, obtenidas desde k diferentes poblaciones y se desea probar la hipótesis de que las
medias de estas k poblaciones son todas iguales. Las poblaciones que se desea comparar suelen
ser producto de la aplicación de distintos tratamientos a ciertas unidades de análisis. Considere
por ejemplo el caso en el que se desea comparar el efecto de 5 programas de incentivos en la
productividad de los trabajadores; en este caso, los 5 programas de incentivos serían los 5
tratamientos aplicados (los cuales definen las 5 poblaciones que se van a comparar), y la unidad
de análisis sería un trabajador (quien recibe el tratamiento).
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:
62
. . . ... .
. . . ... .
. . . ... .
ni y1n1 y1n2 ... y1nk
Totales yi. y1. y2. ... yk.
En esta tabla
ni
yi. yij
j 1
k
Defina al total de las n. ni observaciones por
i 1
k k ni
y.. yi. yij
i 1 i 1 j 1
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales
se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales
y que tienen variancias iguales.
Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar i por i , donde es la media general para todas las
63
SCE
Error n. – k SCE SCT SC(Tr) CME
n k
k n
y2
n. – 1 SCT y 2
ij
Total i 1 j 1 n
Ejemplo.
El vicepresidente de mercadeo de un banco importante planea poner en marcha cierto tipo de
promociones para atraer nuevos clientes en cuatro sucursales del banco. Él está convencido de
que diferentes tipos de promociones atraerán a personas de diferentes grupos de ingreso, por lo
que, de haber diferencias entre los ingresos promedio de los clientes de cada sucursal, se optará
por un programa de promociones distinto para cada una. Considere a los montos de los
depósitos como una medida representativa de los ingresos de los clientes. En la siguiente tabla
se presentan datos para una muestra aleatoria de 7 depósitos desde cada sucursal (en miles de
soles) ¿Debe el vicepresidente optar por un programa de promociones distinto para cada
sucursal? Evalúe esta posibilidad con un nivel de significación del 5%.
Solución.
H0: 1 = 2 = 3 = 4 = 0
H1: Al menos un i ≠ 0
Los totales para las cuatro muestras son, respectivamente, 27,3, 23,8, 25,8 y 23,1, el gran total
es 100, y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:
2
4 7
yij
i 1 j 1 (100) 357,1429
2
n. 28
64
SCT (5,3) 2 (2,6) 2 . . . (4,1) 2 357,14 27,0171
(27,3) 2 (23,8) 2 (25,8) 2 (23,1) 2
SC(Tr) 357,1429 1,5686
7
Puesto que el valor obtenido para Fc es menor que 3,01, que corresponde al valor F 0,05 con 3 y
24 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; se concluye entonces que no se puede rechazar la hipótesis de que las medias de los
depósitos en las 4 sucursales son iguales y la recomendación sería no implementar programas de
promociones diferentes para cada sucursal.
A continuación se presenta la salida del SPSS para el análisis de variancia para una vía de este
ejemplo, junto con las pruebas para la verificación de los supuestos.
Deposito
Estadístico
de Levene gl1 gl2 Sig.
.037 3 24 .990
Con un valor de probabilidad de 0.99, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de homogeneidad de variancias.
Supuesto de Normalidad:
65
Prueba de Kolmogorov -Smirnov para una muestra
Residuo para
Deposito
N 28
a,b
Parámetros normales Media .0000
Desviación típica
.97084
Con un valor de probabilidad de 0.993, el resultado de esta prueba indica que no hay suficiente
evidencia estadística para rechazar el supuesto de normalidad.
Análisis de Variancia:
ANOVA
Deposito
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 1.569 3 .523 .493 .690
Intra-grupos 25.449 24 1.060
Total 27.017 27
Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u
observaciones. En esta sección se asumirá que todas las muestras tienen n repeticiones. Estas
pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par de
tratamientos.
La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiado de mínima significación, Rp, dado por
66
R p S X .rp
CME
Sx
n
El valor de rp depende del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para 0,05 y
0,01 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.
Ejemplo
Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.
Determine qué medias difieren de las otras. Use un nivel de significación 0.05 .
67
Solución:
Laboratorio B C D A
Media 0,227 0,230 0,250 0,272
0.0017
SX 0.0119
12
Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para 0.05 y
44 grados de libertad:
p 2 3 4
rp 2,85 3,00 3,09
p 2 3 4
Rp 0,034 0,036 0,037
68
B C D A
0,227 0,230 0,250 0,272
ANOVA
Peso de recubrimiento
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos .01556 3 .00519 3.133 .0349
Intra-grupos .07283 44 .00166
Total .08839 47
Peso de recubrimiento
a
Duncan
Subconjunto para alfa
= .05
Laboratorio N 1 2
B 12 .2267
C 12 .2300
D 12 .2500 .2500
A 12 .2717
Sig. .192 .199
Se muestran las medias para los grupos en los
subconjuntos homogéneos.
a. Usa el tamaño muestral de la media
armónica = 12.000.
2CME
SX
n
69
y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la
distribución t de Student con los grados de libertad del error como se muestra a continuación:
DMS t 1 / 2 S X
Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye
que hay diferencias significativas entre dicho par de tratamientos.
Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.
Los datos a analizar pueden arreglarse en una tabla como la que se muestra a continuación:
70
Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1
donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
: Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
ij : Es el error aleatorio correspondiente a la observación yij.
a b
i 1
i 0
j 1
j 0
a b
y..2
SCT yij2
i 1 j 1 ab
a
yi2. y..2
SC(Tr)
i 1 b ab
b y.2j y..2
SCB
j 1 a ab
71
SCE SCT SC(Tr) SCB
Tabla del análisis de variancia
Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
yi2. y..2
a
SC(Tr) CM(Tr)
Tratamientos a-1 SC(Tr) CM(Tr) FT
i 1 b ab a 1 CME
b y.2j y..2 SCB
Bloques b-1 SCB CMB
j 1 a ab b 1
SCE
Error (a - 1)(b - 1) SCE SCT SC(Tr) SCB CME
(a 1)(b 1)
a b
y..2
Total ab - 1 SST y ij2
i 1 j1 ab
Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la
razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se
hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las
diferencias individuales para los niveles del bloque.
Ejemplo
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los
lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra
fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de
laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los
siguientes resultados:
¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre
sí? ¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación?
Utilice un nivel de significación de 0,05.
Solución
1. Las hipótesis nula y alterna son.
H 0 : 1 2 3
H 1 : No todas las son iguales
72
2. El nivel de significación: 0,05 .
3. Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados
de libertad.
Para bloques, se rechaza la hipótesis nula si F > 3,84, el valor de F0,95 para 4 y 8 grados de
libertad.
4. Cálculos.
a b
Sustituyendo a = 3, b. = 5, y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y y
i 1 j 1
2
ij 4336,97
2
3 5
yij
i 1 j 1 (218,1) 3171,17
2
ab (15)
SCT 4336,97 3171,17 1165,80
(81,6) 2 (65,5) 2 (70,9) 2
SC(Tr) 3171,17 26,57
5 5 5
(63,9) 2 (11,1) 2
SCB ... 3171,17 1117,26
3 3
SCE SCT SC(Tr) SCB 21,96
5. Decisión.
Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.
A continuación se presentan los resultados obtenidos con SPSS para el análisis de variancia.
73
Pruebas de los efectos inter-sujetos
Usualmente en los experimentos se desea estudiar el efecto de dos o más factores. Por diseño
factorial se entiende que en cada ensayo o réplica completa del experimento se investigan todas
las combinaciones posibles de los niveles de los factores.
Por ejemplo.
Factor A: con a niveles
Factor B: con b niveles.
74
Entonces cada réplica puede contener todas la ab combinaciones de los tratamientos.
75
Modelo de efectos mixtos
Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los
otros factores, también considerados en el estudio, son fijados por el investigador.
En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.
Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo que se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería. El ingeniero decide probar los
tres materiales de la placa con tres niveles de temperatura, 15, 70 y 125°F, ya que estos niveles
de temperatura son consistentes con el medio ambiente donde se usará finalmente el producto.
Se prueban cuatro baterías con cada combinación del material de la placa y la temperatura, y las
36 pruebas se corren de manera aleatoria. La tabla siguiente muestra los resultados obtenidos.
Las observaciones de un experimento factorial de este tipo pueden describirse con el siguiente
modelo:
76
En este modelo es el efecto de la media global, i es el efecto del nivel i-ésimo del factor A,
j es el efecto del nivel j-ésimo del factor B, ( )ij es el efecto de la interacción entre i y j ,
y ijk es un componente de error aleatorio. Se supone que los errores tienen distribución normal
con media cero y variancia constante.
H 0 : ( )ij 0 i, j Ho: No hay interacción entre los dos factores en estudio
H1: Hay interacción entre los dos factores en estudio
H1 : al menos un ( )ij 0
En este caso el análisis es el siguiente: Se fija un nivel de uno de los factores y se compara
las medias de los niveles del otro factor.
Fijando ai: Ho: No hay diferencia en las medias de los niveles del factor B.
H1: Hay diferencia en las medias de los niveles del factor B.
Fijando bj: Ho: No hay diferencia en las medias de los niveles del factor A.
H1: Hay diferencia en las medias de los niveles del factor A.
77
4.5.4. Descomposición de la suma de cuadrados
Ho: No hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
H1: Hay interacción entre el tipo de material y la temperatura sobre la vida de la batería.
Se rechaza H0 (Sig. = 0,019), por lo que se concluye que existe un efecto de interacción entre el
tipo de material y la temperatura sobre la vida de la batería, por lo tanto se debe analizar los
efectos simples. Por lo tanto las hipótesis serán:
78
Fijamos 15°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 70°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos 150°F: Se comparan los tiempos medios de M1 y M2; M1 y M3; M2 y M3.
Fijamos M1: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M2: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
Fijamos M3: Se comparan los tiempos medios de 15°F y 70°F; 15°F y 150°F; 70°F y 150°F.
79
A los 70°F, el tipo de material 3 (M3) parece tener el tiempo medio de vida mayor, seguida
del tipo de material 2, teniendo un tiempo medio menor el tipo de material 1, el cual parece
ser la peor opción.
Analizando las pruebas de comparación se tiene
µ1 µ2 µ3
Conclusión: Al nivel de significación del 5%, se puede concluir que a los 70°F las baterías
fabricadas con el tipo de material M1 tendrán menor tiempo de vida, mientras que las que
sean fabricadas con los tipos de material 2 y 3, en promedio, tendrán el mismo tiempo.
A los 150°F, el tipo de material M3 parece ser la mejor opción. Con los tipos de material M1
y M2 se obtienen tiempos medios más bajos e indistinguibles, sin embargo el análisis de la
comparación de medias nos indica que al nivel se significación del 5% no se encontró
diferencia entre ellos.
Conclusión: Al nivel de significación del 5%, a los 150°F no importa el tipo de material que
se use.
Se puede analizar de igual forma fijando los niveles del otro factor.
80
Seguidamente, se muestran las salidas para validar los supuestos:
Resi duo
para vida
N 36
Parámetros normalesa,b Media ,0000
Desviación típica
22,82276
81
Ejercicios 9
Total
Disposición 1 14 13 9 15 11 13 14 10 12 111
Disposición 2 10 12 9 7 11 8 12 9 10 13 101
Disposición 3 11 5 9 10 6 8 8 7 6 70
282
y 2
ij 3030
Salidas de SPSS:
82
2) En un estudio se investigó la importancia de los valores éticos corporativos entre personas
que se especializan en mercadotecnia. Los datos siguientes muestran las puntuaciones sobre
la evaluación realizada; las puntuaciones más altas indican valores éticos mayores.
a) Indique el modelo lineal e interprete sus componentes.
b) Usando 0,05 pruebe si hay diferencias significativas en la importancia de los
valores entre los tres grupos.
c) De rechazar la hipótesis nula en b), realice la prueba de DMS.
Salidas de SPSS:
83
3) Un ingeniero industrial prueba cuatro diferentes disposiciones de los anaqueles de una
tienda de departamentos que cuenta con seis cuadrillas de trabajadores para ensamblar.
Cada cuadrilla monta los anaqueles en cada una de las cuatro diferentes disposiciones y se
mide el tiempo que emplean (en minutos).
Sabiendo que, yij2 68 281,53 , pruebe con un nivel de significación de 0,01 si las
cuatro disposiciones producen distintos tiempos promedio de montaje.
84
Salidas de SPSS:
85
4) En un estudio se asignan tres dietas por un período de tres días a cada uno de seis sujetos en
un diseño de bloques completos al azar. A los sujetos, que juegan el papel de bloques, se les
asignan las siguientes tres dietas en orden aleatorio.
Dieta 1: mezcla de grasa y carbohidratos
Dieta 2: alta en grasa
Dieta 3: alta en carbohidratos
Al final del período de tres días cada sujeto se coloca un aparato para caminata y se mide el
tiempo de duración del agotamiento en segundos. Se registraron los siguientes datos:
Sujeto Total
Dieta I II III IV V VI
1
2
84
91
35
48
91 57
71 45
56
61
45
61
368
377
y 2
ij
108064
86
5) Una empresa de pedidos por correo diseñó un experimento factorial para investigar el
efecto que tiene el tamaño de un anuncio en revistas y el diseño mismo del anuncio, sobre
la cantidad de pedidos recibidos (en miles). Se consideraron tres diseños de anuncios y dos
tamaños de anuncios. Los datos que se obtuvieron aparecen en la tabla siguiente. Aplique el
procedimiento de análisis de variancia para experimentos factoriales e investigue si hay
efectos apreciables debidos al tipo de diseño, tamaño del anuncio o interacción entre esos
dos factores. Use 0,05 .
87
Salidas de SPSS:
88
6) La empresa MOVITEL S.A. desea investigar el número de reclamos que realizan los
usuarios de diferentes tipos de servicios y el motivo del reclamo. Para ello recoge la
información en tres semanas diferentes que se muestra en la siguiente tabla:
Servicio
Motivo del
Internet Internet Móvil Teléfono Cable
reclamo
32 34 30 15
Instalación 28 33 35 20
31 38 37 22
26 24 32 26
Sobre
23 32 28 25
facturación
24 31 34 22
Servicio 27 32 30 20
No 25 29 27 15
Disponible 28 33 31 22
Utilizando las siguientes salidas obtenidas con el SPSS y un nivel de significación del 5%,
responda a las siguientes preguntas.
a) Valide los supuestos.
b) ¿Existirán diferencias en la cantidad de reclamos por parte de los usuarios en relación a
los servicios y motivos considerados?
c) Para cada tipo de reclamo ¿Cuál(es) es (son) el (los) tipo(s) de servicio(s) más críticos?
Salidas de SPSS:
89
90
5. Análisis de Regresión Lineal Simple
El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede
usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen
conocidos los valores de la otra.
El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.
Ejemplos
¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?
Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.
91
C:Tercer tipo
Ejemplo 1
La alcaldesa de cierta ciudad desea dar de baja a un conjunto de autos que emitan excesiva
cantidad de Monóxido de nitrógeno (NO); por ser uno de los elementos que contamina el
medio ambiente, los técnicos y asesores desean saber, si la cantidad de Monóxido de
nitrógeno (NO en mg/m3) expulsado por los autos se relaciona con la antigüedad de los
autos. Para el estudio seleccionaron una muestra de 10 autos y les solicitaron que utilizaran
una nueva gasolina reformulada que acaba de ingresar al mercado, y posteriormente hicieron
la medición respectiva.
92
2009 2 4,8
2000 11 12,97
2004 7 5,92
1995 16 20,66
2002 9 10,16
2009 2 4,17
1999 12 13,52
2007 4 1,33
La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).
Considere el siguiente modelo para describir la relación entre los valores de las variables X e
Y
yi 0 1 xi i
y sea yˆ ˆ ˆ x la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
0 1
minimiza es:
n
(y
i 1
i yˆ i ) 2
Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
93
n
n
yi
i 1
n 0 1 xi
i 1
n
n n 2
i 1
x y
i i 0 i
x
i 1
1 xi
i 1
n n n
n xi y i xi y i
ˆ1 i 1 i 1 i 1
2
y ˆ0 y ˆ1 x
n 2 n
n xi xi
i 1 i 1
La pendiente de la recta y
La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)
Punto de corte
yˆ i ˆ0 ˆ1 xi Pendiente
Ejemplo
Estime la ecuación de la recta del ejemplo anterior.
Antigüedad
Nº del auto Monóxido de Nitrógeno (mg/m3): Y XY X2 Y2
(años): X
94
8 2 4,17 8,34 4 17,3889
9 12 13,52 162,24 144 182,7904
10 4 1,33 5,32 16 1,7689
Suma 68,00 80,49 810,69 688,00 988,18
Y yˆ i ˆ0 ˆ1 xi
(xi, yi)
yi
yi yˆ i
yi y
yˆ i y
y
x xi X
( yi y ) ( yˆ i y ) ( yi yˆ i )
(y 2 2
i
i 1 i 1
n n n
( yˆ i y ) 2 ( yi yˆ i ) 2 2 ( yˆ i y )( yi yˆ )
i 1 i 1 i 1
Operando algebraicamente se obtiene la siguiente relación:
n n n
( yi y ) 2 ( yˆ i y ) 2 ( yi yˆ i ) 2
i 1 i 1 i 1
SCT SCR SCE
95
Sumas de Cuadrados
2
n
yi
( yi y ) 2 yi2 i 1
n n
SCT
i 1 i 1 n
n
2
n 2
xi
n n
SCR ( yˆ i y ) 1 ( xi x ) 1 xi
ˆ ˆ
2 2 2 2 i 1
i 1 i 1 i 1 n
n
SCE ( yi yˆ i ) 2 SCT SCR
i 1
96
5.1.5. Supuestos de la Regresión
Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.
Los errores o residuos tienen media igual a cero y varianza igual a 2. Se
suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se
muestra el valor de la media de los residuos y su varianza.
SCE SCE
Se CME
n p n2
97
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por varía dentro del
intervalo de -1 y 1. Si 0 entonces no existe correlación o asociación lineal entre las
variables, conforme más cercano a 1 ó a -1 sea, mayor será la asociación, y cuando es
exactamente 1 ó -1 la asociación es perfecta.
1 n
cov( X , Y ) ( xi x )( yi y )
n i 1
r
S X SY 1 n 1 n
n i 1
( xi x ) 2
.
n i 1
( yi y ) 2
n n n
n xi yi xi yi
i 1 i 1 i 1
n 2 n 2 n 2 n 2
n xi xi .n yi yi
i 1 i 1 i 1 i 1
ˆ0 t / 2 s
x 2
i
t
ˆ0 0*
~ t ( n2)
nS xx
s
xi2
nS xx
s ˆ1 1*
ˆ1 t / 2 t ~ t ( n2)
S xx s
S xx
98
5.1.10. Inferencia sobre el coeficiente de correlación
Para probar las hipótesis:
H0 : 0
H1 : 0
5.1.11. Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:
Valor medio
1 ( x0 x ) 2
yˆ 0 t ( n2, / 2) Se
n S xx
Valor individual
1 ( x0 x ) 2
yˆ 0 t ( n 2, / 2) Se 1
n S xx
x 2
Donde: S xx x xi x
2 i 2
i
n
Otra forma:
2
SCR S
S xx 2 e
ˆ1 S b1
Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.
99
Referente al ejercicio sobre la cantidad de monóxido de nitrógeno emitido, se calcula el
coeficiente de correlación lineal de las variables, la recta estimada, y se realizan las pruebas
de hipótesis para los coeficientes:
Correlaciones
Y.MONOXIDO X.ANTIGUEDAD
**
Y.MONOXIDO Correlación de Pearson 1 ,950
Sig. (bilateral) ,000
N 10 10
**
X.ANTIGUEDAD Correlación de Pearson ,950 1
Sig. (bilateral) ,000
N 10 11
**. La correlación es significativa al nivel 0,01 (bilateral).
b
Resumen del modelo
b
ANOVA
Total 340,318 9
a
Coeficientes
100
1 (Constante) ,111 1,120 ,099 ,924 -2,471 2,693
Unstandardized
Residual
N 14
a,b
Parámetros normales Media ,0000000
101
Desviación típica ,91132730
Diferencias más extremas Absoluta ,118
Positiva ,105
Negativa -,118
Z de Kolmogorov-Smirnov ,443
Sig. asintót. (bilateral) ,990
Pronósticos
102
d. Con 95% de confianza, ¿cuál será la cantidad emitida de monóxido de nitrógeno cuando un
auto tiene 20 años de antigüedad?
e. Con 95% de confianza, ¿cuál será la cantidad promedio emitida de monóxido de nitrógeno
cuando un auto tiene 20 años de antigüedad?
f. ¿Qué porcentaje de la variabilidad de la cantidad emitida de monóxido de carbono por el
auto es explicada por el modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que la emisión de monóxido de
nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75?
Solución:
a) Verificación de supuestos:
Unstandardized Residual
N 10
a,b
Parámetros normales Media ,0000000
Desviación típica 1,91145221
Diferencias más extremas Absoluta ,191
Positiva ,109
Negativa -,191
Z de Kolmogorov-Smirnov ,603
Sig. asintót. (bilateral) ,860
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
b
Resumen del modelo
103
b
Resumen del modelo
a
Coeficientes
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo de
regresión estimado es significativo.
β1= 1.1674. Si antigüedad del auto aumenta en un año, la emisión de monóxido de nitrógeno
será de 1.1674 mg/m3
104
H1: β1 > 0.85
1.1674 0.85
tcalculado 2.351 tcritico (0.05;8) 1.8595
0.135
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que por cada incremento de
un año de antigüedad del auto, la cantidad emitida de monóxido de nitrógeno se incrementará en
más de 0.85 (mg/m3).
1 20 6.8
2
23.45824.. 2.3060014 2.0274 1
10 225.6
Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno,
cuando un auto tiene 20 años de antigüedad, se encontrará entre 17.061 y 29.855 unidades de
mg/m3.
1 20 6.8
2
23.45824.. 2.3060014 2.0274
10 225.6
IC = < 19.09165 ; 27.8248 >
Interpretación: Con un nivel de confianza del 95%, se estima que la emisión de nitrógeno
promedio, cuando un auto tiene 20 años de antigüedad, se encontrará entre 19.092 y 27.825
unidades de mg/m3.
f) Explicación de la variabilidad
105
El 90.3% de la variabilidad de la cantidad de monóxido de nitrógeno emitida por un auto es
explicada por el modelo de regresión estimada.
0.9505 10 2
t cal 8.6498 tcritico (0.05;8) 2.3060041
1 0.9034
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significancia del 5% se puede afirmar la antigüedad del auto
está correlacionado con la emisión de monóxido de nitrógeno.
h) Prueba de hipótesis para un valor del coeficiente de correlación
Ho: ρ0 = 0
H1: ρ0 < 0.75
10 3 (1 0.9505)(1 0.75)
Zcal ln 2.286
2 (1 0.9505)(1 0.75)
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, no se puede afirmar que la emisión de
monóxido de nitrógeno y la antigüedad del auto están correlacionadas en menos de 0.75.
Ejemplo 2:
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:
106
Correl aciones
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 6.288 1 6.288 34.756 .000 a
Resi dual 1.628 9 .181
Total 7.916 10
a. Variables predictoras: (Constante), TEMPER_X
b. Variable dependiente: AZUCAR_Y
Coef icientesa
107
f. Con 95% de confianza, ¿cuál será la cantidad media de azúcar trasformada cuando la
temperatura sea de 2 º F?
g. ¿Qué porcentaje de la variabilidad de la cantidad de azúcar trasformada es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la de azúcar trasformada y la
temperatura están correlacionadas en más de 0.90?
108
5.2. Regresión no lineal
Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se
gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por β0 e β1 x . Si se
toma logaritmos a la ecuación y 0 e 1 x esta se convierte en:
ln y ln 0 1 x
y * 0* 1 x .................. (1)
la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser
tratada bajo los mismos lineamientos presentados en la sección anterior.
Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se
muestran algunas transformaciones importantes:
Transformación
Forma funcional que relaciona y con x Función
apropiada
Exponencial y 0 e 1 x y* ln y y* f ( x)
y* ln y
Potencia y 0 x 1 y* f ( x*)
x* ln x
1 1
Recíproca y 0 1 x* y f (x*)
x x
1
y*
Función 1 y
y y* f ( x*)
hiperbólica 0 1 x 1
x*
x
Función exponencial
y y
0
1 0
1 0
0
x x
Función potencia
109
y 1 1 y
0 1 1
1 0
0
x x
Función recíproca
y y
0
1 0
1 0
0
x x
Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):
Millas conducidas (en miles) x Porcentaje usable y Lny
1 98,2 4,587
2 91,7 4,519
5 81,3 4,398
10 64,0 4,159
20 36,4 3,595
30 32,6 3,484
40 17,1 2,839
110
SOLUCION:
a. Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la
estimación con SPSS.
Lineal
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5675.152 1 5675.152 69.795 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 406.557 5 81.311
.966 .933 .920 9.017 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-2.040 .244 -.966 -8.354 .000
(en miles)
(Constante) 91.660 5.080 18.042 .000
Cuadrático
111
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5997.661 2 2998.830 142.721 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 84.048 4 21.012
.993 .986 .979 4.584 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-3.924 .497 -1.858 -7.900 .001
(en miles)
X: Millas conducidas
.048 .012 .922 3.918 .017
(en miles) ** 2
(Constante) 99.897 3.330 29.998 .000
Potencia
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2.142 1 2.142 26.270 .004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .408 5 .082
.917 .840 .808 .286 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(X: Millas conducidas
-.428 .084 -.917 -5.125 .004
(en miles))
(Constante) 126.278 25.995 4.858 .005
La v ariable dependient e es ln(Y: Porcentaje usable).
Exponencial
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2.496 1 2.496 229.924 .000
R R cuadrado corregida la estimación Residual .054 5 .011
.989 .979 .974 .104 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-.043 .003 -.989 -15.163 .000
(en miles)
(Constante) 99.496 5.840 17.036 .000
La v ariable dependiente es ln(Y : Porcentaje usable).
Validación: ( α = 1.5%)
Ho: β 2 = 0 (El modelo de regresión No es significativo)
H1: β 2 = 0 (El modelo de regresión Si es significativo)
Sig = 0.017 > 0.015
112
Decisión: No se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo cuadrático
no es válido.
Decisión: Se rechaza Ho
Conclusión: Con un nivel de significación del 5%, se puede afirmar que el modelo exponencial
es válido.
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.600 .059 78.369 .000
X: Millas conducidas
-.04278 .003 -.989 -15.163 .000
(en miles)
a. Variable dependient e: LnY
de dónde se tiene que ˆ0 e 4.6 99.484 aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:
yˆ 99,484 e 0,04278 x
n 7
Xo 15 Prom X 15.42857
Yo 52.37390244 Sxx 1363.714
LnYo 3.958408422
T(0.025;5) 2.570581836
Se 0.104187608
113
IC = < < 39,33352; 69,73762 >
Ejercicios 20
1. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el
roce entre dos piezas provoca un calentamiento que, a su vez, produce la soldadura
entre ambas. Suponga que se realiza un experimento sobre este tipo de soldadura,
haciendo rodar a una velocidad prefijada (en m/mn) una pieza y llevándola hasta el
reposo mediante el rozamiento con otra pieza. El calor generado por este rozamiento
provoca una soldadura de presión caliente cuya resistencia medimos en ksi. Los datos
del experimento se recogen en la tabla siguiente. Se está tratando de analizar el efecto
que tiene la velocidad sobre la resistencia de la soldadura.
Velocidad 90,31 87,32 99,77 99,86 99,42 100,98 102,81 103,73 105,2 89,18 98,21
Resistencia 63,79 56,9 82,76 84,48 86,21 87,93 90,5 94,83 96,55 64,69 81,03
De las salidas siguientes responda las siguientes preguntas; a excepción de las preguntas e
y f respectivamente:
114
a. Elabore el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use 0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada incremento de la
velocidad en una unidad, la resistencia se incrementará en más de 0.55 (ksi)?
e. Con 95% de confianza, ¿cuál será la resistencia de la soldadura cuando la velocidad
sea de 105 m/mn?
f. Con 95% de confianza, ¿cuál será la resistencia media de la soldadura cuando la
velocidad sea de 105 m/mn?
g. ¿Qué porcentaje de la variabilidad de la resistencia de la soldadura es explicada por el
modelo de regresión estimada?
h. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
i. Con un nivel de significación del 5%, ¿se puede afirmar que la resistencia de la
soldadura y la velocidad aplicada están correlacionadas en menos de 0.42?
115
CO en muestras de aire. Esta calibración implica que debe comprobar que no hay
diferencias significativas entre la concentración verdadera de CO (x) y la
concentración medida por el espectrómetro (y). Para ello toma 11 muestras de aire en
las que conoce su verdadera concentración de CO y las compara con la concentración
medida por el espectrómetro. Los datos son los siguientes (las unidades son ppm):
Concentración de CO 0 10 20 30 40 50 60 70 80 90 100
Concentración medida espect. 1 12 20 29 38 48 61 68 79 91 97
De las salidas siguientes responda las siguientes preguntas; a excepción de la pregunta e:
116
cuando concentración de CO en el aire sea de 105 ppm?
f. ¿Qué porcentaje de la concentración medida por el espectrómetro es explicada por el
modelo de regresión estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
3. Suponga que un ingeniero que labora en una distribuidora eléctrica de cierta ciudad de
Canadá, desea encontrar un modelo matemático que le permita predecir el consumo de
electricidad en su localidad a partir de las temperaturas mínimas que se pronostican
para el día siguiente. Los datos que tiene son una muestra la temperatura pronosticada
y el consumo real:
Temperatura
pronosticada (º C) -12 0 13 25 -7,5 18,5 15,5 28 14,5 20
Consumo(megawatios) 15,5 13,5 11 8,5 14,8 9,85 10,5 8,5 10 9,5
117
a. Interpretar el
diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use 0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de la de
la temperatura en un grado centígrado, el consumo de electricidad disminuirá en más
de 0.2 megawatios?
e. Con 95% de confianza, ¿cuál será el consumo de electricidad el consumo de
electricidad cuando la temperatura sea de -18 ºC?
f. ¿Qué porcentaje del consumo de electricidad es explicada por el modelo de regresión
estimada?
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
118
a. Interpretar el diagrama de dispersión para los datos.
b. Analice los supuestos del modelo. Use 0,05.
c. Estime el modelo y valide dicho modelo utilizando un nivel de significación del 5%.
Interprete la pendiente.
d. ¿Se puede afirmar, a un nivel de significación del 5%, que por cada aumento de una
fábrica en la ciudad, el contenido de SO2 en el aire se incrementará en más de 0.03
unidades.
e. Con 95% de confianza, ¿cuál será el contenido de SO2 en el aire cuando el número de
fábricas sea 800?
f. ¿Qué porcentaje de la variabilidad del contenido de SO2 en el aire es explicada por el
modelo de regresión estimada?
119
g. ¿Existe asociación lineal entre las variables en estudio? Utilice 5%
h. Con un nivel de significación del 5%, ¿se puede afirmar que el contenido de SO2 en el
aire y el número de fábricas están correlacionadas en más de 0.92?
Lineal
Cuadrático
120
Potencia
Exponencial
121
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime la dureza del acero si la deformación que sufre el acero es de 40 mm. Utilice un
intervalo de predicción del 95%.
c. Estime la dureza media del acero si la deformación que sufre el acero es de 30 mm.
Utilice un intervalo de predicción del 95%.
Lineal
122
Cuadrático
Potencia
Exponencial
123
a. Determine, valide, escriba e interprete el mejor modelo de regresión y analice los datos
considerando un nivel de significación del 5%.
b. Estime el gasto mensual de un mes si el tiempo de conexión del internet es de 1100
minutos. Utilice un intervalo de predicción del 90%.
c. Estime el gasto mensual promedio si el tiempo de conexión del internet es de 1200
minutos. Utilice un intervalo de predicción del 95%.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1
Lineal
124
Cuadrático
Potencia
Exponencial
125
¿Qué es el éxito?
““Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por
poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda
derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta
de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich
Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”
tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%
del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.
Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en
alguna empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos
van juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le
brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable
que padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este
libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,
sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un
consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo
cierto.
Fría, tosca, tolerante y efectiva.
Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.
126
6. Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con
un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.
y 0 1 x1 2 x2 k xk
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
: error aleatorio.
127
1 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X1;
manteniendo constante x2,….. xk.
2 : Cambio promedio en la variable dependiente por cada cambio unitario en la variable X2,
manteniendo constante x1, ….. xk.
: Error aleatorio asociado a Y.
Estimación de los parámetros el modelo
Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:
0
y1 1 x11 x12 ... x1k 1
y 1 x 21 x 22 ... x 2 k 1
Y 2 X β 2 ε 2
yn 1 x n1 xn 2 ... x nk
k n
donde Y Xβ ε .
Los valores ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora correspondiente,
manteniendo constantes las otras variables de predicción.
Los errores estándar y la covarianza de los estimadores ˆ0 , ˆ1 , ˆ2 ,..., ˆk se determinan mediante
los elementos de la matriz ( X ' X) 1 de la siguiente manera:
128
c00 c01 c02 ... c0 k
c c11 c12 ... c1k
10
X X
´ 1
c 20 c 21 c 22 ... c 2 k
c k 0 ... c kk
c k1 ck 2
Los errores estándar de los coeficientes estimados ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k son:
ˆ c00
0
ˆ c11
1
ˆ c 22
2
ˆ c kk
k
SCE
Se CME
n p
129
útil para comparar el poder predictivo de modelos alternativos con diferente número de
variables independientes:
n 1
2
rcorregido 1 (1 r 2 )
n p
H0 : i 0
H1 : i 0
ˆi
tc ~ t ( n p )
ˆ
I
donde ˆ s cii
i
H 0 : 1 2 ... k 0
H1 : Al menos un i es diferente de cero
CMR
Fc ~ F( p 1, n p )
CME
130
Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su
estimación puntual y el error estándar como se muestra a continuación:
6.10. Multicolinealidad
Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.
Cuando dos variables tienen una alta correlación, los coeficientes ˆ0 , ˆ1 ,..., ˆk , estimadores de
0 , 1 ,... k no son confiables. La estimación ˆ k de k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.
Una variable predictora debe tener una correlación fuerte con la variable dependiente.
Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por
debajo de la menor de las dos correlaciones entre las variables predictoras y la variable
dependiente).
Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente
puede producir un coeficiente de regresión negativo si la correlación con otra variable
independiente es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para
evaluar la importancia relativa de las distintas variables independientes. Cuando las
variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico
de la variable dependiente. Por esto, es difícil separar la influencia individual de cada
variable independiente cuando la multicolinealidad está presente.
Ejemplo 1
El objetivo radica en determinar una ecuación de regresión para la producción de gasolina
expresada como un porcentaje respecto al total de petróleo crudo como una función lineal de las
propiedades de destilación de cierto tipo de petróleo crudo.
131
Se han identificado las siguientes variables de predicción:
X1: la gravedad del petróleo crudo (°API) o densidad;
X2: la presión de vapor del petróleo crudo (psi);
X3: el punto de 10% ASTM para el petróleo crudo (°F)
X4: el punto final ASTM para la gasolina (°F).
Los primeros dos miden la gravedad y la presión de vapor del petróleo crudo. El punto de 10%
ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final
para la gasolina es la temperatura para la cual se ha evaporado todo el líquido.
Los datos del estudio se muestran en la tabla siguiente:
Registros Y X1 X2 X3 X4
1 24,8 29,5 7,5 226 460
2 28 38,4 7,1 220 365
3 34,9 40,3 2,4 228 395
4 38,2 52,6 1,85 217 572
5 23,2 32,2 7,3 384 172
6 25,8 33,8 6,8 356 328
7 48,1 50,8 1,2 210 273
8 36,1 41,3 5,6 195 358
9 32,1 38,1 4,5 205 444
10 34,7 50,8 2,9 195 345
11 31,7 32,2 3,5 236 402
12 33,6 38,4 3,05 220 410
13 30,4 40 2,85 217 340
14 20,6 30,8 8,6 275 347
15 27,8 32,3 6,1 297 416
16 45,7 55,8 2,8 190 427
YX1X2X3X4
132
YX1X2X3
b
Resumen del modelo
YX1X2X4
b
Resumen del modelo
133
YX1X3X4
b
Resumen del modelo
YX2X3X4
b
Resumen del modelo
134
YX1X2
b
Resumen del modelo
YX1X3
b
Resumen del modelo
YX1X4
135
b
Resumen del modelo
Y2X3
b
Resumen del modelo
YX2X4
b
Resumen del modelo
136
b
Resumen del modelo
YX3X4
b
Resumen del modelo
YX1
b
Resumen del modelo
137
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Durbin-Watson
a
1 ,870 ,758 ,740 3,84324 2,166
YX2
b
Resumen del modelo
YX3
b
Resumen del modelo
138
YX4
b
Resumen del modelo
SOLUCION:
a. Análisis de la multicolinealidad
139
Analizar en valor absoluto cada coeficiente de correlación:
140
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
a
1 Regresión 712,940 2 356,470 32,961 ,000
Total 853,534 15
Con un nivel de significación de 0.05, la gravedad del petróleo crudo y la presión del petróleo
crudo son significativas al modelo, y está expresado por:
a
Coeficientes
Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.007 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, la gravedad del petróleo y la presión de vapor
del petróleo crudo son significativas para el modelo.
141
β1 = 0.494
Cuando la gravedad de petróleo crudo se incrementa en una unidad °API y manteniendo
constante la presión de vapor del petróleo crudo, la producción de gasolina se incrementa en
0.494 %.
β2 = -1.359
Cuando la presión de vapor del petróleo crudo se incrementa en un psi y manteniendo constante
la gravedad de petróleo crudo, la producción de gasolina disminuye en 1.359 %.
Unstandardized
Residual
N 16
a,b
Parámetros normales Media ,0000000
Desviación típica 3,06153243
Diferencias más extremas Absoluta ,111
Positiva ,101
Negativa -,111
Z de Kolmogorov-Smirnov ,444
Sig. asintót. (bilateral) ,989
Se rechaza Ho
142
H1: Los errores están autocorrelacionados.
b
Resumen del modelo
Se rechaza Ho
g. Intervalo de confianza utilizando el programa SPSS: colocar debajo del último dato de
X1 y X2, 60 y 5 respectivamente, luego ejecutar el programa.
Con un nivel de confianza del 95%, se espera que la producción promedio de gasolina
cuando la gravedad del petróleo sea de 60 ºAPI y la presión del vapor del petróleo crudo
sea de 5 psi, sea de 34.457 y 48.914 %.
Ejemplo2
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados.
Actualmente, la administración se encuentra examinando el proceso de distribución desde el
almacén y está interesada en estudiar los factores que afectan los costos de distribución del
almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la
que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los
costos de distribución del almacén, las ventas y el número de pedidos recibidos.
143
1 386 4015 52,95 13 372 3977 62,98
2 446 3806 71,66 14 328 4428 72,30
3 512 5309 85,58 15 408 3964 58,99
4 401 4262 63,69 16 491 4582 79,38
5 457 4296 72,81 17 527 5582 94,44
6 458 4097 68,44 18 444 3450 59,74
7 301 3213 52,46 19 623 5079 90,50
8 484 4809 70,77 20 596 5735 93,24
9 517 5237 82,03 21 463 4269 69,33
10 503 4732 74,39 22 389 3708 53,71
11 535 4413 70,84 23 547 5387 89,18
12 353 2921 54,08 24 415 4161 62,98
Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
yi 0 1 x1 2 x2 i i 1, 2, . . . , 24
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos
A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
SPSS.
Análisis de la Multicolinealidad
144
Variables Correlaciones Correlaciones de Y
predictoras entre Xi y Xj con cada Xi Análisis
rYX1 = 0.843 No existe
X1 Vs. X2 r X1X2 = 0.8 rYX2 = 0.917 multicolinealidad
Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo
de regresión lineal múltiple entre las variables analizadas, y está expresado por:
Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.
Ho: β1 = 0
H1: β1 ≠ 0
Sig = 0.028 < 0.05
Se rechaza Ho
Ho: β2 = 0
H1: β2 ≠ 0
Sig = 0.000 < 0.05
Se rechaza Ho
Conclusión. Con un nivel de significación de 0.05, las ventas y el número de pedidos son
significativas al modelo.
β1 = 0.0486
145
Cuando las ventas se incrementan en una unidad y manteniendo constante el número de pedidos,
el costo de distribución se incrementa en 0.0486 unidades.
β2= 0.0119
Cuando el número de pedidos se incrementan en una unidad y manteniendo constante las ventas,
el costo de distribución se incrementa en 0.0119 unidades.
Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se
obtienen las siguientes tablas.
Ho: β0 = 0
H1: β0 ≠ 0
Sig = 0.602 > 0.05
Decisión: No se rechaza Ho
R cuadrado
b
Modelo R R cuadrado corregida Error típ. de la estimación Durbin-Watson
a
1 ,998 ,996 ,996 4,74504 2,270
Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:
146
Mes Costo de Costo estimado ( ŷ ) Residual
distribución (y) yˆ 0.04614 x1 0.01141x2 (y- ŷ )
1 52.95 ? ?
2 71.66 64.0049 7.6551
3 85.58 84.1994 1.3806
4 63.69 67.1316 -3.4416
5 72.81 70.1033 2.7067
Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.
147
Ejercicios 21
1) Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad (%),
temperatura del aire (ºF) y presión barométrica (lb/pulg2) influyen en la emisión de óxido
nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, en
condiciones experimentales variantes. Los datos son los siguientes:
YX1X2X3
148
YX1X2
YX1X3
149
YX2X3
YX1
YX2
150
YX3
151
Contenido de SO2 Nº de fábricas Nº de horas Nº de empleados
10 213 260 36
13 91 380 100
12 453 360 67
17 454 420 86
56 412 620 127
36 80 515 114
29 434 485 111
14 136 396 116
10 207 255 128
24 368 455 115
110 3344 815 122
YX1X2X3
152
Y X1X2
YX1X3
YX2X3
153
YX1
YX2
154
YX3
155
YX1X2X3
YX1X2
156
YX1X3
YX2X3
YX1
157
YX2
YX3
158
de 0.05.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Estime puntualmente la resistencia cuando el tiempo de secado sea de 3.8 min, la temperatura
de secado de 140°F y el % de algodón en la fibra de 14%.
g. Halle un intervalo de predicción al 98% para la resistencia promedio cuando el tiempo de
secado sea de
3.8 min, la temperatura de secado de 140°F y el % de algodón en la fibra de 14%.
4) Una empresa de desarrollo de software desea establecer un modelo que permita relacionar
sus Ventas en función del número de pedidos de los tipos de software que desarrolla
(Sistemas, Educativos y Automatizaciones Empresariales). Para tal propósito analiza 10
proyectos, seleccionados aleatoriamente, de los que fueron atendidos en el presente año.
En la Tabla se ha registrado Ventas miles de $); Nº pedidos de sistemas), Nº de pedidos de
Aplicaciones Educativas y Nº de pedidos de Automatizaciones empresariales.
YX1X2X3
159
YX1X2
YX1X3
160
YX2X3
YX1
161
YX2
YX3
162
significación de 0.01.
d. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
e. Probar los supuestos del modelo de regresión lineal múltiple.
f. Es posible afirmar que por un software adicional de Aplicaciones Educativas,
permaneciendo constante las demás variables las ventas aumentan en más de 1000 dólares.
Use un α=0.05.
g. Estime puntualmente las ventas cuando el número de pedidos para Sistemas,
Aplicaciones Educativas y Automatizaciones empresariales sea de 53, 100 y 71
respectivamente.
h. Halle un intervalo de predicción al 95% para las ventas promedio cuando el número de
pedidos para Sistemas, Aplicaciones Educativas y Automatizaciones empresariales sea de
53, 100 y 71 respectivamente.
5) Los siguientes datos corresponden al uso mensual de agua de una planta de producción
(galones) a su producción mensual (toneladas), la media de la temperatura ambiente
mensual (°F), y el número mensual de días de operación de la planta durante un período de
12 meses.
Con las salidas siguientes responda las preguntas que se presentan a continuación:
163
YX1X2X3
YX1X2
164
YX1X3
YX2X3
YX1
165
YX2
YX3
166
a. Determine si hay multicolinealidad, justifique su respuesta.
b. Valide el modelo de regresión lineal múltiple seleccionado, usando un nivel de significación
de 0.01.
c. Determine el modelo de regresión estimado e interprete los coeficientes de regresión.
d. Probar los supuestos del modelo de regresión lineal múltiple.
e. Con un nivel de confianza del 99%, elabore un intervalo de confianza para el consumo de
agua mensual, cuando la producción mensual es de 80 tn., la temperatura promedio es de 70 ºF
y los días de operación al mes es de 22.
6) A doce unidades de acero reducido en frío con contenidos diferentes de cobre y diferentes
temperaturas de recocido se les mide su dureza con los resultados que se muestran en la
siguiente tabla. Ajuste una ecuación de la forma y 0 1 x1 2 x2 e , donde x1
representa el contenido de cobre, x2 representa la temperatura de recocido y y representa la
dureza.
Correlaciones
Y X1 X2
Correlaci ón de Pearson Y 1.000 .208 -.925
X1 .208 1.000 .000
X2 -.925 .000 1.000
Sig. (unilateral) Y . .258 .000
X1 .258 . .500
X2 .000 .500 .
N Y 12 12 12
X1 12 12 12
X2 12 12 12
167
Resumen del modelob
ANOVAb
Suma de Media
Model o cuadrados gl cuadrática F Sig.
1 Regresión 1152.189 2 576.094 40.087 .000 a
Resi dual 129.340 9 14.371
Total 1281.529 11
a. Variables predictoras: (Constante), X2, X1
b. Variable dependiente: Y
Interval o de
Coeficientes no Coeficientes confianza para B al
estandari zados estandari zados 95%
Límite Límite
B Error típ. Beta t Sig. inferior superior
1 (Constante) 161.336 11.433 14.112 .000 135.474 187.199
X1 32.969 16.754 .208 1.968 .081 -4.931 70.868
X2 -8.550E-02 .010 -.925 -8.735 .000 -.108 -.063
a. Variable dependiente: Y
Sin X1
Resumen del modelob
ANOVAb
Suma de Media
Model o cuadrados gl cuadrática F Sig.
1 Regresión 1096.537 1 1096.537 59.275 .000 a
Resi dual 184.992 10 18.499
Total 1281.529 11
a. Variables predictoras: (Constante), X2
b. Variable dependiente: Y
168
Coef ici entesa
Análisis de residuales
Hist ograma
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Y
Variable dependiente: Y
Frec uencia
5
1. 00
. 75
. 50
Prob acum e sperada
. 25
1 Std. De v = . 95
Mean = 0. 00
0 N = 12. 00
0. 00
-1.50 -1.00 -.50 0. 00 . 50 1. 00 1. 50 0. 00 . 25 . 50 . 75 1. 00
Gráfico de dispersión
Variable dependiente: Y
Regresión Residuo tipificado
1. 5
1. 0
.5
0. 0
-.5
-1.0
-1.5
-2.0
-1.5 -1.0 -.5 0. 0 .5 1. 0 1. 5
169
y x2 PRE_1 RES_1 LMCI_1 UMCI_1 LICI_1 UICI_1
78.9 1000 79.13 -.23 74.50 83.76 68.49 89.78
65.1 1100 70.58 -5.48 67.55 73.61 60.53 80.63
55.2 1200 62.03 -6.83 59.00 65.06 51.98 72.08
56.4 1300 53.48 2.92 48.85 58.11 42.84 64.13
80.9 1000 79.13 1.77 74.50 83.76 68.49 89.78
69.7 1100 70.58 -.88 67.55 73.61 60.53 80.63
57.4 1200 62.03 -4.63 59.00 65.06 51.98 72.08
55.4 1300 53.48 1.92 48.85 58.11 42.84 64.13
85.3 1000 79.13 6.17 74.50 83.76 68.49 89.78
71.8 1100 70.58 1.22 67.55 73.61 60.53 80.63
60.7 1200 62.03 -1.33 59.00 65.06 51.98 72.08
58.9 1300 53.48 5.42 48.85 58.11 42.84 64.13
1150 66.31 63.54 69.07 56.33 76.28
7) Con la finalidad de estudiar los daños sufridos al trasladar equipos industriales, el gerente de
una compañía de mudanzas solicitó los últimos registros de los pesos de los equipos (en miles
de libras), las distancias a que fueron trasladados (en miles de millas) y los daños sufridos (en
dólares). Con la información solicitada corrió un análisis de regresión múltiple con el software
SPSS, los resultados se muestran a continuación:
Correlations
Model Summaryb
ANOVA
Sum of
Model Squares df Mean Square F Sig.
1 Regression 10690.097 2 5345.049 35.218 .000
Residual 1062.403 7 151.772
Total 11752.500 9
170
Coeffi ci entsa
St anda
rdized
Unstandardized Coef f ici 95% Conf idence
Coef f icients ents Interv al f or B
St d. Lower Upper
B Error Beta t Sig. Bound Bound
1 (Constant) 22.583 17.264 1.308 .232 -18.240 63.406
Peso (miles de libras) 27.371 3.276 .953 8.355 .000 19.625 35.118
Dist ancias (miles de millas) 11.365 7.341 .177 1.548 .166 -5.994 28.723
a. Dependent Variable: Daño (en dólares)
171
7. Series de Tiempo
Introducción:
Hoy en día, las empresas, comercios e industrias tienen que planificar y proyectarse en el futuro con el afán
de superarse y progresar. La planificación y a su vez la previsión se suelen basar en lo que ha ocurrido en las
experiencias previas, una de las técnicas más utilizadas para hacer inferencias sobre el futuro en base a lo
ocurrido en el pasado es el análisis de series de tiempo.
Este análisis nos va a permitir responder preguntas como ¿Cómo saber si nuestras ventas han ido en
aumento? ¿Tendremos suficiente productos para abastecer la demanda en temporada alta? ¿El costo del
componente electrónico cubrirá el gasto de compra de las materias primas del próximo trimestre? ¿Cuál será
la demanda de electricidad para el próximo mes?
Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos
numéricos que se obtienen en períodos regulares y específicos a través del tiempo.
Y = T.C.E.I
donde :
7.2 Componentes
7.2.1Tendencia
La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el crecimiento
o disminución de la serie durante un período largo.
172
Y
Años
Las fuerzas básicas responsables de la tendencia de una serie de tiempo son población, crecimiento,
inflación de precios, cambios tecnológicos e incrementos de la productividad.
Años
Para estudiar los ciclos se requiere información de por lo menos15 sa 20 años.
El estudio de los ciclos ha
sido descartado por ciertos autores que consideran que dicho componente puede ser asimilado por el
componente de tendencia.
El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.
173
7.2.4 Componente irregular
Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por ejemplo a
causa de huelgas, imprevistos, corte de energía eléctrica, pero también con la misma naturaleza aleatoria
de la variable.
El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos observados
de la serie de tiempo es el de mínimos cuadrados. Para el análisis, Y es la variable que se está
analizando y T es un valor codificado que se usa para representar el año, trimestre o mes según el
periodo especificado.
Ejemplo
Se registran las ventas trimestrales de bombillas LED de una importante compañía eléctrica durante
el período 2005-2012. Con los datos registrados estimar la ecuación de tendencia.
174
2006 9,447 4 9,018 2010 10,889 4 9,84
2007 8,388 1 9,193 2011 11,14 1 9,751
2007 9,831 2 9,351 2011 10,183 2 9,646
2007 10,409 3 9,493 2011 10,398 3 9,524
2007 11,351 4 9,619 2011 9,853 4 9,386
2008 8,701 1 9,728 2012 9,103 1 9,231
2008 8,168 2 9,821 2012 8,234 2 9,06
2008 9,752 3 9,897 2012 8,758 3 8,872
2008 10,826 4 9,956
Estos valores de la variable dependiente Y, sin estacionalidad, son los que debemos
analizar con ayuda del paquete estadístico SPSS para los cuatro tipos de tendencias:
Lineal, Cuadrático, Exponencial y Potencia.
Ajustar la mejor ecuación de tendencia para los datos sin estacionalidad, Utilice un nivel
de significación del 5%.
Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, permitieron
seleccionar el modelo cuadrático por ser aquel modelo que tiene el mayor R cuadrado.
175
Y: Ventas (miles de nuevos soles)
ANOVA
Cuadrático
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Coeficientes
Coeficientes no Coeficientes
estandarizados estandarizados
Los datos de una serie de tiempo se registran mensuales o trimestrales por lo que son muy
utilizados para hacer proyecciones de futuras transacciones en las organizaciones,
comercio e industria.
Los pronósticos que usan series de tiempo mensual o trimestral se hacen, por lo general,
para 1 a 12 meses o para 1 a 4 trimestres futuros.
176
El analista debe tener de 4 a 7 años de datos mensuales o trimestrales para realizar los
cálculos necesarios para la estacionalidad.
Ejemplo 1
Trimestres
Año I II III IV
2010 33 36 45 51
2011 36 42 47 53
2012 36 45 49
Solución:
Total móvil de
Año Trim. Demanda
4 trimestres
1 33
2010 2 36
165
3 45
177
168
4 51
174
1 36
176
2 42
2011 178
3 47
178
4 53
181
1 36
183
2 45
2012
3 49
2 36
2010 165 41.25
3 45
168 42
4 51
174 43.5
1 36
176 44
2 42
2011 178 44.5
3 47
178 44.5
4 53
181 45.25
1 36
183 45.75
2 45
2012
3 49
178
3. Calcular el promedio móvil centrado (PMC)
4. Calcular el porcentaje del valor real (Y) con respecto al valor del promedio móvil
centrado (PMC) para cada trimestre de la serie.
Se observa que 42.25 está a la altura del 3er trimestre del 2010, por esto el cálculo de
IE empieza desde aquí. El primer valor se calcula de la siguiente manera:
Y 45
x 100 x100 108.11
PMC 42.25
179
3 45 41.63 108.11
168 42
4 51 42.75 119.30
174 43.5
1 36 43.75 82.29
176 44
2 42 44.25 94.92
2011 178 44.5
3 47 44.50 105.62
178 44.5
4 53 44.88 118.11
181 45.25
1 36 45.50 79.12
183 45.75
2 45
2012
3 49
5. Organizar los valores del índice estacional (IE) calculados en la última columna de la
tabla anterior en la siguiente tabla por trimestres.
Trimestres
Año I II III IV
2010 108,1081 119,2982
2011 82,2857 94,9153 105,6180 118,1058
2012 79,1209
Promedio 80,7033 94,9153 106,8630 118,7020 401,18364 Suma
400
Constante de ajuste 0,997
401.18
Índices
desajustados*constante de
Trimestres ajuste IEA
I 80,7033*0,9970 80,4652
II 94,9153 94,6352
III 106,8630 106,5478
IV 118,7020 118,3518
180
Total de índices estacional 400,00
Media de los índices estacionales 100,00
Y sin
Año Trim. Demanda IEA
estacionalidad
1 33 80.47 41.01
2 36 94.64 38.04
2010
3 45 106.55 43.17
4 51 118.35 43.09
1 36 80.47 42.25
2 42 94.64 42.27
2011
3 47 106.55 44.11
4 53 118.35 44.78
1 36 80.47 43.50
2 45 94.64 44.38
2012
3 49 106.55 45.99
4 118.35
Es decir,
Y sin
t estacionalidad
1 41,01
2 38,04
3 43,17
4 43,09
5 42,25
6 42,27
7 44,11
8 44,78
181
9 43,50
10 44,38
11 45,99
12
Lineal
ANOVA
Resumen del modelo Suma de Media
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
R R cuadrado corregida la estimación Regresión 29,010 1 29,010 16,153 ,003
Residual 16,164 9 1,796
,801 ,642 ,602 1,340 Total 45,174 10
La variable independiente es t.
La variable independiente es t.
Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
B Error típico Beta t Sig.
t ,514 ,128 ,801 4,019 ,003
(Constante) 39,881 ,867 46,019 ,000
Cuadrático
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 29,249 2 14,624 7,347 ,015
R R cuadrado corregida la estimación Residual 15,925 8 1,991
,802 ,647 ,559 1,411 Total 45,174 10
La variable independiente es t.
La variable independiente es t.
Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
B Error típico Beta t Sig.
t ,714 ,593 1,114 1,203 ,264
t ** 2 -,017 ,048 -,321 -,346 ,738
(Constante) 39,448 1,549 25,459 ,000
Potencia
ANOVA
Resumen del modelo Suma de Media
La variable independiente es t
182
Coeficientes
Coeficientes
Exponencial ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
R R cuadrado corregida la estimación Regresión ,016 1 ,016 15,057 ,004
,791 ,626 ,584 ,033
La variable independiente es t. Residual ,010 9 ,001
Total ,026 10
Se observa que el modelo cuadrático es el que tiene el Rcuadrado = 64.7% de valor más alto.
El siguiente modelo a analizar es el modelo lineal, con un Rcuadrado = 64.2% el segundo valor
más alto.
183
Para pronosticar el valor de la demanda para el cuarto trimestre del 2012 se utiliza el modelo lineal
validado, Y = 39.881 + 0.514 t
Y = 39.881 + 0.514*12 = 46.049 (demanda sin estacionalidad)
Pronóstico
Y sin
Año Trimestre t estacionalidad IEA Y con estacionalidad
2012 4 12 46,049 118,35 54,499
Ejemplo 2
Nokia Lumia 610 facilita la conexión y el contacto con amigos, proporcionando acceso instantáneo a las
redes sociales y unificando todos los contactos del móvil, correo, Facebook, Twitter y LinkedIn, en un sólo
lugar. Las empresas de redes sociales han visto incrementada sus ventas registradas (en miles de dólares)
durante los dos últimos años.
I 4308
I 2129
II 4652
II 3078
2011 2012
III 4890
III 3501
IV 4720
IV 3984
a. Calcular los índices estacionales. Interpretar el índice estacional del cuarto trimestre. Use un
promedio móvil centrado de 3 trimestres.
184
Ordenando los valores del IE en la tabla siguiente:
Año I II III IV
2011 73,35 87,42 89,06
2012 92,34 93,31 97,85
Promedio 92,3362176 83,3302138 92,6363927 82,09958571 350,40241 Suma
Índices
desajustados*constante de
ajuste
Trimestres IEA
I 92.3362*1.14 105,405916
II 83.3302*1.14 95,1251606
III 92.6364*1.14 105,748579
IV 82.0995*1.14 93,7203437
Total de índices estacional 400
Media de los índices estacionales 100
Interpretación:
Se puede decir que en el cuarto trimestre, por efecto de la estacionalidad, las ventas disminuyeron
en 6.28% respecto al promedio anual.
b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para la serie
desestacionalizada en función del tiempo usando el modelo potencia. Estime el primer
trimestre del año 2013.
Coeficientes
Coeficientes no Coeficientes
estandarizados estandarizados
0.396
Modelo potencia: Y = 2239.342X
185
Estime la venta para el año 2013 (con estacionalidad).
Y con E =
t Y sin E IEA (Y sin IE*IEA)*100
2239.342*9^0.396 = 5634.85
9 5345.65 105.41
Ejercicios 22
186
c. Interpretar los índices estacionales calculados.
d. Sobre la base de la información anterior, pronostique la venta futura para el
próximo trimestre del 2012
187
Con sus conocimientos de series de tiempo, ayude al ingeniero industrial a realizar los
siguientes cálculos:
a. Calcule los índices estacionales. Interprete el índice estacional del cuarto trimestre.
Use un promedio móvil centrado de 3 trimestres.
b. La siguiente salida de SPSS muestra los resultados de la estimación del modelo para
la serie desestacionalizada en función del tiempo, usando el modelo potencia:
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
188
Y sin Y con
X(trimestres) Estacionalidad IEA Estacionalidad
9
2013 10
11
12
3. Los siguientes datos corresponden a los ingresos trimestrales de una empresa de venta y
servicio de software para el periodo 2005 - 2012.
189
8.1 Tipos de Pronósticos
De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres
principales criterios.
• El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos
últimos ayudan a establecer el curso general de la organización en un plazo largo de
tiempo, mientras que los primeros se utilizan para diseñar las estrategias que se
utilizarán inmediatamente y serán ejecutadas por niveles medios en la organización.
• El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno
micro y macro, y cómo es que aquí se generan diferente tipos de detalles en una
organización. Estos tipos de detalles son el micro pronóstico y el macro pronóstico. Un
ejemplo de micro pronóstico es que el gerente de producción sepa cuanto se necesitará
para la producción anual de un producto determinado, mientras que un macro detalle
sería conocer el incremento en la carga tributaria (impuestos) que el gobierno aplicará en
el siguiente año fiscal.
• El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el
primero se aplica cuando se emite el juicio de una persona, mientras que los
cuantitativos se refieren a procesos mecánicos que dan como resultado datos
matemáticos.
El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores
dependen de los llamados parámetros de atenuación. Una vez que se han elegido tales
parámetros, es fácil calcular los pronósticos, el método se puede adaptar fácilmente para
considerar los factores estacionales y tendencias.
Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es
llamada atenuación exponencial doble. En algunos casos seria necesario extender este
proceso hasta una atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la
atenuación exponencial triple puede manejar casi todas las demás series de tiempo del
negocio.
190
• Las observaciones se ponderan asignando pesos mayores ”alfa” a las mas recientes, para
la siguiente α*(1- α)y así sucesivamente
• El valor real de α determina el grado hasta el cual la observación más reciente puede
influir en el valor del pronóstico, es decir cuando α tiende a :
• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.
• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.
191
Gráfico de límites de señal de rastreo
+1.5
+ 1.0
Señal de
Rastreo + 0.5
-0.5
-1.0
-1.5
5 10 15 20
25
Número de Observaciones
et Yt Yˆ
et : error de pronóstico en periodo t
Yt : valor real en el periodo t
Yˆ : valor del pronóstico en el periodo t
Desviación Absoluta de la Media
n
Y t Yˆ
DAM t 1
n
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original
Y
n
Yˆ
2
t
EMC t 1
192
n
El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.
n Yt Yˆ
Yt
t 1
PEMA
n
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie
PME
n
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico
Ejemplo 1
Una empresa importadora de equipos hidráulicos obtuvo la representación de una marca alemana de motores
para piscinas domiciliarias; el fabricante solicita información real y estimada de las ventas ( en miles de
dólares) y desea que se realicen diversas medidas del error y señal de rastreo para cada pronóstico e
identificar si alguno se encuentra fuera de control.
Trimestre
Año
I II III IV
2008 2790 3785 3370 3075
2009 2949 3857 3453 3283
2010 3102 4142 3605 3261
2011 3257 4361 3856 3606
2012 3339 4513
La cifra correspondiente al trimestre II del 2012, es una cifra aproximada para el cierre de junio 2012.
a. Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9
193
α= 0.1 α= 0.3 α= 0.5 α= 0.7 α= 0.9
t Trimestre Ventas( Y) Yestimado Yestimado Yestimado Yestimado Yestimado
1 2008-1 2790
2 2008-2 3785 2790.0000 2790.0000 2790.0000 2790.0000 2790.0000
3 2008-3 3370 2889.5000 3088.5000 3287.5000 3486.5000 3685.5000
4 2008-4 3075 2937.5500 3172.9500 3328.7500 3404.9500 3401.5500
5 2009-1 2949 2951.2950 3143.5650 3201.8750 3173.9850 3107.6550
6 2009-2 3857 2951.0655 3085.1955 3075.4375 3016.4955 2964.8655
7 2009-3 3453 3041.6590 3316.7369 3466.2188 3604.8487 3767.7866
8 2009-4 3283 3082.7931 3357.6158 3459.6094 3498.5546 3484.4787
9 2010-1 3102 3102.8137 3335.2311 3371.3047 3347.6664 3303.1479
10 2010-2 4142 3102.7324 3265.2617 3236.6523 3175.6999 3122.1148
11 2010-3 3605 3206.6591 3528.2832 3689.3262 3852.1100 4040.0115
12 2010-4 3261 3246.4932 3551.2983 3647.1631 3679.1330 3648.5011
13 2011-1 3257 3247.9439 3464.2088 3454.0815 3386.4399 3299.7501
14 2011-2 4361 3248.8495 3402.0461 3355.5408 3295.8320 3261.2750
15 2011-3 3856 3360.0646 3689.7323 3858.2704 4041.4496 4251.0275
16 2011-4 3606 3409.6581 3739.6126 3857.1352 3911.6349 3895.5028
17 2012-1 3339 3429.2923 3699.5288 3731.5676 3697.6905 3634.9503
18 2012-2 4513 3420.2631 3591.3702 3535.2838 3446.6071 3368.5950
b. Calcule todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.1
194
α = 0.1
195
α = 0.5
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3287.5000 82.5000 82.5000 6806.2500 0.0245 0.0245
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3328.7500 -253.7500 253.7500 64389.0625 0.0825 -0.0825
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3201.8750 -252.8750 252.8750 63945.7656 0.0857 -0.0857
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 3075.4375 781.5625 781.5625 610839.9414 0.2026 0.2026
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3466.2188 -13.2188 13.2188 174.7354 0.0038 -0.0038
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3459.6094 -176.6094 176.6094 31190.8713 0.0538 -0.0538
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3371.3047 -269.3047 269.3047 72525.0147 0.0868 -0.0868
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3236.6523 905.3477 905.3477 819654.3787 0.2186 0.2186
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 3689.3262 -84.3262 84.3262 7110.9033 0.0234 -0.0234
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3647.1631 -386.1631 386.1631 149121.9289 0.1184 -0.1184
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3454.0815 -197.0815 197.0815 38841.1346 0.0605 -0.0605
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3355.5408 1005.4592 1005.4592 1010948.2602 0.2306 0.2306
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 3858.2704 -2.2704 2.2704 5.1547 0.0006 -0.0006
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3857.1352 -251.1352 251.1352 63068.8851 0.0696 -0.0696
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3731.5676 -392.5676 392.5676 154109.3178 0.1176 -0.1176
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3535.2838 977.7162 977.7162 955928.9712 0.2166 0.2166
SUMA 2468.2838 7026.8874 5038685.5753 1.8586 0.4529
n = 17 CEF
PROMEDIO 413.3463 296393.2691 0.1093 0.0266
DAM EMC PEMA PEM
196
α = 0.9
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado
Yt estimado Error abs(Y-Yest) (Y-Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000 995.0000 995.0000 990025.0000 0.2629 0.2629
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3685.5000 -315.5000 315.5000 99540.2500 0.0936 -0.0936
4 2008-4 3075
0.1*3370+(1-0.1)*2799.9500 3401.5500 -326.5500 326.5500 106634.9025 0.1062 -0.1062
5 2009-1 2949
0.1*3075+(1-0.1)*2805.6505 3107.6550 -158.6550 158.6550 25171.4090 0.0538 -0.0538
6 2009-2 3857
0.1*2949+(1-0.1)*2808.3440 2964.8655 892.1345 892.1345 795903.9661 0.2313 0.2313
7 2009-3 3453
0.1*3857+(1-0.1)*2809.7506 3767.7866 -314.7866 314.7866 99090.5721 0.0912 -0.0912
8 2009-4 3283
0.1*3453+(1-0.1)*2820.2230 3484.4787 -201.4787 201.4787 40593.6484 0.0614 -0.0614
9 2010-1 3102
0.1*3283+(1-0.1)*2826.5508 3303.1479 -201.1479 201.1479 40460.4638 0.0648 -0.0648
10 2010-2 4142
0.1*3102+(1-0.1)*2831.1153 3122.1148 1019.8852 1019.8852 1040165.8486 0.2462 0.2462
11 2010-3 3605
0.1*4142+(1-0.1)*2833.8242 4040.0115 -435.0115 435.0115 189234.9866 0.1207 -0.1207
12 2010-4 3261
0.1*3605+(1-0.1)*2846.4869 3648.5011 -387.5011 387.5011 150157.1396 0.1188 -0.1188
13 2011-1 3257
0.1*3261+(1-0.1)*2854.4869 3299.7501 -42.7501 42.7501 1827.5723 0.0131 -0.0131
14 2011-2 4361
0.1*3257+(1-0.1)*2858.5520 3261.2750 1099.7250 1099.7250 1209395.0504 0.2522 0.2522
15 2011-3 3856
0.1*4361+(1-0.1)*2862.5365 4251.0275 -395.0275 395.0275 156046.7267 0.1024 -0.1024
16 2011-4 3606
0.1*3856+(1-0.1)*2877.5211 3895.5028 -289.5028 289.5028 83811.8423 0.0803 -0.0803
17 2012-1 3339
0.1*3606+(1-0.1)*2887.3059 3634.9503 -295.9503 295.9503 87586.5653 0.0886 -0.0886
18 2012-2 4513
0.1*3339+(1-0.1)*2894.4928 3368.5950 1144.4050 1144.4050 1309662.7411 0.2536 0.2536
SUMA 1787.2883 8515.0110 6425308.6847 2.2411 0.2512
n = 17 CEF
PROMEDIO 500.8830 377959.3344 0.1318 0.0148
DAM EMC PEMA PEM
La señal de rastreo nos indica que para ningún valor de α la señal de rastreo se encuentra bajo control, es
decir, el proceso muestra niveles fuera del rango admisible. (+ / - 1.5), por lo tanto No se recomienda usar
ningún α.
c. Compare los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA y
la Señal de rastreo)
Método del
pronóstico DAM EMC PEMA PME
α = 0.1 446.0100 36615.171 0.1142 0.1109
α = 0.3 398.6403 272774.55 0.1047 0.0466
α = 0.5 413.3463 296393.27 0.1093 0.0266
α = 0.7 462.4899 336119.58 0.1223 0.0183
α = 0.9 500.8830 377959.33 0.1318 0.0148
197
El PEMA, porcentaje del error medio absoluto, se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
Por eso debemos buscar un valor pequeño del PEMA. El mejor pronóstico sería con α = 0.03, siempre y
cuando se encuentre dentro del rango permisible (+/- 1.5)
d. Con el modelo elegido pronostique el ingreso por ventas para el tercer trimestre del 2011.
Supongamos que el mejor modelo elegido es aquel en el que se utilizó α = 0.3
α = 0.3
t Trimestre Ventas( Y) Yt+1 = αYt + (1 - α)Yt estimado Yt estimado
1 2008-1 2790 2790.0
2 2008-2 3785 0.1*2790+(1-0.1)*2790 2790.0000
3 2008-3 3370 0.1*3785+(1-0.1)*2790 3088.5000
4 2008-4 3075 0.1*3370+(1-0.1)*2799.9500 3172.9500
5 2009-1 2949 0.1*3075+(1-0.1)*2805.6505 3143.5650
6 2009-2 3857 0.1*2949+(1-0.1)*2808.3440 3085.1955
7 2009-3 3453 0.1*3857+(1-0.1)*2809.7506 3316.7369
8 2009-4 3283 0.1*3453+(1-0.1)*2820.2230 3357.6158
9 2010-1 3102 0.1*3283+(1-0.1)*2826.5508 3335.2311
10 2010-2 4142 0.1*3102+(1-0.1)*2831.1153 3265.2617
11 2010-3 3605 0.1*4142+(1-0.1)*2833.8242 3528.2832
12 2010-4 3261 0.1*3605+(1-0.1)*2846.4869 3551.2983
13 2011-1 3257 0.1*3261+(1-0.1)*2854.4869 3464.2088
14 2011-2 4361 0.1*3257+(1-0.1)*2858.5520 3402.0461
15 2011-3 3856 0.1*4361+(1-0.1)*2862.5365 3689.7323
16 2011-4 3606 0.1*3856+(1-0.1)*2877.5211 3739.6126
17 2012-1 3339 0.1*3606+(1-0.1)*2887.3059 3699.5288
18 2012-2 4513 0.1*3339+(1-0.1)*2894.4928 3591.3702
Pronóstico 3867.8591
Las ventas esperadas en equipos hidráulicos
para el tercer trimestre del 2011 ascienden
3867.8591 = 4513*0.3 + 3591.3702* (1-0.3)
a 3867.8591 US$
Ejemplo 2
Un ingeniero de sistemas de un banco internacional con sucursal en Lima, ha logrado cifras estacionarias en
la ocurrencia de incidencias en su departamento. Los siguientes datos corresponden a las incidencias
reportadas durante el periodo 2009-2012.
198
4 16 51 26 13
a. Utilizar un modelo de atenuación exponencial simple con α = 0.2, 0.4, 0.6 y 0.8 para estimar las
incidencias.
Yˆt 1 Yt 1 Yˆt
b. Calcular todas las medidas de error y la señal de rastreo para cada pronóstico. ¿Alguno de ellos está
fuera de control?
Para alfa = 0.2
Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,2000 1,8000 1,8000 3,2400 0,0900 0,0900
4 16 18,5600 -2,5600 2,5600 6,5536 0,1600 -0,1600
5 18 18,0480 -0,0480 0,0480 0,0023 0,0027 -0,0027
6 20 18,0384 1,9616 1,9616 3,8479 0,0981 0,0981
7 36 18,4307 17,5693 17,5693 308,6796 0,4880 0,4880
8 51 21,9446 29,0554 29,0554 844,2177 0,5697 0,5697
9 49 27,7557 21,2443 21,2443 451,3219 0,4336 0,4336
199
10 50 32,0045 17,9955 17,9955 323,8370 0,3599 0,3599
11 33 35,6036 -2,6036 2,6036 6,7789 0,0789 -0,0789
12 26 35,0829 -9,0829 9,0829 82,4990 0,3493 -0,3493
13 15 33,2663 -18,2663 18,2663 333,6584 1,2178 -1,2178
14 16 29,6131 -13,6131 13,6131 185,3153 0,8508 -0,8508
15 14 26,8904 -12,8904 12,8904 166,1635 0,9207 -0,9207
16 13 24,3124 -11,3124 11,3124 127,9694 0,8702 -0,8702
Suma 20,2494 161,0028 2845,0845 6,5423 -2,3585
promedio 10,7335 189,6723 0,4362 -0,1572
DAM EMC PEMA PME
Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,4000 1,6000 1,6000 2,5600 0,0800 0,0800
4 16 19,0400 -3,0400 3,0400 9,2416 0,1900 -0,1900
5 18 17,8240 0,1760 0,1760 0,0310 0,0098 0,0098
6 20 17,8944 2,1056 2,1056 4,4336 0,1053 0,1053
7 36 18,7366 17,2634 17,2634 298,0236 0,4795 0,4795
8 51 25,6420 25,3580 25,3580 643,0290 0,4972 0,4972
9 49 35,7852 13,2148 13,2148 174,6312 0,2697 0,2697
10 50 41,0711 8,9289 8,9289 79,7250 0,1786 0,1786
11 33 44,6427 -11,6427 11,6427 135,5517 0,3528 -0,3528
12 26 39,9856 -13,9856 13,9856 195,5970 0,5379 -0,5379
13 15 34,3914 -19,3914 19,3914 376,0249 1,2928 -1,2928
14 16 26,6348 -10,6348 10,6348 113,0993 0,6647 -0,6647
15 14 22,3809 -8,3809 8,3809 70,2393 0,5986 -0,5986
16 13 19,0285 -6,0285 6,0285 36,3432 0,4637 -0,4637
Suma -3,4572 142,7505 2139,5304 5,7732 -2,4278
promedio 9,5167 142,6354 0,3849 -0,1619
DAM EMC PEMA PME
Error=Y - abs(Y-
Trimestre Incidencias Yestimado Yest Yest) (Y - Yest)2 abs(Y-Yest)/Y (Y-Yest)/Y
1 18 18,0000
2 19 18,0000 1,0000 1,0000 1,0000 0,0526 0,0526
3 20 18,6000 1,4000 1,4000 1,9600 0,0700 0,0700
200
4 16 19,4400 -3,4400 3,4400 11,8336 0,2150 -0,2150
5 18 17,3760 0,6240 0,6240 0,3894 0,0347 0,0347
6 20 17,7504 2,2496 2,2496 5,0607 0,1125 0,1125
7 36 19,1002 16,8998 16,8998 285,6046 0,4694 0,4694
8 51 29,2401 21,7599 21,7599 473,4948 0,4267 0,4267
9 49 42,2960 6,7040 6,7040 44,9433 0,1368 0,1368
10 50 46,3184 3,6816 3,6816 13,5541 0,0736 0,0736
11 33 48,5274 -15,5274 15,5274 241,0990 0,4705 -0,4705
12 26 39,2109 -13,2109 13,2109 174,5291 0,5081 -0,5081
13 15 31,2844 -16,2844 16,2844 265,1810 1,0856 -1,0856
14 16 21,5138 -5,5138 5,5138 30,4015 0,3446 -0,3446
15 14 18,2055 -4,2055 4,2055 17,6862 0,3004 -0,3004
16 13 15,6822 -2,6822 2,6822 7,1942 0,2063 -0,2063
Suma -6,5452 115,1831 1573,9314 4,5069 -1,7543
promedio 7,6789 104,9288 0,3005 -0,1170
DAM EMC PEMA PME
201
En la siguiente tabla se muestra el CEF, DAM y Señal de muestreo para las constantes de atenuación 0.2,
0.4, 0.6 y 0.8
La señal de rastreo nos indica que para α = 0.2 la señal de rastreo esta fuera de control, + / - 1.5, por lo tanto
se descarta el uso de este valor como coeficiente para realizar pronósticos de atenuación exponencial.
c. Comparar los resultados y diga cuál de los pronósticos anteriores es mejor (justifique con el PEMA
y la Señal de rastreo)
Método de Señal de
pronóstico DAM EMC PEMA PME rastreo
0,2 10,7335 189,6723 0,4362 -0,1572 1,8866
0,4 9,5167 142,6354 0,3849 -0,1619 -0,3633
0,6 7,6789 104,9288 0,3005 -0,117 -0,8524
0,8 6,1825 80,0577 0,2374 -0,0814 -0,9517
El PEMA (porcentaje de error medio absoluto) se usa para comparar métodos diferentes de pronóstico, en
este caso distintos valores de α. Indica que tan grande son los errores del pronóstico.
El menor PEMA corresponde a α= 0.8; cuyo valor de Señal de rastreo es -0.9517, que se encuentra dentro de
control.
Por lo tanto el mejor pronóstico es utilizando la constante de atenuación α de 0.8
d. Con el modelo elegido pronostique las incidencias esperadas para el primer trimestre 2013
t Incidencias Y estimado
1 18 18,0000
2 19 18,0000
3 20 18,8000
4 16 19,7600
5 18 16,7520
6 20 17,7504
7 36 19,5501
202
8 51 32,7100
9 49 47,3420
10 50 48,6684
11 33 49,7337
12 26 36,3467
13 15 28,0693
14 16 17,6139
15 14 16,3228
16 13 14,4646
Pronóstico 13,2929
Las incidencias esperadas para el primer trimestre del 2013 son de 13.29 incidencias
Ejercicios
1. Usando el método de suavización exponencial estime el consumo para el primer trimestre del
2012 usando los valores de 0.3 y 0.6 para la constante de atenuación.
Complete la tabla con las medidas del error de pronóstico, y diga cuál de los pronósticos es el mejor
justifique con DAM, PEMA y señal de rastreo.
SEÑAL DE
ALFA DAM PEMA RASTREO
0,3
0,6
203
2. La oficina de abastecimientos de una importante empresa siderúrgica estima que ante el boom
de la minería en el país las ventas aumentaran para los próximos trimestres. El ingeniero
industrial de turno cuenta con la información mensual de los últimos cuatro años:
Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine
el mejor para preparar el pronóstico.
3. Ante la llegada del próximo verano, los socios de una empresa de bebidas alcohólicas desean
ampliar la fábrica. El ingeniero industrial de turno indica que se tardará dos años en completar
la planta. La capacidad de producción actual es de 12000 barriles al mes. Como la cerveza tiene
una vida de almacenamiento relativamente breve, la producción (incluido el proceso de
añejamiento) y las ventas, deben ocurrir dentro de unas cuantas semanas una de la otra.
Asimismo, si las ventas mensuales superan la capacidad de producción por dos mese seguidos,
las ventas se perderán por escasez de inventario. Por otra parte, si la planta opera a menos del
50% de su capacidad en un mes, se experimenta una perdida. Se necesita para ello proyecciones
precisas de ventas. Los datos de ventas (en barriles) de los seis años pasados son:
204
Use las contantes de suavización de 0.7 y 0.8. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo.
4. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes fabricantes.
Un pronóstico exacto de utilización de bobinas podría ser muy útil para controlar los inventarios
de materia prima. Del precio de ventas, 80% es el costo de los materiales adquiridos. Aunque la
determinación de las cantidades de adquisición implica muchas consideraciones, se ha
establecido que un modelo de atenuación exponencial sería de mucha utilidad para establecer un
pronóstico para el siguiente mes de Agosto. Las tasas actuales de los últimos 19 meses de
utilización de bobinas (en Lbs) se proporcionan a continuación.
Utilizar un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para calcular el pronóstico.
205
5. Los programas de Gestión de Dispositivos Móviles Privados (BYO por sus siglas en inglés)
se están generalizando para dar respuesta a una realidad cada vez más palpable en las
organizaciones: la tendencia creciente a que los trabajadores utilicen el mismo dispositivo móvil
tanto para uso privado como para uso profesional. La compañía SMART ha registrado las
ventas de Smartphone, PDA, Iphone, Ipad, etcétera en miles de dólares durante los últimos ocho
años y el gerente de producción desea que le den una proyección de las ventas para el próximo
año. El encargado realiza la proyección de acuerdo con tres métodos de pronóstico y debe
decidir cuál es el más adecuado.
206
MISCELÁNEA
207
1. Conteste las preguntas siguientes, justificando adecuadamente su respuesta.
a. Establezca las diferencias entre un muestreo por Conglomerado y Estratificado
b. ¿En qué consiste la etapa de preparación y análisis estadístico de los datos?
c. ¿Qué tipo de error puede estar cometiendo al no aceptar la hipótesis nula en una prueba de hipótesis?
2. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuáles son las desventajas del muestreo frente al censo?
b. Indique la(s) alternativa(s) falsa(s) en relación a la información disponible.
Representa la información primaria.
Un medio para obtenerla es a través de revistas especializadas.
No está relacionada con los objetivos de investigación.
Las fuentes para conseguirlas pueden ser internas, externas o ambas.
c. ¿En qué consiste el diseño del trabajo de campo?
j. En un análisis de varianza de dos factores, ¿qué implica que exista interacción entre los factores?
k. ¿Por qué es importante el coeficiente de determinación corregido en el análisis de regresión
múltiple?
l. ¿Cómo interpreta la frecuencia esperada en la prueba de bondad de ajuste?
5. Responda las siguientes preguntas. Sustente adecuadamente.
a. ¿Cuál es la utilidad de la prueba ANOVA de un factor?
208
b. ¿Cuál es la utilidad de las pruebas de hipótesis individuales en el análisis de regresión?
c. Liste y defina las componentes de una serie de tiempo.
11. En el presente ciclo académico, se desea investigar la percepción de los alumnos de UPC del servicio de
fotocopias en el centro de información. A usted se le encarga realizar el diseño del trabajo de
investigación. Para ello debe definir y justificar lo siguiente: población, unidad de muestreo, técnica de
muestreo a utilizar y cómo la aplicaría. Además proponga tres variables generales y cinco variables que
aporten directamente al tema a investigar.
12. Secretaría académica esta constantemente preocupada por mejorar los servicios que ofrece buscando en
todo momento brindar una mejor atención a los alumnos. Revisando las estadísticas de los reclamos que
hicieron los alumnos sobre las evaluaciones continuas el semestre anterior, notó que se incrementó en
relación a semestres anteriores. A Secretaría Académica le preocupa este hallazgo y por lo tanto decide
encargarle a usted investigar sobre las causas que motivarían dicho incremento en los reclamos de las
evaluaciones continuas.
Se cree que una posible causa es el desconocimiento de los procedimientos que estipula el reglamento.
209
La solicitud de revisión de notas se presenta a la Secretaría Académica en el acto de devolución del
examen y a través del formato establecido.
La Secretaría Académica remite la solicitud con el examen al profesor, el cual debe observar lo
siguiente:
Se acepta una revisión de nota cuando haya habido un error de suma o se haya omitido corregir la
totalidad de la respuesta. No se admite reclamos sobre los criterios de evaluación ni sobre la
rigurosidad de la calificación.
El examen que se solicita revisar se debe anexar a la solicitud. No se acepta exámenes respondidos
con lápiz; ni los que tengan alguna identificación del alumno, distinta a su código; ni aquellos en
que el alumno haya añadido algo después de corregido el examen. En este último caso, el alumno
recibe además la sanción correspondiente.
El trámite en la Secretaría académica debe ser realizado por el propio alumno o por aquella
persona a quien éste le haya otorgado poder para recoger el examen.
Toda gestión directa ante el profesor de la asignatura cuya nota se solicita revisar invalida el
proceso de revisión de nota, además de aplicarse las sanciones correspondientes.
No se puede reclamar más de una vez por una misma práctica o un mismo examen.
Después de revisar las solicitudes, el profesor debe elaborar un cuadro resumen y presentarlo junto a
los exámenes a la Secretaría Académica y al Director de Carrera o de Área respectivo.
El reglamento exige que el reclamo de una evaluación continua que ya fue ingresada al sistema se
efectúe a través de Secretaria Académica.
En caso la nota aún no ha sido ingresada al sistema, se puede efectuar el reclamo directamente con el
profesor del curso.
El profesor tiene 7 días para registrar la nota en el sistema, a partir de ahí el alumno tiene solo 10 días
para presentar su reclamo en Secretaria Académica.
14. Los datos de la Tabla N°1, representan la relación de todos los clientes con tarjeta de un establecimiento
de comercial.
a) Seleccione una muestra aleatoria sistemática de 8 empleados y estime cuál es el porcentaje de
clientes que pagaron con tarjeta de la tienda. Calcule el error cometido. Utilice la columna C12 de la
tabla de números aleatorios.
b) Seleccione una muestra aleatoria estratificada de 15 empleados con asignación proporcional al
tamaño del estrato y estime cuál es el monto promedio gastado en la última compra por los clientes
con tarjeta dorada o la normal.
Estrato1: utilice las columnas C1C2, C2C3, C3C4, C5C6 de la tabla de números aleatorios.
Estrato2: utilice las columnas C7C8, C8C9, C9C10, C10C11 de la tabla de números aleatorios.
15. La siguiente es una lista de establecimientos de Marco’s Pizza, ubicados en Lucas Country (Estados
Unidos). Además se indica si la tienda es de propiedad de consorcio (C) o de administrador (M), así
como las ventas semanales en miles de dólares.
210
a. Seleccione una muestra aleatoria simple de 5 tiendas, para ello considere las columnas C6C7. En
base a la muestra obtenida estime la proporción de tiendas de propiedad del consorcio (C).
b. Seleccione una muestra aleatoria de cinco tiendas mediante un muestreo sistemático, obtenga el
punto de arranque columna C2. Con la muestra obtenida estime las ventas medias semanales de la
tiendas.
c.
Nº
Domicilio Tipo Ventas
Identificación
01 2607 Starr Av. C 20
02 309 W. Alexis Rd. C 30
03 2652 W Central Av C 25
04 630 Dixie Hwy M 12
05 3510 Dorr St C 25
06 5055 Glendale Av. C 40
07 3382 Lagrange St. M 42
08 2525 W Laskey Rd C 60
09 303 Louisiana Av. C 64
10 146 Main St C 51
11 835 S McCord Rd M 34
12 3501 Monroe St M 26
13 2004 Ottawa River Rd C 66
14 2116 N Reynolds Rd C 52
15 3678 Rugby Dr C 24
16 1419 South Av C 33
17 1234 W. Silvana Av C 28
18 4624 Woodville Rd M 29
19 5155 S Main M 35
20 106 E. Airport Hwy C 48
21 6725 W Central M 49
22 4552 Woodville Rd C 57
23 1316 Michigan Av C 65
24 4552 Monroe M 60
25 1852 North Rd M 54
16. Se registra a los empleados de una empresa. Los datos se muestran en la tabla anexa. Considere que los
datos constituyen una población.
Le encargan a usted que responda las siguientes preguntas.
a. Seleccione una muestra aleatoria simple de 20 empleados y calcule la proporción de hombres
indicando el error muestral. Utilice la columna C2, de ser necesario utilice las columnas C4, C7, C9,
C11, C12, C15.
b. Seleccione una muestra estratificada de tamaño 20 con asignación proporcional al Área. Utilice las
siguientes columnas de ser necesario para la selección de las muestras.
Estrato 1: C1, C3, C5
Estrato 2: C2, C3, C4
Estrato 3: C6, C8, C10
Calcule los promedios y las desviaciones estándar de las edades para cada uno de los estratos.
Estime la edad promedio
Si la edad promedio de la población es 46,183 años. Cuanto difiere el promedio estimado del
promedio poblacional dado, comente el resultado obtenido.
211
Edad Sueldo Edad Sueldo
N° Sexo (Años) Área Anual S/. N° Sexo
(Años) Área Anual S/.
1 H 52 A 57 000 61 M 40 B 21 900
2 H 46 A 40 200 62 M 63 B 45 000
3 M 75 A 21 450 63 M 54 B 32 100
4 M 57 A 21 900 64 H 65 B 36 000
5 H 49 A 45 000 65 M 22 B 21 900
6 H 46 A 32 100 66 M 46 B 27 900
7 H 48 A 36 000 67 H 26 B 24 000
8 M 38 A 21 900 68 H 34 B 30 300
9 M 59 A 27 900 69 H 58 B 28 350
10 M 58 A 24 000 70 H 31 B 27 750
11 M 54 A 30 300 71 H 40 B 35 100
12 H 39 A 28 350 72 M 28 B 27 300
13 H 44 A 27 750 73 H 42 B 23 550
14 M 55 A 35 100 74 M 64 B 35 100
15 H 42 A 27 300 75 H 22 B 23 250
16 H 40 A 40 800 76 H 30 B 29 250
17 H 42 A 46 000 77 H 35 B 30 750
18 H 48 A 103 750 78 H 40 B 22 350
19 H 42 A 42 300 79 M 55 B 30 000
20 M 65 A 26 250 80 H 42 B 30 750
21 M 41 B 38 850 81 M 68 B 34 800
22 H 64 B 21 750 82 H 65 B 60 000
23 M 39 B 24 000 83 H 34 B 35 550
24 M 71 B 16 950 84 H 66 B 45 150
25 M 62 B 21 150 85 H 29 B 73 750
26 H 38 B 31 050 86 H 53 B 25 050
27 H 50 B 60 375 87 M 23 C 27 000
28 H 41 B 32 550 88 H 46 C 26 850
29 H 61 B 135 000 89 M 70 C 33 900
30 H 43 B 31 200 90 H 35 C 26 400
31 H 40 B 36 150 91 H 21 C 28 050
32 H 51 B 110 625 92 H 42 C 30 900
33 H 43 B 42 000 93 H 38 C 57 000
34 H 55 B 92 000 94 H 47 C 40 200
35 H 43 B 81 250 95 H 62 C 21 450
36 M 41 B 31 350 96 H 56 C 21 900
37 H 50 B 29 100 97 H 34 C 45 000
38 H 42 B 31 350 98 H 63 C 32 100
39 H 44 B 36 000 99 H 20 C 36 000
40 M 71 B 19 200 100 H 39 C 21 900
41 M 43 B 23 550 101 H 57 C 27 900
42 H 44 B 35 100 102 H 41 C 46 000
43 H 41 B 23 250 103 M 47 C 103 750
44 H 41 B 29 250 104 H 33 C 42 300
45 H 66 B 30 750 105 H 31 C 26 250
46 M 64 B 22 350 106 M 19 C 38 850
47 M 66 B 30 000 107 M 56 C 21 750
48 H 57 B 30 750 108 M 31 C 24 000
49 H 46 B 34 800 109 H 65 C 16 950
50 H 44 B 60 000 110 H 59 C 21 150
51 H 42 B 35 550 111 H 45 C 31 050
52 H 41 B 45 150 112 H 27 C 60 375
53 H 50 B 73 750 113 H 31 C 32 550
54 H 73 B 25 050 114 M 39 C 135 000
55 H 44 B 27 000 115 M 46 C 60 375
56 H 42 B 26 850 116 M 52 C 32 550
57 H 41 B 33 900 117 M 43 C 135 000
58 M 40 B 26 400 118 H 34 C 31 200
59 H 43 B 28 050 119 H 32 C 36 150
60 H 45 B 30 900 120 H 44 C 110 625
212
aleatorios. Para ello tome como unidades el valor de la primera fila de la columna 10 y como las decenas
el valor de la primera fila de la columna 9. Suponga que los salarios actuales se distribuyen
normalmente.
a. En su cuadernillo registre el número correspondiente al empleado seleccionado.
b. Con un nivel de significación del 5%, ¿se puede afirmar que la variabilidad de los salarios actuales
entre hombres y mujeres difieren significativamente?
c. ¿Es correcto afirmar que los hombres perciben en la actualidad un salario superior al de las mujeres?
Use un nivel de significación del 5%.
213
38 Hombre 42 15 Administrativo 31 350 15 000 96 49
39 Hombre 44 16 Administrativo 36 000 15 000 96 46
40 Mujer 71 15 Administrativo 19 200 9 000 96 23
41 Mujer 43 12 Administrativo 23 550 11 550 96 52
42 Hombre 44 15 Administrativo 35 100 16 500 95 90
43 Hombre 41 12 Administrativo 23 250 14 250 95 46
44 Hombre 41 8 Administrativo 29 250 14 250 95 50
45 Hombre 66 12 Seguridad 30 750 13 500 95 307
46 Mujer 64 15 Administrativo 22 350 12 750 95 165
47 Mujer 66 12 Administrativo 30 000 16 500 95 228
48 Hombre 57 12 Seguridad 30 750 14 100 94 240
49 Hombre 46 15 Administrativo 34 800 16 500 94 93
50 Hombre 44 16 Directivo 60 000 23 730 94 59
51 Hombre 42 12 Administrativo 35 550 15 000 94 48
52 Hombre 41 15 Administrativo 45 150 15 000 94 40
53 Hombre 50 18 Directivo 73 750 26 250 94 56
54 Hombre 73 12 Administrativo 25 050 13 500 94 444
55 Hombre 44 12 Administrativo 27 000 15 000 94 120
56 Hombre 42 15 Administrativo 26 850 13 500 94 5
57 Hombre 41 15 Administrativo 33 900 15 750 94 78
58 Mujer 40 15 Administrativo 26 400 13 500 94 3
59 Hombre 43 15 Administrativo 28 050 14 250 94 36
60 Hombre 45 12 Administrativo 30 900 15 000 94 102
18. La compañía JUGOS S.A. envasa limonada congelada en latas cuyo peso medio es de 16 onzas.
Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La
tabla siguiente muestra los resultados obtenidos durante un día de la última semana.
19. Los restaurantes de comida rápida afirman que el tiempo que sus clientes esperan para recibir su orden es
de 4 minutos. Durante el verano del presente año se visitó a 15 restaurantes de comida rápida como
Wendy’s, Mc Donald’s y Burger King. Durante cada visita, el cliente se dirigió al pasaje para
automóviles y ordenó una comida básica como “Combo” o un sandwich, papas y una malteada. Se
registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos, en minutos, para 15
visitas.
Si se sabe que el tiempo entre pedir y recibir la orden sigue una distribución normal, con un nivel de
significación del 5%:
a. ¿Qué puede decir de la afirmación que hacen los restaurantes de comida rápida respecto al tiempo
de espera de sus clientes?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es mayor a 1,8
minutos?
214
20. Un centro de atención médica cuenta con un registro de 3 500 pacientes, desea establecer como política
que si menos del 40% de sus pacientes están satisfechos con la atención recibida, se replantearán las
estrategias de bienestar de los pacientes. En un intento por determinar la proporción de pacientes que
están satisfechos con la atención recibida, selecciona una muestra aleatoria de 400 pacientes,
encontrando que 140 de ellos manifestaban estar satisfechos. Con un nivel de significación del 4%, ¿se
deberá replantear las estrategias de satisfacción de los pacientes?
21. La Asociación nacional de constructores de viviendas, suministró los datos sobre el costo de los
proyectos más frecuentes de remodelación de vivienda. Algunos datos de las muestras de los costos, en
cientos de soles para esas dos clases de remodelaciones son:
Cocina 25,2 17,4 22,8 21,9 19,7 23,0 19,7 16,9 21,8
Recámara principal 18,0 22,9 26,4 24,8 26,9 17,8 24,6 21,0
Si se sabe que los costos siguen una distribución normal con la misma variabilidad, con un nivel de
significación del 2,5% ¿considera usted que la remodelación de la recámara principal es más costosa?
23. Investigación de Mercados S. A., basa sus tarifas en la hipótesis de que las preguntas de una encuesta
telefónica se pueden contestar en un tiempo medio no mayor de 15 minutos. Si es necesario un mayor
tiempo de encuesta, se aplica una tarifa adicional. Suponga que en una muestra de 35 entrevistas se
obtiene una media de 17 minutos y una variabilidad de 4 minutos. Con un nivel de significación del 5%:
a. ¿Se justifica la tarifa adicional?
b. ¿Será correcto afirmar que la variabilidad de la duración de las llamadas es menor a 5 minutos?
24. Un restaurante de comida rápida planea una oferta especial que permita a los clientes comprar vasos de
diseño especial con conocidos personajes de caricaturas. Si más del 15% de los clientes compran esos
vasos, se implantará la promoción. En una prueba preliminar en varios locales, 88 de 500 clientes los
compraron. ¿Se debe implantar la promoción especial? Use un nivel de significación del 1%.
25. Se llevó a cabo una encuesta entre los miembros del Club del libro del mes, para determinar si pasan más
tiempo viendo televisión que leyendo. Suponga que en una muestra de 12 encuestados se obtuvieron las
horas semanales que se dedican a ver televisión y las que se dedican a la lectura. Con un nivel de
significación del 5%, ¿se puede llegar a la conclusión de que los miembros del club del libro del mes
pasan más tiempo, en promedio, viendo televisión que leyendo?
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Televisión 11 19 8 5 16 8 4 12 10 14 15 18
Leyendo 6 10 3 10 5 8 7 14 14 8 10 10
26. La asociación internacional de transporte aéreo hizo una encuesta entre viajeros de negocios para
determinar la evaluación de aeropuertos internacionales. La calificación máxima posible era 10. Suponga
que se pidió a una muestra aleatoria que calificara al aeropuerto de Miami, y a otra muestra aleatoria se
le pidió que calificara al aeropuerto de Los Ángeles. Las respuestas son los siguientes.
215
Miami 6 7 4 9 4 8 4 9 9 7
Los Ángeles 10 3 5 3 9 5 6 6
Si las calificaciones que recibe cada aeropuerto sigue una distribución normal, con un nivel de
significación del 2%:
a. ¿Se puede afirmar que la variabilidad en las calificaciones que recibe cada aeropuerto es la misma?
b. ¿Se puede concluir que alguno de los aeropuertos es favorecido por la calificación asignada?
27. En una encuesta realizada el año pasado se determinó que 20% de 505 hombres y 25% de 426 mujeres
encuestados, estaban a favor de prohibir la venta libre de cerveza, vinos y licores en el país. A un nivel
de significación del 5%, ¿se puede asegurar que la proporción de mujeres que favorece la prohibición
supera a la proporción de hombres en más de un 2%?
28. Durante el verano del año 2009 se visitó a 30 restaurantes de comida rápida como Wendy’s, McDonald’s
y Burger King (The Cincinnati Enquirer, 9 de Julio de 2009). Durante cada visita, el cliente se dirigió al
pasaje para automóviles y ordenó una comida básica como “combo” o un sándwich, papas y una
malteada. Se registro el tiempo (en minutos) entre pedir y recibir la orden. Los siguientes datos son los
tiempos para 30 visitas.
0,9 1,0 1,2 2,2 1,9 3,6 2,8 5,2 1,8 2,1
6,8 1,3 3,0 4,5 2,8 2,3 2,7 5,7 4,8 3,5
2,6 3,3 5,0 4,0 7,2 9,1 2,8 3,6 7,3 9,0
Si el tiempo entre pedir y recibir la orden tiene distribución normal, a un nivel de significación del 4%
conteste las preguntas siguientes:
a. Si un gerente de un restaurante de comida rápida afirma que el tiempo promedio es de 3 minutos,
basado en los datos recopilados, ¿será correcta la afirmación?
b. ¿Es correcto afirmar que la variabilidad del tiempo de espera de los clientes es menor a 3 minutos?
29. Acme Ltd. Vende dos tipos de amortiguadores de caucho para coches de bebés. Las pruebas de desgaste
para medir la durabilidad revelaron que 13 amortiguadores del tipo I duraron un promedio de 11,3
semanas, con una desviación estándar de 3,5 semanas; mientras que 10 del tipo 2 duraron un promedio
de 7,5 semanas, con una desviación estándar de 2,7 semanas. El tipo 1 es más costoso de fabricar y el
CEO (Director ejecutivo) de Acme no desea utilizarlo a menos que tenga un promedio de duración de
por lo menos ocho semanas más que el tipo 2. Suponga que los datos provienen de poblaciones
normales. A un nivel de significación del 2%:
a. ¿Considera usted que la variabilidad de la durabilidad de los dos tipos de amortiguadores son
distintos?
b. ¿Qué decisión deberá tomar el Director Ejecutivo de Acme?
30. La cantidad media de ingresos per cápita disponibles en Colorado es de $ 13 901 dólares (basado en
datos de la Oficina de Análisis Económicos de Estados unidos). Tom Phelps planea abrir un
concesionario de automóviles Cadillac y quiere verificar esa cifra para una región específica de
Colorado, ya que en el caso que el ingreso promedio per cápita es menor a $ 13 901 Phelps no abriría un
concesionario. Phelps encuentra resultados de una encuesta reciente de 25 personas, con una media de $
13 447 dólares y una desviación estándar de $ 4 883. Al nivel de significación del 5%, ¿usted que le
aconseja a Tom Phelps? ¿Tendría razón Phelps para preocuparse respecto al nivel de ingresos en esta
región?
216
31. Las compañías de seguros automovilísticos están comenzando a pensar en aumentar las tarifas para las
personas que usan teléfonos mientras conducen. El Nacional Consumers Group asegura que el problema
no es realmente grave porque sólo el 10% de los conductores usa teléfonos. La industria de seguros
realiza un estudio y encuentra que, de 500 conductores seleccionados al azar, 90 usan teléfonos (basados
en datos de la revista Prevention). Al nivel de significación del 5%, pruebe la aseveración del grupo de
consumidores.
32. El alza en los precios de medicamentos recetados por los médicos provocó que el Congreso considerara
leyes que obligarían a las compañías farmacéuticas a ofrecer descuentos a los ciudadanos carentes de
beneficios en medicamentos. El Comité de reformas gubernamentales internas proporcionó datos acerca
de los costos de las recetas para algunos fármacos de uso común. Suponga que de un total de 100 recetas,
se selecciona la siguiente muestra cuyos datos representan el costo en nuevos soles de las recetas para
Zocor, un fármaco que se emplea para reducir el colesterol.
Suponiendo que se trata de una población normal, con un nivel de significación del 5%, será correcto
afirmar que:
a. El costo promedio para una receta de Zocor es superior a los 103 nuevos soles.
b. La desviación estándar de los costos de este medicamento es diferente de los 8 nuevos soles.
33. Una gran compañía de seguros de automóviles formó muestras de asegurados solteros y casados y anotó
la cantidad que tuvieron un reclamo durante el último período de tres años. Los resultados fueron los
siguientes: de 400 asegurados solteros 76 tuvieron reclamo y de 900 casados, 90 tuvieron reclamo.
Analizando con un nivel de significación del 5%, ¿se puede decir que la proporción de solteros que
tuvieron reclamos supera a la proporción de casados en más de un 5%?
34. Se desea analizar el consumo en dólares en un restaurante dentro de semana y durante el fin de semana.
Para ello se seleccionaron dos muestras independientes correspondientes a los consumos que mostramos
a continuación:
Dentro de semana 8 8 6 7 4 9
Fin de semana 10 12 9 7 7 9
Suponga que los consumos siguen una distribución normal. Con nivel de significación del 2%, compare,
analice y escriba sus conclusiones respecto a:
a. La variabilidad de los datos de ambos grupos.
b. ¿Los consumos promedios dentro de semana y del fin de semana son distintos?
35. En una encuesta se preguntó a 1 035 adultos sobre su percepción respecto a la participación de las
compañías estadounidenses en la economía global. 704 de los encuestados respondieron bien o
excelente. En una encuesta similar, realizada cuatro años después, 582 de 1 004 adultos encuestados
respondieron a la misma pregunta como bien o excelente. Con los resultados muestrales ¿se puede
concluir que la proporción de adultos que respondieron bien o excelente se incrementó en los últimos
cuatro años? Use un nivel de significación del 10%.
217
36. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de
compras de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión
sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde
los valores mayores indicaban un mayor potencial de compra. Los datos se presentan en la siguiente
tabla, al nivel de significación del 5%, ¿se podría decir que el comercial ha tenido efecto en las
compras?
Calificación de la compra
Individuo
Antes Después
1 5 6
2 4 6
3 7 7
4 3 4
5 5 3
6 8 9
7 5 7
8 6 6
37. En una encuesta de ventas al detalle que realizó American Express se encontró que 16% de los
consumidores estadounidenses utilizaron Internet para comprar regalos durante la temporada vacacional
de 1999 (USA Today, 18 de enero de 2000). Si en la encuesta participaron 1285 clientes. Pruebe a un
nivel de significación del 3% que la proporción poblacional de clientes que usan Internet para comprar
regalos es menor al 18%.
38. En una prueba de la calidad de dos comerciales de televisión se pasó uno en una área de prueba seis
veces, durante un periodo de una semana. La semana siguiente se llevó a cabo una encuesta telefónica
para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les pidió
definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados.
Al nivel de significación del 1%, ¿no existe diferencia en las proporciones que recuerden los dos
comerciales?
39. El departamento de calidad de una importante cadena de supermercados realiza periódicamente análisis a
los productos alimenticios en envases, de tal manera que no sólo sean aptos para su consumo sino que
cumplan con las especificaciones indicadas en los envases. Tal es el caso de la mantequilla de maní
Boné, a la que luego de examinar 12 frascos de 250 gramos se obtuvieron las siguientes cantidades de
impurezas no tóxicas en gramos:
5,8 4,8 5,3 7,0 5,8 9,0 3,5 4,5 5,3 8,0 5,0 4,8
Asuma que la cantidad de impurezas no tóxicas en gramos en cada envase tiene distribución normal.
a. ¿Se puede afirmar con un nivel de significación del 3% que la cantidad promedio de impurezas no
tóxicas de dicha marca de mantequilla de maní supera los 4,8 gramos?
b. A un nivel de significación del 4%, ¿será correcto pensar que la desviación estándar de la cantidad
de impurezas no tóxicas de la marca de mantequilla de maní analizada es distinta de 2,0 gramos?
218
40. En una encuesta aleatoria de 1000 hogares realizada en Lima, se encontró que 9% de los hogares tenía al
menos un miembro con educación superior. ¿Este resultado refuta la aseveración que en los hogares de
Lima es al menos 12%? Use un nivel de 0,05 de significación.
41. Una máquina dispensadora de café sirve bebidas en vasos de ternopol. Al observarse que el llenado de
los vasos es diferente, se selecciona una muestra aleatoria de 7 vasos antes de ajustar la máquina y 5
vasos luego de ajustar la máquina, obteniéndose los registros siguientes:
42. En un estudio sobre la eficacia de ciertos ejercicios para reducir peso, un grupo de 14 personas hicieron
estos ejercicios durante un mes mostraron los siguientes resultados:
Peso antes 92 82 78 93 83 88 73 83 84 76 92 82 110 68
Peso después 90 79 79 91 82 87 74 83 83 75 91 80 107 67
a. Use un nivel de 0,05 de significación para probar si el método es efectivo. Indique explícitamente
las suposiciones necesarias para realizar la prueba.
b. Use un nivel de 0,10 de significación para probar si las varianzas de las poblaciones son iguales.
Comente los resultados.
43. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que pueden
reconocer la marca de un producto de limpieza con base a la forma y color del recipiente. De las 1 400
amas de casa, 420 fueron capaces de identificar la marca del producto. A un nivel de significación del
2,5% ¿se puede afirmar que la proporción de amas de casa que reconocen la marca del producto, es
superior al 35%?
44. Se instala una máquina Corkill para llenar botellas pequeñas con 9,0 gramos de medicamento. Se desea
saber, a un nivel de significación del 5%, si la máquina está cumpliendo con las especificaciones
respecto al contenido de cada botella y para ello se seleccionó una muestra aleatoria de 8 botellas, que
proporcionó los siguientes pesos en gramos: 9,2; 8,7; 8,9; 8,6; 8,8; 8,5; 8,7 y 9,0. Si se sabe que los pesos
en cada botella se distribuyen normalmente, con los resultados que proporciona la muestra seleccionada,
¿a qué conclusión llegaría?
45. A usted se le solicita que compare los costos, en dólares, de 10 servicios diferentes que ofrecen los
nuevos concesionarios de autos de su zona. Los datos se indican a continuación:
Servicio 1 2 3 4 5 6 7 8 9 10
Concesionario 1 44 46 49 45 42 33 28 38 36 49
Concesionario 2 36 35 34 39 37 32 31 30 29 45
a. ¿Se puede afirmar a un nivel de significación del 5% que la variabilidad de los datos para cada
concesionario son iguales?
219
b. A un nivel de significación del 5%, ¿qué concesionario le conviene utilizar?
46. Una compañía de seguros afirma que, en comparación con su mayor competidor, entre sus empleados
hay un mayor número de trabajadores capacitados en el último año. De una muestra aleatoria de 420
empleados suyos, 155 han recibido algún curso de capacitación en el último año. En cambio, de 336
empleados seleccionados al azar de su mayor competidor, 144 han recibido algún curso en el último año.
A un nivel de significación del 5%, se puede decir que la afirmación de la compañía de seguros es
correcta.
47. Una Universidad cuenta con un total de 5000 estudiantes, de los cuales 2400 proceden de la región donde
se ubica la universidad y el resto procede de otras regiones. Una muestra aleatoria de 250 estudiantes de
la región, indica que el 48% prefirió acampar en la playa el pasado fin de semana largo. Así mismo de
250 estudiantes procedentes de otras regiones, el 40% también prefirió acampar en una playa. A un nivel
de significación del 6% ¿la proporción de estudiantes de la región donde se ubica la universidad que
prefirieron acampar en la playa supera en más del 3% a la respectiva proporción de estudiantes que
proceden de otras regiones?
48. Una agencia de seguros local desea comparar los gastos medios ocasionados por daños en accidentes
similares en dos modelos de automóviles. Nueve ejemplares del primer modelo y siete del segundo
modelo son sometidos a una colisión controlada obteniendo los siguientes gastos, en dólares, por daños
sufridos:
Colisión 1 2 3 4 5 6 7 8 9
49. Un centro de estudios que cuenta con 350 estudiantes altamente calificados, realizó un estudio para
analizar el monto en dólares, que este tipo de alumnos, habían recibido como ayuda financiera en el
transcurso de un año. Una muestra aleatoria de 51 alumnos altamente calificados, mostró que este monto
era en promedio de $2 637,00 en un año, con una desviación estándar de $617,50. Al nivel de
significación del 5%:
a. ¿Se puede afirmar que el monto promedio de apoyo financiero que recibe este tipo de alumno es
superior a $2 500,00?
b. ¿Es correcto afirmar que la variabilidad de este monto es menor de $600,00?
50. Un invernadero comercial desea probar la eficacia de ciertos fertilizantes en el crecimiento de las plantas.
A 400 plantas se les da tratamiento con el fertilizante de la marca Silux y a otras380 con el fertilizante de
la marca Esso. De las 400 plantas tratadas con el fertilizante de la marca Silux, 350 florecen en dos
semanas y de las 380 tratadas con el fertilizante Esso, sólo florecen 250 en dos semanas, ¿se puede
concluir, con un nivel de significación del 5%, que el fertilizante Silux es más eficaz que el fertilizante
Esso?
51. Una compañía supone que una llamada telefónica logra acelerar más que una carta el cobro de cuentas
morosas. Dos grupos de clientes morosos fueron contactados, unos por teléfono y otros por correo.
Se sabe que el tiempo para la recepción el pago, luego de haber sido contactado el cliente moroso, sigue
una distribución normal. A un nivel de significación del 10%:
a. ¿Existe evidencia significativa para afirmar que la variabilidad en el tiempo para la recepción del
pago es similar tanto para clientes contactados por carta como por teléfono?
b. ¿Puede la compañía afirmar que los clientes morosos responden más rápidamente a las llamadas
telefónicas que a las cartas?
52. Los datos anexos corresponden a la ganancia anual por acción en dólares, de una muestra aleatoria de 9
empresas seleccionadas del “Digest of Earnings Reports”, sección de la revista The Wall Street
Journal del mes de marzo de 2003. A un nivel de significación del 2% ¿fueron en promedio diferentes
las ganancias por acción en marzo de 2001 y marzo de 2002?
Empresa 1 2 3 4 5 6 7 8 9
Ganancias en 2001 1,38 1,26 3,64 3,5 2,47 3,21 1,05 1,98 2,72
Ganancias en 2002 2,48 1,5 4,59 3,06 2,11 2,8 1,59 0,92 0,47
53. Una entidad financiera, está evaluando los montos correspondientes a préstamos financieros otorgados
por dos entidades bancarias “En ti confío” y “Presto al toque”, durante el primer trimestre del presente
año. Se sabe ambas entidades bancarias realizaron durante este período de estudio un total de 130
préstamos financieros. Posteriormente, se seleccionó una muestra aleatoria de cada entidad bancaria
encontrándose los siguientes montos en miles de dólares otorgados en calidad de préstamo:
Si se sabe que los montos correspondientes a prestamos financieros siguen una distribución normal,
54. En una prueba de calidad de dos comerciales de televisión se pasó cada uno de ellos en un área de prueba
seis veces, durante un período de una semana. En la semana siguiente se llevó a cabo una encuesta
telefónica para identificar a quienes habían visto esos comerciales. A las personas que los vieron se les
pidió definieran el principal mensaje en ellos. Los resultados que se obtuvieron se presentan a
continuación:
Personas que vieron Personas que recordaron
Comercial
el comercial el mensaje principal
150 63
A
B 200 60
Con un nivel de significación del 5%, ¿se puede concluir que alguno de los comerciales es más
recordado?
55. Una empresa de la construcción realiza una innovación tecnológica a un parque de pequeñas
excavadoras. Para verificar la efectividad o no de la innovación, se diseña un experimento estadístico
221
para comparar la producción diaria en toneladas de material excavado antes y después de la innovación,
empleándose los mismos operarios. De acuerdo con los resultados experimentales resumidos en la tabla
que se muestra más abajo, ¿se puede afirmar que la innovación mejora la producción diaria promedio?
Utilice un 5% de nivel de significación en su prueba estadística.
56. Con fines de recaudación la Sunat ha estado aplicando dos métodos para registrar las declaraciones
juradas de sus contribuyentes. El primero exige al contribuyente presentarse personalmente ante un
encargado de la Sunat; el segundo le permite enviar por correo su declaración jurada. Los directivos de la
recaudación de impuestos piensan que el primer método ocasiona menos errores que el segundo. Por
ello, autoriza un examen aleatorio de 50 listados de la presentación personal ante el encargado y 75
listados del registro por correo. Un 10 % de las presentaciones personales contienen errores y 13,3% de
los formularios enviados por correo también los contienen. A un nivel de significación del 5%, ¿se puede
afirmar que los directivos de la Sunat tienen razón?
57. Una gran empresa de corretaje de acciones quiere determinar la eficiencia de sus nuevos ejecutivos de
cuenta en la obtención de clientes. Luego de terminar su capacitación, los nuevos ejecutivos dedican
varias semanas a visitar a posibles clientes para que abran cuentas en la empresa. Los datos adjuntos
contienen los números de nuevas cuentas abiertas en sus dos primeras semanas por 10 ejecutivas de
cuenta seleccionadas al azar de un total de 80 y 8 ejecutivos también seleccionados aleatoriamente de un
total de 90.
12 11 14 13 13 14 13 12 14 12
Ejecutivas
13 10 11 12 13 12 10 12
Ejecutivos
a. Con un nivel de significación del 5%, ¿se puede afirmar que la eficiencia de cada tipo de ejecutivo,
presenta la misma variabilidad?
b. ¿Parece ser que las mujeres son más eficaces en la creación de nuevas cuentas que los hombres? Use
un = 5%.
58. Una operación de ensamblaje en una planta manufacturera requiere de un período de entrenamiento de
aproximadamente un mes para que un nuevo operario alcance la máxima eficiencia. Se sugirió un nuevo
método de entrenamiento y se realizó una prueba para comparar el nuevo método con el procedimiento
estándar. Se entrenó a dos grupos, de diez y nueve obreros nuevos cada uno, durante tres semanas; un
grupo utilizó el nuevo método y el otro el procedimiento de entrenamiento estándar. Se registró el
tiempo, en minutos, que tardó cada trabajador en montar el dispositivo al final del período de tres
semanas. Estas mediciones aparecen en la siguiente tabla:
Procedimiento estándar 32 37 35 28 41 44 35 31 34 42
Procedimiento nuevo 35 31 29 25 34 40 27 32 31
222
Si se supone que los tiempos de ensamble se distribuyen normalmente.
a. ¿Se puede afirmar con un nivel de significación del 5%, que la variabilidad de los tiempos de
ensamble de cada procedimiento son iguales?
b. A un nivel de significación del 5%, diría usted que el procedimiento nuevo ofrece un tiempo medio
de ensamble menor que el procedimiento estándar?
60. Un vendedor hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las frecuencias de
ventas que vemos a continuación.
A un nivel de significación del 5%, ¿considera usted que el número de ventas que se realiza por día
sigue una distribución binomial?
62. En una de las islas, la cadena de hoteles tiene tres hoteles, Golden Palm, Palm Royale, Palm Princess. Al
tabular las respuestas a la pregunta “¿elegiría este hotel otra vez?” se obtuvieron los siguientes
resultados.
Al nivel de significación del 5%,
Hotel ¿existen indicios de una diferencia
¿Regresaría
al hotel? Golden Palm Palm significativa en la satisfacción del
Palm Royale Princess
cliente entre los tres hoteles?
Sí 128 199 186 (Indique el tipo de prueba,
No 88 33 66 formule la hipótesis adecuada y
contrástela)
223
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral )
Chi-cuadrado de P earson 40.228 2 .000
Corrección por cont inuidad
Razón de verosimili tud 40.964 2 .000
Asociación lineal por lineal 10.938 1 .001
N de casos váli dos 700
63. Se desea analizar, con un nivel de significación del 5%, si existe relación entre el conocimiento que
tienen los alumnos de las noticias de actualidad con la facultad de estudios a la que pertenecen. Para ello
se seleccionó aleatoriamente a 100 estudiantes distribuidos según como se muestra en la tabla siguiente:
Nivel de conocimiento
Facultad Total
Bajo Medio Alto
Publicidad 20 13 2 35
Administración 8 10 10 28
Ingeniería 12 13 12 37
Total 40 36 24 100
64. Un supermercado está interesado en analizar algunos tipos de electrodomésticos que requieren
reparación dentro del período de garantía. Para ello se seleccionó muestras aleatorias de cada tipo de
electrodoméstico, los datos se registraron en la tabla siguiente:
A un nivel de significación
Requiere del 5%, ¿se puede8afirmar que la6 probabilidad 7de que algún electrodoméstico
9
requiera reparación dentro
reparación del período de garantía es similar entre ellos?
No requiere reparación 35 30 40 39
65. Se está considerando cuatro marcas de lámparas eléctricas para su uso en una gran planta manufacturera.
El director de compras pidió muestras de 100 a cada fabricante. Las cantidades de productos aceptables e
inaceptables de cada uno se indican a continuación. Al nivel de significación del 5%, ¿existe alguna
diferencia en la calidad de las bombillas?
Fabricante
Producto
A B C D
Aceptable 12 8 5 11
Inaceptable 88 92 95 89
224
66. El directorio de una empresa está conformado por cuatro funcionarios. Se desea analizar el
comportamiento que tiene el número de funcionarios que llegan tarde a una sesión del directorio. Para
ello se realizaron las siguientes observaciones:
N° de funcionarios N° de
que llegan tarde observaciones a. ¿Qué distribución considera que sigue el número de
0 8 funcionarios que llegan tarde a una sesión del
1 15 directorio? Justifique su respuesta.
2 25 b. Con un nivel de significación del 5%, pruebe si su
67. E
3 8 afirmación anterior es válida. n
4 7 u
Total 63 n
estudio realizado respecto al servicio de fotocopias de la
universidad, se ha registrado el número de alumnos que se encontraban en la cola de espera al arribo de
un nuevo usuario, durante las horas punta. Los registros se han consolidado en la tabla que a
continuación se muestra.
N° de alumnos
en espera a. ¿Qué distribución considera que sigue el número de
N° de alumnos que se encuentran en cola al arribo de un
observacio nuevo usuario? Justifique su respuesta.
b. Con un nivel de significación del 5%, pruebe si su
nes afirmación anterior es válida. 68. In
0 8 ve
1 15 sti
2 25 gadores del Oak Ridge National Laboratory desarrollaron un
3 8 programa de computadora para estimar los casos de cáncer de la
4 7 tiroides esperados y en exceso que ocurren dentro del plazo de
vida de las
5 a máspersonas expuestas
2 a las pruebas de armas atómicas en el sitio de prueba de Nevada en la
década Total
de 1950. De las aproximadamente
65 23 000 personas expuestas a la precipitación radiactiva de las
pruebas, se esperaba que 58 desarrollaran cáncer a la tiroides. Según el programa de computadora, los 58
casos se pueden clasificar por sexo y nivel de radiación (dosis) en el momento de la exposición, como se
muestra en la tabla:
Sexo
Dosis (rads.) Totales
Masculino Femenino
Menos de 1 6 13 19
Entre 1 y 10 8 18 26
11 o más 3 10 13
Totales 17 41 58
Suponga que los datos representan una muestra aleatoria de 58 pacientes con cáncer de tiroides Realice
una prueba para determinar si las dos direcciones de clasificación, dosis y sexo, en el momento de
exposición, son independientes. Utilice 0,01 .
69. Se está realizando un estudio a consumidores de cigarrillos suaves, fuertes y extra fuertes. Se desea
establecer si ellos están dispuestos a dejar su hábito de fumar para mejorar su condición de salud actual.
Para ello se seleccionó aleatoriamente a fumadores de cada tipo de cigarrillo y se le hizo la consulta. Los
resultados se muestran en la tabla.
A un nivel de significación del 5%,
Dejaría de
Suave Fuerte Extra fuerte considera usted que la proporción de
fumar
personas dispuestas a dejar de fumar es
30 15 8 similar en cada grupo.
Si
225
No 80 75 62
70. La oficina de inspectoría de locales públicos, realiza cuatro inspecciones cada día y desea analizar la
distribución del número de locales sancionados por incumplimiento de las normas de seguridad. Para ello
recopila información a lo largo de 300 días de trabajo, obteniéndose los resultados que se muestran en la
tabla.
entos hombres de varios niveles gerenciales seleccionados al azar fueron entrevistados respecto a su
interés o preocupación por los temas ambientales. La respuesta de cada persona se registró en cada una
de tres categorías: sin interés, algo de interés y gran interés. Los resultados fueron:
Nivel directivo Sin interés Algo de interés Gran preocupación
Gerencia superior 15 13 12
Gerencia media 27 26 27
Supervisor 28 21 31
Utilizando un nivel de significación del 1%, determine si hay alguna relación entre el nivel directivo y
su interés por los temas ambientales.
72. El atentado con bomba a principios de 1993, del hoy desaparecido, World Trade Center, impulsó a un
estudiante que elaboraba una tesis en psicología anormal a estudiar atentados cometidos en todo el
mundo. Recogió los datos que aquí se reproducen sobre el número de actos terroristas diarios perpetrados
en todo un año. Al nivel del 10%, ¿puede el estudiante deducir que esos actos ocurren de acuerdo con
una distribución de Poisson?
73. El departamento de Recursos Humanos de Enigma Enterprise desea determinar si el ausentismo de sus
empleados se relaciona con la edad. Para tal fin se toma una muestra de 200 empleados al azar y se
clasifica según la edad y la causa del ausentismo. Los resultados son los siguientes:
¿Se encuentra la edad de los empleados relacionada con las causas del ausentismo? Considere un nivel
de significación del 10%.
226
74. El número de llamadas que recibe la central telefónica de Enigma Enterprise entre 8:00 y 8:01 horas
durante un período de 100 días es como sigue:
A un nivel de significación del 0,05 pruebe la hipótesis según la cual las frecuencias observadas siguen
la distribución de Poisson.
75. Una socióloga desea saber si existe alguna relación entre el nivel de instrucción y las actividades sociales
de una persona. Decidió manejar tres niveles de instrucción: Asistió o terminó la instrucción
universitaria, asistió o terminó la preparatoria y asistió o terminó la primaria. Cada persona llevó un
registro de sus actividades sociales, como jugar boliche en grupo, asistir a bailes o ceremonias. La
socióloga los dividió en frecuencia superior al promedio, frecuencia promedio y frecuencia inferior al
promedio. A un nivel de significación del 5%, ¿cuál debe ser la conclusión de la socióloga?
Actividad social
Instrucción Superior al Inferior al
Promedio
promedio promedio
Universitaria 18 12 10
Preparatoria 17 15 13
Primaria 9 9 22
76. Diariamente, de lunes a sábado, un panadero hornea tres pasteles de chocolate. Si no los vende ese
mismo día los dona a un comedor popular. Use los datos mostrados en la siguiente tabla para probar a un
nivel de significación de 0,05 si se puede considerar el número de pasteles de chocolate vendidos
diariamente como valores de una variable aleatoria binomial.
Número de pasteles de chocolate
Número de días
vendidos diariamente
0 1
1 16
2 55
3 228
77. Un estudio de la relación entre las condiciones de las instalaciones en gasolineras y la agresividad en el
precio de la gasolina, reporta los siguientes datos basados en una muestra de 441 gasolineras. Al nivel de
significación del 1%, ¿sugiere la información que las condiciones de las instalaciones y la política de
precios son independientes entre sí?
78. Un asesor de dirección pretende estudiar la intensidad de los conflictos organizativos a partir de los datos
recogidos aquí sobre 64 empresas durante el año pasado.
a. ¿Qué distribución cree usted que sigue el número de conflictos que se presentan al año? Justifique
adecuadamente su supuesto.
b. A un nivel de significación del 1%, ¿puede decir que su supuesto anterior es correcto?
227
Número de conflictos Número de empresas
0 9
1 11
2 12
3 24
4 ó más 8
79. Se realizó una encuesta entre amas de casa de los sectores socioeconómicos A, B y C para determinar su
preferencia por uno de dos detergentes más utilizados en el mercado. Los resultados de la investigación
se muestran en la siguiente tabla. Sobre la base de los datos mostrados y usando un nivel de significación
de 0,05 verifique si la preferencia por un detergente depende del nivel socioeconómico.
80. Publicidad Pacifico, investiga la relación entre el tipo favorito de mensaje comercial y el nivel de
ingresos para una muestra de consumidores. Los datos son:
Pruebe, a un nivel de significación del
1.2. Comercial favorito 5%, si el nivel de ingreso se relaciona
con la preferencia de comerciales.
Ingreso A B C
Bajo 25 40 70
Medio 30 30 30
Alto 45 20 10
81. Los registros históricos de una central de bomberos, indican que el número promedio de llamadas que
recibe la central para que atienda una emergencia, es de cuatro llamadas por hora. Se obtiene una
muestra aleatoria de 200 intervalos de una hora y se registran las frecuencias de llamadas del servicio.
Los resultados son:
84. Respecto a la pregunta anterior, uno de los amigos del equipo de investigación considera que el día,
durante la semana, en que se visita el balneario también puede influenciar al gasto de los visitantes. Por
ello propuso analizar los datos de la tabla, con un nivel de significación del 5%, con la intención de
determinar si algún balneario o algún día de la semana o una combinación de ambos, permitiría un menor
gasto.
85. Las compras de arroz embolsado de 24 familias fueron registradas, según lugar de residencia y forma
como fue propalado el comercial en dichas ciudades
Analice los datos considerando un nivel de significación del 5%. Identifique el modelo y las
componentes del modelo, los factores, los niveles del factor y la variable respuesta. Determine si es
posible la mejor combinación de tratamientos.
86. Los siguientes datos resultaron de un experimento realizado por una cadena de tiendas para investigar si
las ventas de cierto producto (miles de dólares) depende del color de la etiqueta y el tamaño del paquete
(onzas)
229
Rojo 189,7 185,1 189,0
188,6 179,4 193,0
190,1 177,3 191,1
Verde 165,1 161,7 163,3
165,9 159,8 166,6
167,6 161,6 170.3
Subconjuntos homogéneos
VENTAS Ventas
a,b
Al nivel de significación del 5%, ¿se podría
Duncan
Subconj unt o
decir que existe diferencia de preferencia de
Tamaño del paquete (oz) N 1 2 envoltura?
12 6 170.8167
10 6 177.8333
16 6 178.8833
Significación 1.000 .472
Se m uestran las m edias par a los grupos en subconj untos hom ogéneos.
Basado en la sum a de cuadrados tipo I
El térm ino error es la Media cuadrática (Error) = 5.989.
a. Usa el tamaño muestral de la medi a armónica = 6.000
b. Alfa = .05.
230
Medias marginales estimadas de Ventas
Medias marginales estimadas de Ventas 200
200
190
190
170
170 Tamaño
color
10
160 160
12 Rojo
89. Con el propósito de mejorar el desempeño alumnos al presentarse en el examen GMAT que se califica
desde 200 hasta 800; las más altas indican mayor aptitud. Una prestigiosa universidad planea ofrecer los
siguientes tres programas de preparación: Una sesión de repaso de tres horas, un programa de un día y un
curso intensivo de 10 semanas. Al examen se presentan generalmente alumnos de tres carreras:
Administración, Ingeniería y alumnos de Ciencias. Además se cuenta con la siguiente información:
231
Administració
Programa Ingeniería Ciencias
n
500 540 480 Elabore un informe completo
Repaso de 520 450 420 y detallado de la información
3 horas 580 460 400 que se le presenta. Utilice
un nivel de significación del
460 560 420 5%
Programa de
500 580 430
un día
540 620 480
560 600 480
Curso de 10
570 570 420
semanas
600 580 410
90. Los siguientes datos corresponden al número de hornos de Sucursal Sucursal Sucursal
microondas que se vende en cada una de las tres sucursales Alfa Beta Gamma
de una compañía distribuidora de artículos domésticos. 21 32 24
15 20 17
Las tablas de salidas de resultados que brinda el software 17 30 20
SPSS al introducir los datos anteriores en la opción de 22 26 12
comparación de medias para análisis de varianza de un 24 15
factor se muestran a continuación. 21
TABLA ANOVA
VENTA
Suma de Cuadrado
cuadrados gl medio F Sig.
Entre
214.150 2 107.075 5.873 .017
tratamientos
Dentro de
218.783 12 18.232
tratamientos
Total 432.933 14
a. Al nivel de significación del 5%, ¿se puede concluir que existe una diferencia en el número
promedio de hornos de microondas que se venden en cada sucursal?
b. Determine la o las sucursales que logran mayores niveles de ventas de este tipo de artículo
doméstico. Argumente.
232
91. Un parque de diversiones ha estudiado métodos para
disminuir el tiempo de espera (en minutos) para los
juegos, haciendo que las personas entren a ellos y Juego
salgan en una forma más eficiente. Se han propuesto Rueda Casa del Canal de
tres métodos alternos de entrada y salida a los de la terror lanchas
juegos. Para tener en cuenta diferencias potenciales fortuna
debidas al tipo de juego y a la interacción posible 41 52 50
entre el método de entrada y salida y el tipo de Método 40 50 48
juego, se diseñó un experimento factorial. Con los 1 43 44 46
siguientes datos, pruebe si hay algún efecto 49 50 48
importante debido al método de entrar y salir, al tipo Método 2 17 48 45
de juego y a la interacción. La salida del análisis 51 46 44
factorial utilizando el paquete SPSS en su opción 47 43 51
Modelo lineal general se muestran a continuación.
Método 3 49 42 50
Prueba de los efectos inter-sujetos
50 46 49
Dependent Variable: Tiempo
Suma de
cuadrados Media
Fuente Tipo III gl cuadrática F Sig.
Modelo corregido 110.111a 8 13.764 1.745 .212
Intersección 40138.889 1 40138.889 5088.028 .000
JUEGO 5.444 2 2.722 .345 .717
MÉTODO 13.778 2 6.889 .873 .450
JUEGO * MÉTODO 90.889 4 22.722 2.880 .086
Error 71.000 9 7.889
Total 40320.000 18
Total corregida 181.111 17
a.
92. Los siguientes datos muestran el número de reclamos procesados diariamente en 4 líneas de transporte de
pasajeros, a quienes se observó durante varios días. Se puede afirmar que el número medio de reclamos
por día son iguales en las líneas de transporte. Use un nivel de significación del 5%.
233
a
Contraste de Levene sobre la igualdad de las varianzas error
Reclamos
a,b,c
Duncan
Subconjunto
Línea N 1 2
Línea 4 6 11,67
Línea 2 4 11,75
Línea 3 5 14,00 14,00
Línea 1 4 14,50
Signif icación ,070 ,668
Se m uest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo III
El término error es la Media cuadrática (Error) = 3,006.
a. Usa el tamaño muestral de la media armónica = 4,615
b. Los tamaños de los grupos son distintos. Se
empleará la media armónica de los t amaños de los
grupos. No se garantizan los niv eles de error tipo I.
c. Alf a = ,05.
Número de quejas
a,b,c
Duncan
Subconjunto
Línea N 1 2
Línea 4 6 11.67
Línea 2 4 11.75
Línea 3 5 14.00 14.00
Línea 1 4 14.50
Signif icación .070 .668
Se muest ran las medias para los grupos en subconjuntos
homogéneos.
Basado en la suma de cuadrados tipo I
El término error es la Media cuadrática (Error) = 3.006.
a. Usa el tamaño muestral de la media armónica = 4.615
b. Los tamaños de los grupos son distintos. Se
empleará la media armónica de los t amaños de los
grupos. No se garantizan los niv eles de error tipo I.
c. Alf a = .05.
93. Un investigador de mercados de una cadena de supermercados está interesado en el estudio del efecto de
la colocación de estantes sobre la venta de un producto. Se estudiaron cuatro lugares distintos donde
colocar los estantes: normal (A), colocación adicional en la tienda (B), nueva colocación y un anunciador
del producto (C) y colocación normal con listones de propaganda (D). Se tomaron tres tamaños de
tiendas diferentes: pequeña, mediana y grande. Para cada colocación de estantes se seleccionó una
234
muestra aleatoria de dos tiendas de cada tamaño. Los resultado de las ventas semanales (en cientos de
dólares) se muestran en el siguiente cuadro:
Residuo
para Vent as
N 36
Parámet ros normales a,b Media ,0000
Desv iación t ípica a
Contraste de Levene sobre la igualdad de las varianzas error
3,05193
235
Ubicación del estante
Comparaciones múltiples
Subconjuntos homogéneos
Tamaño de tienda
Comparaciones múltiples
236
Subconjuntos homogéneos
Ubicación * Tamaño
94. Una compañía que vende regalos por correo cuenta con los siguientes datos muestrales para las ventas,
en dólares, realizadas. Clasificados por la forma como se efectuó el pago y el distrito de residencia del
cliente. Pruebe a un nivel de significación del 5%, si hay algún efecto importante en las ventas debido al
distrito de residencia del cliente, a la forma de pago y a la interacción.
95. Tres variedades de espárragos (A, B y C) y cuatro tipos de fertilizante (Frontex, Silux, Esso y Grass) son
considerados para ser utilizados en la región norte del país. Para ver si alguna variedad o un tipo de
fertilizante afectan de manera diferenciada a la producción, cada combinación de variedad de planta y
237
tipo de fertilizante se utiliza en tres terrenos diferentes resultando los datos de producciones por hectárea
de la tabla siguiente:
Tipo de fertilizante
Variedad de
Frontex Silux Esso Grass
espárrago
10,5 12,8 12,1 10,8
A 9,2 11,2 12,6 9,1
7,9 13,3 14,0 12,5
8,1 12,7 14,4 11,3
B 8,6 13,7 15,4 12,5
10,1 11,5 13,7 14,5
16,1 16,6 20,8 16,4
C 15,3 19,2 18,0 18,9
17,5 18,5 21,0 17,2
Residuo para
Producción
N 36
Parámet ros normales a,b Media .0000
Desv iación t ípica
1.06601 a
Contraste de Levene sobre la igualdad de las varianzas error
Dif erencias más Absoluta .153 Variable dependiente: Producción por hectárea
extremas Positiv a .107 F gl1 gl2 Significación
Negativ a -.153 .333 11 24 .969
Z de Kolmogorov -Smirnov .918
Contrasta la hipótesis nula de que la v arianza error de la
Sig. asintót. (bilateral) .368 v ariable dependiente es igual a lo largo de todos los grupos.
a. La distribución de cont raste es la Normal. a. Diseño: Intersección+Fertilizante+Variedad+Fertilizante
b. Se han calculado a partir de los datos. * Variedad
96. Se pide a cuatro personas que beban una marca determinada de café y registren el número de tazas que
consumen durante el día. Se hace lo mismo con bebedores de otras tres marcas. Los resultados se
muestran en la siguiente tabla. Con un nivel de significación de 0,05 pruebe si existe alguna diferencia en
el número promedio de tazas promedio consumidas, para cada marca.
238
Marca A Marca B Marca C Marca D
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 5
239
El propietario de una cadena de salas cinematográficas, desea estimar el ingreso semanal bruto en función de
los gastos de publicidad. Los datos históricos de una muestra de 8 semanas son los siguientes:
Ingreso Publicidad en
semanal Publicidad periódicos Publicidad en
bruto (miles en TV (miles (miles de radio (miles
de dólares) de dólares) dólares) de dólares)
Pearson Correlation Ingreso semanal bruto
1.000 .808 .522 .709
(miles de dólares)
Publicidad en TV (miles
.808 1.000 -.053 .978
de dólares)
Publicidad en periódicos
.522 -.053 1.000 -.157
(miles de dólares)
Publicidad en radio
.709 .978 -.157 1.000
(miles de dólares)
Sig. (1-tailed) Ingreso semanal bruto
. .008 .092 .024
(miles de dólares)
Publicidad en TV (miles
.008 . .451 .000
de dólares)
Publicidad en periódicos
.092 .451 . .356
(miles de dólares)
Publicidad en radio
.024 .000 .356 .
(miles de dólares)
N Ingreso semanal bruto
8 8 8 8
(miles de dólares)
Publicidad en TV (miles
8 8 8 8
de dólares)
Publicidad en periódicos
8 8 8 8
(miles de dólares)
Publicidad en radio
8 8 8 8
(miles de dólares)
ANOVAb
Model Summary
Sum of
Adjusted Std. Error of Model Squares df Mean Square F Sig.
Model R R Square R Square the Est imat e 1 Regression 25.170 3 8.390 101.747 .000a
Residual .330 4 8.246E-02
1 .994a .987 .977 .29
Total 25.500 7
a. Predictors: (Constant), Publicidad en radio (miles de a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
dólares), Publicidad en periódicos (miles de dólares), periódicos (miles de dólares), Publicidad en TV (miles de dólares)
Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)
240
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 81.798 .772 106.021 .000
Publicidad en TV (miles
2.955 .622 1.488 4.750 .009
de dólares)
Publicidad en periódicos
2.149 .286 .496 7.514 .002
(miles de dólares)
Publicidad en radio
-1.619 .766 -.669 -2.112 .102
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)
Regression: Y, X1, X2
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 24.802 2 12.401 88.877 .000a
Residual .698 5 .140
Adjusted Std. Error of Total 25.500 7
Model R R Square R Square the Est imat e
1 .986a .973 .962 .37 a. Predictors: (Constant), Publicidad en periódicos (miles de dólares), Publicidad en
a. Predictors: (Const ant ), Publicidad en periódicos (miles TV (miles de dólares)
de dólares), Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal bruto (miles de dólares)
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 81.975 .998 82.165 .000
Publicidad en TV (miles
1.663 .147 .838 11.308 .000
de dólares)
Publicidad en periódicos
2.454 .321 .567 7.648 .001
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)
Regression: Y, X1, X3
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 20.515 2 10.257 10.288 .017a
Residual 4.985 5 .997
Adjusted Std. Error of
Total 25.500 7
Model R R Square R Square the Est imat e
1 .897a .805 .726 1.00 a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en TV
a. Predictors: (Constant), Publicidad en radio (miles de (miles de dólares)
dólares), Publicidad en TV (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 85.820 1.932 44.417 .000
Publicidad en TV
5.242 1.887 2.640 2.778 .039
(miles de dólares)
Publicidad en radio
-4.531 2.299 -1.873 -1.971 .106
(miles de dólares)
a. Dependent Variable: Ingreso semanal brut o (miles de dólares)
Regression: Y, X2, X3
241
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 23.310 2 11.655 26.605 .002a
Residual 2.190 5 .438
Adjusted Std. Error of Total 25.500 7
Model R R Square R Square the Est imat e
1 .956a .914 .880 .66 a. Predictors: (Constant), Publicidad en radio (miles de dólares), Publicidad en
a. Predictors: (Constant), Publicidad en radio (miles de periódicos (miles de dólares)
dólares), Publicidad en periódicos (miles de dólares) b. Dependent Variable: Ingreso semanal brut o (miles de dólares)
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 82.530 1.742 47.364 .000
Publicidad en periódicos
2.813 .575 .649 4.894 .004
(miles de dólares)
Publicidad en radio
1.961 .321 .811 6.109 .002
(miles de dólares)
a. Dependent Variable: Ingreso semanal bruto (miles de dólares)
97. Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales y los años de
experiencia de sus vendedores.
Vendedor 1 2 3 4 5 6 7 8 9 10
Años de experiencia 1 3 4 4 6 8 10 10 11 13
Ventas anuales (miles de dólares) 75 97 92 102 103 111 119 123 117 136
Lineal
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2518,338 1 2518,338 89,081 ,000
R R cuadrado corregi da la estimaci ón Resi dual 226,162 8 28,270
,958 ,918 ,907 5,317 Total 2744,500 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.
242
Coef ici entes
Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia 4,211 ,446 ,958 9,438 ,000
(Constante) 78,021 3,547 21,995 ,000
Cuadrático
ANOVA
Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia 5,271 2,130 1,199 2,474 ,043
años_experiencia ** 2 -,076 ,148 -,247 -,510 ,626
(Constante) 75,387 6,368 11,838 ,000
Potencia
ANOVA
Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
ln(años_experiencia) ,208 ,020 ,963 10,162 ,000
(Constante) 74,032 2,859 25,895 ,000
La variable dependiente es ln(ventas).
Exponencial
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,231 1 ,231 65,508 ,000
R R cuadrado corregi da la estimaci ón Resi dual ,028 8 ,004
,944 ,891 ,878 ,059 Total ,259 9
La vari able independiente esaños_experiencia. La variable i ndependi ente esaños_experi encia.
243
Coef ici entes
Coeficientes no Coeficientes
estandari zados estandari zados
Desviación
B Error Beta t Sig.
años_experiencia ,040 ,005 ,944 8,094 ,000
(Constante) 80,038 3,172 25,233 ,000
La variable dependiente es ln(ventas).
99. Un estudio de mercado trata de averiguar si es afectiva la propaganda televisada de un producto que salió
a la venta con relación al tiempo de publicidad (en horas / semana). Se recopilaron datos a partir de la
segunda semana de iniciada la publicidad resultando el cuadro que sigue.
Tiempo de propaganda 20 25 28 36 40
Venta del producto (dólares) 300 310 320 350 420
100. Los datos siguientes presentan el número de dormitorios, el número de baños y los precios a que se
vendieron recientemente ocho casas unifamiliares en cierta comunidad.
Número de
dormitorios Número de baños Precio (en dólares)
3 2 78800
2 1 74300
4 3 83800
2 1 74200
3 2 79700
2 2 74900
5 3 88400
4 2 82900
a. Analice los datos con un nivel de significación del 10% y determine el modelo de regresión.
b. Estime el precio de venta de una casa con tres dormitorios y dos baños.
Correlaciones
244
Regresión: precio=f(nºbaños, nºdormitorios)
ANOVAb
Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 185269167 2 92634583 675,343 ,000 a
Resi dual 685833,333 5 137166,667
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,998 a ,996 ,995 370,360 a. Variables predictoras: (Constante), nºbaños, nºdormitori os
a. Variables predictoras: (Constante), nºbaños, nºdormi torios b. Variable dependiente: preci o
Coef icientesa
Regresión: precio=f(nºdormitorios)
ANOVAb
Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 184588803 1 184588803 810,668 ,000 a
Resi dual 1366197,2 6 227699,531
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,996 a ,993 ,991 477,179 a. Variables predictoras: (Constante), nºdormitorios
a. Variables predictoras: (Constante), nºdormitorios b. Variable dependiente: preci o
Coef icientesa
Regresión: precio=f(nºbaños)
ANOVAb
Suma de Media
Model o cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 140422500 1 140422500 18,504 ,005 a
Resi dual 45532500 6 7588750,0
R cuadrado Error típ. de
Total 185955000 7
Modelo R R cuadrado corregida la estimaci ón
1 ,869 a ,755 ,714 2754,769 a. Variables predictoras: (Constante), nºbaños
a. Variables predictoras: (Constante), nºbaños b. Variable dependiente: preci o
Coeficientes no Coeficientes
estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 67775,000 2921,873 23,196 ,000
nºbaños 5925,000 1377,384 ,869 4,302 ,005
a. Variable dependiente: precio
245
101. Los siguientes datos se refieren al crecimiento de de una colonia de bacterias en un medio de cultivo:
Gráfico de dispersión
N° bacterias
1000000
800000
600000
400000
Observada
200000
Linea l
0 Exponencial
2 4 6 8 10 12 14 16 18 20
Días de la inoculación
a. ¿Cuál es el modelo lineal ajustado?, ¿cuál es el modelo exponencial ajustado?, ¿cuál de los
dos modelos ajusta mejor a los datos recogidos, compárelos? Use α 0,05.
b. Pronostique el número de bacterias a los 10 días de inoculación.
Debajo se muestra la salida del SPSS del modelo lineal y el modelo exponencial linealizado.
Modelo lineal
246
Resumen del modelo
ANOVAb
Coef icientesa
Coeficientes no Coeficientes
estandari zado s estandari zado s
Modelo B Erro r típ . Bet a t Si g.
1 (Const an te) -1 32066 .667 917 45.877 -1 .4 39 .223
X D ías d e l a i noculación 490 38.095 785 2.722 .952 6.24 5 .003
a. Variable depend iente: Y N° Bacterias
Modelo linealizado
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 3.036 1 3.036 699.672 .000 a
Resi dual .017 4 .004
Total 3.054 5
a. Variables predi ctoras: (Const ante), X Días de la inoculación
b. Variable dependiente: LNY
247
Coef ici entesa
Coeficientes no Coeficientes
estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 11.151 .061 181.824 .000
X Días de la i noculación .139 .005 .997 26.451 .000
a. Variable dependiente: LNY
102. Suponga que desea desarrollar un modelo para predecir la valuación de casas unifamiliares de
acuerdo con el área que tiene calefacción, la antigüedad de la casa y el tamaño del lote. Se selecciona una
muestra de 15 casas unifamiliares. Se registraron la valuación (en miles de dólares), el área de las casas
que tiene calefacción (en miles de pies cuadrados), la antigüedad de las casas (en años) y el tamaño del
lote (miles de pies cuadrados) con los siguientes resultados:
Casa Valuación (miles Área con calefacción Edad (años) Tamaño del lote
de dólares) (miles de pie2) (miles de pie2)
1 70,40 1,60 32,00 2,50
2 79,30 1,39 1,00 1,80
3 75,70 1,45 8,33 1,50
4 79,20 1,50 2,75 2,30
5 74,50 1,54 12,58 1,80
6 75,80 1,55 16,00 2,30
7 78,50 1,59 1,75 1,80
8 76,80 1,59 7,17 1,80
9 77,40 1,71 11,50 2,50
10 85,90 1,76 0,00 1,95
11 84,40 1,85 3,42 3,00
12 83,80 1,89 2,75 2,05
13 86,70 1,90 0,00 2,50
14 79,10 1,93 7,42 2,65
15 85,90 1,93 2,00 3,00
a. Estime el modelo lineal con todas las variables independientes, ¿qué porcentaje de la
variabilidad en la valuación de las casas es explicado por el modelo?, ¿este modelo es
significativo? Use α 0,05.
b. De incluir todas las variables en el modelo para estimar la valuación de la casa, ¿este modelo
presentará problemas de multicolinealidad?, ¿qué propone para remediar esto?
c. Estime el mejor modelo para pronosticar la valuación de las casas unifamiliares. Analícelo
con 5% de nivel de significación.
d. Pronostique la valuación para una casa que tiene un área con calefacción de 1750 pies
cuadrados, 10 años de antigüedad y 2500 pies cuadrados.
248
Correl aciones
. 75
. 50
Prob acum e sperada
. 25
0. 00
0. 00 . 25 . 50 . 75 1. 00
249
Sin X1
Sin X2
Coef icientesa
250
Sin X1, X2
Resumen del modelob ANOVAb
R Error t íp.
R cuadrado de la Suma de Media
R cuadrado corregida estimación cuadrados gl cuadrática F Sig.
1 .360 a .130 .063 4.66490 1 Regresión 42.239 1 42.239 1.94 .187 a
a. Variables predictoras: (Constante), X3 Tamaño del lote Resi dual 282.897 13 21.761
b. Variable dependiente: Y Valuaci ón Total 325.136 14
a. Variables predictoras: (Constante), X3 Tamaño del lote
b. Variable dependiente: Y Valuaci ón
Sin X1, X3
Resumen del modelob ANOVAb
Suma de Media
R Error típ. cuadrados gl cuadrática F Sig.
R cuadrado de la 1 Regresión 212.277 1 212.277 24.5 .000 a
R cuadrado corregida estimación Resi dual 112.859 13 8.681
1 .808 a .653 .626 2.94643 Total 325.136 14
a. Variables predictoras: (Constante), X2 Edad a. Variables predi ctoras: (Constante), X2 Edad
b. Variable dependiente: Y Val uación b. Variable dependiente: Y Valuación
Sin X2, X3
251
Coef ici entesa
103. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.
104. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:
Gastos de publicidad 1 2 4 6 10 14 20 23 27 32
Ingresos 19,2 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8
a. A un nivel de significación del 10%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.
105. Los datos en miles de dólares, sobre gastos de propaganda e ingresos para el restaurante “Las Cuatro
Estaciones” son los siguientes:
Gastos de publicidad 2 4 6 10 14 20 23 27 32
Ingresos 32,5 44,7 40,2 52,3 53,6 54,8 57,2 62,1 63,8
a. A un nivel de significación del 10%, determine e interprete el modelo de regresión lineal para este
conjunto de datos.
b. ¿Será correcto afirmar que si el gasto en publicidad se incrementa en mil dólares, el ingreso se
incrementará en menos de $900?
c. Estime con un nivel de confianza del 90% el ingreso, si el gasto de publicidad es de $25 000.
d. A un nivel de significación del 10%, ¿considera usted que la correlación entre las variables en
estudio es superior a 0,90?
252
106. La siguiente tabla muestra el peso, potencia, velocidad al cuarto de kilómetro y tiempo para acelerar
de 0 a 100 km por hora de 16 autos deportivos.
a. Analice la presencia de multicolinealidad.
b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.
c. Estime la velocidad desarrollada por el auto al cuarto de kilómetro si los valores correspondientes a
las variables independientes se corresponden con los valores del auto número 7.
107. La empresa Nielsen Research reúne datos acerca de la cantidad de familias que ven programas donde
se pasa determinado anuncio. Esta observación es de utilidad para los publicistas, por que les dice a
cuántos consumidores llegan. Los datos siguientes muestran la cantidad de familias espectadoras, en
millones, y la cantidad de veces que salió al aire el anuncio en una determinada semana.
a. A un nivel de significación del 5%, determine e interprete el modelo de regresión para este conjunto
de datos.
b. Estime con un nivel de confianza del 95% el número promedio de familias, si el anuncio sale al aire
30 veces en una semana.
108. Una empresa farmacéutica prepara medicamentos especiales a pedido. A la propietaria le preocupa
los gastos relacionados con cada entrega. Para investigar al respecto, reunió información en una muestra
aleatoria de 10 entregas recientes. Los factores a considerar como relacionados con los gastos de entrega
son:
Preparación Tiempo en minutos transcurrido entre el momento en el que se hace el pedido y aquel en
el que está listo para la entrega.
Entrega Tiempo en minutos de transporte de la planta al cliente.
Distancia Distancia recorrida en kilómetros desde la planta hasta el cliente.
253
Analice la multicolinealidad, determine e interprete la ecuación de regresión que permita estimar los
gastos con un nivel de significación del 5%.
Gasto Preparació
N° Entrega Distancia
(en dólares) n
1 21,16 3 19 8
2 20,36 9 19 7
3 17,96 12 12 4
4 21,16 5 13 8
5 22,63 8 30 11
6 22,63 8 31 11
7 15,99 8 13 4
8 18,76 5 14 7
9 19,68 7 18 8
10 18,76 12 12 5
ANOVAb
Sum of
Model Summaryb
Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 35.327 3 11.776 15.148 .003a
Model R R Square R Square the Est imat e atson Residual 4.664 6 .777
1 .940a .883 .825 .8817 .511 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km, Tiempo de a. Predictors: (Constant), Distancia hasta el client e en km, Tiempo de preparación en
preparación en minutos, Tiempo de transporte en minutos minutos, Tiempo de transporte en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares
254
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 12.635 1.816 6.957 .000
Tiempo de preparación
.135 .138 .186 .982 .364
en minutos
Tiempo de transporte
-.101 .108 -.341 -.936 .385
en minutos
Dist ancia hasta el
1.105 .338 1.309 3.271 .017
client e en km
a. Dependent Variable: Gasto en dólares
Regression: Y, X1, X2
ANOVAb
Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 27.010 2 13.505 7.282 .019a
Adjusted Std. Error of Durbin-W Residual 12.981 7 1.854
Model R R Square R Square the Est imat e atson
Total 39.991 9
1 .822a .675 .583 1.3618 1.502
a. Predictors: (Constant), Tiempo de transporte en minutos, Tiempo a. Predictors: (Constant), Tiempo de transporte en minutos, Tiempo de preparación
de preparación en minutos en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 17.113 1.844 9.282 .000
Tiempo de preparación
-.167 .158 -.230 -1.060 .324
en minutos
Tiempo de transporte
.225 .065 .759 3.493 .010
en minutos
a. Dependent Variable: Gasto en dólares
Regression: Y, X1, X3
ANOVAb
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 13.507 1.546 8.737 .000
Tiempo de preparación
6.026E-02 .111 .083 .543 .604
en minutos
Dist ancia hasta el
.813 .129 .963 6.295 .000
client e en km
a. Dependent Variable: Gasto en dólares
Regression: Y, X2, X3
255
ANOVAb
Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 34.577 2 17.289 22.353 .001a
Adjusted Std. Error of Durbin-W
Model R R Square R Square the Est imat e atson
Residual 5.414 7 .773
1 .930a .865 .826 .8794 .741 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km, Tiempo de a. Predictors: (Constant), Distancia hasta el client e en km, Tiempo de transporte en
transporte en minutos minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 14.183 .901 15.736 .000
Tiempo de transporte
-3.96E-02 .088 -.133 -.450 .666
en minutos
Dist ancia hasta el
.883 .250 1.045 3.532 .010
client e en km
a. Dependent Variable: Gast o en dólares
Regression: Y, X1
ANOVAb
Sum of
Model Summaryb Model Squares df Mean Square F Sig.
1 Regression 4.388 1 4.388 .986 .350a
Adjusted Std. Error of Durbin-W
Model R R Square R Square the Est imat e atson Residual 35.603 8 4.450
1 .331a .110 -.002 2.1096 1.704 Total 39.991 9
a. Predictors: (Constant), Tiempo de preparación en minut os a. Predictors: (Constant), Tiempo de preparación en minutos
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 21.758 1.978 11.000 .000
Tiempo de preparación
-.240 .242 -.331 -.993 .350
en minutos
a. Dependent Variable: Gasto en dólares
Regression: Y, X2
ANOVAb
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 15.663 1.245 12.579 .000
Tiempo de transporte
.235 .064 .789 3.638 .007
en minutos
a. Dependent Variable: Gast o en dólares
Regression: Y, X3
256
ANOVAb
Sum of
Model Summaryb
Model Squares df Mean Square F Sig.
Adjusted Std. Error of Durbin-W 1 Regression 34.420 1 34.420 49.431 .000a
Model R R Square R Square the Est imat e atson Residual 5.571 8 .696
1 .928a .861 .843 .8345 .783 Total 39.991 9
a. Predictors: (Constant), Dist ancia hasta el cliente en km a. Predictors: (Constant), Distancia hasta el client e en km
b. Dependent Variable: Gasto en dólares b. Dependent Variable: Gasto en dólares
Coefficientsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 14.191 .855 16.597 .000
Dist ancia hasta
.783 .111 .928 7.031 .000
el cliente en km
a. Dependent Variable: Gasto en dólares
109. La gerencia de un empresa de servicios de iluminaciones eléctricas, estudia las relaciones entre los
consumos de energía (en miles de kilowatts-hora, kWh) y el número de habitaciones en una residencia
privada unifamiliar. Una muestra aleatoria de 10 residencias proporcionó los siguientes datos.
N° de habitaciones 12 9 14 6 10 8 10 10 5 7
Consumo (miles de kWh) 9 7 10 5 8 6 8 10 4 7
a. Determine, valide é interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Estime con nivel de confianza del 95% el consumo de una residencia que tiene 11 habitaciones.
ANOVAb
Model Summaryb
Sum of
Adjusted Std. Error of Model Squares df Mean Square F Sig.
Model R R Square R Square the Est imat e 1 Regression 29.733 1 29.733 35.680 .000a
1 .904a .817 .794 .91 Residual 6.667 8 .833
a. Predictors: (Constant), Número de habitaciones Total 36.400 9
b. Dependent Variable: consumo de energía (miles de a. Predictors: (Constant), Número de habit aciones
kWh) b. Dependent Variable: consumo de energí a (miles de kWh)
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) 1.333 1.056 1.263 .242
Número de habitaciones .667 .112 .904 5.973 .000
a. Dependent Variable: consumo de energía (miles de kWh)
110. Se desea analizar la capacidad de ahorro de una familia. Para ello se recopila información de siete
observaciones correspondiente al Ingreso mensual y al Ahorro mensual, ambos en miles de soles.
Ingreso 1,1 1,2 3,2 4,8 4,5 3,8 5,2
Ahorro 0,5 0,5 0,9 1,2 1,0 1,0 1,3
257
Universidad Peruana de Ciencias Aplicadas
Lineal
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .570 1 .570 156.739 .000
.984 .969 .963 .060 Residual .018 5 .004
La v ariable independiente esIngreso mensual, en miles Total .589 6
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual,
.185 .015 .984 12.520 .000
en miles de soles
(Constante) .287 .055 5.206 .003
Cuadrático
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .571 2 .285 64.910 .001
.985 .970 .955 .066 Residual .018 4 .004
Total .589 6
La v ariable independiente esIngreso mensual, en miles
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual, en
.149 .097 .795 1.530 .201
miles de soles
Ingreso mensual, en
.006 .016 .192 .370 .730
miles de soles ** 2
(Constante) .325 .121 2.695 .054
Potencia
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .898 1 .898 232.843 .000
.989 .979 .975 .062 Residual .019 5 .004
La v ariable independiente esIngreso mensual, en miles Total .917 6
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Ingreso mensual,
.589 .039 .989 15.259 .000
en miles de soles)
(Constante) .458 .022 21.034 .000
La v ariable dependient e es ln(Ahorro mensual, en miles de soles).
Exponencial
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión .894 1 .894 187.281 .000
.987 .974 .969 .069 Residual .024 5 .005
Total .917 6
La v ariable independiente esIngreso mensual, en miles
de soles. La v ariable independiente esI ngreso mensual, en miles de soles.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso mensual,
.231 .017 .987 13.685 .000
en miles de soles
(Constante) .393 .025 15.858 .000
La v ariable dependiente es ln(Ahorro mensual, en miles de soles).
111. La distribuidora de alimentos ALICORP realizó un estudio para relacionar la utilidad neta por la
venta de comestibles con el costo de transporte para un período de 10 años cuando el costo de venta
aumentaba rápidamente. Se obtuvieron los siguientes datos (en miles de dólares), ajustados por la
inflación:
Costo de transporte 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad Neta 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Estime la utilidad neta, a un nivel de confianza del 95%, si el costo de transporte es de 12 500
dólares.
Lineal
ANOVA
Resumen d el mod elo
Suma de Media
R cuadrado Error típico de cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión 4667.077 1 4667.077 254.677 .000
.985 .970 .966 4.281
Residual 146.604 8 18.325
La v ariable independiente escosto de transport e.
Total 4813.681 9
La v ariable independiente escosto de transporte.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transporte 10.461 .656 .985 15.959 .000
(Constante) -42.544 5.448 -7.809 .000
Cuadrático ANOVA
ANOVA
Resumen d el mod elo Suma de Media
Resumen d el mod elo cuadrados
Suma de gl cuadrática
Media F Sig.
R cuadrado Error típico de Regresión 4762.691
cuadrados gl 2 2381.346
cuadrática 326.918
F .000
Sig.
R R cuadrado corregida
R cuadrado la estimación
Error típico de Regresión
Residual 4762.691
50.990 72 2381.346
7.284 326.918 .000
.995
R .989
R cuadrado .986
corregida 2.699
la estimación
Residual
Total 50.990
4813.681 97 7.284
.995 independiente
La v ariable .989 escosto de.986
transport e. 2.699
LaTotal 4813.681escosto de transporte.
v ariable independiente 9
La v ariable independiente escosto de transport e.
La v ariable independiente escosto de transporte.
Coeficien tes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transport e -4.383 4.118 -.413 -1.064 .322
costo de transport e ** 2 .918 .253 1.404 3.623 .008
(Constante) 13.565 15.863 .855 .421
Potencia
ANOVA
Resumen del modelo
Suma de Media
R cuadrado Error típico de Coeficien tes cuadrados gl cuadrática F Sig.
R R cuadrado corregida la estimación Regresión 3.366 1 3.366 939.786 .000
.996 .992 .991 .060 Residual
Coef icientes
.029 8 .004
La v ariable independiente escosto de transport e. Coef icientes no Total estandarizad
3.395 9
estandarizados os
La v ariable independiente escosto de transporte.
B Error típico Beta t Sig.
ln(costo de transport e) 2.177 .071 .996 30.656 .000
(Constante) .410 .060 6.808 .000
La v ariable dependient e es ln(utilidad neta).
Exponencial
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 3.315 1 3.315 332.617 .000
R R cuadrado corregida la estimación Residual .080 8 .010
.988 .977 .974 .100 Total 3.395 9
La v ariable independiente escosto de transport e. La v ariable independiente escosto de transporte.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
costo de transporte .279 .015 .988 18.238 .000
(Constante) 3.776 .480 7.871 .000
La v ariable dependiente es ln(ut ilidad neta).
112. La empresa Enigma vende sus productos en diversos territorios, y a cada uno de ellos se asigna sólo
un representante de ventas. Esta empresa encomendó al Dpto. de Mercadotecnia la realización de un
estudio para determinar si diversas variables predictoras (independientes) pueden explicar las ventas en
cada territorio.
Las variables predictoras consideradas fueron:
X1 : Tiempo de antigüedad en el empleo, en meses.
X2 : Gastos en publicidad (decenas de miles de dólares)
X3 : Indicador de cambio en el mercado, durante los últimos cuatro años.
Regresión YX1X2X3
Y X1 X2 X3
Correlación de Pearson Y 1.000 .927 .898 .527
X1 .927 1.000 .800 .511
X2 .898 .800 1.000 .598
X3 .527 .511 .598 1.000
Sig. (unilateral) Y . .000 .000 .022
X1 .000 . .000 .026
X2 .000 .000 . .009
X3 .022 .026 .009 .
N Y 15 15 15 15
X1 15 15 15 15
X2 15 15 15 15
X3 15 15 15 15
Coeficien tesa
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -.192 .698 -.275 .788
X1 1.281E-02 .003 .583 4.309 .001
X2 8.391E-02 .027 .459 3.165 .009
X3 -1.028 2.284 -.046 -.450 .661
a. Variable dependiente: Y
Regresión Y X2X1
ANOVAb
Coeficien tesa
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -.146 .667 -.219 .830
X1 1.272E-02 .003 .578 4.438 .001
X2 7.952E-02 .024 .435 3.338 .006
a. Variable dependiente: Y
Regresión YX3X1
ANOVAb
Resumen del modelo Suma de Media
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 Regresión 32.780 2 16.390 37.648 .000a
1 .929a .863 .840 .6598 Residual 5.224 12 .435
a. Variables predictoras: (Constante), X3, X1 Total 38.004 14
a. Variables predict oras: (Constante), X3, X1
b. Variable dependiente: Y
Coeficientesa
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.861 .340 5.473 .000
X1 1.957E-02 .003 .890 7.146 .000
X3 1.628 2.811 .072 .579 .573
a. Variable dependiente: Y
Regresión YX3X2
ANOVAb
Resumen del modelo
Suma de Media
R cuadrado Error típ. de la Modelo cuadrados gl cuadrática F Sig.
Modelo R R cuadrado corregida estimación 1 Regresión 30.654 2 15.327 25.026 .000a
1 .898a .807 .774 .7826 Residual 7.350 12 .612
a. Variables predictoras: (Constante), X3, X2 Total 38.004 14
a. Variables predictoras: (Constante), X3, X2
b. Variable dependiente: Y
Coeficien tesa
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -1.996 .876 -2.279 .042
X2 .166 .029 .908 5.730 .000
X3 -.370 3.577 -.016 -.103 .919
a. Variable dependiente: Y
Regresión YX1
ANOVAb
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 32.634 1 32.634 79.000 .000a
R cuadrado Error típ. de la Coeficientesa
Modelo R R cuadrado corregida estimación Residual 5.370 13 .413
Coef icient
Total 38.004 14
1 .927a .859 .848 .6427
es
a. Variables predict
a. Variables predictoras: (Constante), X1 oras: (Constante), X1
Coef icientes no estandari
b. Variable dependiente: Y
Estadística Aplicada 2
estandarizados zados 262
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.974 .271 7.279 .000
X1 2.038E-02 .002 .927 8.888 .000
a. Variable dependiente: Y
Universidad Peruana de Ciencias Aplicadas
Regresión YX2
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
Resumen del modelo 1 Regresión 30.648 1 30.648 54.162 .000a
Residual 7.356 13 .566
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Total 38.004 14
1 .898a .806 .792 .7522 a. Variables predict oras: (Constante), X2
a. Variables predictoras: (Constante), X2 b. Variable dependiente: Y
Coeficien tesa
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -1.975 .819 -2.412 .031
X2 .164 .022 .898 7.360 .000
a. Variable dependiente: Y
Regresión YX3
Coef icient
es
Coef icientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 2.500 .722 3.461 .004
X3 11.894 5.322 .527 2.235 .044
a. Variable dependiente: Y
113. El gerente de ventas de una compañía se está preparando para una reunión de ventas, y le gustaría
mostrar al grupo de vendedores la forma como se relaciona el número de visitas a clientes con el valor
anual de pedidos que se reciben. De sus registros se recolectó la siguiente información muestral para el
último año. Los datos muestrales fueron los siguientes:
5 4 6 7 8 1 3 4 1 3
Número de visitas
Valor de pedidos (miles de dólares) 8,7 7,1 13,7 15,1 16,7 2,2 4,6 7,5 2,3 6,1
a. Encuentre, valide e interprete el modelo de regresión lineal, sustentando cómo determina la variable
dependiente y la variable independiente. Use un nivel de significación del 5%.
b. ¿Se puede afirmar que por cada visita adicional que se realice, los pedidos se incrementa en más de 2
150 dólares? Use un nivel de significación del 5%.
c. Se puede afirmar que la correlación en la población no es superior a 0,98. Use un nivel de
significación del 5%.
d. Estime a un nivel de confianza del 95% el valor de pedidos, si se realizan un total de 9 visitas.
Regression Lineal
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 231.690 1 231.690 227.435 .000a
Residual 8.150 8 1.019
Adjusted Std. Error of
Model R R Square R Square the Est imat e Total 239.840 9
1 .983a .966 .962 1.009 a. Predictors: (Constant), N° de v isitas
a. Predictors: (Constant), N° de v isitas b. Dependent Variable: Valor del pedido (miles de $)
Coeffi ci entsa
St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) -.677 .681 -.994 .349
N° de v isit as 2.161 .143 .983 15.081 .000
a. Dependent Variable: Valor del pedido (miles de $)
114. Un profesor de Estadística de la UPC quiere estimar la nota final de sus actuales alumnos del curso
de Estadística Experimental teniendo como base la nota final que obtuvieron en el curso de Estadística
Aplicada a los Negocios. Para tal fin toma como base una muestra al azar de 10 alumnos que llevaron los
cursos en semestres anteriores (si el alumno llevó un curso más de una vez, se toma la nota que obtuvo
en la primera oportunidad). Las notas de los alumnos seleccionados se muestran a continuación:
Alumno 1 2 3 4 5 6 7 8 9 10
E. Aplicada 10,5 04,5 14,5 13,5 19,0 16,5 18,0 11,5 17,5 10,5
E. Experimental 13,0 05,0 13,5 16,0 17,0 15,5 16,5 12,5 18,0 13,5
115. Un supervisor analizó una muestra de empleados correspondiente al número de horas extras
trabajadas y la antigüedad en años del trabajador. Los datos recogidos se muestran a continuación:
Horas extras 4 2 8 5 7 3 9 3 1 4 4 6
Antigüedad 4,5 2,0 7,0 5,0 7,0 3,0 8,0 4,0 1,0 4,5 4,5 6,0
a. Determine, valide e interprete el modelo de regresión lineal. Use un nivel de significación del 5%.
b. Con un nivel de confianza del 95% estime el número de horas extras trabajadas por un empleado
que tiene en la empresa una antigüedad de 6 años.
c. ¿Se puede afirmar a un nivel de significación del 5%, que por cada año adicional en la empresa, el
empleado realizará más de una hora extra de trabajo?
d. ¿Se puede afirmar que la correlación en la población es menor a 0,98? Use un nivel de significación
del 10%.
116. Una compañía de seguros de vida analiza la relación entre el número de suscripciones que logra un
vendedor y el tiempo, en semanas, que tiene en capacitación. Los datos se muestran a continuación:
Tiempo en semanas 1 3 5 7 9 11 13 15
N° de suscripciones 1 2 5 6 20 60 120 350
a. Basado en los datos presentados determine el modelo de regresión. Justifique su respuesta. Considere
un nivel de significación del 5%.
b. Se puede afirmar que el tiempo de capacitación y número de suscripciones se correlacionan en
menos de 0,98. Para la prueba considere = 0,01.
c. Estime el número de suscripciones, a un nivel de confianza del 90%, para un vendedor con 10
semanas de capacitación.
117. Un equipo de analistas, realiza una investigación de las utilidades anuales, en millones de dólares de
diversas compañías. Para ello recoge datos de una revista especializada, que clasifica por sus utilidades a
las compañías más grandes. Su muestra aleatoria de empresas cubre las siguientes variables de
predicción potenciales: Inventario inicial, Activos, Inversión de accionistas y las Ventas al año, todas
estas variables en millones de dólares.
b. Se puede afirmar que las ventas y el tiempo que tiene la empresa en el mercado se correlacionan en
más de 0,95. Para la prueba considere = 0,05.
c. Estime con una confianza del 95% las ventas promedio de la empresa para el año 2003.
Lineal
ANOVA
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .910 .192 .939 4.749 .018
(Constante) -.300 .635 -.472 .669
Cuadrático
ANOVA
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .241 1.113 .249 .217 .848
Año ** 2 .111 .182 .704 .612 .603
(Constante) .480 1.461 .329 .774
Potencia
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 1.552 1 1.552 21.203 .019
R R cuadrado corregida la estimación Residual .220 3 .073
.936 .876 .835 .271 Total 1.772 4
La v ariable independiente esAño. La v ariable independiente esAño.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Año) .980 .213 .936 4.605 .019
(Constante) .800 .190 4.219 .024
La v ariable dependiente es ln(Vent as en millones de dólares).
Exponencial
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 1.650 1 1.650 40.782 .008
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .121 3 .040
.965 .931 .909 .201 Total 1.772 4
La v ariable independiente esAño. La v ariable independiente esAño.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Año .406 .064 .965 6.386 .008
(Constante) .605 .128 4.740 .018
La v ariable dependiente es ln(Vent as en millones de dólares).
119. Una compañía de seguros de salud, reúne datos acerca de riesgos de ataque cardiaco. Un estudio de
10 años de duración arrojó datos acerca de cómo se relaciona la edad (X 1), la presión sanguínea (X2) y el
hábito de fumar (X3), con el riesgo de ataque. En la tabla adjunta vemos los datos de una parte de este
estudio. El riesgo equivale a la probabilidad (por 100) de que una persona tenga un ataque dentro de los
siguientes 10 años. Para la variable fumador, 1 indica que se trata de un fumador y 0 que se trata de un
no fumador.
a. Analizando la existencia de multicolinealidad y a un nivel de significación del 5%, determine el
modelo de regresión. Interprete los coeficientes de regresión.
b. Estime el riesgo de sufrir un ataque cardiaco en los próximos diez años, de un cliente cuya edad es
de 56 años, tiene una presión sanguínea de 100 y tiene el hábito de fumar.
Riesgo
de ataque Presión
cardiaco Edad en años sanguínea Fumador
Pearson Correlation Riesgo de at aque
1.000 .957 .986 .668
cardiaco
Edad en años .957 1.000 .963 .635
Presión sanguínea .986 .963 1.000 .649
Fumador .668 .635 .649 1.000
Sig. (1-tailed) Riesgo de at aque
. .000 .000 .001
cardiaco
Edad en años .000 . .000 .001
Presión sanguínea .000 .000 . .001
Fumador .001 .001 .001 .
N Riesgo de at aque
20 20 20 20
cardiaco
Edad en años 20 20 20 20
Presión sanguínea 20 20 20 20
Fumador 20 20 20 20
ANOVAb
Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 3421.470 3 1140.490 199.474 .000a
Adjusted Std. Error of
Residual 91.480 16 5.717
Model R R Square R Square the Est imat e
1 .987a .974 .969 2.39 Total 3512.950 19
a. Predictors: (Constant), Fumador, Edad en años, a. Predictors: (Constant), Fumador, Edad en años, Presión sanguínea
Presión sanguínea b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -121.034 11.671 -10.370 .000
Edad en años .153 .211 .108 .727 .478
Presión sanguínea .892 .159 .851 5.618 .000
Fumador 1.248 1.407 .047 .887 .388
a. Dependent Variable: Riesgo de ataque cardiaco
Regresión: Y; X1; X2
ANOVAb
Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 3416.970 2 1708.485 302.606 .000a
Adjusted Std. Error of Residual 95.980 17 5.646
Model R R Square R Square the Est imat e
Total 3512.950 19
1 .986a .973 .969 2.38
a. Predictors: (Constant), Presión sanguínea, Edad en a. Predictors: (Constant), Presión sanguínea, Edad en años
años b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -124.966 10.729 -11.647 .000
Edad en años .163 .209 .115 .778 .447
Presión sanguínea .917 .155 .875 5.910 .000
a. Dependent Variable: Riesgo de ataque cardiaco
Regresión: Y; X1; X3
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3240.985 2 1620.493 101.294 .000a
Adjusted Std. Error of Residual 271.965 17 15.998
Model R R Square R Square the Est imat e Total 3512.950 19
1 .961a .923 .913 4.00 a. Predictors: (Constant), Fumador, Edad en años
a. Predictors: (Constant), Fumador, Edad en años b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -61.133 7.944 -7.696 .000
Edad en años 1.264 .123 .894 10.231 .000
Fumador 2.664 2.315 .101 1.151 .266
a. Dependent Variable: Riesgo de ataque cardiaco
Regresión: Y; X2; X3
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3418.450 2 1709.225 307.480 .000a
Residual 94.500 17 5.559
Adjusted Std. Error of
Model R R Square R Square the Est imat e Total 3512.950 19
1 .986a .973 .970 2.36 a. Predictors: (Constant), Fumador, Presión sanguínea
a. Predictors: (Constant), Fumador, Presión sanguí nea b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -127.100 8.044 -15.800 .000
Presión sanguínea 1.000 .055 .954 18.253 .000
Fumador 1.300 1.385 .049 .938 .361
a. Dependent Variable: Riesgo de ataque cardiaco
Regresión: Y; X1
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary 1 Regression 3219.798 1 3219.798 197.701 .000a
Adjusted Std. Error of Residual 293.152 18 16.286
Model R R Square R Square the Est imat e Total 3512.950 19
1 .957a .917 .912 4.04 a. Predictors: (Constant), Edad en años
a. Predictors: (Constant), Edad en años b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -66.067 6.747 -9.792 .000
Edad en años 1.354 .096 .957 14.061 .000
a. Dependent Variable: Riesgo de ataque cardiaco
Regresión: Y; X2
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
Model Summary
1 Regression 3413.555 1 3413.555 618.178 .000a
Adjusted Std. Error of Residual 99.395 18 5.522
Model R R Square R Square the Est imat e Total 3512.950 19
1 .986a .972 .970 2.35 a. Predictors: (Constant), Presión sanguínea
a. Predictors: (Constant), Presión sanguínea b. Dependent Variable: Riesgo de ataque cardiaco
Coeffici entsa
Standardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B Std. Error Beta t Sig.
1 (Constant) -131.599 6.439 -20.439 .000
Presión sanguínea 1.033 .042 .986 24.863 .000
a. Dependent Variable: Riesgo de ataque cardiaco
120. Laboratorios Enigma Unidos S.A. desea encontrar un modelo de regresión para estimar la efectividad
del analgésico Dolorex. Los siguientes datos corresponden al porcentaje de efectividad de un analgésico
y la cantidad en miligramos de tres diferentes medicamentos que están presentes en cada cápsula del
analgésico.
121. La empresa metalúrgica Aceros Enigma S.A quiere precisar la importancia de determinados factores
que participan en los procesos de fabricación y determinan la dureza del acero templado. En uno de sus
estudios se reunieron los datos para determinar la relación de tres variables del proceso (contenido de
cobre, temperatura de templado y presión del horno) y la dureza del acero.
122. Enigma Mudanzas S.A. le ha encargado que encuentre la relación existente que explique entre la
distancia recorrida por la mudanza y el daño que recibe la carga (expresado en soles). A continuación es
presentan los datos de una muestra proporcionados por la compañía de mudanza de las últimas 20
mudanzas donde se registran las distancias que se trasladaron y el daño en que se incurrió.
Distancia Daño
Entrega
(en miles de kilómetros) (nuevos soles)
1 1,5 200
2 2,2 224
3 1,0 138
4 2,0 180
5 0,8 246
6 1,6 372
7 0,5 101
8 0,9 220
9 3,4 390
10 3,9 450
11 2,7 307
12 2,1 214
13 4,0 480
14 1,3 120
15 1,1 110
16 2,6 300
17 3,2 387
18 1,4 172
19 0,9 151
20 3,3 368
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba considere
= 0,05.
c. Estime a cuanto ascendería el daño si la distancia recorrida por la mudanza es de 2000 kilómetros.
123. Un editor de libros universitarios realizó un estudio para relacionar la utilidad por la venta de libros
con el costo de venta para un período de 10 años cuando el costo de venta aumentaba rápidamente. Se
obtuvieron los siguientes datos (en miles de dólares), ajustados por la inflación:
Costo 5,0 5,6 6,1 6,8 7,4 8,6 9,5 9,8 10,4 11,3
Utilidad 13,2 16,8 20,9 28,8 35,4 42,5 52,6 55,5 66,9 84,1
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Se puede afirmar que la utilidad y el costo se correlacionan en más de 0,95. Para la prueba
considere = 0,05.
c. Estime la utilidad media, a un nivel de confianza del 95%, si el costo de venta es de 10 500
dólares.
124. Hamburguesas Enigma necesita saber la relación existente entre la cantidad de horas de apertura del
local de venta a la semana y los beneficios totales con fines de predicción. Tomando como base los
registros contables, se pudo obtener los siguientes datos
Semana 1 2 3 4 5 6 7
Beneficios (miles de soles) 12,2 17,9 25,8 37,0 53,3 78,8 112,9
Apertura del local (horas) 87 85 82 78 69 56 39
a. Basado en los datos presentados determine el mejor modelo de regresión. Justifique su respuesta.
Considere = 0,05.
b. Realice la prueba de hipótesis para el coeficiente de correlación del modelo. Para la prueba
considere = 0,05.
c. Estime el beneficio de un local que tiene un tiempo de apertura de 75 horas.
125. El gerente de ventas de un importante fabricante de automóviles está estudiando las ventas.
Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una
distribuidora. Para investigar, selecciona al azar a 12 distribuidores. De ellos obtiene el número de
vehículos vendidos el último mes, los minutos de publicidad radiofónica comprados en dicho período, el
número de vendedores de tiempo completo empleados en la distribuidora y si ésta se localiza en la
ciudad o no (1 = “Sí”; 0 = “No”).
a. Determine la variable dependiente.
b. Calcule la matriz de correlación.
c. Analice la multicolinealidad.
d. A un nivel de significación del 5%, determine el modelo de regresión. Interprete los coeficientes de
regresión.
e. ¿Cuántos automóviles esperaría que se vendan en una distribuidora con 20 vendedores, que paga 15
minutos de publicidad y se localiza en una ciudad?
La información es la siguiente:
Tiempo de
Automóviles vendidos
Publicidad Fuerza de ventas Ciudad
en el último mes
(minutos)
127 18 10 1
138 15 15 0
159 22 14 1
144 23 12 1
139 17 12 0
128 16 12 1
161 25 14 1
180 26 17 1
102 15 7 0
163 24 16 1
106 18 10 0
149 25 11 1
Regression
Descriptive Statistics
Correlati ons
ANOVAb
Coeffi ci entsa
St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) 31.133 13.396 2.324 .049
Tiempo de
2.152 .805 .392 2.673 .028
publicidad (minutos)
Fuerza de v ent a 5.014 .911 .615 5.507 .001
Ciudad 5.665 6.332 .120 .895 .397
a. Dependent Variable: Automóv iles v endidos en el último mes
Regression
ANOVAb
Sum of
Model Summary Model Squares df Mean Square F Sig.
1 Regression 5462.379 2 2731.189 53.172 .000a
Adjusted Std. Error of
Model R R Square R Square the Est imat e Residual 462.288 9 51.365
1 .960a .922 .905 7.17 Total 5924.667 11
a. Predictors: (Constant), Fuerza de v enta, Tiempo de a. Predictors: (Constant), Fuerza de v enta, Tiempo de publicidad (minutos)
publicidad (minutos) b. Dependent Variable: Automóv iles v endidos en el último mes
Coeffi ci entsa
St andardi
zed
Unstandardized Coef f icien
Coef f icients ts
Model B St d. Error Beta t Sig.
1 (Constant) 25.295 11.569 2.186 .057
Tiempo de
2.619 .606 .477 4.324 .002
publicidad (minutos)
Fuerza de v ent a 5.023 .900 .616 5.579 .000
a. Dependent Variable: Automóv iles v endidos en el último mes
Estimación curvilínea
Resumen del modelo y estimaciones de los parámetros
Lineal
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 11289.600 1 11289.600 46.728 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 3140.800 13 241.600
.885 .782 .766 15.543 Total 14430.400 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v ent a -112.000 16.384 -.885 -6.836 .000
(Constante) 601.800 70.567 8.528 .000
Cuadrático
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 12442.800 2 6221.400 37.561 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación
Residual 1987.600 12 165.633
.929 .862 .839 12.870 Total 14430.400 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v enta -1889.333 673.719 -14.921 -2.804 .016
Precio_v enta ** 2 206.667 78.323 14.039 2.639 .022
(Constante) 4410.667 1444.684 3.053 .010
Potencia
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión .759 1 .759 49.295 .000
R R cuadrado corregida la estimación Residual .200 13 .015
.890 .791 .775 .124 Total .959 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.
Coeficientes
Coef icient es
Coef icient es no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Precio_v enta) -3.941 .561 -.890 -7.021 .000
(Constante) 36270.900 29685.833 1.222 .243
La v ariable dependiente es ln(Vent as__).
Exponencial
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión .751 1 .751 47.006 .000
R R cuadrado corregida la estimación Residual .208 13 .016
.885 .783 .767 .126 Total .959 14
La v ariable independiente esPrecio_v enta. La v ariable independiente esPrecio_v enta.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Precio_v ent a -.914 .133 -.885 -6.856 .000
(Constante) 5914.069 3394.034 1.742 .105
La v ariable dependiente es ln(Ventas__).
128. Michelle Sutchiffe, analista del grupo Profesional Investment, realiza una investigación de las ganancias
por acción de corporaciones grandes. Michelle recoge datos de la revista Fortune 500, que clasifica por
sus ventas a las 500 corporaciones más grandes. Su muestra aleatoria de 30 empresas cubre las siguientes
variables de predicción potenciales: ventas, utilidades, activos e inversión de accionistas.
a. Realice el análisis completo de regresión múltiple y elija el mejor modelo. Use un nivel de
significancia del 5% para las pruebas de hipótesis.
b. Calcule el error (la diferencia entre el valor observado y el valor estimado) en el que se incurre al
utilizar el modelo para la compañía Clorox.
129. La administradora de una empresa de bienes raíces, quiere determinar si el precio de venta de una casa
puede explicarse por el área del terreno. Para realizar este estudio la administradora recogió los datos
correspondientes al precio de venta y al área del terreno:
Precio de venta
90,4 127,3 109,6 131,2 61,3 107,9 135,8 97,8 116,7 164,8 88,8 120,5 109,8
(miles de $)
Área del terreno
4 5 4 8 2 6 7 3 6 9 3 7 6
(cientos de m2)
a. Basado en los datos presentados determine y valide el mejor modelo de regresión. Justifique su
respuesta. Considere = 0,05.
b. Se puede afirmar que el precio de venta y el área del terreno se correlacionan en más de 0,9. Para la
prueba considere = 0,05.
c. Estime el precio de venta de una casa, si el área del terreno es de 1 000 m2.
130. Las ventas de cierto medicamento (y), trimestrales, desde 2006 se indican a continuación (en
millones de dólares)
Complete la tabla, interprete el índice estacional del segundo trimestre y pronostique las ventas del
medicamento para el primer y tercer trimestre de 2008.
131. Las tiendas SAGA desea analizar sus ventas trimestrales, en miles de dólares, de equipos de música
para el auto. Para ello cuenta con registros de ventas de dos años
Año Primer Segundo Tercer trimestre Cuarto
trimestre trimestre trimestre
2003 6,0 5,6 7,5 7,8
2004 6,3 5,9 8,0 8,4
Usando los promedios móviles (cada tres trimestres), calcule los índices estacionales ajustados para cada
trimestre.
132. El propietario de la empresa Anderson Belts, Inc., está estudiando el ausentismo entre sus
empleados. Su personal de trabajo es reducido, y consta sólo de cinco personas. Para los últimos tres
años registró los siguientes números de inasistencias de empleados, en días, para cada trimestre.
133. Un poblado en EEUU, tiene tiendas, restaurantes y moteles. Hay dos temporadas de auge: de invierno,
para la práctica de esquí en las pendientes de montaña de 10 000 pies de alto; y de verano, cuando los
turistas visitan los parques. En los últimos años se registraron los siguientes datos correspondientes al
volumen total de ventas, en miles de dólares:
Año Invierno Primavera Verano Otoño
2000 114,0 84,3 119,6 75,0
2001 120,7 79,6 130,7 69,6
2002 125,2 80,2 127,6 72,0
Usando los promedios móviles (cada tres trimestres) y los índices estacionales estime las ventas por
trimestre para el año 2003.
134. Una compañía transnacional de venta de juguetes, desarrolló la siguiente ecuación de tendencia
desestacionalizada, en millones de dólares, con base en seis años de datos trimestrales:
y = 7,3841 + 0,1496 t
La siguiente tabla muestra los Índices Móviles Ajustados correspondientes a cada trimestre:
Trimestre
I II III IV
IMA 0,76491 0,57470 1,14141 1,51898
135. El directorio de una compañía de aire acondicionado y de calefacción está examinando los datos
correspondientes a los ingresos trimestrales (en miles de $). Los datos son los siguientes:
a. Calcule los índices estacionales de estos datos (use un promedio móvil centrado de 4 trimestres).
b. Estime el ingreso de la compañía, para el tercer trimestre del año 2008.
Ingresos
Año Trimestre Ingresos PM PMC Y / PMC IEA desestacionalizados
I 27 0,80089 33,71261
II 34 37,50 0,91112 37,31689
2005
III 45 39,00 38,250 1,17647 1,11516 40,35294
IV 44 39,50 39,250 1,12102 1,17284 37,51587
I 33 39,75 39,625 0,83281 0,80089 41,20430
II 36 41,50 40,625 0,88615 0,91112 39,51200
2006
III 46 41,75 41,625 1,10511 1,11516 41,24967
IV 51 42,75 42,250 1,20710 1,17284 43,48431
I 34 43,00 42,875 0,79300 0,80089 42,45292
II 40 43,50 43,250 0,92486 0,91112 43,90222
2007
III 47 43,75 43,625 1,07736 1,11516 42,14641
IV 53 44,25 44,000 1,20455 1,17284 45,18958
I 35 44,75 44,500 0,78652 0,80089 43,70153
II 42 45,25 45,000 0,93333 0,91112 46,09734
2008
III 49 1,11516 43,93987
IV 55 1,17284 46,89484
SILABO
ESPECIFICACIONES GENERALES
CRÉDITOS : 4
HORAS SEMANALES : 10
INTRODUCCIÓN
El curso de Estadística Aplicada 2 para estudiantes de Ingeniería Industrial e Ingeniería de Sistemas,
comprende el estudio de diversos métodos de Estadística Inferencial que sirven de apoyo en el proceso de
toma de decisiones a partir de información proveniente de las diferentes ramas de la ingeniería.
Para afianzar los contenidos teóricos del curso se ha considerado prácticas en un laboratorio equipado con
el software estadístico SPSS, actualmente muy utilizado en diferentes áreas de investigación.
Muestreo/ Diseño de la encuesta por muestreo/ Pruebas de hipótesis/ Uso de la distribución Chi
Cuadrado/ Análisis de variancia/ Análisis factorial/ Análisis de regresión lineal y no lineal simple/
Análisis de correlación/ Análisis de regresión múltiple/ Series de tiempo.
RED DE APRENDIZAJE
3. Pruebas: Independencia,
Homogeneidad de proporciones
y Bondad de ajuste
4. Diseños
Experimentales
2. Estimación y
1. Muestreo Prueba de
hipótesis
5. Análisis de
regresión
6. Series de
Tiempo
UNIDADES DE APRENDIZAJE
UNIDAD 1: Muestreo
LOGRO: El alumno al término de la unidad 1, aplica la teoría de muestreo y utiliza SEMANA
apropiadamente las técnicas aprendidas en problemas reales concernientes con su 1y2
especialidad: Muestreo Aleatorio Simple, Muestreo Sistemático, Muestreo Estratificado,
Muestreo de Conglomerados.
TEMARIO:
Conceptos y definiciones básicas: Población, marco muestral, muestra, censo y
muestreo: Ventajas y desventajas. Diseño de la encuesta por muestreo. Tipos de
muestreo. Determinación del tamaño de muestra.
TEMARIO:
Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la
media, la varianza y la proporción poblacional. Uso del valor p. Potencia Prueba. Prueba
de hipótesis para dos varianzas. Prueba de hipótesis para dos medias poblacionales:
Muestras independientes y muestras relacionadas. Prueba de hipótesis para dos
proporciones poblacionales
TEMARIO:
Prueba de homogeneidad. Prueba de independencia. Prueba de bondad de ajuste. Uso de
la Ji Cuadrado. Prueba de Kolmogorov-Smirnov.
TEMARIO:
Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental.
Análisis de varianza: Diseño completamente aleatorizado. Comparaciones múltiples.
Prueba de rango múltiple de Duncan. Diseño de bloques completamente aleatorizados.
Anova de dos vías.
METODOLOGÍA
En las clases teórico prácticas se priorizarán los aspectos conceptuales, cálculo e
interpretación de los resultados.
Se desarrollará laboratorios semanales empleando el programa SPSS para reforzar lo visto en
las clases teóricas.
Se tomarán 4 prácticas calificadas las semanas: 2,4,6 Y 7.
La Prácticas Calificadas 1 y 3 se tomarán en horario de Teoría y las prácticas 2 y 4 se
tomarán en Laboratorio con uso del software SPSS y Excel.
Se tomará 1 examen final, en el cual se evaluará todo el contenido del curso, con los
siguientes criterios: Modelación, Interpretación y Toma de decisiones. (y uno adicional de
recuperación).
Se desarrolla un trabajo de investigación el cual es evaluado constantemente a través del Aula
Virtual por el profesor del curso, para ser entregado y expuesto antes del examen final.
SISTEMA DE EVALUACIÓN
Donde:
EB : Evaluación final.
PC : Práctica calificada.
TF : Trabajo final
Las prácticas calificadas y el trabajo final se desarrollan de acuerdo al siguiente
cronograma:
CRONOGRAMA
BIBLIOGRAFÍA
1. Básica
MONTGOMERY, Douglas, RUNGER, George
2005 Probabilidad y Estadística, Aplicaciones a la Ingeniería. 2da. Edición. Editorial LIMUSA
WILEY
(519.5 MONT2005)
2. De consulta
WALPOLE, Ronald
1999 Probabilidad y Estadística para Ingenieros. 6ta. Edición. México. Prentice-Hall
Hispanoamericana S.A. Pearson.
(519.5 WALP)
MENDENHALL, William
1997 Probabilidad y Estadística para Ingeniería y Ciencias. 4ta. Edición. México. Prentice-Hall
Hispanoamericana S.A.
(519.5 MEND/P)
HANKE
1997 Estadística para negocios. 2da. Edición. México. McGraw-Hill.
(519.54 HANK)
HERNÁNDEZ, Roberto
2006 Metodología de la investigación. 4ra. Edición. México. McGraw-Hill.
(001.42 HERN 2006)
18-mar PROFESORES : Celia Cárdenas, Raul Ramirez, Mercedes Toribio, Ana Vargas
Sem Fecha Sesión1 (Laboratorio - 2 horas) Sesión 2 (Teoría-3 horas)
Muestreo. Conceptos y definiciones básicas. Ventajas y desventajas del muestreo.
18-mar Etapas de una encuesta por muestreo. Diseño de muestreo. Diseño del formato del
cuestionario. Escalas de medición. Tipos de muestreo: Muestreo no probabilístico.
1 Muestreo probabilístico: Muestreo aleatorio simple, muestreo aleatorio simple
Lab. 1: Elaboración de Base de Datos en SPSS y Selección
estratificado, muestreo sistemático y muestreo por conglomerados. Diseño del
23-mar de casos de una Base de Datos en SPSS.
trabajo de campo. Recogida de datos. Preparación de los datos y elaboración del
formato del trabajo de investigación.
06-may
8
11-may
SEMANA PARCIALES
13-may
Regresión lineal simple. Gráfico de dispersión. Método de mínimos cuadrados.
Coeficiente de determinación. Coeficiente de correlación. Inferencia sobre los
9 Lab. 6: ANOVA de bloques y dos factores.
18-may parámetros del modelo. Predicción. Análisis de los residuales. Validación de los
supuestos del modelo.
10-jun
Serie de Tiempo. Componentes de una Serie de Tiempo. Método Medición del error de pronóstico. Métodos: MAD, MSE, MAPE, MPE.
13
15-jun de Medias Móviles Suavización exponencial.
24-jun
15 Práctica calificada 4
29-jun CASOS DE APLICACIÓN
01-jul
16
06-jul
SEMANA FINALES
08-jul
17 Devolución de exámenes y Retroalimentación de EB
13-jul
SISTEMA DE EVALUACIÓN
El Promedio Final (PF) se obtiene con la siguiente fórmula:
PF = PC1 (0,12) + PC2 (0,14) + PC3 (0,14) + PC4 (0,15) +TF (0,20) + EB (0,25)
Donde:
PC: Práctica calificada. TF: Trabajo final
EB : Evaluación final.