Está en la página 1de 213

Estadística II

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 3

Índice

Presentación 05
Red de contenidos 06
Sesiones de aprendizaje
SEMANA 1 : • Definiciones básicas: Población, marco muestral, 07
muestra, censo y muestreo: Ventajas y desventajas
• Diseño de la encuesta por muestreo. Tipos de muestreo
• Distribuciones muestrales
SEMANA 2 : • Estimación Puntual. Propiedades de un estimador. 19
Estimación de intervalos de confianza
• Intervalos de confianza para la media con varianza
conocida, muestra grande
• Tamaño muestral para estimar una media
• Intervalo de confianza para la diferencia de medias de
dos distribuciones con ambas desviaciones estándar
conocidas, muestras grandes
SEMANA 3 : • Intervalo de confianza para la media con varianza 35
desconocida. Muestra pequeña
• Intervalo de confianza para la diferencia de medias con
varianzas desconocidas pero iguales, muestras
pequeñas
SEMANA 4 : • Intervalo de confianza para una proporción. Muestras 45
grandes
• Tamaño muestral para estimar una proporción
• Tamaño de muestra para poblaciones finitas
• Intervalo de confianza para la diferencia de proporciones
SEMANA 5 : • Hipótesis estadística. Tipos de errores I y II, Nivel de 55
significación, Región crítica o región de rechazo. Región
de aceptación
• Prueba de Hipótesis para medias, muestras grandes.
Prueba bilateral de una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso I,
caso II
• Prueba de Hipótesis para la diferencia de medias.
Desviación estándar conocidas, muestras grandes
SEMANA 6 : • Prueba de Hipótesis para medias, muestras pequeñas 73
• Prueba bilateral de una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso
I, caso II
• Prueba de Hipótesis para la diferencia de medias
• Desviación estándar desconocidas, Muestras pequeñas

CIBERTEC CARRERAS PROFESIONALES


4

SEMANA 7 : EXAMEN PARCIAL


SEMANA 8 : • Prueba de Hipótesis para las proporciones, muestras 87
grandes.
• Prueba bilateral de una hipótesis sobre las
proporciones
• Prueba unilateral de una hipótesis sobre la media, caso
I, caso II
• Prueba de Hipótesis para la diferencia entre dos
proporciones
SEMANA 9 : • Definición del x² (Chi cuadrado). Ensayos de significación 103
• Prueba de homogeneidad, prueba de independencia
• Prueba de bondad de ajuste. Tablas de contingencia
• Prueba de Kolmogorov-Smirnov
• Correlación de yates para la continuidad. Coeficientes de
contingencia
SEMANA 10 : • Análisis de Regresión lineal Simple. Variable independiente, 123
variable dependiente
• Diagrama de dispersión. Método de mínimos cuadrados
• Recta de mínimos cuadrados en términos de varianzas
muestrales
• Recta de regresión de mínimos cuadrados. Aplicación e
interpretación
SEMANA 11 : • Análisis de Regresión lineal múltiple 135
• Recta de regresión de mínimos cuadrados
• Aplicación e interpretación
SEMANA 12 : • Análisis de Regresión no lineal: Cuadrática 149
• Análisis de Regresión no lineal: Potencial
• Análisis de Regresión no lineal: Exponencial
• Análisis de Regresión no lineal Logarítmica
SEMANA 13 : • Correlación entre dos variables, dependiente e independiente 163
• Coeficiente de correlación lineal (fórmula de Pearson)
SEMANA 14 : • Coeficiente de correlación generalizado (Coeficiente de 173
determinación)
• Coeficiente de correlación gradual (fórmula de Spearman)
SEMANA 15 : • Serie de tiempo. Introducción a la serie de tiempo 185
• Representación y Clasificación de la serie de tiempo
• Análisis de la serie de tiempo
SEMANA 16 : • Modelos de estimación. 199
• Métodos de estimación de la tendencia
• Predicción mediante la serie de tiempo

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 5

Presentación
La globalización ha creado un campo muy extenso de desarrollo para los
nuevos profesionales, ya sea en servicios o en producción. Es por esto que
tienen que estar preparados para enfrentar cualquier reto en el campo
laboral. Las comunicaciones y el software han hecho que en la actualidad
todo profesional esté en constante contacto con la información estadística.
Más aún, muchas veces es necesario realizar alguna medición estadística
para tener una idea acerca de la producción de una empresa, del mercado
bursátil a nivel mundial, del precio de los metales en el mercado Europeo, el
control de epidemias en zonas determinadas, el control de los precios de la
canasta familiar, etc, de manera que se pueda tomar la decisión adecuada
para que dichos estudios sean siempre favorables.
El propósito de este manual es brindar conceptos claros de estadística
inferencial y sus numerosas aplicaciones en el campo laboral. Por otra parte,
se pretende dar al futuro profesional las herramientas necesarias para
interpretar y evaluar información estadística, para que adquiera destreza en
la interpretación, y manejo de las definiciones y teoremas.
En una primera etapa se desarrollará el marco teórico y práctico de la
Estadística Inferencial. En la segunda etapa se desarrollará la aplicación de
Métodos regresivos para predecir situaciones experimentales basadas en
datos reales.
Finalmente es importante resaltar que este curso es netamente práctico. Por
ello en cada sesión se desarrollará la teoría necesaria en forma concreta,
dándole mayor énfasis a la parte práctica y a la interpretación de resultados.

CIBERTEC CARRERAS PROFESIONALES


6

Red de contenidos

σ²
conocida

σ²
Intervalos de desconocida
confianza

Proporciones

σ²
conocida

Prueba de σ²
hipótesis desconocida

Muestreo
Proporciones

Lineales

Simple
No Lineales

Regresiones
Múltiple

Correlaciones

Serie de
tiempo

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 7

SEMANA

1
TEORÍA DE MUESTREO

TEMAS

• Definiciones básicas: población, marco muestral, muestra, censo y


muestreo. Ventajas y desventajas del muestreo
• Diseño de la encuesta por muestreo. Tipos de muestreo. Determinación del
tamaño de muestra

OBJETIVOS ESPECÍFICOS

• Relacionar la población y la muestra


• Estimar las diferencias entre población y muestra
• Realizar, adecuadamente, un muestreo de una población dada
• Aplicar distribuciones muestrales

CONTENIDOS

• Definiciones básicas: Población, marco muestral, muestra, censo y


muestreo. Ventajas y desventajas del muestreo
• Diseño de la encuesta por muestreo. Tipos de muestreo. Determinación del
tamaño de la muestra

ACTIVIDADES

o Determinan, adecuadamente, una muestra de la población.


o Determinan el tamaño de la muestra.

CIBERTEC CARRERAS PROFESIONALES


8

TEORÍA DE MUESTREO
La teoría de muestreo es un estudio de las relaciones existentes entre una
población y muestras extraídas de la misma. Tiene gran interés en muchos
aspectos de la estadística. Por ejemplo, permite estimar cantidades
desconocidas de la población (tales como la media poblacional, la varianza,
etc.), frecuentemente llamadas parámetros poblacionales o brevemente
parámetros, a partir del conocimiento de las correspondientes cantidades
muestrales (tales como la media muestral, la varianza, etc.), a menudo
llamadas estadísticos muestrales o brevemente estadísticos.
La teoría de muestreo es también útil para determinar si las diferencias que se
puedan observar entre dos muestras son debidas a la aleatoriedad de las
mismas o si por el contrario son realmente significativas. Tales preguntas
surgen, por ejemplo, al ensayar un nuevo suero para el tratamiento de una
enfermedad, o al decidir si un proceso de producción es mejor que otro. Estas
decisiones envuelven a los llamados ensayos e hipótesis de significación, que
tienen gran importancia en teoría de la decisión.
En general, un estudio de inferencias, realizado sobre una población mediante
muestras extraídas de la misma, junto con las indicaciones sobre la exactitud
de tales inferencias aplicadas a la teoría de la probabilidad, se conoce como
inferencia estadística.

MUESTRAS AL AZAR. NÚMEROS ALEATORIOS


Para que las conclusiones de la teoría del muestreo e inferencia estadística
sean válidas, las muestras deben elegirse de forma que sean representativas
de la población. Un estudio sobre métodos de muestreo y los problemas que
tales métodos implican se conoce como diseño de experimentos.
El proceso mediante el cual se extrae de una población una muestra
representativa de la misma se conoce como muestreo al azar. De acuerdo con
ello cada miembro de la población tiene la misma posibilidad de ser incluido en
la muestra. Una técnica para obtener una muestra al azar es asignar números
a cada miembro de la población: escritos estos números en pequeños papeles,
se introducen en una urna y después se extraen números de la urna, teniendo
cuidado de mezclarlos bien antes de cada extracción.

MUESTREO CON Y SIN REEMPLAZO


Si se extrae un número de una urna, se puede volver o no el número a la urna
antes de realizar una segunda extracción. En el primer caso, un mismo número
puede salir varias veces, mientras que en el segundo un número determinado
solamente puede salir una vez. El muestreo, en el que cada miembro de la
población puede elegirse más de una vez, se llama muestreo con reemplazo,
mientras que si cada miembro no puede ser elegido más de una vez se tiene el
muestreo sin reemplazo.
Las poblaciones pueden ser finitas o infinitas. Si, por ejemplo, se extraen
sucesivamente 10 bolas sin reemplazo de una urna que contiene 100, se está
tomando una muestra de una población finita, mientras que si se lanza al aire
una moneda 50 veces, anotándose el número de caras, se está muestreando
en una población infinita.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 9

Una población finita, en la que se realiza un muestreo con reemplazo, puede


teóricamente ser considerada como infinita, puesto que puede extraerse
cualquier número de muestras sin agotar la población. En muchos casos
prácticos, el muestreo de una población finita que es muy grande, puede
considerarse como muestreo de una población infinita.

DISTRIBUCIONES MUESTRALES
Considérense todas las posibles muestras de tamaño n que pueden extraerse
de una población dada (con o sin reemplazo). Para cada muestra se puede
calcular un estadístico, tal como la media, la desviación estándar, etc., que
variará de una muestra a otra. De esta forma, se obtiene una distribución del
estadístico que se conoce como distribución muestral.
Si, por ejemplo, el estadístico de que se trata es la media muestral, la
distribución se conoce como distribución muestral de medias Análogamente se
obtendrían las distribuciones mustrales de las desviaciones estándar,
varianzas, medianas, proporciones, etc.

DISTRIBUCIÓN MUESTRAL DE MEDIAS


Supóngase que son extraídas de una población finita todas las posibles
muestras sin reemplazo de tamaño n, siendo el tamaño de la población N. Si se
denota la media y la desviación estándar de la distribución muestral de medias
por µ x y σ x , y la media y la desviación estándar de la población por µ y σ ,
respectivamente, se tiene
µx = µ
σ N −n
σx =
n N −1

Si la población es infinita, los resultados anteriores se convierten en


µx = µ
σ
σx =
n

Para valores grandes de n ( n ≥ 30 ) la distribución muestral de medias se


aproxima a una distribución normal con media µ x y desviación estándar σ x
independiente de la población de que se trate (siempre que la media y la
varianza poblacional sean finitas y el tamaño de la población sea al menos dos
veces el tamaño de la muestra). Este resultado en una población infinita es un
caso especial del teorema central del límite de teoría de probabilidad superior,
que demuestra que la aproximación es tanto mejor conforme n se hace mayor.
Esto se indica diciendo que la distribución muestral es normal.
En caso de que la población se distribuya normalmente, la distribución muestral
de medias se distribuye también normalmente, incluso para pequeños valores
de n (es decir, n < 30).

CIBERTEC CARRERAS PROFESIONALES


10

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES


Supóngase una población infinita y que la probabilidad de ocurrencia de un
suceso (conocido como su éxito) es p, mientras que la probabilidad de no
ocurrencia del suceso es q = 1 – p (conocido como su fracaso).
Se consideran todas las posibles muestras de tamaño n extraída de esta
población y para cada muestra se determina la proporción p de éxito. Entonces
se obtiene una distribución muestral de proporciones cuya µ p y desviación
estándar σ p vienen dadas por
µp = p
p (1 − p)
σp =
n

Si la población es infinita, los resultados anteriores se convierten en


µ=p
σ = p(1 − p )
Para grandes valores de n( n ≥ 30 ) la distribución muestral se aproxima mucho
a una distribución normal. Nótese que la población se distribuye binomialmente.

DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS Y SUMAS


Supóngase que se tienen dos poblaciones. Para cada muestra de tamaño n1
extraída de la primera población se calcula un estadístico s1. Esto proporciona
una distribución muestral del estadístico s1 con media µ x1 y desviación
estándar σ x1 . Análogamente, para cada muestra de tamaño n2, extraída de la
segunda población, se calcula un estadístico s2. Esto Igualmente proporciona
una distribución muestral del estadístico s2, con media µ x 2 y desviación
estándar σ x 2 . De todas las posibles combinaciones de estas muestras de las
dos poblaciones, se puede obtener una distribución de las diferencias (s1-s2)
que se conoce como distribución muestral de diferencias de los estadísticos.
Si s1 y s2 son las medias muestrales de las dos poblaciones, las cuales vienen
dadas por x1 y x 2 , entonces la distribución muestral de las diferencias de
medias para poblaciones infinitas con medias y desviaciones estándar µ1 , σ 1 y
µ 2 , σ 2 , respectivamente, tiene por media y desviación estándar:
µ x1 − x 2 = µ x1 − µ x 2 = µ1 − µ 2
σ 12 σ 22
σx 1 − x2
= σ x21 + σ x22 = +
n1 n2

El resultado se mantiene válido para poblaciones finitas.


Resultados correspondientes pueden deducirse para las distribuciones
muestrales de diferencias de proporciones de dos poblaciones distribuidas
binomialmente con parámetros p1, q1 y p2, q2, respectivamente. En este caso s1
y s2 corresponden a las proporciones de éxito, p1 y p2

µ p − p = µ p − µ p = p1 − p2
1 2 1 2

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 11

p1 (1 − p1 ) p2 (1 − p2 )
σ p − p = σ p2 + σ p2 = +
1 2 1 2
n1 n2

Si n1 y n2 son grandes ( n1 ≥ 30 y n2 ≥ 30 ), las distribuciones muestrales de


diferencias de medias o proporciones se distribuyen muy aproximadamente
como una normal.
A veces, es útil hablar de la distribución muestral de la suma de estadísticos.
La media y la desviación estándar de esta distribución vienen dadas por

µs − s = µs − µs
1 2 1 2

σ s − s = σ + σ s2
1 2
2
s1 2

suponiendo que las muestras son independientes.

ERRORES TÍPICOS
La desviación estándar de la distribución muestral de un estadístico se conoce
también como su error estándar. En la tabla se han anotado los errores típicos
de distribuciones muestrales para diversos estadísticos bajo las condiciones de
muestreo aleatorio sin reemplazo para una población infinita (o muy grande) o
con reemplazo para una población finita. También, se apuntan notas especia-
les que indican las condiciones para las que los resultados son válidos, así
como otras notas de interés.

Las cantidades µ , σ , p, µ r y x, s, p, x r denotan, respectivamente, las medias,
desviaciones estándar, proporciones y momentos de orden r respecto de la
media en la población y en la muestra.
Es de notar que si el tamaño de la muestra n es bastante grande, las
distribuciones muestrales son normales o casi normales. Por esta razón, los
métodos se conocen como métodos para grandes muestras. La teoría de
pequeñas muestras, o teoría de muestreo exacto, como a veces se llama, se
usa cuando n<30. Entonces, las muestras se llaman pequeñas.
Cuando los parámetros de la población, tales como σ , p, µ r se desconocen,
pueden estimarse mediante sus correspondientes estadísticos muestrales:

s, p, xr , si las muestras son suficientemente grandes.

Distribución Error estándar Observaciones


muestral
Medias σ Se cumple para muestras grandes o
σx = pequeñas. La distribución muestral de
n
medias se ajusta mucho a la normal
para n ≥ 30 incluso para poblaciones
no normales.
Proporciones p (1 − p) Se cumple para muestras grandes o
σp = pequeñas. La distribución muestral de
n
medias se ajusta mucho a la normal
para n ≥ 30 incluso para poblaciones
no normales.

CIBERTEC CARRERAS PROFESIONALES


12

ACTIVIDADES
1. Una población se compone de los cinco números 2, 3, 6, 8, 11. Considere
todas las muestras posibles de tamaños que puedan extraerse con
remplazamiento de esta población. Halle lo siguiente:

1.1 La media de la población


1.2 La desviación estándar de la población
1.3 La media de la distribución muestral de medias
1.4 El error estándar de medias

2. Supóngase que las alturas de 3 000 estudiantes de una universidad se


distribuyen normalmente con media 68,0 pulgadas y desviación estándar 3,0
pulgadas. Si se toman 80 muestras de 25 estudiantes cada una, ¿cuál será
la media y la desviación estándar esperada de la distribución muestral de
medias resultante si el muestreo se hizo sin reemplazo?

3. Quinientos cojinetes de bolas tienen un peso medio de 5,02 onzas y una


desviación estándar de 0,30 onzas. Halle la probabilidad de que una
muestra al azar de 100 cojinetes elegidos entre este grupo tenga un peso
total (a) comprendido entre 496 y 500 onzas, (b) de más de 510 onzas.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 13

4. Las bombillas eléctricas de un fabricante A tienen una duración media de


1400 horas con una desviación estándar de 200 horas, mientras que las de
otro fabricante B tienen una duración media de 1200 horas con una
desviación estándar de 100 horas. Si se toman muestras al azar de 125
bombillas de cada fabricante, ¿cuál es la probabilidad de que las bombillas
de A tengan una duración media que sea al menos (a) 160 horas, (b) 250
horas más que las bombillas de B?

5. Los cojinetes de bolas de una determinada casa pesan 0,50 onzas con una
desviación estándar de 0,02 onzas. ¿Cuál es la probabilidad de que dos
lotes de 1000 cojinetes cada uno difieran en un peso superior a 2 onzas?

CIBERTEC CARRERAS PROFESIONALES


14

6. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media


22,40 onzas y desviación estándar 0,048 onzas. Si se extraen 300 muestras
de tamaño 36 de esta población, determinar la media esperada y la
desviación estándar de la distribución muestral de medias, si el muestreo se
hace con reemplazo.

7. Se pesan tres cantidades dando 20,48; 35,97 y 62,34 libras con desviaciones
estándar de 0,21; 0,46 y 0,54 libras respectivamente. Halle la media y la
desviación estándar de la suma de las cantidades.

8. El voltaje medio de una batería es de 15,0 voltios y la desviación estándar


0,2 voltios. ¿Cuál es la probabilidad de que cuatro de estas baterías
conectadas en serie tengan un voltaje conjunto de 60,8 o más voltios?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 15

9. Una población de 7 números tiene una media de 40 y una desviación


estándar de 3. Si se extraen muestras de tamaño 5 de esta población y se
calcula la varianza de cada muestra, halle la media de la distribución
muestral de varianzas si el muestreo es sin reemplazo.

Autoevaluación
1. Quinientos cojinetes de bolas tienen un peso medio de 5,02 onzas y una
desviación estándar de 0,30 onzas. Halle la probabilidad de que una
muestra al azar de 100 cojinetes elegidos entre este grupo tenga un peso
total (a) comprendido entre 496 y 500 onzas, (b) de más de 510 onzas.

2. Un fabricante despacha 1000 lotes de 100 bombillas cada uno. Si


normalmente el 5% de las bombillas es defectuoso, ¿en cuántos lotes cabe
esperar menos de 90 bombillas buenas?

3. Ciertos tubos fabricados por una compañía tienen una duración media de
800 horas y una desviación estándar de 60 horas. Halle la probabilidad de
que una muestra al azar de 16 tubos, tomada entre ellos tenga una duración
media entre 790 y 810 horas.

4. Se ha encontrado que el 2 % de las piezas producidas por cierta máquina


son defectuosas. ¿Cuál es la probabilidad de que en una partida de 400
piezas sean defectuosas 3 % o más?

5. Los resultados de una elección demostraron que un cierto candidato obtuvo


el 46% de los votos. Determine la probabilidad de que de 1000 individuos
elegidos al azar de la población votante se hubiese obtenido una mayoría
de votos para dicho candidato.

6. A y B juegan a «cara y cruz», lanzando cada uno 50 monedas. A ganará el


juego si consigue 5 o más caras que B, de otro modo gana B. Determine la
proporción contra A de que gane un juego determinado.

CIBERTEC CARRERAS PROFESIONALES


16

7. Dos distancias se miden y se obtiene 27,3 pulgadas y 15,6 pulgadas, con


desviaciones estándar de 0,16 pulgadas y 0,08 pulgadas, respectivamente.
Determine la media y la desviación estándar de la diferencia de las
distancias.

8. Un cierto tipo de bombilla eléctrica tiene una duración media de 1500 horas
y una desviación estándar de 150 horas. Se conectan tres bombillas de
forma que cuando una se funde, otra sigue alumbrando. Suponiendo que
las duraciones se distribuyen normalmente. ¿Cuál es la probabilidad de que
se tenga luz
8.1 al menos 5000 horas?
8.2 como mucho 4200 horas?

9. La desviación estándar de los pesos de una población muy grande de


estudiantes es 10,0 libras. Se extraen muestras de 200 estudiantes cada
una de la población y se calculan las desviaciones estándares de las alturas
de cada muestra. Halle la media y la desviación estándar de la distribución
muestral de las desviaciones típicas.

10. Una población está formada por los cuatro números 3, 7, 11, 15. Considere
todas las posibles muestras de tamaño dos que pueden extraerse de esta
población con reemplazo. Halle lo siguiente:
10.1 la media poblacional
10.2 la desviación estándar poblacional
10.3 la media de la distribución muestral de medias
10.4 la desviación estándar de la distribución muestral de medias

11. Ciertos tubos fabricados por una compañía tienen una duración media de
800 horas y una desviación estándar de 60 horas. Halle la probabilidad de
que una muestra al azar de 16 tubos, tomada de ellos tenga una duración
media de:
11.1 entre 790 y 810 horas
11.2 menor de 785 horas

12. Los pesos de los paquetes recibidos en un departamento de


almacenamiento tienen una media de 300 libras y una desviación estándar
de 50 libras. ¿Cuál es la probabilidad de que el peso de 25 paquetes
recibidos al azar y cargados en un ascensor supere el límite de seguridad
del ascensor, que es de 8 200 libras?

13. Halle la probabilidad de que en los próximos 200 niños nacidos


14.1 menos del 40 % sean niños.
14.2 entre el 43 % y el 57 % sean niñas.
Supónganse iguales las probabilidades de nacimiento de niño y niña.

14. De un total de 1 000 muestras de 200 niños cada una, ¿en cuántas cabe
esperar que entre el 40 % y el 60 % sean niñas?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 17

15. Una urna contiene 80 bolas de las que 60 % son rojas y 40 % blancas. De
un total de 50 muestras de 20 bolas cada una, sacadas de la urna con
reemplazo, ¿en cuántas cabe esperar 12 bolas rojas y 8 blancas?

16. A y B fabrican dos tipos de cables, que tienen unas resistencias medias a la
rotura de 4000 y 4500 libras con desviaciones estándar de 300 y 200 libras,
respectivamente. Si se comprueban 100 cables de A y 50 cables de B,
¿cuál es la probabilidad de que la media de resistencia a la rotura de B sea
(a) al menos 600 libras más que A, (b) al menos 450 libras más que A?

17. En una prueba de aptitud la puntuación media de los estudiantes es de 72


puntos y la desviación típica de 8 puntos. ¿Cuál es la probabilidad de que
dos grupos de estudiantes, formados de 28 y 36 estudiantes, respecti-
vamente, difieran en su puntuación media en (a) 3 o más puntos, (b) entre 2
y 5 puntos?

18. Los resultados de una elección mostraron que un cierto candidato recibió el
65 % de los votos. Halle la probabilidad de que en dos muestras al azar
compuesto cada una de 200 votantes, haya una diferencia superior al 10 %
en las proporciones que votaron a dicho candidato.

Para recordar
 En el uso de Distribuciones muestrales se debe tener en cuenta que las
n variables aleatorias independientes a estudiar deben ser continuas.
 Para un proceso Normal se debe tener en cuenta la media promedio y
la desviación estándar común y finitas.

CIBERTEC CARRERAS PROFESIONALES


18

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 19

SEMANA

2
INTERVALOS DE CONFIANZA
TEMAS
• Estimación Puntual. Propiedades de un estimador. Estimación de intervalos
de confianza
• Intervalos de confianza para la media con varianza conocida, muestra
grande
• Tamaño muestral para estimar una media
• Intervalo de confianza para la diferencia de medias de dos distribuciones
con ambas desviaciones estándar conocidas, muestras grandes

OBJETIVOS ESPECÍFICOS

• Construir intervalos de confianza para la media de varianza conocida y


muestra grande
• Encontrar el tamaño muestral para estimar una media
• Construir intervalos de confianza para diferencias de medias, con varianzas
conocidas y muestras grandes

CONTENIDOS

• Estimación Puntual. Propiedades de un estimador. Estimación de intervalos


de confianza
• Intervalos de confianza para la media con varianza conocida, muestra
grande
• Tamaño muestral para estimar una media
• Intervalo de confianza para la diferencia de medias de dos distribuciones
con ambas desviaciones estándar conocidas, muestras grandes

ACTIVIDADES

• Utilizan el concepto de estimación puntual.


• Interpretan el concepto de estimación por intervalo.
• Realizan estimaciones de la media poblacional mediante intervalos de
confianza utilizando la distribución normal.

CIBERTEC CARRERAS PROFESIONALES


20

INTERVALO DE CONFIANZA
ESTIMACIÓN DE PARÁMETROS

Una vez que se obtiene algún estadístico (media, desviación estándar o


proporción muestral, entre otros) es importante determinar si dichos
resultados pueden ser asociados a la población de donde se extrajo la
muestra. La estimación de parámetros se encarga de aproximar los valores
de estos a partir de los resultados obtenidos de un conjunto de
observaciones muestrales y sobre la base de ciertos procedimientos y
criterios previamente establecidos. Por esto nos permitirá estimar con
precisión la porción de la población (la fracción de la población que posee
ciertas características) y la media de la población.

TIPOS DE ESTIMACIÓN

a) Estimación Puntual

Una estimación puntual es un solo número que se utiliza para estimar un


parámetro de población desconocido. Se puede decir que es la estimación
del valor de un parámetro por medio de un valor concreto (único valor) y que
se obtiene a partir del cálculo del estimador correspondiente proveniente de
una muestra determinada. La desventaja de utilizar este tipo de estimación
radica en que no es posible determinar el grado de certeza que se tiene al
hacer la estimación.

Por ejemplo, si de una muestra de 36 cajeros automáticos se obtuvo que el


tiempo promedio de atención al cliente es de 1.5 minutos con una desviación
estándar de 0.5 minutos, estos valores son los estimadores puntuales del
verdadero tiempo promedio de atención y de la verdadera desviación
estándar del tiempo de atención a los clientes.

b) Estimación por Intervalos

Una estimación de intervalo es un intervalo de valores que se utiliza para


estimar un parámetro de población. Esta estimación indica el error de dos
maneras: por extensión del intervalo y por la probabilidad de obtener un
verdadero parámetro de la población que se encuentra dentro del intervalo
bajo un cierto nivel de confianza o certidumbre previamente establecida. Es
mejor la estimación cuando este intervalo tiene longitud pequeña y que la
probabilidad (nivel de confianza) de que el parámetro se encuentre entre los
límites de dicho intervalo (límites de confianza) sea cercano a uno.

Estimador: Cualquier estadística de muestra que se utilice para estimar un


parámetro de población se conoce como estimador, es decir, un estimador es
una estadística de muestra utilizada para estimar un parámetro de la
población. La media de la muestra x puede ser un estimador de la media de
la población µ , y la porción de la muestra se puede utilizar como estimador
de la porción de la población.
En general, se puede establecer lo siguiente:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 21

Estimación: Cuando se ha observado un valor numérico especifico de


nuestro estimador, se refiere a ese valor como estimación. En otras
palabras, una estimación, es el valor específico de una estadística. Por
ejemplo, al tomar una muestra se calcula el valor que toma el estimador
en esa muestra, entonces se realiza una estimación.

Criterios para seleccionar un buen estimador


Imparcialidad: Esta se refiere al hecho que la media de muestra es un
estimador no sesgado de una media poblacional, porque la media de
distribución de muestreo de las medias de muestra tomadas de la misma
población es igual a la media de la población misma.
Eficiencia. Se refiere al tamaño de error estándar de la estadística. Si al
comparar dos estadísticas de una muestra del mismo tamaño, se escoge la
estadística que tuviera el menor error estándar o menor desviación estándar
de la distribución de muestreo.
Coherencia. Una estadística es un estimador coherente de un parámetro
poblacional si al aumentar el tamaño de la muestra, se tiene casi la certeza
de que el valor de la estadística se aproxima bastante al valor del parámetro
de la población.
Suficiencia. Un estimador es suficiente si se utiliza una cantidad de la
información contenida en la muestra que ningún otro estimador podría
extraer información adicional de la muestra sobre el parámetro de la
población que se está estimando.

LIC µ LCS

p [L − E ≤ θ ≤ L + E ] = 1 − α

Donde: L: Estadístico correspondiente


E: Error estándar de estimación
1 - α: Nivel de confianza
θ: Parámetro por estimar

El error estándar de estimación se establece en función al nivel de confianza y


al parámetro por estimar. El intervalo [L – E, L + E] se denomina intervalo de

CIBERTEC CARRERAS PROFESIONALES


22

confianza, donde sus respectivos límites se denominan “límite inferior de


confianza (LIC)” y “límite superior de confianza (LSC)”. En este caso:

LIC = L – E
LSC = L + E

Sea X una población distribuida con una media µ desconocida y varianza σ 2


conocida. Para hallar un intervalo de confianza para µ se necesita encontrar
dos estadísticos p [θ 1 ≤ µ ≤ θ 2 ] = 1 − α
Para una muestra aleatoria de tamaño n suficientemente grande (n ≥30), por el
σ2
teorema de límite central x ≈ N ( µ ,)
n
Si x es una población normal, entonces x es normal para toda muestra n.
x−µ
Además se tiene Z=
σ
n
Por la simetría de la curva normal se
tiene p [− Z tab ≤ Z ≤ + Z tab ]= 1 − α
 σ σ 
p  x − Z tab ≤ µ ≤ x + Z tab  =1−α
 n n
Entonces el intervalo de confianza está dado por

 σ σ 
 x − Z tab , x + Z tab 
 n n

INTERVALO DE CONFIANZA PARA MEDIAS POBLACIONALES

σ) conocida
Desviación estándar poblacional (σ

El error estándar de estimación se calcula de la siguiente forma:

E = Z tab * σ x

σ
σx =
n
Donde:
σx : Error estándar de la media para una población
n : tamaño de muestra
Ztab : se obtiene a partir del nivel de confianza

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 23

σ) desconocida
Desviación estándar poblacional (σ

Si n ≥ 30, el error de estimación se calcula según la fórmula:



E = Z tab * σ x
∧ S
σx =
n
Donde:
S: desviación estándar de la muestra

σ x : Error estándar de la media para la población
n : tamaño de muestra.
Ztab : se obtiene a partir del nivel de confianza.

Observación: Si se conoce el tamaño de la población (N) y el muestreo es sin


reemplazo, se usa el factor de corrección para población finita (fc) que afecta y
multiplica al error estándar de estimación.
N−n
fc =
N −1

Tamaño mínimo de muestra para estimar la media poblacional


El tamaño mínimo de muestra se puede calcular a partir de la siguiente
expresión:
Z tab σ 2
2
n=
E2
Para tener el tamaño mínimo de la muestra de una población finita, se aplica el
factor de corrección para población finita
Z tabσ N −n
E2 =
n N −1
Z tab σ 2
2
n
=
Luego: N −n E2
( )
N −1

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


DISTRIBUCIONES CON AMBAS DESVIACIONES ESTÁNDAR CONOCIDAS
Y MUESTRAS GRANDES
Sea X una variable aleatoria distribuida con media µ x y varianza σ x conocida.
2

Sea Y una variable aleatoria distribuida con media µ x y varianza σ x conocida.


2

Para hallar el intervalo de confianza para la diferencia de las medias µ x − µ y ,


se debe encontrar dos estadísticos
p [LIC ≤ µ 1 − µ 2 ≤ LSC ]= 1 − α

CIBERTEC CARRERAS PROFESIONALES


24

1. Se elige un nivel de confianza (1 – α)


2. Considérese una muestra aleatoria de tamaño n ≥ 30 de X, y una muestra
aleatoria de tamaño m ≥ 30 de Y.
3. Se sabe que la estadística adecuada para estimar ( µ x − µ y ) es ( X − Y ) ,
entonces se asume una distribución muestral de ( X − Y ) para establecer un
intervalo de confianza para ( µ x − µ y ) .
4. Para n y m suficientemente grande (n ≥ 30 y m ≥ 30); la variable aleatoria Z
tiene una distribución aproximadamente normal estándar.

( X − Y ) − (µ x − µ y )
Z=
σ x2 σ y2
+
n m
Luego:

 σ x2 σ y
2
σ x2 σ y 
2

p ( X − Y ) − Z o + ≤ µ1 − µ 2 ≤ ( X − Y ) + Z o +  =1−α
 n m n m 

Se obtiene el intervalo aleatorio

 σ x2 σ y
2
σ x2 σ y2 
( X − Y ) − Z o + , (X − Y ) + Zo + 
 n m n m 

ACTIVIDADES

1. Se toma una muestra de 60 individuos de una población que se sabe tiene


una desviación estándar de 1,4. Se encuentra que la media de esta muestra
es de 6,2.
Construya una estimación de intervalo alrededor de la media de la muestra,
utilizando un error estándar de la media.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 25

2. La Universidad de Ciencias Aplicadas está realizando un estudio sobre el


peso promedio de los ladrillos que comprenden los pasillos de la
universidad. Se enviaron trabajadores que recolecten y pesen una muestra
de 421 ladrillos; el peso promedio de esta muestra fue de 6,4 kg. Se sabe
con toda certeza que la desviación estándar del peso de los ladrillos es de
3,6 kilogramos. ¿Cuál es el intervalo alrededor de la media de la muestra
que incluirá a la media de la población 95,5% de las veces?

3. Para una población con una varianza conocida de 185, una muestra de 64
individuos conduce al valor de 217 como estimación de la media. Construya
una estimación de intervalo que incluya a la media de la población 68,3% de
las veces.

5 El administrador del Emape está preocupado acerca de la cantidad de


automóviles que pasan por las casetas de cobro sin pagar, y está
considerando cambiar la manera de hacer los cobros si tal cambio resulta
efectivo en cuanto a costos. Se muestreó al azar 75 horas para determinar
la tasa de violación. El número promedio de violaciones por hora fue de 7. Si
se sabe que la desviación estándar de la población es de 0,9, estime un
intervalo que tenga 95,5% de probabilidad de contener a la media real.

CIBERTEC CARRERAS PROFESIONALES


26

6. La desviación estándar de la duración de los focos de una determinada


fábrica es de 100 horas. Para un embarque de 2000 focos, el gerente de
control de calidad desea determinar el tamaño de la muestra necesaria, para
estimar la duración promedio con error de estimación de 20 horas y un 95%
de confianza.

7. Para su producción total de bombillas, la gerencia de una firma electrónica


está segura que los limites superior e inferior de vida no difieren en más de
600 horas. Para un nivel de confianza del 90%. ¿Qué tan grande debe
tomarse la muestra para encontrar la vida promedio de una bombilla dentro
de más y menos 30 horas?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 27

8. La media y la desviación estándar de las cargas máximas soportadas por


100 cables producidos por la compañía DURAMAS son 20 toneladas y 1,1
toneladas. La media y la desviación estándar de las cargas máximas
soportadas por 60 cables producidos por la compañía CABLECOM son 16
toneladas y 0,8 toneladas. Determine el intervalo de confianza al 95% para
la diferencia de cargas máximas medias.

9. Una muestra de 150 bombillas del fabricante A dieron una vida media de
1400 horas y una desviación estándar de 120 horas. Una muestra de 100
bombillas del fabricante B dieron una vida media de 1200 horas y una
desviación estándar de 80 horas. Halle el intervalo de confianza al 99% para
la diferencia de las vidas medias de las poblaciones A y B.

Autoevaluación
1. La panificadora Gabino está interesada en adquirir una camioneta usada.
Selecciona al azar 125 ofertas de venta y encuentra que el precio promedio
de una camioneta en esta muestra es de $3250. La empresa sabe que la
desviación estándar de los precios de las camionetas usadas en la ciudad
es de $615. Construya una estimación de intervalo para el precio promedio

CIBERTEC CARRERAS PROFESIONALES


28

de una camioneta de modo que se pueda tener un 95,5% de certeza de


que la media de la población se encuentra en dicho intervalo.

2. La junta directiva de los colegios PAMER considera como su tarea más


importante el mantener la cantidad promedio de los alumnos por aula, por
debajo del tamaño promedio de las aulas de los colegios TRILCE. El señor
Córdova, coordinador de los colegios PAMER, acaba de recibir información
confiable que indica que el tamaño de clase promedio de TRILCE en el
presente año es de 30,3 estudiantes. Todavía no tiene los datos
correspondientes de las 1 621 aulas que se tienen en su propio sistema
escolarizado, de modo que Córdova se ve forzado a apoyarse en las 76
aulas que han informado acerca de su tamaño, lo cual le produce un
promedio de 29,8 estudiantes. De saber que el tamaño de grupo de sus
colegios tiene una distribución cuya media se desconoce y una desviación
estándar de 8,3 estudiantes y suponiendo que la muestra de 76 aulas que
tiene el señor Córdova es una muestra aleatoria de la población de las
aulas del colegio PAMER:
2.1 Encuentre un intervalo en el cual Córdova pueda tener 9,5% de
certeza de que contendrá a la medida real.
2.2 ¿Usted cree que el señor Córdova ha conseguido su objetivo?

3. Tula, dueña del salón de belleza Stylos, se ha formado de una buena


reputación entre los residentes del cono este. Cuando un cliente entra a su
establecimiento, Tula grita los minutos que el cliente deberá esperar antes
de que se le atienda. El único estadístico del lugar, después de ver el
fracaso de las poco precisas estimaciones puntuales de Tula, ha
determinado que el tiempo de espera real de cualquier cliente está
distribuido normalmente con una media igual a la estimación de Tula en
minutos y una desviación estándar igual a cinco minutos divididos entre la
posición del cliente en la fila de espera. Ayude a los clientes de Tula a
construir intervalos de 95% de probabilidad para las situaciones siguientes:
3.1 El cliente es el segundo en la fila de espera, y la estimación de
Tula es de 25 minutos.
3.2 El cliente es el tercero de la fila, y la estimación de Tula es de 15
minutos.

4. El gerente de la división de focos ahorradores de Jossfel Electric debe


determinar el número promedio de horas que durarán los focos fabricados
por cada una de las máquinas. Fue elegida una muestra de 40 focos de
una máquina A y el tiempo promedio de funcionamiento fue de 1,416
horas. Se sabe que la desviación estándar del tiempo te duración es de 30
horas.
4.1 Calcule el error estándar de la media
4.2 Construya un intervalo de confianza de 90% para la media de la
población.

5. Javier López acaba de terminar el primer borrador de su tesis, la cual tiene


700 páginas. Javier escribió a máquina el borrador y está interesado en
saber el número promedio de errores tipográficos contenidos por página,
pero no quiere leer todo el borrador. Como sabe un poco de estadística

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 29

financiera, Javier seleccionó al azar 40 páginas para su lectura y encontró


que el número promedio de errores “de dedo” por página era de 4,3; y la
desviación estándar de la muestra fue de 1,2 errores por página.
5.1 Calcule el error estándar estimado de la media.
5.2 Construya para Javier un intervalo de confianza de 90% para el
número real de errores por página que hay en su escrito.

6. De una población de 540 individuos, se toma una muestra de 60. A partir


de esta e encuentra, que la media es de 6,2 y la desviación estándar de
1368.
6.1 Encuentre el error estándar estimado de la media.
6.2 Construya un intervalo de confianza de 96% para la media.

7. En una prueba de seguridad automovilística efectuada por el Centro de


Investigación en Seguridad Carretera del Callao, la presión promedio en las
llantas de los autos de una muestra de 62 llantas fue de 24 libras por
pulgada cuadrada y la desviación estándar fue de 2,1 libras por pulgada
cuadrada.
7.1 ¿Cuál es la desviación estándar estimada para esta población?
(Hay aproximadamente un millón de autos registrados en el Callao)
7.2 Calcule el error estándar estimado de la media.
7.3 Construya un intervalo de confianza de 95% para la media de la
población.

8. Un corredor de la Bolsa de Valores de Lima tiene curiosidad acerca de la


cantidad de tiempo que existe entre la colocación de una orden de venta y
su ejecución. Para ello se hizo un muestreo de 45 órdenes y encontró que
el tiempo medio para la ejecución fue de 24,3 minutos, con una desviación
estándar de 3,2 minutos. Ayude al corredor de bolsa con la construcción de
un intervalo de confianza de 95% para el tiempo medio para la ejecución
de una orden.

9. Una firma constructora desea estimar la resistencia media de las barras de


acero utilizadas en la construcción de edificios de departamentos. ¿Qué
tamaño debe tener la muestra para garantizar que exista un riesgo de sólo
0., de sobrepasar un error de 5 Kg. o más en la estimación, si la desviación
estándar de la resistencia de este tipo de barras se estima en 25 kg?

10. El dueño del recientemente abierto restaurante La buena muerte ha tenido


dificultades al estimar la cantidad de comida que se debe preparar cada
tarde. Él ha decidido determinar el número medio de clientes a los que se
atiende cada noche. Seleccionó una muestra de 30 noches que le arrojaron
una media de 71 clientes. Se llegó a la conclusión de que la desviación
estándar de la población es de 3,76. Dé una estimación de intervalo que
tenga 99,7% de probabilidad de incluir a la media de la población.

11. El gerente de producción de Pulpas Andinas está preocupado debido a que


las heladas de los últimos tres años han estado dañando los 2 500

CIBERTEC CARRERAS PROFESIONALES


30

duraznos que posee la compañía. Con el fin de determinar el grado de


daño ocasionado a los árboles, se ha escogido una muestra de 42
duraznos y se encontró que la producción promedio fue de 525 duraznos
por árbol, con una desviación estándar de 30 duraznos por árbol.
11.1 Construya un intervalo de confianza de 98% para la producción
media por árbol del total de 2500 árboles.
11.2 Si la producción media de duraznos por árbol fue de 600 frutas
hace cinco años, ¿qué puede decir el gerente acerca de la posible
existencia de daños en el presente?

12. El jefe de las fuerzas policiales recientemente estableció medidas


enérgicas para contrarrestar a los traficantes de droga de su ciudad. Desde
que se pusieron en funcionamiento dichas medidas, han sido capturados
750 de los 12368 traficantes de droga de la ciudad. El valor promedio, en
dólares, de las drogas decomisadas a estos 750 traficantes es de $250000.
La desviación estándar del valor en dólares de la droga de estos 750
traficantes es de $41000. Construya, para el jefe, un intervalo de confianza
de 90% para el valor medio de los estupefacientes que están en manos de
los narcotraficantes de la ciudad.

13. Una compañía tiene 500 cables. Un ensayo con 40 cables elegidos al azar
dieron una media de resistencia a la rotura de 2400 libras y una desviación
típica de 150 libras. ¿Con qué grado de confianza cabe decir que la media
de resistencia a la rotura de los 460 cables restantes sea 2400 ± 35 libras?

14. En una granja de 1000 pollos se va a experimentar con una nueva dieta de
engorde. Si se sabe que la desviación típica del aumento de peso en un
periodo de un mes es igual a dos onzas. ¿Qué tamaño debe tomarse una
muestra que conduzca a una estimación del aumento de peso de la
totalidad de la parvada, si se quiere que esta estimación no contenga un
error mayor que 40 lb. (una 1b = 16 oz.) con probabilidad de 0.95?

15. De una orden especial de 1500 taladros recibidos de la compañía Andina


de máquinas y herramientas, se probó una muestra de 36 taladros. La
muestra tuvo una vida de 1800 horas y una desviación estándar de 150
horas. Construya un intervalo de confianza de un 98% para la vida media
de los taladros.

16. De qué tamaño debe ser la muestra para poder tener 95% de confianza en
que el error de estimación es de 5 o menos. Suponga que la desviación
estándar poblacional es de 25.

17. La revista “Unidos por Siempre” dio a conocer el costo promedio de una
boda, que es de s/. 19000 soles. Suponga que la desviación estándar
poblacional es de s/. 9400 con una confiabilidad del 95%. ¿Qué tamaño
debe tener la muestra si el error de estimación deseado es de s/. 1000
soles?

18. Se cree que los sueldos anuales iniciales de egresados de licenciatura en


administración pueden tener una desviación estándar aproximada de $

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 31

2000. Suponga que desea una estimación por intervalo de 95% de nivel de
confianza para la media del sueldo anual inicial. ¿De qué tamaño debe
tomarse la muestra, si el error de estimación deseado es de $ 200.

19. La empresa de bienes y raíces Fortaleza proporciona costos promedios


mensuales de renta de departamentos en el departamento de Arequipa.
Suponga que la desviación estándar poblacional es de s/. 220 soles y que
el error de estimación es de s/. 50. ¿Cuál es el tamaño de la muestra
recomendada para una estimación del intervalo de confianza de 90% del
costo de renta promedio poblacional?

20. El tiempo de traslado al trabajo, para residentes en los conos de la ciudad


de Lima, tiene una distribución normal con desviación estándar de 6,25
minutos. Si el error de estimación es de 2 minutos. ¿Qué tamaño debe
tener la muestra, a una confiabilidad del 90%?

21. Determine el tamaño mínimo de muestra que se debe tomar para estimar
al 85% de confianza el porcentaje de limeños que actualmente utiliza
Internet diariamente. El año pasado se realizó una investigación que indicó
que el 18% de los limeños utilizaba Internet diariamente. Se desea que el
error al hacer la estimación no sea mayor que 5%.

22. Un ingeniero industrial está interesado en estimar el tiempo medio


requerido para ensamblar una tarjeta de circuito impreso. ¿Qué tan grande
debe ser la muestra si el ingeniero desea tener una confianza del 95% de
que el error de estimación de la media es menor que 0.25 minutos? La
desviación estándar del tiempo de ensamble es 0.45 minutos.

23. Una tienda de departamentos desea estimar, con un nivel de confianza de


0.98 y un error máximo de 0,5, el verdadero valor medio de dólares de las
compras a crédito por mes realizadas por sus clientes. Dado que la
desviación típica es $ 15, determine el tamaño de la muestra.

24. De dos análogos grupos de enfermos A y B formados de 50 y 100


individuos respectivamente, al primero le fue dado un nuevo tipo de
somnífero y al segundo el tipo convencional. Para los pacientes del primer
grupo el número medio de horas de sueño fue de 7,82 horas con una
desviación estándar de 0,24 horas. Para el segundo grupo el número
medio de horas de sueño fue de 6,75 horas con una desviación estándar
de 0,30 horas. Halle el intervalo de confianza al 99% para la diferencia del
número de horas de sueño inducidas por los dos tipos de somnífero.

25. Una muestra al azar de 200 pilas de la marca A para calculadoras tiene
una vida media de 140 horas y una desviación estándar de 10 horas. Una
muestra al azar de 120 pilas de la marca B para calculadoras tiene una
vida media de 125 horas y una desviación estándar de 9 horas. Determine
el intervalo de confianza al 99% para la diferencia de medias de las dos
marcas de pilas para calculadoras

CIBERTEC CARRERAS PROFESIONALES


32

26. Dos grupos al azar de 50 alumnas de una escuela para secretarias


ejecutivas aprende taquigrafía por dos sistemas diferentes y luego se
someten a una prueba de dictado. Se encuentra que en un minuto el primer
grupo obtiene en promedio de 120 palabras con una desviación estándar
de 11 palabras, mientras que en un minuto el segundo grupo promedia 110
palabras con una desviación estándar de 10 palabras. Determine el
intervalo de confianza al 90% para la diferencia de las medias de los dos
métodos.

27. Un investigador desea comparar la efectividad de dos métodos de


entrenamiento industrial para obreros que trabajan en plantas
ensambladoras de autos. A un primer grupo de 50 trabajadores
seleccionados al azar, se les entrena en un nuevo método de ensamblado
denominado método I, mientras que al segundo grupo de 60 trabajadores
se les capacita con el método II. Después, se observa la efectividad de los
dos métodos aprendidos. El primer grupo disminuye el tiempo de
ensamblado con un promedio de 48 minutos y una desviación estándar de
9 minutos, mientras que el segundo grupo lo hace con un promedio de 53
minutos y desviación estándar de 12 minutos. Determine el intervalo de
confianza al 95% para la diferencia de las medias de los dos métodos
aprendidos.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 33

Para recordar
 La precisión de una estimación puntual puede evaluarse en la muestra,
por estimación de un intervalo junto con una medida de la seguridad
que tal intervalo contenga la parámetro desconocido de la población.

 El intervalo aleatorio es un intervalo en el cual por lo menos uno de sus


extremos es una variable aleatoria.

CIBERTEC CARRERAS PROFESIONALES


34

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 35

SEMANA

3
INTERVALO DE CONFIANZA
PARA MUESTRAS PEQUEÑAS

TEMAS
• Intervalo de confianza para la media con varianza desconocida. Muestra
pequeña.
• Intervalo de confianza para la diferencia de medias con varianzas
desconocidas pero iguales. Muestras pequeñas.

OBJETIVOS ESPECÍFICOS

• Construir intervalos de confianza para muestras pequeñas


• Construir intervalos de confianza para diferencias de medias, con varianzas
desconocidas pero iguales, muestras pequeñas

CONTENIDOS

• Intervalo de confianza para la media con varianza desconocida, Muestra


pequeña
• Intervalo de confianza para la diferencia de medias con varianzas
desconocidas pero iguales. Muestras pequeñas

ACTIVIDADES

• Utilizan el concepto de estimación puntual.


• Interpretan el concepto de estimación por intervalo.
• Realizan estimaciones de la media poblacional mediante intervalos de
confianza para muestras pequeñas utilizando la distribución t student.

CIBERTEC CARRERAS PROFESIONALES


36

INTERVALO DE CONFIANZA MEDIANTE LA DISTRIBUCIÓN T


Los primeros trabajos teóricos sobre la distribución t fueron hechos por W. S.
Gossett, durante los primeros años del siglo XX en Dublín, Irlanda, y adoptó el
seudónimo de Student, conocida como la distribución t de student.
La distribución t de student se utiliza cuando el tamaño de la muestra es menor
de 30 datos y la desviación estándar de la población no se conoce. Además, al
utilizar la distribución t de student, se supone que la población es normal o
aproximadamente normal.
Los grados de libertad se definen como el número de valores que se pueden
Se escoge libremente.
Cuando se elije una distribución t de student para estimar una media de la
población se utilizará (n – 1) grados de libertad, tomando como n al tamaño de
la muestra.

Sea X una variable aleatoria con distribución aproximadamente normal, con


media µ y varianza σ 2 (desconocida). Además, cuando σ 2 es desconocida se
usa el estimador puntual S 2 .
Considérese una muestra aleatoria de tamaño n (n<30), la media x y la
desviación estándar muestral S
Se sabe que x es adecuada para estimar µ , pero como σ 2 es desconocida se
usará la distribución muestral de la variable aleatoria T con (n-1) grados de
libertad.
x−µ
T=
S
n
Para hallar un intervalo de confianza para µ se necesita encontrar dos
estadísticos.
p [θ 1 ≤ µ ≤ θ 2 ] = 1 − α

Por la simetría de la curva normal se tiene p [− t tab ≤ T ≤ + t tab ]= 1 − α


 S S 
p  x − t tab ≤ µ ≤ x + t tab  =1−α
 n n
Entonces el intervalo de confianza está dado por

 S S 
 x − t tab , x + t tab 
 n n

Desviación estándar poblacional (σ σ) desconocida


Si n < 30, el error de estimación se calcula según la fórmula:

p [L − E ≤ θ ≤ L + E ] = 1 − α

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 37

L: Estadístico correspondiente
E: Error estándar de estimación
1 - α: Nivel de confianza
θ: Parámetro por estimar

E = Ttab * σ x

∧ S
σx =
n
Donde:
S : desviación estándar de la muestra

σ : Error estándar de la media para una población
x

Ttab : Valor obtenido de la tabla de T - Student para "n - 1" grados de


libertad

Observación: Si se conoce el tamaño de la población (N) y el muestreo es sin


reemplazo, se usa el factor de corrección para población finita (fc) que afecta y
multiplica al error estándar de estimación (E).
N−n
fc =
N −1

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


DISTRIBUCIONES CON VARIANZAS DESCONOCIDAS PERO IGUALES Y
MUESTRAS PEQUEÑAS
Sea X una variable aleatoria distribuida con media µ x y varianza σ x
2

desconocida. Sea Y una variable aleatoria distribuida con media µ x y varianza


σ x 2 desconocida. Sea X la media muestral de una muestra aleatoria de n (n<
30) observaciones de X y sea Y la media muestral de una muestra aleatoria de
m (m<30) observaciones de Y.
La variable aleatoria t tiene (n+m -2) grados de libertad desde que la
distribución de la variable aleatoria t no depende de ( µ x − µ y )
( X − Y ) − (µ x − µ y )
T=
1 1 (n − 1) S x + (m − 1) S y
2 2


n m n+m−2
Donde:
S c : es la desviación estándar combinada de las dos muestras
(n − 1) S x2 + (m − 1) S y2
Sc =
n+m−2

p [LIC ≤ µ 1 − µ 2 ≤ LSC ]= 1 − α
Luego:

CIBERTEC CARRERAS PROFESIONALES


38

 1 1 1 1 
p ( X − Y ) − t o S c + ≤ µ1 − µ 2 ≤ ( X − Y ) + to S c +  =1−α
 n m n m
Se obtiene el intervalo aleatorio
 1 1 1 1 
( X − Y ) − t o S c + , ( X − Y ) + to S c + 
 n m n m

ACTIVIDADES

1. De una muestra de 18 gasolineras REPSOL tomadas en la ciudad de Lima,


se encontró que el precio promedio de un galón de gasolina sin plomo es de
$ 3,17; con una desviación estándar de $ 0,08 por galón. Halle el intervalo
de confianza al 95% para el valor real del precio medio de la gasolina sin
plomo por galón.

2. Al ensayar un nuevo método de producción, se seleccionaron a 18


empleados al azar, cuya tasa de producción promedio fue de 80 partes por
hora, con una desviación estándar de 10 partes por hora. Determine el
intervalo de confianza al 90% de la tasa de producción promedio
poblacional.

3. En un laboratorio de ensayos de materiales se analiza 20 cables para


obtener sus cargas de rotura a la tracción Kg./cm2. Considerando que estas

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 39

cargas se distribuyen normalmente, determine el intervalo de confianza al


90%.

280 295 289 294 308 320 350 300 310 285
302 305 398 397 300 365 380 395 399 360

4. Una agencia de publicidad tiene un registro de datos sobre minutos de


anuncios por cada media hora de programas principales de TV. En la
siguiente tabla se ve una lista de datos representativos de una muestra de
20 programas preferentes en cadenas principales a las 20:30 horas.

6,0 7,0 1,2 6,6 6,9 6,7 7,2 7,0 7,0 6,3
5,8 6,7 6,0 7,3 6,6 6,4 7,3 7,2 6,0 6,8

Suponiendo que la población es normal, halle el intervalo de confianza al


95% para el número promedio de minutos de anuncios en los principales
programas televisivos a las 20:30 p.m.

6. En la siguiente tabla, se presentan los puntos de fusión en grados


centígrados de un compuesto químico realizado por dos analistas.

CIBERTEC CARRERAS PROFESIONALES


40

Analista
164,4 165,2 169,2 168,2 167,3 168,2 169,5 167,2 168,1 169,3
01
Analista
163,2 165,3 167,2 168,9 169,9 165,4 167,3 162,3 163,2 165,2
02

Determine el intervalo de confianza al 90% para la diferencia de medias entre


analistas. Suponga que las varianzas son iguales pero desconocidas.

7. Los tiempos de encendido en segundos de crisoles de humo flotante de dos


tipos
diferentes son los siguientes:

TIPO 1 481 506 494 506 661 572 602 487 524 661
TIPO 2 526 511 556 542 491 498 537 582 605 605

Determine el intervalo de confianza al 95% para la diferencia de medias entre


analistas. Suponga que las varianzas son iguales pero desconocidas.

8. Dos analistas tomaron lecturas repetidas en la dureza del agua de las napas
freáticas a lo largo del valle del Rimac. Determine un intervalo de confianza

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 41

del 95% para la diferencia de lecturas entre los analistas, suponiendo


varianzas iguales pero desconocidas.

Analista A 0,46 0,62 0,37 0,45 0,38 0,37 0,44 0,48 0,53 0,47

Analista B 0,82 0,64 0,54 0,55 0,58 0,42 0,48 0,33 0,32 0,25

Autoevaluación
1. Se pidió al personal de ventas de la Distribuidora Continental que
presentara informes semanales con los clientes llamados durante la
semana. En una muestra de 18 informes semanales se determinó un
promedio de 22,4 llamadas a clientes por semana y una desviación estándar
de 5 llamadas. Determine el intervalo de confianza al 95% para el número
promedio de llamadas semanales a clientes.

2. El diámetro final de un cable eléctrico blindado se distribuye normalmente.


Si se toma una muestra de 20 de estos cables, se encuentra que su media
es de 0,790 y una desviación estándar es de 0,01. Encuentre el intervalo de
confianza al 95%.

3. En un estudio realizado por TEXACO acerca de los precios de la gasolina


de 97 octanos en los diferentes grifos de la capital, se encontraron los
siguientes precios por galón automóviles.

4,03 4,05 4,15 4,00 3,99 4,00 3,98 3,97 4,10 4,12
4,08 4,05 4,00 4,04 4,05 4,00 3,99 3,97 4,00 3,98

Si el precio de venta de gasolina de 97 octanos sigue una distribución


normal, determine el intervalo de confianza al 95% del precio promedio
poblacional.
4. La cantidad de horas que duerme una persona que sobresale en su trabajo
tiene una distribución normal. En la siguiente tabla se observa la cantidad de
horas de sueño por noche de 24 individuos que sobresalen en su trabajo.

6,2 6,3 6,4 6,0 7,0 5,9 5,9 6,0

CIBERTEC CARRERAS PROFESIONALES


42

7,0 6,3 6,5 5,8 5,5 5,2 6,4 6,2


7,0 6,1 6,2 6,8 5,8 5,8 5,7 6,0

Determine el intervalo de confianza al 95%, para el número promedio de la


población de personas que sobresale en su trabajo.

5. A un laboratorio de ensayo de materiales se lleva una muestra de 12 cables


para obtener sus cargas de rotura a la tracción. Los resultados obtenidos
(en Kg. /cm2) fueron las siguientes:

280 295 298 310 312 297 285 265 279 308 300 290

Considerando que estas cargas poseen distribución de probabilidad normal,


determine el intervalo de confianza de 90% para la media de la población.

6. El tiempo que demora una computadora marca PIGS en acceder al


programa XXX, es una variable aleatoria continua. Se realizaron 12
mediciones de tiempo (en segundos):

20,0 21,5 19,7 20,6 19,5 18,4 19,6 20,8 21,9 21,4 20,0 21,5

Estime el tiempo real que demora la computadora marca PIGS en acceder


al programa con un nivel de confianza del 95%.

7. Una máquina produce barras metálicas que se usan en el sistema de


suspensión de un automóvil. Se selecciona una muestra aleatoria de 20
barras y se mide el diámetro. Los resultados se muestran a continuación.
Suponga que el diámetro de las barras se distribuye normalmente.
Construya un intervalo de confianza del 95% respecto al diámetro de barra
medio.

8,24 8,23 8,20 8,29 8,31 8,25 8,24 8,31 8,29 8,20
8,31 8,26 8,25 8,29 8,27 8,32 8,31 8,21 8,20 8,30

8. Se desea estimar el tiempo promedio que se demora en instalar un


determinado programa en 300 computadoras. Para ello se midió el tiempo
en minutos de instalación en 12 computadoras y se obtuvo los siguientes
resultados:

5,0 4,2 4,8 5,2 5,5 5,9 6,1 6,8 5,2 4,2 5,8 4,5

Con estos datos estime (puntual y por intervalo de confianza) el tiempo


promedio de instalación. Interprete.

9. Se prueba una muestra aleatoria de 12 fusibles de cierta marca para


determinar el punto de ruptura. Los puntos de ruptura medidos en amperes
fueron los siguientes:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 43

18 22 14 19 21 23 17 26 28 12 14 26

¿Con qué grado de confianza puede afirmarse que el punto medio de


ruptura para esta marca de fusibles está entre 15,736 y 24,264?

10. Las cajas de un cereal producidos por una fábrica deben tener un
contenido de 16 onzas. Un inspector tomó una muestra que arrojó los
siguientes pesos en onzas:

15,7 15,8 15,4 16,2 16,8 15,4 15,9 16,1


16,2 15,8 15,7 15,4 15,2 16,2 16,3 15,7

Calcule intervalos de confianza del 90% para la media poblacional y la


varianza poblacional de los pesos.

11. Los siguientes datos corresponden a los tiempos de duración en minutos


de las películas producidas por dos compañías cinematográficas.

Compañía A 103 94 95 85 102 98 100


Compañía B 97 94 100 105 150 120 92

Si los tiempos de duración tienen una distribución aproximadamente normal,


determine el intervalo de confianza al 90% para la diferencia entre los
tiempos promedios de las películas producidas por las compañías.

12. Una compañía productora de maíz híbrido planta dos nuevas hileras de
maíz hídrico en 10 granjas diferentes. Las producciones en bushel por acre
fueron las siguientes:

Hídrico I 90 85 94 78 86 85 92 95 95 82
Hídrico II 84 89 87 92 90 91 87 87 81 80

Determine el intervalo de confianza del 95% para la diferencia entre las dos
producciones medias de maíz híbrido.

Para recordar
 La precisión de una estimación puntual puede evaluarse en la muestra
menor de 30, por estimación de un intervalo aplicando la tabla de
distribución t´student.
 Los datos tienen que ser de muestra, como la media muestral y la
desviación estándar muestral.

CIBERTEC CARRERAS PROFESIONALES


44

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 45

SEMANA

4
INTERVALO DE CONFIANZA
PARA UNA PROPORCIÓN
TEMAS
• Intervalo de confianza para una proporción. Muestras grandes
• Tamaño muestral para estimar una proporción
• Tamaño de muestra para poblaciones finitas
• Intervalo de confianza para diferencia de proporciones

OBJETIVOS ESPECÍFICOS

• Construir intervalos de confianza para las proporciones.


• Elaborar intervalos de confianza para las proporciones, relacionándolas
con sus respectivos parámetros poblacionales.

CONTENIDOS

• Intervalo de confianza para una proporción. Muestras grandes


• Tamaño muestral para estimar una proporción
• Tamaño de muestra para poblaciones finitas
• Intervalo de confianza para diferencia de proporciones

ACTIVIDADES

• Utilizan el concepto de estimación puntual.


• Interpretan el concepto de estimación por intervalo.
• Realizan estimaciones de la media poblacional mediante intervalos de
confianza para las proporciones utilizando la distribución normal.

CIBERTEC CARRERAS PROFESIONALES


46

INTERVALO DE CONFIANZA PARA LAS PROPORCIONES


Un estimador puntual de la proporción p de una distribución binomial está dado
∧ x
por p = , que es usado como un estimado puntual del parámetro p.
n
Si p es desconocido, se puede establecer un intervalo de confianza para p (p1 ≤
p ≤ p2), considerando la distribución muestral de p, como la misma de la
variable aleatoria x.
Para una muestra aleatoria de tamaño n suficientemente grande (n ≥30),

La variable aleatoria p tiene una distribución aproximadamente normal con:
∧ π (1 − π )
Media µ p = E ( p) = π Varianza σ p2 =
n

p− π
La variable aleatoria Z = tiene una distribución aproximadamente
π (1 − π )
n
normal estándar para n grande p [− Z tab ≤ Z ≤ + Z tab ]= 1 − α
∧ ∧ ∧ ∧ ∧ 
p (1 − p ) ∧ p (1 − p ) 
p  p − Z tab ≤ π ≤ p + Z tab =1−α
 n n 
 
Entonces el intervalo de confianza para p esta dada por:
∧ ∧ ∧ ∧ ∧ 
 p− Z p (1 − p ) ∧ p (1 − p ) 
, p + Z tab
 tab
n n 
 

Intervalo de Confianza para proporciones poblacionales


Se puede aproximar cuando "n" es suficientemente grande. El error estándar
de estimación se calcula de la siguiente forma:
∧ ∧
p(1 − p)
E = Z tab
n
Donde: p: proporción muestral
n: tamaño de la muestra

Tamaño mínimo de muestra para estimar la proporción poblacional


El tamaño mínimo de muestra se puede calcular a partir de las siguientes
expresiones:
a) Cuando se conoce una proporción (p) que se refiere a la misma variable de
estudio:
∧ ∧
z 2 p (1 − p )
n=
E2

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 47

b) Cuando no hay un conocimiento previo del parámetro materia de estudio:


z2
n=
4E 2
Observación: Si se conoce el tamaño de la población (N) y el muestreo es sin
reemplazo se usa el factor de corrección para población finita (fc) que afecta y
multiplica al error estándar de estimación (E).

N−n
fc =
N −1
El tamaño mínimo de muestra para una población finita usa el factor de
corrección para la población
∧ ∧
p (1 − p ) N − n
E 2 = Ztab
2
( )( )
n N −1
∧ ∧
n Z p(1 − p )
2
= tab
)
N −n E 2
( )
N −1

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE LAS


PROPORCIONES

Considérese dos muestras independientes de tamaño n1 y n2 seleccionados


aleatoriamente de dos poblaciones binomiales con medias n1p1, n2p2 y
varianzas n1p1(1- p1) y n2p2(1- p2), respectivamente.

1. Se elige un nivel de confianza (1 – α)


2. Considérese una muestra aleatoria de tamaño n1 y n2 que son
suficientemente grandes.
∧ ∧
3. Se sabe que la estadística adecuada para estimar (π 1 − π 2 ) es ( p1 − p 2 ) ,
∧ ∧
entonces se asume una distribución muestral de ( p1 − p 2 ) para establecer un
intervalo de confianza para (π 1 − π 2 ) .
4. Para n1 y n2 suficientemente grande (n1 ≥ 30 y n2 ≥ 30), la variable aleatoria
Z tiene una distribución aproximadamente normal estándar.
∧ ∧
( p 1 − p 2 ) − (π 1 − π 2 )
Z =
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2

Luego:

CIBERTEC CARRERAS PROFESIONALES


48

 ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ 
 p (1 − p ) p (1 − p ) ∧ ∧ p (1 − p ) p (1 − p 2) 
p ( p1 − p2 ) − Zo 1 1
+ 2 2
≤ (π1 −π2 ) ≤ ( p1 − p2 ) + Zo 1 1
+ 2
=1−α
 n1 n2 n1 n2 
 

Se obtiene el intervalo aleatorio

 ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ 
∧ ∧
( p − p ) − Z p (1 − p ) p (1 − p 2)
∧ ∧ p1 (1 − p1 ) p 2 (1 − p 2 ) 
1 1
+ 2 , ( p1 − p2 ) + Ztab +
 1 2 tab
n1 n2 n1 n2 
 

ACTIVIDADES

1. Una tienda de computación, que compra al mayoreo chips sin probar para
computadoras, está considerando cambiar de proveedor por otro que se los
suministre probados y con una garantía a un precio más alto. Con el fin de
saber si este es un plan costeable, determine la porción de chips
defectuosos que le suministra su actual proveedor. Se probó una muestra
de 200 chips y de éstos, 5% tenía defectos.
a) Estime el error estándar de la porción de chips defectuosos.
b) Construya un intervalo de confianza de 98% para la porción de chips
defectuosos adquiridos.

2. Una muestra de 70 ejecutivos de una pequeña empresa fue investigada con


respecto al pobre desempeño que esta tuvo en marzo, 65% de los
ejecutivos creía que la disminución de las ventas se debió al alza
inesperada de la temperatura, lo cual trajo como consecuencia que los
consumidores retardaran la adquisición de productos de invierno.

2.1 Estime el error estándar de la porción de ejecutivos que culpan de las


ventas bajas al clima cálido.
2.2 Encuentre el límite superior e inferior para esta porción, dado un nivel de
confianza igual a 0,95.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 49

3 La encargada de publicidad para un nuevo postre está intranquila por el


bajo rendimiento del postre en el mercado y por su futuro en la empresa.
Preocupada porque su estrategia de comercialización no ha producido una
identificación apropiada de las características del producto, tomó como
muestra a 1500 consumidores y encontró que 956 de estos pensaban que el
producto era una cera para pulir pisos.

3.1 Estime el error estándar de la porción de personas que tuvo esta grave
interpretación errónea sobre el postre.
3.2 Construya un intervalo de confianza de 96% para la porción real de la
población.

4 Un connotado psicólogo social investigó a 150 altos ejecutivos y encontró


que el 42% de ellos eran incapaces de sumar fracciones correctamente.
4.1 Estime el error estándar de la porción.
4.2 Construya un intervalo de confianza de 99% para la porción real de altos
ejecutivos que no pueden sumar correctamente fracciones.

CIBERTEC CARRERAS PROFESIONALES


50

5 En una encuesta se dice que el valor de planeación para la proporción


poblacional es de 0,65. ¿De qué tamaño debe tomarse una muestra para
tener el 90% de confiabilidad de que el error de estimación de una
proporción poblacional sea de 0,03?

6 En una encuesta se dice que el valor de planeación para la proporción


poblacional es de 0,35. ¿Qué tamaño debe tomar la muestra para obtener
un intervalo de confianza al 95%, si su error de estimación es igual a 0,05?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 51

7 En una encuesta se pidió a 814 adultos que contestaran un cuestionario


acerca de sus ideas sobre al actual gobierno. A la pregunta: ¿Cree usted
que todo va bien con la política de comercio exterior propiciado por el
gobierno? 572 adultos contestaron Sí. ¿Cuál es el error de estimación con el
90% de confianza?

8 En una muestra al azar de 400 adultos y 600 adolescentes que veían cierto
programa de televisión, 100 adultos y 300 adolescentes dijeron que les
gustaba. Halle los límites de confianza al 95% para la diferencia de
proporciones de todos los adultos y adolescentes que ven el programa y les
gusta.

CIBERTEC CARRERAS PROFESIONALES


52

Autoevaluación
1. Durante un año y medio las ventas han estado disminuyendo de manera
coherente en las 1500 sucursales de una cadena de comida rápida. Una
empresa de asesores ha determinado que 30% de una muestra de 95
sucursales tienen claros signos de una mala administración. Construya un
intervalo de confianza de 98% para esta porción.

2. La directiva estudiantil de una universidad tomó una muestra de 45 libros de


texto de la librería universitaria y determinó que de ellos, 60% se vendía en
más de 50% por arriba de su costo al mayoreo. Dé un intervalo para la
porción de libros, cuyo precio establecido es más de 50% por encima de su
costo, que tenga 96% de certeza de contener la porción verdadera.

3. Se desea conocer la porción de propietarios de acciones individuales que


planean vender al menos un cuarto del total de sus valores el próximo mes.
Se ha efectuado una inspección aleatoria de 800 individuos que poseen
acciones y se ha establecido que el 25% de la muestra planea vender al
menos un cuarto de sus acciones al mes siguiente. Construya un intervalo
de confianza de 90% para la porción verdadera de accionistas individuales
que planean vender al menos un cuarto de sus acciones durante el mes
siguiente.

4. Durante cierta semana, una tienda de departamentos observó y registró que


5750 de las 12500 personas que entraron en la tienda hicieron por lo menos
una compra. Tratando esto como una muestra al azar de todos los clientes
potenciales, halle el intervalo de confianza del 99% para la proporción real
de las personas que entran a la tienda y que harán por lo menos una
compra.

5. Estudios realizados en 1998 concluyeron que el 55% de profesionales


graduados antes de 1980 no conocían el manejo básico de Internet. Durante
1999 se realizó una encuesta a 1200 personas de las cuales 590 no conocían el
manejo básico de Internet.
Determine un intervalo de confianza del 98% para la proporción de
profesionales graduados antes de 1980 que conocen el manejo de Internet.
Si hoy se quiere averiguar el porcentaje de personas que trabajan con Microsoft
Office, ¿qué tamaño de muestra se deberá tomar para estimar el porcentaje de
personas que trabajan con Microsoft Office si el error máximo de estimación
deberá ser del 3%?

6. Se realizó un muestreo para determinar las preferencias de las personas


acerca de tres marcas de pantalones. De un total de 460 encuestados, 240
prefieren la marca A, 128 prefieren la marca B, 78 prefieren la marca C y el
resto otras marcas. Construya un intervalo de confianza del 95% para el
porcentaje de personas que prefiere los pantalones marca A.

7. En el Colegio Profesional de Psicoanalistas, de 1200 miembros, se realizó


una encuesta para estimar el candidato que iba a ganar las elecciones al

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 53

Decanato. De 150 personas, 90 votarían por el candidato A, 70 votarían por


el candidato B y el resto no ha decidido aún su voto. Determine al 95% un
intervalo de confianza para el porcentaje real de votos que tendrán los
candidatos A y B.

8. La empresa XXX dedicada a la investigación de virus informáticos estima


que el 2,5% de los virus que analiza no logran ser destruidos con un 0,5%
de error de estimación. La empresa ZZZ, de la misma línea de investigación,
tomó una muestra de 200 virus analizados y obtuvo que el 3% no pudo ser
destruido. ¿Se puede determinar qué empresa es más eficiente en la
destrucción de virus? Justifique cuantitativamente su respuesta.

9. Se selecciona una muestra aleatoria de 200 votantes y se halla que 114


están contentos con el actual presidente. Halle un intervalo de confianza del
95% para la fracción de votantes que están a favor del actual presidente.

10. En una encuesta hecha por el Ministerio de Trabajo, se investigaron las


razones por las que los pequeños empleadores ofrecen un plan de retiro
para sus empleados. 33% de las veces se observó que la razón fue “ventaja
competitiva en reclutamiento y retención”. ¿Qué tamaño de muestra se
recomienda si un objetivo de la encuesta es estimar la proporción de los
pequeños empleadores que ofrecen un plan de retiros principalmente para
la “ventaja competitiva en reclutamiento y retención”, con un error de
estimación del 3% y confiabilidad del 95%?

11. ADDAYC recurre a una encuesta permanente para obtener información


actualizada acerca del público que va a los conciertos de sus agremiados en
los teatros de la capital. Cada semana distribuye un cuestionario de una
página en asientos aleatorios en teatros determinados. Sólo se necesitan 5
minutos para contestar el cuestionario, y permite que el público comunique
sus ideas acerca de las actividades en el teatro. ¿Qué tamaño debe tener la
muestra para tener un error de estimación de 0,04 para cualquier proporción
poblacional? Emplee un intervalo de confianza de 95% y un valor de
planeación p= 0,50.

12. La oficina de planificación familiar de cierto distrito desea determinar la


proporción de familias con un ingreso mensual inferior a los $150. Estudios
previos han indicado que esta proporción era del 20%. ¿Qué tamaño
muestral se requiere para asegurar con una confiabilidad del 95% que el
error de estimación no sobrepase a 0,05.

13. En una muestra al azar de 600 mujeres, 300 indican que están a favor
de la ayuda del estado a los colegios privados. En una muestra al azar de
400 hombres, 100 indican que están a favor del mismo. Determine un
intervalo de confianza (a) del 95%, (b) 90% para la diferencia de
proporciones de todas las mujeres y todos los hombres que favorecen tal
ayuda.

14. Una empresa de estudios de mercado quiere estimar las proporciones


de hombres y mujeres que conocen un producto promocionado a escala

CIBERTEC CARRERAS PROFESIONALES


54

nacional. En una muestra aleatoria de 100 hombres y 200 mujeres se


determina que 20 hombres y 60 mujeres están familiarizados con el
artículo indicado. Calcule el intervalo de confianza de 95% para la diferencia
de proporciones de hombres y mujeres que conocen el producto.

15. Cierto genetista quiere conocer la proporción de hombres y mujeres de


cierta ciudad que padecen un desornen sanguíneo menor. Una muestra
aleatoria de 1000 mujeres arroja 250 afectadas, en tanto que una muestra
de 1000 hombres 275 sufren el desorden. Establezca un intervalo de
confianza del 95 % para la diferencia entre la proporción de los hombres y
mujeres que padecen tal desorden.

Para recordar
 El estimador puntual de la proporción p en la distribución binomial se
usa como estimador puntual del parámetro p.

 Para una muestra aleatoria suficientemente grande , la variable aleatoria


p tiene una distribución aproximadamente normal
.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 55

SEMANA

5
HIPÓTESIS ESTADÍSTICA
TEMAS
• Hipótesis estadística. Tipos de errores I y II. Nivel de significación. Región
crítica o región de rechazo. Región de aceptación
• Prueba de Hipótesis para medias, muestras grandes. Prueba bilateral de
una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para diferencia de media. Desviación estándar
conocidas, Muestras grandes

OBJETIVOS ESPECÍFICOS

• Describir la hipótesis nula y la hipótesis alternativa de un problema.


• Determinar una estadística de prueba lógica y una regla de decisión para
probar las hipótesis.
.
CONTENIDOS

• Hipótesis estadística. Tipos de errores I y II. Nivel de significación. Región


crítica o región de rechazo. Región de aceptación.
• Prueba de Hipótesis para medias, muestras grandes. Prueba bilateral de
una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para diferencia de media. Desviación estándar
conocidas. Muestras grandes.

ACTIVIDADES

 Utilizan e interpreta el concepto de prueba de hipótesis, como el nivel de


significancia, región crítica y región de aceptación.
• Toman decisiones de aceptación o rechazo de una hipótesis bajo
consideraciones.

CIBERTEC CARRERAS PROFESIONALES


56

HIPÓTESIS ESTADÍSTICA
DECISIONES ESTADÍSTICAS

Generalmente, en la práctica se tienen que tomar decisiones sobre


poblaciones, partiendo de la información muestral de las mismas. Tales
decisiones se llaman decisiones estadísticas. Por ejemplo, se puede querer
decidir a partir de los datos del muestreo, si un sistema educacional es mejor
que otro, si un suero nuevo es realmente efectivo para la cura de una
enfermedad, si una moneda determinada está o no cargada, etc.

HIPÓTESIS ESTADÍSTICA. HIPÓTESIS NULA

Para llegar a tomar decisiones, conviene hacer determinados supuestos o


conjeturas acerca de las poblaciones que se estudian. Tales supuestos que
pueden ser o no ciertos se llaman hipótesis estadísticas y, en general, lo son
sobre las distribuciones de probabilidad de las poblaciones. En muchos casos
se formulan las hipótesis estadísticas con el solo propósito de rechazarlas o in-
validarlas.

Si se quiere decidir sobre si un procedimiento es mejor que otro, se formula la


hipótesis de que no hay diferencia entre los procedimientos (es decir, cualquier
diferencia observada se debe meramente a fluctuaciones en el muestreo de la
misma población). Tal hipótesis se llama también hipótesis nula y se denotan
por Ho.
Cualquier hipótesis que difiera de una hipótesis dada se llama hipótesis
alternativa. Una hipótesis alternativa de la hipótesis nula se denota por H1.

ENSAYOS DE HIPÓTESIS y SIGNIFICACIÓN


Si en el supuesto de que una hipótesis determinada es cierta, se encuentra que
los resultados observados en una muestra al azar difieren marcadamente de
aquellos que cabía esperar con la hipótesis y con la variación propia del
muestreo, se diría que las diferencias observadas son significativas y se es-
taría en condiciones de rechazar la hipótesis (o al menos no aceptarla de
acuerdo con la evidencia obtenida).

Los procedimientos que facilitan el decidir si una hipótesis se acepta o se


rechaza o el determinar si las muestras observadas difieren significativamente
de los resultados esperados se llaman ensayos de hipótesis, ensayos de
significación o reglas de decisión.

ERRORES DE TIPO I Y TIPO II

Si se rechaza una hipótesis cuando debería ser aceptada, se dice que se


comete un error del Tipo I. Si, por el contrario, se acepta una hipótesis que
debería ser rechazada, se dice que se comete un error del Tipo II. En
cualquiera de los dos casos se comete un error al tomar una decisión
equivocada.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 57

Decisión Ho Verdadero H1 Verdadero


Aceptar Ho Decisión Correcta Error tipo II
Aceptar H1 Error tipo I Decisión Correcta

Para que cualquier ensayo de hipótesis o reglas de decisión sea bueno, debe
diseñarse de forma que minimice los errores de decisión. Esto no es tan
sencillo como pueda parecer, puesto que para un tamaño de muestra dado, un
intento de disminuir un tipo de error, va generalmente acompañado por un
incremento en el otro tipo de error. En la práctica, un tipo de error puede tener
más importancia que el otro, y as se tiende a conseguir poner una limitación al
error de mayor importancia. La única forma de reducir al tiempo ambos tipos de
error es incrementar el tamaño de la muestra, lo cual puede ser o no ser
posible.

NIVEL DE SIGNIFICACIÓN

La probabilidad máxima con la que en el ensayo de una hipótesis se puede


cometer un error del Tipo 1 se llama nivel de significación del ensayo. Esta
probabilidad se denota frecuentemente por α ; generalmente, se fija antes de la
extracción de las muestras, de modo que los resultados obtenidos no influyen
en la elección.

En la práctica, se acostumbra utilizar niveles de significación del 0,05 ó 0,01;


aunque igualmente pueden emplearse otros valores. Si, por ejemplo, se elige
un nivel de significación del 0,05 ó 5% al diseñar un ensayo de hipótesis,
entonces hay aproximadamente 5 ocasiones en 100 en que se rechazaría la
hipótesis cuando debería ser aceptada, es decir, se está con un 95 % de
confianza de que se toma la decisión adecuada. En tal caso, se dice que la
hipótesis ha sido rechazada al nivel de significación del 0,05, lo que significa
que se puede cometer error con una probabilidad de 0,05.

REGIÓN DE ACEPTACIÓN Y DE RECHAZO

Estadístico de prueba: valor obtenido a partir de la información muestral. Se


utiliza para determinar si se rechaza o no la hipótesis.
En una región donde la estadística de prueba prescrita conduce al rechazo de
la hipótesis bajo consideración es llamada región crítica. En otras palabras,
Región.

Crítica o de Rechazo es la región que contiene los valores para los cuales se
rechaza la hipótesis bajo consideración.

Región de aceptación es la región que contiene a los valores para los cuales
no se rechaza la hipótesis bajo consideración.

Valor crítico: el punto que divide la región de aceptación y la región de


rechazo de la hipótesis nula.

CIBERTEC CARRERAS PROFESIONALES


58

Los pasos para la prueba de hipótesis, relativa al parámetro θ de una


población puede resumirse como sigue:

1. Se formula la hipótesis nula e hipótesis alternativa de acuerdo con el


problema.
H o :θ = θo H o :θ = θo H o :θ = θo
a) b) c)
H1 : θ ≠ θ o H1 : θ < θ o H1 : θ > θ o
2. Se escoge un nivel de significancia o de riesgo

3. Se escoge la estadística de prueba apropiada, cuya distribución de


muestreo sea conocida en el supuesto de que Ho es cierta

4. Establecer la región critica, es decir, determinar el valor (o valores) critico

5. Calcular el valor de la prueba estadística de una muestra aleatoria de


tamaño n

6. Conclusión: rechazar Ho si la estadística tiene un valor en la región critica,


caso contrario aceptar Ho

PRUEBA UNILATERAL DE UNA HIPÓTESIS SOBRE LA MEDIA

Prueba de significancIa de una cola

Caso I
1. Se formula la hipótesis nula y la hipótesis alternativa
H o : µ = µo
H1 : µ < µo
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .
3. Una estadística para la media de la población es la media muestral x . Si la
población es normal (o si la muestra es grande n ≥ 30 , aun cuando la
población no es normal).
σ2
La distribución de x es N ( µ , ).
n
x − µo
La variable aleatoria Z = tiene una distribución normal estándar N
σ
n
(0,1)
4. La región critica (R.C.) es 〈−∞, Z α 〉 , donde Z o es tal que P[Z < Z α ] = α
5. Se calcula x de los datos, luego se obtiene Z
x − µo
Z=
σ
n

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 59

6. Se compara Z con Zα.


Si Z < Zα Z ∈ 〈−∞, Z α 〉 , se rechaza la hipótesis nula Ho
Si Z > Zα Z ∈ 〈 Z α , + ∞〉 , se acepta la hipótesis nula Ho

Región de Rechazo Región de Aceptación


Zα 0
Caso II
1. Se formula la hipótesis nula y la hipótesis alternativa
H o : µ = µo
H 1 : µ > µo
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .
3. Una estadística para la media de la población es la media muestral x . Si la
población es normal (o si la muestra es grande n ≥ 30 , aun cuando la
población no es normal).
σ2
La distribución de x es N ( µ , ).
n
x − µo
La variable aleatoria Z = tiene una distribución normal estándar
σ
n
N(0,1)
4. La región critica (R.C.) es 〈 Z α + ∞〉 , donde Z o es tal que P[Z > Z 1−α ] = α
5. Se calcula x de los datos, luego se obtiene Z
x − µo
Z=
σ
n
6. Se compara Z con Zo.
Si Z > Z 1-α Z ∈ 〈 Z 1−α + ∞〉 , se rechaza la hipótesis nula Ho
Si Z < Z 1-α Z ∈ 〈−∞, Z 1−α 〉 , se acepta la hipótesis nula Ho

CIBERTEC CARRERAS PROFESIONALES


60

Región de Aceptación Región de Rechazo

0 Z 1−α

PRUEBA BILATERAL DE UNA HIPÓTESIS SOBRE LA MEDIA

Prueba de significancia de dos colas

1. Se Se formula la hipótesis nula y la hipótesis alternativa


H o : µ = µo
H1 : µ ≠ µ o
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .
3. Una estadística para la media de la población es la media muestral x . Si la
población es normal (o si la muestra es grande n ≥ 30 , aun cuando la
población no es normal).
σ2
La distribución de x es N ( µ , ).
n
x − µo
La variable aleatoria Z = tiene una distribución normal estándar
σ
n
N(0,1)
4. La región Aceptación (R.A.) es 〈 a, b〉 , donde a y b son tal que
[ ]
P a < x < b = 1−α .
Por la simetría de la curva normal, los valores críticos de a y b son
simétricos con respecto a µ o
 
a − µ x − µ b − µo 
p o
≤ ≤  =1−α
 σ σ σ 
 n n n 
Luego, la región de aceptación:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 61

 σ σ 
µ o − Zα / 2 , µo + Zα /2 
 n n
5. Se calcula x a partir de la muestra observada,(también S si no se conoce la
varianza σ 2 y la muestra n es grande)
6. Se compara Z con Z α/2.
Si Z ∈ 〈−∞,− Z α / 2 〉 0 Z ∈ 〈+ Z α / 2 ,+∞〉 , se rechaza la hipótesis nula Ho
Si Z ∈ 〈− Z α / 2 ,+ Z α / 2 〉 , se acepta la hipótesis nula Ho

Región de Rechazo Región de Aceptación Región de Rechazo

Zα / 2 0 Zα / 2

PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS

En muchos ensayos de prueba de hipótesis se quiere determinar si existe o no


una diferencia significativa entre las medias µ x y µ y de dos poblaciones o
variables aleatorias X e Y. La prueba de hipótesis que comprenden dos
medias son las mismas que la de una sola media, salvo que se necesitan dos
muestras, una en cada población.
La hipótesis nula Ho : µx = µy o Ho : µx − µ y = 0
Hipótesis alternativa:
a) H1 : µ x ≠ µ y H1 : µ x − µ y ≠ 0
b H1 : µ x 〈µ y H 1 : µ x − µ y 〈0
c) H1 : µ x 〉µ y H1 : µ x − µ y 〉0
Si H1 toma la forma (a) se utiliza una prueba bilateral, en otros casos se emplea
una prueba unilateral.

Desviaciones Estándar Conocidas, Muestras Grandes


Prueba Unilateral

Caso I:
1. Considérese la siguiente hipótesis:

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x 〉µ y H1 : µ x − µ y 〉0

CIBERTEC CARRERAS PROFESIONALES


62

2. Se escoge el nivel de significancia α .


3. La estadística para la diferencia de medias poblacionales ( µ x − µ y ) , es la
diferencia de medias muestrales ( x − y ) . Si la población tiene una
distribución normal con desviaciones estándar conocidas σ x y σ y
conocidas (o si las muestras son grandes n ≥ 30 , , m ≥ 30 aún cuando la
población no es normal).
La distribución de ( x − y ) es normal con media ( µ x − µ y ) y varianza
σ x2 σ y2
( + ).
n m
( x − y) − (µ x − µ y )
Por tanto, la variable aleatoria: Z=
σ x2 σ y2
+
n m
Tiene una distribución normal estándar.

4. En el supuesto de que Ho es verdadero, es decir, que ( µ x − µ y ) = 0 . La


[
región crítica (R.C.) es 〈 xc ,+∞〉 , tal que P ( x − y ) 〉 x c = α ]
 
 
 ( x − y) xc  =α
P 〉
 
 σx +σy σ x2 σ y 
2 2 2

+
 n m n m 

 
 

P Z〉
xc  =α
 
σ x2 σ y 
2
 +
 n m 

σ x2 σ y2
Luego: + x c = Z 1−α
n m
5. Se calcula la diferencia de las medias muestrales ( x − y ) y S x − y si no se
conoce σ x , σ y . Para muestras grandes se utiliza S x − y .
2 2

6. Conclusión: si ( x − y ) se encuentra en la región crítica 〈 xc ,+∞〉 , se rechaza


Ho, en caso contrario se acepta.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 63

Región de Aceptación Región de Rechazo

0 Z 1−α
Caso II:
1. Considérese la siguiente hipótesis:

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x 〈µ y H 1 : µ x − µ y 〈0
2. Se escoge el nivel de significancia α .
3. La estadística para la diferencia de medias poblacionales ( µ x − µ y ) es la
diferencia de medias muestrales ( x − y ) . Si la población tiene una
distribución normal con desviaciones estándar conocidas σ x y σ y
conocidas (o si las muestras son grandes n ≥ 30 , , m ≥ 30 aun cuando la
población no es normal).
La distribución de ( x − y ) es normal con media ( µ x − µ y ) y varianza
σ x2 σ y2
( + ).
n m
( x − y) − (µ x − µ y )
Por tanto, la variable aleatoria Z=
σ x2 σ y2
+
n m
Tiene una distribución normal estándar.
4. En el supuesto de que Ho es verdadero, es decir, que ( µ x − µ y ) = 0 . La
[
región crítica (R.C.) es 〈−∞, xc 〉 , tal que P ( x − y ) 〈 x c = α ]
 
 
( x − y)
P  =α
xc

 
 σx +σy σ x2 σ y
2 2 2

+ 
 n m n m 

CIBERTEC CARRERAS PROFESIONALES


64

 
 

P Z〈
xc  =α
 
σ x2 σ y 
2
 +
 n m 

σ x2 σ y2
Luego + x c = Zα
n m
5. Se calcula la diferencia de las medias muestrales ( x − y ) y S x − y si no se
conoce σ x , σ y . Para muestras grandes se utiliza S x − y .
2 2

6. Conclusión: si ( x − y ) se encuentra en la región crítica 〈−∞, xc 〉 , se rechaza


Ho, en caso contrario se acepta.

Región de Rechazo Región de Aceptación


Zα 0
Prueba Bilateral

1. Considérese la siguiente hipótesis:

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x ≠ µ y H1 : µ x − µ y ≠ 0
2. Se escoge el nivel de significancia α .
3. La estadística para la diferencia de medias poblacionales ( µ x − µ y ) es la
diferencia de medias muestrales ( x − y ) . Si la población tiene una
distribución normal con desviaciones estándar conocidas σ x y σ y
conocidas (o si las muestras son grandes n ≥ 30 , , m ≥ 30 aun cuando la
población no es normal).
La distribución de ( x − y ) es normal con media ( µ x − µ y ) y varianza
σ x2 σ y2
( + ).
n m

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 65

( x − y) − (µ x − µ y )
Por tanto, la variable aleatoria: Z=
σ x2 σ y2
+
n m
Tiene una distribución normal estándar.
4. En el supuesto de que Ho es verdadero, es decir que ( µ x − µ y ) = 0 . La
[
región de aceptación (R.A.) es 〈 a, b〉 , tal que P a 〈 ( x − y ) 〈 b = 1 − α ]
 
 
( x − y)
P  = 1−α
a b
〈 〈
 
 σx +σy σ x2 σ y σ x2 σ y
2 2 2 2

+ + 
 n m n m n m 

 
 
P  = 1−α
a b
〈Z 〈
 
 σx +σy σ x2 σ y
2 2 2

+ 
 n m n m 

σ x2 σ y2
Luego, a = −Z α / 2 +
n m
σ x2 σ y2
b = +Zα / 2
+
n m
5. Calcúlese la diferencia de las medias muestrales ( x − y ) . También S x2 , S y2 si
no se conoce σ x , σ y y las muestras son grandes.
2 2

6. Conclusión: si ( x − y ) se encuentra en la región de aceptación 〈 a, b〉 , se


acepta Ho, en caso contrario se rechaza.

Región de Rechazo Región de Aceptación Región de Rechazo

Zα / 2 0 Zα / 2

CIBERTEC CARRERAS PROFESIONALES


66

ACTIVIDADES

1. El fabricante de cierta marca de cigarrillos sostiene que sus cigarrillos


contienen en promedio 18 miligramos de nicotina por cigarrillo. Un
organismo de control examina una muestra de 100 cigarrillos. Utilizando un
nivel de significación 0,01; ¿puede el organismo concluir que el fabricante
subestima el contenido medio de nicotina de sus cigarrillos, si el contenido
medio de la muestra es de 19,2 miligramos con una desviación estándar de
2 miligramos?

2. El organismo de control de cierto Concejo Municipal analiza una muestra de


36 paquetes de carne molida que produce la fábrica de embutidos LA
ÚNICA. El rótulo en cada paquete dice que contiene no más de 25% de
grasa. ¿Puede el organismo de control concluir que la carne que produce
dicha fábrica tiene más de 25% de grasa, si la muestra da un contenido
medio de grasa de 0,265 y una desviación estándar de 0,030? Use α =
0,05.

3. Un fabricante de pilas afirma que la vida media de su producto excederá las


30 horas. Una compañía desea comprar un lote grande de pilas si la
afirmación es cierta. Se toma al azar una muestra de 36 pilas y se encuentra
que la media de la muestra es 34 horas. Si la población de pilas tiene una

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 67

desviación estándar de 5 horas, si Ho es µ < 30, ¿para qué valores de α


se adquirirán las pilas?

4. Diariamente, el servicio de aduanas ha interceptado a lo largo de su historia


alrededor de $28 millones de bienes de contrabando introducidos al país,
con una desviación estándar de 416 millones al día.

En 64 días de 1992, elegidos aleatoriamente, el Servicio de Aduanas


interceptó un promedio de $30,3 millones de bienes de contrabando. ¿Indica
esta muestra (a un nivel de significancia del 5%) que el jefe de Aduanas
debería preocuparse por el incremento de contrabando por encima de su
nivel histórico?

5. Se investigaron aleatoriamente 75 grifos de la cadena Repsol, y se


determinó que el precio promedio de la gasolina regular sin plomo fue de
$1059, con una desviación estándar de 3,9 centavos. Tres meses
después, en otra investigación aleatoria de 50 grifos, se encontró un
precio promedio para el mismo tipo de combustible de $1089, con una
desviación estándar de 6,8 centavos. A un nivel significancia de 0,02

CIBERTEC CARRERAS PROFESIONALES


68

¿Cambió significativamente el precio de la gasolina regular sin plomo


durante el periodo de tres meses considerado?

6. A pesar de la ley de sueldos de 1993, en el 2007, todavía parece que los


hombres ganan más que las mujeres en trabajos parecidos. En una
muestra de 38 operadores varones de máquinas-herramientas se
encontró que el salario medio por día fue de s/. 45,20 con una
desviación estándar de de s/. 4,50. En otra muestra de 45 mujeres
operadoras de máquinas-herramientas se encontró que el salario medio
por día fue de s/. 40,50 con una desviación estándar de de s/. 3,85.
Basándose en estas dos muestras, ¿Es razonable llegar a la conclusión
(a un nivel α = 0,01) de que los operadores ganan más de s/.5,00 por día
que las operadoras?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 69

Autoevaluación
1. La comisión promedio que cargan las compañías de corretaje de tiempo
completo en una venta de valores comunes es de $144 con una desviación
estándar de $52. Se tomó una muestra aleatoria de 121 compras y se
determinó que habían pagado una comisión promedio de $151. A un nivel
de significancia de 0,10, ¿puede concluirse que las comisiones son mayores
que el promedio de la industria?

2. Alfano ha puesto en marcha una promoción comercial especial para su


estufa de propano y siente que la promoción debe provocar un cambio en el
precio al consumidor. Alfano sabe que antes de que comenzara la
promoción, el precio promedio al menudeo de la estufa era de $44,95 con
una desviación estándar de $5,75. Alfano muestrea a 30 de sus minoristas
después de iniciada la promoción y encuentra que el precio medio de las
estufas es ahora de $42,95. A un nivel de significancia de 0,02, ¿tiene
Alfano razones para creer que el precio promedio al menudeo para el
consumidor ha disminuido?

3. Del 2000 al 2006, la tasa promedio de precios/utilidades (p/u) de los


aproximadamente 1899 valores inscritos en la Bolsa de Valores de Lima fue
de 14,35 con una desviación estándar de 9,73. En una muestra de 30
valores de la Bolsa, aleatoriamente escogidos, la tasa p/u promedio en el
2006 fue de 11,77. Esta muestra presenta evidencia suficiente para concluir
(al nivel de significancia de 0,05) que en el 2007 la tasa promedio para los
valores de la Bolsa se habría modificado de su anterior valor.

4. Editorial Navarrete supone que la vida de su prensa más grande es de


14500 horas, con una desviación estándar conocida de 2 00 horas. De una
muestra de 30 prensas, la compañía encuentra una media de muestra de 13
000 horas. A un nivel de significancia de 0,01 ¿debería concluir la compañía
que la vida promedio de las prensas es menor que las hipotéticas 14500
horas?

5. UBK sabe que una cierta película de éxito se exhibió un promedio de 84


días en cada ciudad, y la desviación estándar correspondiente fue de 10
días. El administrador del distrito de Los Olivos estaba interesado en
comparar la popularidad de la película. Eligió aleatoriamente 75 cines del
distrito y encontró que proyectaron la película un promedio de 81,5 días.
Establezca hipótesis apropiadas para probar si hubo una diferencia
significativa en la duración de la exhibición de la película entre los cines del
distrito de Los Olivos y los demás de la UBK. Use un nivel de significancia
del 1% y pruebe estas hipótesis.

6. Un fabricante de automóviles afirma que un modelo en particular rinde 28


millas por galón. La Agencia de Protección al consumidor, usando una
muestra de 49 automóviles de este modelo, encuentra que la media de
muestra es 26,8 millas por galón. De estudios previos, la desviación
estándar de la población se sabe que es de 5 millas por galón. ¿Sería

CIBERTEC CARRERAS PROFESIONALES


70

razonable esperar (en 2 errores estándar) que se pudiera seleccionar una


muestra semejante si realmente la media de población fuera 28 millas por
galón?

7. Los estatutos ambientales aplicables a una cierta planta nuclear especifican


que el agua recibida no debe, en promedio, exceder los 28,9ºC antes de
pueda ser lanzada al río que corre junto a la planta. De 70 muestras, se
encontró que el promedio de temperatura del agua reciclada era de 30,2ºC.
Si la desviación estándar de la población es de 7,5ºC, ¿debería la planta ser
multada por exceder las limitaciones del estatuto? Formule y pruebe las
hipótesis apropiadas con α = 0,05.

8. Inspectores de salubridad, al investigar los cargos levantados contra una


embotelladora de bebidas no alcohólicas, de Ancón, que no llenaban
adecuadamente sus productos, han muestreado 200 botellas y encontraron
que el promedio de llenado es de 930 ml. Se anuncia que las botellas
contienen 946,33 ml. Se sabe que la desviación estándar de la población es
de 44,36 ml. ¿Deberían concluir los inspectores, al nivel de significancia de
2%, que las botellas están siendo llenadas con menos contenido?

9. En 2002, la tarifa aérea promedio con dos semanas de anticipación en el


vuelo entre Lima Aruba era de $235. La desviación estándar de la población
era de $68. En una encuesta hecha en 2003 a 90 viajeros elegidos
aleatoriamente entre estas dos ciudades se encontró que habían pagado e
promedio $218,77 por sus boletos. ¿Cambió significativamente la tarifa
promedio en esta ruta entre 2002 y 2003? ¿Cuál es el mayor nivel de
significancia en el que podría concluir que la tarifa promedio observada no
es significativamente diferente de $235?

10. Una cadena regional de tiendas de abarrotes ha instalado cajas


computarizadas para reducir la espera del usuario y los costos de trabajo,
así como para ayudar en el control de inventarios. Los 36 empleados
entrenados en las nuevas máquinas promediaron 12,4 intentos antes de
lograr una transacción libre de errores. La larga experiencia de los cajeros
para manejar las antiguas cajas registradoras mostraba un promedio de
11,6 intentos antes de lograr una operación perfecta, con una desviación
estándar de 2,7 intentos. Con un nivel α = 0,01, ¿debería la cadena concluir
que las nuevas registradoras computarizadas son más difíciles de aprender
a operar?

11. En Julio del 2007, el Ministerio de Trabajo consideró una propuesta para
exigir a las compañías que informaran del efecto potencial de la existencia
de opciones para los empleados sobre las ganancias por acción (GPA). Una
muestra de 41 empresas de alta tecnología reveló que la nueva propuesta
reduciría las GPA en un monto del 13,8 con una desviación estándar de
18,9%. Otra muestra aleatoria de 35 productores de bienes de consumo
mostró que la propuesta reduciría las GPA en 9,1% en promedio, con una
desviación estándar del 8.7%. Con base en estas muestras, ¿Es razonable
llegar a la conclusión (a un nivel α = 0,01) de que la propuesta del Ministerio

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 71

de Trabajo ocasionará una mayor reducción en las GPA para las empresas
de alta tecnología o para los productores de bienes de consumo?

12. Dos laboratorios de investigación han producido, independientemente,


medicamentos que alivian las molestias de la artritis. El primer medicamento
fue probado en un grupo de 90 personas que sufren de artritis y produjo un
promedio de 8,5 horas de alivio, con una desviación estándar de 1,8 horas.
El segundo medicamento fue probado en 80 artríticos y produjo una media
de 7,9 horas de alivio, con una desviación estándar de 2,1 horas. A un nivel
0,05 de significancia, ¿el segundo medicamento proporciona un periodo de
alivio significativamente más corto?

Para recordar
 Para una prueba de hipótesis se debe formular adecuadamente la
hipótesis nula con un nivel de significancia de acuerdo con la realidad
del proceso.

CIBERTEC CARRERAS PROFESIONALES


72

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 73

SEMANA

6
HIPÓTESIS ESTADÍSTICA
MUESTRAS PEQUEÑAS

TEMAS
• Prueba de Hipótesis para medias. Muestras pequeñas
• Prueba bilateral de una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para diferencia de media
• Desviación estándar desconocidas. Muestras pequeñas

OBJETIVOS ESPECÍFICOS

• Describir la hipótesis nula y la hipótesis alternativa de un problema


• Determinar una estadística de prueba lógica y una regla de decisión para
probar las hipótesis para muestras pequeñas
.
CONTENIDOS

• Prueba de Hipótesis para medias. Muestras pequeñas


• Prueba bilateral de una hipótesis sobre la media
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para diferencia de media
• Desviación estándar desconocidas. Muestras pequeñas.

ACTIVIDADES

 Utilizan e interpretan el concepto de prueba de hipótesis


 Toman decisiones de aceptación o rechazo de una hipótesis bajo
consideraciones estudiadas.

CIBERTEC CARRERAS PROFESIONALES


74

PRUEBA DE HIPÓTESIS PARA MEDIAS, MUESTRAS PEQUEÑAS.


Para muestras pequeñas de poblaciones con distribución aproximadamente
normal, se recurre a la distribución t para prueba de hipótesis sobre la media

Prueba de significancia de una cola

Caso I
1. Se formula la hipótesis nula y la hipótesis alternativa

H o : µ = µo
H1 : µ < µo
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .
3. Una estadística de prueba es x , para muestras pequeñas se usa la variable
aleatoria.
x − µo
t=
S
n
Tiene una distribución t con (n-1) grados de libertad.

[ ]
4. La región critica (R.C.) es 〈−∞, xc 〉 , donde x c es tal que P x < x c = α
 
x− µ xc − µ 
p o
〈  = α
 s s 
 n n 

 
 xc − µ 
p T 〈  = α
 s 
 n 

p [T 〈 t c ] = α
5. Se calcula x de los datos, luego se obtiene tα
x − µo
tα =
s
n
6. Se compara t con tα

Si t < tα t ∈ 〈−∞, tα 〉 , se rechaza la hipótesis nula Ho


Si t > tα t ∈ 〈tα , + ∞〉 , se acepta la hipótesis nula Ho

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 75

Región de Rechazo Región de Aceptación


tα 0
Caso II
1. Se formula la hipótesis nula y la hipótesis alternativa
H o : µ = µo
H1 : µ > µo
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .

3. Una estadística de prueba es x , para muestras pequeñas se usa la variable


aleatoria.
x − µo
t=
S
n
Tiene una distribución t con (n-1) grados de libertad.
[ ]
4. La región crítica (R.C.) es 〈 x c ,+∞〉 , donde x c es tal que P x〉 x c = α
 
x− µ xc − µ 
p o
〉  = α
 s s 
 n n 

 
 xc − µ 
p t 〉  = α
 s 
 n 

p [t 〉 t c ]= α

5. Se calcula x de los datos, luego se obtiene t1−α

CIBERTEC CARRERAS PROFESIONALES


76

x − µo
t1−α =
s
n
6. Se compara t con t1−α
Si t > t1−α t ∈ 〈t1−α , + ∞〉 , se rechaza la hipótesis nula Ho
Si t < t1−α t ∈ 〈−∞,t1−α 〉 , se acepta la hipótesis nula Ho

Región de Aceptación Región de Rechazo

0 Z 1−α

PRUEBA BILATERAL DE UNA HIPÓTESIS SOBRE LA MEDIA

Prueba de significancia de dos colas

1. Se formula la hipótesis nula y la hipótesis alternativa


H o : µ = µo
H1 : µ ≠ µ o
Donde µ o es el valor de la media poblacional.
2. Se escoge el nivel de significancia α .
3. Una estadística de prueba es x , para muestras pequeñas se usa la variable
aleatoria.
x − µo
t=
S
n
Tiene una distribución t con (n-1) grados de libertad.
4. La región Aceptación (R.A.) es 〈 a, b〉 , donde a y b son tal que
[ ]
P a < x < b = 1−α .
Por la simetría de la curva normal, los valores críticos de a y b son
simétricos con respecto a µ o

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 77

 
a − µ x− µ b − µo 
p o
≤ ≤  = 1−α
 s s s 
 n n n 
Luego, la región de aceptación:

 s s 
 µ o − tα / 2 , µ o + tα / 2 
 n n
7. Se calcula x a partir de la muestra observada,(también S si no se conoce la
varianza σ 2 y la muestra n es grande).

8. Se compara t con t α/2.


Si t ∈ 〈−∞,−tα / 2 〉 0 t ∈ 〈+tα / 2 ,+∞〉 , se rechaza la hipótesis nula Ho
Si t ∈ 〈−tα / 2 ,+tα / 2 〉 , se acepta la hipótesis nula Ho

Región de Rechazo Región de Aceptación Región de Rechazo

− tα / 2 0 + tα / 2

PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS

Para probar hipótesis sobre la diferencia de medias, bajo el supuesto que Ho


es verdadero, es decir µ x − µ y = 0 , cuando los tamaños de muestras son
pequeños y las poblaciones tienen distribuciones normales, con desviaciones
estándar iguales se utiliza la variable aleatoria t que tiene una distribución t con
(n + m + 2) grados de libertad.
( x − y) nm(n + m + 2)
t=
(n − 1) s x + (m − 1) s y
2 2 n+m

Desviaciones Estándar desconocidas, Muestras Pequeñas


Prueba Unilateral

Caso I:
1. Considérese la siguiente hipótesis:

CIBERTEC CARRERAS PROFESIONALES


78

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x 〉µ y H1 : µ x − µ y 〉0
2. En el supuesto de que Ho es verdadero, es decir, que ( µ x − µ y ) = 0 . Se
calcula t1−α , de tal manera que P[t 〉 t1−α ] = 1 − α . La región crítica (R.C.) es
〈t1−α ,+∞〉 ,

3. Conclusión: si t se encuentra en la región crítica 〈t1−∞ ,+∞〉 , se rechaza Ho,


en caso contrario se acepta.

Región de Aceptación Región de Rechazo

0 t1−α

Caso II:
1. Considérese la siguiente hipótesis:

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x 〈µ y H 1 : µ x − µ y 〈0
2. En el supuesto de que Ho es verdadero, es decir que ( µ x − µ y ) = 0 . Se
calcula t1−α , de tal manera que P[t 〈tα ] = α . La región crítica (R.C.) es
〈−∞, t ∞ 〉 ,

3. Conclusión: si t se encuentra en la región crítica 〈−∞, t ∞ 〉 , se rechaza Ho, en


caso contrario se acepta.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 79

Región de Rechazo Región de Aceptación


tα 0

Prueba Bilateral
1. Considérese la siguiente hipótesis:

Ho : µx = µy o Ho : µx − µ y = 0
H1 : µ x ≠ µ y H1 : µ x − µ y ≠ 0
2. En el supuesto de que Ho es verdadero, es decir que ( µ x − µ y ) = 0 . Se
calcula − tα / 2 y + tα / 2 , de tal manera que P [− t α / 2 〈 t 〈 t α / 2 ] = 1 − α . La región
crítica (R.C.) es 〈−∞,−tα / 2 〉 U 〈+tα / 2 ,+∞〉

3. Conclusión: si t se encuentra en la región crítica 〈−∞,−tα / 2 〉 U 〈+tα / 2 ,+∞〉 , se


rechaza Ho, en caso contrario se acepta.

Región de Rechazo Región de Aceptación Región de Rechazo

− tα / 2 0 + tα / 2

CIBERTEC CARRERAS PROFESIONALES


80

ACTIVIDADES
.
1. Una máquina produce ejes que. según las especificaciones, deben tener
100 mm de diámetro. Para mantener la calidad requerida, todos los días se
examina una muestra de 16 ejes para determinar si es necesario detener la
producción y reajustar la máquina. Un día determinado, la muestra da los
siguientes resultados:

101 100 102 98 99 100 101 102


98 100 105 100 99 106 102 104

Tomando α = 0.05 indique, mediante un análisis estadístico, si es necesario


reajustar la máquina.

2. El fabricante de un cierto modelo de automóvil afirma que el kilometraje


medio de este modelo es de 12 kilómetros por litro de gasolina corriente. Un
organismo de defensa del consumidor piensa que ese kilometraje promedio
ha sido exagerado por el fabricante. Unos 18 automóviles de este modelo
son conducidos del mismo modo con un litro de gasolina corriente. Los
kilómetros recorridos por los diversos automóviles son los siguientes:

12,5 13,1 14,0 11,5 10,5 10,4 11,0 10,5 12,2


12,5 11,0 12,4 12,2 11,0 10,0 11,4 9,0 1,01

Si el organismo desea rechazar una afirmación verdadera no más de una vez


en 100. ¿Rechazará la afirmación del fabricante? α = 0,05.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 81

3. Una compañía inmobiliaria tomó como muestra aleatoria de 12 hogares de


una prestigiada urbanización de Surco y encontró que el valor de mercado
promedio estimado era de $780000, con una desviación estándar de $49000.
Pruebe la hipótesis de que para todas las casas del área, el valor estimado
medio es de $825000, frente a la otra opción de que es menos de $825000.
Utilice el nivel de significanca de 0,05.

4. En el taller mecánico de Jerry utilizan una sierra a motor para cortar el tubo
de metal que se utiliza en la manufactura de dispositivos de medición de
presión. La longitud de los segmentos de tubo está distribuida normalmente.
Se cortaron 25 piezas de tubo con la sierra calibrada para cortar secciones
de 5,00 pulgadas de longitud. Cuando se midieron estas piezas, se encontró
que su longitud media era de 4,7 pulgadas y con una desviación estándar
de 0,06 pulgadas. Utilice valores probables para determinar si la máquina
debe ser recalibrada, debido a que la longitud media es significativamente
diferente a 5,00 pulgadas.

5. El decano de la facultad de Ingeniería Ambiental de la Universidad Nacional


de Ingeniería, se pregunta acerca de las distribuciones de calificación en el
nivel universitario. Ha escuchado rumores de que las notas de la facultad de

CIBERTEC CARRERAS PROFESIONALES


82

Ingeniería Industrial está aproximadamente 0,25 por debajo de las notas de


la facultad de Ingeniería metalúrgica. Un rápido muestreo aleatorio arrojó
las siguientes calificaciones:

Ing.
Ambient 2,86 2,77 3,18 2,80 3,14 2,87 3,19 3,24 2,91 3,00 2,83
al
Ing.
Industri 3,35 3,32 3,36 3,63 3,41 3,37 3,45 3,43 3,44 3,17 3,26
al

¿Estos datos indican que existe una base fundada para los rumores?
Establezca y pruebe hipótesis apropiadas a un nivel α =0,02.

6. La compañía Natural acaba de concluir una nueva campaña publicitaria


para su producto Kivi punch, el cereal natural para el desayuno que
contiene pecanas, camu camu, kiwicha atómica y frutas secas. Para probar
la efectividad de la campaña, el gerente de la marca encuestó a once
clientes antes de la campaña y a otros once después de esta. A
continuación, se da el consumo semanal (en onzas) de Kivi punch por
parte de los consumidores:

Antes 14 15 18 18 30 10 8 26 13 29 24
Después 23 14 13 29 33 11 12 25 21 26 24

6.1 Al nivel α = 0,05, ¿puede, el gerente, concluir que la campaña ha tenido


éxito en aumentar la demanda del producto?
6.2 Dada la investigación del gerente antes de la campaña, ¿puede usted
sugerirle un mejor procedimiento de muestreo para después de la
campaña?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 83

6. Los módem son dispositivos que transmiten información mediante líneas


telefónicas de una computadora a otra. La velocidad de transmisión se mide
en baudios, que se definen como el número de bits por segundo que
pueden transmitir. Debido a la intervención de varios factores técnicos, la
rapidez de transmisión real varía de un archivo a otro. Anne Evans está en
proceso de adquirir un módem nuevo de 14400 baudios. Al probar dos de
los dispositivos, con el fin de decidir cuál comprar, transmitió siete archivos
elegidos al azar utilizando ambos módem y registró las siguientes
velocidades de transmisión (en miles de baudios)

Archivo 1 2 3 4 5 6 7
UIltima 14,4 Haynes 9,52 10,17 10,33 10,02 10,72 9,62 9,17
PerFAXtion 14,4 Extel 10,92 11,46 11,18 12,21 10,42 11,36 10,47

En un artículo aparecido en la revista PC reports se afirma que en pruebas


hechas por la misma revista se ha encontrado que el módem PerFAXtion es
significativamente más rápido que el Haymes Ultima. A un nivel = 0,01; ¿los
resultados obtenidos por Anne confirman la conclusión de la revista?

CIBERTEC CARRERAS PROFESIONALES


84

Autoevaluación
1. Un documental de televisión acerca de la alimentación excesiva afirmaba
que los estadounidenses tienen un sobrepeso aproximado de 10 lb en
promedio. Para probar esta afirmación, se examinó a 18 individuos elegidos
aleatoriamente, y se encontró que su sobrepeso promedio era de 12,4 lb,
con una desviación estándar de muestra de 2,7 lb. A un nivel de
significancia de 0,01; ¿hay alguna razón para dudar de la validez del valor
afirmado de 10 lb?

2. Microsoft, proveedor de software de sistemas operativos para computadoras


personales, estaba planeando la oferta pública inicial de sus existencias
para sacar el suficiente capital de trabajo para financiar el desarrollo de un
sistema integrado de séptima generación, radicalmente nuevo. Con
utilidades actuales de $ 1,61 por acción, Microsoft y sus suscriptores
estaban considerando un precio oferta de $21 aproximadamente 13 veces
las utilidades. Para verificar lo adecuado de este precio, eligieron
aleatoriamente siete compañías de software comercial público y encontraron
que su tasa promedio precio/utilidades era de 11,6 con una desviación
estándar de muestra de 1,3 a un nivel α=0,02. ¿Puede Microsoft concluir
que las existencias en compañías de software comercial público tienen una
tasa promedio precio/utilidades significativamente diferente de 13?

3. Un bibliotecario universitario sospecha que el número promedio de libros


sacados a préstamo por cada estudiante por visita ha cambiado
últimamente. Anteriormente, se sacaba un promedio de 3,4 libros. Sin
embargo, una muestra reciente de 23 estudiantes promedió 4,3 libros por
visita, con una desviación estándar de 1,5 libros. Al nivel de significancia de
0,01; ¿ha cambiado el promedio de préstamos?

4. Una compañía, recientemente criticada por no pagar lo mismo a hombres


que a mujeres que trabajan en los mismos puestos, declara que el sueldo
promedio pagado a todos los empleados es de $23500. De una muestra
aleatoria de 29 mujeres que laboran en la compañía, se calculó que el
salario promedio era de $23000. Si se sabe que la desviación estándar de la
población es de $1250 por estos empleos, determine si puede ser razonable
esperar (con dos errores estándar) que la media de la muestra sea $23000
si, en efecto, es cierto lo declarado por la compañía.

5. Se usó gasolina de marca A en 9 automóviles semejantes bajo idénticas


condiciones. La muestra correspondiente de 9 valores (kilómetros por litro)
tienen una media 8,565 y una desviación estándar 0,212. Bajo las mismas
condiciones, la gasolina de alta potencia de marca B da una muestra de 10
valores con media 9,245 y desviación estándar 0,254. Pruebe la hipótesis,
que A y B son de igual calidad con respecto al kilometraje, contra de que B
es mejor. Use α = 0,05.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 85

6. Una organización de consumo selecciona de manera rutinaria varios


modelos de automóvil cada año y evalúa su eficiencia con respecto al
combustible. En el estudio del presente año, de dos modelos compactos
fabricados por dos marcas distintas, el consumo promedio para doce
automóviles de la marca A fue de 27,2 millas por galón (mpg), con una
desviación estándar de 3,8 mpg. Los nueve automóviles de la marca B que
fueron probados tuvieron un número promedio de 32,1 mpg, con una
desviación estándar de 4,3 mpg. A un nivel α = 0,01, ¿se deberá concluir
que los automóviles de la marca B tienen un número promedio de millas por
unidad de combustible mayor que los automóviles de la marca A?

7. Una empresa grande de corretaje de acciones desea determinar qué tanto


éxito han tenido sus nuevos ejecutivos de cuenta en la consecución de
clientes. Después de haber terminado su entrenamiento, los nuevos
ejecutivos pasan varias semanas haciendo llamadas a posibles clientes,
tratando de conseguir prospectos para abrir cuentas con la empresa. Los
datos siguientes dan el número de cuentas nuevas que fueron abiertas
durante las primeras semanas por diez ejecutivas y ocho ejecutivos de
cuenta escogidos aleatoriamente. A un nivel de α = 0,05, ¿parece que las
mujeres son más efectivas que los hombres para conseguir nuevas
cuentas?

Número de cuentas nuevas


Ejecutivas de cuenta 12 11 14 13 13 14 13 12 14 12

Ejecutivos de cuenta 13 10 11 12 13 12 10 12 - -

8. Para celebrar su primer aniversario, J. J. Pérez decidió comprar un par de


aretes de diamante para su esposa. Le enseñaron nueve pares de aretes
con gemas que pesaban aproximadamente dos quilates por par. Debido a
las diferencias a la calidad y el color de las piedras, los precios variaban de
una joya a otra. El precio promedio fue de $2990, con una desviación
estándar de muestra de $370. También, le enseñaron seis pares de aretes
en forma de gota, con un peso aproximado de dos quilates por cada par.
Estos aretes tenían un precio promedio de $ 3065, con una desviación
estándar de $805. Con base en esta evidencia, ¿puede J. J. Pérez llegar a
la conclusión (a un nivel de significancia de 0,05) de que los diamantes con
forma de gota cuestan más, en promedio, que el otro tipo de diamante?

9. Los datos que se presentan a continuación constituyen una muestra


aleatoria de nueve empresas tomadas de la sección (Resumen de Informes
de Ingresos) en La Bolsa de Valores de Lima, del 6 de febrero de 2003.
¿Fueron diferentes los ingresos por aportación promedio en 2002 y 2003?
Pruebe con un nivel de significancia α=0,02

Empresa 1 2 3 4 5 6 7 8 9
2002 1,38 1,26 3,64 3,50 2,47 3,21 1,05 1,98 2,72
2003 2,45 1,50 4,59 3,06 2,11 2,80 1,59 0,92 0,47

CIBERTEC CARRERAS PROFESIONALES


86

10. A nueve comercializadores de componentes para computadoras que


operan en las principales áreas metropolitanas se les pidió los precios de
dos impresoras láser parecidas, con anchos estándar. Los resultados de la
investigación están dados en la siguiente tabla. A un nivel de α = 0,05, ¿es
razonable afirmar que, en promedio, la impresora Apple es más barata que
la impresora Akita?

Comerciante 1 2 3 4 5 6 7 8 9
Precio Apple $350 419 385 360 405 395 389 409 375
Precio Akita $370 425 369 375 389 385 395 425 400

Para recordar
 Para una prueba de hipótesis se deberá tener en cuenta en los datos,
que tienen que ser de muestra, como la media muestral y la desviación
estándar muestral.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 87

SEMANA

8
PRUEBA DE HIPÓTESIS
PARA LAS PROPORCIONES
TEMAS

• Prueba de Hipótesis para las proporciones, muestras grandes


• Prueba bilateral de una hipótesis sobre las proporciones
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para la diferencia entre dos proporciones

OBJETIVOS ESPECÍFICOS

• Describir la hipótesis nula y la hipótesis alternativa de un problema


• Determinar una estadística de prueba lógica y una regla de decisión para
probar las hipótesis para las proporciones

.
CONTENIDOS
• Prueba de Hipótesis para las proporciones, muestras grandes
• Prueba bilateral de una hipótesis sobre las proporciones
• Prueba unilateral de una hipótesis sobre la media, caso I, caso II
• Prueba de Hipótesis para la diferencia entre dos proporciones
.
ACTIVIDADES

 Utilizan e interpretan el concepto de prueba de hipótesis


 Toman decisiones de aceptación o rechazo de una hipótesis bajo ciertas
consideraciones tratadas

CIBERTEC CARRERAS PROFESIONALES


88

PRUEBA DE HIPÓTESIS PARA LAS PROPORCIONES


Las pruebas de hipótesis con relación a las proporciones son básicamente
iguales a las medias relativas. Se ha de probar la hipótesis de la proporción de
éxitos en un proceso de Bernoulli

Los pasos para la prueba de hipótesis

1. Se formula la hipótesis nula y lahipótesis alternativa de acuerdo con el


problema.
Ho :π = πo Ho :π = πo Ho :π = πo
a) b) c)
H1 : π ≠ π o H1 : π < π o H 1 : π 〉π o
2. Se escoge un nivel de significancia o de riesgo.

3. Se escoge la estadística de prueba apropiada, cuya variable aleatoria


binomial X tiene una distribución binomial. Alternativamente, puede
∧ x
usarse el estadístico p = . Los valores de X que están distantes de la
n
media µ = np o lleva al rechazo de hipótesis nula.

4. Establecer la región critica, es decir determinar el valor (o valores) critico

5. Calcular el valor de la prueba estadística de una muestra aleatoria de


tamaño n.

6. Conclusión; rechazar Ho si la estadística tiene un valor en la región


critica, caso contrario aceptar Ho.

Prueba de significancia de una cola

Caso I
1. Se formula la hipótesis nula y la hipótesis alternativa
Ho :π = πo
H1 : π < π o
2. Se escoge el nivel de significancia α .

3. Una estadística de prueba es una variable aleatoria binomial X que tiene una
distribución binomial, cuando n es pequeño se utiliza esta distribución.

4. La región crítica (R.C.) es 〈−∞, Z α 〉 , donde Z o es tal que P[Z < Z α ] = α

5. Se calcula x de la muestra de tamaño n; luego, se obtiene Z


x − np o
Z=
np o (1 − p o )

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 89


p− π o
Z=
π o (1 − π o )
n
6. Se compara Z con Zα
Si Z < Zα. Z ∈ 〈−∞, Z α 〉 , se rechaza la hipótesis nula Ho
Si Z > Zα. Z ∈ 〈 Z α , + ∞〉 , se acepta la hipótesis nula Ho

Región de Rechazo Región de Aceptación


Zα 0

Caso II
1. Se formula la hipótesis nula y la hipótesis alternativa
Ho :π = πo
H 1 : π 〉π o
2. Se escoge el nivel de significancia α
3. Una estadística de prueba es una variable aleatoria binomial X que tiene
una distribución binomial, cuando n es pequeño se utiliza esta distribución.
4. La región critica (R.C.) es 〈 Z α + ∞〉 , donde Z o es tal que P[Z > Z 1−α ] = α
5. Se calcula x de la muestra de tamaño n, luego se obtiene Z
x − np o
Z=
np o (1 − p o )

p− π o
Z=
π o (1 − π o )
n
6. Se compara Z con Zo
Si Z > Z 1-α Z ∈ 〈 Z 1−α + ∞〉 , se rechaza la hipótesis nula Ho
Si Z < Z 1-α Z ∈ 〈−∞, Z 1−α 〉 , se acepta la hipótesis nula Ho

CIBERTEC CARRERAS PROFESIONALES


90

Región de Aceptación Región de Rechazo

0 Z 1−α

PRUEBA BILATERAL DE UNA HIPÓTESIS SOBRE LA MEDIA

Prueba de significancia de dos colas

1. Se formula la hipótesis nula y la hipótesis alternativa


Ho :π = πo
H 1 : π 〉π o
2. Se escoge el nivel de significancia α
3. Una estadística de prueba es una variable aleatoria binomial X que tiene
una distribución binomial, cuando n es pequeño se utiliza esta distribución.
4. La región Aceptación (R.A.) es 〈 a, b〉 , donde a y b son tal que
P[a < X < b] = 1 − α .
Por la simetría de la curva normal, los valores críticos de a y b son
simétricos con respecto a π o
 ∧

 a −πo p− π o b−πo 
p ≤ ≤  = 1−α
 π o (1 − π o ) π o (1 − π 0 ) π o (1 − π o ) 
 n n n 
Luego, la región de aceptación:

 π o (1 − π o ) π o (1 − π o ) 
π o − Z α / 2 , π o + Zα /2 
 n n 
5. Se calcula x de la muestra de tamaño n; luego, se obtiene Z
x − np o
Z=
np o (1 − p o )

p− π o
Z=
π o (1 − π o )
n

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 91

5. Se compara Z con Z α/2


Si Z ∈ 〈−∞,− Z α / 2 〉 0 Z ∈ 〈+ Z α / 2 ,+∞〉 , se rechaza la hipótesis nula Ho
Si Z ∈ 〈− Z α / 2 ,+ Z α / 2 〉 , se acepta la hipótesis nula Ho

Región de Rechazo Región de Aceptación Región de Rechazo

Zα / 2 0 Zα / 2

PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS


En este caso:
La hipótesis nula toma la forma:
H o : π1 = π 2 = π
Hipótesis alternativa:
a) H 1 : π 1 〉π 2 H 1 : π 1 − π 2 〉0
b) H 1 : π 1 〈π 2 H 1 : π 1 − π 2 〈0
c) H1 : π 1 ≠ π 2 H1 : π 1 − π 2 ≠ 0
Los parámetros π 1 y π 2 son las proporciones de éxitos de dos poblaciones. La
estadística de prueba en la cual se basan los criterios de decisión es la variable
∧ ∧
aleatoria p 1 y p 2 que tiene una distribución aproximadamente normal cuando
las muestras son grandes, y la variable aleatoria Z que es aproximadamente
normal estándar.
∧ ∧
( p 1 − p 2 ) − (π 1 − π 2 )
Z=
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2
Se seleccionan muestras aleatorias independientes de tamaño n1 y n2 de cada
población binomial respectivamente.
∧ ∧
Se calcula la proporción de éxito p 1 y p 2 de cada muestra.
∧ x ∧ x
Siendo p 1 = 1 y p 2 = 2 , donde x1 y x2 es el número de éxitos de la
n1 n2
muestra n1 y n2 respectivamente, entonces:

CIBERTEC CARRERAS PROFESIONALES


92

∧ ∧
( p1 − p 2 )
Z=
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2
∧ ∧
( p1 − p 2 )
Z=
1 1
π 1 (1 − π 1 )(
+ )
n1 n 2
Es el valor de la normal estándar cuando Ho es verdadera, siendo n1 y n2
grandes.

Para calcular Z se debe hallar el valor de π a partir de su estimador p
∧ x + x2
p = 1
n1 + n 2
Luego, el valor de verdad de la estadística Z es:

∧ ∧
( p1 − p 2 )
Z=
1 1∧ ∧
+ )p (1 − p )(
n1 n2
Desviaciones Estándar Conocidas, Muestras Grandes
Prueba Unilateral

Caso I:
1. Considérese la siguiente hipótesis:

H o : π1 = π 2 o H o : π1 − π 2 = 0
H 1 : π 1 〉π 2 H 1 : π 1 − π 2 〉0
2. Se escoge el nivel de significancia α
∧ ∧
3. La estadística de prueba es la variable aleatoria ( p 1 − p 2 ) que tiene una
distribución aproximadamente normal cuando n1 y n2 grandes. Es decir, la
variable aleatoria:
∧ ∧
( p1 − p 2 )
Z=
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2
Suponiendo que Ho sea verdadera.

4. La región crítica (R.C.) es Z 〉 Z 1−α , para la hipótesis alternativa H 1 : π 1 〉π 2


∧ x ∧ x ∧ x + x2
5. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1 n2 n1 + n 2
∧ ∧
( p1 − p 2 )
Luego, se halla: z =
∧ ∧ 1 1
p (1 − p )( + )
n1 n 2

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 93

6. Conclusión: si z se encuentra en la región crítica 〈 Z 1−α ,+∞〉 , se rechaza Ho,


en caso contrario se acepta.

Región de Aceptación Región de Rechazo

0 Z 1−α

Caso II:
1. Considérese la siguiente hipótesis:

H o : π1 = π 2 o H o : π1 − π 2 = 0
H 1 : π 1 〈π 2 H 1 : π 1 − π 2 〈0
2. Se escoge el nivel de significancia α .
∧ ∧
3. La estadística de prueba es la variable aleatoria ( p 1 − p 2 ) que tiene una
distribución
aproximadamente normal cuando n1 y n2 grandes. Es decir, la variable
aleatoria:
∧ ∧
( p1 − p 2 )
Z=
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2
Suponiendo que Ho sea verdadera.
3. La región crítica (R.C.) es Z 〈 Z α , para la hipótesis alternativa H 1 : π 1 〈π 2
∧ x ∧ x ∧ x + x2
4. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1 n2 n1 + n 2
∧ ∧
( p1 − p 2 )
Luego, se halla: z =
∧ ∧ 1 1
p (1 − p )( + )
n1 n 2
5. Conclusión: si z se encuentra en la región crítica 〈−∞, Z α 〉 , se rechaza Ho,
en caso contrario se acepta.

CIBERTEC CARRERAS PROFESIONALES


94

Región de Rechazo Región de Aceptación


Zα 0

Prueba Bilateral
1. Considérese la siguiente hipótesis:

H o : π1 = π 2 o H o : π1 − π 2 = 0
H1 : π 1 ≠ π 2 H1 : π 1 − π 2 ≠ 0
2. Se escoge el nivel de significancia α
∧ ∧
3. La estadística de prueba es la variable aleatoria ( p 1 − p 2 ) que tiene una
distribución aproximadamente normal cuando n1 y n2 grandes. Es decir, la
variable aleatoria:
∧ ∧
( p1 − p 2 )
Z=
π 1 (1 − π 1 ) π 2 (1 − π 2 )
+
n1 n2
Suponiendo que Ho sea verdadera.

4. La región crítica (R.C.) es Z 〈− Z α / 2 o Z 〉 + Z 1−α / 2 , para la hipótesis


alternativa H 1 : π 1 ≠ π 2
∧ x ∧ x ∧ x + x2
5. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1 n2 n1 + n 2
∧ ∧
( p1 − p 2 )
Luego, se halla: z=
∧ ∧ 1 1
p (1 − p )( + )
n1 n 2
6. Conclusión: si z se encuentra en la región crítica 〈−∞,− Z α 〉 o 〈+ Z 1−α ,+∞〉 , se
rechaza Ho, en caso contrario se acepta.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 95

Región de Rechazo Región de Aceptación Región de Rechazo

Zα / 2 0 Zα / 2

ACTIVIDADES

1. Un fabricante de lavadoras automáticas produce un modelo en tres colores


diferentes A, B y C. De las primeras 1000 lavadoras vendidas se observa
que 400 fueron de color A. ¿concluirá usted que más de 1/3 de todos los
clientes tienen preferencia por el color A? use α = 0,01.

2. El director de cierto colegio muy famoso cree que, en parte debido al estatus
económico de los padres, el porcentaje de los que han terminado
secundaria que asisten a este colegio es mayor que el promedio de la
ciudad. En el período de los cinco años precedentes, el 20% de todos los
que terminaron secundaria de la ciudad entraron a la Universidad, mientras
que en el mismo período, 350 de los 1500 exalumnos de su colegio entraron
a la Universidad. ¿Se justifica que el director diga que el porcentaje de sus
exalumnos que entraron a la Universidad es significativamente mayor que
20%? Pruebe con el nivel de significación del 1%.

CIBERTEC CARRERAS PROFESIONALES


96

3. Un fabricante de blusas de vestir para mujer sabe que su marca se vende en


19% de las tiendas de ropa para mujer que están en el jirón de la Unión. Se
muestreó, recientemente, 85 tiendas de ropa de mujer en Gamarra y
encontró que 14,12% de las tiendas vendían la marca. A nivel de
significancia del 0,04, ¿Existe evidencia de se tiene una peor distribución en
Gamarra que en el jirón de la Unión?

4. Un fabricante de cigarrillos asegura que el 20% de los fumadores de


cigarrillos prefieren A. Para probar esta aseveración toma una muestra de
20 fumadores de cigarrillos y se le pregunta por la marca que prefieren. Si
de los 20 fumadores, 6 prefieren la marca A, ¿qué concluye? Use un nivel
de significancia del 0.01.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 97

5. Una oficina de relaciones familiares de la DEMUNA informa que el 50% de


los matrimonios que viven en la cuidad de Lima llegan al juzgado de paz de
Lima para iniciar su divorcio dentro de su primer año de casados. ¿Qué
conclusión puede sacarse de la validez de este informe, si de una muestra
aleatoria de 400 matrimonios, sólo 208 fueron al juzgado de paz de Lima
para iniciar su divorcio, dentro de su primer año de casados? Utilice un nivel
de significancia igual a 0.01.

6. En una conferencia de prensa, una alta autoridad anuncia que el 90% de los
habitantes adultos de la ciudad de Lima están a favor de cierto proyecto
económico del gobierno. En una muestra aleatoria de 625 adultos se
observó que 540 están a favor del proyecto. Si usted desea rechazar la
hipótesis verdadera no más de una en vez de 100. ¿Concluiría que la
popularidad del proyecto ha sido exagerada por la autoridad?

7. Una gran cadena hotelera está tratando de decidir si convierte más de sus
habitaciones en cuartos para no fumadores. En una muestra aleatoria de
400 huéspedes tomada el año anterior, 166 de éstos pidieron habitaciones
para no fumadores. Este año, 205 huéspedes de una muestra de 380
prefirieron cuarto para no fumadores. ¿Recomendaría usted que la cadena
de hoteles destine más habitaciones a no fumadores? Apoye su

CIBERTEC CARRERAS PROFESIONALES


98

recomendación probando la hipótesis apropiada a un nivel de significancia


de 0,01.

8. Una planta de energía eléctrica operada con carbón está considerando dos
sistemas diferentes para abatir la contaminación del aire. El primer sistema
ha reducido la emisión de contaminantes a niveles aceptables 68% del
tiempo según se determinó de 200 muestras de aire. El segundo sistema,
que es más caro, ha reducido la emisión de contaminantes a niveles
aceptables 76% de las veces, según quedó determinado de 250 muestras
de aire. Si el sistema caro es significativamente más eficiente en la
reducción de contaminantes a niveles aceptables que el otro sistema,
entonces el administrador de la planta deberá instalar el sistema caro. ¿Cuál
sistema será instalado si la administración utiliza un nivel de significancia de
0,02 al tomar la decisión?

9. Un grupo de fisiólogos está llevando a cabo pruebas en pacientes para


determinar la efectividad de una nueva medicina contra la hipertensión. Los
pacientes con alta presión sanguínea fueron escogidos al azar y luego fueron
asignados, aleatoriamente también, a un grupo de control (donde son
tratados con un medicamento contra la hipertensión conocido) o al grupo de
tratamiento (en el cual recibieron tratamiento con la nueva medicina. Los
médicos registraron el porcentaje de pacientes cuya presión arterial se redujo

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 99

a un nivel normal después de un año de tratamiento. Al nivel de significancia


de 0,01, pruebe las hipótesis apropiadas para determinar si la nueva
medicina es significativamente más efectiva para reducir la presión
sanguínea que la medicina vieja.

Grupo Porción que mejoró Número de pacientes


Tratamiento 0,45 120
Control 0,36 150

10. Una muestra aleatoria de 100 hombres fue tomada de la ciudad de Lima y
se encontró que 60 se mostraron a favor sobre una ley del divorcio. Una
muestra al azar de 100 mujeres escogidas de la misma ciudad reveló que
40 de ellas están a favor de dicha ley. ¿Es igual la proporción de hombres
que de mujeres que favorecen una nueva ley sobre el divorcio? Use un nivel
de significancia de 0,05.

CIBERTEC CARRERAS PROFESIONALES


100

Autoevaluación
1. De un total de 10200 préstamos otorgados por una cooperativa de crédito
en los últimos cinco años, 350 se muestrearon para determinar qué porción
de préstamos se otorgaron a mujeres. Esta muestra indicó que 39% de los
créditos fueron dados a empleadas. Un censo completo de préstamos de
hace cinco años mostraba que el 41% de los prestatarios eran mujeres. A
un nivel de significancia de 0,02, ¿puede concluir que la porción de
préstamos otorgados a mujeres ha cambiado significativamente en los
últimos cinco años?

2. Los laboratorios Génova se especializan en el uso de técnicas de


reproducción de genes para lograr nuevos compuestos farmacéuticos.
Recientemente, desarrolló un atomizador nasal que contiene interferón, con
el que se cree habrá de limitarse la transmisión del resfriado común en las
familias. En la población general, a 15,1% les dará gripe ocasionada por el
rota virus una vez que otro miembro de la familia ha contraído tal gripe. El
atomizador de interferón fue probado en 180 personas, en cuyas familias
uno de los miembros contrajo, posteriormente, una gripe ocasionada por
Rota Virus. Sólo 17 de los sujetos de la prueba desarrolló gripes similares.
A un nivel de significancia de 0,05, ¿debería concluir Génova que el nuevo
atomizador, efectivamente, reduce la transmisión de la gripe?

3. Algunos teóricos financieros cree que los precios diarios del mercado de
valores constituyen un “paseo azaroso con rumbo positivo”. Si esto es
exacto, entonces el promedio industrial Dow Jones debería mostrar una
ganancia en más de 50% de todos los días de actividad financiera. Si el
promedio se incrementó en 101 de 175 días escogidos aleatoriamente,
¿Qué piensa de la teoría sugerida? Use un nivel de significancia de 0,01.

4. El instituto de café afirma que al menos el 40% de la población de adultos


tomen regularmente una tasa de café durante el desayuno. Una muestra
aleatoria de 450 individuos reveló que 200 de ellos eran tomadores
regulares de café en el desayuno. ¿Cuál es el valor probable para una
prueba de hipótesis que busca mostrar que la afirmación del Instituto del
Café es correcta? (Sugerencia: Pruebe H0:p = 0,04, contra H1:p > 0,4)

5. Un fabricante de salsa de tomate está en proceso de decidir si produce una


nueva marca extra picante. El departamento de investigación de mercado
de la compañía empleó una encuesta telefónica nacional de 6000 hogares y
encontró que dicho producto sería comprado por 335 de los encuestados.
Un estudio mucho más extenso, realizado hace dos años, mostraba que 5%
de los hogares en ese entonces habrían comprado la salsa. A un nivel de
significancia de 2%, ¿debería la compañía concluir que ahora existe un
mayor interés en el nuevo producto?

6. ACE Home Center vende podadoras Steele y está interesada en comparar


la calidad de las podadoras que vende con las podadoras Steele que se
venden a nivel nacional. La ferretería sabe que sólo 15% de éstas requieren

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 101

reparaciones durante el primer año después de su compra. Una muestra de


120 de los clientes de ACE reveló que, exactamente, 22 de ellos requirieron
reparaciones para sus podadoras en el primer año después de su compra.
Al nivel de significancia de 0,02, ¿existe evidencia de que las podadoras
Steele difieren en calidad de las que se venden a nivel nacional?

7. En un día promedio, alrededor de 5% de los valores de la Bolsa de Valores


de Nueva York muestran una nueva alza para este año. El viernes 18 de
septiembre de 1992, el promedio industrial Dow Jones cerró en 3282 con un
fuerte volumen de, aproximadamente, 136 millones de títulos negociados.
Una muestra aleatoria de 120 títulos determinó que dieciséis de ellos
habían mostrado nuevas alzas anuales ese día. Usando un nivel de
significancia de 0,01, ¿se debería concluir que más títulos de los habituales
tuvieron alzas anuales ese día?

8. En respuesta a las críticas concernientes a los extravíos en el correo, el


servicio postal inició nuevos procedimientos para resolver el problema. Al
director general de correos se le aseguró que dicho cambio reduciría los
extravíos por debajo del histórico índice de pérdidas de 0,3%. Después de
dos meses de haberse puesto en marcha los nuevos procedimientos, el
servicio postal patrocinó una investigación en la que un total de 8000 piezas
de correo fueron enviadas desde diferentes partes del país. Dieciocho de
estas piezas de prueba no alcanzaron su destino. A un nivel de significancia
de 0,10, ¿puede el director general de correos concluir que los nuevos
procedimientos consiguieron su objetivo?

9. Un jefe de personal pensaba que el 18% de los empleados de la compañía


trabajaban horas extra cada semana. Si la porción observada esta semana
es de 13% en una muestra de 250 de los 2500 empleados, ¿se puede
aceptar que su opinión es razonable o se debe concluir que es más
apropiado otro valor? Use α=0,05.

10. Una corredora de bolsa afirma que ella puede predecir, con 85% de certeza,
el ascenso o caída, durante el mes siguiente, de un valor del mercado de
valores. Para probarlo, predice el resultado de 60 valores y acierta en 45 de
sus predicciones. ¿Presentan estos datos evidencia concluyente (con α =
0,04) de que la exactitud de sus predicciones es significativamente menor
que el declarado 85%?

11. Un fabricante de suplementos vitamínicos para neonatos incluye un cupón


para una muestra gratis de este producto en la canasta que es distribuida a
los nuevos padres en las clínicas. Con regularidad, aproximadamente 18%
de los cupones han sido canjeados. Dada la tendencia actual de tener
menos hijos e iniciar una familia más tarde, la empresa se imagina que los
padres actuales están mejor educados en promedio y, como resultado, es
más probable que utilicen un suplemento vitamínico para sus hijos. Una
muestra de 1500 nuevos padres canjeó 295 cupones. ¿Respalda este
hecho, a un nivel de significancia de 2%, la opinión de la compañía con
respecto a los actuales nuevos padres?

CIBERTEC CARRERAS PROFESIONALES


102

12. Se estima que alrededor del 52% de hogares limeños son suscriptores de la
televisión por cable. Los editores de la revista “Cable y más” estaban
seguros de que sus lectores tenían suscripción por cable en un promedio
más alto que la población en general y querían usar este hecho para
ayudar a vender este espacio de publicidad para los canales de estreno por
cable. Para verificar este parecer, muestrearon a 250 suscriptores de la
revista y encontraron que 146 de ellos tenían suscripción a televisión por
cable. A un nivel de significancia de 2%. ¿los datos de la encuesta apoyan
el parecer de los editores?

Para recordar
 En una prueba de hipótesis de proporciones, se debe tener en claro el
análisis porcentual del problema.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 103

SEMANA

9
PRUEBA DE BONDAD DE AJUSTE

TEMAS

• Definición del x² (Chi cuadrado). Ensayos de significación


• Prueba de bondad de ajuste. Tablas de contingencia
• Prueba de Kolmogorov-Smirnov
• Correlación de yates para la continuidad. Coeficientes de contingencias

OBJETIVOS ESPECÍFICOS

• Probar hipótesis que más de dos proporciones de población pueden ser


consideradas iguales
• Uso de la prueba del Chi cuadrado

.
CONTENIDOS

• Definición del x²
• Ensayos de significación
• Prueba de bondad de ajuste. Tablas de contingencia
• Correlación de la continuidad. Coeficientes de contingencias
• Prueba de Kolmogorov-Smirnov

ACTIVIDADES

• Identifican las diferentes definiciones existentes en estadística.


• Analizan las diferentes formas de una investigación estadística.

CIBERTEC CARRERAS PROFESIONALES


104

PRUEBA DE BONDAD DE AJUSTE


FRECUENCIAS OBSERVADAS y TEÓRICAS
Como ya se ha visto muchas veces, los resultados obtenidos de muestras no
siempre concuerdan exactamente con los resultados teóricos esperados, según
las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas
conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una
moneda bien hecha, es raro que se obtengan exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de
posibles sucesos E1, E2, E3,..., Ek que ocurren con frecuencias O1, O2, O3,....,
Ok llamadas frecuencias observadas y que, según las reglas de probabilidad,
se espera que ocurran con frecuencias e1, e2, e3,..., ek llamadas frecuencias
teóricas o esperadas.

Suceso E1 E2 Es ... Ek
Frecuencia
observada O1 O2 Os ... Ok
Frecuencia
esperada e1 e2 es ... ek

DEFINICIÓN DE χ 2 (Chi cuadrado)


Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas es suministrada por el estadístico χ 2 , dado por

(O1 − e1 )
2
(O2 − e 2 )
2
(Ok − ek )2 K (O − ej )
2

χ = + + ... + =∑
2 j

e1 e2 ek j =1 ej

Donde si el total de frecuencias es n,


∑Oj = ∑ej = n
Una expresión equivalente es
K (O ) 2

χ =∑ −n
2 j

j =1 ej
Si χ 2 = 0 las frecuencias observadas y teóricas concuerdan exactamente;
mientras que si χ 2 > 0 , no coinciden exactamente. A valores mayores de χ 2 ,
mayores son las discrepancias entre las frecuencias observadas y esperadas.
La distribución muestral de χ 2 se aproxima muy estrechamente a la distribución
Chi cuadrado
1 1
(ν − 2 ) − χ2
Y = Yo ( χ ) 2 2
e 2

1
− χ2
(ν − 2 )
Y = Yo ( χ ) e 2

Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora


para valores superiores.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 105

El número de grados de libertad v está dado por


(a) ν = k − 1 si las frecuencias esperadas pueden calcularse sin tener que
estimar parámetros poblacionales con los estadísticos muestrales.
Adviértase que el restar 1 a k es a causa de la condición restrictiva
( ∑ O j = ∑ e j = n ) que denota que si son conocidas k - 1 de las frecuencias
esperadas, la frecuencia restante puede ser determinada.
(b) ν = k − 1 − m si las frecuencias esperadas solamente pueden calcularse
estimando m parámetros de la población a partir de los estadísticos
muestrales.

ENSAYOS DE SIGNIFICACIÓN
En la práctica, las frecuencias esperadas se calculan de acuerdo con una
hipótesis Ho. Si bajo esta hipótesis el valor calculado de χ 2 dado por
K (O − ej )
2 K (O ) 2

(χ = ∑ o χ =∑ − n ) es mayor que algún valor crítico (tal


2 j 2 j

j =1 ej j =1 ej
como χ 02,.95 o χ 02,.99 que son los valores críticos a los niveles de significación de
0,05 y 0,01 respectivamente), se deduce que las frecuencias observadas
difieren significativamente de las esperadas y se rechaza Ho al nivel de
significación correspondiente. En caso contrario, se aceptará o al menos no se
rechazará. Este procedimiento se llama ensayo o prueba de chi cuadrado
de la hipótesis.
Debe advertirse que en aquellas circunstancias en que χ 2 esté muy próximo a
cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias
observadas concuerden demasiado bien con las esperadas. Para examinar
tales situaciones, se puede determinar si el valor calculado de χ 2 es menor que
χ 02, 05 o χ 02,01 en cuyos casos se decide que la concordancia es bastante buena
a los niveles de significación de 0,05 a 0,01 respectivamente. .

PRUEBA DE BONDAD DE AJUSTE: POBLACIÓN MULTINOMIAL


Es el caso en que cada elemento de una población se asigna a una y sólo una
de varias clases o categorías. Esa población se llama población multinomial. La
distribución multinomial de probabilidades se puede concebir como una am-
pliación de la distribución binomial para el caso de tres o más categorías de
resultados. En cada ensayo, intento o prueba de un experimento multinomial
sólo se presenta uno y sólo uno de los resultados. Cada intento del
experimento se supone independiente, y las probabilidades deben permanecer
igual para cada prueba.

Resumen de la prueba de bondad de ajuste para distribución multinomial

1. Enunciar las hipótesis nula y alternativa

Ho: La población se apega a una distribución normal de probabilidades con


probabilidades especificadas para cada una de las k categorías.

CIBERTEC CARRERAS PROFESIONALES


106

Ha: La población no se apega a una distribución multinomial de


probabilidades, con probabilidades especificadas para cada una de las
k categorías.

2. Tomar una muestra aleatoria y anotar las frecuencias observadas O j , para


cada categoría

3. Suponiendo que la hipótesis nula es cierta, determinar la frecuencia


esperada. e j , en cada categoría, multiplicando la probabilidad de la
categoría por el tamaño de la muestra
4. Calcular el valor del estadístico de prueba
K (O − e )2
χ =∑
2 j j

j =1 ej
5. Regla de rechazo:
Rechazar Ho si χ 2 > χ α2
en donde a es el nivel de significancia para la prueba, y los grados de
libertad son (k – 1)

En las pruebas de Chi cuadrado para bondad de ajuste, la región de rechazo


siempre está en la cola superior. Las diferencias entre las frecuencias
observadas y esperadas se elevan al cuadrado, y las mayores
diferencias originan mayores valores de χ .2

En muchas aplicaciones, la prueba de bondad de ajuste consiste en elegir una


muestra y observar la categoría a la que pertenece cada unidad muestreada.
En tales casos se debe tener cuidado de elegir una muestra aleatoria. Si no es
así, no se cumplirá la hipótesis de independencia.

TABLAS DE CONTINGENCIA
Las tablas de clasificación doble o tablas h x k, en las que las frecuencias
observadas ocupan h filas y k columnas. Tales tablas se llaman a menudo
tablas de contingencia.

Suceso E1 E2 Es ... Ek
Frecuencia
observada O1 O2 Os ... Ok
Frecuencia
esperada e1 e2 es ... ek

Correspondiéndose con cada frecuencia observada en una tabla de


contingencia h x k, hay una frecuencia teórica o esperada que se calcula bajo
alguna hipótesis y según las reglas de probabilidad. Estas frecuencias que
ocupan las casillas de una tabla de contingencia se llaman frecuencias
elementales. La frecuencia total de cada fila o columna es la llamada
frecuencia marginal.

Para estudiar el acuerdo entre las frecuencias observadas y esperadas, se


calcula el estadístico

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 107

K (O − ej )
2

χ =∑2 j

ej j =1

donde la suma se extiende a todas las casillas de la tabla de contingencia, los


símbolos O j y e j representan, respectivamente, las frecuencias observadas y
esperadas en la casilla j. Esta suma, que es análoga a (I), contiene hk
términos. La suma de todas las frecuencias observadas se denota por n y es
igual a la suma de todas las frecuencias esperadas ( ∑ O j = ∑ e j = n ).
K (O − ej )
2

Como antes, el estadístico χ = ∑ 2 j


tiene una distribución muestral
j =1 ej
1
− χ2
(ν − 2 )
muy estrechamente aproximada a la dada por Y = Yo ( χ ) e , con tal de 2

que las frecuencias esperadas no sean demasiado pequeñas. El número de


grados de libertad ν de esta distribución Chi cuadrado está dado para h > 1, k
> 1 por

(a) ν = (h − 1)(k − 1) si las frecuencias esperadas pueden calcularse sin tener


que estimar parámetros poblacionales con los estadísticos muestrales.
(b) ν = (h − 1)(k − 1) − m si las frecuencias observadas pueden solamente
calcularse estimando m parámetros poblacionales con los estadísticos
muestrales.

Las frecuencias esperadas son halladas bajo una determinada hipótesis Ho.
Una hipótesis normalmente supuesta es la de que las dos clasificaciones son
independientes entre sí.

Las tablas de contingencia pueden extenderse a un número mayor de


dimensiones. Así, por ejemplo, se pueden tener tablas h x k x 1 donde estén
presentes 3 clasificaciones.

FÓRMULAS PARA EL CÁLCULO DE χ 2


Se pueden obtener fórmulas sencillas para el cálculo de XZ que se basen
únicamente en las frecuencias observadas. En lo que sigue se dan los
resultados para tablas de contingencia 2 x 2 y 2 x 3.

Tablas 2 x 2
n(a1b2 − a 2 b1 ) 2
χ2 =
n1 n2 na nb

I II Totales
A a1 a2 na
B b1 b2 nb
Totales n1 n2 n

Tablas 2 x 3

CIBERTEC CARRERAS PROFESIONALES


108

n  a12 a 22 a32  n  b12 b22 b32 


χ =
2
 + + +  + + −n
na  n1 n2 n3  nb  n1 n2 n3 

I II III Totales
A a1 a2 a3 na
B b1 b2 b3 nb
Totales n1 n2 n3 n

COEFICIENTE DE CONTINGENCIA

Una medida del grado de relación, asociación o dependencia de las


clasificaciones en una tabla de contingencia es dada por:
χ2
C=
χ2 +n

Se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de


asociación. El número de filas y columnas de la tabla de contingencia
determina el valor máximo de C, que no es nunca superior a uno. Si el número
de filas y columnas de una tabla de contingencia es igual a k, el máximo valor
de C viene dado por (k − 1) / k

CORRELACIÓN DE ATRIBUTOS

Como las clasificaciones de una tabla de contingencia describen a menudo


características de individuos u objetos, se denotan a veces como atributos y el
grado de dependencia, asociación o relación se llama correlación de atributos.
Para tablas kxk se define
χ2
r=
n(k − 1)
Como el coeficiente de correlación entre atributos o clasificaciones. Este
coeficiente se encuentra entre 0 y 1

LA PRUEBA DE KOLMOGOROV-SMIRNOV
La prueba de Kolmogorov-Smirnov, bautizada así en honor de los estadísticos
A. N. Kolmogorov y N. V. Smirnov quienes la desarrollaron, se trata de un
método no paramétrico sencillo para probar si existe una diferencia significativa
entre una distribución de frecuencia observada y otra de frecuencia teórica. La
prueba K-S es, por consiguiente, otra medida de la bondad de ajuste de una
distribución de frecuencia teórica, como lo es la prueba Chi cuadrada. Sin
embargo, la prueba K-S tiene varias ventajas sobre la prueba χ 2 : es una
prueba más poderosa, y es más fácil de utilizar, puesto que no requiere que los
datos se agrupen de alguna manera.

La estadística K-S, Dn, es particularmente útil para juzgar qué tan cerca está la
distribución de frecuencia observada de la distribución de frecuencia esperada,

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 109

porque la distribución de probabilidad de Dn depende del tamaño de muestra n,


pero es independiente de la distribución de frecuencia esperada (Dn es una
estadística de "distribución libre").

Un problema que ilustra la prueba K-S


Supóngase que la central telefónica del la ciudad de Arequipa ha estado lle-
vando un registro del número de "transmisores" (un tipo de equipo automático
que se utiliza en las centrales telefónicas) usados en un instante dado. Las
observaciones se hicieron en 3,754 ocasiones distintas. Para propósitos de
planeación de inversión de capital, el funcionario de presupuesto de esta
compañía piensa que el patrón de uso sigue una distribución de Poisson con
una λ = 8,5 . Si desea probar esta hipótesis al nivel de significancia de 0,01,
puede emplear la prueba K-S:
La hipótesis se formularía de la siguiente manera:

Ho: Una distribución de Poisson con λ = 8,5 es una buena descripción del
patrón de uso.
H1: Una distribución de Poisson con λ = 8,5 no es una buena descripción del
patrón de uso.
α = 0,01 nivel de significancia para probar estas hipótesis

A continuación, se enumeran los datos que se observan en la tabla. Luego, se


enumeran las frecuencias observadas y las transforma en frecuencias
acumulativas observadas relativas.
En la tabla se enumeran las frecuencias acumulativas observadas relativas Fo,
frecuencias acumulativas relativas esperadas Fe y las desviaciones absolutas
para x = 0, x = 1....., x = 22 luego las frecuencias relativas esperadas
e −λ λx
fe =
x!
Cálculo de la estadística K-S
Para calcular la estadística K-S, simplemente elija Dn, la desviación absoluta
máxima de Fe, desde Fo, luego estadística K-S
Dn = Fe − Fo
En este ejemplo, Dn = 0,2582 en la observación x = 9.

Una prueba K-S siempre debe ser una prueba de un extremo. Los valores
críticos para Dn se han tabulado y pueden encontrarse en la tabla de Valores
críticos de bondad de ajuste de Kolmogorov-Smirnov. Se busca en la fila de n =
3,754 (el tamaño de muestra) y la columna para un nivel de significancia de
0,01, se encontrará que el valor crítico de Dn debe calcularse usando la
fórmula:
1,63
Dn =
n
1,63
Dn = = 0,0266
3754
El siguiente paso es comparar el valor calculado de Dn con el valor crítico de Dn
que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia

CIBERTEC CARRERAS PROFESIONALES


110

elegido es mayor que el valor calculado de Dn, entonces se aceptará la


hipótesis nula. Obviamente, 0,0266 < 0,2582, así que se rechaza Ho y se llega
a la conclusión de que una distribución de Poisson con λ = 8,5 no es una buena
descripción del patrón del uso del transmisor en la central telefónica de la
ciudad de Arequipa.

Frecuencia Frecuencia
Frecuencia
Número Frecuencia Acumulativa Acumulativa Desviación
Acumulativa
ocupado observada Observada Observada absoluta
Observada
relativa esperada
O O O 0,0000 0,0002 0,0002
1 5 5 0,0013 0,0019 0,0006
2 14 19 0,0051 0,0093 0,0042
3 24 43 0,0115 0,0301 0,0186
4 57 100 0,0266 0,0744 0,0478
5 111 211 0,0562 0,1496 0,0934
6 197 408 0,1087 0,2562 0,1475
7 278 686 0,1827 0,3856 0,2029
8 378 1,064 0,2834 0,5231 0,2397
9 418 1,482 0,3948 0,6530 0,2582
10 461 1,943 0,5176 0,7634 0,2458
11 433 2,376 0,6329 0,8487 0,2158
12 413 2,789 0,74*9 0,9091 0,1662
13 358 3,147 0,8383 0,9486 0,1103
14 219 3,366 0,8966 0,9726 0,0760
15 145 3,511 0,9353 0,9862 0,0509
16 109 3,620 0,9643 0,9934 0,0291
17 57 3,677 0,9795 0,9970 0,0175
18 43 3,720 0,9909 0,9987 0,0078
19 16 3,736 0,9952 0,9995 0,0043
20 7 3,743 0,9971 0,9998 0,0027
21 8 3,751 0,9992 0,9999 0,0007
22 3 3,754 1,0000 1,0000 0,0000

ACTIVIDADES

1. Durante las primeras 13 semanas de la temporada de televisión, se


registraron las audiencias de sábado por la noche, de 8:00 p. m. a 9:00 p.
m. como sigue: ATV 29%, América televisión 28%, Panamericana televisión
25% y otros 18%. Dos semanas después, una muestra de 300 hogares
arrojó los siguientes resultados de audiencia: ATV 95 hogares, América
televisión 89 hogares, Panamericana televisión 70 hogares y otros 46
hogares. Pruebe, con α = 0,05, si han cambiado las proporciones de
telespectadores.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 111

2. La empresa “Negusa”, fabricantes de chocolates conito, patrocinó una


encuesta nacional en la que más de 10 millones de personas indicaron su
preferencia para un color nuevo. El conteo de esta encuesta dio como
resultado el reemplazo del color chocolate por un nuevo color. En el folleto
Colores que publicó el Departamento de Asuntos del Consumidor de la
mencionada empresa, la distribución de los colores de chocolates es como
sigue:

Café Amarillo Rojo Naranja Verde Azul


30% 20% 20% 10% 10% 10%

En un estudio que apareció en “El Gourmet”, se usaron muestras de bolsas


de una libra para determinar si eran válidos los porcentajes publicados. Se
obtuvieron los siguientes resultados con una muestra de 506 chocolates.

Café Amarillo Rojo Naranja Verde Azul


177 135 79 41 36 38

Use α = 0,05 para determinar si estos datos respaldan los que publicó la
empresa.

CIBERTEC CARRERAS PROFESIONALES


112

3. Se conoce que las actitudes negativas son un método efectivo de


persuasión en la publicidad. Un estudio realizado por una conocida
universidad informó los resultados de un análisis de contenido de anuncios
culposos en 24 revistas. La cantidad de anuncios con actitudes de culpa,
que aparecieron en ellas, es la siguiente:

Tipo de revista Cantidad de anuncios culposos


Noticias de opinión 20
Editorial general 15
Orientadas a la familia 30
Negocios y financieras 22
Orientadas hacia la mujer 16
Afro americanos 12
Pruebe, con α = 0,10, si hay una diferencia en la proporción de anuncios con
actitudes de culpa que se publican en las 6 clases de revistas.

4. A continuación, se observa una tabla de contingencias de 2 x 3, con


frecuencias observadas en una muestra de 200. Pruebe la independencia
entre las variables de renglón y de columna usando la prueba x2 con α =
0,05.
Variable de columna
Variable de renglón A B C
P 20 44 50
Q 30 26 30

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 113

5. Los puestos iniciales de los graduados en administración y en ingeniería se


clasifican por industria, como vemos en la tabla siguiente:

Industria
Licenciado en Petróleo Química Eléctrica Computación
Administración 30 15 15 40
Ingeniería 30 30 20 20

Use α = 0,01 y pruebe si hay independencia entre licenciatura y tipo de


industria.

6. La revista “Vendomás” publicó un estudio en el que se informó los


resultados de un análisis de culpa y miedo en anuncios, en 24 revistas. Las
cantidades de anuncios con actitudes de culpa y miedo que aparecieron en
algunas revistas son las siguientes:

Tipo de actitud
Tipos de revista Cantidad de anuncios Cantidad de anuncios
con actitudes de culpa con actitudes de
miedo
Noticias y opinión 20 10
Editorial general 15 11
Orientada hacia la 30 19
familia
Comercial o financiera 22 17
Orientada hacia la mujer 16 14
Afroamericana 12 15

Aplique la prueba ji cuadrada de independencia con un nivel de


significancia igual a 0,01 para analizar los datos. ¿Cuál es su
conclusión?

CIBERTEC CARRERAS PROFESIONALES


114

7. Los datos de partes defectuosas procedentes de tres proveedores son las


siguientes.

Calidad de las partes


Proveedor Buena Defectos pequeños Defectos graves
A 30 3 7
B 170 18 7
C 135 6 9

Use α = 0,05 y demuestre si hay independencia entre proveedor y


calidad de partes. ¿Qué dice el resultado de su análisis al departamento
de compras?

8. Un estudio realizado por la revista “Colors”, indicó a qué personas se les


dificulta más, hombres o mujeres, comprar regalos. Suponga que se
obtuvieron los siguientes datos en un estudio de seguimiento basado en
100 hombres y 100 mujeres.

Sexo
Más difícil comprar regalo para Hombres Mujeres
Consorte 37 25

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 115

Padres 28 31
Hijos 7 19
Hermanos 8 3
Parientes políticos 4 10
Otros parientes 16 12

Use α = 0,05 y pruebe si hay independencia entre el sexo y la persona


más difícil para regalar. ¿Cuál es su conclusión?

9. J. J. Pérez, vendedor de la compañía Movil Speak, tiene siete cuentas que


visitar a la semana. Se piensa que las ventas del señor Nelson pueden
describirse mediante la distribución binomial, con probabilidad de venta en
cada cuenta de 0.45. Examinando la distribución de frecuencia observada
del número de ventas por semana del señor Pérez, determine si la
distribución corresponde, en efecto, a la distribución sugerida. Use el nivel
de significancia de 0,05.

Número de ventas por semana 0 1 2 3 4 5 6 7


Frecuencia del número de
ventas 25 32 61 47 39 21 18 12

CIBERTEC CARRERAS PROFESIONALES


116

10. La siguiente es una tabla de frecuencias observadas, junto con las


frecuencias que se esperan bajo una distribución normal.
10.1 Calcule la estadística K-S.
10.2 ¿Podemos concluir que estos datos, en efecto, provienen de una
distribución normal? Use el nivel de significancia de 0,10.

Resultados de la prueba
51-60 61-70 71-80 81-90 91-100
Frecuencia
30 100 440 500 130
observada
Frecuencia
40 170 500 390 100
esperada

Autoevaluación
1. A continuación, se observa una tabla de contingencias de 3 x 3, con
frecuencias observadas en una muestra de 240. Pruebe la independencia
entre las variables de renglón y de columna usando la prueba x2 con α =
0,05.

Variable de columna
Variable de renglón A B C
P 20 30 20
Q 30 60 25
R 10 15 30

2. Una de las preguntas de una encuesta fue la siguiente: “Durante los últimos
12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con
más frecuencia?” Las repuestas obtenidas se ven en la siguiente tabla de
contingencias:
Usando α = 0,05 pruebe la independencia del tipo de vuelo y tipo de boleto.
¿Cuál es su conclusión?

Tipo de vuelo

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 117

Tipo de boleto Nacional Internacional


Primera clase 29 22
Clase de negocios o ejecutiva 95 121
Clase económica 518 135

3. Las cantidades de unidades vendidas por tres agentes de ventas durante un


periodo de tres meses aparecen a continuación. Use α = 0,05 y demuestre
la independencia entre el vendedor y el tipo de producto. ¿Cuál es su
conclusión?

Producto
Vendedor A B C
Abanto 14 12 4
Marini 21 16 8
Noel 15 5 10

4. Una encuesta sobre el deporte preferido tuvo los siguientes resultados en


hombres y mujeres:
Deporte preferido
Sexo Natación Básquetbol Fútbol
Hombres 19 15 24
Mujeres 16 18 16

Use α = 0,05 y pruebe si las preferencias de hombres y mujeres son iguales.


¿Cuál es su conclusión?

5. Un estudio de niveles educativos de los votantes y su afiliación política tuvo


los siguientes resultados:
Afiliación al partido
Nivel educativo Apra PPC UPP
No terminó secundaria 40 20 10
Secundaria completa 30 35 15
Licenciatura 30 45 25

Use α = 0,01 y determine si la afiliación política es independiente del nivel


educativo de los votantes.

6. Halley Torres y Aarón Delguiudice son críticos de cine que, con frecuencia,
difieren acerca de las mejores películas. En un artículo de una revista
especializada, se mencionan los resultados de 160 películas por parte de
ambos críticos. Cada resultado puede ser Buena, Regular o Mala.

Calificación de Delguiudece
Calificación de Torres Mala Regular Buena
Mala 24 8 13
Regular 8 13 11
Buena 10 9 64

CIBERTEC CARRERAS PROFESIONALES


118

Aplique la prueba Chi cuadrada de independencia, con nivel de significancia


igual a 0,01 para analizar los datos.

7. Se cree que el número de accidentes automovilísticos diarios en


determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta.
¿Apoyan estos datos la hipótesis de que la cantidad diaria de accidentes
tiene una distribución de Poisson? Use α = 0,05.

Cantidad de accidentes Frecuencia observada


(días)
0 34
1 25
2 11
3 7
4 3

8. Suponga que la cantidad de llamadas telefónicas que entran al conmutador


de una empresa durante intervalos de un minuto tiene una distribución de
Poisson. Use α=0,10 y los siguientes datos para probar la hipótesis de que
las llamadas que entran tienen una distribución de Poisson:

Cantidad de llamadas
que entran durante Frecuencia observada
un intervalo de un minuto
0 15
1 31
2 20
3 15
4 13
5 4
6 2
Total 100

9. Considere que la demanda semanal de un producto tiene una distribución


normal. Haga una prueba de bondad de ajuste con los datos de la tabla
siguiente para probar esta hipótesis. Use α = 0,10. La media de la muestra
es 24,5 y la desviación estándar de la muestra es 3.

18 20 22 27 22
25 22 27 25 24
26 23 20 24 26
27 25 19 21 25
26 25 31 29 25
25 28 26 28 24

10. El 7% de inversionistas de fondos de ahorros valorizan como “muy seguras”


a las acciones corporativas, el 58% las define como “algo seguras”, el 24%

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 119

como “no muy seguras”, el 4% como “definitivamente inseguras”, y el 7 %


no tienen opinión definida. En una encuesta de una revista, se preguntó a
529 inversionistas de fondos de ahorro cómo creen que es la seguridad de
los bonos corporativos. Se obtuvieron las respuestas siguientes:

Concepto de seguridad Frecuencia


Muy seguras 48
Algo seguras 323
No muy seguras 79
Definitivamente inseguras 16
Sin opinión definida 63
Total 529

¿Difieren los conceptos de los inversionistas en bonos respecto a los que se


tienen de las acciones corporativas? Apoye su conclusión con una prueba
estadística con α = 0,01.

11. Se desea abrir un paseo de aguas al público. Se ha pedido, a una muestra


de 140 personas, decir qué día preferirían visitarlo. A continuación
observamos los resultados.

Entre semana Sábado Domingo Día feriado


20 20 40 60

Para establecer un plan de personal, ¿debe suponer el gerente que habrá la


misma cantidad de visitantes todos los días? Base su conclusión en una
prueba estadística con α = 0,05.

12. A una autoridad regional de transporte colectivo le preocupa la cantidad de


pasajeros que van en una de las rutas del autobús. Al definir la ruta se creía
que la cantidad de pasajeros era la misma de lunes a viernes. Con los datos
de la tabla, pruebe, con α = 0,05 si es correcta la hipótesis de la autoridad.

Cantidad de
Día pasajeros
Lunes 13
Martes 16
Miércoles 28
Jueves 17
Viernes 16

13. Los resultados de una Encuesta Anual de satisfacción de trabajo indicó que
el 28% de los gerentes de sistemas de información está muy satisfecho con
su trabajo, el 46% medianamente satisfecho, el 12% no está satisfecho ni
insatisfecho, el 10% está medianamente insatisfecho y el 4% está muy
insatisfecho. Suponga que en una muestra de 500 programadores
obtuvieron los siguientes resultados.

CIBERTEC CARRERAS PROFESIONALES


120

Categoría Cantidad
Muy satisfechos 105
Medianamente satisfechos 235
Ni satisfechos ni insatisfechos 55
Medianamente insatisfechos 90
Muy insatisfechos 15

Haga una prueba con α = 0,05 para determinar si la satisfacción de los


programadores es diferente de la de los gerentes de sistemas de
información.

14. Una muestra de partes suministró los datos de la siguiente tabla de


contingencias, acerca de calidad de parte y de turno en que fue producida.
Use α = 0,05 y pruebe la hipótesis de que la calidad de las partes es
independiente del turno en que fueron producidas. ¿Cuál es su conclusión?

Turno Cantidad de buenas Cantidad de defectuosas


Primero 368 32
Segundo 285 15
Tercero 176 24

15. El Estudio 1996 de suscriptores de “El Mercurio” produjo datos acerca de


las clases de empleo de sus suscriptores. Los resultados de la muestra
correspondientes a suscriptores a las ediciones oriental y occidental son los
siguientes:

Región
Clase de empleo Edición oriental Edición occidental
Tiempo completo 1105 31
Tiempo parcial 31 15
Independiente / consultor 229 186
Sin empleo 485 344

Use α = 0,05 y pruebe la hipótesis de que la clase de empleo es


independiente de la región. ¿Cuál es su conclusión?

17. Al nivel de significancia de 0,05, ¿podemos concluir que los siguientes


datos provienen de una distribución de Poisson con λ = 3 ?

Número de 6o
0 1 2 3 4 5
llegadas por día más
Número de días 6 18 30 24 11 2 9

18. Álvaro Carreño, gerente nacional de ventas de una compañía de


electrónica, ha recabado la siguiente estadística de salarios de los ingresos
de la fuerza de ventas en su campo. Tiene tanto las frecuencias observadas
como las frecuencias esperadas. Si la distribución de salarios es normal;

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 121

¿puede concluir Kevin que la distribución de los ingresos de la fuerza de


ventas es normal?. Al nivel de significancia de 0,10

Ingresos en miles
25-30 31-36 37-42 43-48 49-54 55-60 61-66
Frecuencia
9 22 25 30 21 12 6
observada
Frecuencia
6 17 32 35 18 13 4
esperada

Para recordar
 Se deben plantear en forma adecuada la hipótesis nula para una mejor
aplicación de la prueba de bondad de ajuste.

CIBERTEC CARRERAS PROFESIONALES


122

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 123

SEMANA

10
REGRESIÓN LINEAL SIMPLE
TEMAS

• Análisis de Regresión lineal Simple. Variable independiente, variable


dependiente
• Diagrama de dispersión. Método de mínimos cuadrados
• Recta de mínimos cuadrados en términos de varianzas muestrales
• Recta de regresión de mínimos cuadrados. Aplicación e interpretación

OBJETIVOS ESPECÍFICOS

• Conocer la ecuación de predicción lineal


• Determinar la ecuación de regresión lineal a partir de los datos observados

CONTENIDOS

• Análisis de Regresión lineal Simple


• Variable independiente, variable dependiente
• Diagrama de dispersión
• Método de mínimos cuadrados
• Recta de mínimos cuadrados en términos de varianzas muestrales
• Recta de regresión de mínimos cuadrados. Aplicación e interpretación

ACTIVIDADES

• Identifican el método de regresión lineal


• Analizan la ecuación de regresión lineal

CIBERTEC CARRERAS PROFESIONALES


124

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE


Análisis de Regresión
El objetivo del análisis de regresión es el de establecer una relación cuantitativa
entre dos o más variables seleccionadas. Trata de establecer un modelo que
permite predecir, explicar o estimar el valor de una variable (dependiente) en
función de otras variables (independientes).

El modelo a establecer puede tener la forma de la ecuación de una recta


(modelo lineal), de la ecuación de una parábola, de la función logarítmica, de la
función exponencial. Asimismo, según el número de variables independientes,
el modelo puede ser simple (una variable independiente) o múltiple (más de
una variable independiente).
Para establecer cuál es el modelo a utilizar, es conveniente elaborar un
Diagrama de Dispersión.

Regresión lineal simple


Implica que se debe establecer un modelo que permita explicar a la variable Y
(dependiente) en función de la variable independiente X. En un gráfico de
dispersión, lo que se trata de ajustar una línea entre los puntos observados.

Supuestos del análisis de regresión lineal simple:

a) Cada valor de las variables X e Y se distribuye normalmente.


b) Las medias de las distribuciones normales (de cada X e Y) se encuentran
sobre la recta de regresión.
c) Las desviaciones estándar correspondientes son iguales.
d) Los valores de Y son estadísticamente independientes.
∧ ∧
El modelo de regresión lineal simple tiene la forma: y = a+bx
Donde:
a: intercepto con el eje Y o la variación de Y que no es explicada por x
b: es la pendiente de la recta o el valor que varía Y cuando x aumenta en una
unidad.

Para calcular estos coeficientes se utiliza el método de mínimos cuadrados a


partir del cual se obtienen las siguientes fórmulas:
∑ y = na + b∑ x
∑ xy = a∑ x + b∑ x 2

n∑ xy − ∑ x∑ y Sx y
b= ó b=
n∑ x 2 − (∑ x )
2
S x2
∧ Sx y ∧
( y - y) = ( x − x)
S x2
Coeficiente de correlación r:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 125

n∑ x y − ∑ x∑ y Sx y
r= ó r=
n∑ x 2 − (∑ x ) n∑ y 2 − (∑ y ) Sx S y
2 2

Al realizar la estimación de la variable dependiente Y utilizando la recta de


regresión es obvio esperar que el resultado no sea exacto. Hay diferencias con
respecto a los valores “reales” y a dichas diferencias se les denomina error. Por
ello, se define al error estándar de estimación (Sxy) como la desviación
promedio de todas las observaciones con respecto a la recta de regresión. Se
calcula de la siguiente manera:

SC ( y ) − b2 .SC ( x)
S xy = n−2
(∑ x ) 2
(∑ y ) 2

SC(x) = ∑ x2 −
n
SC(y) = ∑ y2 −
n

SP(xy) = ∑ xy −
(∑ x )(∑ y ) b=
SP(xy)
n SC(x)

b 2 .SC(x)
a = y − bx r =
2

SC(y)

CIBERTEC CARRERAS PROFESIONALES


126

ACTIVIDADES

1. ¿Son importantes las notas en la universidad para ganar un buen sueldo?


Un estudiante de estadística comercial tomó una muestra aleatoria de
sueldos iniciales y promedios de notas en la universidad de algunos de sus
amigos recién graduados. Los datos son los siguientes:

Sueldo inicial ($ miles) 36 30 30 24 27 33 21 27


Promedio de notas 4,0 3,0 3,5 2,0 3,0 3,5 2,5 2,5

1.1 Represente gráficamente estos datos.


1.2 Desarrolle la ecuación de estimación que mejor describa los datos.

2. La fundación Wuawua desea mostrar con estadísticas que, contrariamente


a la creencia popular, las cigüeñas sí traen bebés. Por lo tanto, ha recabado
datos sobre el número de cigüeñas y el número de bebés (ambos en miles)
en varias ciudades grandes de Europa central.

Cigüeñas 27 38 13 24 6 19 15
Bebes 35 46 19 32 15 31 20

2.1 Calcule el coeficiente de determinación de muestra y el coeficiente


de correlación de muestra de estos datos.
2.2 ¿Ha refutado la ciencia estadística la creencia popular?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 127

3. El presidente de una compañía de computadoras está interesado en


estudiar la relación entre el tamaño del aumento anual y el desempeño de
un representante de ventas en el año subsiguiente. Muestreó a 12
representantes de ventas y determinó los tamaños de sus respectivos
aumentos (dado como un porcentaje de sus sueldos individuales) y el
número de ventas hechas por cada uno durante los aumentos de los
siguientes 12 meses.

Tamaño del 7,8 6,9 6,7 6,0 6,9 5,2 6,3 8,4 7,2 10,1 10,8 7,7
aumento
Número de 64 73 42 49 71 46 32 88 53 84 85 93
ventas

3.1 Desarrolle la ecuación de estimación de mejor ajuste que describa estos


datos.
3.2 Calcule el error estándar de la estimación para esta relación.
3.3 Desarrolle un intervalo de confianza de aproximadamente 90% para el
número de ventas hechas por un vendedor después de recibir un
aumento de 9,6%

4 La cadena de comida Mikuy ha experimentado grandes fluctuaciones en


sus ingresos en los últimos años. Durante este tiempo, se han empleado
numerosos platillos especiales, productos nuevos y técnicas de publicidad,
así que es difícil determinar qué estrategias son las que han tenido mayor
influencia en las ventas. El departamento de mercadeo ha estudiado una
variedad de relaciones y cree que los gastos mensuales en carteleras
pueden ser significativos. Muestreó siete meses y determinó lo siguiente:

Gastos mensuales en carteleras (x $1 000) 25 16 42 34 10 21 19


Ingresos mensuales de ventas (x $100 000) 34 14 48 32 26 29 20

4.1 Desarrolle una ecuación de estimación que mejor describa estos datos.
4.2 Calcule el error estándar de la estimación de esta relación.

CIBERTEC CARRERAS PROFESIONALES


128

4.3 Para un mes con un gasto de carteleras de $ 28 000, desarrolle un


intervalo de confianza de aproximadamente 95% para las ventas
mensuales esperadas para ese mes.

5. En la siguiente tabla se muestra las cantidades extraídas (en miles Kg.) de


oro a lo largo de 10 años de producción. Si los parámetros de producción
están controlados, sobre la base de estos datos estime la extracción para el
año 11.

Año 1 2 3 4 5 6 7 8 9 10
Extracción 0,25 0,28 0,38 0,45 0,68 0,78 1,20 1,80 2,15 2,98

6. Un analista de mercado desea estudiar las exportaciones de espárragos


que se están produciendo antes de la aceptación del Tratado de Libre
Comercio con EEUU.
Toma una muestra aleatoria a 10 embarques recientemente enviados a lo
largo de 2 semanas por la Compañía Espárragos Perú SA y registra los
siguientes volúmenes de exportación (en toneladas). Estos datos se
muestran a continuación:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 129

Embarque 1 2 3 4 5 6 7 8 9 10
Volumen Exp. 82 102 125 132 147 161
865 915 950 980
5 0 0 5 0 5

6.1 Construya un diagrama de dispersión y determine si un análisis de


regresión lineal es apropiado para relacionar los volúmenes exportados
y el transcurrir del tiempo.
6.2 Mediante el método de mínimos cuadrados, halle una ecuación que
permita estimar el volumen de exportación a lo largo del tiempo.
6.3 Calcule el error estándar de estimación e interprételo.

7. El tiempo en segundos en que una computadora con procesador XTF se


demora en correr un sofisticado programa de regresión se cree que depende
de la cantidad de KB que pueda tener el archivo “datos” necesario para que
el programa determine los resultados que se esperan. Para 10 archivos
distintos “datos” se obtuvo la siguiente información:
∑ x = 1450 ∑ x 2 = 218 , 500 ∑ y = 47225
2

∑ y = 673 ∑ xy = 101 , 570


7.1 Determine la recta de regresión.
7.2 Estime el tiempo que la computadora se demorará en correr el
programa cuando se utiliza un archivo “datos” de 180 KB.

CIBERTEC CARRERAS PROFESIONALES


130

8. Un editor tomó una muestra de 7 libros anotando el precio y el número de


páginas con el fin de predecir precios. ¿Qué porcentaje de la varianza total
de precios se explica por esta función?

Precio
12,00 12,50 13,80 15,40 17,50 18,00 20,00
($)
# Pág. 175 240 280 320 380 420 500

8.1 Determine la ecuación de regresión lineal.


8.2 Determine el coeficiente de correlación entre el precio y el número de
páginas.
8.3 Estime el precio de un libro de 600 páginas. Si a este libro se le
incrementa 40 paginas en una segunda edición, ¿en cuánto se
incrementará su precio?
8.4 ¿ Cuántas páginas debería tener un libro cuyo precio se estima en $
25,30?

9. Un estudio de Mercado trata de averiguar si es efectiva la propaganda


televisada de un producto que salió a la venta con relación al tiempo de
publicidad (en horas/semana). Se recopilaron datos a partir de la segunda
semana de iniciada la publicidad resultando el cuadro que sigue. No se
puedo recopilar datos de la cuarta parte.

Semana 2 3 4 5 6 7
Tiempo de
10 15 16 18 26 30
propaganda
Venta del producto
3000 3320 - 3850 4000 4200
($)

9.1 Halle la ecuación de regresión lineal.


9.2 ¿En cuanto estimaría las ventas para la semana 4?

10. Una empresa que fabrica Plantas de zapatillas quiere estudiar la relación
entre las edades (en años) de un tipo de máquinas compradas para la

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 131

fabricación de este artículo y el número de artículos que se producen a lo


largo de una semana. A partir de la muestra siguiente:

Años 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0
No de 453 564 624 679 964 985
-- -- --
Artículos 4 5 8 4 2 5

10.1 Determine la recta de regresión de mínimos cuadrados para predecir


la producción. Estime la producción para 4, 2,5 y 2 años.
10.2 Calcule el porcentaje de la varianza explicada por la regresión de la
producción.

Autoevaluación
1. Suponga que usted tiene a su cargo el dinero de la municipalidad de San
Marcos (Ancash). Se le dan los siguientes datos de antecedentes sobre el
suministro de dinero y el producto nacional bruto (ambos en millones de
soles):

Suministro de
2,0 2,5 3,2 3,6 3,3 4,0 4,2 4,6 4,8 5,0
dinero
Producto Nacional
5,0 5,5 6,0 7,0 7,2 7,7 8,4 9,0 9,7 10,0
Bruto

1.1. Desarrolle la ecuación de estimación para predecir el producto nacional


bruto Y del suministro de dinero X.
1.2. ¿Cómo interpreta la pendiente de la línea de regresión?
1.3. Calcule e interprete el error estándar de la estimación.
1.4. Calcule el intervalo de predicción de aproximadamente 90% para el
producto nacional bruto cuando el suministro de dinero es 8,0.

CIBERTEC CARRERAS PROFESIONALES


132

2. Durante los partidos recientes de tenis, un jugador ha observado que sus


lanzamientos no han sido totalmente eficaces porque sus oponentes le han
regresado algunos de ellos. Algunas de las personas con las que juega son
bastante altas, así que se ha estado preguntando si la altura de su oponente
podría explicar el número de lanzamientos no regresados durante un
partido. Los siguientes datos se sacaron de cinco partidos recientes.

Altura del oponente (H) pies 6,0 5,5 5.2 5.1 5,0
Lanzamientos no regresados(L) 12 9 7 7 3

2.1. ¿Cuál es la variable dependiente?


2.2. ¿Cuál es la ecuación de estimación de mínimos cuadrados para
estos datos?
2.3. ¿Cuál es su mejor estimación del número de lanzamientos no
regresados para su partido de mañana con un oponente de 5,9 pies de
altura?

3. Un estudio hecho por el Ministerio de Transportes y Comunicaciones,


acerca del efecto de los precios de los pasajes de los buses
interprovinciales sobre el número de pasajeros, produjo los siguientes
resultados:

Precio del pasaje 25 30 35 40 45 50 55 60


Pasajeros por 100 millas 800 780 780 660 640 600 620 620

3.1. Represente gráficamente estos datos.


3.2. Desarrolle la ecuación de estimación que mejor describa estos
datos.
3.3. Pronostique el número de pasajeros por 100 millas si el precio del
pasaje fuera 50. Utilice un intervalo de predicción de 95% de
aproximación.

4. Se ha diseñado una prueba, para mostrar a los supervisores de una


compañía, sobre los riesgos de supervisar a sus trabajadores. Un trabajador
de la línea de ensamblaje tiene a su cargo una serie de tareas complicadas.
Durante el desempeño del trabajador, un inspector lo interrumpe
constantemente para ayudarlo a terminar las tareas. El trabajador después
de terminar su trabajo, recibe una prueba psicológica diseñada para medir la
hostilidad del trabajador hacia la autoridad (una alta puntuación significa una
hostilidad baja). A ocho distintos trabajadores se le asignaron las tareas y
luego se les interrumpió con propósitos de asistencia de instrucción un
número variable de veces y sus calificaciones correspondientes en la
prueba de hostilidad se revelan en la siguiente tabla.

número de veces de
interrupción al 5 10 10 15 15 20 20 25
trabajador
Calificación del trabajador
en la prueba de 58 41 45 27 26 12 16 3
hostilidad-9

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 133

4.1. Desarrolle la ecuación que mejor describa la relación entre el número de


veces de interrupción y la calificación de la prueba.
4.2. Pronostique la calificación esperada de la prueba si el trabajador es
interrumpido 18 veces.

5. El editor jefe de un importante periódico de la capital ha intentado convencer


al dueño del periódico para que mejore las condiciones de trabajo en el
taller de prensas. El está convencido de que, cuando trabajan las prensas,
el grado de ruido crea niveles no saludables de tensión y ansiedad.
Realmente hizo que un psicólogo realizara una prueba durante la cual los
prensistas se situaron en cuartos con niveles variables de ruido y, luego, se
les hizo otra prueba para medir niveles de humor y ansiedad. La siguiente
tabla muestra el índice de su grado de ansiedad o nerviosismo y el nivel de
ruido al que se vieron expuestos (1,0 es bajo y 10,0 es alto).

Nivel de ruido 4 3 1 2 6 7 2 3
Grado de ansiedad 39 38 16 18 41 45 25 38

5.1 Desarrolle una ecuación de estimación que describa los datos.


5.2 Pronostique el grado de ansiedad que se podría esperar cuando el nivel
de ruido es 5.

6. Una compañía administra a sus vendedores una prueba readiestramiento de


ventas antes de permitirles trabajar. La administración de la compañía está
interesada en determinar la relación entre las calificaciones de la prueba (T)
y el número de unidades vendidas por esos vendedores al final de un año
de trabajo. Los siguientes datos se recolectaron de 10 agentes de ventas
enumerados del 1 al 10 que han estado en el campo durante un año.

Número del 1 2 3 4 5 6 7 8 9 10
vendedor
Calificación (T) 2,6 3,7 2,4 4,5 2,6 5,0 2,8 3,0 4,0 3,4
Unidades 95 140 85 180 100 195 115 136 175 150
vendidas (S)

6.1 Encuentre la línea de regresión de mínimos cuadrados que podría


usarse para predecir las ventas de las calificaciones de las personas en
adiestramiento.
6.2 ¿En cuánto se incrementa el número esperado de unidades vendidas
por cada incremento de 1 punto en una calificación de la prueba?
6.3 Utilice la línea de regresión de mínimos cuadrados para predecir el
número de unidades que vendería una persona en adiestramiento que
recibió una calificación de prueba promedio.

7. El consejo municipal de La Victoria ha recabado datos sobre el número de


accidentes menores de tráfico y el número de juegos de fútbol de jóvenes
que tienen lugar en ese distrito el fin de semana.

X (juegos de fútbol) 20 30 10 12 15 25 34
Y (accidentes menores) 6 9 4 5 7 8 9

CIBERTEC CARRERAS PROFESIONALES


134

7.1 Desarrolle una ecuación de estimación que describa los datos.


7.2 Pronostique el número de accidentes menores de tráfico que ocurrirán
en un fin de semana durante el cual tendrán lugar 33 partidos de fútbol.
7.3 Calcule el error estándar de estimación.

8. En economía, la función de demanda de un producto a menudo se estima


mediante la regresión de la cantidad vendida (Q) sobre el precio (P). La
compañía Matel está tratando de estimar la función de demanda para su
nueva muñeca “Sally”, y ha recabado los siguientes datos:

P 20,0 17,5 16,0 14,0 12,5 10,0 8,0 6,5


Q 125 156 183 190 212 238 250 276

8.1 Represente gráficamente estos datos.


8.2 Calcule la línea de regresión de mínimos cuadrados.

9. Los contadores, con frecuencia, estiman los gastos generales basándose en


el nivel de producción. La envasadora “Miski” recabó información sobre
gastos generales y unidades producidas en diferentes plantas, y desean
estimar una ecuación de regresión para predecir gastos generales futuros.

Gastos generales 191 170 272 155 280 173 234 116 153 178
Unidades 40 42 53 35 56 39 48 30 37 40

9.1 Desarrolle la ecuación de regresión para los contadores costosos.


9.2 Pronostique los gastos generales cuando se producen 50 unidades.
9.3 Calcule el error estándar de la estimación.

10. El fabricante de una empresa que se dedica al desarrollo de vacunas


informáticas (antivirus), esta preocupado por la competencia que existe hoy en
el mercado. El fabricante desea estimar el tiempo que demora su producto en
analizar archivos de distintos tamaños. Para ello, se ha recolectado los
siguientes datos:

Tamaño (KB) 200 269 300 358 450 490 500 550
Tiempo (seg.) 10,9 12,1 14,4 17,8 18,9 19,5 21,8 24,9

Estime el tiempo que el antivirus se demorará en analizar un archivo de 480


KB.

Para recordar
 Se deben identificar adecuadamente la variable independiente y la variable
dependiente.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 135

SEMANA

11
REGRESIÓN NO LINEAL

TEMAS
• Análisis de Regresión no lineal: Cuadrática
• Análisis de Regresión no lineal: Potencial
• Análisis de Regresión no lineal: Exponencial
• Análisis de Regresión no lineal Logarítmica

OBJETIVOS ESPECÍFICOS

• Conocer las otras ecuaciones de predicción no lineales.


• Determinar la ecuación de regresión que mejor se aproxime a la realidad de
los datos observados.
• Estimar adecuadamente las regresiones no lineales

CONTENIDOS

• Regresión no lineal: Cuadrática


• Regresión no lineal: Potencial
• Regresión no lineal: Exponencial
• Regresión no lineal Logarítmica

ACTIVIDADES

• Identifican los diferentes métodos de regresión no lineal


• Analizan las diferentes ecuaciones de regresión no lineal

CIBERTEC CARRERAS PROFESIONALES


136

ANÁLISIS DE REGRESIÓN NO LINEAL

Regresiones no lineales
En un análisis de regresión cuando los valores de la variable independiente (X)
y la variable dependiente (Y) no se ajustan a una línea de regresión, se podrá
conseguir una relación lineal mediante una transformación de estos valores.

Regresión Potencial
y = Ax B ln y = ln(A) + B.ln(x)
Regresión Exponencial y = Ae Bx ln y = ln(A) + Bx
Regresión Hiperbólica y = 1 /( A + Bx) 1/y = A + Bx
y = A + Bx + Cx
2
Regresión Cuadrática

ACTIVIDADES

1. Ajuste, por el método de mínimos cuadrados, una curva de la forma:


y = Ax B para los siguientes datos:
X 2 3 4 5 6 7 8 9 10
Y 1,8 2,8 4,5 6,8 8,8 12.3 24,8 61,.5 84,.9

2. Ajuste, por el método de mínimos cuadrados, una curva de la forma:


y = Ae Bx para los siguientes datos:

X 1,2 2,3 3,4 5,5 8,6 11,7 13,8 16,9 21,1


Y 1,3 2,2 5,5 6,6 7,8 18.3 34,8 71,2 94,.8

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 137

4. Ajuste, por el método de mínimos cuadrados, una curva de la forma:


y = A + Bx + Cx para los siguientes datos:
2

X 2 3 5 7 9 11 13 16 21
Y 1 2 5 16 28 38 50 72 90

4. Un Vendedor de Autos usados desea estimar los precios (en $) de un lote de


autos usados importados desde el Asia. El estudio lo realiza para una misma
marca y modelo de la siguiente manera:

Años 1 2 3 4 5 6
10,50
Precio ($) 8,200 6,500 ----- 4,500 3,800
0

4.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de


los datos observados.
4.2 Estime el precio para un auto de 4 años de antigüedad.
4.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

CIBERTEC CARRERAS PROFESIONALES


138

5. Una nueva bacteria de influenza ha entrado al país, los reportes de algunas


partes del interior han alertado al ministerio de salud. El área de epidemiología
ha tomado muestra de algunos pacientes con dichos síntomas internados por
emergencia. Uno de los primeros estudios es ver la velocidad de reproducción
que esta bacteria tiene en el cuerpo humano. Para esto se realiza un cultivo de
estas bacterias (volumen) para encontrar dicha velocidad reproductiva. El
estudio lo realiza de la siguiente manera:

Tiempo (Horas) 3 4 5 6 7 8
Volumen (u3) 250 350 700 870 1080 1600

5.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de


los datos observados.
5.2 Si los médicos definen como epidemia cuando después de 14 horas el
volumen es de 10000 u3. , diga Ud. si lo observado llega a ese límite.

6. En una planta de gas natural se ha observado diferentes fallas en el


gaseoducto cuando se transfiere el gas hacia la ciudad. La zona donde más
problemas se han generado para el traslado del gas es de clima muy variado.
Se tomó del reporte de esa zona los volúmenes transferidos (cm3) y la presión
(Kg. /cm.2) generada. Los datos se encuentran en la siguiente tabla:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 139

Presión
3 4 5 6 7 8
(Kg./cm.2)
Volumen (cm3) 50 60 70 85 98 110

6.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de


los datos observados.
6.2 Estime la presión cuando el volumen sea 120 cm.3.

7. Un grupo político, que se presentará a las elecciones presidenciales, ha


observado que un gran problema es el de disminuir la pobreza. Para esto, uno
de los parámetros es la explosión demográfica. Por ello, realiza un estudio de
los últimos 25 años para averiguar la velocidad de crecimiento poblacional.
Asimismo, toma reportes históricos de la población (en millones) de la siguiente
manera:

Años 1980 1985 1990 1994 1998 2001 2003 2005


Población 10,5 11,2 12,5 13,2 18,8 22,6 27,8 32,8

7.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de


los datos observados.
7.2 Estime la población que se espera para el año 2010.
7.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

CIBERTEC CARRERAS PROFESIONALES


140

8. La empresa AMAUTA desea decidir si firma o no un contrato de


mantenimiento para su nuevo sistema de procesamiento de palabras. Los
directivos creen que el gasto de mantenimiento debe estar relacionado con el
uso, por ello han reunido la información que se ve en la tabla siguiente sobre
el uso semanal, en horas, y el gasto de mantenimiento (cientos de soles).

Uso semanal 13 10 20 28 32 17 24 31 40 38
(horas)
Gastos 17,0 22,0 30,0 37,0 47,0 30,5 32,5 39,0 51,5 40,0
anuales de
mantenimie
nto

8.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad


de los datos observados.
8.2 AMAUTA espera operar 30 horas semanales el procesador de palabras.
Determine un intervalo de predicción de 95% para el gasto de la
empresa en mantenimiento anual.
8.3 Si el contrato de mantenimiento cuesta s/. 3000 anuales, ¿recomendaría
firmarlo? ¿Por qué?

9. Los siguientes datos corresponden a la altura (pulgadas) y peso libras de


matadoras de voley :
Altura 68 64 62 65 66
Peso 132 108 102 115 128

9.1 Desarrolle la ecuación de regresión que mejor se aproxime a la realidad de


los datos observados.
9.2 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 141

10. Los datos siguientes muestran las ventas (en millones) de cajas y los
gastos de publicidad (en miles de soles) para siete marcas de gaseosas.

Marca Gastos de publicidad (s/.) Ventas de cajas


Inca kola 131,3 1 929,2
Coca Cola 92,4 1 348,6
Kola Real 60,4 811,4
Pepsi cola 55,7 541,5
Isaac Kola 40,2 536,5
Concordia 29,0 535,6
Saboré 11,6 219,5

10.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad


de los datos observados.
10.2 ¿Qué parece indicar este diagrama acerca de la relación entre las dos
variables?
10.3 Prediga las ventas para una marca que gaste 70 millones de soles en
publicidad.
10.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

CIBERTEC CARRERAS PROFESIONALES


142

Autoevaluación
3. A continuación, observamos datos sobre el porcentaje de vuelos que llegan
puntuales y la cantidad de quejas por 100 00 pasajeros.

Porcentaje
Aerolínea Quejas
puntual
WAYRA PERÚ 81,8 0,21
L C BUSRE 76,6 0,58
TACA 76,6 0,85
AERO
75,7 0,68
CONDOR
ATSA 73,8 0,74
IBERIA 72,2 0,93
LAN PERÚ 71,2 0,72
STAR PERÚ 70,8 1,22
AERO MÉXICO 68,5 1,25

3.1 Trace un diagrama de dispersión para estos datos.


3.2 ¿Qué parece indicar este diagrama acerca de la relación entre las dos
variables?
3.3 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad
de los datos observados.
3.4 Proporcione una interpretación para la curva de la ecuación de regresión
estimada.
3.5 ¿Cuál es la cantidad estimada de quejas por 100000 pasajeros si el
porcentaje de vuelos puntuales es 80%?

4. Los principales hoteles ofrecen, con frecuencia, tarifas especiales para


viajeros de negocios. Las tarifas mínimas se cobran cuando se hacen
reservaciones con 14 días de anticipación. La tabla siguiente muestra las
tarifas de negocios y las de súper ahorro por 14 días de anticipación, por
una noche, en una muestra de seis hoteles.

Lugar del hotel Tarifas de negocios Tarifa de anticipo de


14 días s/.
Ica 89 81
Trujillo 130 115
Arequipa 98 89
Lima 149 138
Cuzco 199 149
Iquitos 114 94

4.1 Trace el diagrama de dispersión para estos datos, con las tarifas de
negocios como variable independiente.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 143

4.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad


de los datos observados.
4.3 El hotel de turistas de Huancayo, tiene una tarifa de negocios de s/. 135
por noche. Estime la tarifa de súper ahorro por 14 días de anticipación.
4.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

5 La empresa Vista reúne los datos que muestran qué publicistas obtienen la
mayor difusión durante las horas estelares de TV en 6 canales de televisión.
A continuación, se presentan los datos de la cantidad de familias
espectadoras, en millones, y la cantidad de veces que salió el anuncio al
aire durante la semana del 23 de julio al 10 de agosto.

Marca Veces que salió al Familias


anunciada aire espectadoras
Kolinos 28 191,7
Colgate 20 174,6
Dento 14 161,3
Ace 16 161,1
Ariel 16 147,7
Bolívar 16 146,3
Pacocha 11 138,2
.5.1 Desarrolle una ecuación de regresión que mejor se aproxime a la
realidad de los datos observados.
5.2 ¿Cuál es la cantidad estimada de familias espectadoras si un anuncio sale
15 veces al aire en una semana?
5.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

5 Abajo están los datos recopilados por un gerente de ventas de reportes


anuales y en años de experiencia.

Vendedor 1 2 3 4 5 6 7 8 9 10
Años de
1 3 4 4 6 8 10 10 11 13
Experiencia
Ventas anuales (S/.
80 97 92 102 103 111 119 123 117 136
miles)

6.1 Trace el diagrama de dispersión para estos datos, con los años de
experiencia como la variable independiente.
6.2 Forme una adecuada ecuación de regresión con la que se puedan
predecir las ventas anuales, dados los años de experiencia.
6.3 Use la ecuación estimada de regresión para predecir las ventas anuales
de un vendedor con 9 años de experiencia.

7 Las clases de llantas y capacidades de carga para una muestra de llantas


son las siguientes:

CIBERTEC CARRERAS PROFESIONALES


144

Clase
75 82 85 87 88 91 92 93 105
de llanta
Capacidad 1 1 1 1 1 1 1 2
853
de carga 047 135 201 235 356 389 433 039

7.1 Trace un diagrama de dispersión para estos datos, con la clase de llanta
como variable independiente.
7.2 Desarrolle una ecuación de regresión que mejor se aproxime a la
realidad de los datos observados.
7.3 Estime la capacidad de carga para una llanta cuya clase es 90.

8 Los datos siguientes muestran los ingresos de los casinos y de sus hoteles,
en miles de soles.

Compañía Ingreso en hotel Ingreso en casino


J W Marriott 303,5 548,2
Swissôtel Lima 664,8 664,8
Sheraton 121,00 270,7
Hotel de las Américas 429,6 511,0
Delfines 373,1 404,7
El Condado 670,9 782,8
Plaza del bosque 66,4 130,7
Sonesta 105,8 105,5
Costa del Sol 102,4 148,7
Sol de Oro 135,8 358,5

8.1 Trace un diagrama de dispersión para estos datos, con los ingresos en
el hotel como variable independiente.
8.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad
de los datos observados.
8.3 Suponga que los ingresos del hotel fueron de s/. 500 millones. ¿Cuál es un
estimado de los ingresos del casino?
8.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

9 La siguiente tabla muestra el porcentaje de mujeres que trabaja en cada


empresa (x) y el porcentaje de puestos gerenciales desempeñados por
mujeres en esa empresa (y). Los datos son de empresas del sector de
ventas y comercio al menudeo.

Empresa Xi Yi
Wong 72 61
Mc Donald’s 47 16
Hiraoka 51 32
Ebel 57 46
Aceros Arequipa 55 36

9.1 ¿Qué indica el diagrama de dispersión trazado en el inciso a acerca de


la relación entre x e y?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 145

9.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad


de los datos observados.
9.3 Prediga el porcentaje de puestos gerenciales desempeñados por
mujeres en una empresa en la que el 60% de sus empleados sean
mujeres.
9.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

10 En el país, las autoridades del gobierno consideran que para que las
deducciones totales sean razonables, es necesario considerar el ingreso
bruto del causante. Las grandes deducciones, que comprenden los pagos a
instituciones de beneficencia y por gastos médicos, son más razonables
para causantes con grandes ingresos brutos ajustados. Si un causante pide
deducciones mayores que el promedio para determinado nivel de ingresos,
aumentan las posibilidades de una auditoría fiscal. A continuación vemos
datos sobre el impuesto bruto ajustado y el promedio o cantidad razonable
de deducciones agrupadas. Los datos están en miles de dólares.

Ingresos Deducciones
brutos ajustadas totales (s/.
ajustados miles)
22 9,6
27 9,6
32 10,1
48 11,1
66 13,5
85 17,7
120 25,5

10.1Trace un diagrama de dispersión para esos datos, con ingresos brutos


ajustados como variable independiente.
10.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad
de los datos observados.
10.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

11 En los siguientes datos, se ven las tasas de ocupación (%) y las tarifas por
noche ($) en las regiones hoteleras más importantes de Estados Unidos.

Región Tasa de Tarifa


ocupación promedio
(%) por noche (s/.
)
Los Angeles 67,9 75,91
Chicago 72,0 92,04
Washington 68,4 94,42
Atlanta 67,7 81,69
Dallas 69,5 74,76

CIBERTEC CARRERAS PROFESIONALES


146

San Diego 68,7 80,86


Anaheim –Santa 69,5 70,04
Ana
San Francisco 78,7 106,47
Houston 62.0 66,11
Miami 71,2 85,83
Oahu Island 80,7 107,11
Phoenix 71,4 95,34
Boston 73,5 105,51
Tamp 63,4 67,45
Dtroit 68,7 64,79
Philadelphia 70,1 83,56
Nashvile 67,1 70,12
Seatle 73,4 83,60
Mineapolis 69,8 73,64
New Orleans 70,6 99,00

11.1 Trace un diagrama de dispersión para estos datos, con la tarifa


promedio por noche como variable independiente.
11.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad
de los datos observados.
11.3 Estime la tasa promedio de ocupación para un hotel cuya tarifa
promedio sea de s/. 130,00 por noche.
11.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

12 Los datos de la tabla siguiente muestran la cantidad de ventas de acciones


(en millones) y el precio esperado (promedio del precio bajo proyectado y el
precio alto proyectado) para 10 emisiones públicas iniciales de acciones.

Empresa Venta de Precio


acciones esperado(s/.)
Nabisco 5,0 15
Nestlé 9,0 14
P&G 6,7 15
Backus 8,75 17
Cementos 3,0 11
Lima
Andina SAC 13,6 19
Pacocha 4,6 13
PROATEC 6,7 14
Río Blanco 3,0 10
Yanacocha 7,7 13

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 147

12.1 Desarrolle una ecuación de regresión que mejor se aproxime a la


realidad de los datos observados (con la cantidad de acciones vendidas
como variable independiente).
12.2 Use la ecuación de regresión para estimar el precio que puede
esperar una empresa con una oferta pública inicial de 6 millones de
acciones.
12.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su
respuesta.

13 Una ley manda publicar información sobre impuestos irregulares sobre


propiedad. Hace una lista del nombre del propietario, la valuación de la
propiedad y la cantidad de impuestos, evaluaciones y penalizaciones
vencidas. La valuación de la propiedad y los impuestos vencidos para una
muestra de 10 propiedades irregulares aparecen en la siguiente tabla. La
valuación está en miles de soles.

Valuación de la Cantidad
propiedad vencida
(en miles de soles) (en soles)
18,8 445
24,4 539
20,4 1 212
35,8 2 237
14,8 479
40,4 1 181
49,0 4 187
14,5 409
37,3 1 002
54,7 2 062

13.1 Determine la ecuación de regresión para estimar la cantidad de


impuestos vencidos de la valuación de la propiedad.
13.2 Aplicar la ecuación de regresión para estimar los impuestos
vencidos para una propiedad cuya valuación es de s/. 42 400.
13.3 ¿Cree usted que la ecuación de regresión permita una buena
predicción de la cantidad de impuestos vencidos?

14 En un proceso de manufactura, se cree que la velocidad de la línea de


producción, en pies por minuto, afecta la cantidad de piezas defectuosas
que se encuentran en proceso de inspección. Para probar esta teoría se
hizo una determinación en la que el mismo conjunto de partes era
inspeccionado visualmente a diversas velocidades de la línea. En la tabla
siguiente, se ve una lista de los datos reunidos.

Valor de la línea 20 20 40 30 60 40
Cantidad de partes defectuosas 21 19 15 16 14 17
encontradas

CIBERTEC CARRERAS PROFESIONALES


148

14.1 Desarrolle una ecuación de regresión que mejor se aproxime a la


realidad de los datos observados.
14.2 Tuvo un buen ajuste con los datos de la ecuación de regresión?

15 Un hospital de una gran ciudad contrató a un psicólogo para investigar la


relación entre la cantidad de días que faltan sin permiso los empleados, por
año, y la distancia, en millas, de su hogar a su trabajo. Se eligió una
muestra de 10 empleados y se reunieron los siguientes datos:

Distancia al trabajo 1 3 4 6 8 10 12 14 14 18
Cantidad de días de ausencia 8 5 8 7 6 3 5 2 4 2

15.1 Desarrolle una ecuación de regresión que mejor se aproxime a la


realidad de los datos observados.
15.2 ¿Tienen buen ajuste los datos con la ecuación de regresión?
Explique por qué.
15.3 ¿Tuvo un buen ajuste con los datos de la ecuación de regresión?

Para recordar
 Se deben identificar adecuadamente las ecuaciones de regresión no lineal.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 149

SEMANA

12
REGRESIÓN LINEAL MÚLTIPLE
TEMAS

• Análisis de Regresión lineal múltiple


• Recta de regresión de mínimos cuadrados
• Aplicación e interpretación

OBJETIVOS ESPECÍFICOS

• Conocer la otra ecuación de predicción lineal


• Determinar la ecuación de regresión lineal múltiple a partir de los datos
observados
• Estimar adecuadamente la regresión lineal múltiple

CONTENIDOS

• El proceso de regresión múltiple


• Error estándar de la estimación de la regresión múltiple
• Los coeficientes de determinación múltiple

.
ACTIVIDADES

• Identifican el método de regresión lineal múltiple


• Analizan la ecuación de regresión lineal múltiple

CIBERTEC CARRERAS PROFESIONALES


150

ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

El proceso de regresión múltiple se usa cuando es posible utilizar más de una


variable independiente para estimar la variable dependiente y, de esta manera,
intentar aumentar la precisión de la estimación. Este proceso está basado en
las mismas suposiciones y procedimientos que se encuentran al utilizar la
regresión simple.

Considere al agente de bienes raíces que desea relacionar el número de casas


que la firma vende en un mes con la cantidad de su publicidad mensual.
Ciertamente, se puede encontrar una ecuación de estimación sencilla que
relacione a estas dos variables. Si se incluye en el proceso de estimación el nú-
mero de vendedores que emplea cada mes, para predecir las ventas
mensuales de casas, se debe utilizar regresión múltiple, y no simple, para
determinar la relación.

La principal ventaja de la regresión múltiple es que permite utilizar más informa-


ción disponible para estimar la variable dependiente. En algunas ocasiones, la
correlación entre dos variables puede resultar insuficiente para determinar una
ecuación de estimación confiable. Sin embargo, si se agrega los datos de más
variables independientes, es posible determinar una ecuación de estimación
que describa la relación con mayor precisión.

Regresión lineal múltiple es un modelo de la forma:


Y = a o + a1 X 1 + a 2 X 2+ a3 X 3+ a4 X 4 + .......... .... + an X n
Donde:
Y: Variable dependiente
Xi: Variable independiente “i”, cuando i = 1, 2, 3, 4,.......n

El significado de los coeficientes de las “n” variables independientes, así como


las definiciones de error estándar de estimación y coeficiente de determinación
son válidas también para este modelo.

Sea el modelo de la forma: Y = a + bX 2 + cX 2
Para hallar los valores de a, b y c

∑Y = na + b ∑X 1
+ c ∑X 2

∑YX a ∑X
b ∑ X1 + c ∑ X X
2
1
= 1
+ 1 2

∑ Y X = a ∑ X + b ∑ X X +c ∑ X 2
2
2 2 1 2

Medida de dispersión o el error estándar de la estimación de la regresión


múltiple. En la regresión simple, la estimación se hace más precisa conforme
el grado de dispersión alrededor de la regresión se hace más pequeño. Lo
mismo se aplica a los puntos de muestra que se encuentran alrededor del
plano de regresión múltiple.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 151

Para medir esta variación, se debe utilizar de nuevo la medida conocida como
error estándar de la estimación:

Sea el modelo de la forma: Y = a + bX 2 + cX 2

Se =
∑ (Y − Y ) 2
n − k −1
Donde:
. y = valores de muestra -de la variable dependiente

. Y = valores correspondientes estimados a partir de la ecuación de
regresión.
n = número de puntos de dato de la muestra
. k = número de variables independientes
El denominador de esta ecuación indica que, en la regresión múltiple con k
variables independientes, el error estándar tiene n-k - 1 grados de libertad. Esto
es así debido a que los grados de libertad se ven reducidos de su valor n en los
k + 1 constantes numéricas, a, bl, b2, ..., bk, que fueron estimadas de la misma
muestra.
Como fue el caso en la regresión simple, se puede utilizar el error estándar de
la estimación y la distribución t para formar un intervalo de confianza
aproximado alrededor de nuestro valor estimado Y. Si se desea construir un

intervalo de confianza del 95% alrededor de esta estimación de Y con (n-k –
1) grados de libertad. Luego de hallar el valor apropiado de t, se puede calcular
los límites del intervalo de confianza de esta forma:

LSup = Y + tS e Límite superior

LInf = Y − tS e Límite inferior

Los coeficientes de determinación múltiple. En el estudio del análisis de


correlación simple, se mide la intensidad de la relación entre dos variables,
utilizando el coeficiente de determinación r 2 de la muestra. Este coeficiente es
la fracción de la variación total de la variable dependiente Y que se explica con
la ecuación de estimación.

Similarmente, en la correlación múltiple se deberá medir la intensidad de la


relación entre tres variables utilizando el coeficiente de determinación
múltiple, R2, o su raíz cuadrada, R (el coeficiente de correlación múltiple).
Este coeficiente de determinación múltiple es también la fracción que
representa la porción de la variación total de Y que es "explicada" por el plano
de regresión. .

CIBERTEC CARRERAS PROFESIONALES


152

ACTIVIDADES

1. Se quiere controlar el precio (valor real) de cierto producto a partir de los de


gastos de publicidad (miles de $) y los gastos en transporte ($/ton.). En un
mes se tomó una muestra de 9 ensayos y se observó lo siguiente:

Precio 2 2,1 2,2 2,5 2,6 2.6 2,7 2,7 2,8


Publico. 12 14 17 22 26 28 32 34 35
Transporte 25 25,2 25,1 25,3 25,3 25,4 25,3 25,4 25,5

1.1 Halle la ecuación de regresión lineal múltiple de mínimos cuadrados


para predecir los precios reales.

1.2 Determine el precio real a un gasto de publicidad de 30 y un gasto en el


transporte de 26.

2. Una fábrica de cierta marca de reactivos industriales desea saber los


posibles cambios de reacción que sus productos pueden generar en
diferentes temperaturas a diferentes volúmenes de solvente utilizado. Se ha
tomado al azar 9 muestras, observando la temperatura de trabajo media
correspondiente en grados centígrados (X1), el volumen del solvente
utilizado (X2) y el peso promedio recuperado de soluto (Y). Los datos se
resumen en la siguiente tabla:

X1 18 19 21 22 23 27 29 21 23
X2 6 9 5 7 8 7 5 6 5
Y 60 69 62 65 69 70 71 65 64

Halle la recta de regresión múltiple de mínimos cuadrados para predecir el


peso promedio de soluto recuperado ¿Se puede planificar dicha
recuperación sobre la base de la temperatura?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 153

3. La compañía minera PROATEC SA desea avaluar los posibles problemas


que tiene en la recuperación de concentrado de oro a partir del proceso de
lixiviación controlada, en la unidad “León” ubicado en la localidad de
Churubamba departamento de Huanuco. Los siguientes datos son los
pesos en gramos recuperados por Tn. (Y), temperatura de trabajo (X1)
volumen de cianuro a utilizar ml/gl(X2):

X1 8 9 1 2 3 7 9 1 3
X2 6 9 5 7 8 7 5 6 5
Y 6 6,9 6,2 6,5 7,2 7,0 7,1 6,6 6.8

3.1 Ajuste una curva de regresión lineal múltiple.

3.2 Estime la recuperación al trabajar a 5 °c y u n volumen de 9ml de CN.

4. Ajuste una curva de regresión lineal múltiple a los siguientes datos:

X1 4 8 12 16 20 24 28 32
X2 3 6 14 18 29 37 38 42
Y 24 21 20 15 14 10 7 5

CIBERTEC CARRERAS PROFESIONALES


154

4.1 Halle la ecuación de regresión lineal múltiple de mínimos cuadrados.


4.2 Determine el valor de Y, cuando X1 es igual a 35 y X2 es igual a 30.

5. La presión P (Kg./cm2) de un gas metano es dependiente de las variables


X1, X2 y X3, Se registró 6 reportes realizados en el laboratorio para un
posible control de este gas:

P 79, 7 65, 3 52, 7 36, 4 27, 7 18, 5


X1 77 61 56 68 57 87
X2 50 60 67 78 89 98
X3 97 51 52 58 56 57

Ajuste a los datos una curva de regresión lineal múltiple y estime P cuando
X1 es 91, X2 es 80 y X3 es 70

6. Un gerente de obra de una constructora desea optimizar los pagos realizados


en el transporte de concreto premezclado a las diferentes obras de su cargo.
De reportes anteriores, obtuvo, de varios envíos, datos de ubicación (en

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 155

kilómetros), tonelaje de concreto (cargado en los camiones) y gastos en


transporte (en $). Ello se resume en la siguiente tabla.

Ubicación 4 6 7,7 9,6 10 15,4 24,8 28


Tonelaje 6 8 8 10 9 10 12 10
Gastos ($) 24 34 40 45 45 50 60 70
6.1 Halle la recta de regresión múltiple de mínimos cuadrados para predecir
los gastos en transporte.
6.2 Si se desea enviar a 25 KM un volumen de 15 toneladas de concreto
premezclado, ¿cuál será el gasto en el transporte?.

Autoevaluación
1. Se desea predecir el número de solicitudes de reembolso de los impuestos
prediales, en una municipalidad, durante los días hábiles del período que va
del 1 de marzo al 15 de abril, de modo que se pueda planearse mejor las
necesidades de personal durante dicho periodo. Se ha hecho la hipótesis de
que varios factores pueden ser útiles en la predicción. Los datos
correspondientes a estos factores y el número de solicitudes de reembolso
de años anteriores son las siguientes:

X1 X2 X3 Y
Índice Población dentro Ingreso promedio Número de
económico de una milla a la para la solicitudes de
redonda de la municipalidad reembolso, del 1 de
oficina marzo al 15 de abril
99 10 188 21 465 2 306
106 8 566 22 228 1 266
100 10 557 27 665 1 422
129 10 219 25 200 1 721
179 9 662 26 300 2 544

CIBERTEC CARRERAS PROFESIONALES


156

1.1 Encuentre la ecuación de regresión de mejor ajuste para estos datos.


1.2 ¿Qué porcentaje del total de variación en el número de solicitudes de
reembolso se explica mediante esta ecuación?
1.3 Para 2003, el índice económico es de 169, la población dentro del área de
1 milla alrededor de la oficina es de 10 212, y el ingreso promedio en la
municipalidad es de $ 26 925. ¿Cuántas solicitudes de reembolso deberá
esperarse dar trámite entre el 1 de marzo y el 15 de abril?

2. Se intenta predecir la demanda anual de un cierto producto (DEMAND)


utilizando las siguientes variables independientes:
PRECIO = Precio del producto (en $)
INGRESO= Ingreso del consumidor (en $)
SUB = Precio del bien sustituto (en $)
(Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo,
la margarina es un buen sustituto de la mantequilla)

Año Demanda Precio Ingreso Sub


($) ($) ($)
1992 40 9 400 10
1993 45 8 500 14
1994 50 9 600 12
1995 55 8 700 13
1996 60 7 800 11
1997 70 6 900 15
1998 65 6 1000 16
1999 65 8 1100 17
2000 75 5 1200 22
2001 75 5 1300 19
2002 80 5 1400 20
2003 100 3 1500 23
2004 90 4 1600 18
2005 95 3 1700 24
2006 85 4 1800 21

2.1 Encuentre la ecuación de regresión de mejor ajuste para estos datos.


2.2 ¿Son los signos (+ o -) de los coeficientes de regresión de las variables
independientes como cabe esperar? Explique brevemente la respuesta.
2.3 Establezca e interprete el coeficiente de determinación múltiple del
problema.
2.4 Establezca e interprete el error estándar de la estimación para el
problema.
2.5Utilizando la ecuación de regresión obtenida, ¿qué valor de DEMAND
predeciría si el precio de los productos fue de $6, el ingreso del
consumidor de $1 200 y el precio del bien sustituto fue de $17?

3. Antonio está pensando en vender su departamento. Con el fin de decidir


qué precio pedir por él, ha recogido datos de doce ventas recientes.
Registró el precio de las ventas (en miles de dólares), el número de pies

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 157

cuadrados de construcción (en cientos de pies), el número de cuartos, el


número de baños y la antigüedad del departamento(en años).

Precio de Pies
Dormitorios Baños Antigüedad
venta cuadrados
49,65 8,9 1 1,0 2
67,95 9,5 1 1,0 6
81,15 12,6 2 1,5 11
81,60 12,9 2 1,5 8
91,50 19,0 2 1,0 22
95,25 17,6 1 1,0 17
100,35 20,0 2 1,5 12
104,25 20,6 2 1,5 11
112,65 20,5 1 2,0 9
149,70 25,1 2 2,0 8
160,65 22,7 2 2,0 18
232,50 40,8 3 4,0 12

3.1 Determine la ecuación de regresión de mejor ajuste para los datos


dados
3.2 ¿Cuál es el valor de R2 para esta ecuación?
3.3 Si el departamento de Antonio tiene 1 800 pies cuadrados (=18,0
cientos de pies cuadrados), un dormitorio, 1,5 baños y seis años de
antigüedad, ¿qué precio de venta podría esperar Antonio?

4 Aceros Arequipa ha estado buscando los factores que influyen en la


cantidad de acero (en millones de toneladas) que es capaz de vender cada
año. La administración sospecha que los siguientes son los factores
principales: la tasa anual de inflación del país, el precio promedio por
tonelada mediante el cual el acero importado acota los precios (en dólares)
de la compañía, y el número de construcciones que se están planeando
realizar en este año. Se han recogido los datos correspondientes a los
últimos siete años:

Año Y X1 X2 X3
Millones de Tasa de Limitación Número de
tons. inflación de construcciones
vendidas importación
1 4,2 3,1 3,10 6,2
999
1 3,1 3,9 5,00 5,1
998
1 4,0 7,5 2,20 5,7
997
1 4,7 10,7 4,50 7,1
996
1 4,3 15,5 4,35 6,5
995

CIBERTEC CARRERAS PROFESIONALES


158

1 3,7 13,0 2,60 6,1


994
1 3,5 11,0 3,05 5,9
993

4.1 Determine la ecuación de regresión de mejor ajuste para los datos.


4.2 ¿Qué porcentaje de la variación total de la cantidad de acero vendido
(en millones de toneladas) por la compañía cada año es explicado por
esta ecuación?
4.3 ¿Cuántas toneladas de acero deberá esperar vender la compañía en un
año, si la tasa de inflación estimada sería de 7,1; las empresas
constructoras están planeando construir 6,0 millones de departamentos
y el promedio de limitación por impuesto al acero importado por
tonelada sería de $3,50?

5 Una línea aérea ha efectuado una investigación sobre sus 15 terminales y


ha obtenido los siguientes datos correspondientes al mes de julio, en los
que se han recogido los siguientes datos:

VENTAS = Recuperación total basada en el número de boletos vendidos


(en miles de dólares)
PROMOC= Cantidad gastada en promover la línea aérea en la zona (en
miles de dólares)
COMPET = Número de aerolíneas competidoras en ese aeropuerto.
GRATIS = porcentaje de pasajeros que vuelan gratis (por alguna razón)

Venta Promoc Compet Gratis


79,3 2,5 10 3
200,1 5,5 8 6
163,2 6,0 12 9
200 7,9 7 16
146,0 5,2 8 15
177,7 7,6 12 9
30,9 2,0 12 8
291,9 9,0 5 10
160,0 4,0 8 4
339,4 9,6 5 16
159,6 5,5 11 7
86,3 3,0 12 6
237,5 6,0 6 10
107,2 5,0 10 4
155,0 3,5 10 4

5.1 Determine la ecuación de regresión de mejor ajuste para la aerolínea


5.2 ¿Los pasajeros que vuelan gratis ocasionan que las ventas bajen
significativamente? Establezca y pruebe las hipótesis apropiadas. Use
α=0,10.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 159

5.3 Dé un intervalo de confianza de 90% para el coeficiente de la pendiente


de COMPET.

6 El doctor Javier L. registró los datos correspondientes a edad, reacción a la


penicilina y presión sanguínea sistólica de 30 pacientes. Tomó la presión
sanguínea como la variable dependiente, la edad como X1 (variable
independiente) y la reacción a la penicilina como X2 (variable
independiente). Haciendo 0 represente una reacción positiva a la penicilina
y 1 una reacción negativa, hizo correr el procedimiento de regresión
múltiple. La ecuación de predicción es:

Yˆ = 6,7 + 3,5 X 1 + 0,489 X 2

6.1 Después de haber hecho la regresión, el doctor descubrió que en


realidad quería codificar una reacción positiva a la penicilina como =1 y la
negativa como 0. ¿Tiene que volver a realizar la regresión? Si es sí, ¿por
qué? Si no, dé la ecuación que debió haber obtenido si la variable
hubiera sido codificada de la manera que se había planeado inicialmente.
6.2 Si Sb2 tiene un valor de 0,09, ¿esta regresión proporciona evidencia a
un nivel de significancia de 0,05 de que la reacción a la penicilina es una
variable explicativa significativa de la presión sanguínea?

7 Una popular cadena de comida rápida, recientemente, ha experimentado un


marcado cambio en sus ventas, como consecuencia de una campaña
publicitaria bastante exitosa. Como resultado de lo anterior, la
administración de la cadena está buscando un nuevo modelo de regresión
para sus ventas. Los datos siguientes fueron recolectados durante un
periodo de doce semanas desde el inicio de la campaña publicitaria.

Ventas Ventas
tiempo (miles de tiempo (miles de
dólares) dólares)
1 4 618 7 19746
2 311 8 34215
3 7 119 9 50306
4 4 367 10 65717
5 5 118 11 86434
6 8 887 12 105464

7.1 Ajuste un modelo lineal con TIEMPO como variable independiente y


VENTAS como variable dependiente.
7.2 ¿Está usted satisfecho con el modelo construido en a) como predictor
de VENTAS? Explique su respuesta.
7.3 Ajuste un modelo cuadrático para los datos. ¿Este modelo es mejor?
Explique su respuesta.

8 Un profesor de estadística ha recolectado un conjunto de 20 pares de


puntos de datos. A la variable independiente la llamó X1 y a la variable
dependiente Y. Llevó a cabo una regresión de Y sobre X1, y no quedó

CIBERTEC CARRERAS PROFESIONALES


160

satisfecho con el resultado. Debido a algunos patrones no aleatorios que


observó en los residuos, decidió elevar al cuadrado los valores de X1;
designó como X2 a estos valores al cuadrado. El profesor, entonces, corrió
el procedimiento de regresión múltiple de Y sobre X1 y X2. La ecuación
resultante fue la siguiente:

Yˆ = 200,4 + 2,79 X 1 − 3,92 X 2


El valor de Sb1 fue de 3,245 y el de Sb2 fue de 1,53. A un nivel de
significancia de 0,05, determine si
8.1 El conjunto de valores lineales de X1 es una variable explicativa
significativa para Y.
8.2 El conjunto de valores al cuadrado de X1 es una variable explicativa
significativa para Y.

9 A continuación se presentan algunos datos sobre gastos de consumo,


CONSUMO; ingreso disponible, INGRESO; y sexo del jefe o de la jefa de
familia, SEXO; de n=12 familias escogidas aleatoriamente. La variable
GÉNERO ha sido codificada de la siguiente manera:

1 si SEXO = " M " ( masculino )


GÉNERO = 
 0 si SEXO = " F " ( femenino )

Consumo Ingreso($) Sexo Género


18535 22550 M 1
11350 14035 M 1
12130 13040 F 0
15210 17500 M 1
8680 9430 F 0
16760 20635 M 1
13480 16470 M 1
9680 10720 F 0
17840 22350 M 1
11180 12200 F 0
14320 16810 F 0
19860 23000 M 1

9.1 Ajuste un modelo de regresión para predecir CONSUMO a partir de


INGRESO y de GÉNERO.
9.2 Establezca la ecuación de regresión ajustada.
9.3 Si el ingreso disponible se mantiene constante, ¿existe una diferencia
significativa en el consumo entre familias cuyo jefe es hombre, contra
aquellas familias cuyo jefe es mujer? Establezca explícitamente las
hipótesis, pruébelas al nivel de significancia de 0,10 y establezca una
conclusión explícita.
9.4 Dé un intervalo de confianza aproximado de 95% para el consumo de
una familia con ingreso disponible de $ 23 000 y encabezada por un
hombre.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 161

10 La Unidad de Medición de la Calidad (UMC) está examinando la relación


existente entre el resultado de un empleado en una prueba de aptitudes, su
experiencia previa de trabajo y su éxito en el empleo. Se hace un estudio y
se pondera la experiencia de un empleado en trabajos anteriores, y se
obtiene un índice entre 2 y 12. La medida del éxito en el empleo está
basada en un sistema de puntuación que implica producción total y
eficiencia, con un valor máximo posible de 50. Se tomó una muestra de seis
empleados con menos de un año de antigüedad y se obtuvo lo siguiente:

X1 X2 Y
Resultado de la prueba Experiencia en Evaluación del
sobre aptitudes Trabajos anteriores desempeño
74 5 28
87 11 33
69 4 21
93 9 40
81 7 38
97 10 46

10.1Desarrolle la ecuación de estimación que mejor describa estos datos.

10.2Si un empleado obtuvo 83 puntos en la prueba de aptitudes y tenía una


experiencia en trabajos anteriores de 7, ¿qué evaluación de desempeño
se podría esperar?

11 El Banco de Lima desea abrir nuevas cuentas de cheques para clientes que
emitirán al menos 30 cheques al mes. Para ayudarse en la selección de los
nuevos clientes, el banco ha estudiado la relación existente entre el número
de cheques expedidos, y la edad y el ingreso anual de ocho de sus clientes
actuales. La variable EDAD fue registrada con respecto al año más reciente
y la variable INGRESO anual fue registrada en miles de dólares. Los datos
se presentan a continuación:

Cheques Edad Ingreso


29 37 16,2
42 34 25,4
9 48 12,4
56 38 25,0
2 43 8,0
10 25 18,3
48 33 24,1
4 45 7,9

11.1 Desarrolle una ecuación de estimación que utilice las variables


edad e ingreso para predecir el número de cheques emitidos por mes.
11.2¿Cuántos cheques al mes se esperaría que emitiera un cliente de 35
años de edad con ingreso anual de $22500?

12 Ciro Taipe está considerando cambiarse a otra parte de la ciudad y le


gustaría predecir el precio de venta de su casa. Ha decidido utilizar la

CIBERTEC CARRERAS PROFESIONALES


162

variable VALORIMP (en miles de dólares) y ESQUINA (= 1 para lotes


situados en esquina y 0 en cualquier otro caso) como variables explicativas.
Para ajustar su modelo, ha recolectado los datos, que se presentan a
continuación, concernientes a nueve ventas escogidas aleatoriamente, en la
que la variable PRECIO se midió en miles de dólares. Ha decidido utilizar
VALORIMP (VALORIMP)2 y ESQUINA como variables explicatorias, debido
a que piensa que existe una relación cuadrática.

Precio VALORIMP IMPES = (VALORIMP)2 Esquina


56,2 17,5 306,25 1
42,5 12,5 156,25 1
67,5 20,0 400,00 1
39,0 11,5 132,25 1
33,3 12,5 156,25 0
29,0 10,0 100,00 0
30,0 10,8 116,64 0
48,0 17,0 289,00 0
44,3 16,0 256,00 0

12.1 Calcule la ecuación de regresión de mejor ajuste para estos datos.


12.2 ¿Qué fracción de la variación en PRECIO se explica con esta
ecuación?
12.3 Dé un intervalo de confianza de 90% para el aumento de precio de
venta atribuible a tener un lote en esquina.
12.4 ¿Fue buena idea incluir la variable (VALORIMP)2 en la regresión?
Explique su respuesta.

Para recordar
 Se deben diferencias la variable dependiente de las variables
independientes.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 163

SEMANA

13
CORRELACIÓN
CORRELACIÓN ENTRE DOS VARIABLES

TEMAS

• Correlación entre dos variables, dependiente e independiente


• Coeficiente de correlación lineal (fórmula de Pearson)

OBJETIVOS ESPECÍFICOS

• Determinar los coeficientes de correlación para un conjunto de datos


• Determinar cuantitativamente el grado de asociación entre las variables

CONTENIDOS

• Análisis de correlación
• Correlación entre dos variables, dependiente e independiente
• Coeficiente de correlación lineal (fórmula de Pearson)

ACTIVIDADES

 Analizan los alcances de la regresión Simple, las ventajas y desventajas


que presenta para realizar pronósticos
• Determinan cuantitativamente el grado de asociación entre dos variables

CIBERTEC CARRERAS PROFESIONALES


164

CORRELACIÓN ENTRE DOS VARIABLES


Análisis de Correlación
El análisis de correlación es un grupo de técnicas estadísticas que permiten
medir la intensidad de la relación que puede existir entre dos variables. Ayuda
a concluir si es que están fuertemente relacionadas o no.

El objetivo es determinar que tan intensa es la relación. Para ello, se utiliza


para ello el coeficiente de correlación (r). El valor de este coeficiente está
comprendido entre –1 y 1. Si el valor de r tiende o está cerca de 1 se dirá que
la relación entre las variables en cuestión es bastante intensa y además
directa; en cambio, si el valor es cercano a –1 la relación también es muy
intensa pero inversa. Por otra parte, si el valor de r se acerca a cero se puede
afirmar que no existe ninguna correlación.
El valor de la correlación se calcula a través de la siguiente fórmula:

n∑ x y − ∑ x∑ y
r=
n∑ x 2 − (∑ x ) n∑ y 2 − (∑ y )
2 2

Sx y
r=
Sx S y
ACTIVIDADES

1. Un estudiante del cuarto ciclo de la carrera de gestión y sistemas elabora un


estudio de compañías que se están dando a conocer. Tiene curiosidad por
ver si existe o no relación significativa entre el tamaño de la oferta (en
millones de dólares) y el precio por acción.

Tamaño 108,00 4,40 3,50 3,60 39,00 68,40 7,50 5,50 375,00 12,20 4,40
Precio 12,0 4,0 5,0 5,0 13,0 19,0 8,5 5,0 15,0 6,0 12,0

1.1 Desarrolle la ecuación de estimación lineal.


1.2 Calcule el coeficiente de determinación de la muestra.
1.3 ¿Debería usar esta ecuación de regresión con propósitos predictivos?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 165

2. La compañía electrónica CEPER está iniciando pruebas de mercadeo, de su


nuevo producto (detector de radar operado por baterías). Sus laboratorios
de control han realizado pruebas limitadas en las unidades y han recabado
los siguientes datos:

VIDA APROXIMADA (MESES)


Horas de uso
Litio Alcalina
diario
2,0 3.1 1.3
1,5 4.2 1.6
1,0 5.1 1.8
0,5 6.3 2.2
1,8 8.1 3.1

2.1 Desarrolle la ecuación de estimación lineal para predecir la vida del


producto basándose en el uso diario con baterías de litio y una para
baterías alcalinas.
2.2 Calcule el coeficiente de correlación de la muestra para ambos tipos de
batería
2.3 ¿Debería usar alguna ecuación de regresión con propósitos predictivos?

3. Se ha propuesto un estudio para investigar la relación entre el peso Kg. al


nacer de bebés varones y su peso kg. de adultos. Use los siguientes datos:

Peso al nacer 3.52 2.95 3.90 4.20 3.85 2.85 3.05 2.95 3.80

Peso de adulto 72.5 85.3 94.2 78.4 65.4 80.4 74.5 60.3 90.5

3.1 Desarrolle la ecuación de estimación de mínimos cuadrados.


3.2 ¿Qué porcentaje de la variación en peso de adulto es explicado por la
línea de regresión?
3.3 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

CIBERTEC CARRERAS PROFESIONALES


166

4. Un estudio de Mercado trata de averiguar si es efectiva la propaganda


televisada de un producto que salió a la venta con relación al tiempo de
publicidad (en minutos/semana). Se recopilaron datos a partir de la
segunda semana de iniciada la publicidad resultando el cuadro que sigue.

Semana 2 3 4 5 6 7
Tiempo de propaganda
35 52 62 68 76 80
(minutos/semana)
Venta del producto ( miles $) 30 120 180 100 310 200

4.1 Halle la ecuación de regresión de mínimos cuadrados lLineal para


predecir las ventas semanales.
4.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

.
5. Debido a la demanda de sus publicaciones y del fuerte incremento de la
competencia desleal e informal, la editorial Vinces Vives ha tomado la
decisión de preparar algunos libros de uso popular en la educación primaria.
Teniendo como único parámetro la cantidad de páginas de dicho libro. Se
toma una muestra de siete (07) de ellos, y se anota el precio de venta que
debería tener por la cantidad de páginas que tendría dicho libro. En la
siguiente tabla, se recopilan dichos datos.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 167

Precio
12.00 12.50 13.80 15.40 17.50 18.00 20.00
($)
# Pág. 175 140 280 320 280 360 300

5.1 Determine la ecuación de regresión lineal y el coeficiente de correlación


entre el precio y el número de páginas.
5.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

6. Un estudio efectuado por la dirección de transporte de Lima Metropolitana


sobre el efecto de los precios de los boletos de autobuses (en céntimos de
nuevo sol) que tienen, con respecto al número de pasajeros (por cada 100
kilómetros de recorrido) en diferentes zonas (distritos) de la capital, produjo
los siguientes resultados:

PRECIO DEL BOLETO 15 20 25 30 35 40 45 50 55


TOTAL DE
430 330 400 270 180 340 220 180 280
PASAJEROS

6.1 Desarrolle la ecuación de regresión lineal simple correspondiente al


conjunto de datos
6.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?
6.2 Si es posible, determine el número de pasajeros por cada100 kilómetros,
si el precio del boleto fuera de 65 céntimos de nuevo sol.

CIBERTEC CARRERAS PROFESIONALES


168

7. Una aplicación importante del análisis de regresión en contabilidad es para


estimar costos. Al reunir datos sobre volumen y costo, y aplicar el método
de cuadrados mínimos para formar una ecuación de regresión donde se
relacionen el volumen y el costo, un contador puede estimar el costo
asociado con determinada operación de manufactura. Se obtuvo la siguiente
muestra de volúmenes de producción y costo total para una operación de
manufactura.

Volumen de producción Costo total


(unidades) (s/.)
400 4 000
450 5 000
550 5 400
600 5 900
700 6 400
750 7 000

7.1 Use estos datos para deducir una ecuación de regresión con la que se
pueda predecir el costo total para determinado volumen de producción.
7.2 ¿Cuál es el costo variable, o costo adicional, por unidad producida?
7.3 Calcule el coeficiente de determinación. ¿Qué porcentaje de la
variación en el costo total puede explicar el volumen de producción?
7.4 El programa de producción de la empresa indica que el mes próximo
se deben producir 500 unidades. ¿Cuál será el costo total estimado
para esta operación?

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 169

Autoevaluación
1. En finanzas, es de interés ver la relación entre Y, devolución promedio de
acciones, y X, la devolución global del mercado. El coeficiente de pendiente
calculado por la regresión lineal es denominada la beta de las acciones por
los analistas de inversiones. Una beta mayor que 1 indica que las acciones
son relativamente sensibles a cambios de mercado, mientras que una beta
menor que 1 indica que las acciones son relativamente insensibles. Para los
datos siguientes, calcule la beta y pruebe si esta es significativamente
menor que1. Use α = 0,05.

Y (%) 10 12 8 15 9 11 8 10 13 11
X (%) 11 15 3 18 10 12 6 7 18 13

2. En un problema de regresión con un tamaño de muestra de 17, se encontró


que la pendiente era 3,73 y que el error estándar de la estimación era
28,654. La cantidad (∑ X 2
− n X = 871,56 .
2
)
2.1 Encuentre el error estándar del coeficiente de pendiente de regresión.
2.2 Construya un intervalo de confianza de 98% para la pendiente de
población. Interprete el intervalo de confianza.

3 Las Inmobiliarias a menudo están interesadas en ver cómo el valor de una


casa varía de acuerdo con su tamaño. A continuación se muestran alguno
de los datos del área (en miles de pies cuadrados) y valor tasado (en miles
de dólares para una muestra de 11 casas.

Área
(mile
s 1,1 1,5 1,6 1,6 1,4 1,3 1,1 1,7 1,9 1,5 1,3
pies²
)
Valor
(mile
s de 75 95 110 102 95 87 82 115 122 98 90
dólar
es)

3.1 Estime la regresión de mínimos cuadrados para predecir el valor


tasado a partir del tamaño.
3.2 Generalmente, las inmobiliarias sienten que el valor de una casa
sube 50 mil dólares por cada 1 000 pies cuadrados de áreas. Para esta
muestra, ¿se cumple esta relación?

4 En 1 999, una agencia gubernamental de salud encontró que, en cierto


número de distritos, la relación de fumadores y muertes, por enfermedades
del corazón para 10 000 pobladores, tenía una pendiente de 0,08. Un
estudio reciente en 18 distritos produjo una pendiente de 0,147 y un error
estándar del coeficiente de pendiente de regresión de 0,032.

CIBERTEC CARRERAS PROFESIONALES


170

4.1 Construya una estimación de intervalo de confianza de 90% de la


pendiente de la verdadera línea de regresión. ¿El resultado de este
estudio indica que la verdadera pendiente ha cambiado?
4.2 Construya una estimación de intercalo de confianza de 99% de la
pendiente de la verdadera línea de regresión. ¿Indica el resultado de
este estudio que la verdadera pendiente ha cambiado?

5 Los registros de una universidad presentan datos sobre la probabilidad de


una auditoía por parte de la SUNAT. La siguiente tabla muestra los ingresos
brutos promedio informados y el porcentaje de las declaraciones de
impuestos que fueron auditadas en 20 distritos seleccionados de
recaudación de impuestos.

Distrito Ingresos brutos Porcentaje


ajustados auditado
La Molina 36 664 1,3
La Victoria 38 845 1,1
Ate 34 886 1,1
Breña 32 512 1,1
Pueblo Libre 34 531 1,0
Jesús María 35 995 1,0
Magdalena 37 799 0,9
Surco 33 876 0,9
Comas 30 513 0,9
San juan de Miraflores 30 174 0,9
San juán de 30 060 0,8
Lurigancho
Chosica 37 153 0,8
Miraflores 34 918 0,7
Barranco 33 291 0,7
San Isidro 31 504 0,7
Rímac 29 199 0,6
Los Olivos 33072 0,6
Ancón 30 859 0,5
Independencia 32 566 0,5
San Borja 34 296 0,5

5.1 Desarrolle la ecuación estimada de regresión que se pueda usar para


predecir el porcentaje auditado proporcionando el promedio del ingreso
bruto ajustado reportado.
5.2 Al nivel de significancia de 0,05, determine si están relacionados el
ingreso bruto ajustado y el porcentaje auditado.
5.3 ¿Proporciona un buen ajuste la ecuación estimada de regresión?
Explique.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 171

5.4 Emplee la ecuación estimada de regresión desarrollada en el inciso a


para calcular el estimado de un intervalo de confianza de 95% del
porcentaje esperado auditado para los distritos con un promedio del
ingreso bruto ajustado de s/. 35 000.

6 La compañía de teléfonos siempre ha asumido que el número promedio de


llamadas diarias asciende a 1,5 por cada persona adicional en una casa. Se
ha sugerido que la gente conversa más de lo que esto refleja. Se tomó una
muestra de 64 casas y se calculó que la pendiente de regresión de Y
(número promedio de llamadas diarias) sobre X (tamaño de la casa) era de
1,8 con un error estándar del coeficiente de pendiente de regresión de 0,2.
Pruebe si se hacen significativamente más llamadas por persona adicional
de lo que la compañía de teléfonos asume, utilizando α = 0,05. Establezca la
hipótesis y la conclusión explícitas.

7 Los funcionarios universitarios responsables de la admisión,


constantemente buscan variables con las cuales predecir los promedios de
puntos de nivel de los aspirantes. Una variable comúnmente usada es el
promedio de puntos del nivel del bachillerato. Para una universidad, los
datos anteriores indicaban que la pendiente era 0,85. Un pequeño estudio
reciente de 20 estudiantes encontró que la pendiente era 0,70 y que el error
(
estándar de la estimación era 0,60. La cantidad ∑ X 2 − n X era igual a
2
)
0,25. Al nivel de significancia de 0,01, ¿debería concluir la universidad que
la pendiente ha cambiado?

8. Los economistas con frecuencia están interesados en estimar funciones de


consumo. Esto se efectúa mediante la regresión del consumo Y sobre el
ingreso X. (Para esta regresión, los economistas llaman a la pendiente la
progresión marginal al consumo.) Para una muestra de 25 familias, se
calculó una pendiente de 0,87 y un error estándar del coeficiente de
pendiente de regresión de 0, 035. Para esta muestra, ¿la propensión
marginal a consumir disminuyó por debajo del estándar de 0,94? Utilice α =
0,05. Establezca explícitamente las hipótesis y una conclusión.

Para recordar
 El coeficiente de Pearson define el grado de asociación entre la variable
independiente y dependiente
 Si el coeficiente de Pearson es pequeño entonces no tendrá sentido
encontrar la ecuación de regresión para predecir valores a futuro.

CIBERTEC CARRERAS PROFESIONALES


172

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 173

SEMANA

14
CORRELACIÓN ENTRE DOS VARIABLES
TEMAS
• Coeficiente de correlación generalizado (coeficiente de determinación)
• Coeficiente de correlación de rango (fórmula de Spearman)

OBJETIVOS ESPECÍFICOS

• Determinar cuantitativamente el grado de asociación entre las variables

CONTENIDOS

• Coeficiente de Determinación
• Error de estimación
• Pendiente de una recta de población
• Coeficiente de correlación de rango (fórmula de Spearman)

ACTIVIDADES

• Identifican las variables independiente, dependiente


• Analizan los grados de asociación entre las variables para su predicción

CIBERTEC CARRERAS PROFESIONALES


174

CORRELACIÓN ENTRE DOS VARIABLES


Una vez establecido el modelo habría que preguntarse: ¿Qué tan confiables
son las predicciones que se hagan a través del modelo? Para ello, es
fundamental calcular el coeficiente de determinación (r2). Dicho coeficiente
indica el porcentaje en que la variación de la variable dependiente es
“explicada” por la variable independiente. Los valores de este coeficiente se
encuentran comprendidos entre 0 y 1 y, mientras más cercano de encuentre de
1, el modelo será más confiable. El coeficiente de determinación se calcula de
las siguientes maneras:

a ∑ y + b∑ x y − n y 2

r =
2

∑y 2
− ny 2

S 2x y
r = 2 2
2

Sx S y

Para medir la confiabilidad de una ecuación de estimación, se usa el error


estándar de estimación (Se) y es similar a la desviación estándar que mide el
grado de conjuntos observados respecto a la media. El error de estimación,
por otra parte mide el grado de variabilidad, o dispersión de los valores
observados alrededor de la línea de regresión.
∑y − a ∑ y − b∑ x y
2

Se =
n−2
∧ 2
 
∑
 y − y 

Se =
n−2
Donde:
y = Es el valor de la variable independiente.

y = Valores estimados de la ecuación de estimación correspondiente.
n = El número de puntos de datos utilizados.
Como se aplica en el error estándar, mientras más grande sea el error estándar
de estimación, mayor será la dispersión de los puntos alrededor de la línea de
regresión.

Pendiente de la Línea de Regresión de la Población


La línea de regresión se deriva de una muestra y no de una población entera.
Como resultado no se puede esperar que la ecuación de regresión, Y = A + BX
(aquella para la población), sea exactamente la misma que la estimada a partir
∧ ∧
de las observaciones de la muestra y = a + b x .
Para encontrar la estadística de prueba de B (pendiente de la línea de
regresión para toda la población), es necesario primero encontrar el error
estándar del coeficiente de regresión Sb

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 175

Se
Sb =
∑x 2
− nx 2

Donde:
Sb = error estándar del coeficiente de regresión
Se = error estándar de estimación
x = valor de la variable independiente
x = la media de los valores de la variable independiente

Para realizar una prueba de hipótesis respecto a B, se define:


H o : B = Bo
H 1 : B ≠ Bo
Para estandarizar la pendiente de la ecuación de regresión.
b − Bo
t=
Sb
b = la pendiente de regresión ajustada
Bo =la pendiente real hipotética para la población
Sb = error estándar del coeficiente de regresión

Puesto que la prueba se basa en una distribución t student con (n-2) grados de
libertad, usamos t para denotar la estadística estandarizada.

EL COEFICIENTE DE CORRELACIÓN DE RANGO


Con la noción del coeficiente de correlación, se concluyó una medida de la
cercanía de asociación entre dos variables. Con frecuencia, en el análisis de
correlación, la información no está siempre disponible en forma de valores
numéricos. Pero si se puede asignar clasificaciones a los elementos de cada
una de las dos variables que se están estudiando, entonces puede calcularse
un coeficiente de correlación de rango. Ésta es una medida de la correlación
que existe entre los dos conjuntos de rangos, una medida del grado de
asociación entre las variables que no podríamos calcular de otra manera.

Una segunda razón para aprender el método de correlación de rango es la


posibilidad de simplificar el proceso de cálculo de un coeficiente de correlación
a partir de un conjunto de datos muy grande para cada una de las dos
variables. Esta medición se le conoce como el coeficiente de correlación de
rango de Spearman, en honor al estadístico que lo desarrolló a principios de
siglo pasado.

6∑ d 2

rs = 1 −
(
n n2 −1 )
rs = coeficiente de correlación de rango
n = número de observaciones apareadas
d = diferencia entre rangos para cada pareja de observaciones

Si el valor del coeficiente de rangos es +1 o -1, significa que existe una asociación
perfecta entre las dos variables.

CIBERTEC CARRERAS PROFESIONALES


176

ACTIVIDADES

1. Los datos siguientes son los sueldos mensuales, y promedios de


calificaciones x para estudiantes que obtuvieron su licenciatura en
administración, con especialización en sistemas de información.

Calificación Sueldo mensual ( s/.)


2,6 2 800
3,4 3 100
3,6 3 500
3,2 3 000
3,5 3 400
2,9 3 100

1.1 Calcule el coeficiente de determinación r2.


1.2 ¿Cuál es el valor del coeficiente de correlación para la muestra?

2. En un laboratorio médico, se estima la cantidad de proteína en muestras de


hígado empleando un modelo de regresión. En un espectrómetro se emite luz
que pasa por una sustancia que contiene la muestra, y la cantidad de luz
absorbida se emplea para estimar la cantidad de proteína. Diariamente, se
forma una nueva ecuación de regresión, porque las cantidades de colorante
son distintas. En un día, se obtuvieron las indicaciones de absorbencia de la
tabla, usando concentraciones conocidas de proteína.
Absorbencia ( Miligramos de proteína (
xi) yi)
0,509 0
0,756 20
1,020 40
1,400 80
1,570 100
1,790 127

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 177

2.1 Con estos datos, forme una ecuación de regresión que relacione la
indicación de absorbencia de luz con los miligramos de proteína de la
muestra.
2.2 Calcule r2. ¿Se sentiría cómodo con este modelo de regresión, al estimar la
cantidad de proteína de una muestra?
2.3 En una muestra que se acaba de recibir, la indicación de absorbencia fue
de 0,941. Estime la cantidad de proteína en esa muestra.

3. Las siguientes son clasificaciones de acometividad (X) y cantidad de ventas


en el último año (Y) de ocho vendedores. ¿Existe una correlación significativa
entre las dos mediciones? Utilice el nivel de significancia de 0.10.

X 30 17 35 28 42 25 19 29
Y 35 31 43 46 50 32 33 42

4. Un supervisor de planta clasificó una muestra de ocho trabajadores según el


número de horas extras trabajadas y la antigüedad en el empleo. ¿La
correlación de rango entre las dos mediciones es significativa al nivel de
0.01?

CIBERTEC CARRERAS PROFESIONALES


178

Cantidad de horas 5.0 8.0 2.0 4.0 3.0 7.0 1.0 6.0
extra
Años de empleo 1.0 6.0 4.5 2.0 7.0 8.0 4.5 3.0

5. La mayoría de las personas cree que la experiencia gerencia produce


mejores relaciones interpersonales entre un gerente y sus empleados. La
Corporación ATT tiene los siguientes datos que equiparan los años de
experiencia por parte del gerente con el número de quejas archivados, el
año pasado, por los empleados que reportaban con el gerente. Al nivel de
significancia de 0.05, ¿la correlación de rango entre estos dos factores
sugiere que la experiencia mejora las relaciones?

Edad del gerente 32 43 42 29 56 62 45 39 40 35


Número de quejas 5 2 2 4 3 2 4 5 4 6

6. Seguros Plan ha confinado sus estudios a la industria química sintética, por


ello se desea realizar unos estudios de la relación de gastos para la
seguridad en plantas y la tasa de accidentes en ellas. Para ajustar el
tamaño diferencial que existía entre algunas de las plantas, Seguros Plan
convirtió sus datos en gastos (en dólares) por empleado de producción. Los
siguientes son los resultados:

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 179

Compañía A B C D E F G H I J K
Gastos 60 37 30 20 24 42 39 54 48 58 26
Accidentes 5 7 6 9 7 4 8 2 4 3 8

¿Existe una correlación significativa entre los gastos y los accidentes en las
plantas de las compañías químicas? Use una correlación de rango (en la que 1
represente el mayor gasto y tasa de accidentes) para respaldar su conclusión.
Pruebe al nivel de significancia de 1 %.

Autoevaluación
1. “El granjerito” trató de determinar la relación entre el porcentaje de
metionina que se agrega al alimento y el peso corporal de pollos. Con los
datos obtenidos se aplicó el análisis de regresión y se determinó la siguiente
línea de regresión:

yˆ = 0,21 + 0,42 x
En donde:
ŷ = peso corporal estimado en kilogramos
X = porcentaje de metionina adicional en el alimento
El coeficiente de determinación, r2, fue 78, lo que indica que el ajuste fue
razonablemente bueno para los datos. Suponga que se usó una muestra de

( )
2
∧ 
tamaño 30 para el estudio, y ∑ y − y = 45 . Calcule ∑  y − y  .
2

 
2. ¿A los directores y principales ejecutivos se les paga de acuerdo con las
ganancias obtenidas por las empresas? La siguiente tabla muestra una lista
de datos corporativos sobre el cambio porcentual en el rendimiento de las
acciones durante un periodo de dos años, y el cambio porcentual en la
paga a los directores y principales ejecutivos, inmediatamente después de 2
años.

CIBERTEC CARRERAS PROFESIONALES


180

Cambio bianual en el Cambio en el pago


Empresa
rendimiento (%) ejecutivo (%)
ASAKA 201,3 18
WONG 146,5 28
MICMAS 76,7 10
TODOS 158,2 28
TECHO -34,9 15
PATIO 73,2 -9
PPKSA -7,9 -20

2.1 Forme la ecuación de regresión con el cambio porcentual bianual de


rendimiento de las acciones como variable independiente.
2.2 Calcule r2. ¿Se sentirá cómodo al usar el cambio porcentual bianual de
rendimiento de las acciones para predecir el cambio porcentual en el
sueldo de los principales ejecutivos? Comente sus razones.
2.3 ¿Cuál es el coeficiente de correlación? ¿Refleja una relación intensa o
débil entre el rendimiento y la compensación a ejecutivos?

3. La revista Etiqueta Negra informó que “la beta” de mercado para Backus es
1,25. Las betas de mercado para acciones individuales se determinan con
regresión lineal simple. Para cada acción, la variable dependiente es el
rendimiento trimestral porcentual (reevaluación del capital más dividendos)
menos el rendimiento porcentual que se podría obtener con una inversión
libre de riesgos (la tasa de Bonos de la Tesorería se usa como tasa libre de
riesgo). La variable independiente es el rendimiento trimestral porcentual
(reevaluación del capital más dividendos) para el mercado de acciones
(S&P 500) menos el rendimiento porcentual de una inversión libre de
riesgos. Con los datos trimestrales se determina una ecuación; la beta de
mercado para la acción es la pendiente de la ecuación estimada de
regresión (b1), y su valor se interpreta con frecuencia, como medida del
riesgo asociado con esas acciones. Las betas del mercado mayores que
uno indican que la acción es más volátil que el promedio del mercado. En la
tabla siguiente se presentan las diferencias entre el rendimiento porcentual y
el rendimiento libre de riesgo de 10 trimestres de las empresas Backus y
Brahama.

Backus 1,2 -2,5 -3,0 2,0 5,0 1,2 3,0 -1,0 0,5 2,5
Brahama -0,7 -2,0 -5,5 4,7 1,8 4,1 2,6 2,0 -1,3 5,5

3.1 Determine la ecuación de regresión para calcular la beta de mercado


¿Cuál es la beta de mercado de Brahama?
3.2 Calcule r2. ¿Se sentiría cómodo con este modelo de regresión.
3.3 ¿Tuvo buen ajuste la ecuación estimada de regresión? Explique su
respuesta.

4. Un profesor de mercadotecnia se interesa en la relación entre las horas de


estudio y los puntos totales obtenidos en su curso. A continuación, se
observa los datos reunidos con 10 alumnos que acaban de tomar el curso.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 181

Horas de estudio 45 30 90 60 105 65 90 80 55 75


Total de puntos 40 35 75 65 90 50 90 80 45 65
obtenidos

4.1 Forme una ecuación de regresión que muestre cómo se relaciona el


total de puntos obtenidos con las horas de estudio.
4.2 ¿Cuál es el coeficiente de correlación?
4.3 Prediga los puntos totales que obtendrá Karina López. Pasó 95 horas
estudiando.

5. Dos profesores de una escuela de comercio discutían sobre lo difícil que es


predecir el éxito de los graduados basándose solamente en las
calificaciones. Un profesor pensaba que el número de años de experiencia
que los maestros en administración de empresas tuvieran antes de regresar
por sus post grados era probablemente el mejor preeditor. Usando los
siguientes datos, al nivel de significancia de 0.02, ¿qué correlación de rango
es un mejor preeditor de éxito profesional?

Años de experiencia 4 3 4 6 7 5 5 2 1 3
Promedio de
3.4 3.2 3.5 2.9 3.4 3.9 3.6 3.0 2.5 3.0
calificaciones
Rango de éxito (10 =
4 2 6 7 9 8 10 3 1 5
tope)

6. La Empresa Carolina tiene dos encuestadores entrenados para reclutar


aprendices gerenciales para nuevos mercados de ventas. Aunque cada uno
de los encuestadores tiene su propio estilo, se considera que ambos son
buenos jueces preliminares del potencial gerencial. La gerente de personal
se preguntaba qué tanto coincidirían los encuestadores, así que hizo que
ambos evaluaran independientemente a 14 solicitantes. Clasificaron a los
solicitantes en términos de su grado de contribución potencial a la compañía.
Los resultados se presentan en la tabla. Use la correlación de rango y un
nivel de significancia de 2% para determinar si existe una correlación positiva
significativa entre las dos clasificaciones de los encuestadores.

Solicitante 1 2 3 4 5 6 7 8 9 10 11 12 13 1.4
Encuestador 1 1 11 13 2 12 10 3 4 14 5 6 9 7 8
Encuestador 2 4 12 11 2 14 10 1 3 13 8 6 7 9 5

7. Una supervisora de un proceso de ensamblaje de cámaras litográficas,


siente que mientras más tiempo trabaja junto a un grupo de empleados,
mayor es la tasa de producción diaria. Ha recibido los siguientes datos para
un grupo de empleados que trabajan juntos durante 10 días.

Producción diaria 7.2 5.5 6.2 8.3 5.2 2.0 3.0 0.5 9.0 6.0
Días trabajados
1 2 3 4 5 6 7 8 9 10
conjuntamente

CIBERTEC CARRERAS PROFESIONALES


182

¿Puede concluir Nancy a un nivel de significancia de 5%, que no existe


correlación entre el número de días trabajados conjuntamente y la producción
diaria?

9. Una compañía electrónica que recluta muchos ingenieros se pregunta si el


costo de los esfuerzos extensivos de reclutamiento vale la pena. Si la
compañía pudiera confiar (usando un nivel de significancia de 1 %) en que la
correlación de rango de población entre el currículum individual de los
solicitantes clasificados por el departamento de personal y las calificaciones
de las entrevistas es positiva, se sentiría justificado en descontinuar las
entrevistas y basarse en las calificaciones por currículum en la contratación.
La compañía ha extraído una muestra de 35 solicitantes en los últimos dos
años. Sobre la base de la muestra anterior, ¿debería la compañía
descontinuar las entrevistas y usar las calificaciones del currículum individual
para contratar?

Individual Calificación de Calificación de


entrevista currículum
1 81 113
2 88 88
3 55 76
4 83 111
5 78 121
6 93 83
7 65 129
8 87 99
9 95 142
10 76 93
11 60 136
12 85 82
13 93 91
14 66 83
15 90 96
16 69 126
17 87 108
18 68 95
19 81 65
20 84 96
21 82 101
22 90 79
23 63 71
24 78 108
25 73 68
26 79 11
27 72 109
28 95 121
29 81 140
30 87 132

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 183

31 93 135
32 85 143
33 91 118
34 94 147
35 94 138

10. Los siguientes son los salarios y datos de edad de los 10 candidatos a
doctorado que se gradúan este año de la Escuela de Doctorado en
Contabilidad de la Universidad Peruana de Ciencias. Al nivel de significancia
de 0.05, ¿la correlación de rango de edad y salario sugiere que los
candidatos de mayor edad obtienen salarios iniciales mayores?
Salario en
Edad
dólares
67,000 29
60,000 25
57,500 30
59,500 35
50,000 27
55,000 31
59,500 32
63,000 38
69,500 28
72,000 34

11. J.J. Pérez opera un taller de reparación de motores de aeronaves ligeras.


Está interesado en mejorar sus estimaciones de tiempo de reparación
requerido y cree que el mejor predictor es el número de horas de operación
en el motor desde su última reparación importante. Más abajo se muestran
los datos sobre diez motores que J.J. Pérez trabajó recientemente. Al nivel
de significancia de 0.10, ¿la correlación de rango sugiere una fuerte
relación?

Motor Horas desde la última Horas requeridas


reparación importante para reparación

1 1,000 40
2 1,200 54
3 900 41
4 1,450 60
5 2,000 65
6 1,300 50
7 1,650 42
8 1,700 65
9 500 43
10 2,100 66

CIBERTEC CARRERAS PROFESIONALES


184

Para recordar
 El coeficiente de Determinación define el modelo mas confiable para
una acertada predicción

 Si el coeficiente de Spearman simplifica el proceso de cálculo de los


coeficientes de correlación.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 185

SEMANA

15
SERIE DE TIEMPO
TEMAS

• Serie de tiempo. Introducción a la serie de tiempo


• Representación y Clasificación de la serie de tiempo
• Análisis de la serie de tiempo

OBJETIVOS ESPECÍFICOS

• Descubrir un comportamiento de los datos históricos para extrapolarlo a futuro


• Pronostica de manera óptima mediante el uso de los modelos,

CONTENIDOS

• Movimientos característicos de la serie de tiempo


• Clasificación de movimientos de series de tiempo
• El análisis de las series de tiempo
• Movimientos medios. suavización de series de tiempo
• Estimación de la tenencia

ACTIVIDADES

• Identifican una serie de tiempo


• Analizan los diferentes métodos de estimación de la serie de tiempo

CIBERTEC CARRERAS PROFESIONALES


186

ANÁLISIS DE SERIES DE TIEMPO

SERIES DE TIEMPO

Una serie de tiempo es un conjunto de observaciones hechas en momentos


determinados, normalmente a intervalos iguales.
Ejemplos de series de tiempo son la producción total anual de acero en el Perú
en un cierto número de años, el precio diario de cierre de una acción en la
Bolsa, las temperaturas horarias anunciadas por el observatorio meteorológico
de una ciudad o el total mensual de ventas habidas en un departamento de una
tienda.
Matemáticamente, una serie de tiempo se define por los valores Y1, Y2,..., de
una variable Y (temperatura, precio al cierre de una acción, etc.) en los
momentos f1 o f2,.... Así, Y es una función de t, simbolizada por Y = F(t).

MOVIMIENTOS CARACTERÍSTICOS DE LAS SERIES DE TIEMPO

Es interesante considerar que en un gráfico de una serie de tiempo, como des-


crito por un punto que se mueve con el paso del tiempo, el movimiento puede
ser debido a la combinación de fuerzas económicas, sociológicas, psicológicas
u otras. La experiencia basada en muchos ejemplos de series de tiempo ha
revelado ciertos movimientos o variaciones características, algunos o todos de
ellos se presentan en diferentes grados. El análisis de tales movimientos es de
gran importancia en muchos casos, uno de gran interés es el problema de la
previsión de movimientos futuros. No es, pues, de extrañar que muchas
industrias y acciones gubernativas estén vitalmente unidas con tan importante
materia.

CLASIFICACIÓN DE MOVIMIENTOS DE SERIES DE TIEMPO

Los movimientos característicos de una serie de tiempo pueden clasificarse en


cuatro tiempos principales, llamados a menudo componentes de una serie de
tiempo.

1. Movimientos seculares o de larga duración se refieren a la dirección


general a la que el gráfico de una serie de tiempo parece dirigirse en un
intervalo grande de tiempo. En el gráfico anterior, este movimiento secular o
variación secular o tendencia secular, como se llama a veces, se indica por
una curva de tendencia, que aparece a trazos. En algunas series puede ser
apropiada una recta de tendencia. La determinación de tales curvas de
tendencia por el método de mínimos cuadrados se ha considerado en el
Capítulo 13. Otros métodos se discuten más adelante.

2. Movimientos cíclicos o variaciones cíclicas se refieren a las oscilaciones de


larga duración alrededor de la recta o curva de tendencia. Estos ciclos, como
se llaman a veces, pueden ser o no periódicos, es decir, pueden seguir o no
exactamente caminos análogos después de intervalos de tiempo iguales. En
negocios y actividades económicas, los movimientos se consideran cíclicos
solamente si su periodo tiene un intervalo de tiempo superior al año.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 187

Un ejemplo importante de movimientos cíclicos son los llamados asuntos


cíclicos, que representan los intervalos de prosperidad, retroceso, depresión
y recuperación.

3. Movimientos estacionales o variaciones estacionales se refieren a las


idénticas, o casi idénticas, normas que una serie de tiempo parece seguir
durante los correspondientes meses de los sucesivos años. Tales
movimientos se deben a sucesos recurrentes que se repiten anualmente,
como, los repentinos incrementos de ventas de un departamento antes de la
Navidad.
Aunque los movimientos estacionales se refieren en general a una
periodicidad anual en negocios o teoría económica, las ideas envueltas
pueden extenderse a incluir una periodicidad de cualquier intervalo de
tiempo, tal como diaria, horaria, semanal, etc., dependiendo del tipo de datos
que se utilizan.

4. Movimientos irregulares o al azar se refieren a movimientos esporádicos


de las series de tiempo debidos a sucesos ocasionales, tales como
inundaciones, huelgas, elecciones, etc. Aunque normalmente se supone que
tales sucesos producen variaciones que solamente duran un corto intervalo
de tiempo, se concibe que puedan ser tan intensos que originen un nuevo
ciclo u otros movimientos.

EL ANALISIS DE SERIES DE TIEMPO

El análisis de las series de tiempo consiste en una descripción (matemática


generalmente) de los movimientos que la componen para justificar los
procedimientos que tal descripción envuelve.
La muestra de un gráfico de una recta puede tener tendencia secular o de
larga duración (igualmente podía haber sido una curva de tendencia),
tendencia de larga duración con un movimiento cíclico superpuesto
(supuesto periódico) y movimiento cíclico estacional superpuesto sobre el
gráfico de algún movimiento irregular o aleatorio.

Las ideas anteriores suministran una posible técnica para analizar las series de
tiempo. Se supone que en las series de tiempo la variable Y es un producto de

CIBERTEC CARRERAS PROFESIONALES


188

las variables T, C, S e I que originan, respectivamente, los movimientos de


tendencia, cíclicos, estaciónales e irregulares. En símbolos,

Y = T x C x S x I = TCSI

El análisis de las series de tiempo consiste en una investigación de los factores


T, C, S e I y a menudo se refiere a una descomposición de una serie de tiempo
en sus movimientos componentes básicos.
Debe indicarse que algunos estadísticos prefieren considerar Y como suma T +
C + S + I de las variables básicas que lo componen. Aunque en otro el método
supone la descomposición de TCSI, procedimientos análogos son aplicables
cuando se supone Y como suma de sus componentes. En la práctica, la
decisión sobre qué método de descomposición debe suponerse, depende del
grado de éxito conseguido al aplicar el supuesto.

MOVIMIENTOS MEDIOS. SUA VIZACIÓN DE SERIES DE TIEMPO

Dado un conjunto de números Y1 , Y2 , Y3.... se define un movimiento medio de


orden n al que viene dado por la sucesión de medias aritméticas,
Y1 + Y2 + Y3 ....Ys Y2 + Y3 + Y4 ....Ys +1 Y3 + Y4 + Y5 ....Ys + 2
, , ,.........
n n n
Las sumas de los numeradores de se llaman movimientos totales de orden n.

Ejemplo 1:
Dados los números 2, 6, 1, 5, 3, 7, 2 un movimiento medio de orden 3 está
dado por la sucesión.

Si los datos son dados anual o mensualmente, se llama movimiento medio de


orden n a un movimiento medio de n años o un movimiento medio de n
meses, respectivamente. Así, se habla de movimientos medios de 5 años,
movimientos medios de 12 meses, etc. Naturalmente que cualquier otra unidad
de tiempo puede igualmente utilizarse.

Los movimientos medios tienen la propiedad de tender a reducir la cantidad de


variación presente en un conjunto de datos. En el caso de series de tiempo,

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 189

esta propiedad se utiliza, a menudo, para eliminar las fluctuaciones no


deseadas y el proceso se llama suavización de series de tiempo.
Si en la sucesión de medias aritméticas se emplean las medias aritméticas
ponderadas, siendo los pesos dados con anterioridad, la sucesión resultante se
llama movimiento medio ponderado de orden n. .,

Si se utilizan los pesos 1, 4, 1 en el ejemplo anterior, un movimiento medio


ponderado de orden 3 está dado por la sucesión

ESTIMACIÓN DE LA TENDENCIA

La estimación de la tendencia puede conseguirse de varias formas posibles.

El método de mínimos cuadrados puede utilizarse para hallar la ecuación de


una recta o curva de tendencia adecuada. De esta ecuación se pueden calcular
los valores de tendencia T.

El método libre, que consiste en ajustar una recta o curva de tendencia


mediante la sola observación del gráfico, puede utilizarse para estimar T. Sin
embargo, esto tiene el inconveniente de depender en gran parte del criterio
personal.

El método de movimiento medio. Mediante movimientos medios de órdenes


apropiados, pueden eliminarse los movimientos cíclicos, estaciónales e
irregulares, quedando así solamente el movimiento de tendencia.
Un inconveniente de este método es que los datos del principio y final de la
serie se pierden. Así, en el anterior, se comenzó con 7 números y con un
movimiento medio de orden 3 se quedó con 5 números. Otro inconveniente es
que los movimientos medios pueden originar ciclos u otros movimientos que no
tenían los datos originales. Un tercer inconveniente es que los movimientos
medios están fuertemente afectados por los valores extremos. Para reducir en
parte estos inconvenientes, se utiliza a veces un movimiento medio ponderado
con pesos adecuados. En tal caso, el término (o términos) central recibe el
peso mayor y los valores extremos los pesos pequeños.

CIBERTEC CARRERAS PROFESIONALES


190

El método de semimedias consiste en agrupar los datos en dos partes


(preferiblemente iguales) y mediar los datos de cada parte, así, se obtienen dos
puntos en el gráfico de la serie de tiempo. Una recta de tendencia puede
entonces trazarse entre estos dos puntos y los valores de tendencia pueden así
determinarse. Los valores de tendencia pueden, también, determinarse
directamente sin necesidad de un gráfico.
Aunque este método es sencillo de aplicar, puede conducir a resultados
pobres cuando se utiliza sin discernimiento. También, es aplicable solamente
cuando la tendencia es lineal o aproximadamente lineal, aunque puede
extenderse su aplicación a casos en los que los datos pueden ser divididos en
varias partes, teniendo cada una de ellas una tendencia lineal.

ACTIVIDADES

1. Con qué movimiento característico de una serie de tiempo se asociaría


principalmente cada uno de los siguientes:
1.1 Un fuego en una fábrica que retrasa la producción 3 semanas.
1.2 Una etapa de prosperidad.
1.3 La venta en un departamento después de Pascua.
1.4 La necesidad de incrementar la producción de trigo debido a un
constante aumento de la población.
1.5 El número mensual de pulgadas de lluvia en una ciudad en un periodo
de 5 años.

2. En la siguiente tabla se muestra la media mensual de producción de carbón


bituminoso en millones de toneladas cortas en Canadá durante los años
de1991-2000.

Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Producción
media 50,0 36,5 43,0 44,5 38,9 38,1 32,6 38,7 41,7 41,1
mensual

Construya lo que se indica.

2.1 Un movimiento medio de 5 años

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 191

Producción
Movimiento total de Movimiento medio de
Años media
5 años 5 años
mensual
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

2.2 Un movimiento medio de 4 años

Producción Movimiento total de Movimiento medio de


Años
media mensual 4 años 4 años
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

CIBERTEC CARRERAS PROFESIONALES


192

2.3 Un movimiento medio de 4 años centrado

Movimiento
Movimiento total de Movimiento medio
Años medio de 4
2 años de la col. 3 centrado de 4 años
años
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

2.4 Muestre el movimiento centrado de 4 años, equivalente al movimiento


medio ponderado de 5 años con pesos 1, 2, 2, 2, 1, respectivamente.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 193

Movimiento
Movimiento Movimiento
medio
Años Y total de 4 total de 2 años
centrado de 4
años de la col. 3
años
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

2.5 Represente el movimiento medio de (2.1) junto con los datos originales.

2.6 Obtenga los valores de tendencia para los datos de la tabla mediante el
método de semimedias donde la media se toma de (2.1)

CIBERTEC CARRERAS PROFESIONALES


194

Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Valores de
tendencia

2.7 Utilice el método de mínimos cuadrados para ajustar una recta a los
datos de (2.1) y halle los valores de tendencia.

Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Valores de
tendencia

3. El departamento de ventas de Automotriz Moderna suministró datos de


unidades vendidas. Con ellos, se formó la siguiente serie de tiempo de 10
años.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 195

Años 1 2 3 4 5 6 7 8 9 10
Ventas 400 390 320 340 270 260 300 320 340 370

Grafique la serie de tiempo y comente acerca de lo adecuado de una


tendencia lineal. ¿Qué forma de función cree usted que sería adecuada
para el patrón de tendencia de esta serie tiempo?

4. El rendimiento por acción, para una Compañía Metalúrgica, durante un


periodo de 10 años, es el siguiente:

Año 1 2 3 4 5 6 7 8 9 10
Rendimiento 0.64 0.73 0.94 1.14 1.33 1.53 1.67 1.68 2.10 2.50

4.1 Emplee una proyección de tendencia lineal para pronosticar esta serie de
tiempo en el próximo año.
4.2 ¿Qué nos dice este análisis de tendencia temporal acerca de la
Compañía Metalúrgica?
4.3 De acuerdo con los datos históricos, ¿es bueno invertir en esta empresa?

CIBERTEC CARRERAS PROFESIONALES


196

Autoevaluación
1. Identifique con qué movimiento característico de una serie de tiempo se
podría asociar principalmente cada una de los siguientes supuestos:
1.1 Un retroceso
1.2 Un incremento de empleo durante los meses de verano
1.3 La disminución de mortandad debido al avance de la ciencia
1.4 Una huelga del acero
1.5 Una demanda continuamente creciente de automóviles pequeños

(a) tendencia de larga duración


(b) estacional
(c) cíclico
(d) irregular
(e) tendencia de larga duración
2. Dados los números 1, 0, -1, 0, 1, 0, -1, 0, 1, determine un movimiento medio
de orden
2.1 dos
2.2 tres
2.3 cuatro
2.4 cinco
3. En la siguiente tabla, se da el consumo medio mensual en millares de
fanegas de algodón nacional y de importación en Estados Unidos durante los
años 1990-1999. Construya lo siguiente:

3.1 un movimiento medio de 2 años


3.2 un movimiento medio centrado de 2 años
3.3 un movimiento medio de 3 años
3.4 un movimiento medio centrado de 4 años
3.5 un movimiento medio centrado de 6 años
3.6 represente los movimientos medios junto con los datos originales y
discuta los resultados obtenidos
3.7muestre que el movimiento medio centrado de 2 años es equivalente a un
movimiento medio ponderado de 3 años con pesos 1, 2, 1,
respectivamente.

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Consumo
de 656 804 836 765 777 711 755 747 696 677
algodón

4. En la siguiente tabla se muestra el total de ventas mensuales de autos de


pasajeros en el Perú durante los años 1997-2002. Construya lo que se le
indica:

4.1 Un movimiento medio de 12 meses


4.2 Un movimiento medio centrado de 12 meses
4.3 Un movimiento medio centrado de 6 meses

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 197

4.4 Represente el movimiento medio de los apartados (4.2) y (4.3) junto con
los datos originales y compare los resultados

Ene. Feb Marzo Abril May Jun Jul Ago. Sep Oct Nov Dic
1997 52,6 45,3 56,1 59,8 54,3 58,7 59,9 51,7 47,2 52,8 37,9 38,6
1998 44,6 46,7 53,5 53,7 49,1 50,1 45,7 44,3 30,0 22,2 49,2 66,9
1999 65,5 67,7 79,3 75,4 72,1 64,7 65,7 62,6 46,8 50,2 74,0 69,1
2000 51,0 50,9 58,2 55,9 47,0 44,8 44,0 41,0 20,9 35,1 57,7 61,6
2001 68,0 57,0 58,7 54,7 53,1 49,3 48,7 52,3 31,3 29,1 58,8 55,2
2002 48,4 39,2 35,5 32,5 35,1 34,2 31,4 19,0 10,7 27,2 51,9 60,7

• Movimientos característicos de la serie de tiempo


• Clasificación de movimientos de series de tiempo
• El análisis de las series de tiempo
• Movimientos medios. Suavización de series de tiempo
• Estimación de la tenencia.

5. Los datos de inscripciones, en miles, en una universidad estatal durante los


últimos seis años son los siguientes:
Año 1 2 3 4 5 6
Inscripción 20.5 20.2 19.5 19.0 19.1 18.8

Deduzca una ecuación del componente de tendencia lineal en esta serie de


tiempo. Haga comentarios acerca de lo que sucede con la inscripción en
esta institución.

6. La siguiente tabla muestra la asistencia promedio a los juegos locales de


fútbol en una universidad durante los últimos siete años. Determine la
ecuación del componente de tendencia lineal para esta serie de tiempo.

Año 1 2 3 4 5 6 7
Asistencia 28,000 30,000 31,500 30,400 30,500 32,200 30,800

7. Al presidente de una pequeña fábrica le interesa considerar el aumento


continuo de costo de fabricación durante los últimos años. A continuación, se
observa la serie de tiempo del costo por unidad del producto principal de esa
empresa durante los últimos ocho años.

Año 1 2 3 4 5 6 7 8
Costo/unidad
20.50 24.50 28.20 27.50 26.60 30.10 31.40 36.50
($)

7.1 Trace la gráfica de esta serie de tiempo. ¿Parece haber una tendencia
lineal?

CIBERTEC CARRERAS PROFESIONALES


198

7.2 Determine una ecuación del componente de tendencia lineal para la serie
de tiempo.
7.3 ¿Cuál es el aumento anual promedio de costo que ha tenido la empresa?

8. Al final de la década de los noventa, muchas empresas trataron de reducir su


tamaño para disminuir sus costos. Uno de los resultados de esas medidas
de recorte de costos fue una disminución en el porcentaje de empleos
gerenciales en la industria privada. Los siguientes datos corresponden al
porcentaje de mujeres gerentes, del año 1995 al 2000.

Año 1995 1996 1997 1998 1999 2000 2001 2002


Porcentaje 7.45 7.51 7.52 7.53 7.65 7.62 7.73 7.68

8.1 Deduzca una ecuación de tendencia lineal para esta serie de tiempo.
8.2 Use la ecuación de la tendencia para estimar el porcentaje de mujeres
gerentes para el 2003 y 2004.

Para recordar
 Se deben diferenciar adecuadamente los movimientos de la serie de
tiempo.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 199

SEMANA

16
SERIE DE TIEMPO

TEMAS

• Modelos de estimación
• Métodos de estimación de la tendencia
• Predicción mediante la serie de tiempo

OBJETIVOS ESPECÍFICOS

• Descubrir un comportamiento de los datos históricos para extrapolarlo a futuro


• Pronostican de manera óptima mediante el uso de los modelos,.

CONTENIDOS

• Estimación de valores estacionales


• Métodos de estimación
• Estimación de variaciones cíclicas
• Estimación de variaciones irregulares o aleatorias
• Comparación de datos
• Predicciones

ACTIVIDADES

• Identifican una serie de tiempo.


• Analizan los diferentes métodos de estimación de la serie de tiempo.

CIBERTEC CARRERAS PROFESIONALES


200

SERIE DE TIEMPO

ESTIMACIÓN DE VARIACIONES ESTACIONALES. ÍNDICE ESTACIONAL

Para determinar el factor estacional S en TCSI, se debe estimar cómo varían


los datos en la serie de tiempo de un mes a otro a lo largo de un año
característico. Un conjunto de números mostrando los valores relativos de una
variable, durante los meses del año, se llama índice estacional de la variable.
Si, por ejemplo, se sabe que las ventas durante enero, febrero, marzo, etc., son
50, 120, 90,. . . por ciento de la venta media mensual del año completo, los
números 50, 120, 90,. . . suministran el índice estacional del año y, a veces, se
conocen como números del índice estacional. El promedio (media) del índice
estacional para el año completo deberá ser 100 %, es decir, la suma de los
números índice deberá ser 1200 %.

Varios son los métodos que se utilizan para el cálculo del índice estacional:
Método del porcentaje medio. En este método los datos de cada mes se
expresan como porcentajes de la media anual. Los porcentajes de meses que
se corresponden en diferentes años son entonces promediados mediante su
media o mediana. Si se emplea la media, es mejor evitar los valores extremos
que puedan aparecer.
Los 12 porcentajes resultantes dan el índice estacional. Si su media no es 100
% (es decir, si la suma no es 1200 %) deberá ajustarse multiplicando por un
factor adecuado.

Método de porcentaje de tendencia o razón de tendencia. En este método


los datos de cada mes se expresan como porcentajes de los valores de
tendencia mensuales. Una adecuada media de los porcentajes para los meses
correspondientes da el índice pedido. Como en el método anterior, se deben
ajustar si su medida no es el 100 %.

Nótese que la división de cada valor mensual Y por el correspondiente valor de


tendencia T da Y/T = CSI, en TCSI. En consecuencia, el promedio Y/T produce
índices estacionales que pueden incluir variaciones cíclicas e irregulares, sobre
todo cuando son grandes. Esto puede ser un inconveniente importante del
método.

Método del porcentaje del movimiento medio o razón del movimiento


medio. En este método, se calcula un movimiento medio de 12 meses. Puesto
que los resultados así obtenidos caen entre meses sucesivos en lugar de en el
centro del mes, como ocurría con los datos originales, se debe calcular un
movimiento medio de 2 meses de este movimiento medio de 12 meses. El
resultado se llama, a menudo, movimiento medio centrado de 12 meses.

Después de que se haya hecho esto, los datos originales para cada mes se
expresan como porcentajes de los correspondientes al movimiento medio
centrado de 12 meses. Los porcentajes para los meses correspondientes son

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 201

entonces promediados, dando el índice pedido. Como antes, deberán ajustarse


si su media no es el 100 %.

Adviértase que el razonamiento lógico de este método se sigue de la Ecuación


TCSI. Un movimiento medio centrado de 12 meses de Y sirve para eliminar los
movimientos estacionales e irregulares S e I y así equivale a los valores dados
por TC. Entonces, la división de los datos originales por TC da SI. Las medias
sucesivas de los meses correspondientes sirven para eliminar la irregularidad I
y así el resultado constituir un índice adecuado de S.

Método de enlaces relativos. En este método, los datos de cada mes se


expresan como porcentajes de los datos del mes anterior. Estos porcentajes se
llaman enlaces relativos, puesto que enlazan cada mes con el precedente.
Después se toma una media adecuada de los enlaces relativos para los meses
correspondientes.
De estos 12 enlaces relativos medios se pueden obtener los porcentajes
relativos de cada mes con respecto a enero, que se considera como 100 %.
Después de haber hecho esto, se encontrará normalmente que el enero
siguiente tendrá un porcentaje asociado que será mayor o menor del 100 %
dependiendo de si ha habido crecimiento o decrecimiento en la tendencia. Con
esto, los distintos porcentajes obtenidos se pueden ajustar para esta tendencia.
Estos porcentajes finales, ajustados de forma que su media sea el 100 %,
suministran el índice estacional pedido.

DESESTACIONALIZACIÓN DE DATOS

Si los datos originales mensuales se dividen por los correspondientes números


del índice estacional, los datos resultantes se dicen desestacionalizados o
ajustados para la variación estacional. Tales datos incluyen aun,
movimientos de tendencia, cíclicos e irregulares.

ESTIMACIÓN DE LAS VARIACIONES CÍCLICAS

Después de que los datos han sido desestacionalizados, pueden también ser
ajustados a su tendencia dividiendo los datos por los correspondientes valores
de tendencia. De acuerdo con la Ecuación TCSI, el proceso de ajuste para la
variación estacional y los valores de tendencia se consiguen al dividir Y por ST,
que da CI, es decir, variaciones cíclicas e irregulares. Un apropiado
movimiento medio de unos pocos meses de duración (por ejemplo, 3, 5 ó 7
meses, de modo que no es necesaria la sucesión centrada) posteriormente
sirve para suavizar las variaciones irregulares (I) y deja solamente las
variaciones cíclicas. Una vez que éstas han sido aisladas, pueden ser
estudiadas con detalle. Si aparece una periodicidad (o periodicidad
aproximada) de ciclos, pueden construirse unos índices cíclicos análogamente
a como se obtuvieron los índices estacionales.

ESTIMACION DE LAS VARIACIONES IRREGULARES O ALEATORIAS

La estima de las variaciones irregulares o aleatorias se logra ajustando los


datos a los valores de tendencia, variaciones estacionales y cíclicas. Al dividir

CIBERTEC CARRERAS PROFESIONALES


202

los datos originales Y por T, S y C por la Ecuación TCSI, se obtiene l. En la


práctica, se encuentra que los movimientos irregulares tienden a ser de pe-
queña magnitud y que, a menudo, tienden a distribuirse normalmente, es decir,
desviaciones pequeñas aparecen con gran frecuencia, desviaciones grandes
aparecen con poca frecuencia.

COMPARACIÓN DE DATOS

Se debe tener siempre cuidado al comparar datos y que tal comparación esté
correctamente justificada. Por ejemplo, al comparar los datos de marzo con los
de febrero, se debe tener en cuenta que marzo tiene 31 días, mientras que
febrero tiene 28 ó 29. Análogamente, al comparar los meses de febrero para
diferentes años, se debe tener presente que en años bisiestos febrero tiene 29
días en lugar de 28. El número de días laborables durante varios meses del
mismo o años diferentes, puede también diferir debido a fiestas, huelgas, paros
temporales, etc.

PREDICCIÓN

Las ideas anteriores pueden servir de ayuda en el importante problema de la


predicción en las series de tiempo. Sin embargo, se debe tener en cuenta que
un tratamiento matemático de los datos no resuelve por sí solo todos los
problemas. Juntamente con el sentido común, experiencia, habilidad y buen
juicio del investigador, tales análisis matemáticos pueden, no obstante, ser de
valor para la predicción a largo y corto plazo.

RESUMEN DE LOS PASOS FUNDAMENTALES EN EL ANÁLISIS DE


SERIES DE TIEMPO

1. Coleccionar los datos de la serie de tiempo, procurando asegurarse de que


estos datos sean dignos de confianza. En la colección de datos, se debe
siempre tener presente el propósito que se persigue en cada caso con el
análisis de la serie de tiempo. Por ejemplo, si se desea predecir sobre una
serie de tiempo dada, puede servir de ayuda el obtener series afines así
como otra posible información. Si es necesario ajustar los datos para
poderlos comparar, es decir; ajustar para años bisiestos, etc.

2. Representar la serie de tiempo, anotando cualitativamente la presencia de


tendencia de larga duración, variaciones cíclicas y variaciones estacionales

3. Construir la curva o recta de tendencia de larga duración y obtener los


valores de tendencia apropiados mediante cualquiera de los métodos, de
mínimos cuadrados, libre, movimientos medios o semimedias

.4. Si están presentes variaciones estacionales, obtener un índice estacional y


ajustar los datos a estas variaciones estacionales, es decir,
desestacionalizar los datos.

5. Ajustar los datos desestacionalizados a la tendencia. Los datos resultantes


contienen (teóricamente) solamente las variaciones cíclicas e irregulares.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 203

Un movimiento medio de 3, 5 ó 7 meses sirve para eliminar las variaciones


irregulares y poner de manifiesto las variaciones cíclicas

6. Representar las variaciones cíclicas obtenidas en el paso 5, anotando


cualquier periodicidad (o periodicidad aproximada) que pueda aparecer

7. Combinando los resultados de los pasos 1-6 y con cualquier otro tipo de
información útil, hacer una predicción (si se desea) y si es posible discutir
las fuentes de error y su magnitud

ACTIVIDADES

1. La Tabla muestra la energía eléctrica mensual en millones de kilovatios hora


empleada para el alumbrado de calles y carreteras en el Perú durante los
años 1991-1998.

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991 318 281 278 250 231 216 223 245 269 302 325 347
1992 342 309 299 268 249 236 242 262 288 321 342 364
1993 367 328 320 287 269 251 259 284 309 345 367 394
1994 392 349 342 311 290 273 282 305 328 364 389 417
1995 420 378 370 334 314 296 305 330 356 396 422 452
1996 453 412 398 362 341 322 335 359 392 427 454 483
1997 487 440 429 393 370 347 357 388 415 457 491 516
1998 529 477 463 423 398 380 389 419 448 493 526 560

1.1 Construye un gráfico de los datos.

1.2 Obtenga un índice estacional mediante el método del porcentaje medio.

CIBERTEC CARRERAS PROFESIONALES


204

Años 1991 1992 1993 1994 1995 1996 1997 1998


Consumo total
Medias mensuales

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Media

1.3 Obtenga el índice estacional mediante el método de porcentaje de


tendencia (utilice el método de mínimos cuadrados para obtener los
valores de tendencia mensuales)

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 205

Años 1991 1992 1993 1994 1995 1996 1997 1998


Medias mensuales

Valores de tendencia central mensuales


Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Media

Valores de tendencia central mensuales expresados en porcentajes


Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Mediana

Años 1991 1992 1993 1994 1995 1996 1997 1998


Indice estacional

1.4 Obtenga el índice estacional mediante el método de enlaces relativos

CIBERTEC CARRERAS PROFESIONALES


206

La media de los enlaces relativos


Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Media

1.5 Ajuste los datos a la variación estacional (desestabilización de los


datos).

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 207

1997
1998
Total
Media

1.6 Ajuste los datos a la tendencia.

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998

CIBERTEC CARRERAS PROFESIONALES


208

Autoevaluación
1. En la siguiente tabla se da el consumo medio mensual, en millares de
fanegas de algodón nacional y de importación en Estados Unidos durante los
años 1990-1999.

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Consumo
de 656 804 836 765 777 711 755 747 696 677
algodón

1.1 Obtenga los valores de tendencia para los datos mediante el método de
semimedias, donde la media se toma como
(a) la media aritmética
(b) la mediana
Construir un gráfico con los resultados obtenidos
1.2 Obtenga los valores de tendencia para los datos mediante
(a) el método libre
(b) un movimiento medio de orden adecuado
Comparar con los resultados
1.3 Emplee el método de mínimos cuadrados para ajustar una recta a los
datos de la tabla

2. En la siguiente tabla, se muestra la producción mensual de mantequilla en el


Perú en miles de kilogramos los años 1996-2003.
2.1 Represente los datos.
2.2 Construya un índice estacional mediante el método del porcentaje
medio.
2.3 Obtenga un índice estacional mediante el método de porcentaje de
tendencia o razón de tendencia.
2.4 Obtenga un índice estacional mediante el método del porcentaje del
movimiento medio o razón del movimiento medio
2.5 Obtenga un índice estacional mediante el método de enlaces relativos

Ene Feb Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1996 85,6 80.9 92,2 101,8 132,6 141,2 130,5 119,0 93,6 86,6 68,4 70,4
1997 78,7 78,8 91,5 102,5 135,0 128,0 117,7 105,7 92,1 87,7 75,9 94,6
1998 103,9 101,9 121,4 133,5 156,0 154,0 135,6 118,7 95,0 91,6 91,3 109,0
1999 118,7 116,6 143,3 142,0 164,5 160,9 129,7 109,4 92,6 87,8 86,8 97,0
2000 108,1 104,3 121,1 129,4 157,9 151,9 123,0 102,1 91,9 94,7 92,7 105,8
2001 114,6 114,1 129,6 135,4 151,9 149,0 127,6 109,8 92,4 93,1 92,3 103,4
2002 115,3 110,3 124,6 132,3 159,3 148,1 125,8 106,9 90,1 100,3 94,1 105,7
2003 118,6 113,4 129,5 130,3 150.6 144,7 126,9 97,7 8607 91,9 90,0 107,2

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 209

3. En la siguiente tabla, se muestra las ventas estimadas en millones de


dólares de todas las tiendas al por menor en la ciudad de Lima durante los
años 1996-2003.
3.1 Represente los datos.
3.2 Obtenga un índice estacional mediante el método del porcentaje medio.
3.3 Obtenga un índice estacional mediante el método de porcentaje de
tendencia o razón de tendencia.
3.4 Obtenga un índice estacional mediante el método de la razón del
movimiento medio.
3.5 Obtenga un índice estacional mediante el método de enlaces relativos.

Ene Feb Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1996 12,63 11,72 13,43 12,53 13,29 13,27 12,36 13,27 13,10 13,86 13,39 15,38
1997 11,84 11,74 12,74 13,40 14,85 13,81 13,40 13,45 13,62 14,82 14,01 16,91
1998 13,05 12,33 13,96 14,17 14,66 14,58 14,38 14,18 14,08 14,95 13,96 16,44
1999 12,34 12,06 13,54 14,32 14,25 14,66 14)39 13,90 14,14 14,66 14,53 17,87
2000 13,15 12,64 14,57 15,49 15,33 15,60 15,26 15,48 15,76 15,68 15,75 19,12
2001 13,73 13,55 15,72 14,89 16,11 16,58 15,38 16,19 15,58 16,13 16,49 19,38
2002 14,74 14,06 15,79 16,44 17,20 17,11 16,86 17,49 16,37 16,95 17,13 19,84
2003 15,29 13,78 15,55 16,27 17,36 16,60 16,60 17,00 16,33 17,36 17,04 21,17

4. En la siguiente tabla, se muestra la carga transportada en miles de vagones


de ferrocarril con carga de minerales llevados al puerto del callao durante los
años 1998-2005.
4.1 Construya un gráfico de los datos.
4.2 Obtenga un índice estacional mediante el método del porcentaje medio.

Ene. Feb. Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1998 3661 2834 2999 3152 3977 3295 3807 3307 3312 4317 3139 2700
1999 3562 2911 2868 2912 3678 2606 2969 3149 3364 4156 3139 2672
2000 3351 2730 2801 2957 3883 3204 3758 3229 3153 4024 2797 2413
2001 2967 2462 2412 2445 3345 2730 3251 2708 2711 3629 2685 2518
2002 2505 2556 3256 2757 3754 3052 3015 3883 3148 3282 3758 2669
2003 2713 2751 3517 2971 3835 3143 2397 3700 3155 3284 3740 2641
2004 2565 2616 3446 2696 3558 2959 2708 3737 2849 2920 3223 2221
2005 2164 2108 2702 2105 2729 2489 2138 3146 2570 2733 2462 2188

5. La tabla muestra la energía eléctrica mensual en millones de kilovatios hora


empleada para el alumbrado de calles y carreteras en el Perú durante los
años 1991-1998. Calcule un índice estacional para los últimos cuatro años y
los cuatro primeros años de los datos. Utilice cualquier método.

CIBERTEC CARRERAS PROFESIONALES


210

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991 316 285 288 253 225 225 223 235 269 302 323 352
1992 338 312 305 274 244 246 242 252 285 321 342 364
1993 363 321 315 294 259 261 259 274 309 345 367 394
1994 389 353 352 320 260 283 282 308 325 364 389 421
1995 425 383 378 324 315 296 305 330 356 396 422 452
1996 454 417 402 356 351 332 335 358 392 427 454 492
1997 488 446 412 398 387 357 357 388 415 457 491 521
1998 519 487 457 425 402 390 389 419 448 493 526 568

6. En la siguiente tabla, se muestra la producción mensual de mantequilla en el


Perú en miles de kilogramos los años 1996-2003.

Ene. Feb. Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1996 84,6 87.9 98,2 107,8 132,7 144,2 132,5 120,6 98,6 90,6 78,4 90,4
1997 77,7 76,8 99,5 108,5 135,8 128,0 117,7 105,7 92,1 87,7 75,9 98,6
1998 100,9 105,9 120,4 138,5 156,7 154,0 135,6 118,7 95,0 91,6 91,3 107,0
1999 115,7 120,6 148,3 146,0 164,5 160,9 129,7 109,4 92,6 87,8 86,8 99,0
2000 104,1 115,3 134,1 132,4 157,5 151,9 123,0 102,1 91,9 94,7 92,7 109,8
2001 117,6 118,1 134,6 138,4 151,3 149,0 127,6 109,8 92,4 93,1 92,3 106,4
2002 118,3 119,3 144,6 139,3 159,2 148,1 125,8 106,9 90,1 100,3 94,1 108,7
2003 113,6 115,4 139,5 140,3 150,8 144,7 126,9 97,7 8607 91,9 90,0 109,2

6.1 Obtenga un índice estacional mediante el método del porcentaje del


movimiento medio o razón del movimiento medio. ,
6.2 Obtenga un índice estacional mediante el método de enlaces relativos
6.3 Desestacionalice los datos
6.4 Represente los datos desestacionalizados y explicar los resultados.
6.5 Ajuste los datos para la variación estacional
6.6 Represente los datos ajustados estacionalmente e interpretar los
resultados obtenidos.
7. En la siguiente tabla, se muestra las medias mensuales de producción de
arroz en la zona nororiental de Perú en miles de toneladas durante los años
1990-1999. Represente los datos y discuta la posible existencia de ciclos.

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Media
67.4 81.3 82.5 74.8 79.7 74.3 77.5 73.7 69.6 69.7
Mensual

8. En la siguiente tabla, se muestra la producción mensual de mantequilla en el


Perú en miles de kilogramos los años 1996-2003.

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 211

Ene Feb Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1996 85,6 80.9 92,2 101,8 132,6 141,2 130,5 119,0 93,6 86,6 68,4 70,4
1997 78,7 78,8 91,5 102,5 135,0 128,0 117,7 105,7 92,1 87,7 75,9 94,6
1998 103,9 101,9 121,4 133,5 156,0 154,0 135,6 118,7 95,0 91,6 91,3 109,0
1999 118,7 116,6 143,3 142,0 164,5 160,9 129,7 109,4 92,6 87,8 86,8 97,0
2000 108,1 104,3 121,1 129,4 157,9 151,9 123,0 102,1 91,9 94,7 92,7 105,8
2001 114,6 114,1 129,6 135,4 151,9 149,0 127,6 109,8 92,4 93,1 92,3 103,4
2002 115,3 110,3 124,6 132,3 159,3 148,1 125,8 106,9 90,1 100,3 94,1 105,7
2003 118,6 113,4 129,5 130,3 150.6 144,7 126,9 97,7 8607 91,9 90,0 107,2

8.1Emplee cualquiera de los resultados para predecir la producción de


mantequilla en el Perú durante el año 2003.
8.2Discuta los posibles orígenes de error.
8.3Compare las predicciones con los valores reales para 2003 dados en la
siguiente tabla.

Ene Feb Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic

116,3 108,2 121,4 126,8 143,4 135,6 112,5 90,9 82,6 92,1 91,2 108,0

9. En la siguiente tabla, se muestra la carga transportada en miles de vagones


de ferrocarril con carga de minerales llevados al puerto del callao durante los
años 1998-2005.

Ene Feb Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
1998 3661 2834 2999 3152 3977 3295 3807 3307 3312 4317 3139 2700
1999 3562 2911 2868 2912 3678 2606 2969 3149 3364 4156 3139 2672
2000 3351 2730 2801 2957 3883 3204 3758 3229 3153 4024 2797 2413
2001 2967 2462 2412 2445 3345 2730 3251 2708 2711 3629 2685 2518
2002 2505 2556 3256 2757 3754 3052 3015 3883 3148 3282 3758 2669
2003 2713 2751 3517 2971 3835 3143 2397 3700 3155 3284 3740 2641
2004 2565 2616 3446 2696 3558 2959 2708 3737 2849 2920 3223 2221
2005 2164 2108 2702 2105 2729 2489 2138 3146 2570 2733 2462 2188

9.1Emplee cualquiera de los resultados para predecir la carga transportada


en miles de vagones de ferrocarril con carga de minerales llevador al
puerto del callao en el 2006.
9.2Discuta los posibles orígenes de error.
9.3Compare las predicciones con los valores reales para 2006 dados en la
siguiente tabla.
9.4 Construya un gráfico de los datos.
9.5 Obtenga un índice estacional mediante el método del porcentaje medio.

CIBERTEC CARRERAS PROFESIONALES


212

Ene. Feb. Mar Abril Mayo Jun Jul Ago. Sep Oct Nov Dic
2742 2291 2398 2489 3419 2813 2249 2712 2190 2908 2403 2376

10. Se tiene la siguiente serie de tiempo:

Trimestre Año 1 Año 2 Año 3


1 4 6 7
2 2 3 6
3 3 5 6
4 5 7 8

10.1 Determine los valores de promedio móvil de cuatro trimestres y


centrado para esta serie de tiempo.
10.2 Calcule los índices estacionales para los cuatro trimestres.

11. Los datos trimestrales de ventas de un texto escolar (cantidad de


ejemplares vendidos) durante los tres últimos años son los siguientes:

Trimestre Año 1 Año 2 Año 3


1 1690 1800 1850
2 940 900 1100
3 2625 2900 2930
4 2500 2360 2615

11.1 Determine los valores de promedio móvil centrado de cuatro trimestres


y para esta serie de tiempo.
11.2 Calcule los índices estacionales para los cuatro trimestres.
11.3 ¿Cuándo se presentará el máximo índice estacional? ¿Parece
razonable? Explique por qué.

12. Identifique los índices estaciónales mensuales de los tres años de gastos
para un edificio de departamentos en Surco, de acuerdo con la siguiente
tabla. Emplee un cálculo de promedios móviles de 12 meses.

Gastos
Mes Año 1 Año 2 Año 3
Enero 170 180 195
Febrero 180 205 210
Marzo 205 215 230
Abril 230 245 280
Mayo 240 265 290
Junio 315 330 390
Julio 360 400 420
Agosto 290 335 330
Septiembre 240 260 290
Octubre 240 270 295
Noviembre 230 255 280
Diciembre 195 220 250

CARRERAS PROFESIONALES CIBERTEC


ESTADISTICA II 213

13. Los especialistas en contaminación atmosférica del sur de America vigilan


cada hora la cantidad de ozono, dióxido de carbono y dióxido de nitrógeno
en el aire. Los datos recabados presentan efecto estacional, porque
muestran patrones durante las horas del día. En la fecha 15, 16 Y 17 de julio
se observaron las siguientes concentraciones de dióxido de nitrógeno en la
zona comercial, durante las 12 horas que van de las 6:00 a.m. a las 6:00
p.m.

15 de julio 25 28 35 50 60 60 40 35 30 25 25 20
16 de julio 28 30 35 60 65 50 50 40 35 25 20 20
17 de julio 35 42 45 72 75 60 60 45 40 25 25 25

13.1 Identifique los índices estacionales por hora para las 12 indicaciones
de cada día.
13.2 Con los índices estaciónales determinados en el inciso a, se eliminó el
efecto estacional la ecuación de tendencia para los datos
desestacionalizada fue T=32.983 + 3922 t. Use sólo el componente de
tendencia para determinar pronósticos para las 12 horas del 18 de julio.

14. En el Perú, la ONPE mantiene datos de la edad de votante, cantidad de


votantes registrados y el porcentaje de votación para elecciones
presidenciales y municipales. En la siguiente tabla, se muestra los
porcentajes nacionales de votantes, en relación con la población con edad
de votar, desde 1982 hasta 2002.

Año
1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
%
55 38 54 37 52 40 53 36 50 37 55
Movimientos

14.1 Aplique el suavizamiento exponencial para pronosticar esta serie de


tiempo. Use constantes de suavizarmiento α = 0.1 . y α = 0.2 ¿Qué valor
de la constante da los mejores pronósticos?
14.2 ¿Cuál es el pronóstico del porcentaje de votantes en 2004?

Para recordar
 Se deben tener en claro los pasos fundamentales de la serie de tiempo.

CIBERTEC CARRERAS PROFESIONALES

También podría gustarte