Está en la página 1de 212

Estadstica II

ESTADISTICA II

ndice
Presentacin

05

Red de contenidos

06

Sesiones de aprendizaje
SEMANA 1

SEMANA 2

SEMANA 3

SEMANA 4

SEMANA 5

SEMANA 6

CIBERTEC

Definiciones bsicas: Poblacin, marco muestral,


muestra, censo y muestreo: Ventajas y desventajas
Diseo de la encuesta por muestreo. Tipos de muestreo
Distribuciones muestrales
Estimacin Puntual. Propiedades de un estimador.
Estimacin de intervalos de confianza
Intervalos de confianza para la media con varianza
conocida, muestra grande
Tamao muestral para estimar una media
Intervalo de confianza para la diferencia de medias de
dos distribuciones con ambas desviaciones estndar
conocidas, muestras grandes
Intervalo de confianza para la media con varianza
desconocida. Muestra pequea
Intervalo de confianza para la diferencia de medias con
varianzas desconocidas pero iguales, muestras
pequeas
Intervalo de confianza para una proporcin. Muestras
grandes
Tamao muestral para estimar una proporcin
Tamao de muestra para poblaciones finitas
Intervalo de confianza para la diferencia de proporciones
Hiptesis estadstica. Tipos de errores I y II, Nivel de
significacin, Regin crtica o regin de rechazo. Regin
de aceptacin
Prueba de Hiptesis para medias, muestras grandes.
Prueba bilateral de una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso I,
caso II
Prueba de Hiptesis para la diferencia de medias.
Desviacin estndar conocidas, muestras grandes
Prueba de Hiptesis para medias, muestras pequeas
Prueba bilateral de una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso
I, caso II
Prueba de Hiptesis para la diferencia de medias
Desviacin estndar desconocidas, Muestras pequeas

CARRERAS PROFESIONALES

07

19

35

45

55

73

SEMANA 7

: EXAMEN PARCIAL

SEMANA 8

SEMANA 9

SEMANA 10 :

SEMANA 11

SEMANA 12

SEMANA 13
SEMANA 14

SEMANA 15 :
SEMANA 16

CARRERAS PROFESIONALES

Prueba de Hiptesis para las proporciones, muestras


grandes.
Prueba bilateral de una hiptesis sobre las
proporciones
Prueba unilateral de una hiptesis sobre la media, caso
I, caso II
Prueba de Hiptesis para la diferencia entre dos
proporciones

87

Definicin del x (Chi cuadrado). Ensayos de significacin


Prueba de homogeneidad, prueba de independencia
Prueba de bondad de ajuste. Tablas de contingencia
Prueba de Kolmogorov-Smirnov
Correlacin de yates para la continuidad. Coeficientes de
contingencia
Anlisis de Regresin lineal Simple. Variable independiente,
variable dependiente
Diagrama de dispersin. Mtodo de mnimos cuadrados
Recta de mnimos cuadrados en trminos de varianzas
muestrales
Recta de regresin de mnimos cuadrados. Aplicacin e
interpretacin
Anlisis de Regresin lineal mltiple
Recta de regresin de mnimos cuadrados
Aplicacin e interpretacin
Anlisis de Regresin no lineal: Cuadrtica
Anlisis de Regresin no lineal: Potencial
Anlisis de Regresin no lineal: Exponencial
Anlisis de Regresin no lineal Logartmica
Correlacin entre dos variables, dependiente e independiente
Coeficiente de correlacin lineal (frmula de Pearson)
Coeficiente de correlacin generalizado (Coeficiente de
determinacin)
Coeficiente de correlacin gradual (frmula de Spearman)
Serie de tiempo. Introduccin a la serie de tiempo
Representacin y Clasificacin de la serie de tiempo
Anlisis de la serie de tiempo
Modelos de estimacin.
Mtodos de estimacin de la tendencia
Prediccin mediante la serie de tiempo

103

123

135
149

163
173
185
199

CIBERTEC

ESTADISTICA II

Presentacin
La globalizacin ha creado un campo muy extenso de desarrollo para los
nuevos profesionales, ya sea en servicios o en produccin. Es por esto que
tienen

que estar preparados para enfrentar cualquier reto en el campo

laboral. Las comunicaciones y el software han hecho que en la actualidad


todo profesional est en constante contacto con la informacin estadstica.
Ms an, muchas veces es necesario realizar alguna medicin estadstica
para tener una idea acerca de la produccin de una empresa, del mercado
burstil a nivel mundial, del precio de los metales en el mercado Europeo, el
control de epidemias en zonas determinadas, el control de los precios de la
canasta familiar, etc, de manera que se pueda tomar la decisin adecuada
para que dichos estudios sean siempre favorables.
El propsito de este manual es brindar conceptos claros de estadstica
inferencial y sus numerosas aplicaciones en el campo laboral. Por otra parte,
se pretende dar al futuro profesional las herramientas necesarias para
interpretar y evaluar informacin estadstica, para que adquiera destreza en
la interpretacin, y manejo de las definiciones y teoremas.
En una primera etapa se desarrollar el marco terico y prctico de la
Estadstica Inferencial. En la segunda etapa se desarrollar la aplicacin de
Mtodos regresivos para predecir situaciones experimentales basadas en
datos reales.
Finalmente es importante resaltar que este curso es netamente prctico. Por
ello en cada sesin se desarrollar la teora necesaria en forma concreta,
dndole mayor nfasis a la parte prctica y a la interpretacin de resultados.

CIBERTEC

CARRERAS PROFESIONALES

Red de contenidos

conocida

Intervalos de
confianza

desconocida

Proporciones

conocida

Prueba de
hiptesis
Muestreo

desconocida

Proporciones
Lineales
Simple
No Lineales
Regresiones

Mltiple

Correlaciones

Serie de
tiempo

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

SEMANA

1
TEORA DE MUESTREO

TEMAS

Definiciones bsicas: poblacin, marco muestral, muestra, censo y


muestreo. Ventajas y desventajas del muestreo
Diseo de la encuesta por muestreo. Tipos de muestreo. Determinacin del
tamao de muestra

OBJETIVOS ESPECFICOS

Relacionar la poblacin y la muestra


Estimar las diferencias entre poblacin y muestra
Realizar, adecuadamente, un muestreo de una poblacin dada
Aplicar distribuciones muestrales

CONTENIDOS

Definiciones bsicas: Poblacin, marco muestral, muestra, censo y


muestreo. Ventajas y desventajas del muestreo
Diseo de la encuesta por muestreo. Tipos de muestreo. Determinacin del
tamao de la muestra

ACTIVIDADES
o
o

Determinan, adecuadamente, una muestra de la poblacin.


Determinan el tamao de la muestra.

CIBERTEC

CARRERAS PROFESIONALES

TEORA DE MUESTREO
La teora de muestreo es un estudio de las relaciones existentes entre una
poblacin y muestras extradas de la misma. Tiene gran inters en muchos
aspectos de la estadstica. Por ejemplo, permite estimar cantidades
desconocidas de la poblacin (tales como la media poblacional, la varianza,
etc.), frecuentemente llamadas parmetros poblacionales o brevemente
parmetros, a partir del conocimiento de las correspondientes cantidades
muestrales (tales como la media muestral, la varianza, etc.), a menudo
llamadas estadsticos muestrales o brevemente estadsticos.
La teora de muestreo es tambin til para determinar si las diferencias que se
puedan observar entre dos muestras son debidas a la aleatoriedad de las
mismas o si por el contrario son realmente significativas. Tales preguntas
surgen, por ejemplo, al ensayar un nuevo suero para el tratamiento de una
enfermedad, o al decidir si un proceso de produccin es mejor que otro. Estas
decisiones envuelven a los llamados ensayos e hiptesis de significacin, que
tienen gran importancia en teora de la decisin.
En general, un estudio de inferencias, realizado sobre una poblacin mediante
muestras extradas de la misma, junto con las indicaciones sobre la exactitud
de tales inferencias aplicadas a la teora de la probabilidad, se conoce como
inferencia estadstica.
MUESTRAS AL AZAR. NMEROS ALEATORIOS
Para que las conclusiones de la teora del muestreo e inferencia estadstica
sean vlidas, las muestras deben elegirse de forma que sean representativas
de la poblacin. Un estudio sobre mtodos de muestreo y los problemas que
tales mtodos implican se conoce como diseo de experimentos.
El proceso mediante el cual se extrae de una poblacin una muestra
representativa de la misma se conoce como muestreo al azar. De acuerdo con
ello cada miembro de la poblacin tiene la misma posibilidad de ser incluido en
la muestra. Una tcnica para obtener una muestra al azar es asignar nmeros
a cada miembro de la poblacin: escritos estos nmeros en pequeos papeles,
se introducen en una urna y despus se extraen nmeros de la urna, teniendo
cuidado de mezclarlos bien antes de cada extraccin.
MUESTREO CON Y SIN REEMPLAZO
Si se extrae un nmero de una urna, se puede volver o no el nmero a la urna
antes de realizar una segunda extraccin. En el primer caso, un mismo nmero
puede salir varias veces, mientras que en el segundo un nmero determinado
solamente puede salir una vez. El muestreo, en el que cada miembro de la
poblacin puede elegirse ms de una vez, se llama muestreo con reemplazo,
mientras que si cada miembro no puede ser elegido ms de una vez se tiene el
muestreo sin reemplazo.
Las poblaciones pueden ser finitas o infinitas. Si, por ejemplo, se extraen
sucesivamente 10 bolas sin reemplazo de una urna que contiene 100, se est
tomando una muestra de una poblacin finita, mientras que si se lanza al aire
una moneda 50 veces, anotndose el nmero de caras, se est muestreando
en una poblacin infinita.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Una poblacin finita, en la que se realiza un muestreo con reemplazo, puede


tericamente ser considerada como infinita, puesto que puede extraerse
cualquier nmero de muestras sin agotar la poblacin. En muchos casos
prcticos, el muestreo de una poblacin finita que es muy grande, puede
considerarse como muestreo de una poblacin infinita.
DISTRIBUCIONES MUESTRALES
Considrense todas las posibles muestras de tamao n que pueden extraerse
de una poblacin dada (con o sin reemplazo). Para cada muestra se puede
calcular un estadstico, tal como la media, la desviacin estndar, etc., que
variar de una muestra a otra. De esta forma, se obtiene una distribucin del
estadstico que se conoce como distribucin muestral.
Si, por ejemplo, el estadstico de que se trata es la media muestral, la
distribucin se conoce como distribucin muestral de medias Anlogamente se
obtendran las distribuciones mustrales de las desviaciones estndar,
varianzas, medianas, proporciones, etc.
DISTRIBUCIN MUESTRAL DE MEDIAS
Supngase que son extradas de una poblacin finita todas las posibles
muestras sin reemplazo de tamao n, siendo el tamao de la poblacin N. Si se
denota la media y la desviacin estndar de la distribucin muestral de medias
por x y x , y la media y la desviacin estndar de la poblacin por y ,
respectivamente, se tiene
x =

x =

N n
N 1

Si la poblacin es infinita, los resultados anteriores se convierten en


x =

x =

Para valores grandes de n ( n 30 ) la distribucin muestral de medias se


aproxima a una distribucin normal con media x y desviacin estndar x
independiente de la poblacin de que se trate (siempre que la media y la
varianza poblacional sean finitas y el tamao de la poblacin sea al menos dos
veces el tamao de la muestra). Este resultado en una poblacin infinita es un
caso especial del teorema central del lmite de teora de probabilidad superior,
que demuestra que la aproximacin es tanto mejor conforme n se hace mayor.
Esto se indica diciendo que la distribucin muestral es normal.
En caso de que la poblacin se distribuya normalmente, la distribucin muestral
de medias se distribuye tambin normalmente, incluso para pequeos valores
de n (es decir, n < 30).

CIBERTEC

CARRERAS PROFESIONALES

10

DISTRIBUCIN MUESTRAL DE PROPORCIONES


Supngase una poblacin infinita y que la probabilidad de ocurrencia de un
suceso (conocido como su xito) es p, mientras que la probabilidad de no
ocurrencia del suceso es q = 1 p (conocido como su fracaso).
Se consideran todas las posibles muestras de tamao n extrada de esta
poblacin y para cada muestra se determina la proporcin p de xito. Entonces
se obtiene una distribucin muestral de proporciones cuya p y desviacin
estndar p vienen dadas por

p = p
p (1 p)
n

p =

Si la poblacin es infinita, los resultados anteriores se convierten en


=p

= p(1 p )
Para grandes valores de n( n 30 ) la distribucin muestral se aproxima mucho
a una distribucin normal. Ntese que la poblacin se distribuye binomialmente.
DISTRIBUCIN MUESTRAL DE DIFERENCIAS Y SUMAS
Supngase que se tienen dos poblaciones. Para cada muestra de tamao n1
extrada de la primera poblacin se calcula un estadstico s1. Esto proporciona
una distribucin muestral del estadstico s1 con media x1 y desviacin
estndar x1 . Anlogamente, para cada muestra de tamao n2, extrada de la
segunda poblacin, se calcula un estadstico s2. Esto Igualmente proporciona
una distribucin muestral del estadstico s2, con media x 2 y desviacin
estndar x 2 . De todas las posibles combinaciones de estas muestras de las
dos poblaciones, se puede obtener una distribucin de las diferencias (s1-s2)
que se conoce como distribucin muestral de diferencias de los estadsticos.
Si s1 y s2 son las medias muestrales de las dos poblaciones, las cuales vienen
dadas por x1 y x 2 , entonces la distribucin muestral de las diferencias de
medias para poblaciones infinitas con medias y desviaciones estndar 1 , 1 y
2 , 2 , respectivamente, tiene por media y desviacin estndar:
x1 x 2 = x1 x 2 = 1 2

1 x2

= x21 + x22 =

12
n1

22
n2

El resultado se mantiene vlido para poblaciones finitas.


Resultados correspondientes pueden deducirse para las distribuciones
muestrales de diferencias de proporciones de dos poblaciones distribuidas
binomialmente con parmetros p1, q1 y p2, q2, respectivamente. En este caso s1
y s2 corresponden a las proporciones de xito, p1 y p2

p p = p p = p1 p2
1

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

11

p1 (1 p1 ) p2 (1 p2 )
+
n1
n2

p p = p2 + p2 =
1

Si n1 y n2 son grandes ( n1 30 y n2 30 ), las distribuciones muestrales de


diferencias de medias o proporciones se distribuyen muy aproximadamente
como una normal.
A veces, es til hablar de la distribucin muestral de la suma de estadsticos.
La media y la desviacin estndar de esta distribucin vienen dadas por

s s = s s
1

s s = + s2
1

2
s1

suponiendo que las muestras son independientes.


ERRORES TPICOS
La desviacin estndar de la distribucin muestral de un estadstico se conoce
tambin como su error estndar. En la tabla se han anotado los errores tpicos
de distribuciones muestrales para diversos estadsticos bajo las condiciones de
muestreo aleatorio sin reemplazo para una poblacin infinita (o muy grande) o
con reemplazo para una poblacin finita. Tambin, se apuntan notas especiales que indican las condiciones para las que los resultados son vlidos, as
como otras notas de inters.

Las cantidades , , p, r y x, s, p, x r denotan, respectivamente, las medias,


desviaciones estndar, proporciones y momentos de orden r respecto de la
media en la poblacin y en la muestra.
Es de notar que si el tamao de la muestra n es bastante grande, las
distribuciones muestrales son normales o casi normales. Por esta razn, los
mtodos se conocen como mtodos para grandes muestras. La teora de
pequeas muestras, o teora de muestreo exacto, como a veces se llama, se
usa cuando n<30. Entonces, las muestras se llaman pequeas.
Cuando los parmetros de la poblacin, tales como , p, r se desconocen,
pueden estimarse mediante sus correspondientes estadsticos muestrales:

s, p, xr , si las muestras son suficientemente grandes.


Distribucin
muestral
Medias

Proporciones

CIBERTEC

Error estndar

x =

p =

p (1 p)
n

Observaciones
Se cumple para muestras grandes o
pequeas. La distribucin muestral de
medias se ajusta mucho a la normal
para n 30 incluso para poblaciones
no normales.
Se cumple para muestras grandes o
pequeas. La distribucin muestral de
medias se ajusta mucho a la normal
para n 30 incluso para poblaciones
no normales.

CARRERAS PROFESIONALES

12

ACTIVIDADES
1. Una poblacin se compone de los cinco nmeros 2, 3, 6, 8, 11. Considere
todas las muestras posibles de tamaos que puedan extraerse con
remplazamiento de esta poblacin. Halle lo siguiente:
1.1 La media de la poblacin
1.2 La desviacin estndar de la poblacin
1.3 La media de la distribucin muestral de medias
1.4 El error estndar de medias

2. Supngase que las alturas de 3 000 estudiantes de una universidad se


distribuyen normalmente con media 68,0 pulgadas y desviacin estndar 3,0
pulgadas. Si se toman 80 muestras de 25 estudiantes cada una, cul ser
la media y la desviacin estndar esperada de la distribucin muestral de
medias resultante si el muestreo se hizo sin reemplazo?

3. Quinientos cojinetes de bolas tienen un peso medio de 5,02 onzas y una


desviacin estndar de 0,30 onzas. Halle la probabilidad de que una
muestra al azar de 100 cojinetes elegidos entre este grupo tenga un peso
total (a) comprendido entre 496 y 500 onzas, (b) de ms de 510 onzas.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

13

4. Las bombillas elctricas de un fabricante A tienen una duracin media de


1400 horas con una desviacin estndar de 200 horas, mientras que las de
otro fabricante B tienen una duracin media de 1200 horas con una
desviacin estndar de 100 horas. Si se toman muestras al azar de 125
bombillas de cada fabricante, cul es la probabilidad de que las bombillas
de A tengan una duracin media que sea al menos (a) 160 horas, (b) 250
horas ms que las bombillas de B?

5. Los cojinetes de bolas de una determinada casa pesan 0,50 onzas con una

desviacin estndar de 0,02 onzas. Cul es la probabilidad de que dos


lotes de 1000 cojinetes cada uno difieran en un peso superior a 2 onzas?

CIBERTEC

CARRERAS PROFESIONALES

14

6. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media

22,40 onzas y desviacin estndar 0,048 onzas. Si se extraen 300 muestras


de tamao 36 de esta poblacin, determinar la media esperada y la
desviacin estndar de la distribucin muestral de medias, si el muestreo se
hace con reemplazo.

7. Se pesan tres cantidades dando 20,48; 35,97 y 62,34 libras con desviaciones

estndar de 0,21; 0,46 y 0,54 libras respectivamente. Halle la media y la


desviacin estndar de la suma de las cantidades.

8. El voltaje medio de una batera es de 15,0 voltios y la desviacin estndar


0,2 voltios. Cul es la probabilidad de que cuatro de estas bateras
conectadas en serie tengan un voltaje conjunto de 60,8 o ms voltios?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

15

9. Una poblacin de 7 nmeros tiene una media de 40 y una desviacin


estndar de 3. Si se extraen muestras de tamao 5 de esta poblacin y se
calcula la varianza de cada muestra, halle la media de la distribucin
muestral de varianzas si el muestreo es sin reemplazo.

Autoevaluacin
1. Quinientos cojinetes de bolas tienen un peso medio de 5,02 onzas y una
desviacin estndar de 0,30 onzas. Halle la probabilidad de que una
muestra al azar de 100 cojinetes elegidos entre este grupo tenga un peso
total (a) comprendido entre 496 y 500 onzas, (b) de ms de 510 onzas.
2. Un fabricante despacha 1000 lotes de 100 bombillas cada uno. Si
normalmente el 5% de las bombillas es defectuoso, en cuntos lotes cabe
esperar menos de 90 bombillas buenas?
3. Ciertos tubos fabricados por una compaa tienen una duracin media de
800 horas y una desviacin estndar de 60 horas. Halle la probabilidad de
que una muestra al azar de 16 tubos, tomada entre ellos tenga una duracin
media entre 790 y 810 horas.
4. Se ha encontrado que el 2 % de las piezas producidas por cierta mquina
son defectuosas. Cul es la probabilidad de que en una partida de 400
piezas sean defectuosas 3 % o ms?
5. Los resultados de una eleccin demostraron que un cierto candidato obtuvo
el 46% de los votos. Determine la probabilidad de que de 1000 individuos
elegidos al azar de la poblacin votante se hubiese obtenido una mayora
de votos para dicho candidato.
6. A y B juegan a cara y cruz, lanzando cada uno 50 monedas. A ganar el
juego si consigue 5 o ms caras que B, de otro modo gana B. Determine la
proporcin contra A de que gane un juego determinado.

CIBERTEC

CARRERAS PROFESIONALES

16

7. Dos distancias se miden y se obtiene 27,3 pulgadas y 15,6 pulgadas, con


desviaciones estndar de 0,16 pulgadas y 0,08 pulgadas, respectivamente.
Determine la media y la desviacin estndar de la diferencia de las
distancias.
8. Un cierto tipo de bombilla elctrica tiene una duracin media de 1500 horas
y una desviacin estndar de 150 horas. Se conectan tres bombillas de
forma que cuando una se funde, otra sigue alumbrando. Suponiendo que
las duraciones se distribuyen normalmente. Cul es la probabilidad de que
se tenga luz
8.1 al menos 5000 horas?
8.2 como mucho 4200 horas?
9. La desviacin estndar de los pesos de una poblacin muy grande de
estudiantes es 10,0 libras. Se extraen muestras de 200 estudiantes cada
una de la poblacin y se calculan las desviaciones estndares de las alturas
de cada muestra. Halle la media y la desviacin estndar de la distribucin
muestral de las desviaciones tpicas.
10. Una poblacin est formada por los cuatro nmeros 3, 7, 11, 15. Considere
todas las posibles muestras de tamao dos que pueden extraerse de esta
poblacin con reemplazo. Halle lo siguiente:
10.1 la media poblacional
10.2 la desviacin estndar poblacional
10.3 la media de la distribucin muestral de medias
10.4 la desviacin estndar de la distribucin muestral de medias
11. Ciertos tubos fabricados por una compaa tienen una duracin media de
800 horas y una desviacin estndar de 60 horas. Halle la probabilidad de
que una muestra al azar de 16 tubos, tomada de ellos tenga una duracin
media de:
11.1 entre 790 y 810 horas
11.2 menor de 785 horas
12. Los pesos de los paquetes recibidos en un departamento de
almacenamiento tienen una media de 300 libras y una desviacin estndar
de 50 libras. Cul es la probabilidad de que el peso de 25 paquetes
recibidos al azar y cargados en un ascensor supere el lmite de seguridad
del ascensor, que es de 8 200 libras?
13. Halle la probabilidad de que en los prximos 200 nios nacidos
14.1 menos del 40 % sean nios.
14.2 entre el 43 % y el 57 % sean nias.
Supnganse iguales las probabilidades de nacimiento de nio y nia.
14. De un total de 1 000 muestras de 200 nios cada una, en cuntas cabe
esperar que entre el 40 % y el 60 % sean nias?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

17

15. Una urna contiene 80 bolas de las que 60 % son rojas y 40 % blancas. De
un total de 50 muestras de 20 bolas cada una, sacadas de la urna con
reemplazo, en cuntas cabe esperar 12 bolas rojas y 8 blancas?
16. A y B fabrican dos tipos de cables, que tienen unas resistencias medias a la
rotura de 4000 y 4500 libras con desviaciones estndar de 300 y 200 libras,
respectivamente. Si se comprueban 100 cables de A y 50 cables de B,
cul es la probabilidad de que la media de resistencia a la rotura de B sea
(a) al menos 600 libras ms que A, (b) al menos 450 libras ms que A?
17. En una prueba de aptitud la puntuacin media de los estudiantes es de 72
puntos y la desviacin tpica de 8 puntos. Cul es la probabilidad de que
dos grupos de estudiantes, formados de 28 y 36 estudiantes, respectivamente, difieran en su puntuacin media en (a) 3 o ms puntos, (b) entre 2
y 5 puntos?
18. Los resultados de una eleccin mostraron que un cierto candidato recibi el
65 % de los votos. Halle la probabilidad de que en dos muestras al azar
compuesto cada una de 200 votantes, haya una diferencia superior al 10 %
en las proporciones que votaron a dicho candidato.

Para recordar
 En el uso de Distribuciones muestrales se debe tener en cuenta que las
n variables aleatorias independientes a estudiar deben ser continuas.
 Para un proceso Normal se debe tener en cuenta la media promedio y
la desviacin estndar comn y finitas.

CIBERTEC

CARRERAS PROFESIONALES

18

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

19

SEMANA

2
INTERVALOS DE CONFIANZA
TEMAS

Estimacin Puntual. Propiedades de un estimador. Estimacin de intervalos


de confianza
Intervalos de confianza para la media con varianza conocida, muestra
grande
Tamao muestral para estimar una media
Intervalo de confianza para la diferencia de medias de dos distribuciones
con ambas desviaciones estndar conocidas, muestras grandes

OBJETIVOS ESPECFICOS

Construir intervalos de confianza para la media de varianza conocida y


muestra grande
Encontrar el tamao muestral para estimar una media
Construir intervalos de confianza para diferencias de medias, con varianzas
conocidas y muestras grandes

CONTENIDOS

Estimacin Puntual. Propiedades de un estimador. Estimacin de intervalos


de confianza
Intervalos de confianza para la media con varianza conocida, muestra
grande
Tamao muestral para estimar una media
Intervalo de confianza para la diferencia de medias de dos distribuciones
con ambas desviaciones estndar conocidas, muestras grandes

ACTIVIDADES

Utilizan el concepto de estimacin puntual.


Interpretan el concepto de estimacin por intervalo.
Realizan estimaciones de la media poblacional mediante intervalos de
confianza utilizando la distribucin normal.

CIBERTEC

CARRERAS PROFESIONALES

20

INTERVALO DE CONFIANZA
ESTIMACIN DE PARMETROS
Una vez que se obtiene algn estadstico (media, desviacin estndar o
proporcin muestral, entre otros) es importante determinar si dichos
resultados pueden ser asociados a la poblacin de donde se extrajo la
muestra. La estimacin de parmetros se encarga de aproximar los valores
de estos a partir de los resultados obtenidos de un conjunto de
observaciones muestrales y sobre la base de ciertos procedimientos y
criterios previamente establecidos. Por esto nos permitir estimar con
precisin la porcin de la poblacin (la fraccin de la poblacin que posee
ciertas caractersticas) y la media de la poblacin.
TIPOS DE ESTIMACIN
a) Estimacin Puntual
Una estimacin puntual es un solo nmero que se utiliza para estimar un
parmetro de poblacin desconocido. Se puede decir que es la estimacin
del valor de un parmetro por medio de un valor concreto (nico valor) y que
se obtiene a partir del clculo del estimador correspondiente proveniente de
una muestra determinada. La desventaja de utilizar este tipo de estimacin
radica en que no es posible determinar el grado de certeza que se tiene al
hacer la estimacin.
Por ejemplo, si de una muestra de 36 cajeros automticos se obtuvo que el
tiempo promedio de atencin al cliente es de 1.5 minutos con una desviacin
estndar de 0.5 minutos, estos valores son los estimadores puntuales del
verdadero tiempo promedio de atencin y de la verdadera desviacin
estndar del tiempo de atencin a los clientes.
b) Estimacin por Intervalos
Una estimacin de intervalo es un intervalo de valores que se utiliza para
estimar un parmetro de poblacin. Esta estimacin indica el error de dos
maneras: por extensin del intervalo y por la probabilidad de obtener un
verdadero parmetro de la poblacin que se encuentra dentro del intervalo
bajo un cierto nivel de confianza o certidumbre previamente establecida. Es
mejor la estimacin cuando este intervalo tiene longitud pequea y que la
probabilidad (nivel de confianza) de que el parmetro se encuentre entre los
lmites de dicho intervalo (lmites de confianza) sea cercano a uno.
Estimador: Cualquier estadstica de muestra que se utilice para estimar un
parmetro de poblacin se conoce como estimador, es decir, un estimador es
una estadstica de muestra utilizada para estimar un parmetro de la
poblacin. La media de la muestra x puede ser un estimador de la media de
la poblacin , y la porcin de la muestra se puede utilizar como estimador
de la porcin de la poblacin.
En general, se puede establecer lo siguiente:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

21

Estimacin: Cuando se ha observado un valor numrico especifico de


nuestro estimador, se refiere a ese valor como estimacin. En otras
palabras, una estimacin, es el valor especfico de una estadstica. Por
ejemplo, al tomar una muestra se calcula el valor que toma el estimador
en esa muestra, entonces se realiza una estimacin.
Criterios para seleccionar un buen estimador
Imparcialidad: Esta se refiere al hecho que la media de muestra es un
estimador no sesgado de una media poblacional, porque la media de
distribucin de muestreo de las medias de muestra tomadas de la misma
poblacin es igual a la media de la poblacin misma.
Eficiencia. Se refiere al tamao de error estndar de la estadstica. Si al
comparar dos estadsticas de una muestra del mismo tamao, se escoge la
estadstica que tuviera el menor error estndar o menor desviacin estndar
de la distribucin de muestreo.
Coherencia. Una estadstica es un estimador coherente de un parmetro
poblacional si al aumentar el tamao de la muestra, se tiene casi la certeza
de que el valor de la estadstica se aproxima bastante al valor del parmetro
de la poblacin.
Suficiencia. Un estimador es suficiente si se utiliza una cantidad de la
informacin contenida en la muestra que ningn otro estimador podra
extraer informacin adicional de la muestra sobre el parmetro de la
poblacin que se est estimando.

LIC

LCS

p [L E L + E ] = 1

Donde:

L:
E:
1 - :
:

Estadstico correspondiente
Error estndar de estimacin
Nivel de confianza
Parmetro por estimar

El error estndar de estimacin se establece en funcin al nivel de confianza y


al parmetro por estimar. El intervalo [L E, L + E] se denomina intervalo de

CIBERTEC

CARRERAS PROFESIONALES

22

confianza, donde sus respectivos lmites se denominan lmite inferior de


confianza (LIC) y lmite superior de confianza (LSC). En este caso:
LIC = L E
LSC = L + E
Sea X una poblacin distribuida con una media desconocida y varianza 2
conocida. Para hallar un intervalo de confianza para se necesita encontrar

dos estadsticos p [ 1 2 ] = 1
Para una muestra aleatoria de tamao n suficientemente grande (n 30), por el
teorema de lmite central x N ( ,

)
n
Si x es una poblacin normal, entonces x es normal para toda muestra n.
Z=

Adems se tiene

n
Por
la
simetra
tiene p [ Z tab Z + Z tab

de

]= 1

la

curva

normal

se

p x Z tab
x + Z tab
=1
n
n

Entonces el intervalo de confianza est dado por

x Z tab
n

x + Z tab

INTERVALO DE CONFIANZA PARA MEDIAS POBLACIONALES


Desviacin estndar poblacional (
) conocida
El error estndar de estimacin se calcula de la siguiente forma:

E = Z tab * x

x =

Donde:

: Error estndar de la media para una poblacin


n : tamao de muestra
Ztab : se obtiene a partir del nivel de confianza

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

23

Desviacin estndar poblacional (


) desconocida
Si n 30, el error de estimacin se calcula segn la frmula:

E = Z tab * x

S
x =
n
Donde:
S: desviacin estndar de la muestra

x : Error estndar de la media para la poblacin


n : tamao de muestra.
Ztab : se obtiene a partir del nivel de confianza.

Observacin: Si se conoce el tamao de la poblacin (N) y el muestreo es sin


reemplazo, se usa el factor de correccin para poblacin finita (fc) que afecta y
multiplica al error estndar de estimacin.
Nn
fc =
N 1
Tamao mnimo de muestra para estimar la media poblacional
El tamao mnimo de muestra se puede calcular a partir de la siguiente
expresin:

Z tab 2
n=
E2
2

Para tener el tamao mnimo de la muestra de una poblacin finita, se aplica el


factor de correccin para poblacin finita

E2 =

Z tab
n

N n
N 1

Z tab 2
n
=
N n
E2
(
)
N 1
2

Luego:

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


DISTRIBUCIONES CON AMBAS DESVIACIONES ESTNDAR CONOCIDAS
Y MUESTRAS GRANDES
2
Sea X una variable aleatoria distribuida con media x y varianza x conocida.
Sea Y una variable aleatoria distribuida con media x y varianza x conocida.
Para hallar el intervalo de confianza para la diferencia de las medias x y ,
2

se debe encontrar dos estadsticos

p [LIC 1 2 LSC

CIBERTEC

]= 1
CARRERAS PROFESIONALES

24

1. Se elige un nivel de confianza (1 )


2. Considrese una muestra aleatoria de tamao n 30 de X, y una muestra
aleatoria de tamao m 30 de Y.
3. Se sabe que la estadstica adecuada para estimar ( x y ) es ( X Y ) ,
entonces se asume una distribucin muestral de ( X Y ) para establecer un
intervalo de confianza para ( x y ) .
4. Para n y m suficientemente grande (n 30 y m 30); la variable aleatoria Z
tiene una distribucin aproximadamente normal estndar.
Z=

( X Y ) ( x y )

x2
n

y2
m

Luego:
2
2

x2 y
x2 y
=1
+
1 2 ( X Y ) + Z o
+
p ( X Y ) Z o
n
m
n
m

Se obtiene el intervalo aleatorio


2

x2 y
( X Y ) Z o
+
n
m

(X Y ) + Zo

x2
n

y2

ACTIVIDADES
1. Se toma una muestra de 60 individuos de una poblacin que se sabe tiene
una desviacin estndar de 1,4. Se encuentra que la media de esta muestra
es de 6,2.
Construya una estimacin de intervalo alrededor de la media de la muestra,
utilizando un error estndar de la media.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

25

2. La Universidad de Ciencias Aplicadas est realizando un estudio sobre el


peso promedio de los ladrillos que comprenden los pasillos de la
universidad. Se enviaron trabajadores que recolecten y pesen una muestra
de 421 ladrillos; el peso promedio de esta muestra fue de 6,4 kg. Se sabe
con toda certeza que la desviacin estndar del peso de los ladrillos es de
3,6 kilogramos. Cul es el intervalo alrededor de la media de la muestra
que incluir a la media de la poblacin 95,5% de las veces?

3. Para una poblacin con una varianza conocida de 185, una muestra de 64
individuos conduce al valor de 217 como estimacin de la media. Construya
una estimacin de intervalo que incluya a la media de la poblacin 68,3% de
las veces.

5 El administrador del Emape est preocupado acerca de la cantidad de


automviles que pasan por las casetas de cobro sin pagar, y est
considerando cambiar la manera de hacer los cobros si tal cambio resulta
efectivo en cuanto a costos. Se muestre al azar 75 horas para determinar
la tasa de violacin. El nmero promedio de violaciones por hora fue de 7. Si
se sabe que la desviacin estndar de la poblacin es de 0,9, estime un
intervalo que tenga 95,5% de probabilidad de contener a la media real.

CIBERTEC

CARRERAS PROFESIONALES

26

6. La desviacin estndar de la duracin de los focos de una determinada


fbrica es de 100 horas. Para un embarque de 2000 focos, el gerente de
control de calidad desea determinar el tamao de la muestra necesaria, para
estimar la duracin promedio con error de estimacin de 20 horas y un 95%
de confianza.

7. Para su produccin total de bombillas, la gerencia de una firma electrnica


est segura que los limites superior e inferior de vida no difieren en ms de
600 horas. Para un nivel de confianza del 90%. Qu tan grande debe
tomarse la muestra para encontrar la vida promedio de una bombilla dentro
de ms y menos 30 horas?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

27

8. La media y la desviacin estndar de las cargas mximas soportadas por


100 cables producidos por la compaa DURAMAS son 20 toneladas y 1,1
toneladas. La media y la desviacin estndar de las cargas mximas
soportadas por 60 cables producidos por la compaa CABLECOM son 16
toneladas y 0,8 toneladas. Determine el intervalo de confianza al 95% para
la diferencia de cargas mximas medias.

9. Una muestra de 150 bombillas del fabricante A dieron una vida media de
1400 horas y una desviacin estndar de 120 horas. Una muestra de 100
bombillas del fabricante B dieron una vida media de 1200 horas y una
desviacin estndar de 80 horas. Halle el intervalo de confianza al 99% para
la diferencia de las vidas medias de las poblaciones A y B.

Autoevaluacin
1. La panificadora Gabino est interesada en adquirir una camioneta usada.
Selecciona al azar 125 ofertas de venta y encuentra que el precio promedio
de una camioneta en esta muestra es de $3250. La empresa sabe que la
desviacin estndar de los precios de las camionetas usadas en la ciudad
es de $615. Construya una estimacin de intervalo para el precio promedio

CIBERTEC

CARRERAS PROFESIONALES

28

de una camioneta de modo que se pueda tener un 95,5% de certeza de


que la media de la poblacin se encuentra en dicho intervalo.
2. La junta directiva de los colegios PAMER considera como su tarea ms
importante el mantener la cantidad promedio de los alumnos por aula, por
debajo del tamao promedio de las aulas de los colegios TRILCE. El seor
Crdova, coordinador de los colegios PAMER, acaba de recibir informacin
confiable que indica que el tamao de clase promedio de TRILCE en el
presente ao es de 30,3 estudiantes. Todava no tiene los datos
correspondientes de las 1 621 aulas que se tienen en su propio sistema
escolarizado, de modo que Crdova se ve forzado a apoyarse en las 76
aulas que han informado acerca de su tamao, lo cual le produce un
promedio de 29,8 estudiantes. De saber que el tamao de grupo de sus
colegios tiene una distribucin cuya media se desconoce y una desviacin
estndar de 8,3 estudiantes y suponiendo que la muestra de 76 aulas que
tiene el seor Crdova es una muestra aleatoria de la poblacin de las
aulas del colegio PAMER:
2.1
Encuentre un intervalo en el cual Crdova pueda tener 9,5% de
certeza de que contendr a la medida real.
2.2
Usted cree que el seor Crdova ha conseguido su objetivo?
3. Tula, duea del saln de belleza Stylos, se ha formado de una buena
reputacin entre los residentes del cono este. Cuando un cliente entra a su
establecimiento, Tula grita los minutos que el cliente deber esperar antes
de que se le atienda. El nico estadstico del lugar, despus de ver el
fracaso de las poco precisas estimaciones puntuales de Tula, ha
determinado que el tiempo de espera real de cualquier cliente est
distribuido normalmente con una media igual a la estimacin de Tula en
minutos y una desviacin estndar igual a cinco minutos divididos entre la
posicin del cliente en la fila de espera. Ayude a los clientes de Tula a
construir intervalos de 95% de probabilidad para las situaciones siguientes:
3.1
El cliente es el segundo en la fila de espera, y la estimacin de
Tula es de 25 minutos.
3.2
El cliente es el tercero de la fila, y la estimacin de Tula es de 15
minutos.
4. El gerente de la divisin de focos ahorradores de Jossfel Electric debe
determinar el nmero promedio de horas que durarn los focos fabricados
por cada una de las mquinas. Fue elegida una muestra de 40 focos de
una mquina A y el tiempo promedio de funcionamiento fue de 1,416
horas. Se sabe que la desviacin estndar del tiempo te duracin es de 30
horas.
4.1
Calcule el error estndar de la media
4.2
Construya un intervalo de confianza de 90% para la media de la
poblacin.
5. Javier Lpez acaba de terminar el primer borrador de su tesis, la cual tiene
700 pginas. Javier escribi a mquina el borrador y est interesado en
saber el nmero promedio de errores tipogrficos contenidos por pgina,
pero no quiere leer todo el borrador. Como sabe un poco de estadstica

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

29

financiera, Javier seleccion al azar 40 pginas para su lectura y encontr


que el nmero promedio de errores de dedo por pgina era de 4,3; y la
desviacin estndar de la muestra fue de 1,2 errores por pgina.
5.1
Calcule el error estndar estimado de la media.
5.2
Construya para Javier un intervalo de confianza de 90% para el
nmero real de errores por pgina que hay en su escrito.
6. De una poblacin de 540 individuos, se toma una muestra de 60. A partir
de esta e encuentra, que la media es de 6,2 y la desviacin estndar de
1368.
6.1 Encuentre el error estndar estimado de la media.
6.2 Construya un intervalo de confianza de 96% para la media.
7. En una prueba de seguridad automovilstica efectuada por el Centro de
Investigacin en Seguridad Carretera del Callao, la presin promedio en las
llantas de los autos de una muestra de 62 llantas fue de 24 libras por
pulgada cuadrada y la desviacin estndar fue de 2,1 libras por pulgada
cuadrada.
7.1
Cul es la desviacin estndar estimada para esta poblacin?
(Hay aproximadamente un milln de autos registrados en el Callao)
7.2
Calcule el error estndar estimado de la media.
7.3
Construya un intervalo de confianza de 95% para la media de la
poblacin.
8. Un corredor de la Bolsa de Valores de Lima tiene curiosidad acerca de la
cantidad de tiempo que existe entre la colocacin de una orden de venta y
su ejecucin. Para ello se hizo un muestreo de 45 rdenes y encontr que
el tiempo medio para la ejecucin fue de 24,3 minutos, con una desviacin
estndar de 3,2 minutos. Ayude al corredor de bolsa con la construccin de
un intervalo de confianza de 95% para el tiempo medio para la ejecucin
de una orden.
9. Una firma constructora desea estimar la resistencia media de las barras de
acero utilizadas en la construccin de edificios de departamentos. Qu
tamao debe tener la muestra para garantizar que exista un riesgo de slo
0., de sobrepasar un error de 5 Kg. o ms en la estimacin, si la desviacin
estndar de la resistencia de este tipo de barras se estima en 25 kg?

10. El dueo del recientemente abierto restaurante La buena muerte ha tenido


dificultades al estimar la cantidad de comida que se debe preparar cada
tarde. l ha decidido determinar el nmero medio de clientes a los que se
atiende cada noche. Seleccion una muestra de 30 noches que le arrojaron
una media de 71 clientes. Se lleg a la conclusin de que la desviacin
estndar de la poblacin es de 3,76. D una estimacin de intervalo que
tenga 99,7% de probabilidad de incluir a la media de la poblacin.

11. El gerente de produccin de Pulpas Andinas est preocupado debido a que


las heladas de los ltimos tres aos han estado daando los 2 500

CIBERTEC

CARRERAS PROFESIONALES

30

duraznos que posee la compaa. Con el fin de determinar el grado de


dao ocasionado a los rboles, se ha escogido una muestra de 42
duraznos y se encontr que la produccin promedio fue de 525 duraznos
por rbol, con una desviacin estndar de 30 duraznos por rbol.
11.1
Construya un intervalo de confianza de 98% para la produccin
media por rbol del total de 2500 rboles.
11.2
Si la produccin media de duraznos por rbol fue de 600 frutas
hace cinco aos, qu puede decir el gerente acerca de la posible
existencia de daos en el presente?
12. El jefe de las fuerzas policiales recientemente estableci medidas
enrgicas para contrarrestar a los traficantes de droga de su ciudad. Desde
que se pusieron en funcionamiento dichas medidas, han sido capturados
750 de los 12368 traficantes de droga de la ciudad. El valor promedio, en
dlares, de las drogas decomisadas a estos 750 traficantes es de $250000.
La desviacin estndar del valor en dlares de la droga de estos 750
traficantes es de $41000. Construya, para el jefe, un intervalo de confianza
de 90% para el valor medio de los estupefacientes que estn en manos de
los narcotraficantes de la ciudad.
13. Una compaa tiene 500 cables. Un ensayo con 40 cables elegidos al azar
dieron una media de resistencia a la rotura de 2400 libras y una desviacin
tpica de 150 libras. Con qu grado de confianza cabe decir que la media
de resistencia a la rotura de los 460 cables restantes sea 2400 35 libras?
14. En una granja de 1000 pollos se va a experimentar con una nueva dieta de
engorde. Si se sabe que la desviacin tpica del aumento de peso en un
periodo de un mes es igual a dos onzas. Qu tamao debe tomarse una
muestra que conduzca a una estimacin del aumento de peso de la
totalidad de la parvada, si se quiere que esta estimacin no contenga un
error mayor que 40 lb. (una 1b = 16 oz.) con probabilidad de 0.95?
15. De una orden especial de 1500 taladros recibidos de la compaa Andina
de mquinas y herramientas, se prob una muestra de 36 taladros. La
muestra tuvo una vida de 1800 horas y una desviacin estndar de 150
horas. Construya un intervalo de confianza de un 98% para la vida media
de los taladros.
16. De qu tamao debe ser la muestra para poder tener 95% de confianza en
que el error de estimacin es de 5 o menos. Suponga que la desviacin
estndar poblacional es de 25.
17. La revista Unidos por Siempre dio a conocer el costo promedio de una
boda, que es de s/. 19000 soles. Suponga que la desviacin estndar
poblacional es de s/. 9400 con una confiabilidad del 95%. Qu tamao
debe tener la muestra si el error de estimacin deseado es de s/. 1000
soles?
18. Se cree que los sueldos anuales iniciales de egresados de licenciatura en
administracin pueden tener una desviacin estndar aproximada de $

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

31

2000. Suponga que desea una estimacin por intervalo de 95% de nivel de
confianza para la media del sueldo anual inicial. De qu tamao debe
tomarse la muestra, si el error de estimacin deseado es de $ 200.
19. La empresa de bienes y races Fortaleza proporciona costos promedios
mensuales de renta de departamentos en el departamento de Arequipa.
Suponga que la desviacin estndar poblacional es de s/. 220 soles y que
el error de estimacin es de s/. 50. Cul es el tamao de la muestra
recomendada para una estimacin del intervalo de confianza de 90% del
costo de renta promedio poblacional?
20. El tiempo de traslado al trabajo, para residentes en los conos de la ciudad
de Lima, tiene una distribucin normal con desviacin estndar de 6,25
minutos. Si el error de estimacin es de 2 minutos. Qu tamao debe
tener la muestra, a una confiabilidad del 90%?
21. Determine el tamao mnimo de muestra que se debe tomar para estimar
al 85% de confianza el porcentaje de limeos que actualmente utiliza
Internet diariamente. El ao pasado se realiz una investigacin que indic
que el 18% de los limeos utilizaba Internet diariamente. Se desea que el
error al hacer la estimacin no sea mayor que 5%.
22. Un ingeniero industrial est interesado en estimar el tiempo medio
requerido para ensamblar una tarjeta de circuito impreso. Qu tan grande
debe ser la muestra si el ingeniero desea tener una confianza del 95% de
que el error de estimacin de la media es menor que 0.25 minutos? La
desviacin estndar del tiempo de ensamble es 0.45 minutos.
23. Una tienda de departamentos desea estimar, con un nivel de confianza de
0.98 y un error mximo de 0,5, el verdadero valor medio de dlares de las
compras a crdito por mes realizadas por sus clientes. Dado que la
desviacin tpica es $ 15, determine el tamao de la muestra.
24. De dos anlogos grupos de enfermos A y B formados de 50 y 100
individuos respectivamente, al primero le fue dado un nuevo tipo de
somnfero y al segundo el tipo convencional. Para los pacientes del primer
grupo el nmero medio de horas de sueo fue de 7,82 horas con una
desviacin estndar de 0,24 horas. Para el segundo grupo el nmero
medio de horas de sueo fue de 6,75 horas con una desviacin estndar
de 0,30 horas. Halle el intervalo de confianza al 99% para la diferencia del
nmero de horas de sueo inducidas por los dos tipos de somnfero.
25. Una muestra al azar de 200 pilas de la marca A para calculadoras tiene
una vida media de 140 horas y una desviacin estndar de 10 horas. Una
muestra al azar de 120 pilas de la marca B para calculadoras tiene una
vida media de 125 horas y una desviacin estndar de 9 horas. Determine
el intervalo de confianza al 99% para la diferencia de medias de las dos
marcas de pilas para calculadoras

CIBERTEC

CARRERAS PROFESIONALES

32

26. Dos grupos al azar de 50 alumnas de una escuela para secretarias


ejecutivas aprende taquigrafa por dos sistemas diferentes y luego se
someten a una prueba de dictado. Se encuentra que en un minuto el primer
grupo obtiene en promedio de 120 palabras con una desviacin estndar
de 11 palabras, mientras que en un minuto el segundo grupo promedia 110
palabras con una desviacin estndar de 10 palabras. Determine el
intervalo de confianza al 90% para la diferencia de las medias de los dos
mtodos.
27. Un investigador desea comparar la efectividad de dos mtodos de
entrenamiento industrial para obreros que trabajan en plantas
ensambladoras de autos. A un primer grupo de 50 trabajadores
seleccionados al azar, se les entrena en un nuevo mtodo de ensamblado
denominado mtodo I, mientras que al segundo grupo de 60 trabajadores
se les capacita con el mtodo II. Despus, se observa la efectividad de los
dos mtodos aprendidos. El primer grupo disminuye el tiempo de
ensamblado con un promedio de 48 minutos y una desviacin estndar de
9 minutos, mientras que el segundo grupo lo hace con un promedio de 53
minutos y desviacin estndar de 12 minutos. Determine el intervalo de
confianza al 95% para la diferencia de las medias de los dos mtodos
aprendidos.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

33

Para recordar


La precisin de una estimacin puntual puede evaluarse en la muestra,


por estimacin de un intervalo junto con una medida de la seguridad
que tal intervalo contenga la parmetro desconocido de la poblacin.

El intervalo aleatorio es un intervalo en el cual por lo menos uno de sus


extremos es una variable aleatoria.

CIBERTEC

CARRERAS PROFESIONALES

34

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

35

SEMANA

3
INTERVALO DE CONFIANZA
PARA MUESTRAS PEQUEAS

TEMAS

Intervalo de confianza para la media con varianza desconocida. Muestra


pequea.
Intervalo de confianza para la diferencia de medias con varianzas
desconocidas pero iguales. Muestras pequeas.

OBJETIVOS ESPECFICOS

Construir intervalos de confianza para muestras pequeas


Construir intervalos de confianza para diferencias de medias, con varianzas
desconocidas pero iguales, muestras pequeas

CONTENIDOS

Intervalo de confianza para la media con varianza desconocida, Muestra


pequea
Intervalo de confianza para la diferencia de medias con varianzas
desconocidas pero iguales. Muestras pequeas

ACTIVIDADES

Utilizan el concepto de estimacin puntual.


Interpretan el concepto de estimacin por intervalo.
Realizan estimaciones de la media poblacional mediante intervalos de
confianza para muestras pequeas utilizando la distribucin t student.

CIBERTEC

CARRERAS PROFESIONALES

36

INTERVALO DE CONFIANZA MEDIANTE LA DISTRIBUCIN T


Los primeros trabajos tericos sobre la distribucin t fueron hechos por W. S.
Gossett, durante los primeros aos del siglo XX en Dubln, Irlanda, y adopt el
seudnimo de Student, conocida como la distribucin t de student.
La distribucin t de student se utiliza cuando el tamao de la muestra es menor
de 30 datos y la desviacin estndar de la poblacin no se conoce. Adems, al
utilizar la distribucin t de student, se supone que la poblacin es normal o
aproximadamente normal.
Los grados de libertad se definen como el nmero de valores que se pueden
Se escoge libremente.
Cuando se elije una distribucin t de student para estimar una media de la
poblacin se utilizar (n 1) grados de libertad, tomando como n al tamao de
la muestra.
Sea X una variable aleatoria con distribucin aproximadamente normal, con
media y varianza 2 (desconocida). Adems, cuando 2 es desconocida se
usa el estimador puntual S 2 .
Considrese una muestra aleatoria de tamao n (n<30), la media x y la
desviacin estndar muestral S
Se sabe que x es adecuada para estimar , pero como 2 es desconocida se
usar la distribucin muestral de la variable aleatoria T con (n-1) grados de
libertad.
T=

x
S

n
Para hallar un intervalo de confianza para se necesita encontrar dos
estadsticos.

p [ 1 2 ] = 1

Por la simetra de la curva normal se tiene p [ t tab T + t tab

]= 1

S
S

p x t tab
x + t tab
=1
n
n

Entonces el intervalo de confianza est dado por

x t tab
n

x + t tab

Desviacin estndar poblacional (


) desconocida
Si n < 30, el error de estimacin se calcula segn la frmula:
p [L E L + E ] = 1

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

37

L:
E:
1 - :
:

Estadstico correspondiente
Error estndar de estimacin
Nivel de confianza
Parmetro por estimar

E = Ttab * x

x =

S
n

Donde:
S : desviacin estndar de la muestra

: Error estndar de la media para una poblacin


Ttab : Valor obtenido de la tabla de T - Student para "n - 1" grados de
libertad
x

Observacin: Si se conoce el tamao de la poblacin (N) y el muestreo es sin


reemplazo, se usa el factor de correccin para poblacin finita (fc) que afecta y
multiplica al error estndar de estimacin (E).

fc =

Nn
N 1

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS DE DOS


DISTRIBUCIONES CON VARIANZAS DESCONOCIDAS PERO IGUALES Y
MUESTRAS PEQUEAS
2
Sea X una variable aleatoria distribuida con media x y varianza x
desconocida. Sea Y una variable aleatoria distribuida con media x y varianza

x 2 desconocida. Sea X la media muestral de una muestra aleatoria de n (n<


30) observaciones de X y sea Y la media muestral de una muestra aleatoria de
m (m<30) observaciones de Y.
La variable aleatoria t tiene (n+m -2) grados de libertad desde que la
distribucin de la variable aleatoria t no depende de ( x y )
T=

( X Y ) ( x y )
2
2
1 1 (n 1) S x + (m 1) S y

n m
n+m2

Donde:
S c : es la desviacin estndar combinada de las dos muestras

Sc =

(n 1) S x2 + (m 1) S y2
n+m2

p [LIC 1 2 LSC

]= 1

Luego:

CIBERTEC

CARRERAS PROFESIONALES

38

p ( X Y ) t o S c

1
1
+
1 2 ( X Y ) + to S c
n m

1
1
+ =1
n m

Se obtiene el intervalo aleatorio

( X Y ) t o S c

1
1
+
n m

( X Y ) + to S c

1
1
+
n m

ACTIVIDADES
1. De una muestra de 18 gasolineras REPSOL tomadas en la ciudad de Lima,
se encontr que el precio promedio de un galn de gasolina sin plomo es de
$ 3,17; con una desviacin estndar de $ 0,08 por galn. Halle el intervalo
de confianza al 95% para el valor real del precio medio de la gasolina sin
plomo por galn.

2. Al ensayar un nuevo mtodo de produccin, se seleccionaron a 18


empleados al azar, cuya tasa de produccin promedio fue de 80 partes por
hora, con una desviacin estndar de 10 partes por hora. Determine el
intervalo de confianza al 90% de la tasa de produccin promedio
poblacional.

3.

En un laboratorio de ensayos de materiales se analiza 20 cables para


obtener sus cargas de rotura a la traccin Kg./cm2. Considerando que estas

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

39

cargas se distribuyen normalmente, determine el intervalo de confianza al


90%.
280
302

295
305

289
398

294
397

308
300

320
365

350
380

300
395

310
399

285
360

4. Una agencia de publicidad tiene un registro de datos sobre minutos de


anuncios por cada media hora de programas principales de TV. En la
siguiente tabla se ve una lista de datos representativos de una muestra de
20 programas preferentes en cadenas principales a las 20:30 horas.
6,0
5,8

7,0
6,7

1,2
6,0

6,6
7,3

6,9
6,6

6,7
6,4

7,2
7,3

7,0
7,2

7,0
6,0

6,3
6,8

Suponiendo que la poblacin es normal, halle el intervalo de confianza al


95% para el nmero promedio de minutos de anuncios en los principales
programas televisivos a las 20:30 p.m.

6. En la siguiente tabla, se presentan los puntos de fusin en grados


centgrados de un compuesto qumico realizado por dos analistas.

CIBERTEC

CARRERAS PROFESIONALES

40

Analista
164,4 165,2 169,2 168,2 167,3 168,2 169,5 167,2 168,1 169,3
01
Analista
163,2 165,3 167,2 168,9 169,9 165,4 167,3 162,3 163,2 165,2
02
Determine el intervalo de confianza al 90% para la diferencia de medias entre
analistas. Suponga que las varianzas son iguales pero desconocidas.

7. Los tiempos de encendido en segundos de crisoles de humo flotante de dos


tipos
diferentes son los siguientes:
TIPO 1

481

506

494

506

661

572

602

487

524

661

TIPO 2

526

511

556

542

491

498

537

582

605

605

Determine el intervalo de confianza al 95% para la diferencia de medias entre


analistas. Suponga que las varianzas son iguales pero desconocidas.

8. Dos analistas tomaron lecturas repetidas en la dureza del agua de las napas
freticas a lo largo del valle del Rimac. Determine un intervalo de confianza

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

41

del 95% para la diferencia de lecturas entre los analistas, suponiendo


varianzas iguales pero desconocidas.
Analista A

0,46 0,62 0,37 0,45 0,38 0,37 0,44 0,48 0,53 0,47

Analista B

0,82 0,64 0,54 0,55 0,58 0,42 0,48 0,33 0,32 0,25

Autoevaluacin
1. Se pidi al personal de ventas de la Distribuidora Continental que
presentara informes semanales con los clientes llamados durante la
semana. En una muestra de 18 informes semanales se determin un
promedio de 22,4 llamadas a clientes por semana y una desviacin estndar
de 5 llamadas. Determine el intervalo de confianza al 95% para el nmero
promedio de llamadas semanales a clientes.
2. El dimetro final de un cable elctrico blindado se distribuye normalmente.
Si se toma una muestra de 20 de estos cables, se encuentra que su media
es de 0,790 y una desviacin estndar es de 0,01. Encuentre el intervalo de
confianza al 95%.
3. En un estudio realizado por TEXACO acerca de los precios de la gasolina
de 97 octanos en los diferentes grifos de la capital, se encontraron los
siguientes precios por galn automviles.
4,03 4,05 4,15 4,00 3,99 4,00 3,98 3,97 4,10 4,12
4,08 4,05 4,00 4,04 4,05 4,00 3,99 3,97 4,00 3,98
Si el precio de venta de gasolina de 97 octanos sigue una distribucin
normal, determine el intervalo de confianza al 95% del precio promedio
poblacional.
4. La cantidad de horas que duerme una persona que sobresale en su trabajo
tiene una distribucin normal. En la siguiente tabla se observa la cantidad de
horas de sueo por noche de 24 individuos que sobresalen en su trabajo.
6,2
CIBERTEC

6,3

6,4

6,0

7,0

5,9

5,9

6,0

CARRERAS PROFESIONALES

42

7,0
7,0

6,3
6,1

6,5
6,2

5,8
6,8

5,5
5,8

5,2
5,8

6,4
5,7

6,2
6,0

Determine el intervalo de confianza al 95%, para el nmero promedio de la


poblacin de personas que sobresale en su trabajo.
5. A un laboratorio de ensayo de materiales se lleva una muestra de 12 cables
para obtener sus cargas de rotura a la traccin. Los resultados obtenidos
(en Kg. /cm2) fueron las siguientes:
280 295 298 310 312 297 285 265 279 308 300 290
Considerando que estas cargas poseen distribucin de probabilidad normal,
determine el intervalo de confianza de 90% para la media de la poblacin.
6.

El tiempo que demora una computadora marca PIGS en acceder al


programa XXX, es una variable aleatoria continua. Se realizaron 12
mediciones de tiempo (en segundos):
20,0 21,5 19,7 20,6 19,5 18,4 19,6 20,8 21,9 21,4 20,0 21,5
Estime el tiempo real que demora la computadora marca PIGS en acceder
al programa con un nivel de confianza del 95%.

7. Una mquina produce barras metlicas que se usan en el sistema de


suspensin de un automvil. Se selecciona una muestra aleatoria de 20
barras y se mide el dimetro. Los resultados se muestran a continuacin.
Suponga que el dimetro de las barras se distribuye normalmente.
Construya un intervalo de confianza del 95% respecto al dimetro de barra
medio.
8,24
8,31

8,23
8,26

8,20
8,25

8,29
8,29

8,31
8,27

8,25
8,32

8,24
8,31

8,31
8,21

8,29
8,20

8,20
8,30

8. Se desea estimar el tiempo promedio que se demora en instalar un


determinado programa en 300 computadoras. Para ello se midi el tiempo
en minutos de instalacin en 12 computadoras y se obtuvo los siguientes
resultados:
5,0

4,2

4,8

5,2

5,5

5,9

6,1

6,8

5,2

4,2

5,8

4,5

Con estos datos estime (puntual y por intervalo de confianza) el tiempo


promedio de instalacin. Interprete.
9. Se prueba una muestra aleatoria de 12 fusibles de cierta marca para
determinar el punto de ruptura. Los puntos de ruptura medidos en amperes
fueron los siguientes:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

43

18

22

14

19

21

23

17

26

28

12

14

26

Con qu grado de confianza puede afirmarse que el punto medio de


ruptura para esta marca de fusibles est entre 15,736 y 24,264?
10.
Las cajas de un cereal producidos por una fbrica deben tener un
contenido de 16 onzas. Un inspector tom una muestra que arroj los
siguientes pesos en onzas:
15,7
16,2

15,8
15,8

15,4
15,7

16,2
15,4

16,8
15,2

15,4
16,2

15,9
16,3

16,1
15,7

Calcule intervalos de confianza del 90% para la media poblacional y la


varianza poblacional de los pesos.
11.
Los siguientes datos corresponden a los tiempos de duracin en minutos
de las pelculas producidas por dos compaas cinematogrficas.
Compaa A
Compaa B

103
97

94
94

95
100

85
105

102
150

98
120

100
92

Si los tiempos de duracin tienen una distribucin aproximadamente normal,


determine el intervalo de confianza al 90% para la diferencia entre los
tiempos promedios de las pelculas producidas por las compaas.
12.
Una compaa productora de maz hbrido planta dos nuevas hileras de
maz hdrico en 10 granjas diferentes. Las producciones en bushel por acre
fueron las siguientes:
Hdrico I

90

85

94

78

86

85

92

95

95

82

Hdrico II

84

89

87

92

90

91

87

87

81

80

Determine el intervalo de confianza del 95% para la diferencia entre las dos
producciones medias de maz hbrido.

Para recordar



CIBERTEC

La precisin de una estimacin puntual puede evaluarse en la muestra


menor de 30, por estimacin de un intervalo aplicando la tabla de
distribucin tstudent.
Los datos tienen que ser de muestra, como la media muestral y la
desviacin estndar muestral.

CARRERAS PROFESIONALES

44

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

45

SEMANA

4
INTERVALO DE CONFIANZA
PARA UNA PROPORCIN
TEMAS

Intervalo de confianza para una proporcin. Muestras grandes


Tamao muestral para estimar una proporcin
Tamao de muestra para poblaciones finitas
Intervalo de confianza para diferencia de proporciones

OBJETIVOS ESPECFICOS

Construir intervalos de confianza para las proporciones.


Elaborar intervalos de confianza para las proporciones, relacionndolas
con sus respectivos parmetros poblacionales.

CONTENIDOS

Intervalo de confianza para una proporcin. Muestras grandes


Tamao muestral para estimar una proporcin
Tamao de muestra para poblaciones finitas
Intervalo de confianza para diferencia de proporciones

ACTIVIDADES

Utilizan el concepto de estimacin puntual.


Interpretan el concepto de estimacin por intervalo.
Realizan estimaciones de la media poblacional mediante intervalos de
confianza para las proporciones utilizando la distribucin normal.

CIBERTEC

CARRERAS PROFESIONALES

46

INTERVALO DE CONFIANZA PARA LAS PROPORCIONES


Un estimador puntual de la proporcin p de una distribucin binomial est dado

x
por p = , que es usado como un estimado puntual del parmetro p.
n
Si p es desconocido, se puede establecer un intervalo de confianza para p (p1
p p2), considerando la distribucin muestral de p, como la misma de la
variable aleatoria x.
Para una muestra aleatoria de tamao n suficientemente grande (n 30),

La variable aleatoria p tiene una distribucin aproximadamente normal con:

(1 )
Media p = E ( p) =
Varianza p2 =
n

La variable aleatoria Z =

normal estndar para n grande

p p Z tab

tiene una distribucin aproximadamente

(1 )

p [ Z tab Z + Z tab

p (1 p )
p + Z tab
n

]= 1


p (1 p )
=1

Entonces el intervalo de confianza para p esta dada por:

p Z
tab

p (1 p )
n

p + Z tab

p (1 p )

Intervalo de Confianza para proporciones poblacionales


Se puede aproximar cuando "n" es suficientemente grande. El error estndar
de estimacin se calcula de la siguiente forma:

E = Z tab
Donde:

p(1 p)
n

p: proporcin muestral
n: tamao de la muestra

Tamao mnimo de muestra para estimar la proporcin poblacional


El tamao mnimo de muestra se puede calcular a partir de las siguientes
expresiones:
a) Cuando se conoce una proporcin (p) que se refiere a la misma variable de
estudio:

z 2 p (1 p )
n=
E2

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

47

b) Cuando no hay un conocimiento previo del parmetro materia de estudio:

z2
n=
4E 2
Observacin: Si se conoce el tamao de la poblacin (N) y el muestreo es sin
reemplazo se usa el factor de correccin para poblacin finita (fc) que afecta y
multiplica al error estndar de estimacin (E).
fc =

Nn
N 1

El tamao mnimo de muestra para una poblacin finita usa el factor de


correccin para la poblacin

2
E 2 = Ztab
(

p (1 p ) N n
)(
)
n
N 1

2
tab

Z p(1 p )
n
)
=
2
N n
E
(
)
N 1
INTERVALO DE
PROPORCIONES

CONFIANZA

PARA

LA

DIFERENCIA

DE

LAS

Considrese dos muestras independientes de tamao n1 y n2 seleccionados


aleatoriamente de dos poblaciones binomiales con medias n1p1, n2p2 y
varianzas n1p1(1- p1) y n2p2(1- p2), respectivamente.
1. Se elige un nivel de confianza (1 )
2. Considrese
una muestra aleatoria de tamao n1
suficientemente grandes.

y n2 que son

3. Se sabe que la estadstica adecuada para estimar ( 1 2 ) es ( p1 p 2 ) ,

entonces se asume una distribucin muestral de ( p1 p 2 ) para establecer un


intervalo de confianza para ( 1 2 ) .
4. Para n1 y n2 suficientemente grande (n1 30 y n2 30), la variable aleatoria
Z tiene una distribucin aproximadamente normal estndar.

Z =

( p 1 p 2 ) ( 1 2 )

1 (1 1 )
n1

2 (1 2 )
n2

Luego:

CIBERTEC

CARRERAS PROFESIONALES

48

p
(
1

p
)
p
(
1

p
)
p
(
1

p
)
p
(
1

1
1
2
2
1
1
2
2)
p ( p1 p2 ) Zo
+
(1 2 ) ( p1 p2 ) + Zo
+
=1

n1
n2
n1
n2

Se obtiene el intervalo aleatorio

p
(
1
p
)
p
(
1
p
( p p ) Z
1
1
2)
+ 2
1
2
tab

n1
n2

( p1 p2 ) + Ztab

p1 (1 p1 ) p 2 (1 p 2 )
+

n1
n2

ACTIVIDADES
1. Una tienda de computacin, que compra al mayoreo chips sin probar para
computadoras, est considerando cambiar de proveedor por otro que se los
suministre probados y con una garanta a un precio ms alto. Con el fin de
saber si este es un plan costeable, determine la porcin de chips
defectuosos que le suministra su actual proveedor. Se prob una muestra
de 200 chips y de stos, 5% tena defectos.
a) Estime el error estndar de la porcin de chips defectuosos.
b) Construya un intervalo de confianza de 98% para la porcin de chips
defectuosos adquiridos.

2. Una muestra de 70 ejecutivos de una pequea empresa fue investigada con


respecto al pobre desempeo que esta tuvo en marzo, 65% de los
ejecutivos crea que la disminucin de las ventas se debi al alza
inesperada de la temperatura, lo cual trajo como consecuencia que los
consumidores retardaran la adquisicin de productos de invierno.
2.1 Estime el error estndar de la porcin de ejecutivos que culpan de las
ventas bajas al clima clido.
2.2 Encuentre el lmite superior e inferior para esta porcin, dado un nivel de
confianza igual a 0,95.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

49

3 La encargada de publicidad para un nuevo postre est intranquila por el


bajo rendimiento del postre en el mercado y por su futuro en la empresa.
Preocupada porque su estrategia de comercializacin no ha producido una
identificacin apropiada de las caractersticas del producto, tom como
muestra a 1500 consumidores y encontr que 956 de estos pensaban que el
producto era una cera para pulir pisos.
3.1 Estime el error estndar de la porcin de personas que tuvo esta grave
interpretacin errnea sobre el postre.
3.2 Construya un intervalo de confianza de 96% para la porcin real de la
poblacin.

4 Un connotado psiclogo social investig a 150 altos ejecutivos y encontr


que el 42% de ellos eran incapaces de sumar fracciones correctamente.
4.1 Estime el error estndar de la porcin.
4.2 Construya un intervalo de confianza de 99% para la porcin real de altos
ejecutivos que no pueden sumar correctamente fracciones.

CIBERTEC

CARRERAS PROFESIONALES

50

En una encuesta se dice que el valor de planeacin para la proporcin


poblacional es de 0,65. De qu tamao debe tomarse una muestra para
tener el 90% de confiabilidad de que el error de estimacin de una
proporcin poblacional sea de 0,03?

6 En una encuesta se dice que el valor de planeacin para la proporcin


poblacional es de 0,35. Qu tamao debe tomar la muestra para obtener
un intervalo de confianza al 95%, si su error de estimacin es igual a 0,05?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

51

7 En una encuesta se pidi a 814 adultos que contestaran un cuestionario


acerca de sus ideas sobre al actual gobierno. A la pregunta: Cree usted
que todo va bien con la poltica de comercio exterior propiciado por el
gobierno? 572 adultos contestaron S. Cul es el error de estimacin con el
90% de confianza?

8 En una muestra al azar de 400 adultos y 600 adolescentes que vean cierto
programa de televisin, 100 adultos y 300 adolescentes dijeron que les
gustaba. Halle los lmites de confianza al 95% para la diferencia de
proporciones de todos los adultos y adolescentes que ven el programa y les
gusta.

CIBERTEC

CARRERAS PROFESIONALES

52

Autoevaluacin
1. Durante un ao y medio las ventas han estado disminuyendo de manera
coherente en las 1500 sucursales de una cadena de comida rpida. Una
empresa de asesores ha determinado que 30% de una muestra de 95
sucursales tienen claros signos de una mala administracin. Construya un
intervalo de confianza de 98% para esta porcin.
2. La directiva estudiantil de una universidad tom una muestra de 45 libros de
texto de la librera universitaria y determin que de ellos, 60% se venda en
ms de 50% por arriba de su costo al mayoreo. D un intervalo para la
porcin de libros, cuyo precio establecido es ms de 50% por encima de su
costo, que tenga 96% de certeza de contener la porcin verdadera.
3. Se desea conocer la porcin de propietarios de acciones individuales que
planean vender al menos un cuarto del total de sus valores el prximo mes.
Se ha efectuado una inspeccin aleatoria de 800 individuos que poseen
acciones y se ha establecido que el 25% de la muestra planea vender al
menos un cuarto de sus acciones al mes siguiente. Construya un intervalo
de confianza de 90% para la porcin verdadera de accionistas individuales
que planean vender al menos un cuarto de sus acciones durante el mes
siguiente.
4. Durante cierta semana, una tienda de departamentos observ y registr que
5750 de las 12500 personas que entraron en la tienda hicieron por lo menos
una compra. Tratando esto como una muestra al azar de todos los clientes
potenciales, halle el intervalo de confianza del 99% para la proporcin real
de las personas que entran a la tienda y que harn por lo menos una
compra.
5. Estudios realizados en 1998 concluyeron que el 55% de profesionales
graduados antes de 1980 no conocan el manejo bsico de Internet. Durante
1999 se realiz una encuesta a 1200 personas de las cuales 590 no conocan el
manejo bsico de Internet.
Determine un intervalo de confianza del 98% para la proporcin de
profesionales graduados antes de 1980 que conocen el manejo de Internet.
Si hoy se quiere averiguar el porcentaje de personas que trabajan con Microsoft
Office, qu tamao de muestra se deber tomar para estimar el porcentaje de
personas que trabajan con Microsoft Office si el error mximo de estimacin
deber ser del 3%?
6. Se realiz un muestreo para determinar las preferencias de las personas
acerca de tres marcas de pantalones. De un total de 460 encuestados, 240
prefieren la marca A, 128 prefieren la marca B, 78 prefieren la marca C y el
resto otras marcas. Construya un intervalo de confianza del 95% para el
porcentaje de personas que prefiere los pantalones marca A.
7. En el Colegio Profesional de Psicoanalistas, de 1200 miembros, se realiz
una encuesta para estimar el candidato que iba a ganar las elecciones al

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

53

Decanato. De 150 personas, 90 votaran por el candidato A, 70 votaran por


el candidato B y el resto no ha decidido an su voto. Determine al 95% un
intervalo de confianza para el porcentaje real de votos que tendrn los
candidatos A y B.
8. La empresa XXX dedicada a la investigacin de virus informticos estima
que el 2,5% de los virus que analiza no logran ser destruidos con un 0,5%
de error de estimacin. La empresa ZZZ, de la misma lnea de investigacin,
tom una muestra de 200 virus analizados y obtuvo que el 3% no pudo ser
destruido. Se puede determinar qu empresa es ms eficiente en la
destruccin de virus? Justifique cuantitativamente su respuesta.
9. Se selecciona una muestra aleatoria de 200 votantes y se halla que 114
estn contentos con el actual presidente. Halle un intervalo de confianza del
95% para la fraccin de votantes que estn a favor del actual presidente.
10.
En una encuesta hecha por el Ministerio de Trabajo, se investigaron las
razones por las que los pequeos empleadores ofrecen un plan de retiro
para sus empleados. 33% de las veces se observ que la razn fue ventaja
competitiva en reclutamiento y retencin. Qu tamao de muestra se
recomienda si un objetivo de la encuesta es estimar la proporcin de los
pequeos empleadores que ofrecen un plan de retiros principalmente para
la ventaja competitiva en reclutamiento y retencin, con un error de
estimacin del 3% y confiabilidad del 95%?
11.
ADDAYC recurre a una encuesta permanente para obtener informacin
actualizada acerca del pblico que va a los conciertos de sus agremiados en
los teatros de la capital. Cada semana distribuye un cuestionario de una
pgina en asientos aleatorios en teatros determinados. Slo se necesitan 5
minutos para contestar el cuestionario, y permite que el pblico comunique
sus ideas acerca de las actividades en el teatro. Qu tamao debe tener la
muestra para tener un error de estimacin de 0,04 para cualquier proporcin
poblacional? Emplee un intervalo de confianza de 95% y un valor de
planeacin p= 0,50.
12.
La oficina de planificacin familiar de cierto distrito desea determinar la
proporcin de familias con un ingreso mensual inferior a los $150. Estudios
previos han indicado que esta proporcin era del 20%. Qu tamao
muestral se requiere para asegurar con una confiabilidad del 95% que el
error de estimacin no sobrepase a 0,05.
13.
En una muestra al azar de 600 mujeres, 300 indican que estn a favor
de la ayuda del estado a los colegios privados. En una muestra al azar de
400 hombres, 100 indican que estn a favor del mismo. Determine un
intervalo de confianza (a) del 95%, (b) 90% para la diferencia de
proporciones de todas las mujeres y todos los hombres que favorecen tal
ayuda.
14.
Una empresa de estudios de mercado quiere estimar las proporciones
de hombres y mujeres que conocen un producto promocionado a escala

CIBERTEC

CARRERAS PROFESIONALES

54

nacional. En una muestra aleatoria de 100 hombres y 200 mujeres se


determina que 20 hombres y 60 mujeres estn familiarizados con el
artculo indicado. Calcule el intervalo de confianza de 95% para la diferencia
de proporciones de hombres y mujeres que conocen el producto.
15.
Cierto genetista quiere conocer la proporcin de hombres y mujeres de
cierta ciudad que padecen un desornen sanguneo menor. Una muestra
aleatoria de 1000 mujeres arroja 250 afectadas, en tanto que una muestra
de 1000 hombres 275 sufren el desorden. Establezca un intervalo de
confianza del 95 % para la diferencia entre la proporcin de los hombres y
mujeres que padecen tal desorden.

Para recordar


El estimador puntual de la proporcin p en la distribucin binomial se


usa como estimador puntual del parmetro p.

Para una muestra aleatoria suficientemente grande , la variable aleatoria


p tiene una distribucin aproximadamente normal

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

55

SEMANA

5
HIPTESIS ESTADSTICA
TEMAS
Hiptesis estadstica. Tipos de errores I y II. Nivel de significacin. Regin
crtica o regin de rechazo. Regin de aceptacin
Prueba de Hiptesis para medias, muestras grandes. Prueba bilateral de
una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para diferencia de media. Desviacin estndar
conocidas, Muestras grandes
OBJETIVOS ESPECFICOS

Describir la hiptesis nula y la hiptesis alternativa de un problema.


Determinar una estadstica de prueba lgica y una regla de decisin para
probar las hiptesis.

.
CONTENIDOS
Hiptesis estadstica. Tipos de errores I y II. Nivel de significacin. Regin
crtica o regin de rechazo. Regin de aceptacin.
Prueba de Hiptesis para medias, muestras grandes. Prueba bilateral de
una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para diferencia de media. Desviacin estndar
conocidas. Muestras grandes.
ACTIVIDADES


Utilizan e interpreta el concepto de prueba de hiptesis, como el nivel de


significancia, regin crtica y regin de aceptacin.
Toman decisiones de aceptacin o rechazo de una hiptesis bajo
consideraciones.

CIBERTEC

CARRERAS PROFESIONALES

56

HIPTESIS ESTADSTICA
DECISIONES ESTADSTICAS
Generalmente, en la prctica se tienen que tomar decisiones sobre
poblaciones, partiendo de la informacin muestral de las mismas. Tales
decisiones se llaman decisiones estadsticas. Por ejemplo, se puede querer
decidir a partir de los datos del muestreo, si un sistema educacional es mejor
que otro, si un suero nuevo es realmente efectivo para la cura de una
enfermedad, si una moneda determinada est o no cargada, etc.
HIPTESIS ESTADSTICA. HIPTESIS NULA
Para llegar a tomar decisiones, conviene hacer determinados supuestos o
conjeturas acerca de las poblaciones que se estudian. Tales supuestos que
pueden ser o no ciertos se llaman hiptesis estadsticas y, en general, lo son
sobre las distribuciones de probabilidad de las poblaciones. En muchos casos
se formulan las hiptesis estadsticas con el solo propsito de rechazarlas o invalidarlas.
Si se quiere decidir sobre si un procedimiento es mejor que otro, se formula la
hiptesis de que no hay diferencia entre los procedimientos (es decir, cualquier
diferencia observada se debe meramente a fluctuaciones en el muestreo de la
misma poblacin). Tal hiptesis se llama tambin hiptesis nula y se denotan
por Ho.
Cualquier hiptesis que difiera de una hiptesis dada se llama hiptesis
alternativa. Una hiptesis alternativa de la hiptesis nula se denota por H1.
ENSAYOS DE HIPTESIS y SIGNIFICACIN
Si en el supuesto de que una hiptesis determinada es cierta, se encuentra que
los resultados observados en una muestra al azar difieren marcadamente de
aquellos que caba esperar con la hiptesis y con la variacin propia del
muestreo, se dira que las diferencias observadas son significativas y se estara en condiciones de rechazar la hiptesis (o al menos no aceptarla de
acuerdo con la evidencia obtenida).
Los procedimientos que facilitan el decidir si una hiptesis se acepta o se
rechaza o el determinar si las muestras observadas difieren significativamente
de los resultados esperados se llaman ensayos de hiptesis, ensayos de
significacin o reglas de decisin.
ERRORES DE TIPO I Y TIPO II
Si se rechaza una hiptesis cuando debera ser aceptada, se dice que se
comete un error del Tipo I. Si, por el contrario, se acepta una hiptesis que
debera ser rechazada, se dice que se comete un error del Tipo II. En
cualquiera de los dos casos se comete un error al tomar una decisin
equivocada.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Decisin
Aceptar Ho
Aceptar H1

57

Ho Verdadero
Decisin Correcta
Error tipo I

H1 Verdadero
Error tipo II
Decisin Correcta

Para que cualquier ensayo de hiptesis o reglas de decisin sea bueno, debe
disearse de forma que minimice los errores de decisin. Esto no es tan
sencillo como pueda parecer, puesto que para un tamao de muestra dado, un
intento de disminuir un tipo de error, va generalmente acompaado por un
incremento en el otro tipo de error. En la prctica, un tipo de error puede tener
ms importancia que el otro, y as se tiende a conseguir poner una limitacin al
error de mayor importancia. La nica forma de reducir al tiempo ambos tipos de
error es incrementar el tamao de la muestra, lo cual puede ser o no ser
posible.
NIVEL DE SIGNIFICACIN
La probabilidad mxima con la que en el ensayo de una hiptesis se puede
cometer un error del Tipo 1 se llama nivel de significacin del ensayo. Esta
probabilidad se denota frecuentemente por ; generalmente, se fija antes de la
extraccin de las muestras, de modo que los resultados obtenidos no influyen
en la eleccin.
En la prctica, se acostumbra utilizar niveles de significacin del 0,05 0,01;
aunque igualmente pueden emplearse otros valores. Si, por ejemplo, se elige
un nivel de significacin del 0,05 5% al disear un ensayo de hiptesis,
entonces hay aproximadamente 5 ocasiones en 100 en que se rechazara la
hiptesis cuando debera ser aceptada, es decir, se est con un 95 % de
confianza de que se toma la decisin adecuada. En tal caso, se dice que la
hiptesis ha sido rechazada al nivel de significacin del 0,05, lo que significa
que se puede cometer error con una probabilidad de 0,05.
REGIN DE ACEPTACIN Y DE RECHAZO
Estadstico de prueba: valor obtenido a partir de la informacin muestral. Se
utiliza para determinar si se rechaza o no la hiptesis.
En una regin donde la estadstica de prueba prescrita conduce al rechazo de
la hiptesis bajo consideracin es llamada regin crtica. En otras palabras,
Regin.
Crtica o de Rechazo es la regin que contiene los valores para los cuales se
rechaza la hiptesis bajo consideracin.
Regin de aceptacin es la regin que contiene a los valores para los cuales
no se rechaza la hiptesis bajo consideracin.
Valor crtico: el punto que divide la regin de aceptacin y la regin de
rechazo de la hiptesis nula.

CIBERTEC

CARRERAS PROFESIONALES

58

Los pasos para la prueba de hiptesis, relativa al parmetro de una


poblacin puede resumirse como sigue:
1. Se formula la hiptesis nula e hiptesis alternativa de acuerdo con el
problema.
H o : = o
H o : = o
H o : = o
b)
c)
a)
H1 : o
H1 : < o
H1 : > o
2. Se escoge un nivel de significancia o de riesgo
3. Se escoge la estadstica de prueba apropiada, cuya distribucin de
muestreo sea conocida en el supuesto de que Ho es cierta
4. Establecer la regin critica, es decir, determinar el valor (o valores) critico
5. Calcular el valor de la prueba estadstica de una muestra aleatoria de
tamao n
6. Conclusin: rechazar Ho si la estadstica tiene un valor en la regin critica,
caso contrario aceptar Ho

PRUEBA UNILATERAL DE UNA HIPTESIS SOBRE LA MEDIA


Prueba de significancIa de una cola
Caso I
1. Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H1 : < o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica para la media de la poblacin es la media muestral x . Si la
poblacin es normal (o si la muestra es grande n 30 , aun cuando la
poblacin no es normal).
La distribucin de x es N ( ,
La variable aleatoria Z =

2
n

x o

).

tiene una distribucin normal estndar N

n
(0,1)
4. La regin critica (R.C.) es , Z , donde Z o es tal que P[Z < Z ] =

5. Se calcula x de los datos, luego se obtiene Z


x o
Z=

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

59

6. Se compara Z con Z.
Si Z < Z Z , Z , se rechaza la hiptesis nula Ho
Si Z > Z Z Z , + , se acepta la hiptesis nula Ho

Regin de Rechazo

Regin de Aceptacin
0

Caso II
1. Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H 1 : > o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica para la media de la poblacin es la media muestral x . Si la
poblacin es normal (o si la muestra es grande n 30 , aun cuando la
poblacin no es normal).

La distribucin de x es N ( ,
La variable aleatoria Z =

).
n
x o

tiene una distribucin normal estndar

N(0,1)
4. La regin critica (R.C.) es Z + , donde Z o es tal que P[Z > Z 1 ] =
5. Se calcula x de los datos, luego se obtiene Z
x o
Z=

6. Se compara Z con Zo.


Si Z > Z 1- Z Z 1 + , se rechaza la hiptesis nula Ho
Si Z < Z 1- Z , Z 1 , se acepta la hiptesis nula Ho

CIBERTEC

CARRERAS PROFESIONALES

60

Regin de Aceptacin
0

Regin de Rechazo
Z 1

PRUEBA BILATERAL DE UNA HIPTESIS SOBRE LA MEDIA


Prueba de significancia de dos colas
1. Se Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H1 : o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica para la media de la poblacin es la media muestral x . Si la
poblacin es normal (o si la muestra es grande n 30 , aun cuando la
poblacin no es normal).
La distribucin de x es N ( ,
La variable aleatoria Z =

).
n
x o

tiene una distribucin normal estndar

N(0,1)
4. La regin Aceptacin (R.A.) es a, b , donde a y b son tal que

P a < x < b = 1 .
Por la simetra de la curva normal, los valores crticos de a y b son
simtricos con respecto a o

a
b o
x
o
p

n
n
n

=1

Luego, la regin de aceptacin:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

61

o Z / 2
n

o + Z /2

5. Se calcula x a partir de la muestra observada,(tambin S si no se conoce la


varianza 2 y la muestra n es grande)
6. Se compara Z con Z /2.
Si Z , Z / 2 0 Z + Z / 2 ,+ , se rechaza la hiptesis nula Ho
Si Z Z / 2 ,+ Z / 2 , se acepta la hiptesis nula Ho

Regin de Rechazo

Regin de Aceptacin
0

Z / 2

Regin de Rechazo
Z / 2

PRUEBA DE HIPTESIS PARA DIFERENCIA DE MEDIAS


En muchos ensayos de prueba de hiptesis se quiere determinar si existe o no
una diferencia significativa entre las medias x y y de dos poblaciones o
variables aleatorias X e Y. La prueba de hiptesis que comprenden dos
medias son las mismas que la de una sola media, salvo que se necesitan dos
muestras, una en cada poblacin.
La hiptesis nula
Ho : x = y o
Ho : x y = 0
Hiptesis alternativa:
a)
H1 : x y
H1 : x y 0
b

H1 : x y

H 1 : x y 0

c)
H1 : x y
H1 : x y 0
Si H1 toma la forma (a) se utiliza una prueba bilateral, en otros casos se emplea
una prueba unilateral.
Desviaciones Estndar Conocidas, Muestras Grandes
Prueba Unilateral
Caso I:
1. Considrese la siguiente hiptesis:
Ho : x = y
H1 : x y

CIBERTEC

Ho : x y = 0
H1 : x y 0

CARRERAS PROFESIONALES

62

2. Se escoge el nivel de significancia .


3. La estadstica para la diferencia de medias poblacionales ( x y ) , es la
diferencia de medias muestrales ( x y ) . Si la poblacin tiene una
distribucin
normal con desviaciones estndar conocidas x y y
conocidas (o si las muestras son grandes n 30 , , m 30 an cuando la
poblacin no es normal).
La distribucin de ( x y ) es normal con media ( x y ) y varianza

x2
n

y2
m

).
Z=

Por tanto, la variable aleatoria:

( x y) ( x y )

x2
n

y2
m

Tiene una distribucin normal estndar.


4. En el supuesto de que Ho es verdadero, es decir, que ( x y ) = 0 . La

regin crtica (R.C.) es xc ,+ , tal que P ( x y ) x c =

xc
( x y)

=
P

2
2
2
x2 y
x +y
+
n
m
n
m

xc

=
P Z

2
x2 y

n
m
x c = Z 1

x2

y2

+
n
m
5. Se calcula la diferencia de las medias muestrales ( x y ) y S x y si no se
Luego:

conoce x , y . Para muestras grandes se utiliza S x y .


2

6. Conclusin: si ( x y ) se encuentra en la regin crtica xc ,+ , se rechaza


Ho, en caso contrario se acepta.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

63

Regin de Aceptacin

Regin de Rechazo

Z 1

Caso II:
1. Considrese la siguiente hiptesis:
Ho : x = y

H1 : x y

Ho : x y = 0
H 1 : x y 0

2. Se escoge el nivel de significancia .


3. La estadstica para la diferencia de medias poblacionales ( x y ) es la
diferencia de medias muestrales ( x y ) . Si la poblacin tiene una
distribucin
normal con desviaciones estndar conocidas x y y
conocidas (o si las muestras son grandes n 30 , , m 30 aun cuando la
poblacin no es normal).
La distribucin de ( x y ) es normal con media ( x y ) y varianza

x2
n

y2
m

).
Z=

Por tanto, la variable aleatoria

( x y) ( x y )

x2
n

y2
m

Tiene una distribucin normal estndar.


4. En el supuesto de que Ho es verdadero, es decir, que ( x y ) = 0 . La

regin crtica (R.C.) es , xc , tal que P ( x y ) x c =

xc
( x y)
P

2
2
2
x2 y
x +y
+
n
m
n
m

CIBERTEC

CARRERAS PROFESIONALES

64

xc

=
P Z

2
x2 y

n
m
x c = Z

x2

y2

+
n
m
5. Se calcula la diferencia de las medias muestrales ( x y ) y S x y si no se
Luego

conoce x , y . Para muestras grandes se utiliza S x y .


2

6. Conclusin: si ( x y ) se encuentra en la regin crtica , xc , se rechaza


Ho, en caso contrario se acepta.

Regin de Rechazo

Regin de Aceptacin
0

Prueba Bilateral
1. Considrese la siguiente hiptesis:
Ho : x = y
H1 : x y

Ho : x y = 0
H1 : x y 0

2. Se escoge el nivel de significancia .


3. La estadstica para la diferencia de medias poblacionales ( x y ) es la
diferencia de medias muestrales ( x y ) . Si la poblacin tiene una
distribucin
normal con desviaciones estndar conocidas x y y
conocidas (o si las muestras son grandes n 30 , , m 30 aun cuando la
poblacin no es normal).
La distribucin de ( x y ) es normal con media ( x y ) y varianza

x2
n

y2
m

).

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

65

Z=

Por tanto, la variable aleatoria:

( x y) ( x y )

x2

y2

n
m
Tiene una distribucin normal estndar.
4. En el supuesto de que Ho es verdadero, es decir que ( x y ) = 0 . La

regin de aceptacin (R.A.) es a, b , tal que P a ( x y ) b = 1

a
b
( x y)
P

2
2
2
2
x2 y
x2 y
x +y
+
+
m
n
m
n
m
n

a
b
P
Z

2
2
2
x2 y
x +y
+
m
n
m
n
a = Z / 2

Luego,

b = +Z / 2

x2
n

x2

= 1

= 1

y2
m

y2

+
n
m
5. Calclese la diferencia de las medias muestrales ( x y ) . Tambin S x2 , S y2 si
no se conoce x , y y las muestras son grandes.
2

6. Conclusin: si ( x y ) se encuentra en la regin de aceptacin a, b , se


acepta Ho, en caso contrario se rechaza.

Regin de Rechazo
Z / 2

CIBERTEC

Regin de Aceptacin
0

Regin de Rechazo
Z / 2

CARRERAS PROFESIONALES

66

ACTIVIDADES
1. El fabricante de cierta marca de cigarrillos sostiene que sus cigarrillos
contienen en promedio 18 miligramos de nicotina por cigarrillo. Un
organismo de control examina una muestra de 100 cigarrillos. Utilizando un
nivel de significacin 0,01; puede el organismo concluir que el fabricante
subestima el contenido medio de nicotina de sus cigarrillos, si el contenido
medio de la muestra es de 19,2 miligramos con una desviacin estndar de
2 miligramos?

2. El organismo de control de cierto Concejo Municipal analiza una muestra de


36 paquetes de carne molida que produce la fbrica de embutidos LA
NICA. El rtulo en cada paquete dice que contiene no ms de 25% de
grasa. Puede el organismo de control concluir que la carne que produce
dicha fbrica tiene ms de 25% de grasa, si la muestra da un contenido
medio de grasa de 0,265 y una desviacin estndar de 0,030? Use =
0,05.

3. Un fabricante de pilas afirma que la vida media de su producto exceder las


30 horas. Una compaa desea comprar un lote grande de pilas si la
afirmacin es cierta. Se toma al azar una muestra de 36 pilas y se encuentra
que la media de la muestra es 34 horas. Si la poblacin de pilas tiene una

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

67

desviacin estndar de 5 horas, si Ho es < 30, para qu valores de


se adquirirn las pilas?

4. Diariamente, el servicio de aduanas ha interceptado a lo largo de su historia


alrededor de $28 millones de bienes de contrabando introducidos al pas,
con una desviacin estndar de 416 millones al da.
En 64 das de 1992, elegidos aleatoriamente, el Servicio de Aduanas
intercept un promedio de $30,3 millones de bienes de contrabando. Indica
esta muestra (a un nivel de significancia del 5%) que el jefe de Aduanas
debera preocuparse por el incremento de contrabando por encima de su
nivel histrico?

5. Se investigaron aleatoriamente 75 grifos de la cadena Repsol, y se


determin que el precio promedio de la gasolina regular sin plomo fue de
$1059, con una desviacin estndar de 3,9 centavos. Tres meses
despus, en otra investigacin aleatoria de 50 grifos, se encontr un
precio promedio para el mismo tipo de combustible de $1089, con una
desviacin estndar de 6,8 centavos. A un nivel significancia de 0,02

CIBERTEC

CARRERAS PROFESIONALES

68

Cambi significativamente el precio de la gasolina regular sin plomo


durante el periodo de tres meses considerado?

6. A pesar de la ley de sueldos de 1993, en el 2007, todava parece que los


hombres ganan ms que las mujeres en trabajos parecidos. En una
muestra de 38 operadores varones de mquinas-herramientas se
encontr que el salario medio por da fue de s/. 45,20 con una
desviacin estndar de de s/. 4,50. En otra muestra de 45 mujeres
operadoras de mquinas-herramientas se encontr que el salario medio
por da fue de s/. 40,50 con una desviacin estndar de de s/. 3,85.
Basndose en estas dos muestras, Es razonable llegar a la conclusin
(a un nivel = 0,01) de que los operadores ganan ms de s/.5,00 por da
que las operadoras?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

69

Autoevaluacin
1. La comisin promedio que cargan las compaas de corretaje de tiempo
completo en una venta de valores comunes es de $144 con una desviacin
estndar de $52. Se tom una muestra aleatoria de 121 compras y se
determin que haban pagado una comisin promedio de $151. A un nivel
de significancia de 0,10, puede concluirse que las comisiones son mayores
que el promedio de la industria?
2. Alfano ha puesto en marcha una promocin comercial especial para su
estufa de propano y siente que la promocin debe provocar un cambio en el
precio al consumidor. Alfano sabe que antes de que comenzara la
promocin, el precio promedio al menudeo de la estufa era de $44,95 con
una desviacin estndar de $5,75. Alfano muestrea a 30 de sus minoristas
despus de iniciada la promocin y encuentra que el precio medio de las
estufas es ahora de $42,95. A un nivel de significancia de 0,02, tiene
Alfano razones para creer que el precio promedio al menudeo para el
consumidor ha disminuido?
3. Del 2000 al 2006, la tasa promedio de precios/utilidades (p/u) de los
aproximadamente 1899 valores inscritos en la Bolsa de Valores de Lima fue
de 14,35 con una desviacin estndar de 9,73. En una muestra de 30
valores de la Bolsa, aleatoriamente escogidos, la tasa p/u promedio en el
2006 fue de 11,77. Esta muestra presenta evidencia suficiente para concluir
(al nivel de significancia de 0,05) que en el 2007 la tasa promedio para los
valores de la Bolsa se habra modificado de su anterior valor.
4. Editorial Navarrete supone que la vida de su prensa ms grande es de
14500 horas, con una desviacin estndar conocida de 2 00 horas. De una
muestra de 30 prensas, la compaa encuentra una media de muestra de 13
000 horas. A un nivel de significancia de 0,01 debera concluir la compaa
que la vida promedio de las prensas es menor que las hipotticas 14500
horas?
5. UBK sabe que una cierta pelcula de xito se exhibi un promedio de 84
das en cada ciudad, y la desviacin estndar correspondiente fue de 10
das. El administrador del distrito de Los Olivos estaba interesado en
comparar la popularidad de la pelcula. Eligi aleatoriamente 75 cines del
distrito y encontr que proyectaron la pelcula un promedio de 81,5 das.
Establezca hiptesis apropiadas para probar si hubo una diferencia
significativa en la duracin de la exhibicin de la pelcula entre los cines del
distrito de Los Olivos y los dems de la UBK. Use un nivel de significancia
del 1% y pruebe estas hiptesis.
6. Un fabricante de automviles afirma que un modelo en particular rinde 28
millas por galn. La Agencia de Proteccin al consumidor, usando una
muestra de 49 automviles de este modelo, encuentra que la media de
muestra es 26,8 millas por galn. De estudios previos, la desviacin
estndar de la poblacin se sabe que es de 5 millas por galn. Sera

CIBERTEC

CARRERAS PROFESIONALES

70

razonable esperar (en 2 errores estndar) que se pudiera seleccionar una


muestra semejante si realmente la media de poblacin fuera 28 millas por
galn?
7. Los estatutos ambientales aplicables a una cierta planta nuclear especifican
que el agua recibida no debe, en promedio, exceder los 28,9C antes de
pueda ser lanzada al ro que corre junto a la planta. De 70 muestras, se
encontr que el promedio de temperatura del agua reciclada era de 30,2C.
Si la desviacin estndar de la poblacin es de 7,5C, debera la planta ser
multada por exceder las limitaciones del estatuto? Formule y pruebe las
hiptesis apropiadas con = 0,05.
8. Inspectores de salubridad, al investigar los cargos levantados contra una
embotelladora de bebidas no alcohlicas, de Ancn, que no llenaban
adecuadamente sus productos, han muestreado 200 botellas y encontraron
que el promedio de llenado es de 930 ml. Se anuncia que las botellas
contienen 946,33 ml. Se sabe que la desviacin estndar de la poblacin es
de 44,36 ml. Deberan concluir los inspectores, al nivel de significancia de
2%, que las botellas estn siendo llenadas con menos contenido?
9. En 2002, la tarifa area promedio con dos semanas de anticipacin en el
vuelo entre Lima Aruba era de $235. La desviacin estndar de la poblacin
era de $68. En una encuesta hecha en 2003 a 90 viajeros elegidos
aleatoriamente entre estas dos ciudades se encontr que haban pagado e
promedio $218,77 por sus boletos. Cambi significativamente la tarifa
promedio en esta ruta entre 2002 y 2003? Cul es el mayor nivel de
significancia en el que podra concluir que la tarifa promedio observada no
es significativamente diferente de $235?
10. Una cadena regional de tiendas de abarrotes ha instalado cajas
computarizadas para reducir la espera del usuario y los costos de trabajo,
as como para ayudar en el control de inventarios. Los 36 empleados
entrenados en las nuevas mquinas promediaron 12,4 intentos antes de
lograr una transaccin libre de errores. La larga experiencia de los cajeros
para manejar las antiguas cajas registradoras mostraba un promedio de
11,6 intentos antes de lograr una operacin perfecta, con una desviacin
estndar de 2,7 intentos. Con un nivel = 0,01, debera la cadena concluir
que las nuevas registradoras computarizadas son ms difciles de aprender
a operar?
11. En Julio del 2007, el Ministerio de Trabajo consider una propuesta para
exigir a las compaas que informaran del efecto potencial de la existencia
de opciones para los empleados sobre las ganancias por accin (GPA). Una
muestra de 41 empresas de alta tecnologa revel que la nueva propuesta
reducira las GPA en un monto del 13,8 con una desviacin estndar de
18,9%. Otra muestra aleatoria de 35 productores de bienes de consumo
mostr que la propuesta reducira las GPA en 9,1% en promedio, con una
desviacin estndar del 8.7%. Con base en estas muestras, Es razonable
llegar a la conclusin (a un nivel = 0,01) de que la propuesta del Ministerio

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

71

de Trabajo ocasionar una mayor reduccin en las GPA para las empresas
de alta tecnologa o para los productores de bienes de consumo?
12. Dos laboratorios de investigacin han producido, independientemente,
medicamentos que alivian las molestias de la artritis. El primer medicamento
fue probado en un grupo de 90 personas que sufren de artritis y produjo un
promedio de 8,5 horas de alivio, con una desviacin estndar de 1,8 horas.
El segundo medicamento fue probado en 80 artrticos y produjo una media
de 7,9 horas de alivio, con una desviacin estndar de 2,1 horas. A un nivel
0,05 de significancia, el segundo medicamento proporciona un periodo de
alivio significativamente ms corto?

Para recordar


CIBERTEC

Para una prueba de hiptesis se debe formular adecuadamente la


hiptesis nula con un nivel de significancia de acuerdo con la realidad
del proceso.

CARRERAS PROFESIONALES

72

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

73

SEMANA

6
HIPTESIS ESTADSTICA
MUESTRAS PEQUEAS
TEMAS

Prueba de Hiptesis para medias. Muestras pequeas


Prueba bilateral de una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para diferencia de media
Desviacin estndar desconocidas. Muestras pequeas

OBJETIVOS ESPECFICOS

Describir la hiptesis nula y la hiptesis alternativa de un problema


Determinar una estadstica de prueba lgica y una regla de decisin para
probar las hiptesis para muestras pequeas

.
CONTENIDOS

Prueba de Hiptesis para medias. Muestras pequeas


Prueba bilateral de una hiptesis sobre la media
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para diferencia de media
Desviacin estndar desconocidas. Muestras pequeas.

ACTIVIDADES



Utilizan e interpretan el concepto de prueba de hiptesis


Toman decisiones de aceptacin o rechazo de una hiptesis bajo
consideraciones estudiadas.

CIBERTEC

CARRERAS PROFESIONALES

74

PRUEBA DE HIPTESIS PARA MEDIAS, MUESTRAS PEQUEAS.


Para muestras pequeas de poblaciones con distribucin aproximadamente
normal, se recurre a la distribucin t para prueba de hiptesis sobre la media
Prueba de significancia de una cola
Caso I
1. Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H1 : < o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica de prueba es x , para muestras pequeas se usa la variable
aleatoria.
x o
t=
S
n
Tiene una distribucin t con (n-1) grados de libertad.

4. La regin critica (R.C.) es , xc , donde x c es tal que P x < x c =

x
xc
o
p

s
s

n
n

xc
p T
s

p [T t c ] =
5. Se calcula x de los datos, luego se obtiene t
t =

x o
s
n

6. Se compara t con t
Si t < t t , t , se rechaza la hiptesis nula Ho
Si t > t t t , + , se acepta la hiptesis nula Ho

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

75

Regin de Rechazo

Regin de Aceptacin
0

Caso II
1. Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H1 : > o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica de prueba es x , para muestras pequeas se usa la variable
aleatoria.
x o
t=
S
n
Tiene una distribucin t con (n-1) grados de libertad.
4. La regin crtica (R.C.) es x c ,+ , donde x c es tal que P x x c =

x
xc
o
p

s
s

n
n

xc
p t
s

p [t t c

]=

5. Se calcula x de los datos, luego se obtiene t1

CIBERTEC

CARRERAS PROFESIONALES

76

t1 =

x o
s
n

6. Se compara t con t1
Si t > t1 t t1 , + , se rechaza la hiptesis nula Ho
Si t < t1 t ,t1 , se acepta la hiptesis nula Ho

Regin de Aceptacin
0

Regin de Rechazo
Z 1

PRUEBA BILATERAL DE UNA HIPTESIS SOBRE LA MEDIA


Prueba de significancia de dos colas
1. Se formula la hiptesis nula y la hiptesis alternativa
H o : = o
H1 : o
Donde o es el valor de la media poblacional.
2. Se escoge el nivel de significancia .
3. Una estadstica de prueba es x , para muestras pequeas se usa la variable
aleatoria.
x o
t=
S
n
Tiene una distribucin t con (n-1) grados de libertad.
4.
La regin Aceptacin (R.A.) es a, b , donde a y b son tal que

P a < x < b = 1 .
Por la simetra de la curva normal, los valores crticos de a y b son
simtricos con respecto a o

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

77

a
x
b o
o
p

s
s
s

n
n
n

= 1

Luego, la regin de aceptacin:

o t / 2
n

o + t / 2

7. Se calcula x a partir de la muestra observada,(tambin S si no se conoce la


varianza 2 y la muestra n es grande).
8. Se compara t con t /2.
Si t ,t / 2 0 t +t / 2 ,+ , se rechaza la hiptesis nula Ho
Si t t / 2 ,+t / 2 , se acepta la hiptesis nula Ho

Regin de Rechazo

Regin de Aceptacin

t / 2

Regin de Rechazo

+ t / 2

PRUEBA DE HIPTESIS PARA DIFERENCIA DE MEDIAS


Para probar hiptesis sobre la diferencia de medias, bajo el supuesto que Ho
es verdadero, es decir x y = 0 , cuando los tamaos de muestras son
pequeos y las poblaciones tienen distribuciones normales, con desviaciones
estndar iguales se utiliza la variable aleatoria t que tiene una distribucin t con
(n + m + 2) grados de libertad.
( x y)
nm(n + m + 2)
t=
2
2
n+m
(n 1) s x + (m 1) s y

Desviaciones Estndar desconocidas, Muestras Pequeas


Prueba Unilateral
Caso I:
1. Considrese la siguiente hiptesis:

CIBERTEC

CARRERAS PROFESIONALES

78

Ho : x = y

H1 : x y

Ho : x y = 0
H1 : x y 0

2. En el supuesto de que Ho es verdadero, es decir, que ( x y ) = 0 . Se


calcula
t1 ,+ ,

t1 , de tal manera que P[t t1 ] = 1 . La regin crtica (R.C.) es

3. Conclusin: si t se encuentra en la regin crtica t1 ,+ , se rechaza Ho,


en caso contrario se acepta.

Regin de Aceptacin
0

Regin de Rechazo
t1

Caso II:
1. Considrese la siguiente hiptesis:
Ho : x = y
H1 : x y

Ho : x y = 0
H 1 : x y 0

2. En el supuesto de que Ho es verdadero, es decir que ( x y ) = 0 . Se

calcula t1 , de tal manera que P[t t ] = . La regin crtica (R.C.) es

, t ,
3. Conclusin: si t se encuentra en la regin crtica , t , se rechaza Ho, en
caso contrario se acepta.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

79

Regin de Rechazo

Regin de Aceptacin
0

t
Prueba Bilateral
1. Considrese la siguiente hiptesis:
Ho : x = y
H1 : x y

Ho : x y = 0
H1 : x y 0

2. En el supuesto de que Ho es verdadero, es decir que ( x y ) = 0 . Se


calcula t / 2 y + t / 2 , de tal manera que P [ t / 2 t t / 2 ] = 1 . La regin
crtica (R.C.) es ,t / 2 U +t / 2 ,+
3. Conclusin: si t se encuentra en la regin crtica ,t / 2 U +t / 2 ,+ , se
rechaza Ho, en caso contrario se acepta.

Regin de Rechazo
t / 2

CIBERTEC

Regin de Aceptacin
0

Regin de Rechazo
+ t / 2

CARRERAS PROFESIONALES

80

ACTIVIDADES
.
1. Una mquina produce ejes que. segn las especificaciones, deben tener
100 mm de dimetro. Para mantener la calidad requerida, todos los das se
examina una muestra de 16 ejes para determinar si es necesario detener la
produccin y reajustar la mquina. Un da determinado, la muestra da los
siguientes resultados:
101
98

100
100

102
105

98
100

99
99

100
106

101
102

102
104

Tomando = 0.05 indique, mediante un anlisis estadstico, si es necesario


reajustar la mquina.

2. El fabricante de un cierto modelo de automvil afirma que el kilometraje


medio de este modelo es de 12 kilmetros por litro de gasolina corriente. Un
organismo de defensa del consumidor piensa que ese kilometraje promedio
ha sido exagerado por el fabricante. Unos 18 automviles de este modelo
son conducidos del mismo modo con un litro de gasolina corriente. Los
kilmetros recorridos por los diversos automviles son los siguientes:
12,5
12,5

13,1
11,0

14,0
12,4

11,5
12,2

10,5
11,0

10,4
10,0

11,0
11,4

10,5
9,0

12,2
1,01

Si el organismo desea rechazar una afirmacin verdadera no ms de una vez


en 100. Rechazar la afirmacin del fabricante? = 0,05.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

81

3. Una compaa inmobiliaria tom como muestra aleatoria de 12 hogares de


una prestigiada urbanizacin de Surco y encontr que el valor de mercado
promedio estimado era de $780000, con una desviacin estndar de $49000.
Pruebe la hiptesis de que para todas las casas del rea, el valor estimado
medio es de $825000, frente a la otra opcin de que es menos de $825000.
Utilice el nivel de significanca de 0,05.

4. En el taller mecnico de Jerry utilizan una sierra a motor para cortar el tubo
de metal que se utiliza en la manufactura de dispositivos de medicin de
presin. La longitud de los segmentos de tubo est distribuida normalmente.
Se cortaron 25 piezas de tubo con la sierra calibrada para cortar secciones
de 5,00 pulgadas de longitud. Cuando se midieron estas piezas, se encontr
que su longitud media era de 4,7 pulgadas y con una desviacin estndar
de 0,06 pulgadas. Utilice valores probables para determinar si la mquina
debe ser recalibrada, debido a que la longitud media es significativamente
diferente a 5,00 pulgadas.

5. El decano de la facultad de Ingeniera Ambiental de la Universidad Nacional


de Ingeniera, se pregunta acerca de las distribuciones de calificacin en el
nivel universitario. Ha escuchado rumores de que las notas de la facultad de

CIBERTEC

CARRERAS PROFESIONALES

82

Ingeniera Industrial est aproximadamente 0,25 por debajo de las notas de


la facultad de Ingeniera metalrgica. Un rpido muestreo aleatorio arroj
las siguientes calificaciones:
Ing.
Ambient 2,86 2,77 3,18 2,80 3,14 2,87 3,19 3,24 2,91 3,00 2,83
al
Ing.
Industri 3,35 3,32 3,36 3,63 3,41 3,37 3,45 3,43 3,44 3,17 3,26
al
Estos datos indican que existe una base fundada para los rumores?
Establezca y pruebe hiptesis apropiadas a un nivel =0,02.

6.

La compaa Natural acaba de concluir una nueva campaa publicitaria


para su producto Kivi punch, el cereal natural para el desayuno que
contiene pecanas, camu camu, kiwicha atmica y frutas secas. Para probar
la efectividad de la campaa, el gerente de la marca encuest a once
clientes antes de la campaa y a otros once despus de esta. A
continuacin, se da el consumo semanal (en onzas) de Kivi punch por
parte de los consumidores:
Antes
14
Despus 23

15
14

18
13

18
29

30
33

10
11

8
12

26
25

13
21

29
26

24
24

6.1 Al nivel = 0,05, puede, el gerente, concluir que la campaa ha tenido


xito en aumentar la demanda del producto?
6.2 Dada la investigacin del gerente antes de la campaa, puede usted
sugerirle un mejor procedimiento de muestreo para despus de la
campaa?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

83

6. Los mdem son dispositivos que transmiten informacin mediante lneas


telefnicas de una computadora a otra. La velocidad de transmisin se mide
en baudios, que se definen como el nmero de bits por segundo que
pueden transmitir. Debido a la intervencin de varios factores tcnicos, la
rapidez de transmisin real vara de un archivo a otro. Anne Evans est en
proceso de adquirir un mdem nuevo de 14400 baudios. Al probar dos de
los dispositivos, con el fin de decidir cul comprar, transmiti siete archivos
elegidos al azar utilizando ambos mdem y registr las siguientes
velocidades de transmisin (en miles de baudios)
Archivo
1
2
3
4
5
6
7
UIltima 14,4 Haynes
9,52 10,17 10,33 10,02 10,72 9,62 9,17
PerFAXtion 14,4 Extel 10,92 11,46 11,18 12,21 10,42 11,36 10,47
En un artculo aparecido en la revista PC reports se afirma que en pruebas
hechas por la misma revista se ha encontrado que el mdem PerFAXtion es
significativamente ms rpido que el Haymes Ultima. A un nivel = 0,01; los
resultados obtenidos por Anne confirman la conclusin de la revista?

CIBERTEC

CARRERAS PROFESIONALES

84

Autoevaluacin
1. Un documental de televisin acerca de la alimentacin excesiva afirmaba
que los estadounidenses tienen un sobrepeso aproximado de 10 lb en
promedio. Para probar esta afirmacin, se examin a 18 individuos elegidos
aleatoriamente, y se encontr que su sobrepeso promedio era de 12,4 lb,
con una desviacin estndar de muestra de 2,7 lb. A un nivel de
significancia de 0,01; hay alguna razn para dudar de la validez del valor
afirmado de 10 lb?
2. Microsoft, proveedor de software de sistemas operativos para computadoras
personales, estaba planeando la oferta pblica inicial de sus existencias
para sacar el suficiente capital de trabajo para financiar el desarrollo de un
sistema integrado de sptima generacin, radicalmente nuevo. Con
utilidades actuales de $ 1,61 por accin, Microsoft y sus suscriptores
estaban considerando un precio oferta de $21 aproximadamente 13 veces
las utilidades. Para verificar lo adecuado de este precio, eligieron
aleatoriamente siete compaas de software comercial pblico y encontraron
que su tasa promedio precio/utilidades era de 11,6 con una desviacin
estndar de muestra de 1,3 a un nivel =0,02. Puede Microsoft concluir
que las existencias en compaas de software comercial pblico tienen una
tasa promedio precio/utilidades significativamente diferente de 13?
3. Un bibliotecario universitario sospecha que el nmero promedio de libros
sacados a prstamo por cada estudiante por visita ha cambiado
ltimamente. Anteriormente, se sacaba un promedio de 3,4 libros. Sin
embargo, una muestra reciente de 23 estudiantes promedi 4,3 libros por
visita, con una desviacin estndar de 1,5 libros. Al nivel de significancia de
0,01; ha cambiado el promedio de prstamos?
4. Una compaa, recientemente criticada por no pagar lo mismo a hombres
que a mujeres que trabajan en los mismos puestos, declara que el sueldo
promedio pagado a todos los empleados es de $23500. De una muestra
aleatoria de 29 mujeres que laboran en la compaa, se calcul que el
salario promedio era de $23000. Si se sabe que la desviacin estndar de la
poblacin es de $1250 por estos empleos, determine si puede ser razonable
esperar (con dos errores estndar) que la media de la muestra sea $23000
si, en efecto, es cierto lo declarado por la compaa.
5. Se us gasolina de marca A en 9 automviles semejantes bajo idnticas
condiciones. La muestra correspondiente de 9 valores (kilmetros por litro)
tienen una media 8,565 y una desviacin estndar 0,212. Bajo las mismas
condiciones, la gasolina de alta potencia de marca B da una muestra de 10
valores con media 9,245 y desviacin estndar 0,254. Pruebe la hiptesis,
que A y B son de igual calidad con respecto al kilometraje, contra de que B
es mejor. Use = 0,05.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

85

6. Una organizacin de consumo selecciona de manera rutinaria varios


modelos de automvil cada ao y evala su eficiencia con respecto al
combustible. En el estudio del presente ao, de dos modelos compactos
fabricados por dos marcas distintas, el consumo promedio para doce
automviles de la marca A fue de 27,2 millas por galn (mpg), con una
desviacin estndar de 3,8 mpg. Los nueve automviles de la marca B que
fueron probados tuvieron un nmero promedio de 32,1 mpg, con una
desviacin estndar de 4,3 mpg. A un nivel = 0,01, se deber concluir
que los automviles de la marca B tienen un nmero promedio de millas por
unidad de combustible mayor que los automviles de la marca A?
7. Una empresa grande de corretaje de acciones desea determinar qu tanto
xito han tenido sus nuevos ejecutivos de cuenta en la consecucin de
clientes. Despus de haber terminado su entrenamiento, los nuevos
ejecutivos pasan varias semanas haciendo llamadas a posibles clientes,
tratando de conseguir prospectos para abrir cuentas con la empresa. Los
datos siguientes dan el nmero de cuentas nuevas que fueron abiertas
durante las primeras semanas por diez ejecutivas y ocho ejecutivos de
cuenta escogidos aleatoriamente. A un nivel de = 0,05, parece que las
mujeres son ms efectivas que los hombres para conseguir nuevas
cuentas?
Nmero de cuentas nuevas
Ejecutivas de cuenta

12 11 14 13 13 14 13 12 14 12

Ejecutivos de cuenta

13 10 11 12 13 12 10 12

8. Para celebrar su primer aniversario, J. J. Prez decidi comprar un par de


aretes de diamante para su esposa. Le ensearon nueve pares de aretes
con gemas que pesaban aproximadamente dos quilates por par. Debido a
las diferencias a la calidad y el color de las piedras, los precios variaban de
una joya a otra. El precio promedio fue de $2990, con una desviacin
estndar de muestra de $370. Tambin, le ensearon seis pares de aretes
en forma de gota, con un peso aproximado de dos quilates por cada par.
Estos aretes tenan un precio promedio de $ 3065, con una desviacin
estndar de $805. Con base en esta evidencia, puede J. J. Prez llegar a
la conclusin (a un nivel de significancia de 0,05) de que los diamantes con
forma de gota cuestan ms, en promedio, que el otro tipo de diamante?
9. Los datos que se presentan a continuacin constituyen una muestra
aleatoria de nueve empresas tomadas de la seccin (Resumen de Informes
de Ingresos) en La Bolsa de Valores de Lima, del 6 de febrero de 2003.
Fueron diferentes los ingresos por aportacin promedio en 2002 y 2003?
Pruebe con un nivel de significancia =0,02
Empresa
1
2
3
4
5
6
7
8
9
2002
1,38 1,26 3,64 3,50 2,47 3,21 1,05 1,98 2,72
2003
2,45 1,50 4,59 3,06 2,11 2,80 1,59 0,92 0,47

CIBERTEC

CARRERAS PROFESIONALES

86

10.
A nueve comercializadores de componentes para computadoras que
operan en las principales reas metropolitanas se les pidi los precios de
dos impresoras lser parecidas, con anchos estndar. Los resultados de la
investigacin estn dados en la siguiente tabla. A un nivel de = 0,05, es
razonable afirmar que, en promedio, la impresora Apple es ms barata que
la impresora Akita?
Comerciante
1
2
Precio Apple $350 419
Precio Akita
$370 425

3
385
369

4
360
375

5
405
389

6
395
385

7
389
395

8
409
425

9
375
400

Para recordar


Para una prueba de hiptesis se deber tener en cuenta en los datos,


que tienen que ser de muestra, como la media muestral y la desviacin
estndar muestral.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

87

SEMANA

8
PRUEBA DE HIPTESIS
PARA LAS PROPORCIONES
TEMAS

Prueba de Hiptesis para las proporciones, muestras grandes


Prueba bilateral de una hiptesis sobre las proporciones
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para la diferencia entre dos proporciones

OBJETIVOS ESPECFICOS

Describir la hiptesis nula y la hiptesis alternativa de un problema


Determinar una estadstica de prueba lgica y una regla de decisin para
probar las hiptesis para las proporciones

.
CONTENIDOS
Prueba de Hiptesis para las proporciones, muestras grandes
Prueba bilateral de una hiptesis sobre las proporciones
Prueba unilateral de una hiptesis sobre la media, caso I, caso II
Prueba de Hiptesis para la diferencia entre dos proporciones
.
ACTIVIDADES



Utilizan e interpretan el concepto de prueba de hiptesis


Toman decisiones de aceptacin o rechazo de una hiptesis bajo ciertas
consideraciones tratadas

CIBERTEC

CARRERAS PROFESIONALES

88

PRUEBA DE HIPTESIS PARA LAS PROPORCIONES


Las pruebas de hiptesis con relacin a las proporciones son bsicamente
iguales a las medias relativas. Se ha de probar la hiptesis de la proporcin de
xitos en un proceso de Bernoulli
Los pasos para la prueba de hiptesis
1. Se formula la hiptesis nula y lahiptesis alternativa de acuerdo con el
problema.
Ho : = o
Ho : = o
Ho : = o
a)
b)
c)
H1 : o
H1 : < o
H 1 : o
2. Se escoge un nivel de significancia o de riesgo.
3. Se escoge la estadstica de prueba apropiada, cuya variable aleatoria
binomial X tiene una distribucin binomial. Alternativamente, puede

x
usarse el estadstico p = . Los valores de X que estn distantes de la
n
media = np o lleva al rechazo de hiptesis nula.
4. Establecer la regin critica, es decir determinar el valor (o valores) critico
5. Calcular el valor de la prueba estadstica de una muestra aleatoria de
tamao n.
6. Conclusin; rechazar Ho si la estadstica tiene un valor en la regin
critica, caso contrario aceptar Ho.

Prueba de significancia de una cola


Caso I
1. Se formula la hiptesis nula y la hiptesis alternativa
Ho : = o
H1 : < o
2. Se escoge el nivel de significancia .
3. Una estadstica de prueba es una variable aleatoria binomial X que tiene una
distribucin binomial, cuando n es pequeo se utiliza esta distribucin.
4. La regin crtica (R.C.) es , Z , donde Z o es tal que P[Z < Z ] =
5. Se calcula x de la muestra de tamao n; luego, se obtiene Z
x np o
Z=
np o (1 p o )

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

89

Z=

p o

o (1 o )
n

6. Se compara Z con Z
Si Z < Z. Z , Z , se rechaza la hiptesis nula Ho
Si Z > Z. Z Z , + , se acepta la hiptesis nula Ho

Regin de Rechazo

Regin de Aceptacin
0

Caso II
1. Se formula la hiptesis nula y la hiptesis alternativa
Ho : = o
2.
3.
4.
5.

H 1 : o
Se escoge el nivel de significancia
Una estadstica de prueba es una variable aleatoria binomial X que tiene
una distribucin binomial, cuando n es pequeo se utiliza esta distribucin.
La regin critica (R.C.) es Z + , donde Z o es tal que P[Z > Z 1 ] =
Se calcula x de la muestra de tamao n, luego se obtiene Z
x np o
Z=
np o (1 p o )

Z=

p o

o (1 o )
n

6. Se compara Z con Zo
Si Z > Z 1- Z Z 1 + , se rechaza la hiptesis nula Ho
Si Z < Z 1- Z , Z 1 , se acepta la hiptesis nula Ho

CIBERTEC

CARRERAS PROFESIONALES

90

Regin de Aceptacin

Regin de Rechazo

Z 1

PRUEBA BILATERAL DE UNA HIPTESIS SOBRE LA MEDIA


Prueba de significancia de dos colas
1. Se formula la hiptesis nula y la hiptesis alternativa
Ho : = o
H 1 : o
2. Se escoge el nivel de significancia
3. Una estadstica de prueba es una variable aleatoria binomial X que tiene
una distribucin binomial, cuando n es pequeo se utiliza esta distribucin.
4. La regin Aceptacin (R.A.) es a, b , donde a y b son tal que
P[a < X < b] = 1 .
Por la simetra de la curva normal, los valores crticos de a y b son
simtricos con respecto a o

a o

o (1 o )
n

p o

o (1 0 )
n

bo
= 1
o (1 o )

Luego, la regin de aceptacin:

o Z / 2

o (1 o )

o + Z /2

o (1 o )
n

5. Se calcula x de la muestra de tamao n; luego, se obtiene Z


x np o
Z=
np o (1 p o )

Z=

p o

o (1 o )
n

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

91

5. Se compara Z con Z /2
Si Z , Z / 2 0 Z + Z / 2 ,+ , se rechaza la hiptesis nula Ho
Si Z Z / 2 ,+ Z / 2 , se acepta la hiptesis nula Ho

Regin de Rechazo

Regin de Aceptacin
0

Z / 2

Regin de Rechazo
Z / 2

PRUEBA DE HIPTESIS PARA DIFERENCIA DE MEDIAS


En este caso:
La hiptesis nula toma la forma:
H o : 1 = 2 =
Hiptesis alternativa:
H 1 : 1 2
H 1 : 1 2 0
a)
b)
H 1 : 1 2
H 1 : 1 2 0
H1 : 1 2
H1 : 1 2 0
c)
Los parmetros 1 y 2 son las proporciones de xitos de dos poblaciones. La
estadstica de prueba en la cual se basan los criterios de decisin es la variable

aleatoria p 1 y p 2 que tiene una distribucin aproximadamente normal cuando


las muestras son grandes, y la variable aleatoria Z que es aproximadamente
normal estndar.

Z=

( p 1 p 2 ) ( 1 2 )

1 (1 1 )

2 (1 2 )

n1
n2
Se seleccionan muestras aleatorias independientes de tamao n1 y n2 de cada
poblacin binomial respectivamente.

Se calcula la proporcin de xito p 1 y p 2 de cada muestra.

x
x
Siendo p 1 = 1 y p 2 = 2 , donde x1 y x2 es el nmero de xitos de la
n1
n2
muestra n1 y n2 respectivamente, entonces:

CIBERTEC

CARRERAS PROFESIONALES

92

Z=

( p1 p 2 )

1 (1 1 )

n1

2 (1 2 )
n2

( p1 p 2 )

Z=

1
1
+ )
n1 n 2
Es el valor de la normal estndar cuando Ho es verdadera, siendo n1 y n2
grandes.

1 (1 1 )(

Para calcular Z se debe hallar el valor de a partir de su estimador p

x + x2
p = 1
n1 + n 2
Luego, el valor de verdad de la estadstica Z es:

Z=

( p1 p 2 )

1
1
+ )
n1 n2
Desviaciones Estndar Conocidas, Muestras Grandes
Prueba Unilateral
p (1 p )(

Caso I:
1. Considrese la siguiente hiptesis:
H o : 1 = 2
o H o : 1 2 = 0
H 1 : 1 2
H 1 : 1 2 0
2. Se escoge el nivel de significancia

3. La estadstica de prueba es la variable aleatoria ( p 1 p 2 ) que tiene una


distribucin aproximadamente normal cuando n1 y n2 grandes. Es decir, la
variable aleatoria:

Z=

( p1 p 2 )

1 (1 1 )

2 (1 2 )

n1
n2
Suponiendo que Ho sea verdadera.

4. La regin crtica (R.C.) es Z Z 1 , para la hiptesis alternativa H 1 : 1 2

x
x
x + x2
5. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1
n2
n1 + n 2

Luego, se halla: z =

( p1 p 2 )

p (1 p )(

CARRERAS PROFESIONALES

1
1
+ )
n1 n 2

CIBERTEC

ESTADISTICA II

93

6. Conclusin: si z se encuentra en la regin crtica Z 1 ,+ , se rechaza Ho,


en caso contrario se acepta.

Regin de Aceptacin
0

Regin de Rechazo
Z 1

Caso II:
1. Considrese la siguiente hiptesis:
H o : 1 = 2
o H o : 1 2 = 0
H 1 : 1 2
H 1 : 1 2 0
2. Se escoge el nivel de significancia .

3. La estadstica de prueba es la variable aleatoria ( p 1 p 2 ) que tiene una


distribucin
aproximadamente normal cuando n1 y n2 grandes. Es decir, la variable
aleatoria:

Z=

( p1 p 2 )

1 (1 1 )

2 (1 2 )

n1
n2
Suponiendo que Ho sea verdadera.
3. La regin crtica (R.C.) es Z Z , para la hiptesis alternativa H 1 : 1 2

x
x
x + x2
4. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1
n2
n1 + n 2

Luego, se halla: z =

( p1 p 2 )

p (1 p )(

1
1
+ )
n1 n 2

5. Conclusin: si z se encuentra en la regin crtica , Z , se rechaza Ho,


en caso contrario se acepta.

CIBERTEC

CARRERAS PROFESIONALES

94

Regin de Rechazo

Regin de Aceptacin
0

Z
Prueba Bilateral
1. Considrese la siguiente hiptesis:
H o : 1 = 2

H o : 1 2 = 0

H1 : 1 2
H1 : 1 2 0
2. Se escoge el nivel de significancia

3. La estadstica de prueba es la variable aleatoria ( p 1 p 2 ) que tiene una


distribucin aproximadamente normal cuando n1 y n2 grandes. Es decir, la
variable aleatoria:

Z=

( p1 p 2 )

1 (1 1 )

2 (1 2 )

n1
Suponiendo que Ho sea verdadera.

n2

4. La regin crtica (R.C.) es Z Z / 2 o Z + Z 1 / 2 , para la hiptesis


alternativa H 1 : 1 2

x
x
x + x2
5. Se calcula p 1 = 1 y p 2 = 2 , luego p = 1
n1
n2
n1 + n 2

Luego, se halla:

z=

( p1 p 2 )

p (1 p )(

1
1
+ )
n1 n 2

6. Conclusin: si z se encuentra en la regin crtica , Z o + Z 1 ,+ , se


rechaza Ho, en caso contrario se acepta.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

95

Regin de Rechazo
Z / 2

Regin de Aceptacin
0

Regin de Rechazo
Z / 2

ACTIVIDADES
1. Un fabricante de lavadoras automticas produce un modelo en tres colores
diferentes A, B y C. De las primeras 1000 lavadoras vendidas se observa
que 400 fueron de color A. concluir usted que ms de 1/3 de todos los
clientes tienen preferencia por el color A? use = 0,01.

2. El director de cierto colegio muy famoso cree que, en parte debido al estatus
econmico de los padres, el porcentaje de los que han terminado
secundaria que asisten a este colegio es mayor que el promedio de la
ciudad. En el perodo de los cinco aos precedentes, el 20% de todos los
que terminaron secundaria de la ciudad entraron a la Universidad, mientras
que en el mismo perodo, 350 de los 1500 exalumnos de su colegio entraron
a la Universidad. Se justifica que el director diga que el porcentaje de sus
exalumnos que entraron a la Universidad es significativamente mayor que
20%? Pruebe con el nivel de significacin del 1%.

CIBERTEC

CARRERAS PROFESIONALES

96

3. Un fabricante de blusas de vestir para mujer sabe que su marca se vende en


19% de las tiendas de ropa para mujer que estn en el jirn de la Unin. Se
muestre, recientemente, 85 tiendas de ropa de mujer en Gamarra y
encontr que 14,12% de las tiendas vendan la marca. A nivel de
significancia del 0,04, Existe evidencia de se tiene una peor distribucin en
Gamarra que en el jirn de la Unin?

4. Un fabricante de cigarrillos asegura que el 20% de los fumadores de


cigarrillos prefieren A. Para probar esta aseveracin toma una muestra de
20 fumadores de cigarrillos y se le pregunta por la marca que prefieren. Si
de los 20 fumadores, 6 prefieren la marca A, qu concluye? Use un nivel
de significancia del 0.01.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

97

5. Una oficina de relaciones familiares de la DEMUNA informa que el 50% de


los matrimonios que viven en la cuidad de Lima llegan al juzgado de paz de
Lima para iniciar su divorcio dentro de su primer ao de casados. Qu
conclusin puede sacarse de la validez de este informe, si de una muestra
aleatoria de 400 matrimonios, slo 208 fueron al juzgado de paz de Lima
para iniciar su divorcio, dentro de su primer ao de casados? Utilice un nivel
de significancia igual a 0.01.

6. En una conferencia de prensa, una alta autoridad anuncia que el 90% de los
habitantes adultos de la ciudad de Lima estn a favor de cierto proyecto
econmico del gobierno. En una muestra aleatoria de 625 adultos se
observ que 540 estn a favor del proyecto. Si usted desea rechazar la
hiptesis verdadera no ms de una en vez de 100. Concluira que la
popularidad del proyecto ha sido exagerada por la autoridad?

7. Una gran cadena hotelera est tratando de decidir si convierte ms de sus


habitaciones en cuartos para no fumadores. En una muestra aleatoria de
400 huspedes tomada el ao anterior, 166 de stos pidieron habitaciones
para no fumadores. Este ao, 205 huspedes de una muestra de 380
prefirieron cuarto para no fumadores. Recomendara usted que la cadena
de hoteles destine ms habitaciones a no fumadores? Apoye su

CIBERTEC

CARRERAS PROFESIONALES

98

recomendacin probando la hiptesis apropiada a un nivel de significancia


de 0,01.

8. Una planta de energa elctrica operada con carbn est considerando dos
sistemas diferentes para abatir la contaminacin del aire. El primer sistema
ha reducido la emisin de contaminantes a niveles aceptables 68% del
tiempo segn se determin de 200 muestras de aire. El segundo sistema,
que es ms caro, ha reducido la emisin de contaminantes a niveles
aceptables 76% de las veces, segn qued determinado de 250 muestras
de aire. Si el sistema caro es significativamente ms eficiente en la
reduccin de contaminantes a niveles aceptables que el otro sistema,
entonces el administrador de la planta deber instalar el sistema caro. Cul
sistema ser instalado si la administracin utiliza un nivel de significancia de
0,02 al tomar la decisin?

9. Un grupo de fisilogos est llevando a cabo pruebas en pacientes para


determinar la efectividad de una nueva medicina contra la hipertensin. Los
pacientes con alta presin sangunea fueron escogidos al azar y luego fueron
asignados, aleatoriamente tambin, a un grupo de control (donde son
tratados con un medicamento contra la hipertensin conocido) o al grupo de
tratamiento (en el cual recibieron tratamiento con la nueva medicina. Los
mdicos registraron el porcentaje de pacientes cuya presin arterial se redujo

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

99

a un nivel normal despus de un ao de tratamiento. Al nivel de significancia


de 0,01, pruebe las hiptesis apropiadas para determinar si la nueva
medicina es significativamente ms efectiva para reducir la presin
sangunea que la medicina vieja.
Grupo
Porcin que mejor Nmero de pacientes
Tratamiento
0,45
120
Control
0,36
150

10. Una muestra aleatoria de 100 hombres fue tomada de la ciudad de Lima y
se encontr que 60 se mostraron a favor sobre una ley del divorcio. Una
muestra al azar de 100 mujeres escogidas de la misma ciudad revel que
40 de ellas estn a favor de dicha ley. Es igual la proporcin de hombres
que de mujeres que favorecen una nueva ley sobre el divorcio? Use un nivel
de significancia de 0,05.

CIBERTEC

CARRERAS PROFESIONALES

100

Autoevaluacin
1. De un total de 10200 prstamos otorgados por una cooperativa de crdito
en los ltimos cinco aos, 350 se muestrearon para determinar qu porcin
de prstamos se otorgaron a mujeres. Esta muestra indic que 39% de los
crditos fueron dados a empleadas. Un censo completo de prstamos de
hace cinco aos mostraba que el 41% de los prestatarios eran mujeres. A
un nivel de significancia de 0,02, puede concluir que la porcin de
prstamos otorgados a mujeres ha cambiado significativamente en los
ltimos cinco aos?
2. Los laboratorios Gnova se especializan en el uso de tcnicas de
reproduccin de genes para lograr nuevos compuestos farmacuticos.
Recientemente, desarroll un atomizador nasal que contiene interfern, con
el que se cree habr de limitarse la transmisin del resfriado comn en las
familias. En la poblacin general, a 15,1% les dar gripe ocasionada por el
rota virus una vez que otro miembro de la familia ha contrado tal gripe. El
atomizador de interfern fue probado en 180 personas, en cuyas familias
uno de los miembros contrajo, posteriormente, una gripe ocasionada por
Rota Virus. Slo 17 de los sujetos de la prueba desarroll gripes similares.
A un nivel de significancia de 0,05, debera concluir Gnova que el nuevo
atomizador, efectivamente, reduce la transmisin de la gripe?
3. Algunos tericos financieros cree que los precios diarios del mercado de
valores constituyen un paseo azaroso con rumbo positivo. Si esto es
exacto, entonces el promedio industrial Dow Jones debera mostrar una
ganancia en ms de 50% de todos los das de actividad financiera. Si el
promedio se increment en 101 de 175 das escogidos aleatoriamente,
Qu piensa de la teora sugerida? Use un nivel de significancia de 0,01.
4. El instituto de caf afirma que al menos el 40% de la poblacin de adultos
tomen regularmente una tasa de caf durante el desayuno. Una muestra
aleatoria de 450 individuos revel que 200 de ellos eran tomadores
regulares de caf en el desayuno. Cul es el valor probable para una
prueba de hiptesis que busca mostrar que la afirmacin del Instituto del
Caf es correcta? (Sugerencia: Pruebe H0:p = 0,04, contra H1:p > 0,4)
5. Un fabricante de salsa de tomate est en proceso de decidir si produce una
nueva marca extra picante. El departamento de investigacin de mercado
de la compaa emple una encuesta telefnica nacional de 6000 hogares y
encontr que dicho producto sera comprado por 335 de los encuestados.
Un estudio mucho ms extenso, realizado hace dos aos, mostraba que 5%
de los hogares en ese entonces habran comprado la salsa. A un nivel de
significancia de 2%, debera la compaa concluir que ahora existe un
mayor inters en el nuevo producto?
6. ACE Home Center vende podadoras Steele y est interesada en comparar
la calidad de las podadoras que vende con las podadoras Steele que se
venden a nivel nacional. La ferretera sabe que slo 15% de stas requieren

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

101

reparaciones durante el primer ao despus de su compra. Una muestra de


120 de los clientes de ACE revel que, exactamente, 22 de ellos requirieron
reparaciones para sus podadoras en el primer ao despus de su compra.
Al nivel de significancia de 0,02, existe evidencia de que las podadoras
Steele difieren en calidad de las que se venden a nivel nacional?
7. En un da promedio, alrededor de 5% de los valores de la Bolsa de Valores
de Nueva York muestran una nueva alza para este ao. El viernes 18 de
septiembre de 1992, el promedio industrial Dow Jones cerr en 3282 con un
fuerte volumen de, aproximadamente, 136 millones de ttulos negociados.
Una muestra aleatoria de 120 ttulos determin que diecisis de ellos
haban mostrado nuevas alzas anuales ese da. Usando un nivel de
significancia de 0,01, se debera concluir que ms ttulos de los habituales
tuvieron alzas anuales ese da?
8. En respuesta a las crticas concernientes a los extravos en el correo, el
servicio postal inici nuevos procedimientos para resolver el problema. Al
director general de correos se le asegur que dicho cambio reducira los
extravos por debajo del histrico ndice de prdidas de 0,3%. Despus de
dos meses de haberse puesto en marcha los nuevos procedimientos, el
servicio postal patrocin una investigacin en la que un total de 8000 piezas
de correo fueron enviadas desde diferentes partes del pas. Dieciocho de
estas piezas de prueba no alcanzaron su destino. A un nivel de significancia
de 0,10, puede el director general de correos concluir que los nuevos
procedimientos consiguieron su objetivo?
9. Un jefe de personal pensaba que el 18% de los empleados de la compaa
trabajaban horas extra cada semana. Si la porcin observada esta semana
es de 13% en una muestra de 250 de los 2500 empleados, se puede
aceptar que su opinin es razonable o se debe concluir que es ms
apropiado otro valor? Use =0,05.
10. Una corredora de bolsa afirma que ella puede predecir, con 85% de certeza,
el ascenso o cada, durante el mes siguiente, de un valor del mercado de
valores. Para probarlo, predice el resultado de 60 valores y acierta en 45 de
sus predicciones. Presentan estos datos evidencia concluyente (con =
0,04) de que la exactitud de sus predicciones es significativamente menor
que el declarado 85%?
11. Un fabricante de suplementos vitamnicos para neonatos incluye un cupn
para una muestra gratis de este producto en la canasta que es distribuida a
los nuevos padres en las clnicas. Con regularidad, aproximadamente 18%
de los cupones han sido canjeados. Dada la tendencia actual de tener
menos hijos e iniciar una familia ms tarde, la empresa se imagina que los
padres actuales estn mejor educados en promedio y, como resultado, es
ms probable que utilicen un suplemento vitamnico para sus hijos. Una
muestra de 1500 nuevos padres canje 295 cupones. Respalda este
hecho, a un nivel de significancia de 2%, la opinin de la compaa con
respecto a los actuales nuevos padres?

CIBERTEC

CARRERAS PROFESIONALES

102

12. Se estima que alrededor del 52% de hogares limeos son suscriptores de la
televisin por cable. Los editores de la revista Cable y ms estaban
seguros de que sus lectores tenan suscripcin por cable en un promedio
ms alto que la poblacin en general y queran usar este hecho para
ayudar a vender este espacio de publicidad para los canales de estreno por
cable. Para verificar este parecer, muestrearon a 250 suscriptores de la
revista y encontraron que 146 de ellos tenan suscripcin a televisin por
cable. A un nivel de significancia de 2%. los datos de la encuesta apoyan
el parecer de los editores?

Para recordar


En una prueba de hiptesis de proporciones, se debe tener en claro el


anlisis porcentual del problema.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

103

SEMANA

9
PRUEBA DE BONDAD DE AJUSTE
TEMAS

Definicin del x (Chi cuadrado). Ensayos de significacin


Prueba de bondad de ajuste. Tablas de contingencia
Prueba de Kolmogorov-Smirnov
Correlacin de yates para la continuidad. Coeficientes de contingencias

OBJETIVOS ESPECFICOS

Probar hiptesis que ms de dos proporciones de poblacin pueden ser


consideradas iguales
Uso de la prueba del Chi cuadrado

.
CONTENIDOS

Definicin del x
Ensayos de significacin
Prueba de bondad de ajuste. Tablas de contingencia
Correlacin de la continuidad. Coeficientes de contingencias
Prueba de Kolmogorov-Smirnov

ACTIVIDADES

Identifican las diferentes definiciones existentes en estadstica.


Analizan las diferentes formas de una investigacin estadstica.

CIBERTEC

CARRERAS PROFESIONALES

104

PRUEBA DE BONDAD DE AJUSTE


FRECUENCIAS OBSERVADAS y TERICAS
Como ya se ha visto muchas veces, los resultados obtenidos de muestras no
siempre concuerdan exactamente con los resultados tericos esperados, segn
las reglas de probabilidad. Por ejemplo, aunque consideraciones tericas
conduzcan a esperar 50 caras y 50 cruces cuando se lanza 100 veces una
moneda bien hecha, es raro que se obtengan exactamente estos resultados.
Supngase que en una determinada muestra se observan una serie de
posibles sucesos E1, E2, E3,..., Ek que ocurren con frecuencias O1, O2, O3,....,
Ok llamadas frecuencias observadas y que, segn las reglas de probabilidad,
se espera que ocurran con frecuencias e1, e2, e3,..., ek llamadas frecuencias
tericas o esperadas.
Suceso
Frecuencia
observada
Frecuencia
esperada

E1

E2

Es

...

Ek

O1

O2

Os

...

Ok

e1

e2

es

...

ek

DEFINICIN DE 2 (Chi cuadrado)


Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas es suministrada por el estadstico 2 , dado por
2
2
(
(
O1 e1 )
O2 e 2 )
=
+

+ ... +

e1

e2

(Ok ek )2
ek

=
j =1

(O

ej )

ej

Donde si el total de frecuencias es n,


Oj = ej = n
Una expresin equivalente es
K

(O )

j =1

ej

=
2

Si 2 = 0 las frecuencias observadas y tericas concuerdan exactamente;


mientras que si 2 > 0 , no coinciden exactamente. A valores mayores de 2 ,
mayores son las discrepancias entre las frecuencias observadas y esperadas.
La distribucin muestral de 2 se aproxima muy estrechamente a la distribucin
Chi cuadrado

Y = Yo ( )
2

Y = Yo ( )

1
( 2 )
2

( 2 )

1
2
2

1
2
2

Si las frecuencias esperadas son al menos iguales a 5, la aproximacin mejora


para valores superiores.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

105

El nmero de grados de libertad v est dado por


(a) = k 1 si las frecuencias esperadas pueden calcularse sin tener que
estimar parmetros poblacionales con los estadsticos muestrales.
Advirtase que el restar 1 a k es a causa de la condicin restrictiva
( O j = e j = n ) que denota que si son conocidas k - 1 de las frecuencias
esperadas, la frecuencia restante puede ser determinada.
(b) = k 1 m si las frecuencias esperadas solamente pueden calcularse
estimando m parmetros de la poblacin a partir de los estadsticos
muestrales.
ENSAYOS DE SIGNIFICACIN
En la prctica, las frecuencias esperadas se calculan de acuerdo con una
hiptesis Ho. Si bajo esta hiptesis el valor calculado de 2 dado por
K

( =
2

j =1

(O

ej )

ej

(O )

j =1

ej

o =
2

n ) es mayor que algn valor crtico (tal

como 02,.95 o 02,.99 que son los valores crticos a los niveles de significacin de
0,05 y 0,01 respectivamente), se deduce que las frecuencias observadas
difieren significativamente de las esperadas y se rechaza Ho al nivel de
significacin correspondiente. En caso contrario, se aceptar o al menos no se
rechazar. Este procedimiento se llama ensayo o prueba de chi cuadrado
de la hiptesis.
Debe advertirse que en aquellas circunstancias en que 2 est muy prximo a
cero debe mirarse con cierto recelo, puesto que es raro que las frecuencias
observadas concuerden demasiado bien con las esperadas. Para examinar
tales situaciones, se puede determinar si el valor calculado de 2 es menor que

02, 05 o 02,01 en cuyos casos se decide que la concordancia es bastante buena


a los niveles de significacin de 0,05 a 0,01 respectivamente.

PRUEBA DE BONDAD DE AJUSTE: POBLACIN MULTINOMIAL


Es el caso en que cada elemento de una poblacin se asigna a una y slo una
de varias clases o categoras. Esa poblacin se llama poblacin multinomial. La
distribucin multinomial de probabilidades se puede concebir como una ampliacin de la distribucin binomial para el caso de tres o ms categoras de
resultados. En cada ensayo, intento o prueba de un experimento multinomial
slo se presenta uno y slo uno de los resultados. Cada intento del
experimento se supone independiente, y las probabilidades deben permanecer
igual para cada prueba.
Resumen de la prueba de bondad de ajuste para distribucin multinomial
1. Enunciar las hiptesis nula y alternativa
Ho: La poblacin se apega a una distribucin normal de probabilidades con
probabilidades especificadas para cada una de las k categoras.

CIBERTEC

CARRERAS PROFESIONALES

106

Ha: La poblacin no se apega a una distribucin multinomial de


probabilidades, con probabilidades especificadas para cada una de las
k categoras.
2. Tomar una muestra aleatoria y anotar las frecuencias observadas O j , para
cada categora
3. Suponiendo que la hiptesis nula es cierta, determinar la frecuencia
esperada. e j , en cada categora, multiplicando la probabilidad de la
categora por el tamao de la muestra
4. Calcular el valor del estadstico de prueba
K (O e )2
j
j
2
=
ej
j =1
5. Regla de rechazo:
Rechazar Ho si 2 > 2
en donde a es el nivel de significancia para la prueba, y los grados de
libertad son (k 1)
En las pruebas de Chi cuadrado para bondad de ajuste, la regin de rechazo
siempre est en la cola superior. Las diferencias entre las frecuencias
observadas y esperadas se elevan al cuadrado, y las
mayores
2
diferencias originan mayores valores de .
En muchas aplicaciones, la prueba de bondad de ajuste consiste en elegir una
muestra y observar la categora a la que pertenece cada unidad muestreada.
En tales casos se debe tener cuidado de elegir una muestra aleatoria. Si no es
as, no se cumplir la hiptesis de independencia.
TABLAS DE CONTINGENCIA
Las tablas de clasificacin doble o tablas h x k, en las que las frecuencias
observadas ocupan h filas y k columnas. Tales tablas se llaman a menudo
tablas de contingencia.
Suceso
Frecuencia
observada
Frecuencia
esperada

E1

E2

Es

...

Ek

O1

O2

Os

...

Ok

e1

e2

es

...

ek

Correspondindose con cada frecuencia observada en una tabla de


contingencia h x k, hay una frecuencia terica o esperada que se calcula bajo
alguna hiptesis y segn las reglas de probabilidad. Estas frecuencias que
ocupan las casillas de una tabla de contingencia se llaman frecuencias
elementales. La frecuencia total de cada fila o columna es la llamada
frecuencia marginal.
Para estudiar el acuerdo entre las frecuencias observadas y esperadas, se
calcula el estadstico

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

107

=
2

(O

ej )

ej
donde la suma se extiende a todas las casillas de la tabla de contingencia, los
smbolos O j y e j representan, respectivamente, las frecuencias observadas y
esperadas en la casilla j. Esta suma, que es anloga a (I), contiene hk
trminos. La suma de todas las frecuencias observadas se denota por n y es
igual a la suma de todas las frecuencias esperadas ( O j = e j = n ).
j =1

Como antes, el estadstico =


2

(O

j =1

ej )

ej

tiene una distribucin muestral


( 2 )

1
2
2

e
muy estrechamente aproximada a la dada por Y = Yo ( )
, con tal de
que las frecuencias esperadas no sean demasiado pequeas. El nmero de
grados de libertad de esta distribucin Chi cuadrado est dado para h > 1, k
> 1 por
(a) = (h 1)(k 1) si las frecuencias esperadas pueden calcularse sin tener
que estimar parmetros poblacionales con los estadsticos muestrales.
(b) = (h 1)(k 1) m si las frecuencias observadas pueden solamente
calcularse estimando m parmetros poblacionales con los estadsticos
muestrales.
Las frecuencias esperadas son halladas bajo una determinada hiptesis Ho.
Una hiptesis normalmente supuesta es la de que las dos clasificaciones son
independientes entre s.
Las tablas de contingencia pueden extenderse a un nmero mayor de
dimensiones. As, por ejemplo, se pueden tener tablas h x k x 1 donde estn
presentes 3 clasificaciones.
FRMULAS PARA EL CLCULO DE 2
Se pueden obtener frmulas sencillas para el clculo de XZ que se basen
nicamente en las frecuencias observadas. En lo que sigue se dan los
resultados para tablas de contingencia 2 x 2 y 2 x 3.
Tablas 2 x 2

2 =

n(a1b2 a 2 b1 ) 2
n1 n2 na nb

II

Totales

a1

a2

na

b1
n1

b2
n2

nb
n

Totales
Tablas 2 x 3

CIBERTEC

CARRERAS PROFESIONALES

108

n
=
na
2

a12 a 22 a32 n b12 b22 b32


+ + +
+ n
+
n1 n2 n3 nb n1 n2 n3
I

II

III

Totales

a1

a2

a3

na

b1

b2

b3

nb

Totales

n1

n2

n3

COEFICIENTE DE CONTINGENCIA
Una medida del grado de relacin, asociacin o dependencia de las
clasificaciones en una tabla de contingencia es dada por:
C=

2
2 +n

Se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de


asociacin. El nmero de filas y columnas de la tabla de contingencia
determina el valor mximo de C, que no es nunca superior a uno. Si el nmero
de filas y columnas de una tabla de contingencia es igual a k, el mximo valor
de C viene dado por (k 1) / k
CORRELACIN DE ATRIBUTOS
Como las clasificaciones de una tabla de contingencia describen a menudo
caractersticas de individuos u objetos, se denotan a veces como atributos y el
grado de dependencia, asociacin o relacin se llama correlacin de atributos.
Para tablas kxk se define

r=

n(k 1)
Como el coeficiente de correlacin entre atributos o clasificaciones. Este
coeficiente se encuentra entre 0 y 1
LA PRUEBA DE KOLMOGOROV-SMIRNOV
La prueba de Kolmogorov-Smirnov, bautizada as en honor de los estadsticos
A. N. Kolmogorov y N. V. Smirnov quienes la desarrollaron, se trata de un
mtodo no paramtrico sencillo para probar si existe una diferencia significativa
entre una distribucin de frecuencia observada y otra de frecuencia terica. La
prueba K-S es, por consiguiente, otra medida de la bondad de ajuste de una
distribucin de frecuencia terica, como lo es la prueba Chi cuadrada. Sin
embargo, la prueba K-S tiene varias ventajas sobre la prueba 2 : es una
prueba ms poderosa, y es ms fcil de utilizar, puesto que no requiere que los
datos se agrupen de alguna manera.
La estadstica K-S, Dn, es particularmente til para juzgar qu tan cerca est la
distribucin de frecuencia observada de la distribucin de frecuencia esperada,

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

109

porque la distribucin de probabilidad de Dn depende del tamao de muestra n,


pero es independiente de la distribucin de frecuencia esperada (Dn es una
estadstica de "distribucin libre").
Un problema que ilustra la prueba K-S
Supngase que la central telefnica del la ciudad de Arequipa ha estado llevando un registro del nmero de "transmisores" (un tipo de equipo automtico
que se utiliza en las centrales telefnicas) usados en un instante dado. Las
observaciones se hicieron en 3,754 ocasiones distintas. Para propsitos de
planeacin de inversin de capital, el funcionario de presupuesto de esta
compaa piensa que el patrn de uso sigue una distribucin de Poisson con
una = 8,5 . Si desea probar esta hiptesis al nivel de significancia de 0,01,
puede emplear la prueba K-S:
La hiptesis se formulara de la siguiente manera:
Ho: Una distribucin de Poisson con = 8,5 es una buena descripcin del
patrn de uso.
H1: Una distribucin de Poisson con = 8,5 no es una buena descripcin del
patrn de uso.
= 0,01 nivel de significancia para probar estas hiptesis
A continuacin, se enumeran los datos que se observan en la tabla. Luego, se
enumeran las frecuencias observadas y las transforma en frecuencias
acumulativas observadas relativas.
En la tabla se enumeran las frecuencias acumulativas observadas relativas Fo,
frecuencias acumulativas relativas esperadas Fe y las desviaciones absolutas
para x = 0, x = 1....., x = 22 luego las frecuencias relativas esperadas
e x
x!
Clculo de la estadstica K-S
Para calcular la estadstica K-S, simplemente elija Dn, la desviacin absoluta
mxima de Fe, desde Fo, luego estadstica K-S
Dn = Fe Fo
En este ejemplo, Dn = 0,2582 en la observacin x = 9.
fe =

Una prueba K-S siempre debe ser una prueba de un extremo. Los valores
crticos para Dn se han tabulado y pueden encontrarse en la tabla de Valores
crticos de bondad de ajuste de Kolmogorov-Smirnov. Se busca en la fila de n =
3,754 (el tamao de muestra) y la columna para un nivel de significancia de
0,01, se encontrar que el valor crtico de Dn debe calcularse usando la
frmula:
1,63
Dn =
n
1,63
Dn =
= 0,0266
3754
El siguiente paso es comparar el valor calculado de Dn con el valor crtico de Dn
que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia

CIBERTEC

CARRERAS PROFESIONALES

110

elegido es mayor que el valor calculado de Dn, entonces se aceptar la


hiptesis nula. Obviamente, 0,0266 < 0,2582, as que se rechaza Ho y se llega
a la conclusin de que una distribucin de Poisson con = 8,5 no es una buena
descripcin del patrn del uso del transmisor en la central telefnica de la
ciudad de Arequipa.

Nmero
ocupado
O
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

Frecuencia Frecuencia
Frecuencia
Frecuencia
Acumulativa Acumulativa Desviacin
Acumulativa
observada
Observada Observada
absoluta
Observada
relativa
esperada
O
O
0,0000
0,0002
0,0002
5
5
0,0013
0,0019
0,0006
14
19
0,0051
0,0093
0,0042
24
43
0,0115
0,0301
0,0186
57
100
0,0266
0,0744
0,0478
111
211
0,0562
0,1496
0,0934
197
408
0,1087
0,2562
0,1475
278
686
0,1827
0,3856
0,2029
378
1,064
0,2834
0,5231
0,2397
418
1,482
0,3948
0,6530
0,2582
461
1,943
0,5176
0,7634
0,2458
433
2,376
0,6329
0,8487
0,2158
413
2,789
0,74*9
0,9091
0,1662
358
3,147
0,8383
0,9486
0,1103
219
3,366
0,8966
0,9726
0,0760
145
3,511
0,9353
0,9862
0,0509
109
3,620
0,9643
0,9934
0,0291
57
3,677
0,9795
0,9970
0,0175
43
3,720
0,9909
0,9987
0,0078
16
3,736
0,9952
0,9995
0,0043
7
3,743
0,9971
0,9998
0,0027
8
3,751
0,9992
0,9999
0,0007
3
3,754
1,0000
1,0000
0,0000

ACTIVIDADES
1. Durante las primeras 13 semanas de la temporada de televisin, se
registraron las audiencias de sbado por la noche, de 8:00 p. m. a 9:00 p.
m. como sigue: ATV 29%, Amrica televisin 28%, Panamericana televisin
25% y otros 18%. Dos semanas despus, una muestra de 300 hogares
arroj los siguientes resultados de audiencia: ATV 95 hogares, Amrica
televisin 89 hogares, Panamericana televisin 70 hogares y otros 46
hogares. Pruebe, con = 0,05, si han cambiado las proporciones de
telespectadores.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

111

2. La empresa Negusa, fabricantes de chocolates conito, patrocin una


encuesta nacional en la que ms de 10 millones de personas indicaron su
preferencia para un color nuevo. El conteo de esta encuesta dio como
resultado el reemplazo del color chocolate por un nuevo color. En el folleto
Colores que public el Departamento de Asuntos del Consumidor de la
mencionada empresa, la distribucin de los colores de chocolates es como
sigue:
Caf Amarillo Rojo Naranja Verde Azul
30%
20%
20%
10%
10% 10%
En un estudio que apareci en El Gourmet, se usaron muestras de bolsas
de una libra para determinar si eran vlidos los porcentajes publicados. Se
obtuvieron los siguientes resultados con una muestra de 506 chocolates.
Caf Amarillo Rojo Naranja Verde Azul
177
135
79
41
36
38
Use = 0,05 para determinar si estos datos respaldan los que public la
empresa.

CIBERTEC

CARRERAS PROFESIONALES

112

3. Se conoce que las actitudes negativas son un mtodo efectivo de


persuasin en la publicidad. Un estudio realizado por una conocida
universidad inform los resultados de un anlisis de contenido de anuncios
culposos en 24 revistas. La cantidad de anuncios con actitudes de culpa,
que aparecieron en ellas, es la siguiente:
Tipo de revista
Cantidad de anuncios culposos
Noticias de opinin
20
Editorial general
15
Orientadas a la familia
30
Negocios y financieras
22
Orientadas hacia la mujer
16
Afro americanos
12
Pruebe, con = 0,10, si hay una diferencia en la proporcin de anuncios con
actitudes de culpa que se publican en las 6 clases de revistas.

4. A continuacin, se observa una tabla de contingencias de 2 x 3, con


frecuencias observadas en una muestra de 200. Pruebe la independencia
entre las variables de rengln y de columna usando la prueba x2 con =
0,05.
Variable de columna
Variable de rengln
A
B
C
P
20
44
50
Q
30
26
30

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

113

5. Los puestos iniciales de los graduados en administracin y en ingeniera se


clasifican por industria, como vemos en la tabla siguiente:

Industria
Licenciado en Petrleo Qumica Elctrica Computacin
Administracin
30
15
15
40
Ingeniera
30
30
20
20
Use = 0,01 y pruebe si hay independencia entre licenciatura y tipo de
industria.

6. La revista Vendoms public un estudio en el que se inform los


resultados de un anlisis de culpa y miedo en anuncios, en 24 revistas. Las
cantidades de anuncios con actitudes de culpa y miedo que aparecieron en
algunas revistas son las siguientes:

Tipos de revista

Tipo de actitud
Cantidad de anuncios Cantidad de anuncios
con actitudes de culpa con
actitudes
de
miedo
20
10
15
11
la
30
19

Noticias y opinin
Editorial general
Orientada
hacia
familia
Comercial o financiera
Orientada hacia la mujer
Afroamericana

22
16
12

17
14
15

Aplique la prueba ji cuadrada de independencia con un nivel de


significancia igual a 0,01 para analizar los datos. Cul es su
conclusin?

CIBERTEC

CARRERAS PROFESIONALES

114

7. Los datos de partes defectuosas procedentes de tres proveedores son las


siguientes.
Calidad de las partes
Proveedor Buena Defectos pequeos Defectos graves
A
30
3
7
B
170
18
7
C
135
6
9
Use = 0,05 y demuestre si hay independencia entre proveedor y
calidad de partes. Qu dice el resultado de su anlisis al departamento
de compras?

8. Un estudio realizado por la revista Colors, indic a qu personas se les


dificulta ms, hombres o mujeres, comprar regalos. Suponga que se
obtuvieron los siguientes datos en un estudio de seguimiento basado en
100 hombres y 100 mujeres.
Sexo
Ms difcil comprar regalo para Hombres Mujeres
Consorte
37
25

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

115

Padres
Hijos
Hermanos
Parientes polticos
Otros parientes

28
7
8
4
16

31
19
3
10
12

Use = 0,05 y pruebe si hay independencia entre el sexo y la persona


ms difcil para regalar. Cul es su conclusin?

9. J. J. Prez, vendedor de la compaa Movil Speak, tiene siete cuentas que


visitar a la semana. Se piensa que las ventas del seor Nelson pueden
describirse mediante la distribucin binomial, con probabilidad de venta en
cada cuenta de 0.45. Examinando la distribucin de frecuencia observada
del nmero de ventas por semana del seor Prez, determine si la
distribucin corresponde, en efecto, a la distribucin sugerida. Use el nivel
de significancia de 0,05.
Nmero de ventas por semana
Frecuencia del nmero de
ventas

CIBERTEC

25

32

61

47

39

21

18

12

CARRERAS PROFESIONALES

116

10. La siguiente es una tabla de frecuencias observadas, junto con las


frecuencias que se esperan bajo una distribucin normal.
10.1 Calcule la estadstica K-S.
10.2 Podemos concluir que estos datos, en efecto, provienen de una
distribucin normal? Use el nivel de significancia de 0,10.

51-60
Frecuencia
observada
Frecuencia
esperada

Resultados de la prueba
61-70
71-80
81-90

91-100

30

100

440

500

130

40

170

500

390

100

Autoevaluacin
1. A continuacin, se observa una tabla de contingencias de 3 x 3, con
frecuencias observadas en una muestra de 240. Pruebe la independencia
entre las variables de rengln y de columna usando la prueba x2 con =
0,05.

Variable de rengln
P
Q
R

Variable de columna
A
B
C
20
30
20
30
60
25
10
15
30

2. Una de las preguntas de una encuesta fue la siguiente: Durante los ltimos
12 meses, en viajes de negocios, qu tipo de boleto de avin compr con
ms frecuencia? Las repuestas obtenidas se ven en la siguiente tabla de
contingencias:
Usando = 0,05 pruebe la independencia del tipo de vuelo y tipo de boleto.
Cul es su conclusin?
Tipo de vuelo

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

117

Tipo de boleto
Nacional Internacional
Primera clase
29
22
Clase de negocios o ejecutiva
95
121
Clase econmica
518
135
3. Las cantidades de unidades vendidas por tres agentes de ventas durante un
periodo de tres meses aparecen a continuacin. Use = 0,05 y demuestre
la independencia entre el vendedor y el tipo de producto. Cul es su
conclusin?
Producto
Vendedor A B C
Abanto
14 12 4
Marini
21 16 8
Noel
15 5 10
4. Una encuesta sobre el deporte preferido tuvo los siguientes resultados en
hombres y mujeres:
Deporte preferido
Sexo
Natacin Bsquetbol Ftbol
Hombres
19
15
24
Mujeres
16
18
16
Use = 0,05 y pruebe si las preferencias de hombres y mujeres son iguales.
Cul es su conclusin?
5. Un estudio de niveles educativos de los votantes y su afiliacin poltica tuvo
los siguientes resultados:
Afiliacin al partido
Nivel educativo
Apra PPC UPP
No termin secundaria
40
20
10
Secundaria completa
30
35
15
Licenciatura
30
45
25
Use = 0,01 y determine si la afiliacin poltica es independiente del nivel
educativo de los votantes.
6. Halley Torres y Aarn Delguiudice son crticos de cine que, con frecuencia,
difieren acerca de las mejores pelculas. En un artculo de una revista
especializada, se mencionan los resultados de 160 pelculas por parte de
ambos crticos. Cada resultado puede ser Buena, Regular o Mala.
Calificacin de Delguiudece
Calificacin de Torres Mala
Regular
Buena
Mala
24
8
13
Regular
8
13
11
Buena
10
9
64

CIBERTEC

CARRERAS PROFESIONALES

118

Aplique la prueba Chi cuadrada de independencia, con nivel de significancia


igual a 0,01 para analizar los datos.
7. Se cree que el nmero de accidentes automovilsticos diarios en
determinada ciudad tiene una distribucin de Poisson. En una muestra de
80 das del ao pasado se obtuvieron los datos de la tabla adjunta.
Apoyan estos datos la hiptesis de que la cantidad diaria de accidentes
tiene una distribucin de Poisson? Use = 0,05.
Cantidad de accidentes Frecuencia observada
(das)
0
34
1
25
2
11
3
7
4
3
8. Suponga que la cantidad de llamadas telefnicas que entran al conmutador
de una empresa durante intervalos de un minuto tiene una distribucin de
Poisson. Use =0,10 y los siguientes datos para probar la hiptesis de que
las llamadas que entran tienen una distribucin de Poisson:
Cantidad de llamadas
que entran durante
Frecuencia observada
un intervalo de un minuto
0
15
1
31
2
20
3
15
4
13
5
4
6
2
Total
100
9. Considere que la demanda semanal de un producto tiene una distribucin
normal. Haga una prueba de bondad de ajuste con los datos de la tabla
siguiente para probar esta hiptesis. Use = 0,10. La media de la muestra
es 24,5 y la desviacin estndar de la muestra es 3.
18
25
26
27
26
25

20
22
23
25
25
28

22
27
20
19
31
26

27
25
24
21
29
28

22
24
26
25
25
24

10. El 7% de inversionistas de fondos de ahorros valorizan como muy seguras


a las acciones corporativas, el 58% las define como algo seguras, el 24%

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

119

como no muy seguras, el 4% como definitivamente inseguras, y el 7 %


no tienen opinin definida. En una encuesta de una revista, se pregunt a
529 inversionistas de fondos de ahorro cmo creen que es la seguridad de
los bonos corporativos. Se obtuvieron las respuestas siguientes:
Concepto de seguridad
Muy seguras
Algo seguras
No muy seguras
Definitivamente inseguras
Sin opinin definida
Total

Frecuencia
48
323
79
16
63
529

Difieren los conceptos de los inversionistas en bonos respecto a los que se


tienen de las acciones corporativas? Apoye su conclusin con una prueba
estadstica con = 0,01.
11. Se desea abrir un paseo de aguas al pblico. Se ha pedido, a una muestra
de 140 personas, decir qu da preferiran visitarlo. A continuacin
observamos los resultados.
Entre semana Sbado Domingo Da feriado
20
20
40
60
Para establecer un plan de personal, debe suponer el gerente que habr la
misma cantidad de visitantes todos los das? Base su conclusin en una
prueba estadstica con = 0,05.
12. A una autoridad regional de transporte colectivo le preocupa la cantidad de
pasajeros que van en una de las rutas del autobs. Al definir la ruta se crea
que la cantidad de pasajeros era la misma de lunes a viernes. Con los datos
de la tabla, pruebe, con = 0,05 si es correcta la hiptesis de la autoridad.

Da
Lunes
Martes
Mircoles
Jueves
Viernes

Cantidad de
pasajeros
13
16
28
17
16

13. Los resultados de una Encuesta Anual de satisfaccin de trabajo indic que
el 28% de los gerentes de sistemas de informacin est muy satisfecho con
su trabajo, el 46% medianamente satisfecho, el 12% no est satisfecho ni
insatisfecho, el 10% est medianamente insatisfecho y el 4% est muy
insatisfecho. Suponga que en una muestra de 500 programadores
obtuvieron los siguientes resultados.

CIBERTEC

CARRERAS PROFESIONALES

120

Categora
Cantidad
Muy satisfechos
105
Medianamente satisfechos
235
Ni satisfechos ni insatisfechos
55
Medianamente insatisfechos
90
Muy insatisfechos
15
Haga una prueba con = 0,05 para determinar si la satisfaccin de los
programadores es diferente de la de los gerentes de sistemas de
informacin.
14. Una muestra de partes suministr los datos de la siguiente tabla de
contingencias, acerca de calidad de parte y de turno en que fue producida.
Use = 0,05 y pruebe la hiptesis de que la calidad de las partes es
independiente del turno en que fueron producidas. Cul es su conclusin?
Turno
Cantidad de buenas Cantidad de defectuosas
Primero
368
32
Segundo
285
15
Tercero
176
24
15. El Estudio 1996 de suscriptores de El Mercurio produjo datos acerca de
las clases de empleo de sus suscriptores. Los resultados de la muestra
correspondientes a suscriptores a las ediciones oriental y occidental son los
siguientes:
Regin
Clase de empleo
Edicin oriental Edicin occidental
Tiempo completo
1105
31
Tiempo parcial
31
15
Independiente / consultor
229
186
Sin empleo
485
344
Use = 0,05 y pruebe la hiptesis de que la clase de empleo es
independiente de la regin. Cul es su conclusin?
17. Al nivel de significancia de 0,05, podemos concluir que los siguientes
datos provienen de una distribucin de Poisson con = 3 ?
Nmero de
llegadas por da

6o
ms

Nmero de das

18

30

24

11

18. lvaro Carreo, gerente nacional de ventas de una compaa de


electrnica, ha recabado la siguiente estadstica de salarios de los ingresos
de la fuerza de ventas en su campo. Tiene tanto las frecuencias observadas
como las frecuencias esperadas. Si la distribucin de salarios es normal;

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

121

puede concluir Kevin que la distribucin de los ingresos de la fuerza de


ventas es normal?. Al nivel de significancia de 0,10

25-30
Frecuencia
observada
Frecuencia
esperada

Ingresos en miles
31-36 37-42 43-48 49-54

55-60

61-66

22

25

30

21

12

17

32

35

18

13

Para recordar
 Se deben plantear en forma adecuada la hiptesis nula para una mejor
aplicacin de la prueba de bondad de ajuste.

CIBERTEC

CARRERAS PROFESIONALES

122

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

123

SEMANA

10
REGRESIN LINEAL SIMPLE
TEMAS

Anlisis de Regresin lineal Simple. Variable independiente, variable


dependiente
Diagrama de dispersin. Mtodo de mnimos cuadrados
Recta de mnimos cuadrados en trminos de varianzas muestrales
Recta de regresin de mnimos cuadrados. Aplicacin e interpretacin

OBJETIVOS ESPECFICOS

Conocer la ecuacin de prediccin lineal


Determinar la ecuacin de regresin lineal a partir de los datos observados

CONTENIDOS

Anlisis de Regresin lineal Simple


Variable independiente, variable dependiente
Diagrama de dispersin
Mtodo de mnimos cuadrados
Recta de mnimos cuadrados en trminos de varianzas muestrales
Recta de regresin de mnimos cuadrados. Aplicacin e interpretacin

ACTIVIDADES

Identifican el mtodo de regresin lineal


Analizan la ecuacin de regresin lineal

CIBERTEC

CARRERAS PROFESIONALES

124

ANLISIS DE REGRESIN LINEAL SIMPLE


Anlisis de Regresin
El objetivo del anlisis de regresin es el de establecer una relacin cuantitativa
entre dos o ms variables seleccionadas. Trata de establecer un modelo que
permite predecir, explicar o estimar el valor de una variable (dependiente) en
funcin de otras variables (independientes).
El modelo a establecer puede tener la forma de la ecuacin de una recta
(modelo lineal), de la ecuacin de una parbola, de la funcin logartmica, de la
funcin exponencial. Asimismo, segn el nmero de variables independientes,
el modelo puede ser simple (una variable independiente) o mltiple (ms de
una variable independiente).
Para establecer cul es el modelo a utilizar, es conveniente elaborar un
Diagrama de Dispersin.
Regresin lineal simple
Implica que se debe establecer un modelo que permita explicar a la variable Y
(dependiente) en funcin de la variable independiente X. En un grfico de
dispersin, lo que se trata de ajustar una lnea entre los puntos observados.
Supuestos del anlisis de regresin lineal simple:
a) Cada valor de las variables X e Y se distribuye normalmente.
b) Las medias de las distribuciones normales (de cada X e Y) se encuentran
sobre la recta de regresin.
c) Las desviaciones estndar correspondientes son iguales.
d) Los valores de Y son estadsticamente independientes.

y = a+bx

El modelo de regresin lineal simple tiene la forma:


Donde:
a: intercepto con el eje Y o la variacin de Y que no es explicada por x
b: es la pendiente de la recta o el valor que vara Y cuando x aumenta en una
unidad.
Para calcular estos coeficientes se utiliza el mtodo de mnimos cuadrados a
partir del cual se obtienen las siguientes frmulas:
y = na + b x

xy = a x + b x
b=

n xy x y
n x 2 ( x )

( y - y) =

Sx y
S x2

b=

Sx y
S x2

( x x)

Coeficiente de correlacin r:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

r=

125

n x y x y

n x 2 ( x )

n y 2 ( y )

r=

Sx y
Sx S y

Al realizar la estimacin de la variable dependiente Y utilizando la recta de


regresin es obvio esperar que el resultado no sea exacto. Hay diferencias con
respecto a los valores reales y a dichas diferencias se les denomina error. Por
ello, se define al error estndar de estimacin (Sxy) como la desviacin
promedio de todas las observaciones con respecto a la recta de regresin. Se
calcula de la siguiente manera:

SC ( y ) b2 .SC ( x)
n2

S xy =
( x )

SC(x) =

x2

SP(xy) = xy
a = y bx

CIBERTEC

( x )( y )
n

( y )

SC(y) =

b=

y2

SP(xy)
SC(x)

b 2 .SC(x)
r =
SC(y)
2

CARRERAS PROFESIONALES

126

ACTIVIDADES
1. Son importantes las notas en la universidad para ganar un buen sueldo?
Un estudiante de estadstica comercial tom una muestra aleatoria de
sueldos iniciales y promedios de notas en la universidad de algunos de sus
amigos recin graduados. Los datos son los siguientes:
Sueldo inicial ($ miles) 36 30 30 24 27 33 21 27
Promedio de notas
4,0 3,0 3,5 2,0 3,0 3,5 2,5 2,5
1.1 Represente grficamente estos datos.
1.2 Desarrolle la ecuacin de estimacin que mejor describa los datos.

2. La fundacin Wuawua desea mostrar con estadsticas que, contrariamente


a la creencia popular, las cigeas s traen bebs. Por lo tanto, ha recabado
datos sobre el nmero de cigeas y el nmero de bebs (ambos en miles)
en varias ciudades grandes de Europa central.
Cigeas 27 38 13 24 6 19 15
Bebes
35 46 19 32 15 31 20
2.1 Calcule el coeficiente de determinacin de muestra y el coeficiente
de correlacin de muestra de estos datos.
2.2 Ha refutado la ciencia estadstica la creencia popular?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

127

3. El presidente de una compaa de computadoras est interesado en


estudiar la relacin entre el tamao del aumento anual y el desempeo de
un representante de ventas en el ao subsiguiente. Muestre a 12
representantes de ventas y determin los tamaos de sus respectivos
aumentos (dado como un porcentaje de sus sueldos individuales) y el
nmero de ventas hechas por cada uno durante los aumentos de los
siguientes 12 meses.
Tamao
aumento
Nmero
ventas

del 7,8 6,9 6,7 6,0 6,9 5,2 6,3 8,4 7,2 10,1 10,8 7,7
de 64

73

42

49

71

46

32

88

53

84

85

93

3.1 Desarrolle la ecuacin de estimacin de mejor ajuste que describa estos


datos.
3.2 Calcule el error estndar de la estimacin para esta relacin.
3.3 Desarrolle un intervalo de confianza de aproximadamente 90% para el
nmero de ventas hechas por un vendedor despus de recibir un
aumento de 9,6%

4 La cadena de comida Mikuy ha experimentado grandes fluctuaciones en


sus ingresos en los ltimos aos. Durante este tiempo, se han empleado
numerosos platillos especiales, productos nuevos y tcnicas de publicidad,
as que es difcil determinar qu estrategias son las que han tenido mayor
influencia en las ventas. El departamento de mercadeo ha estudiado una
variedad de relaciones y cree que los gastos mensuales en carteleras
pueden ser significativos. Muestre siete meses y determin lo siguiente:
Gastos mensuales en carteleras (x $1 000) 25 16 42 34 10 21 19
Ingresos mensuales de ventas (x $100 000) 34 14 48 32 26 29 20
4.1 Desarrolle una ecuacin de estimacin que mejor describa estos datos.
4.2 Calcule el error estndar de la estimacin de esta relacin.

CIBERTEC

CARRERAS PROFESIONALES

128

4.3 Para un mes con un gasto de carteleras de $ 28 000, desarrolle un


intervalo de confianza de aproximadamente 95% para las ventas
mensuales esperadas para ese mes.

5. En la siguiente tabla se muestra las cantidades extradas (en miles Kg.) de


oro a lo largo de 10 aos de produccin. Si los parmetros de produccin
estn controlados, sobre la base de estos datos estime la extraccin para el
ao 11.
Ao
1
2
3
4
5
6
7
8
9
10
Extraccin 0,25 0,28 0,38 0,45 0,68 0,78 1,20 1,80 2,15 2,98

6. Un analista de mercado desea estudiar las exportaciones de esprragos


que se estn produciendo antes de la aceptacin del Tratado de Libre
Comercio con EEUU.
Toma una muestra aleatoria a 10 embarques recientemente enviados a lo
largo de 2 semanas por la Compaa Esprragos Per SA y registra los
siguientes volmenes de exportacin (en toneladas). Estos datos se
muestran a continuacin:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Embarque
1
Volumen Exp. 82
5

129

865

915

950

980

6
102
0

7
125
0

8
132
5

9
147
0

10
161
5

6.1 Construya un diagrama de dispersin y determine si un anlisis de


regresin lineal es apropiado para relacionar los volmenes exportados
y el transcurrir del tiempo.
6.2 Mediante el mtodo de mnimos cuadrados, halle una ecuacin que
permita estimar el volumen de exportacin a lo largo del tiempo.
6.3 Calcule el error estndar de estimacin e interprtelo.

7. El tiempo en segundos en que una computadora con procesador XTF se


demora en correr un sofisticado programa de regresin se cree que depende
de la cantidad de KB que pueda tener el archivo datos necesario para que
el programa determine los resultados que se esperan. Para 10 archivos
distintos datos se obtuvo la siguiente informacin:

x = 1450
y = 673

x 2 = 218 , 500
xy = 101 , 570

2
y = 47225

7.1 Determine la recta de regresin.


7.2 Estime el tiempo que la computadora se demorar en correr el
programa cuando se utiliza un archivo datos de 180 KB.

CIBERTEC

CARRERAS PROFESIONALES

130

8. Un editor tom una muestra de 7 libros anotando el precio y el nmero de


pginas con el fin de predecir precios. Qu porcentaje de la varianza total
de precios se explica por esta funcin?
Precio
($)
# Pg.

12,00

12,50

13,80

15,40

17,50

18,00

20,00

175

240

280

320

380

420

500

8.1 Determine la ecuacin de regresin lineal.


8.2 Determine el coeficiente de correlacin entre el precio y el nmero de
pginas.
8.3 Estime el precio de un libro de 600 pginas. Si a este libro se le
incrementa 40 paginas en una segunda edicin, en cunto se
incrementar su precio?
8.4 Cuntas pginas debera tener un libro cuyo precio se estima en $
25,30?
9. Un estudio de Mercado trata de averiguar si es efectiva la propaganda
televisada de un producto que sali a la venta con relacin al tiempo de
publicidad (en horas/semana). Se recopilaron datos a partir de la segunda
semana de iniciada la publicidad resultando el cuadro que sigue. No se
puedo recopilar datos de la cuarta parte.
Semana
Tiempo de
propaganda
Venta del producto
($)

10

15

16

18

26

30

3000

3320

3850

4000

4200

9.1 Halle la ecuacin de regresin lineal.


9.2 En cuanto estimara las ventas para la semana 4?

10. Una empresa que fabrica Plantas de zapatillas quiere estudiar la relacin
entre las edades (en aos) de un tipo de mquinas compradas para la

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

131

fabricacin de este artculo y el nmero de artculos que se producen a lo


largo de una semana. A partir de la muestra siguiente:
Aos
No de
Artculos

5.0
453
4

4.5
564
5

4.0
--

3.5
624
8

3.0
679
4

2.5

2.0

--

--

1.5
964
2

1.0
985
5

10.1 Determine la recta de regresin de mnimos cuadrados para predecir


la produccin. Estime la produccin para 4, 2,5 y 2 aos.
10.2 Calcule el porcentaje de la varianza explicada por la regresin de la
produccin.

Autoevaluacin
1. Suponga que usted tiene a su cargo el dinero de la municipalidad de San
Marcos (Ancash). Se le dan los siguientes datos de antecedentes sobre el
suministro de dinero y el producto nacional bruto (ambos en millones de
soles):
Suministro de
dinero
Producto Nacional
Bruto

2,0 2,5 3,2 3,6 3,3 4,0 4,2 4,6 4,8

5,0

5,0 5,5 6,0 7,0 7,2 7,7 8,4 9,0 9,7 10,0

1.1. Desarrolle la ecuacin de estimacin para predecir el producto nacional


bruto Y del suministro de dinero X.
1.2. Cmo interpreta la pendiente de la lnea de regresin?
1.3. Calcule e interprete el error estndar de la estimacin.
1.4. Calcule el intervalo de prediccin de aproximadamente 90% para el
producto nacional bruto cuando el suministro de dinero es 8,0.

CIBERTEC

CARRERAS PROFESIONALES

132

2. Durante los partidos recientes de tenis, un jugador ha observado que sus


lanzamientos no han sido totalmente eficaces porque sus oponentes le han
regresado algunos de ellos. Algunas de las personas con las que juega son
bastante altas, as que se ha estado preguntando si la altura de su oponente
podra explicar el nmero de lanzamientos no regresados durante un
partido. Los siguientes datos se sacaron de cinco partidos recientes.
Altura del oponente (H) pies
6,0 5,5 5.2 5.1 5,0
Lanzamientos no regresados(L) 12 9
7
7
3
2.1.
Cul es la variable dependiente?
2.2.
Cul es la ecuacin de estimacin de mnimos cuadrados para
estos datos?
2.3.
Cul es su mejor estimacin del nmero de lanzamientos no
regresados para su partido de maana con un oponente de 5,9 pies de
altura?
3. Un estudio hecho por el Ministerio de Transportes y Comunicaciones,
acerca del efecto de los precios de los pasajes de los buses
interprovinciales sobre el nmero de pasajeros, produjo los siguientes
resultados:
Precio del pasaje
25 30 35 40 45 50 55 60
Pasajeros por 100 millas 800 780 780 660 640 600 620 620
3.1.
Represente grficamente estos datos.
3.2.
Desarrolle la ecuacin de estimacin que mejor describa estos
datos.
3.3.
Pronostique el nmero de pasajeros por 100 millas si el precio del
pasaje fuera 50. Utilice un intervalo de prediccin de 95% de
aproximacin.
4. Se ha diseado una prueba, para mostrar a los supervisores de una
compaa, sobre los riesgos de supervisar a sus trabajadores. Un trabajador
de la lnea de ensamblaje tiene a su cargo una serie de tareas complicadas.
Durante el desempeo del trabajador, un inspector lo interrumpe
constantemente para ayudarlo a terminar las tareas. El trabajador despus
de terminar su trabajo, recibe una prueba psicolgica diseada para medir la
hostilidad del trabajador hacia la autoridad (una alta puntuacin significa una
hostilidad baja). A ocho distintos trabajadores se le asignaron las tareas y
luego se les interrumpi con propsitos de asistencia de instruccin un
nmero variable de veces y sus calificaciones correspondientes en la
prueba de hostilidad se revelan en la siguiente tabla.
nmero de veces de
interrupcin al
trabajador
Calificacin del trabajador
en la prueba de
hostilidad-9

CARRERAS PROFESIONALES

10 10 15 15 20 20 25

58 41 45 27 26 12 16

CIBERTEC

ESTADISTICA II

133

4.1. Desarrolle la ecuacin que mejor describa la relacin entre el nmero de


veces de interrupcin y la calificacin de la prueba.
4.2. Pronostique la calificacin esperada de la prueba si el trabajador es
interrumpido 18 veces.
5. El editor jefe de un importante peridico de la capital ha intentado convencer
al dueo del peridico para que mejore las condiciones de trabajo en el
taller de prensas. El est convencido de que, cuando trabajan las prensas,
el grado de ruido crea niveles no saludables de tensin y ansiedad.
Realmente hizo que un psiclogo realizara una prueba durante la cual los
prensistas se situaron en cuartos con niveles variables de ruido y, luego, se
les hizo otra prueba para medir niveles de humor y ansiedad. La siguiente
tabla muestra el ndice de su grado de ansiedad o nerviosismo y el nivel de
ruido al que se vieron expuestos (1,0 es bajo y 10,0 es alto).
Nivel de ruido
4 3 1 2 6 7 2 3
Grado de ansiedad 39 38 16 18 41 45 25 38
5.1 Desarrolle una ecuacin de estimacin que describa los datos.
5.2 Pronostique el grado de ansiedad que se podra esperar cuando el nivel
de ruido es 5.
6. Una compaa administra a sus vendedores una prueba readiestramiento de
ventas antes de permitirles trabajar. La administracin de la compaa est
interesada en determinar la relacin entre las calificaciones de la prueba (T)
y el nmero de unidades vendidas por esos vendedores al final de un ao
de trabajo. Los siguientes datos se recolectaron de 10 agentes de ventas
enumerados del 1 al 10 que han estado en el campo durante un ao.
Nmero
del 1
2
3
4
5
6
7
8
9
10
vendedor
Calificacin (T) 2,6 3,7 2,4 4,5 2,6 5,0 2,8 3,0 4,0 3,4
Unidades
95 140 85 180 100 195 115 136 175 150
vendidas (S)
6.1 Encuentre la lnea de regresin de mnimos cuadrados que podra
usarse para predecir las ventas de las calificaciones de las personas en
adiestramiento.
6.2 En cunto se incrementa el nmero esperado de unidades vendidas
por cada incremento de 1 punto en una calificacin de la prueba?
6.3 Utilice la lnea de regresin de mnimos cuadrados para predecir el
nmero de unidades que vendera una persona en adiestramiento que
recibi una calificacin de prueba promedio.
7. El consejo municipal de La Victoria ha recabado datos sobre el nmero de
accidentes menores de trfico y el nmero de juegos de ftbol de jvenes
que tienen lugar en ese distrito el fin de semana.
X (juegos de ftbol)
20 30 10 12 15 25 34
Y (accidentes menores) 6 9 4 5 7 8 9

CIBERTEC

CARRERAS PROFESIONALES

134

7.1 Desarrolle una ecuacin de estimacin que describa los datos.


7.2 Pronostique el nmero de accidentes menores de trfico que ocurrirn
en un fin de semana durante el cual tendrn lugar 33 partidos de ftbol.
7.3 Calcule el error estndar de estimacin.
8. En economa, la funcin de demanda de un producto a menudo se estima
mediante la regresin de la cantidad vendida (Q) sobre el precio (P). La
compaa Matel est tratando de estimar la funcin de demanda para su
nueva mueca Sally, y ha recabado los siguientes datos:
P 20,0 17,5 16,0 14,0 12,5 10,0 8,0 6,5
Q 125 156 183 190 212 238 250 276
8.1 Represente grficamente estos datos.
8.2 Calcule la lnea de regresin de mnimos cuadrados.
9. Los contadores, con frecuencia, estiman los gastos generales basndose en
el nivel de produccin. La envasadora Miski recab informacin sobre
gastos generales y unidades producidas en diferentes plantas, y desean
estimar una ecuacin de regresin para predecir gastos generales futuros.
Gastos generales 191 170 272 155 280 173 234 116 153 178
Unidades
40 42 53 35 56 39 48 30 37 40
9.1 Desarrolle la ecuacin de regresin para los contadores costosos.
9.2 Pronostique los gastos generales cuando se producen 50 unidades.
9.3 Calcule el error estndar de la estimacin.
10. El fabricante de una empresa que se dedica al desarrollo de vacunas
informticas (antivirus), esta preocupado por la competencia que existe hoy en
el mercado. El fabricante desea estimar el tiempo que demora su producto en
analizar archivos de distintos tamaos. Para ello, se ha recolectado los
siguientes datos:
Tamao (KB)
Tiempo (seg.)

200 269 300 358 450 490 500 550


10,9 12,1 14,4 17,8 18,9 19,5 21,8 24,9

Estime el tiempo que el antivirus se demorar en analizar un archivo de 480


KB.

Para recordar


Se deben identificar adecuadamente la variable independiente y la variable


dependiente.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

135

SEMANA

11
REGRESIN NO LINEAL
TEMAS

Anlisis de Regresin no lineal: Cuadrtica


Anlisis de Regresin no lineal: Potencial
Anlisis de Regresin no lineal: Exponencial
Anlisis de Regresin no lineal Logartmica

OBJETIVOS ESPECFICOS

Conocer las otras ecuaciones de prediccin no lineales.


Determinar la ecuacin de regresin que mejor se aproxime a la realidad de
los datos observados.
Estimar adecuadamente las regresiones no lineales

CONTENIDOS

Regresin no lineal: Cuadrtica


Regresin no lineal: Potencial
Regresin no lineal: Exponencial
Regresin no lineal Logartmica

ACTIVIDADES

Identifican los diferentes mtodos de regresin no lineal


Analizan las diferentes ecuaciones de regresin no lineal

CIBERTEC

CARRERAS PROFESIONALES

136

ANLISIS DE REGRESIN NO LINEAL


Regresiones no lineales
En un anlisis de regresin cuando los valores de la variable independiente (X)
y la variable dependiente (Y) no se ajustan a una lnea de regresin, se podr
conseguir una relacin lineal mediante una transformacin de estos valores.
Regresin Potencial

y = Ax B
Regresin Exponencial
Regresin Hiperblica
Regresin Cuadrtica

ln y = ln(A) + B.ln(x)
y = Ae Bx
ln y = ln(A) + Bx
y = 1 /( A + Bx)
1/y = A + Bx
y = A + Bx + Cx
2

ACTIVIDADES
1. Ajuste, por el mtodo de mnimos cuadrados, una curva de la forma:

y = Ax B

para los siguientes datos:

X
Y

2
1,8

3
2,8

4
4,5

5
6,8

6
8,8

7
8
9
10
12.3 24,8 61,.5 84,.9

2. Ajuste, por el mtodo de mnimos cuadrados, una curva de la forma:

y = Ae Bx

para los siguientes datos:

X
Y

CARRERAS PROFESIONALES

1,2
1,3

2,3
2,2

3,4
5,5

5,5
6,6

8,6
7,8

11,7 13,8 16,9 21,1


18.3 34,8 71,2 94,.8

CIBERTEC

ESTADISTICA II

137

4. Ajuste, por el mtodo de mnimos cuadrados, una curva de la forma:


2
y = A + Bx + Cx para los siguientes datos:
X
Y

2
1

3
2

5
5

7
16

9
28

11
38

13
50

16
72

21
90

4. Un Vendedor de Autos usados desea estimar los precios (en $) de un lote de


autos usados importados desde el Asia. El estudio lo realiza para una misma
marca y modelo de la siguiente manera:
Aos

1
2
3
10,50
Precio ($)
8,200 6,500
0

-----

4,500

3,800

4.1 Determine la ecuacin de regresin que mejor se aproxime a la realidad de


los datos observados.
4.2 Estime el precio para un auto de 4 aos de antigedad.
4.3 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.

CIBERTEC

CARRERAS PROFESIONALES

138

5. Una nueva bacteria de influenza ha entrado al pas, los reportes de algunas


partes del interior han alertado al ministerio de salud. El rea de epidemiologa
ha tomado muestra de algunos pacientes con dichos sntomas internados por
emergencia. Uno de los primeros estudios es ver la velocidad de reproduccin
que esta bacteria tiene en el cuerpo humano. Para esto se realiza un cultivo de
estas bacterias (volumen) para encontrar dicha velocidad reproductiva. El
estudio lo realiza de la siguiente manera:
Tiempo (Horas)
Volumen (u3)

3
250

4
350

5
700

6
870

7
1080

8
1600

5.1 Determine la ecuacin de regresin que mejor se aproxime a la realidad de


los datos observados.
5.2 Si los mdicos definen como epidemia cuando despus de 14 horas el
volumen es de 10000 u3. , diga Ud. si lo observado llega a ese lmite.

6. En una planta de gas natural se ha observado diferentes fallas en el


gaseoducto cuando se transfiere el gas hacia la ciudad. La zona donde ms
problemas se han generado para el traslado del gas es de clima muy variado.
Se tom del reporte de esa zona los volmenes transferidos (cm3) y la presin
(Kg. /cm.2) generada. Los datos se encuentran en la siguiente tabla:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

139

Presin
(Kg./cm.2)
Volumen (cm3)

50

60

70

85

98

110

6.1 Determine la ecuacin de regresin que mejor se aproxime a la realidad de


los datos observados.
6.2 Estime la presin cuando el volumen sea 120 cm.3.

7. Un grupo poltico, que se presentar a las elecciones presidenciales, ha


observado que un gran problema es el de disminuir la pobreza. Para esto, uno
de los parmetros es la explosin demogrfica. Por ello, realiza un estudio de
los ltimos 25 aos para averiguar la velocidad de crecimiento poblacional.
Asimismo, toma reportes histricos de la poblacin (en millones) de la siguiente
manera:
Aos

1980

1985

Poblacin

10,5

11,2

1990 1994
12,5

13,2

1998

2001

2003

2005

18,8

22,6

27,8

32,8

7.1 Determine la ecuacin de regresin que mejor se aproxime a la realidad de


los datos observados.
7.2 Estime la poblacin que se espera para el ao 2010.
7.3 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.

CIBERTEC

CARRERAS PROFESIONALES

140

8. La empresa AMAUTA desea decidir si firma o no un contrato de


mantenimiento para su nuevo sistema de procesamiento de palabras. Los
directivos creen que el gasto de mantenimiento debe estar relacionado con el
uso, por ello han reunido la informacin que se ve en la tabla siguiente sobre
el uso semanal, en horas, y el gasto de mantenimiento (cientos de soles).
Uso semanal 13
10
20
28
32
17
24
31
40
38
(horas)
Gastos
17,0 22,0 30,0 37,0 47,0 30,5 32,5 39,0 51,5 40,0
anuales de
mantenimie
nto
8.1 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad
de los datos observados.
8.2 AMAUTA espera operar 30 horas semanales el procesador de palabras.
Determine un intervalo de prediccin de 95% para el gasto de la
empresa en mantenimiento anual.
8.3 Si el contrato de mantenimiento cuesta s/. 3000 anuales, recomendara
firmarlo? Por qu?

9. Los siguientes datos corresponden a la altura (pulgadas) y peso libras de


matadoras de voley :
Altura 68
64
62
65
66
Peso 132 108 102 115 128
9.1 Desarrolle la ecuacin de regresin que mejor se aproxime a la realidad de
los datos observados.
9.2 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

141

10. Los datos siguientes muestran las ventas (en millones) de cajas y los
gastos de publicidad (en miles de soles) para siete marcas de gaseosas.
Marca
Inca kola
Coca Cola
Kola Real
Pepsi cola
Isaac Kola
Concordia
Sabor

Gastos de publicidad (s/.)


131,3
92,4
60,4
55,7
40,2
29,0
11,6

Ventas de cajas
1 929,2
1 348,6
811,4
541,5
536,5
535,6
219,5

10.1 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad


de los datos observados.
10.2 Qu parece indicar este diagrama acerca de la relacin entre las dos
variables?
10.3 Prediga las ventas para una marca que gaste 70 millones de soles en
publicidad.
10.4 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.

CIBERTEC

CARRERAS PROFESIONALES

142

Autoevaluacin
3. A continuacin, observamos datos sobre el porcentaje de vuelos que llegan
puntuales y la cantidad de quejas por 100 00 pasajeros.
Aerolnea
WAYRA PER
L C BUSRE
TACA
AERO
CONDOR
ATSA
IBERIA
LAN PER
STAR PER
AERO MXICO

Porcentaje
puntual
81,8
76,6
76,6

0,21
0,58
0,85

75,7

0,68

73,8
72,2
71,2
70,8
68,5

0,74
0,93
0,72
1,22
1,25

Quejas

3.1 Trace un diagrama de dispersin para estos datos.


3.2 Qu parece indicar este diagrama acerca de la relacin entre las dos
variables?
3.3 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad
de los datos observados.
3.4 Proporcione una interpretacin para la curva de la ecuacin de regresin
estimada.
3.5 Cul es la cantidad estimada de quejas por 100000 pasajeros si el
porcentaje de vuelos puntuales es 80%?
4.

Los principales hoteles ofrecen, con frecuencia, tarifas especiales para


viajeros de negocios. Las tarifas mnimas se cobran cuando se hacen
reservaciones con 14 das de anticipacin. La tabla siguiente muestra las
tarifas de negocios y las de sper ahorro por 14 das de anticipacin, por
una noche, en una muestra de seis hoteles.
Lugar del hotel Tarifas de negocios Tarifa de anticipo de
14 das s/.
Ica
89
81
Trujillo
130
115
Arequipa
98
89
Lima
149
138
Cuzco
199
149
Iquitos
114
94
4.1 Trace el diagrama de dispersin para estos datos, con las tarifas de
negocios como variable independiente.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

143

4.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad


de los datos observados.
4.3 El hotel de turistas de Huancayo, tiene una tarifa de negocios de s/. 135
por noche. Estime la tarifa de sper ahorro por 14 das de anticipacin.
4.4 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.

5 La empresa Vista rene los datos que muestran qu publicistas obtienen la


mayor difusin durante las horas estelares de TV en 6 canales de televisin.
A continuacin, se presentan los datos de la cantidad de familias
espectadoras, en millones, y la cantidad de veces que sali el anuncio al
aire durante la semana del 23 de julio al 10 de agosto.
Marca
Veces que sali al Familias
anunciada
aire
espectadoras
Kolinos
28
191,7
Colgate
20
174,6
Dento
14
161,3
Ace
16
161,1
Ariel
16
147,7
Bolvar
16
146,3
Pacocha
11
138,2
.5.1 Desarrolle una ecuacin de regresin que mejor se aproxime a la
realidad de los datos observados.
5.2 Cul es la cantidad estimada de familias espectadoras si un anuncio sale
15 veces al aire en una semana?
5.3 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
5 Abajo estn los datos recopilados por un gerente de ventas de reportes
anuales y en aos de experiencia.
Vendedor
1 2 3 4
5
6
7
8
9
10
Aos
de
1 3 4 4
6
8
10 10 11 13
Experiencia
Ventas anuales (S/.
80 97 92 102 103 111 119 123 117 136
miles)
6.1 Trace el diagrama de dispersin para estos datos, con los aos de
experiencia como la variable independiente.
6.2 Forme una adecuada ecuacin de regresin con la que se puedan
predecir las ventas anuales, dados los aos de experiencia.
6.3 Use la ecuacin estimada de regresin para predecir las ventas anuales
de un vendedor con 9 aos de experiencia.
7 Las clases de llantas y capacidades de carga para una muestra de llantas
son las siguientes:

CIBERTEC

CARRERAS PROFESIONALES

144

Clase
75
de llanta
Capacidad
853
de carga

82

85

87

88

91

92

93

105

1
047

1
135

1
201

1
235

1
356

1
389

1
433

2
039

7.1 Trace un diagrama de dispersin para estos datos, con la clase de llanta
como variable independiente.
7.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la
realidad de los datos observados.
7.3 Estime la capacidad de carga para una llanta cuya clase es 90.
8 Los datos siguientes muestran los ingresos de los casinos y de sus hoteles,
en miles de soles.
Compaa
J W Marriott
Swisstel Lima
Sheraton
Hotel de las Amricas
Delfines
El Condado
Plaza del bosque
Sonesta
Costa del Sol
Sol de Oro

Ingreso en hotel
303,5
664,8
121,00
429,6
373,1
670,9
66,4
105,8
102,4
135,8

Ingreso en casino
548,2
664,8
270,7
511,0
404,7
782,8
130,7
105,5
148,7
358,5

8.1 Trace un diagrama de dispersin para estos datos, con los ingresos en
el hotel como variable independiente.
8.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad
de los datos observados.
8.3 Suponga que los ingresos del hotel fueron de s/. 500 millones. Cul es un
estimado de los ingresos del casino?
8.4 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
9 La siguiente tabla muestra el porcentaje de mujeres que trabaja en cada
empresa (x) y el porcentaje de puestos gerenciales desempeados por
mujeres en esa empresa (y). Los datos son de empresas del sector de
ventas y comercio al menudeo.
Empresa
Wong
Mc Donalds
Hiraoka
Ebel
Aceros Arequipa

Xi
72
47
51
57
55

Yi
61
16
32
46
36

9.1 Qu indica el diagrama de dispersin trazado en el inciso a acerca de


la relacin entre x e y?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

145

9.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad


de los datos observados.
9.3 Prediga el porcentaje de puestos gerenciales desempeados por
mujeres en una empresa en la que el 60% de sus empleados sean
mujeres.
9.4 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
10 En el pas, las autoridades del gobierno consideran que para que las
deducciones totales sean razonables, es necesario considerar el ingreso
bruto del causante. Las grandes deducciones, que comprenden los pagos a
instituciones de beneficencia y por gastos mdicos, son ms razonables
para causantes con grandes ingresos brutos ajustados. Si un causante pide
deducciones mayores que el promedio para determinado nivel de ingresos,
aumentan las posibilidades de una auditora fiscal. A continuacin vemos
datos sobre el impuesto bruto ajustado y el promedio o cantidad razonable
de deducciones agrupadas. Los datos estn en miles de dlares.
Ingresos
brutos
ajustados
22
27
32
48
66
85
120

Deducciones
ajustadas totales (s/.
miles)
9,6
9,6
10,1
11,1
13,5
17,7
25,5

10.1Trace un diagrama de dispersin para esos datos, con ingresos brutos


ajustados como variable independiente.
10.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad
de los datos observados.
10.3 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
11 En los siguientes datos, se ven las tasas de ocupacin (%) y las tarifas por
noche ($) en las regiones hoteleras ms importantes de Estados Unidos.
Regin

Los Angeles
Chicago
Washington
Atlanta
Dallas

CIBERTEC

Tasa de
ocupacin
(%)
67,9
72,0
68,4
67,7
69,5

Tarifa
promedio
por noche (s/.
)
75,91
92,04
94,42
81,69
74,76

CARRERAS PROFESIONALES

146

San Diego
Anaheim
Santa
Ana
San Francisco
Houston
Miami
Oahu Island
Phoenix
Boston
Tamp
Dtroit
Philadelphia
Nashvile
Seatle
Mineapolis
New Orleans

68,7
69,5

80,86
70,04

78,7
62.0
71,2
80,7
71,4
73,5
63,4
68,7
70,1
67,1
73,4
69,8
70,6

106,47
66,11
85,83
107,11
95,34
105,51
67,45
64,79
83,56
70,12
83,60
73,64
99,00

11.1 Trace un diagrama de dispersin para estos datos, con la tarifa


promedio por noche como variable independiente.
11.2 Desarrolle una ecuacin de regresin que mejor se aproxime a la realidad
de los datos observados.
11.3 Estime la tasa promedio de ocupacin para un hotel cuya tarifa
promedio sea de s/. 130,00 por noche.
11.4 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
12 Los datos de la tabla siguiente muestran la cantidad de ventas de acciones
(en millones) y el precio esperado (promedio del precio bajo proyectado y el
precio alto proyectado) para 10 emisiones pblicas iniciales de acciones.
Empresa
Nabisco
Nestl
P&G
Backus
Cementos
Lima
Andina SAC
Pacocha
PROATEC
Ro Blanco
Yanacocha

CARRERAS PROFESIONALES

Venta
acciones
5,0
9,0
6,7
8,75
3,0
13,6
4,6
6,7
3,0
7,7

de Precio
esperado(s/.)
15
14
15
17
11
19
13
14
10
13

CIBERTEC

ESTADISTICA II

147

12.1

Desarrolle una ecuacin de regresin que mejor se aproxime a la


realidad de los datos observados (con la cantidad de acciones vendidas
como variable independiente).
12.2 Use la ecuacin de regresin para estimar el precio que puede
esperar una empresa con una oferta pblica inicial de 6 millones de
acciones.
12.3 Qu tan confiable es dicha ecuacin? Justifique estadsticamente su
respuesta.
13 Una ley manda publicar informacin sobre impuestos irregulares sobre
propiedad. Hace una lista del nombre del propietario, la valuacin de la
propiedad y la cantidad de impuestos, evaluaciones y penalizaciones
vencidas. La valuacin de la propiedad y los impuestos vencidos para una
muestra de 10 propiedades irregulares aparecen en la siguiente tabla. La
valuacin est en miles de soles.
Valuacin de la
propiedad
(en miles de soles)
18,8
24,4
20,4
35,8
14,8
40,4
49,0
14,5
37,3

Cantidad
vencida
(en soles)
445
539
1 212
2 237
479
1 181
4 187
409
1 002

54,7

2 062

13.1
Determine la ecuacin de regresin para estimar la cantidad de
impuestos vencidos de la valuacin de la propiedad.
13.2
Aplicar la ecuacin de regresin para estimar los impuestos
vencidos para una propiedad cuya valuacin es de s/. 42 400.
13.3
Cree usted que la ecuacin de regresin permita una buena
prediccin de la cantidad de impuestos vencidos?
14 En un proceso de manufactura, se cree que la velocidad de la lnea de
produccin, en pies por minuto, afecta la cantidad de piezas defectuosas
que se encuentran en proceso de inspeccin. Para probar esta teora se
hizo una determinacin en la que el mismo conjunto de partes era
inspeccionado visualmente a diversas velocidades de la lnea. En la tabla
siguiente, se ve una lista de los datos reunidos.
Valor de la lnea
Cantidad
de
encontradas

CIBERTEC

partes

20 20 40 30 60 40
defectuosas 21 19 15 16 14 17

CARRERAS PROFESIONALES

148

14.1
Desarrolle una ecuacin de regresin que mejor se aproxime a la
realidad de los datos observados.
14.2
Tuvo un buen ajuste con los datos de la ecuacin de regresin?

15 Un hospital de una gran ciudad contrat a un psiclogo para investigar la


relacin entre la cantidad de das que faltan sin permiso los empleados, por
ao, y la distancia, en millas, de su hogar a su trabajo. Se eligi una
muestra de 10 empleados y se reunieron los siguientes datos:
Distancia al trabajo
1 3 4 6 8 10 12 14 14 18
Cantidad de das de ausencia 8 5 8 7 6 3 5 2 4 2
15.1
Desarrolle una ecuacin de regresin que mejor se aproxime a la
realidad de los datos observados.
15.2
Tienen buen ajuste los datos con la ecuacin de regresin?
Explique por qu.
15.3
Tuvo un buen ajuste con los datos de la ecuacin de regresin?

Para recordar


Se deben identificar adecuadamente las ecuaciones de regresin no lineal.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

149

SEMANA

12
REGRESIN LINEAL MLTIPLE
TEMAS

Anlisis de Regresin lineal mltiple


Recta de regresin de mnimos cuadrados
Aplicacin e interpretacin

OBJETIVOS ESPECFICOS

Conocer la otra ecuacin de prediccin lineal


Determinar la ecuacin de regresin lineal mltiple a partir de los datos
observados
Estimar adecuadamente la regresin lineal mltiple

CONTENIDOS

El proceso de regresin mltiple


Error estndar de la estimacin de la regresin mltiple
Los coeficientes de determinacin mltiple

.
ACTIVIDADES

Identifican el mtodo de regresin lineal mltiple


Analizan la ecuacin de regresin lineal mltiple

CIBERTEC

CARRERAS PROFESIONALES

150

ANLISIS DE REGRESIN LINEAL MLTIPLE


El proceso de regresin mltiple se usa cuando es posible utilizar ms de una
variable independiente para estimar la variable dependiente y, de esta manera,
intentar aumentar la precisin de la estimacin. Este proceso est basado en
las mismas suposiciones y procedimientos que se encuentran al utilizar la
regresin simple.
Considere al agente de bienes races que desea relacionar el nmero de casas
que la firma vende en un mes con la cantidad de su publicidad mensual.
Ciertamente, se puede encontrar una ecuacin de estimacin sencilla que
relacione a estas dos variables. Si se incluye en el proceso de estimacin el nmero de vendedores que emplea cada mes, para predecir las ventas
mensuales de casas, se debe utilizar regresin mltiple, y no simple, para
determinar la relacin.
La principal ventaja de la regresin mltiple es que permite utilizar ms informacin disponible para estimar la variable dependiente. En algunas ocasiones, la
correlacin entre dos variables puede resultar insuficiente para determinar una
ecuacin de estimacin confiable. Sin embargo, si se agrega los datos de ms
variables independientes, es posible determinar una ecuacin de estimacin
que describa la relacin con mayor precisin.
Regresin lineal mltiple es un modelo de la forma:

a o + a1 X 1 + a 2 X

Donde:
Y:
Xi:

2+

a3 X

3+

4 + .......... .... +

a4 X

an X

Variable dependiente
Variable independiente i, cuando i = 1, 2, 3, 4,.......n

El significado de los coeficientes de las n variables independientes, as como


las definiciones de error estndar de estimacin y coeficiente de determinacin
son vlidas tambin para este modelo.

Sea el modelo de la forma:


Y = a + bX 2 + cX 2
Para hallar los valores de a, b y c

Y
YX

na

b X

c X

b X1 + c X X
Y X = a X + b X X +c X 2
1

a X

+
1

2
2

Medida de dispersin o el error estndar de la estimacin de la regresin


mltiple. En la regresin simple, la estimacin se hace ms precisa conforme
el grado de dispersin alrededor de la regresin se hace ms pequeo. Lo
mismo se aplica a los puntos de muestra que se encuentran alrededor del
plano de regresin mltiple.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

151

Para medir esta variacin, se debe utilizar de nuevo la medida conocida como
error estndar de la estimacin:

Y = a + bX 2 + cX 2

Sea el modelo de la forma:

Se =

(Y Y ) 2
n k 1

Donde:
.

y = valores de muestra -de la variable dependiente

Y = valores correspondientes estimados a partir de la ecuacin de


regresin.
n = nmero de puntos de dato de la muestra
k = nmero de variables independientes

El denominador de esta ecuacin indica que, en la regresin mltiple con k


variables independientes, el error estndar tiene n-k - 1 grados de libertad. Esto
es as debido a que los grados de libertad se ven reducidos de su valor n en los
k + 1 constantes numricas, a, bl, b2, ..., bk, que fueron estimadas de la misma
muestra.
Como fue el caso en la regresin simple, se puede utilizar el error estndar de
la estimacin y la distribucin t para formar un intervalo de confianza
aproximado alrededor de nuestro valor estimado Y. Si se desea construir un

intervalo de confianza del 95% alrededor de esta estimacin de Y con (n-k


1) grados de libertad. Luego de hallar el valor apropiado de t, se puede calcular
los lmites del intervalo de confianza de esta forma:

LSup = Y + tS e Lmite superior

LInf = Y tS e Lmite inferior

Los coeficientes de determinacin mltiple. En el estudio del anlisis de


correlacin simple, se mide la intensidad de la relacin entre dos variables,
utilizando el coeficiente de determinacin r 2 de la muestra. Este coeficiente es
la fraccin de la variacin total de la variable dependiente Y que se explica con
la ecuacin de estimacin.
Similarmente, en la correlacin mltiple se deber medir la intensidad de la
relacin entre tres variables utilizando el coeficiente de determinacin
mltiple, R2, o su raz cuadrada, R (el coeficiente de correlacin mltiple).
Este coeficiente de determinacin mltiple es tambin la fraccin que
representa la porcin de la variacin total de Y que es "explicada" por el plano
de regresin. .

CIBERTEC

CARRERAS PROFESIONALES

152

ACTIVIDADES
1. Se quiere controlar el precio (valor real) de cierto producto a partir de los de
gastos de publicidad (miles de $) y los gastos en transporte ($/ton.). En un
mes se tom una muestra de 9 ensayos y se observ lo siguiente:
Precio

2,1

2,2

2,5

2,6

2.6

2,7

2,7

2,8

Publico.

12

14

17

22

26

28

32

34

35

Transporte

25

25,2 25,1 25,3 25,3 25,4 25,3 25,4 25,5

1.1 Halle la ecuacin de regresin lineal mltiple de mnimos cuadrados


para predecir los precios reales.
1.2 Determine el precio real a un gasto de publicidad de 30 y un gasto en el
transporte de 26.

2. Una fbrica de cierta marca de reactivos industriales desea saber los


posibles cambios de reaccin que sus productos pueden generar en
diferentes temperaturas a diferentes volmenes de solvente utilizado. Se ha
tomado al azar 9 muestras, observando la temperatura de trabajo media
correspondiente en grados centgrados (X1), el volumen del solvente
utilizado (X2) y el peso promedio recuperado de soluto (Y). Los datos se
resumen en la siguiente tabla:
X1
X2

18
6

19
9

21
5

22
7

23
8

27
7

29
5

21
6

23
5

60

69

62

65

69

70

71

65

64

Halle la recta de regresin mltiple de mnimos cuadrados para predecir el


peso promedio de soluto recuperado Se puede planificar
dicha
recuperacin sobre la base de la temperatura?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

153

3. La compaa minera PROATEC SA desea avaluar los posibles problemas


que tiene en la recuperacin de concentrado de oro a partir del proceso de
lixiviacin controlada, en la unidad Len ubicado en la localidad de
Churubamba departamento de Huanuco. Los siguientes datos son los
pesos en gramos recuperados por Tn. (Y), temperatura de trabajo (X1)
volumen de cianuro a utilizar ml/gl(X2):
X1

X2

6,9

6,2

6,5

7,2

7,0

7,1

6,6

6.8

3.1 Ajuste una curva de regresin lineal mltiple.


3.2 Estime la recuperacin al trabajar a 5 c y u n volumen de 9ml de CN.

4. Ajuste una curva de regresin lineal mltiple a los siguientes datos:

CIBERTEC

X1
X2

4
3

8
6

12
14

16
18

20
29

24
37

28
38

32
42

24

21

20

15

14

10

CARRERAS PROFESIONALES

154

4.1 Halle la ecuacin de regresin lineal mltiple de mnimos cuadrados.


4.2 Determine el valor de Y, cuando X1 es igual a 35 y X2 es igual a 30.

5. La presin P (Kg./cm2) de un gas metano es dependiente de las variables


X1, X2 y X3, Se registr 6 reportes realizados en el laboratorio para un
posible control de este gas:
P

79, 7 65, 3 52, 7 36, 4 27, 7 18, 5

X1

77

61

56

68

57

87

X2

50

60

67

78

89

98

X3

97

51

52

58

56

57

Ajuste a los datos una curva de regresin lineal mltiple y estime P cuando
X1 es 91, X2 es 80 y X3 es 70

6. Un gerente de obra de una constructora desea optimizar los pagos realizados


en el transporte de concreto premezclado a las diferentes obras de su cargo.
De reportes anteriores, obtuvo, de varios envos, datos de ubicacin (en

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

155

kilmetros), tonelaje de concreto (cargado en los camiones)


transporte (en $). Ello se resume en la siguiente tabla.
Ubicacin
Tonelaje

4
6

6
8

7,7
8

9,6
10

10
9

y gastos en

15,4 24,8
10
12

28
10

Gastos ($) 24
34
40
45
45
50
60
70
6.1 Halle la recta de regresin mltiple de mnimos cuadrados para predecir
los gastos en transporte.
6.2 Si se desea enviar a 25 KM un volumen de 15 toneladas de concreto
premezclado, cul ser el gasto en el transporte?.

Autoevaluacin
1. Se desea predecir el nmero de solicitudes de reembolso de los impuestos
prediales, en una municipalidad, durante los das hbiles del perodo que va
del 1 de marzo al 15 de abril, de modo que se pueda planearse mejor las
necesidades de personal durante dicho periodo. Se ha hecho la hiptesis de
que varios factores pueden ser tiles en la prediccin. Los datos
correspondientes a estos factores y el nmero de solicitudes de reembolso
de aos anteriores son las siguientes:
X1
ndice
econmico

99
106
100
129
179

CIBERTEC

X2
Poblacin dentro
de una milla a la
redonda de la
oficina
10 188
8 566
10 557
10 219
9 662

X3
Ingreso promedio
para la
municipalidad
21 465
22 228
27 665
25 200
26 300

Y
Nmero de
solicitudes de
reembolso, del 1 de
marzo al 15 de abril
2 306
1 266
1 422
1 721
2 544

CARRERAS PROFESIONALES

156

1.1 Encuentre la ecuacin de regresin de mejor ajuste para estos datos.


1.2 Qu porcentaje del total de variacin en el nmero de solicitudes de
reembolso se explica mediante esta ecuacin?
1.3 Para 2003, el ndice econmico es de 169, la poblacin dentro del rea de
1 milla alrededor de la oficina es de 10 212, y el ingreso promedio en la
municipalidad es de $ 26 925. Cuntas solicitudes de reembolso deber
esperarse dar trmite entre el 1 de marzo y el 15 de abril?
2. Se intenta predecir la demanda anual de un cierto producto (DEMAND)
utilizando las siguientes variables independientes:
PRECIO = Precio del producto (en $)
INGRESO= Ingreso del consumidor (en $)
SUB
= Precio del bien sustituto (en $)
(Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo,
la margarina es un buen sustituto de la mantequilla)
Ao
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006

Demanda Precio
($)
40
9
45
8
50
9
55
8
60
7
70
6
65
6
65
8
75
5
75
5
80
5
100
3
90
4
95
3
85
4

Ingreso
($)
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800

Sub
($)
10
14
12
13
11
15
16
17
22
19
20
23
18
24
21

2.1 Encuentre la ecuacin de regresin de mejor ajuste para estos datos.


2.2 Son los signos (+ o -) de los coeficientes de regresin de las variables
independientes como cabe esperar? Explique brevemente la respuesta.
2.3 Establezca e interprete el coeficiente de determinacin mltiple del
problema.
2.4 Establezca e interprete el error estndar de la estimacin para el
problema.
2.5Utilizando la ecuacin de regresin obtenida, qu valor de DEMAND
predecira si el precio de los productos fue de $6, el ingreso del
consumidor de $1 200 y el precio del bien sustituto fue de $17?
3. Antonio est pensando en vender su departamento. Con el fin de decidir
qu precio pedir por l, ha recogido datos de doce ventas recientes.
Registr el precio de las ventas (en miles de dlares), el nmero de pies

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

157

cuadrados de construccin (en cientos de pies), el nmero de cuartos, el


nmero de baos y la antigedad del departamento(en aos).
Precio de
venta
49,65
67,95
81,15
81,60
91,50
95,25
100,35
104,25
112,65
149,70
160,65
232,50

Pies
cuadrados
8,9
9,5
12,6
12,9
19,0
17,6
20,0
20,6
20,5
25,1
22,7
40,8

Dormitorios Baos Antigedad


1
1
2
2
2
1
2
2
1
2
2
3

1,0
1,0
1,5
1,5
1,0
1,0
1,5
1,5
2,0
2,0
2,0
4,0

2
6
11
8
22
17
12
11
9
8
18
12

3.1 Determine la ecuacin de regresin de mejor ajuste para los datos


dados
3.2 Cul es el valor de R2 para esta ecuacin?
3.3
Si el departamento de Antonio tiene 1 800 pies cuadrados (=18,0
cientos de pies cuadrados), un dormitorio, 1,5 baos y seis aos de
antigedad, qu precio de venta podra esperar Antonio?
4 Aceros Arequipa ha estado buscando los factores que influyen en la
cantidad de acero (en millones de toneladas) que es capaz de vender cada
ao. La administracin sospecha que los siguientes son los factores
principales: la tasa anual de inflacin del pas, el precio promedio por
tonelada mediante el cual el acero importado acota los precios (en dlares)
de la compaa, y el nmero de construcciones que se estn planeando
realizar en este ao. Se han recogido los datos correspondientes a los
ltimos siete aos:
Ao

1
999
1
998
1
997
1
996
1
995

CIBERTEC

Y
Millones de
tons.
vendidas
4,2

X1
Tasa de
inflacin

X3
Nmero de
construcciones

3,1

X2
Limitacin
de
importacin
3,10

3,1

3,9

5,00

5,1

4,0

7,5

2,20

5,7

4,7

10,7

4,50

7,1

4,3

15,5

4,35

6,5

6,2

CARRERAS PROFESIONALES

158

1
994
1
993

3,7

13,0

2,60

6,1

3,5

11,0

3,05

5,9

4.1 Determine la ecuacin de regresin de mejor ajuste para los datos.


4.2 Qu porcentaje de la variacin total de la cantidad de acero vendido
(en millones de toneladas) por la compaa cada ao es explicado por
esta ecuacin?
4.3 Cuntas toneladas de acero deber esperar vender la compaa en un
ao, si la tasa de inflacin estimada sera de 7,1; las empresas
constructoras estn planeando construir 6,0 millones de departamentos
y el promedio de limitacin por impuesto al acero importado por
tonelada sera de $3,50?
5 Una lnea area ha efectuado una investigacin sobre sus 15 terminales y
ha obtenido los siguientes datos correspondientes al mes de julio, en los
que se han recogido los siguientes datos:
VENTAS = Recuperacin total basada en el nmero de boletos vendidos
(en miles de dlares)
PROMOC= Cantidad gastada en promover la lnea area en la zona (en
miles de dlares)
COMPET = Nmero de aerolneas competidoras en ese aeropuerto.
GRATIS = porcentaje de pasajeros que vuelan gratis (por alguna razn)
Venta
79,3
200,1
163,2
200
146,0
177,7
30,9
291,9
160,0
339,4
159,6
86,3
237,5
107,2
155,0

Promoc
2,5
5,5
6,0
7,9
5,2
7,6
2,0
9,0
4,0
9,6
5,5
3,0
6,0
5,0
3,5

Compet
10
8
12
7
8
12
12
5
8
5
11
12
6
10
10

Gratis
3
6
9
16
15
9
8
10
4
16
7
6
10
4
4

5.1 Determine la ecuacin de regresin de mejor ajuste para la aerolnea


5.2 Los pasajeros que vuelan gratis ocasionan que las ventas bajen
significativamente? Establezca y pruebe las hiptesis apropiadas. Use
=0,10.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

159

5.3 D un intervalo de confianza de 90% para el coeficiente de la pendiente


de COMPET.
6 El doctor Javier L. registr los datos correspondientes a edad, reaccin a la
penicilina y presin sangunea sistlica de 30 pacientes. Tom la presin
sangunea como la variable dependiente, la edad como X1 (variable
independiente) y la reaccin a la penicilina como X2 (variable
independiente). Haciendo 0 represente una reaccin positiva a la penicilina
y 1 una reaccin negativa, hizo correr el procedimiento de regresin
mltiple. La ecuacin de prediccin es:
Y = 6,7 + 3,5 X 1 + 0,489 X 2

6.1 Despus de haber hecho la regresin, el doctor descubri que en


realidad quera codificar una reaccin positiva a la penicilina como =1 y la
negativa como 0. Tiene que volver a realizar la regresin? Si es s, por
qu? Si no, d la ecuacin que debi haber obtenido si la variable
hubiera sido codificada de la manera que se haba planeado inicialmente.
6.2 Si Sb2 tiene un valor de 0,09, esta regresin proporciona evidencia a
un nivel de significancia de 0,05 de que la reaccin a la penicilina es una
variable explicativa significativa de la presin sangunea?
7 Una popular cadena de comida rpida, recientemente, ha experimentado un
marcado cambio en sus ventas, como consecuencia de una campaa
publicitaria bastante exitosa. Como resultado de lo anterior, la
administracin de la cadena est buscando un nuevo modelo de regresin
para sus ventas. Los datos siguientes fueron recolectados durante un
periodo de doce semanas desde el inicio de la campaa publicitaria.

tiempo
1
2
3
4
5
6

Ventas
(miles de
dlares)
4 618
311
7 119
4 367
5 118
8 887

tiempo
7
8
9
10
11
12

Ventas
(miles de
dlares)
19746
34215
50306
65717
86434
105464

7.1 Ajuste un modelo lineal con TIEMPO como variable independiente y


VENTAS como variable dependiente.
7.2 Est usted satisfecho con el modelo construido en a) como predictor
de VENTAS? Explique su respuesta.
7.3 Ajuste un modelo cuadrtico para los datos. Este modelo es mejor?
Explique su respuesta.
8 Un profesor de estadstica ha recolectado un conjunto de 20 pares de
puntos de datos. A la variable independiente la llam X1 y a la variable
dependiente Y. Llev a cabo una regresin de Y sobre X1, y no qued
CIBERTEC

CARRERAS PROFESIONALES

160

satisfecho con el resultado. Debido a algunos patrones no aleatorios que


observ en los residuos, decidi elevar al cuadrado los valores de X1;
design como X2 a estos valores al cuadrado. El profesor, entonces, corri
el procedimiento de regresin mltiple de Y sobre X1 y X2. La ecuacin
resultante fue la siguiente:
Y = 200,4 + 2,79 X 1 3,92 X 2
El valor de Sb1 fue de 3,245 y el de Sb2 fue de 1,53. A un nivel de
significancia de 0,05, determine si
8.1 El conjunto de valores lineales de X1 es una variable explicativa
significativa para Y.
8.2 El conjunto de valores al cuadrado de X1 es una variable explicativa
significativa para Y.

9 A continuacin se presentan algunos datos sobre gastos de consumo,


CONSUMO; ingreso disponible, INGRESO; y sexo del jefe o de la jefa de
familia, SEXO; de n=12 familias escogidas aleatoriamente. La variable
GNERO ha sido codificada de la siguiente manera:

GNERO

1 si SEXO = " M " ( masculino )


=
0 si SEXO = " F " ( femenino )

Consumo Ingreso($) Sexo Gnero


18535
22550
M
1
11350
14035
M
1
12130
13040
F
0
15210
17500
M
1
8680
9430
F
0
16760
20635
M
1
13480
16470
M
1
9680
10720
F
0
17840
22350
M
1
11180
12200
F
0
14320
16810
F
0
19860
23000
M
1
9.1 Ajuste un modelo de regresin para predecir CONSUMO a partir de
INGRESO y de GNERO.
9.2 Establezca la ecuacin de regresin ajustada.
9.3 Si el ingreso disponible se mantiene constante, existe una diferencia
significativa en el consumo entre familias cuyo jefe es hombre, contra
aquellas familias cuyo jefe es mujer? Establezca explcitamente las
hiptesis, prubelas al nivel de significancia de 0,10 y establezca una
conclusin explcita.
9.4 D un intervalo de confianza aproximado de 95% para el consumo de
una familia con ingreso disponible de $ 23 000 y encabezada por un
hombre.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

161

10 La Unidad de Medicin de la Calidad (UMC) est examinando la relacin


existente entre el resultado de un empleado en una prueba de aptitudes, su
experiencia previa de trabajo y su xito en el empleo. Se hace un estudio y
se pondera la experiencia de un empleado en trabajos anteriores, y se
obtiene un ndice entre 2 y 12. La medida del xito en el empleo est
basada en un sistema de puntuacin que implica produccin total y
eficiencia, con un valor mximo posible de 50. Se tom una muestra de seis
empleados con menos de un ao de antigedad y se obtuvo lo siguiente:
X1
X2
Y
Resultado de la prueba
Experiencia en
Evaluacin del
sobre aptitudes
desempeo
Trabajos anteriores
74
5
28
87
11
33
69
4
21
93
9
40
81
7
38
97
10
46
10.1Desarrolle la ecuacin de estimacin que mejor describa estos datos.
10.2Si un empleado obtuvo 83 puntos en la prueba de aptitudes y tena una
experiencia en trabajos anteriores de 7, qu evaluacin de desempeo
se podra esperar?
11 El Banco de Lima desea abrir nuevas cuentas de cheques para clientes que
emitirn al menos 30 cheques al mes. Para ayudarse en la seleccin de los
nuevos clientes, el banco ha estudiado la relacin existente entre el nmero
de cheques expedidos, y la edad y el ingreso anual de ocho de sus clientes
actuales. La variable EDAD fue registrada con respecto al ao ms reciente
y la variable INGRESO anual fue registrada en miles de dlares. Los datos
se presentan a continuacin:
Cheques Edad Ingreso
29
37
16,2
42
34
25,4
9
48
12,4
56
38
25,0
2
43
8,0
10
25
18,3
48
33
24,1
4
45
7,9
11.1
Desarrolle una ecuacin de estimacin que utilice las variables
edad e ingreso para predecir el nmero de cheques emitidos por mes.
11.2Cuntos cheques al mes se esperara que emitiera un cliente de 35
aos de edad con ingreso anual de $22500?
12 Ciro Taipe est considerando cambiarse a otra parte de la ciudad y le
gustara predecir el precio de venta de su casa. Ha decidido utilizar la
CIBERTEC

CARRERAS PROFESIONALES

162

variable VALORIMP (en miles de dlares) y ESQUINA (= 1 para lotes


situados en esquina y 0 en cualquier otro caso) como variables explicativas.
Para ajustar su modelo, ha recolectado los datos, que se presentan a
continuacin, concernientes a nueve ventas escogidas aleatoriamente, en la
que la variable PRECIO se midi en miles de dlares. Ha decidido utilizar
VALORIMP (VALORIMP)2 y ESQUINA como variables explicatorias, debido
a que piensa que existe una relacin cuadrtica.
Precio VALORIMP IMPES = (VALORIMP)2 Esquina
56,2
17,5
306,25
1
42,5
12,5
156,25
1
67,5
20,0
400,00
1
39,0
11,5
132,25
1
33,3
12,5
156,25
0
29,0
10,0
100,00
0
30,0
10,8
116,64
0
48,0
17,0
289,00
0
44,3
16,0
256,00
0

12.1 Calcule la ecuacin de regresin de mejor ajuste para estos datos.


12.2 Qu fraccin de la variacin en PRECIO se explica con esta
ecuacin?
12.3 D un intervalo de confianza de 90% para el aumento de precio de
venta atribuible a tener un lote en esquina.
12.4 Fue buena idea incluir la variable (VALORIMP)2 en la regresin?
Explique su respuesta.

Para recordar


Se deben diferencias la variable dependiente de las variables


independientes.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

163

SEMANA

13
CORRELACIN
CORRELACIN ENTRE DOS VARIABLES
TEMAS

Correlacin entre dos variables, dependiente e independiente


Coeficiente de correlacin lineal (frmula de Pearson)

OBJETIVOS ESPECFICOS

Determinar los coeficientes de correlacin para un conjunto de datos


Determinar cuantitativamente el grado de asociacin entre las variables

CONTENIDOS

Anlisis de correlacin
Correlacin entre dos variables, dependiente e independiente
Coeficiente de correlacin lineal (frmula de Pearson)

ACTIVIDADES


Analizan los alcances de la regresin Simple, las ventajas y desventajas


que presenta para realizar pronsticos
Determinan cuantitativamente el grado de asociacin entre dos variables

CIBERTEC

CARRERAS PROFESIONALES

164

CORRELACIN ENTRE DOS VARIABLES


Anlisis de Correlacin
El anlisis de correlacin es un grupo de tcnicas estadsticas que permiten
medir la intensidad de la relacin que puede existir entre dos variables. Ayuda
a concluir si es que estn fuertemente relacionadas o no.
El objetivo es determinar que tan intensa es la relacin. Para ello, se utiliza
para ello el coeficiente de correlacin (r). El valor de este coeficiente est
comprendido entre 1 y 1. Si el valor de r tiende o est cerca de 1 se dir que
la relacin entre las variables en cuestin es bastante intensa y adems
directa; en cambio, si el valor es cercano a 1 la relacin tambin es muy
intensa pero inversa. Por otra parte, si el valor de r se acerca a cero se puede
afirmar que no existe ninguna correlacin.
El valor de la correlacin se calcula a travs de la siguiente frmula:

r=

n x y x y

n x 2 ( x )

r=

n y 2 ( y )

Sx y
Sx S y

ACTIVIDADES
1. Un estudiante del cuarto ciclo de la carrera de gestin y sistemas elabora un
estudio de compaas que se estn dando a conocer. Tiene curiosidad por
ver si existe o no relacin significativa entre el tamao de la oferta (en
millones de dlares) y el precio por accin.
Tamao 108,00 4,40 3,50 3,60 39,00 68,40 7,50 5,50 375,00 12,20 4,40
Precio

12,0

4,0

5,0

5,0

13,0

19,0

8,5

5,0

15,0

6,0

1.1 Desarrolle la ecuacin de estimacin lineal.


1.2 Calcule el coeficiente de determinacin de la muestra.
1.3 Debera usar esta ecuacin de regresin con propsitos predictivos?

CARRERAS PROFESIONALES

CIBERTEC

12,0

ESTADISTICA II

165

2. La compaa electrnica CEPER est iniciando pruebas de mercadeo, de su


nuevo producto (detector de radar operado por bateras). Sus laboratorios
de control han realizado pruebas limitadas en las unidades y han recabado
los siguientes datos:
VIDA APROXIMADA (MESES)
Horas de uso
diario
2,0
1,5
1,0
0,5
1,8

Litio

Alcalina

3.1
4.2
5.1
6.3
8.1

1.3
1.6
1.8
2.2
3.1

2.1 Desarrolle la ecuacin de estimacin lineal para predecir la vida del


producto basndose en el uso diario con bateras de litio y una para
bateras alcalinas.
2.2 Calcule el coeficiente de correlacin de la muestra para ambos tipos de
batera
2.3 Debera usar alguna ecuacin de regresin con propsitos predictivos?

3. Se ha propuesto un estudio para investigar la relacin entre el peso Kg. al


nacer de bebs varones y su peso kg. de adultos. Use los siguientes datos:
Peso al nacer 3.52 2.95 3.90 4.20 3.85 2.85 3.05 2.95 3.80
Peso de adulto 72.5 85.3 94.2 78.4 65.4 80.4 74.5 60.3 90.5
3.1 Desarrolle la ecuacin de estimacin de mnimos cuadrados.
3.2 Qu porcentaje de la variacin en peso de adulto es explicado por la
lnea de regresin?
3.3 Debera usarse esta ecuacin de regresin con propsitos predictivos?

CIBERTEC

CARRERAS PROFESIONALES

166

4. Un estudio de Mercado trata de averiguar si es efectiva la propaganda


televisada de un producto que sali a la venta con relacin al tiempo de
publicidad (en minutos/semana). Se recopilaron datos a partir de la
segunda semana de iniciada la publicidad resultando el cuadro que sigue.
Semana
Tiempo de propaganda
(minutos/semana)
Venta del producto ( miles $)

35

52

62

68

76

80

30

120

180

100

310

200

4.1 Halle la ecuacin de regresin de mnimos cuadrados lLineal para


predecir las ventas semanales.
4.2 Debera usarse esta ecuacin de regresin con propsitos predictivos?

.
5. Debido a la demanda de sus publicaciones y del fuerte incremento de la
competencia desleal e informal, la editorial Vinces Vives ha tomado la
decisin de preparar algunos libros de uso popular en la educacin primaria.
Teniendo como nico parmetro la cantidad de pginas de dicho libro. Se
toma una muestra de siete (07) de ellos, y se anota el precio de venta que
debera tener por la cantidad de pginas que tendra dicho libro. En la
siguiente tabla, se recopilan dichos datos.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Precio
12.00
($)
# Pg. 175

167

12.50

13.80

15.40

17.50

18.00

20.00

140

280

320

280

360

300

5.1 Determine la ecuacin de regresin lineal y el coeficiente de correlacin


entre el precio y el nmero de pginas.
5.2 Debera usarse esta ecuacin de regresin con propsitos predictivos?

6. Un estudio efectuado por la direccin de transporte de Lima Metropolitana


sobre el efecto de los precios de los boletos de autobuses (en cntimos de
nuevo sol) que tienen, con respecto al nmero de pasajeros (por cada 100
kilmetros de recorrido) en diferentes zonas (distritos) de la capital, produjo
los siguientes resultados:
PRECIO DEL BOLETO
TOTAL DE
PASAJEROS

15

20

25

30

35

40

45

50

55

430 330 400 270 180 340 220 180 280

6.1 Desarrolle la ecuacin de regresin lineal simple correspondiente al


conjunto de datos
6.2 Debera usarse esta ecuacin de regresin con propsitos predictivos?
6.2 Si es posible, determine el nmero de pasajeros por cada100 kilmetros,
si el precio del boleto fuera de 65 cntimos de nuevo sol.

CIBERTEC

CARRERAS PROFESIONALES

168

7. Una aplicacin importante del anlisis de regresin en contabilidad es para


estimar costos. Al reunir datos sobre volumen y costo, y aplicar el mtodo
de cuadrados mnimos para formar una ecuacin de regresin donde se
relacionen el volumen y el costo, un contador puede estimar el costo
asociado con determinada operacin de manufactura. Se obtuvo la siguiente
muestra de volmenes de produccin y costo total para una operacin de
manufactura.
Volumen
(unidades)

de
400
450
550
600
700
750

produccin Costo
total
(s/.)
4 000
5 000
5 400
5 900
6 400
7 000

7.1 Use estos datos para deducir una ecuacin de regresin con la que se
pueda predecir el costo total para determinado volumen de produccin.
7.2 Cul es el costo variable, o costo adicional, por unidad producida?
7.3 Calcule el coeficiente de determinacin. Qu porcentaje de la
variacin en el costo total puede explicar el volumen de produccin?
7.4 El programa de produccin de la empresa indica que el mes prximo
se deben producir 500 unidades. Cul ser el costo total estimado
para esta operacin?

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

169

Autoevaluacin
1. En finanzas, es de inters ver la relacin entre Y, devolucin promedio de
acciones, y X, la devolucin global del mercado. El coeficiente de pendiente
calculado por la regresin lineal es denominada la beta de las acciones por
los analistas de inversiones. Una beta mayor que 1 indica que las acciones
son relativamente sensibles a cambios de mercado, mientras que una beta
menor que 1 indica que las acciones son relativamente insensibles. Para los
datos siguientes, calcule la beta y pruebe si esta es significativamente
menor que1. Use = 0,05.
Y (%)
X (%)

10
11

12
15

8
3

15
18

9
10

11
12

8
6

10
7

13
18

11
13

2. En un problema de regresin con un tamao de muestra de 17, se encontr


que la pendiente era 3,73 y que el error estndar de la estimacin era

( X

n X = 871,56 .
2.1 Encuentre el error estndar del coeficiente de pendiente de regresin.
2.2 Construya un intervalo de confianza de 98% para la pendiente de
poblacin. Interprete el intervalo de confianza.
28,654. La cantidad

3 Las Inmobiliarias a menudo estn interesadas en ver cmo el valor de una


casa vara de acuerdo con su tamao. A continuacin se muestran alguno
de los datos del rea (en miles de pies cuadrados) y valor tasado (en miles
de dlares para una muestra de 11 casas.
rea
(mile
s
pies
)
Valor
(mile
s de
dlar
es)

1,1

1,5

1,6

1,6

1,4

1,3

1,1

1,7

1,9

1,5

1,3

75

95

110

102

95

87

82

115

122

98

90

3.1
Estime la regresin de mnimos cuadrados para predecir el valor
tasado a partir del tamao.
3.2
Generalmente, las inmobiliarias sienten que el valor de una casa
sube 50 mil dlares por cada 1 000 pies cuadrados de reas. Para esta
muestra, se cumple esta relacin?
4 En 1 999, una agencia gubernamental de salud encontr que, en cierto
nmero de distritos, la relacin de fumadores y muertes, por enfermedades
del corazn para 10 000 pobladores, tena una pendiente de 0,08. Un
estudio reciente en 18 distritos produjo una pendiente de 0,147 y un error
estndar del coeficiente de pendiente de regresin de 0,032.

CIBERTEC

CARRERAS PROFESIONALES

170

4.1 Construya una estimacin de intervalo de confianza de 90% de la


pendiente de la verdadera lnea de regresin. El resultado de este
estudio indica que la verdadera pendiente ha cambiado?
4.2 Construya una estimacin de intercalo de confianza de 99% de la
pendiente de la verdadera lnea de regresin. Indica el resultado de
este estudio que la verdadera pendiente ha cambiado?
5 Los registros de una universidad presentan datos sobre la probabilidad de
una auditoa por parte de la SUNAT. La siguiente tabla muestra los ingresos
brutos promedio informados y el porcentaje de las declaraciones de
impuestos que fueron auditadas en
20 distritos seleccionados de
recaudacin de impuestos.
Distrito

Ingresos
ajustados
La Molina
36 664
La Victoria
38 845
Ate
34 886
Brea
32 512
Pueblo Libre
34 531
Jess Mara
35 995
Magdalena
37 799
Surco
33 876
Comas
30 513
San juan de Miraflores
30 174
San
jun
de
30 060
Lurigancho
Chosica
37 153
Miraflores
34 918
Barranco
33 291
San Isidro
31 504
Rmac
29 199
Los Olivos
33072
Ancn
30 859
Independencia
32 566
San Borja
34 296

brutos Porcentaje
auditado
1,3
1,1
1,1
1,1
1,0
1,0
0,9
0,9
0,9
0,9
0,8
0,8
0,7
0,7
0,7
0,6
0,6
0,5
0,5
0,5

5.1 Desarrolle la ecuacin estimada de regresin que se pueda usar para


predecir el porcentaje auditado proporcionando el promedio del ingreso
bruto ajustado reportado.
5.2 Al nivel de significancia de 0,05, determine si estn relacionados el
ingreso bruto ajustado y el porcentaje auditado.
5.3 Proporciona un buen ajuste la ecuacin estimada de regresin?
Explique.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

171

5.4 Emplee la ecuacin estimada de regresin desarrollada en el inciso a


para calcular el estimado de un intervalo de confianza de 95% del
porcentaje esperado auditado para los distritos con un promedio del
ingreso bruto ajustado de s/. 35 000.
6 La compaa de telfonos siempre ha asumido que el nmero promedio de
llamadas diarias asciende a 1,5 por cada persona adicional en una casa. Se
ha sugerido que la gente conversa ms de lo que esto refleja. Se tom una
muestra de 64 casas y se calcul que la pendiente de regresin de Y
(nmero promedio de llamadas diarias) sobre X (tamao de la casa) era de
1,8 con un error estndar del coeficiente de pendiente de regresin de 0,2.
Pruebe si se hacen significativamente ms llamadas por persona adicional
de lo que la compaa de telfonos asume, utilizando = 0,05. Establezca la
hiptesis y la conclusin explcitas.
7 Los funcionarios universitarios responsables de la admisin,
constantemente buscan variables con las cuales predecir los promedios de
puntos de nivel de los aspirantes. Una variable comnmente usada es el
promedio de puntos del nivel del bachillerato. Para una universidad, los
datos anteriores indicaban que la pendiente era 0,85. Un pequeo estudio
reciente de 20 estudiantes encontr que la pendiente era 0,70 y que el error

estndar de la estimacin era 0,60. La cantidad X 2 n X era igual a


0,25. Al nivel de significancia de 0,01, debera concluir la universidad que
la pendiente ha cambiado?
2

8. Los economistas con frecuencia estn interesados en estimar funciones de


consumo. Esto se efecta mediante la regresin del consumo Y sobre el
ingreso X. (Para esta regresin, los economistas llaman a la pendiente la
progresin marginal al consumo.) Para una muestra de 25 familias, se
calcul una pendiente de 0,87 y un error estndar del coeficiente de
pendiente de regresin de 0, 035. Para esta muestra, la propensin
marginal a consumir disminuy por debajo del estndar de 0,94? Utilice =
0,05. Establezca explcitamente las hiptesis y una conclusin.

Para recordar



CIBERTEC

El coeficiente de Pearson define el grado de asociacin entre la variable


independiente y dependiente
Si el coeficiente de Pearson es pequeo entonces no tendr sentido
encontrar la ecuacin de regresin para predecir valores a futuro.

CARRERAS PROFESIONALES

172

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

173

SEMANA

14
CORRELACIN ENTRE DOS VARIABLES
TEMAS

Coeficiente de correlacin generalizado (coeficiente de determinacin)


Coeficiente de correlacin de rango (frmula de Spearman)

OBJETIVOS ESPECFICOS

Determinar cuantitativamente el grado de asociacin entre las variables

CONTENIDOS

Coeficiente de Determinacin
Error de estimacin
Pendiente de una recta de poblacin
Coeficiente de correlacin de rango (frmula de Spearman)

ACTIVIDADES

Identifican las variables independiente, dependiente


Analizan los grados de asociacin entre las variables para su prediccin

CIBERTEC

CARRERAS PROFESIONALES

174

CORRELACIN ENTRE DOS VARIABLES


Una vez establecido el modelo habra que preguntarse: Qu tan confiables
son las predicciones que se hagan a travs del modelo? Para ello, es
fundamental calcular el coeficiente de determinacin (r2). Dicho coeficiente
indica el porcentaje en que la variacin de la variable dependiente es
explicada por la variable independiente. Los valores de este coeficiente se
encuentran comprendidos entre 0 y 1 y, mientras ms cercano de encuentre de
1, el modelo ser ms confiable. El coeficiente de determinacin se calcula de
las siguientes maneras:
r =
2

a y + b x y n y

ny

S 2x y
r = 2 2
Sx S y
2

Para medir la confiabilidad de una ecuacin de estimacin, se usa el error


estndar de estimacin (Se) y es similar a la desviacin estndar que mide el
grado de conjuntos observados respecto a la media. El error de estimacin,
por otra parte mide el grado de variabilidad, o dispersin de los valores
observados alrededor de la lnea de regresin.
Se =

Se =

a y b x y
n2

y
y

n2

Donde:
y = Es el valor de la variable independiente.

y = Valores estimados de la ecuacin de estimacin correspondiente.


n = El nmero de puntos de datos utilizados.
Como se aplica en el error estndar, mientras ms grande sea el error estndar
de estimacin, mayor ser la dispersin de los puntos alrededor de la lnea de
regresin.

Pendiente de la Lnea de Regresin de la Poblacin


La lnea de regresin se deriva de una muestra y no de una poblacin entera.
Como resultado no se puede esperar que la ecuacin de regresin, Y = A + BX
(aquella para la poblacin), sea exactamente la misma que la estimada a partir

de las observaciones de la muestra y = a + b x .


Para encontrar la estadstica de prueba de B (pendiente de la lnea de
regresin para toda la poblacin), es necesario primero encontrar el error
estndar del coeficiente de regresin Sb

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

175

Sb =

Se

nx

Donde:
Sb = error estndar del coeficiente de regresin
Se = error estndar de estimacin
x = valor de la variable independiente
x = la media de los valores de la variable independiente
Para realizar una prueba de hiptesis respecto a B, se define:
H o : B = Bo
H 1 : B Bo
Para estandarizar la pendiente de la ecuacin de regresin.
b Bo
t=
Sb
b = la pendiente de regresin ajustada
Bo =la pendiente real hipottica para la poblacin
Sb = error estndar del coeficiente de regresin
Puesto que la prueba se basa en una distribucin t student con (n-2) grados de
libertad, usamos t para denotar la estadstica estandarizada.
EL COEFICIENTE DE CORRELACIN DE RANGO
Con la nocin del coeficiente de correlacin, se concluy una medida de la
cercana de asociacin entre dos variables. Con frecuencia, en el anlisis de
correlacin, la informacin no est siempre disponible en forma de valores
numricos. Pero si se puede asignar clasificaciones a los elementos de cada
una de las dos variables que se estn estudiando, entonces puede calcularse
un coeficiente de correlacin de rango. sta es una medida de la correlacin
que existe entre los dos conjuntos de rangos, una medida del grado de
asociacin entre las variables que no podramos calcular de otra manera.
Una segunda razn para aprender el mtodo de correlacin de rango es la
posibilidad de simplificar el proceso de clculo de un coeficiente de correlacin
a partir de un conjunto de datos muy grande para cada una de las dos
variables. Esta medicin se le conoce como el coeficiente de correlacin de
rango de Spearman, en honor al estadstico que lo desarroll a principios de
siglo pasado.

rs = 1

6 d

n n2 1

rs = coeficiente de correlacin de rango


n = nmero de observaciones apareadas
d = diferencia entre rangos para cada pareja de observaciones
Si el valor del coeficiente de rangos es +1 o -1, significa que existe una asociacin
perfecta entre las dos variables.

CIBERTEC

CARRERAS PROFESIONALES

176

ACTIVIDADES
1. Los datos siguientes son los sueldos mensuales, y promedios de
calificaciones x para estudiantes que obtuvieron su licenciatura en
administracin, con especializacin en sistemas de informacin.
Calificacin
2,6
3,4
3,6
3,2
3,5
2,9

Sueldo mensual ( s/.)


2 800
3 100
3 500
3 000
3 400
3 100

1.1 Calcule el coeficiente de determinacin r2.


1.2 Cul es el valor del coeficiente de correlacin para la muestra?

2. En un laboratorio mdico, se estima la cantidad de protena en muestras de


hgado empleando un modelo de regresin. En un espectrmetro se emite luz
que pasa por una sustancia que contiene la muestra, y la cantidad de luz
absorbida se emplea para estimar la cantidad de protena. Diariamente, se
forma una nueva ecuacin de regresin, porque las cantidades de colorante
son distintas. En un da, se obtuvieron las indicaciones de absorbencia de la
tabla, usando concentraciones conocidas de protena.
Absorbencia ( Miligramos de protena (
xi)
yi)
0,509
0
0,756
20
1,020
40
1,400
80
1,570
100
1,790
127

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

177

2.1 Con estos datos, forme una ecuacin de regresin que relacione la
indicacin de absorbencia de luz con los miligramos de protena de la
muestra.
2.2 Calcule r2. Se sentira cmodo con este modelo de regresin, al estimar la
cantidad de protena de una muestra?
2.3 En una muestra que se acaba de recibir, la indicacin de absorbencia fue
de 0,941. Estime la cantidad de protena en esa muestra.

3. Las siguientes son clasificaciones de acometividad (X) y cantidad de ventas


en el ltimo ao (Y) de ocho vendedores. Existe una correlacin significativa
entre las dos mediciones? Utilice el nivel de significancia de 0.10.
X
Y

30
35

17
31

35
43

28
46

42
50

25
32

19
33

29
42

4. Un supervisor de planta clasific una muestra de ocho trabajadores segn el


nmero de horas extras trabajadas y la antigedad en el empleo. La
correlacin de rango entre las dos mediciones es significativa al nivel de
0.01?

CIBERTEC

CARRERAS PROFESIONALES

178

Cantidad de horas 5.0


extra
Aos de empleo
1.0

5.

8.0

2.0

4.0

3.0

7.0

1.0

6.0

6.0

4.5

2.0

7.0

8.0

4.5

3.0

La mayora de las personas cree que la experiencia gerencia produce


mejores relaciones interpersonales entre un gerente y sus empleados. La
Corporacin ATT tiene los siguientes datos que equiparan los aos de
experiencia por parte del gerente con el nmero de quejas archivados, el
ao pasado, por los empleados que reportaban con el gerente. Al nivel de
significancia de 0.05, la correlacin de rango entre estos dos factores
sugiere que la experiencia mejora las relaciones?
Edad del gerente
Nmero de quejas

32
5

43
2

42
2

29
4

56
3

62
2

45
4

39
5

40
4

35
6

6. Seguros Plan ha confinado sus estudios a la industria qumica sinttica, por


ello se desea realizar unos estudios de la relacin de gastos para la
seguridad en plantas y la tasa de accidentes en ellas. Para ajustar el
tamao diferencial que exista entre algunas de las plantas, Seguros Plan
convirti sus datos en gastos (en dlares) por empleado de produccin. Los
siguientes son los resultados:

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Compaa
Gastos
Accidentes

179

A
60
5

B
37
7

C
30
6

D
20
9

E
24
7

F
42
4

G
39
8

H
54
2

I
48
4

J
58
3

K
26
8

Existe una correlacin significativa entre los gastos y los accidentes en las
plantas de las compaas qumicas? Use una correlacin de rango (en la que 1
represente el mayor gasto y tasa de accidentes) para respaldar su conclusin.
Pruebe al nivel de significancia de 1 %.

Autoevaluacin
1. El granjerito trat de determinar la relacin entre el porcentaje de
metionina que se agrega al alimento y el peso corporal de pollos. Con los
datos obtenidos se aplic el anlisis de regresin y se determin la siguiente
lnea de regresin:
y = 0,21 + 0,42 x

En donde:
y = peso corporal estimado en kilogramos
X = porcentaje de metionina adicional en el alimento
El coeficiente de determinacin, r2, fue 78, lo que indica que el ajuste fue
razonablemente bueno para los datos. Suponga que se us una muestra de

tamao 30 para el estudio, y y y = 45 . Calcule y y .

2. A los directores y principales ejecutivos se les paga de acuerdo con las


ganancias obtenidas por las empresas? La siguiente tabla muestra una lista
de datos corporativos sobre el cambio porcentual en el rendimiento de las
acciones durante un periodo de dos aos, y el cambio porcentual en la
paga a los directores y principales ejecutivos, inmediatamente despus de 2
aos.

CIBERTEC

CARRERAS PROFESIONALES

180

Empresa
ASAKA
WONG
MICMAS
TODOS
TECHO
PATIO
PPKSA

Cambio bianual en el Cambio en el pago


rendimiento (%)
ejecutivo (%)
201,3
18
146,5
28
76,7
10
158,2
28
-34,9
15
73,2
-9
-7,9
-20

2.1 Forme la ecuacin de regresin con el cambio porcentual bianual de


rendimiento de las acciones como variable independiente.
2.2 Calcule r2. Se sentir cmodo al usar el cambio porcentual bianual de
rendimiento de las acciones para predecir el cambio porcentual en el
sueldo de los principales ejecutivos? Comente sus razones.
2.3 Cul es el coeficiente de correlacin? Refleja una relacin intensa o
dbil entre el rendimiento y la compensacin a ejecutivos?
3. La revista Etiqueta Negra inform que la beta de mercado para Backus es
1,25. Las betas de mercado para acciones individuales se determinan con
regresin lineal simple. Para cada accin, la variable dependiente es el
rendimiento trimestral porcentual (reevaluacin del capital ms dividendos)
menos el rendimiento porcentual que se podra obtener con una inversin
libre de riesgos (la tasa de Bonos de la Tesorera se usa como tasa libre de
riesgo). La variable independiente es el rendimiento trimestral porcentual
(reevaluacin del capital ms dividendos) para el mercado de acciones
(S&P 500) menos el rendimiento porcentual de una inversin libre de
riesgos. Con los datos trimestrales se determina una ecuacin; la beta de
mercado para la accin es la pendiente de la ecuacin estimada de
regresin (b1), y su valor se interpreta con frecuencia, como medida del
riesgo asociado con esas acciones. Las betas del mercado mayores que
uno indican que la accin es ms voltil que el promedio del mercado. En la
tabla siguiente se presentan las diferencias entre el rendimiento porcentual y
el rendimiento libre de riesgo de 10 trimestres de las empresas Backus y
Brahama.
Backus
Brahama

1,2
-0,7

-2,5
-2,0

-3,0
-5,5

2,0
4,7

5,0
1,8

1,2
4,1

3,0
2,6

-1,0
2,0

0,5
-1,3

2,5
5,5

3.1 Determine la ecuacin de regresin para calcular la beta de mercado


Cul es la beta de mercado de Brahama?
3.2 Calcule r2. Se sentira cmodo con este modelo de regresin.
3.3 Tuvo buen ajuste la ecuacin estimada de regresin? Explique su
respuesta.
4. Un profesor de mercadotecnia se interesa en la relacin entre las horas de
estudio y los puntos totales obtenidos en su curso. A continuacin, se
observa los datos reunidos con 10 alumnos que acaban de tomar el curso.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

181

Horas de estudio
45 30 90 60 105 65 90 80 55 75
Total
de
puntos 40 35 75 65 90 50 90 80 45 65
obtenidos
4.1 Forme una ecuacin de regresin que muestre cmo se relaciona el
total de puntos obtenidos con las horas de estudio.
4.2 Cul es el coeficiente de correlacin?
4.3 Prediga los puntos totales que obtendr Karina Lpez. Pas 95 horas
estudiando.
5. Dos profesores de una escuela de comercio discutan sobre lo difcil que es
predecir el xito de los graduados basndose solamente en las
calificaciones. Un profesor pensaba que el nmero de aos de experiencia
que los maestros en administracin de empresas tuvieran antes de regresar
por sus post grados era probablemente el mejor preeditor. Usando los
siguientes datos, al nivel de significancia de 0.02, qu correlacin de rango
es un mejor preeditor de xito profesional?
Aos de experiencia
Promedio de
calificaciones
Rango de xito (10 =
tope)

3.4 3.2 3.5 2.9 3.4 3.9 3.6 3.0 2.5 3.0
4

10

6. La Empresa Carolina tiene dos encuestadores entrenados para reclutar


aprendices gerenciales para nuevos mercados de ventas. Aunque cada uno
de los encuestadores tiene su propio estilo, se considera que ambos son
buenos jueces preliminares del potencial gerencial. La gerente de personal
se preguntaba qu tanto coincidiran los encuestadores, as que hizo que
ambos evaluaran independientemente a 14 solicitantes. Clasificaron a los
solicitantes en trminos de su grado de contribucin potencial a la compaa.
Los resultados se presentan en la tabla. Use la correlacin de rango y un
nivel de significancia de 2% para determinar si existe una correlacin positiva
significativa entre las dos clasificaciones de los encuestadores.
Solicitante
Encuestador 1

1 2 3 4 5 6 7 8 9 10 11 12 13 1.4
1 11 13 2 12 10 3 4 14 5 6 9 7
8

Encuestador 2

4 12 11 2 14 10 1 3 13

7. Una supervisora de un proceso de ensamblaje de cmaras litogrficas,


siente que mientras ms tiempo trabaja junto a un grupo de empleados,
mayor es la tasa de produccin diaria. Ha recibido los siguientes datos para
un grupo de empleados que trabajan juntos durante 10 das.
Produccin diaria
Das trabajados
conjuntamente

CIBERTEC

7.2 5.5 6.2 8.3 5.2 2.0 3.0 0.5 9.0 6.0
1

10

CARRERAS PROFESIONALES

182

Puede concluir Nancy a un nivel de significancia de 5%, que no existe


correlacin entre el nmero de das trabajados conjuntamente y la produccin
diaria?
9. Una compaa electrnica que recluta muchos ingenieros se pregunta si el
costo de los esfuerzos extensivos de reclutamiento vale la pena. Si la
compaa pudiera confiar (usando un nivel de significancia de 1 %) en que la
correlacin de rango de poblacin entre el currculum individual de los
solicitantes clasificados por el departamento de personal y las calificaciones
de las entrevistas es positiva, se sentira justificado en descontinuar las
entrevistas y basarse en las calificaciones por currculum en la contratacin.
La compaa ha extrado una muestra de 35 solicitantes en los ltimos dos
aos. Sobre la base de la muestra anterior, debera la compaa
descontinuar las entrevistas y usar las calificaciones del currculum individual
para contratar?
Individual
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

CARRERAS PROFESIONALES

Calificacin de
entrevista
81
88
55
83
78
93
65
87
95
76
60
85
93
66
90
69
87
68
81
84
82
90
63
78
73
79
72
95
81
87

Calificacin de
currculum
113
88
76
111
121
83
129
99
142
93
136
82
91
83
96
126
108
95
65
96
101
79
71
108
68
11
109
121
140
132

CIBERTEC

ESTADISTICA II

183

31
32
33
34
35

93
85
91
94
94

135
143
118
147
138

10. Los siguientes son los salarios y datos de edad de los 10 candidatos a
doctorado que se gradan este ao de la Escuela de Doctorado en
Contabilidad de la Universidad Peruana de Ciencias. Al nivel de significancia
de 0.05, la correlacin de rango de edad y salario sugiere que los
candidatos de mayor edad obtienen salarios iniciales mayores?
Salario en
Edad
dlares
67,000
29
60,000
25
57,500
30
59,500
35
50,000
27
55,000
31
59,500
32
63,000
38
69,500
72,000

28
34

11. J.J. Prez opera un taller de reparacin de motores de aeronaves ligeras.


Est interesado en mejorar sus estimaciones de tiempo de reparacin
requerido y cree que el mejor predictor es el nmero de horas de operacin
en el motor desde su ltima reparacin importante. Ms abajo se muestran
los datos sobre diez motores que J.J. Prez trabaj recientemente. Al nivel
de significancia de 0.10, la correlacin de rango sugiere una fuerte
relacin?

CIBERTEC

Motor

Horas desde la ltima


reparacin importante

Horas requeridas
para reparacin

1
2
3
4
5
6
7
8
9
10

1,000
1,200
900
1,450
2,000
1,300
1,650
1,700
500
2,100

40
54
41
60
65
50
42
65
43
66

CARRERAS PROFESIONALES

184

Para recordar


El coeficiente de Determinacin define el modelo mas confiable para


una acertada prediccin

Si el coeficiente de Spearman simplifica el proceso de clculo de los


coeficientes de correlacin.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

185

SEMANA

15
SERIE DE TIEMPO
TEMAS

Serie de tiempo. Introduccin a la serie de tiempo


Representacin y Clasificacin de la serie de tiempo
Anlisis de la serie de tiempo

OBJETIVOS ESPECFICOS

Descubrir un comportamiento de los datos histricos para extrapolarlo a futuro


Pronostica de manera ptima mediante el uso de los modelos,

CONTENIDOS

Movimientos caractersticos de la serie de tiempo


Clasificacin de movimientos de series de tiempo
El anlisis de las series de tiempo
Movimientos medios. suavizacin de series de tiempo
Estimacin de la tenencia

ACTIVIDADES

Identifican una serie de tiempo


Analizan los diferentes mtodos de estimacin de la serie de tiempo

CIBERTEC

CARRERAS PROFESIONALES

186

ANLISIS DE SERIES DE TIEMPO


SERIES DE TIEMPO
Una serie de tiempo es un conjunto de observaciones hechas en momentos
determinados, normalmente a intervalos iguales.
Ejemplos de series de tiempo son la produccin total anual de acero en el Per
en un cierto nmero de aos, el precio diario de cierre de una accin en la
Bolsa, las temperaturas horarias anunciadas por el observatorio meteorolgico
de una ciudad o el total mensual de ventas habidas en un departamento de una
tienda.
Matemticamente, una serie de tiempo se define por los valores Y1, Y2,..., de
una variable Y (temperatura, precio al cierre de una accin, etc.) en los
momentos f1 o f2,.... As, Y es una funcin de t, simbolizada por Y = F(t).
MOVIMIENTOS CARACTERSTICOS DE LAS SERIES DE TIEMPO
Es interesante considerar que en un grfico de una serie de tiempo, como descrito por un punto que se mueve con el paso del tiempo, el movimiento puede
ser debido a la combinacin de fuerzas econmicas, sociolgicas, psicolgicas
u otras. La experiencia basada en muchos ejemplos de series de tiempo ha
revelado ciertos movimientos o variaciones caractersticas, algunos o todos de
ellos se presentan en diferentes grados. El anlisis de tales movimientos es de
gran importancia en muchos casos, uno de gran inters es el problema de la
previsin de movimientos futuros. No es, pues, de extraar que muchas
industrias y acciones gubernativas estn vitalmente unidas con tan importante
materia.
CLASIFICACIN DE MOVIMIENTOS DE SERIES DE TIEMPO
Los movimientos caractersticos de una serie de tiempo pueden clasificarse en
cuatro tiempos principales, llamados a menudo componentes de una serie de
tiempo.
1. Movimientos seculares o de larga duracin se refieren a la direccin
general a la que el grfico de una serie de tiempo parece dirigirse en un
intervalo grande de tiempo. En el grfico anterior, este movimiento secular o
variacin secular o tendencia secular, como se llama a veces, se indica por
una curva de tendencia, que aparece a trazos. En algunas series puede ser
apropiada una recta de tendencia. La determinacin de tales curvas de
tendencia por el mtodo de mnimos cuadrados se ha considerado en el
Captulo 13. Otros mtodos se discuten ms adelante.
2. Movimientos cclicos o variaciones cclicas se refieren a las oscilaciones de
larga duracin alrededor de la recta o curva de tendencia. Estos ciclos, como
se llaman a veces, pueden ser o no peridicos, es decir, pueden seguir o no
exactamente caminos anlogos despus de intervalos de tiempo iguales. En
negocios y actividades econmicas, los movimientos se consideran cclicos
solamente si su periodo tiene un intervalo de tiempo superior al ao.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

187

Un ejemplo importante de movimientos cclicos son los llamados asuntos


cclicos, que representan los intervalos de prosperidad, retroceso, depresin
y recuperacin.

3. Movimientos estacionales o variaciones estacionales se refieren a las


idnticas, o casi idnticas, normas que una serie de tiempo parece seguir
durante los correspondientes meses de los sucesivos aos. Tales
movimientos se deben a sucesos recurrentes que se repiten anualmente,
como, los repentinos incrementos de ventas de un departamento antes de la
Navidad.
Aunque los movimientos estacionales se refieren en general a una
periodicidad anual en negocios o teora econmica, las ideas envueltas
pueden extenderse a incluir una periodicidad de cualquier intervalo de
tiempo, tal como diaria, horaria, semanal, etc., dependiendo del tipo de datos
que se utilizan.
4. Movimientos irregulares o al azar se refieren a movimientos espordicos
de las series de tiempo debidos a sucesos ocasionales, tales como
inundaciones, huelgas, elecciones, etc. Aunque normalmente se supone que
tales sucesos producen variaciones que solamente duran un corto intervalo
de tiempo, se concibe que puedan ser tan intensos que originen un nuevo
ciclo u otros movimientos.
EL ANALISIS DE SERIES DE TIEMPO
El anlisis de las series de tiempo consiste en una descripcin (matemtica
generalmente) de los movimientos que la componen para justificar los
procedimientos que tal descripcin envuelve.
La muestra de un grfico de una recta puede tener tendencia secular o de
larga duracin (igualmente poda haber sido una curva de tendencia),
tendencia de larga duracin con un movimiento cclico superpuesto
(supuesto peridico) y movimiento cclico estacional superpuesto sobre el
grfico de algn movimiento irregular o aleatorio.

Las ideas anteriores suministran una posible tcnica para analizar las series de
tiempo. Se supone que en las series de tiempo la variable Y es un producto de

CIBERTEC

CARRERAS PROFESIONALES

188

las variables T, C, S e I que originan, respectivamente, los movimientos de


tendencia, cclicos, estacinales e irregulares. En smbolos,
Y = T x C x S x I = TCSI
El anlisis de las series de tiempo consiste en una investigacin de los factores
T, C, S e I y a menudo se refiere a una descomposicin de una serie de tiempo
en sus movimientos componentes bsicos.
Debe indicarse que algunos estadsticos prefieren considerar Y como suma T +
C + S + I de las variables bsicas que lo componen. Aunque en otro el mtodo
supone la descomposicin de TCSI, procedimientos anlogos son aplicables
cuando se supone Y como suma de sus componentes. En la prctica, la
decisin sobre qu mtodo de descomposicin debe suponerse, depende del
grado de xito conseguido al aplicar el supuesto.
MOVIMIENTOS MEDIOS. SUA VIZACIN DE SERIES DE TIEMPO
Dado un conjunto de nmeros Y1 , Y2 , Y3.... se define un movimiento medio de
orden n al que viene dado por la sucesin de medias aritmticas,
Y1 + Y2 + Y3 ....Ys Y2 + Y3 + Y4 ....Ys +1 Y3 + Y4 + Y5 ....Ys + 2
,
,
,.........
n
n
n
Las sumas de los numeradores de se llaman movimientos totales de orden n.
Ejemplo 1:
Dados los nmeros 2, 6, 1, 5, 3, 7, 2 un movimiento medio de orden 3 est
dado por la sucesin.

Si los datos son dados anual o mensualmente, se llama movimiento medio de


orden n a un movimiento medio de n aos o un movimiento medio de n
meses, respectivamente. As, se habla de movimientos medios de 5 aos,
movimientos medios de 12 meses, etc. Naturalmente que cualquier otra unidad
de tiempo puede igualmente utilizarse.
Los movimientos medios tienen la propiedad de tender a reducir la cantidad de
variacin presente en un conjunto de datos. En el caso de series de tiempo,

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

189

esta propiedad se utiliza, a menudo, para eliminar las fluctuaciones no


deseadas y el proceso se llama suavizacin de series de tiempo.
Si en la sucesin de medias aritmticas se emplean las medias aritmticas
ponderadas, siendo los pesos dados con anterioridad, la sucesin resultante se
llama movimiento medio ponderado de orden n.
.,
Si se utilizan los pesos 1, 4, 1 en el ejemplo anterior, un movimiento medio
ponderado de orden 3 est dado por la sucesin

ESTIMACIN DE LA TENDENCIA
La estimacin de la tendencia puede conseguirse de varias formas posibles.
El mtodo de mnimos cuadrados puede utilizarse para hallar la ecuacin de
una recta o curva de tendencia adecuada. De esta ecuacin se pueden calcular
los valores de tendencia T.
El mtodo libre, que consiste en ajustar una recta o curva de tendencia
mediante la sola observacin del grfico, puede utilizarse para estimar T. Sin
embargo, esto tiene el inconveniente de depender en gran parte del criterio
personal.
El mtodo de movimiento medio. Mediante movimientos medios de rdenes
apropiados, pueden eliminarse los movimientos cclicos, estacinales e
irregulares, quedando as solamente el movimiento de tendencia.
Un inconveniente de este mtodo es que los datos del principio y final de la
serie se pierden. As, en el anterior, se comenz con 7 nmeros y con un
movimiento medio de orden 3 se qued con 5 nmeros. Otro inconveniente es
que los movimientos medios pueden originar ciclos u otros movimientos que no
tenan los datos originales. Un tercer inconveniente es que los movimientos
medios estn fuertemente afectados por los valores extremos. Para reducir en
parte estos inconvenientes, se utiliza a veces un movimiento medio ponderado
con pesos adecuados. En tal caso, el trmino (o trminos) central recibe el
peso mayor y los valores extremos los pesos pequeos.

CIBERTEC

CARRERAS PROFESIONALES

190

El mtodo de semimedias consiste en agrupar los datos en dos partes


(preferiblemente iguales) y mediar los datos de cada parte, as, se obtienen dos
puntos en el grfico de la serie de tiempo. Una recta de tendencia puede
entonces trazarse entre estos dos puntos y los valores de tendencia pueden as
determinarse. Los valores de tendencia pueden, tambin, determinarse
directamente sin necesidad de un grfico.
Aunque este mtodo es sencillo de aplicar, puede conducir a resultados
pobres cuando se utiliza sin discernimiento. Tambin, es aplicable solamente
cuando la tendencia es lineal o aproximadamente lineal, aunque puede
extenderse su aplicacin a casos en los que los datos pueden ser divididos en
varias partes, teniendo cada una de ellas una tendencia lineal.
ACTIVIDADES
1. Con qu movimiento caracterstico de una serie de tiempo se asociara
principalmente cada uno de los siguientes:
1.1 Un fuego en una fbrica que retrasa la produccin 3 semanas.
1.2 Una etapa de prosperidad.
1.3 La venta en un departamento despus de Pascua.
1.4 La necesidad de incrementar la produccin de trigo debido a un
constante aumento de la poblacin.
1.5 El nmero mensual de pulgadas de lluvia en una ciudad en un periodo
de 5 aos.
2. En la siguiente tabla se muestra la media mensual de produccin de carbn
bituminoso en millones de toneladas cortas en Canad durante los aos
de1991-2000.
Ao
1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Produccin
media
50,0 36,5 43,0 44,5 38,9 38,1 32,6 38,7 41,7 41,1
mensual
Construya lo que se indica.
2.1 Un movimiento medio de 5 aos

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Aos

191

Produccin
media
mensual

Movimiento total de Movimiento medio de


5 aos
5 aos

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2.2 Un movimiento medio de 4 aos

Aos

Produccin
Movimiento total de
media mensual
4 aos

Movimiento medio de
4 aos

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

CIBERTEC

CARRERAS PROFESIONALES

192

2.3 Un movimiento medio de 4 aos centrado

Aos

Movimiento
medio de 4
aos

Movimiento total de
2 aos de la col. 3

Movimiento medio
centrado de 4 aos

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

2.4 Muestre el movimiento centrado de 4 aos, equivalente al movimiento


medio ponderado de 5 aos con pesos 1, 2, 2, 2, 1, respectivamente.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Aos

193

Movimiento
total de 4
aos

Movimiento
total de 2 aos
de la col. 3

Movimiento
medio
centrado de 4
aos

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

2.5 Represente el movimiento medio de (2.1) junto con los datos originales.

2.6 Obtenga los valores de tendencia para los datos de la tabla mediante el
mtodo de semimedias donde la media se toma de (2.1)

CIBERTEC

CARRERAS PROFESIONALES

194

Ao
1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Valores de
tendencia
2.7 Utilice el mtodo de mnimos cuadrados para ajustar una recta a los
datos de (2.1) y halle los valores de tendencia.

Ao
1991 1992 1993 1994 1995 1996 1997 1998 19969 2000
Valores de
tendencia

3. El departamento de ventas de Automotriz Moderna suministr datos de


unidades vendidas. Con ellos, se form la siguiente serie de tiempo de 10
aos.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Aos
Ventas

195

1
400

2
390

3
320

4
340

5
270

6
260

7
300

8
320

9
340

10
370

Grafique la serie de tiempo y comente acerca de lo adecuado de una


tendencia lineal. Qu forma de funcin cree usted que sera adecuada
para el patrn de tendencia de esta serie tiempo?

4. El rendimiento por accin, para una Compaa Metalrgica, durante un


periodo de 10 aos, es el siguiente:
Ao
1
2
3
4
5
6
7
8
9
10
Rendimiento 0.64 0.73 0.94 1.14 1.33 1.53 1.67 1.68 2.10 2.50
4.1 Emplee una proyeccin de tendencia lineal para pronosticar esta serie de
tiempo en el prximo ao.
4.2 Qu nos dice este anlisis de tendencia temporal acerca de la
Compaa Metalrgica?
4.3 De acuerdo con los datos histricos, es bueno invertir en esta empresa?

CIBERTEC

CARRERAS PROFESIONALES

196

Autoevaluacin
1. Identifique con qu movimiento caracterstico de una serie de tiempo se
podra asociar principalmente cada una de los siguientes supuestos:
1.1 Un retroceso
1.2 Un incremento de empleo durante los meses de verano
1.3 La disminucin de mortandad debido al avance de la ciencia
1.4 Una huelga del acero
1.5 Una demanda continuamente creciente de automviles pequeos
(a) tendencia de larga duracin
(b) estacional
(c) cclico
(d) irregular
(e) tendencia de larga duracin
2. Dados los nmeros 1, 0, -1, 0, 1, 0, -1, 0, 1, determine un movimiento medio
de orden
2.1 dos
2.2 tres
2.3 cuatro
2.4 cinco
3. En la siguiente tabla, se da el consumo medio mensual en millares de
fanegas de algodn nacional y de importacin en Estados Unidos durante los
aos 1990-1999. Construya lo siguiente:
3.1 un movimiento medio de 2 aos
3.2 un movimiento medio centrado de 2 aos
3.3 un movimiento medio de 3 aos
3.4 un movimiento medio centrado de 4 aos
3.5 un movimiento medio centrado de 6 aos
3.6 represente los movimientos medios junto con los datos originales y
discuta los resultados obtenidos
3.7muestre que el movimiento medio centrado de 2 aos es equivalente a un
movimiento medio ponderado de 3 aos con pesos 1, 2, 1,
respectivamente.
Ao
Consumo
de
algodn

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
656

804

836

765

777

711

755

747

696

677

4. En la siguiente tabla se muestra el total de ventas mensuales de autos de


pasajeros en el Per durante los aos 1997-2002. Construya lo que se le
indica:
4.1 Un movimiento medio de 12 meses
4.2 Un movimiento medio centrado de 12 meses
4.3 Un movimiento medio centrado de 6 meses

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

197

4.4 Represente el movimiento medio de los apartados (4.2) y (4.3) junto con
los datos originales y compare los resultados
Ene.

Feb

Marzo Abril May

Jun

Jul

Ago. Sep

Oct

Nov

Dic

1997 52,6 45,3

56,1

59,8 54,3 58,7 59,9 51,7 47,2 52,8 37,9 38,6

1998 44,6 46,7

53,5

53,7 49,1 50,1 45,7 44,3 30,0 22,2 49,2 66,9

1999 65,5 67,7

79,3

75,4 72,1 64,7 65,7 62,6 46,8 50,2 74,0 69,1

2000 51,0 50,9

58,2

55,9 47,0 44,8 44,0 41,0 20,9 35,1 57,7 61,6

2001 68,0 57,0

58,7

54,7 53,1 49,3 48,7 52,3 31,3 29,1 58,8 55,2

2002 48,4 39,2

35,5

32,5 35,1 34,2 31,4 19,0 10,7 27,2 51,9 60,7

Movimientos caractersticos de la serie de tiempo


Clasificacin de movimientos de series de tiempo
El anlisis de las series de tiempo
Movimientos medios. Suavizacin de series de tiempo
Estimacin de la tenencia.

5. Los datos de inscripciones, en miles, en una universidad estatal durante los


ltimos seis aos son los siguientes:
Ao
1
2
3
4
5
6
Inscripcin
20.5
20.2
19.5
19.0
19.1
18.8
Deduzca una ecuacin del componente de tendencia lineal en esta serie de
tiempo. Haga comentarios acerca de lo que sucede con la inscripcin en
esta institucin.
6. La siguiente tabla muestra la asistencia promedio a los juegos locales de
ftbol en una universidad durante los ltimos siete aos. Determine la
ecuacin del componente de tendencia lineal para esta serie de tiempo.
Ao
1
2
3
4
5
6
7
Asistencia 28,000 30,000 31,500 30,400 30,500 32,200 30,800
7. Al presidente de una pequea fbrica le interesa considerar el aumento
continuo de costo de fabricacin durante los ltimos aos. A continuacin, se
observa la serie de tiempo del costo por unidad del producto principal de esa
empresa durante los ltimos ocho aos.
Ao
Costo/unidad
($)

20.50 24.50 28.20 27.50 26.60 30.10 31.40 36.50

7.1 Trace la grfica de esta serie de tiempo. Parece haber una tendencia
lineal?

CIBERTEC

CARRERAS PROFESIONALES

198

7.2 Determine una ecuacin del componente de tendencia lineal para la serie
de tiempo.
7.3 Cul es el aumento anual promedio de costo que ha tenido la empresa?
8. Al final de la dcada de los noventa, muchas empresas trataron de reducir su
tamao para disminuir sus costos. Uno de los resultados de esas medidas
de recorte de costos fue una disminucin en el porcentaje de empleos
gerenciales en la industria privada. Los siguientes datos corresponden al
porcentaje de mujeres gerentes, del ao 1995 al 2000.
Ao
Porcentaje

1995 1996 1997 1998 1999 2000 2001 2002


7.45

7.51

7.52

7.53

7.65

7.62

7.73

7.68

8.1 Deduzca una ecuacin de tendencia lineal para esta serie de tiempo.
8.2 Use la ecuacin de la tendencia para estimar el porcentaje de mujeres
gerentes para el 2003 y 2004.

Para recordar


Se deben diferenciar adecuadamente los movimientos de la serie de


tiempo.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

199

SEMANA

16
SERIE DE TIEMPO

TEMAS

Modelos de estimacin
Mtodos de estimacin de la tendencia
Prediccin mediante la serie de tiempo

OBJETIVOS ESPECFICOS

Descubrir un comportamiento de los datos histricos para extrapolarlo a futuro


Pronostican de manera ptima mediante el uso de los modelos,.

CONTENIDOS

Estimacin de valores estacionales


Mtodos de estimacin
Estimacin de variaciones cclicas
Estimacin de variaciones irregulares o aleatorias
Comparacin de datos
Predicciones

ACTIVIDADES

Identifican una serie de tiempo.


Analizan los diferentes mtodos de estimacin de la serie de tiempo.

CIBERTEC

CARRERAS PROFESIONALES

200

SERIE DE TIEMPO

ESTIMACIN DE VARIACIONES ESTACIONALES. NDICE ESTACIONAL


Para determinar el factor estacional S en TCSI, se debe estimar cmo varan
los datos en la serie de tiempo de un mes a otro a lo largo de un ao
caracterstico. Un conjunto de nmeros mostrando los valores relativos de una
variable, durante los meses del ao, se llama ndice estacional de la variable.
Si, por ejemplo, se sabe que las ventas durante enero, febrero, marzo, etc., son
50, 120, 90,. . . por ciento de la venta media mensual del ao completo, los
nmeros 50, 120, 90,. . . suministran el ndice estacional del ao y, a veces, se
conocen como nmeros del ndice estacional. El promedio (media) del ndice
estacional para el ao completo deber ser 100 %, es decir, la suma de los
nmeros ndice deber ser 1200 %.
Varios son los mtodos que se utilizan para el clculo del ndice estacional:
Mtodo del porcentaje medio. En este mtodo los datos de cada mes se
expresan como porcentajes de la media anual. Los porcentajes de meses que
se corresponden en diferentes aos son entonces promediados mediante su
media o mediana. Si se emplea la media, es mejor evitar los valores extremos
que puedan aparecer.
Los 12 porcentajes resultantes dan el ndice estacional. Si su media no es 100
% (es decir, si la suma no es 1200 %) deber ajustarse multiplicando por un
factor adecuado.
Mtodo de porcentaje de tendencia o razn de tendencia. En este mtodo
los datos de cada mes se expresan como porcentajes de los valores de
tendencia mensuales. Una adecuada media de los porcentajes para los meses
correspondientes da el ndice pedido. Como en el mtodo anterior, se deben
ajustar si su medida no es el 100 %.
Ntese que la divisin de cada valor mensual Y por el correspondiente valor de
tendencia T da Y/T = CSI, en TCSI. En consecuencia, el promedio Y/T produce
ndices estacionales que pueden incluir variaciones cclicas e irregulares, sobre
todo cuando son grandes. Esto puede ser un inconveniente importante del
mtodo.
Mtodo del porcentaje del movimiento medio o razn del movimiento
medio. En este mtodo, se calcula un movimiento medio de 12 meses. Puesto
que los resultados as obtenidos caen entre meses sucesivos en lugar de en el
centro del mes, como ocurra con los datos originales, se debe calcular un
movimiento medio de 2 meses de este movimiento medio de 12 meses. El
resultado se llama, a menudo, movimiento medio centrado de 12 meses.
Despus de que se haya hecho esto, los datos originales para cada mes se
expresan como porcentajes de los correspondientes al movimiento medio
centrado de 12 meses. Los porcentajes para los meses correspondientes son

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

201

entonces promediados, dando el ndice pedido. Como antes, debern ajustarse


si su media no es el 100 %.
Advirtase que el razonamiento lgico de este mtodo se sigue de la Ecuacin
TCSI. Un movimiento medio centrado de 12 meses de Y sirve para eliminar los
movimientos estacionales e irregulares S e I y as equivale a los valores dados
por TC. Entonces, la divisin de los datos originales por TC da SI. Las medias
sucesivas de los meses correspondientes sirven para eliminar la irregularidad I
y as el resultado constituir un ndice adecuado de S.
Mtodo de enlaces relativos. En este mtodo, los datos de cada mes se
expresan como porcentajes de los datos del mes anterior. Estos porcentajes se
llaman enlaces relativos, puesto que enlazan cada mes con el precedente.
Despus se toma una media adecuada de los enlaces relativos para los meses
correspondientes.
De estos 12 enlaces relativos medios se pueden obtener los porcentajes
relativos de cada mes con respecto a enero, que se considera como 100 %.
Despus de haber hecho esto, se encontrar normalmente que el enero
siguiente tendr un porcentaje asociado que ser mayor o menor del 100 %
dependiendo de si ha habido crecimiento o decrecimiento en la tendencia. Con
esto, los distintos porcentajes obtenidos se pueden ajustar para esta tendencia.
Estos porcentajes finales, ajustados de forma que su media sea el 100 %,
suministran el ndice estacional pedido.
DESESTACIONALIZACIN DE DATOS
Si los datos originales mensuales se dividen por los correspondientes nmeros
del ndice estacional, los datos resultantes se dicen desestacionalizados o
ajustados para la variacin estacional. Tales datos incluyen aun,
movimientos de tendencia, cclicos e irregulares.
ESTIMACIN DE LAS VARIACIONES CCLICAS
Despus de que los datos han sido desestacionalizados, pueden tambin ser
ajustados a su tendencia dividiendo los datos por los correspondientes valores
de tendencia. De acuerdo con la Ecuacin TCSI, el proceso de ajuste para la
variacin estacional y los valores de tendencia se consiguen al dividir Y por ST,
que da CI, es decir, variaciones cclicas e irregulares. Un apropiado
movimiento medio de unos pocos meses de duracin (por ejemplo, 3, 5 7
meses, de modo que no es necesaria la sucesin centrada) posteriormente
sirve para suavizar las variaciones irregulares (I) y deja solamente las
variaciones cclicas. Una vez que stas han sido aisladas, pueden ser
estudiadas con detalle. Si aparece una periodicidad (o periodicidad
aproximada) de ciclos, pueden construirse unos ndices cclicos anlogamente
a como se obtuvieron los ndices estacionales.
ESTIMACION DE LAS VARIACIONES IRREGULARES O ALEATORIAS
La estima de las variaciones irregulares o aleatorias se logra ajustando los
datos a los valores de tendencia, variaciones estacionales y cclicas. Al dividir

CIBERTEC

CARRERAS PROFESIONALES

202

los datos originales Y por T, S y C por la Ecuacin TCSI, se obtiene l. En la


prctica, se encuentra que los movimientos irregulares tienden a ser de pequea magnitud y que, a menudo, tienden a distribuirse normalmente, es decir,
desviaciones pequeas aparecen con gran frecuencia, desviaciones grandes
aparecen con poca frecuencia.
COMPARACIN DE DATOS
Se debe tener siempre cuidado al comparar datos y que tal comparacin est
correctamente justificada. Por ejemplo, al comparar los datos de marzo con los
de febrero, se debe tener en cuenta que marzo tiene 31 das, mientras que
febrero tiene 28 29. Anlogamente, al comparar los meses de febrero para
diferentes aos, se debe tener presente que en aos bisiestos febrero tiene 29
das en lugar de 28. El nmero de das laborables durante varios meses del
mismo o aos diferentes, puede tambin diferir debido a fiestas, huelgas, paros
temporales, etc.
PREDICCIN
Las ideas anteriores pueden servir de ayuda en el importante problema de la
prediccin en las series de tiempo. Sin embargo, se debe tener en cuenta que
un tratamiento matemtico de los datos no resuelve por s solo todos los
problemas. Juntamente con el sentido comn, experiencia, habilidad y buen
juicio del investigador, tales anlisis matemticos pueden, no obstante, ser de
valor para la prediccin a largo y corto plazo.
RESUMEN DE LOS PASOS FUNDAMENTALES EN EL ANLISIS DE
SERIES DE TIEMPO
1. Coleccionar los datos de la serie de tiempo, procurando asegurarse de que
estos datos sean dignos de confianza. En la coleccin de datos, se debe
siempre tener presente el propsito que se persigue en cada caso con el
anlisis de la serie de tiempo. Por ejemplo, si se desea predecir sobre una
serie de tiempo dada, puede servir de ayuda el obtener series afines as
como otra posible informacin. Si es necesario ajustar los datos para
poderlos comparar, es decir; ajustar para aos bisiestos, etc.
2. Representar la serie de tiempo, anotando cualitativamente la presencia de
tendencia de larga duracin, variaciones cclicas y variaciones estacionales
3. Construir la curva o recta de tendencia de larga duracin y obtener los
valores de tendencia apropiados mediante cualquiera de los mtodos, de
mnimos cuadrados, libre, movimientos medios o semimedias
.4. Si estn presentes variaciones estacionales, obtener un ndice estacional y
ajustar los datos a estas
variaciones
estacionales,
es
decir,
desestacionalizar los datos.
5. Ajustar los datos desestacionalizados a la tendencia. Los datos resultantes
contienen (tericamente) solamente las variaciones cclicas e irregulares.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

203

Un movimiento medio de 3, 5 7 meses sirve para eliminar las variaciones


irregulares y poner de manifiesto las variaciones cclicas
6. Representar las variaciones cclicas obtenidas en el paso 5, anotando
cualquier periodicidad (o periodicidad aproximada) que pueda aparecer
7. Combinando los resultados de los pasos 1-6 y con cualquier otro tipo de
informacin til, hacer una prediccin (si se desea) y si es posible discutir
las fuentes de error y su magnitud

ACTIVIDADES
1. La Tabla muestra la energa elctrica mensual en millones de kilovatios hora
empleada para el alumbrado de calles y carreteras en el Per durante los
aos 1991-1998.

1991
1992
1993
1994
1995
1996
1997
1998

Ene
318
342
367
392
420
453
487
529

Feb
281
309
328
349
378
412
440
477

Mar
278
299
320
342
370
398
429
463

Abril
250
268
287
311
334
362
393
423

May
231
249
269
290
314
341
370
398

Jun
216
236
251
273
296
322
347
380

Jul
223
242
259
282
305
335
357
389

Ago
245
262
284
305
330
359
388
419

Sep
269
288
309
328
356
392
415
448

Oct
302
321
345
364
396
427
457
493

Nov
325
342
367
389
422
454
491
526

Dic
347
364
394
417
452
483
516
560

1.1 Construye un grfico de los datos.

1.2 Obtenga un ndice estacional mediante el mtodo del porcentaje medio.

CIBERTEC

CARRERAS PROFESIONALES

204

Aos
Consumo total
Medias mensuales

Ene

Feb

1991 1992 1993 1994 1995 1996 1997 1998

Mar Abril May Jun Jul

Ago Sep Oct Nov Dic

1991
1992
1993
1994
1995
1996
1997
1998
Total
Media
1.3 Obtenga el ndice estacional mediante el mtodo de porcentaje de
tendencia (utilice el mtodo de mnimos cuadrados para obtener los
valores de tendencia mensuales)

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

Aos
Medias mensuales

205

1991 1992 1993 1994 1995 1996 1997 1998

Valores de tendencia central mensuales


Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Media
Valores de tendencia central mensuales expresados en porcentajes
Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Mediana
Aos
Indice estacional

1991 1992 1993 1994 1995 1996 1997 1998

1.4 Obtenga el ndice estacional mediante el mtodo de enlaces relativos

CIBERTEC

CARRERAS PROFESIONALES

206

La media de los enlaces relativos


Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996
1997
1998
Total
Media
1.5 Ajuste los datos a la variacin estacional (desestabilizacin de los
datos).

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic
1991
1992
1993
1994
1995
1996

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

207

1997
1998
Total
Media
1.6 Ajuste los datos a la tendencia.

Ene

Feb

Mar Abril May Jun Jul

Ago Sep Oct Nov Dic

1991
1992
1993
1994
1995
1996
1997
1998

CIBERTEC

CARRERAS PROFESIONALES

208

Autoevaluacin
1. En la siguiente tabla se da el consumo medio mensual, en millares de
fanegas de algodn nacional y de importacin en Estados Unidos durante los
aos 1990-1999.
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999

Ao
Consumo
de
algodn

656

804

836

765

777

711

755

747

696

677

1.1 Obtenga los valores de tendencia para los datos mediante el mtodo de
semimedias, donde la media se toma como
(a) la media aritmtica
(b) la mediana
Construir un grfico con los resultados obtenidos
1.2 Obtenga los valores de tendencia para los datos mediante
(a) el mtodo libre
(b) un movimiento medio de orden adecuado
Comparar con los resultados
1.3 Emplee el mtodo de mnimos cuadrados para ajustar una recta a los
datos de la tabla
2. En la siguiente tabla, se muestra la produccin mensual de mantequilla en el
Per en miles de kilogramos los aos 1996-2003.
2.1 Represente los datos.
2.2 Construya un ndice estacional mediante el mtodo del porcentaje
medio.
2.3 Obtenga un ndice estacional mediante el mtodo de porcentaje de
tendencia o razn de tendencia.
2.4 Obtenga un ndice estacional mediante el mtodo del porcentaje del
movimiento medio o razn del movimiento medio
2.5 Obtenga un ndice estacional mediante el mtodo de enlaces relativos

1996
1997
1998
1999
2000
2001
2002
2003

Ene

Feb

Mar

Abril

Mayo

Jun

Jul

85,6
78,7
103,9
118,7
108,1
114,6
115,3
118,6

80.9
78,8
101,9
116,6
104,3
114,1
110,3
113,4

92,2
91,5
121,4
143,3
121,1
129,6
124,6
129,5

101,8
102,5
133,5
142,0
129,4
135,4
132,3
130,3

132,6
135,0
156,0
164,5
157,9
151,9
159,3
150.6

141,2
128,0
154,0
160,9
151,9
149,0
148,1
144,7

130,5
117,7
135,6
129,7
123,0
127,6
125,8
126,9

CARRERAS PROFESIONALES

Ago.

Sep

Oct

Nov

119,0 93,6 86,6 68,4


105,7 92,1 87,7 75,9
118,7 95,0 91,6 91,3
109,4 92,6 87,8 86,8
102,1 91,9 94,7 92,7
109,8 92,4 93,1 92,3
106,9 90,1 100,3 94,1
97,7 8607 91,9 90,0

CIBERTEC

Dic
70,4
94,6
109,0
97,0
105,8
103,4
105,7
107,2

ESTADISTICA II

209

3. En la siguiente tabla, se muestra las ventas estimadas en millones de


dlares de todas las tiendas al por menor en la ciudad de Lima durante los
aos 1996-2003.
3.1 Represente los datos.
3.2 Obtenga un ndice estacional mediante el mtodo del porcentaje medio.
3.3 Obtenga un ndice estacional mediante el mtodo de porcentaje de
tendencia o razn de tendencia.
3.4 Obtenga un ndice estacional mediante el mtodo de la razn del
movimiento medio.
3.5 Obtenga un ndice estacional mediante el mtodo de enlaces relativos.
Ene

Feb

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1996 12,63 11,72 13,43 12,53 13,29 13,27 12,36 13,27 13,10 13,86 13,39 15,38
1997 11,84 11,74 12,74 13,40 14,85 13,81 13,40 13,45 13,62 14,82 14,01 16,91
1998 13,05 12,33 13,96 14,17 14,66 14,58 14,38 14,18 14,08 14,95 13,96 16,44
1999 12,34 12,06 13,54 14,32 14,25 14,66 14)39 13,90 14,14 14,66 14,53 17,87
2000 13,15 12,64 14,57 15,49 15,33 15,60 15,26 15,48 15,76 15,68 15,75 19,12
2001 13,73 13,55 15,72 14,89 16,11 16,58 15,38 16,19 15,58 16,13 16,49 19,38
2002 14,74 14,06 15,79 16,44 17,20 17,11 16,86 17,49 16,37 16,95 17,13 19,84
2003 15,29 13,78 15,55 16,27 17,36 16,60 16,60 17,00 16,33 17,36 17,04 21,17

4. En la siguiente tabla, se muestra la carga transportada en miles de vagones


de ferrocarril con carga de minerales llevados al puerto del callao durante los
aos 1998-2005.
4.1 Construya un grfico de los datos.
4.2 Obtenga un ndice estacional mediante el mtodo del porcentaje medio.
Ene.

Feb.

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1998 3661

2834

2999

3152

3977

3295

3807

3307

3312

4317

3139

2700

1999 3562

2911

2868

2912

3678

2606

2969

3149

3364

4156

3139

2672

2000 3351

2730

2801

2957

3883

3204

3758

3229

3153

4024

2797

2413

2001 2967

2462

2412

2445

3345

2730

3251

2708

2711

3629

2685

2518

2002 2505

2556

3256

2757

3754

3052

3015

3883

3148

3282

3758

2669

2003 2713

2751

3517

2971

3835

3143

2397

3700

3155

3284

3740

2641

2004 2565

2616

3446

2696

3558

2959

2708

3737

2849

2920

3223

2221

2005 2164

2108

2702

2105

2729

2489

2138

3146

2570

2733

2462

2188

5. La tabla muestra la energa elctrica mensual en millones de kilovatios hora


empleada para el alumbrado de calles y carreteras en el Per durante los
aos 1991-1998. Calcule un ndice estacional para los ltimos cuatro aos y
los cuatro primeros aos de los datos. Utilice cualquier mtodo.

CIBERTEC

CARRERAS PROFESIONALES

210

1991
1992
1993
1994
1995
1996
1997
1998

Ene
316
338
363
389
425
454
488
519

Feb
285
312
321
353
383
417
446
487

Mar
288
305
315
352
378
402
412
457

Abril
253
274
294
320
324
356
398
425

May
225
244
259
260
315
351
387
402

Jun
225
246
261
283
296
332
357
390

Jul
223
242
259
282
305
335
357
389

Ago
235
252
274
308
330
358
388
419

Sep
269
285
309
325
356
392
415
448

Oct
302
321
345
364
396
427
457
493

Nov
323
342
367
389
422
454
491
526

Dic
352
364
394
421
452
492
521
568

6. En la siguiente tabla, se muestra la produccin mensual de mantequilla en el


Per en miles de kilogramos los aos 1996-2003.
Ene.

Feb.

Mar

Abril

Ago.

Sep

Oct

Nov

Dic

1996

84,6

87.9

98,2

107,8 132,7 144,2 132,5 120,6

98,6

90,6

78,4

90,4

1997

77,7

76,8

99,5

108,5 135,8 128,0 117,7 105,7

92,1

87,7

75,9

98,6

1998 100,9 105,9 120,4 138,5 156,7 154,0 135,6 118,7

95,0

91,6

91,3 107,0

1999 115,7 120,6 148,3 146,0 164,5 160,9 129,7 109,4

92,6

87,8

86,8

2000 104,1 115,3 134,1 132,4 157,5 151,9 123,0 102,1

91,9

94,7

92,7 109,8

2001 117,6 118,1 134,6 138,4 151,3 149,0 127,6 109,8

92,4

93,1

92,3 106,4

2002 118,3 119,3 144,6 139,3 159,2 148,1 125,8 106,9

90,1

100,3 94,1 108,7

2003 113,6 115,4 139,5 140,3 150,8 144,7 126,9

8607

91,9

Mayo

Jun

Jul

97,7

99,0

90,0 109,2

6.1 Obtenga un ndice estacional mediante el mtodo del porcentaje del


movimiento medio o razn del movimiento medio.
,
6.2 Obtenga un ndice estacional mediante el mtodo de enlaces relativos
6.3 Desestacionalice los datos
6.4 Represente los datos desestacionalizados y explicar los resultados.
6.5 Ajuste los datos para la variacin estacional
6.6 Represente los datos ajustados estacionalmente e interpretar los
resultados obtenidos.
7. En la siguiente tabla, se muestra las medias mensuales de produccin de
arroz en la zona nororiental de Per en miles de toneladas durante los aos
1990-1999. Represente los datos y discuta la posible existencia de ciclos.
Ao
Media
Mensual

1990

1991 1992 1993 1994

1995 1996 1997 1998

1999

67.4

81.3

74.3

69.7

82.5

74.8

79.7

77.5

73.7

69.6

8. En la siguiente tabla, se muestra la produccin mensual de mantequilla en el


Per en miles de kilogramos los aos 1996-2003.

CARRERAS PROFESIONALES

CIBERTEC

ESTADISTICA II

211

Ene

Feb

Mar

Abril

Ago.

Sep

Oct

Nov

Dic

1996

85,6

80.9

92,2

101,8 132,6 141,2 130,5 119,0

93,6

86,6

68,4

70,4

1997

78,7

78,8

91,5

102,5 135,0 128,0 117,7 105,7

92,1

87,7

75,9

94,6

1998 103,9 101,9 121,4 133,5 156,0 154,0 135,6 118,7

95,0

91,6

91,3 109,0

1999 118,7 116,6 143,3 142,0 164,5 160,9 129,7 109,4

92,6

87,8

86,8

2000 108,1 104,3 121,1 129,4 157,9 151,9 123,0 102,1

91,9

94,7

92,7 105,8

2001 114,6 114,1 129,6 135,4 151,9 149,0 127,6 109,8

92,4

93,1

92,3 103,4

2002 115,3 110,3 124,6 132,3 159,3 148,1 125,8 106,9

90,1

100,3 94,1 105,7

2003 118,6 113,4 129,5 130,3 150.6 144,7 126,9

8607

91,9

Mayo

Jun

Jul

97,7

97,0

90,0 107,2

8.1Emplee cualquiera de los resultados para predecir la produccin de


mantequilla en el Per durante el ao 2003.
8.2Discuta los posibles orgenes de error.
8.3Compare las predicciones con los valores reales para 2003 dados en la
siguiente tabla.
Ene

Feb

Mar

Abril

Mayo

Jun

Jul

116,3 108,2 121,4 126,8 143,4 135,6 112,5

Ago.

Sep

Oct

Nov

Dic

90,9

82,6 92,1 91,2 108,0

9. En la siguiente tabla, se muestra la carga transportada en miles de vagones


de ferrocarril con carga de minerales llevados al puerto del callao durante los
aos 1998-2005.
Ene

Feb

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1998 3661

2834

2999

3152

3977

3295

3807

3307

3312

4317

3139

2700

1999 3562

2911

2868

2912

3678

2606

2969

3149

3364

4156

3139

2672

2000 3351

2730

2801

2957

3883

3204

3758

3229

3153

4024

2797

2413

2001 2967

2462

2412

2445

3345

2730

3251

2708

2711

3629

2685

2518

2002 2505

2556

3256

2757

3754

3052

3015

3883

3148

3282

3758

2669

2003 2713

2751

3517

2971

3835

3143

2397

3700

3155

3284

3740

2641

2004 2565

2616

3446

2696

3558

2959

2708

3737

2849

2920

3223

2221

2005 2164

2108

2702

2105

2729

2489

2138

3146

2570

2733

2462

2188

9.1Emplee cualquiera de los resultados para predecir la carga transportada


en miles de vagones de ferrocarril con carga de minerales llevador al
puerto del callao en el 2006.
9.2Discuta los posibles orgenes de error.
9.3Compare las predicciones con los valores reales para 2006 dados en la
siguiente tabla.
9.4 Construya un grfico de los datos.
9.5 Obtenga un ndice estacional mediante el mtodo del porcentaje medio.

CIBERTEC

CARRERAS PROFESIONALES

212

Ene.

Feb.

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

2742

2291

2398

2489

3419

2813

2249

2712

2190 2908

Nov

Dic

2403 2376

10. Se tiene la siguiente serie de tiempo:


Trimestre
1
2
3
4

Ao 1
4
2
3
5

Ao 2
6
3
5
7

Ao 3
7
6
6
8

10.1 Determine los valores de promedio mvil de cuatro trimestres y


centrado para esta serie de tiempo.
10.2 Calcule los ndices estacionales para los cuatro trimestres.
11. Los datos trimestrales de ventas de un texto escolar (cantidad de
ejemplares vendidos) durante los tres ltimos aos son los siguientes:
Trimestre
1
2
3
4

Ao 1
1690
940
2625
2500

Ao 2
1800
900
2900
2360

Ao 3
1850
1100
2930
2615

11.1 Determine los valores de promedio mvil centrado de cuatro trimestres


y para esta serie de tiempo.
11.2 Calcule los ndices estacionales para los cuatro trimestres.
11.3 Cundo se presentar el mximo ndice estacional? Parece
razonable? Explique por qu.
12. Identifique los ndices estacinales mensuales de los tres aos de gastos
para un edificio de departamentos en Surco, de acuerdo con la siguiente
tabla. Emplee un clculo de promedios mviles de 12 meses.

Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

CARRERAS PROFESIONALES

Ao 1
170
180
205
230
240
315
360
290
240
240
230
195

Gastos
Ao 2
180
205
215
245
265
330
400
335
260
270
255
220

Ao 3
195
210
230
280
290
390
420
330
290
295
280
250

CIBERTEC

ESTADISTICA II

213

13. Los especialistas en contaminacin atmosfrica del sur de America vigilan


cada hora la cantidad de ozono, dixido de carbono y dixido de nitrgeno
en el aire. Los datos recabados presentan efecto estacional, porque
muestran patrones durante las horas del da. En la fecha 15, 16 Y 17 de julio
se observaron las siguientes concentraciones de dixido de nitrgeno en la
zona comercial, durante las 12 horas que van de las 6:00 a.m. a las 6:00
p.m.
15 de julio

25

28

35

50

60

60

40

35

30

25

25

20

16 de julio

28

30

35

60

65

50

50

40

35

25

20

20

17 de julio

35

42

45

72

75

60

60

45

40

25

25

25

13.1 Identifique los ndices estacionales por hora para las 12 indicaciones
de cada da.
13.2 Con los ndices estacinales determinados en el inciso a, se elimin el
efecto estacional la ecuacin de tendencia para los datos
desestacionalizada fue T=32.983 + 3922 t. Use slo el componente de
tendencia para determinar pronsticos para las 12 horas del 18 de julio.
14. En el Per, la ONPE mantiene datos de la edad de votante, cantidad de
votantes registrados y el porcentaje de votacin para elecciones
presidenciales y municipales. En la siguiente tabla, se muestra los
porcentajes nacionales de votantes, en relacin con la poblacin con edad
de votar, desde 1982 hasta 2002.
Ao
%
Movimientos

1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
55

38

54

37

52

40

53

36

50

37

55

14.1 Aplique el suavizamiento exponencial para pronosticar esta serie de


tiempo. Use constantes de suavizarmiento = 0.1 . y = 0.2 Qu valor
de la constante da los mejores pronsticos?
14.2 Cul es el pronstico del porcentaje de votantes en 2004?

Para recordar


Se deben tener en claro los pasos fundamentales de la serie de tiempo.

CIBERTEC

CARRERAS PROFESIONALES