Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Con esta publicacin se pretende tener un material didctico que sirva de apoyo
en el desarrollo de la asignatura de Estadstica II, del programa curricular de las
carreras de Administracin de Empresas e Ingeniera Industrial de la Universidad
Nacional , Sede Manizales.
A pesar de que este material cubre en su totalidad el programa calendario se
requiere la gua del profesor para el adecuado desarrollo del curso y debe
tambin ser complementado con lecturas y problemas en donde se aplique la
teora vista.
En el captulo 1 se presentan los conceptos bsicos de inferencia estadstica,
necesarios para entender el desarrollo terico de los captulos 2 y 3, en donde se
trata el tema de los intervalos de confianza y las pruebas de hiptesis. Adems
de la teora se presentan ejemplos para aplicarla.
El captulo 4 trata del anlisis de regresin lineal y mltiple, se presentan adems
los supuestos tericos de los modelos y los problemas que puede acarrear el no
cumplimiento de stos. En el captulo 5, de series cronolgicas, se habla de los
factores que generalmente se presentan en una variable observada a travs del
tiempo. De todos los modelos existentes para analizar una serie de tiempo se
desarrolla el multiplicativo que, a pesar de su simplicidad, proporciona buenos
resultados. En el captulo 6 se presentan los temas bsicos de muestreo
aleatorio, tratando en detalle el muestreo irrestricto aleatorio y el estratificado.
TABLA DE CONTENIDO
CAPITULO 1: INTRODUCCION A LAS INFERENCIAS ESTADISTICAS
1.
Definicin de Trminos
2.
Inferencia
3.
4.
Distribuciones en muestreo
1.
2.
3.
4.
Distribucin de la proporcin
5.
6.
Intervalo de confianza
2.
3.
4.
Hiptesis
2.
3.
4.
5.
6.
7.
8.
9.
Prueba de independencia
2.
Metodologa
3.
4.
1.
2.
3.
4.
Coeficientes de determinacin
5.
6.
Proyeccin
7.
Evaluacin de resultados
Coeficientes de determinacin
2.
3.
4.
Proyeccin
5.
6.
Los errores tienen distribucin normal, con media cero y varianza constante
2.
Multicolinealidad
3.
Homocedasticidad
4.
5.
Autocorrelacin
1.
2.
3.
1.
Tendencia
2.
Variaciones estacionales
3.
Variaciones cclicas
4.
Tipos de modelos
1.
Modelo multiplicativo
2.
Conceptos generales
1.
Muestra
2.
Poblacin
3.
Unidad de anlisis
4.
Unidad de muestreo
5.
Marco de muestreo
3.
Errores estadsticos
4.
5.
6.
Promedio aritmtico
2.
3.
Estimacin de la proporcin
4.
5.
6.
7.
7.
2.
Estimacin de la media
3.
4.
Estimacin de la proporcin
5.
2.
3.
2.
2.
3.
2.
3.
ANEXOS
1.
2.
3.
BIBLIOGRAFIA
El objetivo de ste captulo es aclarar el significado de algunos trminos que son bastante utilizados
durante el curso y dar la fundamentacin terica para el desarrollo de los temas de intervalos de
confianza y pruebas de hiptesis.
Estimador: Es una medida estadstica (promedio, varianza, etc.) calculada con la informacin
suministrada por una muestra. Generalmente se simbolizan con la letra que identifica al parmetro y
un ^ encima que se lee estimado, o con letras minsculas de nuestro alfabeto.
Estimacin: Es el valor numrico del estimador.
1.2 INFERENCIA
Es frecuente tomar muestras de poblaciones que no son normales, cualquiera que sea la distribucin
de la poblacin con tal de que tenga varianza finita, la media muestral tendr aproximadamente, para
muestras grandes, la distribucin normal. Esta propiedad se conoce como teorema central del lmite.
La importancia de este teorema, en lo que concierne a aplicaciones prcticas, se debe al hecho de que
el promedio de una muestra aleatoria procedente de cualquier distribucin con varianza finita
y ,
tiene para muestras grandes, una distribucin aproximadamente normal con media m y varianza
/n.
Si se multiplica por n/
se obtiene:
y varianza
. De
(1.1)
La expresin (1.1) es similar a:
(1.2)
Que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si
la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de libertad.
Que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si
la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de libertad.
Recordemos que una variable aleatoria con distribucin normal estndar, elevada al cuadrado, tiene
distribucin chi-cuadrado y sus grados de libertad dependen del nmero de observaciones.
Si una variable aleatoria X tiene distribucin normal, N( ,
(1.3)
Para hacer la demostracin partimos de la expresin (1.2), a la que se le resta y se le suma la media
muestral:
Despejando:
Por lo tanto,
(1.4)
Es decir que la sustitucin de la media poblacional por la media muestral reduce en 1 los grados de
libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza un parmetro por
un estimador, se reduce en 1 los grados de libertad de la distribucin chi-cuadrado.
Si se utiliza la varianza corregida,
(1.5)
Lo anterior se debe a que la varianza corregida se define como:
En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos
especiales.
, con s 2 conocida.
(1.6)
1.4.2.2 . Se selecciona una muestra aleatoria de tamao n 30 de una poblacin con distribucin
diferente a la normal
(1.7)
1.4.2.3 . Se selecciona una muestra aleatoria de tamao n 30 . La distribucin t es adecuada para
trabajar con muestras pequeas, y se obtiene del cociente entre una distribucin normal estndar y la
raz cuadrada de una chi-cuadrado dividida por sus grados de libertad, por lo tanto:
(1.8)
Si se utiliza la varianza corregida:
(1.9)
1.4.3.1 . Si las muestras proceden de poblaciones con distribucin normal y las varianzas
poblacionales son conocidas :
(1.10)
1.4.3.2 . Si las muestras provienen de poblaciones no normales pero los tamaos de muestra son
grandes , es decir, n1 30 y n2 30, la distribucin de la diferencia de medias es como en el caso
anterior.
1.4.3.3 . Si las muestras provienen de poblaciones normales con varianzas poblacionales iguales pero
desconocidas y tamaos de muestra pequeos , es decir, n 1 30 y n2 30. Como se desconocen las
varianzas poblacionales se debe obtener una expresin que elimine dichas varianzas, y debido a que
las muestras son pequeas se debe obtener una distribucin t-Student
Simplificando se obtiene:
(1.11)
1.4.3.4 . Si las muestras provienen de poblaciones normales con varianzas poblacionales
desconocidas pero diferentes y tamaos de muestra pequeos , es decir, n 1 30 y n2 30:
(1.12)
Donde:
Cuando se va a hacer una prueba de hiptesis o un intervalo de confianza para la diferencia de medias
y las muestras son pequeas, primero se debe comprobar si las varianzas poblacionales son iguales o
no. En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos
especiales.
Debido a que se desconoce la proporcin poblacional, se utiliza la proporcin muestral para estimar la
varianza, por lo tanto:
(1.13)
1.4.5 DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES De dos poblaciones se toman dos
muestras aleatorias independientes de tamaos n 1 30 y n2 30, y en cada una de ellas se observa
una caracterstica o cualidad. La proporcin muestral de elementos con una caracterstica se define
como:
(1.14)
1.4.6 DISTRIBUCION DEL COCIENTE DE VARIANZAS De dos poblaciones con distribucin normal
y varianzas poblacionales
y
se toman dos muestras aleatorias independientes de tamaos n 1 y n2
.
Como se vi, en la distribucin de la varianza se llega a una distribucin chi-cuadrado y del cociente
de dos chi-cuadrado se obtiene una distribucin F de Snedecor.
(1.15)
Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la fundamentacin
terica que nos permite desarrollar el tema correspondiente a los intervalos de confianza y las pruebas
de hiptesis.
Donde:
1-
y varianza
conocida.
En este caso, por las condiciones de la muestra se utiliza la distribucin normal estndar, por lo tanto
y
pertenecen a una distribucin normal estndar. Como se trabaja con una distribucin
normal,
y
son iguales pero con diferente signo,
es negativo y
es positivo, por lo tanto
en la frmula se incluye el signo y
y
se reemplazan por Z. Para obtener el intervalo de
confianza para la media se utiliza la siguiente expresin:
(2.1)
Donde Z pertenece a una distribucin normal estndar.
Interpretando este intervalo se dir que el promedio poblacional estar entre:
) por ciento.
EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos, tiene una distribucin
normal con desviacin estndar de 8 unidades por hora. Se desea estimar un intervalo de confianza
del 90 por ciento para el promedio de unidades por hora producido con dicho proceso. Para tal efecto,
se toma una muestra aleatoria de la produccin por hora durante 25 horas y se obtiene un promedio
de 160 unidades.
Interpretacin . El promedio de unidades por hora producidas en dicha fbrica est entre 157 y 163
con una confiabilidad del 90 por ciento.
(2.2)
Donde Z pertenece a una distribucin normal estndar.
EJEMPLO
En un estudio elaborado acerca de la duracin de 51 bombillas de semforos en cierta ciudad, se
determin un promedio de duracin de 1.795 horas con una desviacin estndar de 489 horas. Halle
un intervalo con el 95 por ciento de confiabilidad para estimar la media poblacional.
Solucin
Como el tamao de la muestra es mayor que 30, se utiliza la expresin 2.2 y para una confiabilidad
del 95 por ciento, el valor de Z en la distribucin normal es 1,96. Reemplazando:
Interpretacin . Con una confiabilidad del 95 por ciento, la duracin promedio de las bombillas de
semforos de dicha ciudad, est entre 1.661 y 1.921 horas.
2.2.3 . Intervalo de confianza para la media si se selecciona una muestra aleatoria de
tamao n<30 .
Como la muestra es pequea, se utiliza la expresin (1.8) para despejar el intervalo de confianza para
, obtenindose:
(2.3)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.
(2.4)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.
EJEMPLO
Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes de
ingeniera industrial de la Universidad Nacional Sede Manizales. Para tal efecto, de los estudiantes de
dicha carrera se seleccion una muestra aleatoria de 15 personas a quienes se les pregunt su
estatura en metros, obtenindose los siguientes resultados:
ESTATURA: 1,50
1,63
1,70 1,70 1,65
1,50
1,69
1,69
1,79
1,73
1,69
1,56
1,70
1,65
1,74
n = 15 y 1-
= 0,95
Como la muestra es pequea se utiliza la expresin 2.3. El valor de Z se halla en una tabla de la
distribucin t con 14 grados de libertad, que para un nivel de confianza del 95 por ciento es 2,145.
Reemplazando:
Interpretacin . Con un 95 por ciento de confiabilidad, se puede afirmar que la estatura promedio de
los estudiantes de ingeniera industrial de la universidad Nacional Sede Manizales, est entre 1,62 y
1,71 mts.
(2.5)
Se utiliza la expresin 2.5. El valor de Z se halla en la tabla de la distribucin normal, que para una
confiabilidad del 95 por ciento es de 1,96. Reemplazando:
Interpretacin . En la regin del Viejo Caldas, el porcentaje de propietarios de fincas cafeteras, est
entre el 55,7 y el 74,3 por ciento, con una confiabilidad del 95 por ciento.
Se invierte:
Reescribiendo:
(2.6)
Donde
y
y
pertenecen a una distribucin chi-cuadrado con (n-1) grado de libertad, por lo tanto,
son diferentes y
<
.
Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs 2. Halle un intervalo
de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de sta marca.
Solucin . Se utiliza la expresin 2.6. Los valores de
y
pertenecen a una distribucin chicuadrado con 29 grados de libertad. Como puede observarse en la figura 2.3 el rea que hay por
debajo de Z a /2 es 0,05, por lo tanto
=17,71 y el rea que hay por debajo de
es 0,95, por lo
tanto
=42,56
Por razones de utilidad se halla el intervalo de confianza para la desviacin estndar, sacando la raz
cuadrada de los lmites, por lo tanto:
3. PRUEBA DE HIPOTESIS
Dentro del proceso de inferencia, adems de la estimacin puntual y la por intervalo, en muchas
ocasiones es necesario hacer pruebas de hiptesis, las cuales se hacen con base en la informacin
muestral.
En este captulo se ver la prueba de hiptesis para la media, la proporcin, la varianza, la diferencia
de medias, la diferencia de proporciones, el cociente de varianzas, la prueba de independencia y la
prueba de bondad de ajuste.
3.1 HIPOTESIS
Una hiptesis estadstica es un supuesto acerca del valor de un parmetro de una poblacin
determinada. Este supuesto debe comprobarse con la informacin suministrada por una muestra
aleatoria obtenida de dicha poblacin.
Cuando se realiza una prueba de hiptesis, se plantean dos hiptesis que deben ser mutuamente
excluyentes; una es la hiptesis nula que se nota como H 0 y la otra es la hiptesis alternativa que se
nota como H1 .
Se debe establecer un criterio o regla de decisin segn la cual no se rechace la hiptesis nula o se
rechace. Si se rechaza la hiptesis nula (H 0 ) se acepta hiptesis alternativa (H1 ). Para establecer esta
regla de decisin la distribucin de probabilidad se divide en dos categoras mutuamente excluyentes:
la que lleva al rechazo de H 0 , es decir est en la zona de rechazo y la que lleva al no rechazo de H 0 ,
es decir, est en la zona de no rechazo.
Debido a que se est trabajando con una muestra aleatoria, cuando se realiza una prueba de hiptesis
se pueden cometer dos tipos de errores. La hiptesis nula (H 0 ) es en realidad verdadera, pero debido
a que los datos muestrales parecen ser inconsistentes con ella, se la rechaza (ERROR TIPO I) y la
probabilidad de cometer un error tipo I se llama nivel de significancia ( ). Puesto que cuando se
comete un error tipo I, seguiramos una accin errnea, se puede definir el nivel de significancia como
la probabilidad de decidirnos por H1 dado que H0 es verdadera.
Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama ERROR TIPO
II.
.1.1 FORMULACION DE HIPOTESIS
El primer paso en la prueba de hiptesis es el planteamiento de las hiptesis, lo que en algunos casos
no es una tarea fcil.
Hay tres tipos de hiptesis, a saber:
- Prueba de hiptesis a dos colas
H0:
=k
H1:
=k
H0:
H1 :
>k
H1 :
>k
=k
H0 :
H1 :
<k
H1 :
<k
Una vez establecidas las hiptesis, se selecciona el nivel de significancia o margen de error
que generalmente se fija entre el uno y el diez por ciento.
( ) el
=k
H1 :
=k
H1 :
>k
H0 :
H1 :
k
>k
=k
H0 :
H1 :
<k
H1 :
<k
En las distribuciones en el muestreo se vi que para el caso de la media, hay tres situaciones, por
consiguiente la estadstica de trabajo a utilizar depende de los supuestos de la poblacin y del tamao
de la muestra.
3.2.1 Prueba de hiptesis para la media si la poblacin de donde se obtiene la muestra tiene
distribucin normal con conocida.
La estadstica de trabajo a usar corresponde a la expresin (1.6):
(3.1)
Donde:
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como: H 1 :
k se tiene una prueba de hiptesis a dos
colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos
valores en los extremos de la distribucin como se aprecia en la figura 3.1
Figura 3.1 Regla de decisin para una prueba de hiptesis a dos colas.
y
pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z x)
est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1. Es decir:
Figura 3.2 Regla de decisin para una prueba de hiptesis a una cola superior.
Figura 3.3 Regla de decisin para una prueba de hiptesis a una cola inferior.
EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos aos da una produccin media
de 100 unidades por hora con una desviacin estndar de 8 unidades. Se acaba de introducir en el
mercado una nueva mquina para realizar ese tipo de producto. Aunque es muy cara comparada con
la que est ahora en uso, si la media de produccin de la nueva mquina es de ms de 150 unidades
por hora, su adopcin dara bastantes beneficios.
Para decidir si se debiera comprar la nueva mquina, a la gerencia de la fbrica se le permite hacer un
ensayo durante 35 horas, hallndose un promedio de 160 unidades por hora. Con sta informacin
qu decisin se debe tomar si se asume un nivel de confianza del 99 por ciento.
Solucin .
Segn el enunciado, solo se compra la mquina si la produccin es de ms de 150 unidades por hora,
por lo tanto las hiptesis son:
H0 :
= 150
H1 :
> 150
Para elegir la estadstica de trabajo se tiene en cuenta que se conoce la varianza poblacional, por lo
tanto se usa la expresin 3.1
Figura 3.4 Regla de decisin para una prueba de hiptesis a una cola inferior.
3.2.2 Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n
30 de una poblacin con cualquier distribucin.
La estadstica de trabajo a usar es la expresin (1.7):
REGLA DE DECISION
Es la misma que en el caso anterior y depende en todo caso de la hiptesis alternativa.
EJEMPLO
La duracin promedio de las llantas producidas por una fbrica de llantas, segn experiencias
registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal
efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duracin promedio de 45.050
kms. con una desviacin estndar de 3.070 kms.
Solucin
H1 :
= 46.050
46.050
Teniendo en cuenta que el tamao de la muestra es grande, como estadstica de trabajo se utiliza la
expresin 3.2
Figura 3.5 Regla de decisin para una prueba de hiptesis a dos colas
3.2.3 Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao
n<30 .
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o
corregida.
Si se utiliza la varianza sin corregir (
(3.3)
Si se utiliza la varianza corregida la estadstica de trabajo es la expresin (1.9):
(3.4)
EJEMPLO
En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria de doce
(12) sobres de caf de una empacadora. Se encuentra que el peso promedio del contenido de caf de
cada sobre es 15,97 grs. con una desviacin estndar de 0,15. La compaa empacadora afirma que el
peso promedio mnimo del caf es de 16 grs. por sobre. Puede aceptarse sta afirmacin si se asume
un nivel de confianza del 90 por ciento?
Solucin
Se desea probar si el peso mnimo es de 16 grs., es decir mayor o igual a 16 grs., as que las hiptesis
adecuadas son:
H0 :
16
H1 :
< 16
Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la
expresin 3.3
Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la
expresin 3.3
Como lo indica la hiptesis alternativa, se trabaja a una cola inferior en la tabla de la distribucin t con
11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363
Como puede observarse (figura 3.6), la estadstica de trabajo (-0,663) est ubicada en la zona de no
rechazo de la hiptesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza
que los empacadores de caf tienen la razn, por lo tanto se concluye que el peso promedio de los
sobres de caf es mayor o igual a 16 grs.
Figura 3.6 Regla de decisin para una prueba de hiptesis a una cola inferior
=k
H1 :
=k
H1 :
>k
H0 :
H1 :
k
>k
=k
<k
H0 :
H1 :
<k
Cuando se va a estimar una proporcin el tamao de la muestra (n) siempre debe ser mayor a 30, por
lo tanto se tiene un solo caso.
La estadstica de trabajo a utilizar es la expresin (1.13):
(3.5)
REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1:
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura 3.1
y
pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z p)
est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si
< Zp <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia (
en la parte superior de la distribucin, vase figura 3.2
EJEMPLO
Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que
suministra a una fbrica guardan las formas especificadas. Un examen de 200 de esas piezas revel
que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto.
Solucin
H0 :
0,9
H1 :
< 0,9
Para realizar una prueba de hiptesis para la proporcin se utiliza la expresin 3.5
Asumiendo una confiabilidad del 95 por ciento, el valor correspondiente a Z en la distribucin normal
es -1,64
Como puede observarse en la figura 3.7, el valor de la estadstica de trabajo se encuentra en la zona
de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye
que la afirmacin del fabricante no es cierta.
Figura 3.7 Regla de decisin para una prueba de hiptesis a una cola inferior
=k
H1 :
H0 :
=k
H0 :
H1 :
>k
H1 :
>k
=k
H1 :
H1 :
<k
H1 :
<k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o
corregida.
Si se utiliza la varianza sin corregir (
(3.6)
Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):
(3.7)
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura 3.8
Figura 3.8 Regla de decisin para una prueba de hiptesis a dos colas
y
pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de
trabajo (T) est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo
cual implica aceptar H1 . Es decir, si
<T<
no se rechaza H0.
- Si se ha planteado la hiptesis alternativa como:
H1 :
> k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia (
) en la parte superior de la distribucin, vase figura 3.9
Figura 3.9 Regla de decisin para una prueba de hiptesis a una cola superior
Z1- pertenece a una distribucin X 2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo
(T) es menor que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si T <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 :
< k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
) en la parte inferior de la distribucin, vase figura 3.10
Figura 3.10 Regla de decisin para una prueba de hiptesis a una cola inferior
Z pertenece a una distribucin X 2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo
(T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si T >Z no se rechaza H0.
EJEMPLO
Se supone que los dimetros de cierta marca de vlvulas estn distribuidos normalmente con una
varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una
muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes
resultados en pulgadas: 5,5
5,4
5,4
5,6
5,8
5,4
5,5
5,4
5,6
5,7
Con sta informacin pruebe si lo que se cree es cierto.
Solucin
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 :
= 0,2
H1 :
> 0,2
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9
grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el
valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por
consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no
ha aumentado.
Figura 3.11 Regla de decisin para una prueba de hiptesis a una cola superior
Cuando se planteen las hiptesis debe quedar en el numerador la poblacin cuya muestra tenga
mayor varianza. Es decir que la poblacin 1 ser la que tenga mayor varianza muestral.
Hiptesis
Se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :
H1 :
H0 :
H1 :
/
/
=1
1
H0 :
H1 :
>
H1 :
>1
H0 :
H1 :
<
H1 :
<1
(3.8)
REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1 :
H1 :
/
1 se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.8
y
pertenecen a una distribucin F con (n1 -1) grado de libertad en el numerador y (n 2-1) grado
de libertad en el denominador. Si el valor de la estadstica de trabajo (T) est entre
y
no se
rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es decir, si
<
T<
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 :
>
H1 :
/
> 1 , se tiene una prueba de hiptesis a una cola superior, quedando el nivel
de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.9
Z 1- a pertenece a una distribucin F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado
de libertad en el denominador. Si el valor de la estadstica de trabajo (T) es menor que Z 1- a no se
rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T <
Z 1- a no se rechaza H o .
- Si se ha planteado la hiptesis alternativa como:
H1 :
<
H1 :
/
< 1 , se tiene una prueba de hiptesis a una cola inferior, quedando el nivel
de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.10
Z a pertenece a una distribucin F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de
libertad en el denominador. Si el valor de la estadstica de trabajo (T) es mayor que Z a no se rechaza
la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no
se rechaza H0 .
EJEMPLO
Dos fuentes de materias primas estn siendo consideradas. Ambas fuentes parecen tener
caractersticas similares, pero no se est seguro de su homogeneidad. Una muestra de 10 grupos de la
fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una
varianza de 195. Con base en sta informacin se puede concluir que la varianza de la fuente A es
significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento.
Solucin
H
H1 :
A=
A>
B
B
Con un nivel de confianza del 99 por ciento, en la tabla de la distribucin F con 9 grados de libertad en
el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como
puede observarse en la figura 3.12, el valor de la estadstica de trabajo est en la zona de no rechazo
de la hiptesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la
variabilidad de las dos fuentes de materia prima es igual.
Figura 3.12 Regla de decisin para una prueba de Hiptesis a una cola superior
H1 :
H0 :
H1 :
=k
k
H0 :
H1 :
>
H1 :
>k
H0 :
H1 :
<
H1 :
<k
La estadstica de trabajo depende de las caractersticas de las poblaciones y del tamao de las
muestras.
(3.9)
REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
>
H1 :
> k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.1
y
pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo est
entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica
aceptar H 1 . Es decir,
EJEMPLO
Un constructor est considerando dos lugares alternativos para construir un centro comercial. Como
los ingresos de los hogares de la comunidad son una consideracin importante en sta seleccin,
desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda
comunidad en cuando menos $1.500 diarios. Con la informacin de un censo realizado el ao anterior
sabe que la desviacin estndar del ingreso diario de la primera comunidad es de $1.800 y la de la
segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario
promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso
promedio diario es de $34.600. Pruebe la hiptesis con un nivel de confianza del 95 por ciento.
Solucin
Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o ms, por lo
tanto:
H0 :
1.500
H1 :
< 1.500
El tamao de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la
estadstica de trabajo a utilizar es la expresin 3.9
Para un nivel de confianza del 95 por ciento, en la tabla de la distribucin normal se tiene un valor de
Z de -1,64. Como puede observarse en la figura 3.13, la estadstica de trabajo se ubica en la zona de
aceptacin de la hiptesis nula; por lo tanto, con una confiabilidad del 95 por ciento, la diferencia
entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.
Figura 3.13 Regla de decisin para una prueba de hiptesis a una cola inferior
(3.10)
REGLA DE DECISIN
La regla de decisin es la misma que en caso anterior y en todo caso, depende de la hiptesis
alternativa.
EJEMPLO
Una muestra de 80 alambres de acero producidos por la fbrica A presenta una resistencia promedio a
la ruptura de 1.230 lbs . con una desviacin estndar de 120 lbs .. Una muestra de 100 alambres de
acero producidos por la fbrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con
una desviacin estndar de 90 lbs .. Con base en sta informacin pruebe si la resistencia promedio a
la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres
de acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Solucin
H0 :
A=
H1 :
A>
El tamao de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la
estadstica de trabajo a utilizar es la expresin 3.10
Con un nivel del confianza del 99 por ciento, en la tabla de la distribucin normal el valor de Z es 2,33.
como puede observarse en la figura 3.14, la estadstica de trabajo est en la zona de rechazo de la
hiptesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia
promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de
los alambres de la marca B.
Figura 3.14 Regla de decisin para una prueba de hiptesis a una cola superior
(3.11)
REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores, pero los valores de la tabla se hallan en
una distribucin t con (n1 +n2 -2) grados de libertad.
Nota . Cuando se tienen muestras pequeas y se va a realizar una prueba de hiptesis para la
diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o diferentes, lo
cual se hace con la prueba de hiptesis para el cociente de varianzas. Si las varianzas son iguales se
aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4.
EJEMPLO
Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las bolsas de
papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal efecto se tom una
muestra aleatoria de 25 bolsas, midindose la cantidad de cera en cada lado de esas bolsas,
obtenindose los siguientes resultados:
Con base en esta informacin cul es su conclusin?. Asuma un nivel de confianza del 90 por ciento.
Solucin
Con la informacin suministrada se obtienen los estimadores necesarios:
En consideracin a que el tamao de las muestras es pequeo, antes de realizar la prueba de hiptesis
para la diferencia de medias, se debe probar si las varianzas poblacionales son iguales o diferentes.
H0 :
=1
H1 :
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 24 grados de libertad en el
numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es 0,505 y el valor de Z 0,95
es 1,98. como puede observarse en la figura 3.15, la estadstica de trabajo cae en la zona de no
rechazo de la hiptesis nula, por consiguiente las varianzas poblacionales son iguales.
Como las varianzas poblacionales son iguales, para realizar la prueba de hiptesis para la diferencia de
medias se usa la expresin 3.11
H0 :
H1 :
I>
E
E
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin t con 48 grados de libertad, el
valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadstica de trabajo se encuentra en
la zona de no rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 90 por ciento se
concluye que la cantidad promedio de cera en el lado interno no es mayor que la cantidad promedio
de cera en el lado externo.
Figura 3.16 Regla de decisin para una prueba de hiptesis a una cola superior
(3.12)
REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores pero los valores de la tabla se hallan en
una distribucin t con k grados de libertad, siendo:
(3.13)
EJEMPLO
Un fabricante de bombillos sospecha que una de sus lneas de produccin est produciendo bombillos
con una duracin promedio menor que la de otra lnea. Para probar su sospecha toma una muestra
aleatoria de 16 bombillos de la lnea sospechosa (s) y 18 de la otra lnea (c), obteniendo los siguientes
resultados:
Con sta informacin cul es su conclusin si se asume un nivel de confianza del 90 por ciento.
Solucin
Como el tamao de las muestras es pequeo, para decidir cul es la estadstica de trabajo adecuada
para la prueba de hiptesis de la diferencia de medias, primero se debe probar si las varianzas
poblacionales son iguales o no.
H0 :
=1
H1 :
Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 15 grados de libertad en el
numerador y 17 grados de libertad en el denominador, el valor de Z 0,05 es 0,43 y el valor de Z 0,95
es 2,31. como puede observarse en la figura 3.17, la estadstica de trabajo cae en la zona de rechazo
de la hiptesis nula, por consiguiente las varianzas poblacionales son diferentes.
Figura 3.17 Regla de decisin para una prueba de hiptesis a dos colas
Considerando que las varianzas poblacionales son diferentes, la estadstica de trabajo a utilizar para la
prueba de hiptesis para la diferencia de medias es la expresin 3.12
H0 :
S=
H1 :
S<
En la tabla de la distribucin t, con 26 grados de libertad y una confiabilidad del 90 por ciento, el valor
de Z es -1,315. Como se observa en la figura 3.18, la estadstica de trabajo cae en la zona de no
rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que no
hay diferencia en el promedio de produccin de las dos lneas.
Figura 3.18 Regla de decisin para una prueba de hiptesis a una cola inferior
Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :
1=
H1 :
2 H0 :
2 H1 :
1-
1-
2=k
1=
2 H0 :
H1 :
1>
2 H1 :
11-
2 k
2>k
1=
2 H0 :
H1 :
1<
2 H1 :
11-
2<k
(3.14)
REGLA DE DECISION
Como en los casos anteriores depende del tipo de hiptesis que se haya planteado.
- Si se ha planteado la hiptesis alternativa como:
H1 : 1
2 H1 : p 1 - p 2 k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.1
y
pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Z p1)
est
entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
p2
aceptar H1 . Es decir, si
< Zp1-p2 <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : 1 > 2 H1 : 1 - 2 > k, se tiene una prueba de hiptesis a una cola superior, quedando el
nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2
pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es menor
que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es
decir, si Zp1-p2 <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : 1 < 2 H1 : 1 - 2 < k, se tiene una prueba de hiptesis a una cola inferior, quedando el
nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3
Z pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Z p1-p2) es
mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar
H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .
EJEMPLO
Se seleccion una muestra aleatoria de 100 hombres y 100 mujeres de un departamento de
Colombia; se hall que de los hombres 60 estaban a favor de una ley de divorcio y de las mujeres 55
estaban a favor de dicha ley. Con base en sta informacin, pruebe que la proporcin de hombres que
favorece sta ley es mayor que la proporcin de mujeres. Asuma un nivel de confianza del 99 por
ciento.
Solucin
H0 :
H=
H1 :
H>
Por la hiptesis alternativa se trabaja a una cola superior. En la tabla de la distribucin normal con una
confiabilidad del 99 por ciento, el valor de Z es 2,33. La estadstica de trabajo est en la zona de no
rechazo de la hiptesis nula (figura 3.19), es decir, con una seguridad del 99 por ciento se concluye
que no hay diferencia en la proporcin de hombres y mujeres que favorecen la ley de divorcio.
Figura 3.19 Regla de decisin para una prueba de hiptesis a una cola superior
Estadstica de Trabajo
(3.15)
EJEMPLO
Se desea probar si la estatura de los empleados tiene distribucin normal. Se toma una muestra
aleatoria de 200 empleados a quienes se les pregunta su estatura en pulgadas. Los resultados
obtenidos son:
ESTATURA
57,5-63,5
63,5-69,5
69,5-72,5
72,5-78,5
No. EMPLEADOS
29
75
68
28
ESTATURA
nj
pj
ej =n pj
57,5 - 63,5
29
0,.1335
26,70
63,5 - 69,5
75
0,4613
92,26
69,5 - 72,5
68
0,2264
45,28
72,5 - 78,5
28
0,1788
35,76
TOTAL
n = 200
1,0000
200
Con una confiabilidad del 95 por ciento, en una tabla de la distribucin chi-cuadrado y un grado de
libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra: k=2,
promedio y desviacin estndar. Entonces m-k-1 = 1) se obtiene un valor para Z de 3,84. El valor de
la estadstica de trabajo est en la zona de rechazo de la hiptesis nula (Figura 3.21), por lo tanto con
una confiabilidad del 95 por ciento, se acepta que la estatura de los empleados no tiene distribucin
normal.
OTROS EJEMPLOS
OTROS EJEMPLOS :
Ejemplo 2
Se distribuy el nmero de clientes que visitaron la oficina de un joven abogado durante sus primeros
102 das de prctica, de la siguiente manera:
No. DE CLIENTES
No. DE DIAS
40
36
16
=1. Conocido el
Para el clculo de la estadstica de trabajo se debe tener en cuenta que cada una de las frecuencias
esperadas debe ser mayor o igual a 5; para cumplir esta condicin se deben unir las tres ltimas
clases obtenindose as una frecuencia esperada de 8,16 y una frecuencia observada de 10.
Tabla 3.2 Clculo de las frecuencias esperadas
No. DE CLIENTES
No. DE DIAS
pj
ej
40
0,368
37,536
36
0,368
37,536
16
0,184
18,768
0,061
6,222
0,015
1,53
0,004
TOTAL
N=102
1,000
0,408
Asumiendo una confiabilidad del 99 por ciento, en una tabla de la distribucin chi-cuadrado y dos
grados de libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra,
la media, k=1. Entonces m-k-1 = 2) se obtiene un valor para Z de 9,21. El valor de la estadstica de
trabajo est en la zona de no rechazo de la hiptesis nula (Figura 3.22), por lo tanto con una
confiabilidad del 99 por ciento, se concluye que el nmero de clientes que visitan al abogado tiene una
distribucin Poisson.
EJEMPLO
Si los autos llegan a una supermercado siguiendo un proceso de Poisson, el tiempo entre llegadas
sucesivas es una variable aleatoria con distribucin exponencial. Se registraron las horas de llegada
para todos los automviles durante 2 horas y los tiempos entre llegadas (en minutos) se resumen a
continuacin:
1-2
2-3
No. DE AUTOS
40
29
15
TIEMPO
nj
pj
ej
40
0,5084
46,77
1-2
29
0,2499
22,99
2-3
15
0,1229
11,31
=0,71
TOTAL
0,1188
10,93
92
1,000
92
Asumiendo una confiabilidad del 95 por ciento, en una tabla de la distribucin chi-cuadrado y dos
grado de libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra:
k=1. Entonces m-k-1 = 2) se obtiene un valor para Z de 5,99. El valor de la estadstica de trabajo
est en la zona de no rechazo de la hiptesis nula (Figura 3.23), por lo tanto con una confiabilidad del
95 por ciento, no se rechaza que el tiempo entre llegadas de los autos tiene una distribucin
exponencial.
La variable 1 tiene c niveles o clases y la variable 2 tiene r niveles, por lo tanto, el nmero de
elementos de la muestra que cae dentro de categora se puede resumir en la siguiente forma:
Variable
2
Var1
Total
.....
c-1
nj
N11
N12
...
n1c-1
n1c
n1
N21
N22
...
n2c-1
n2c
n2
...
...
...
...
...
...
...
nr1
nr2
...
nrc-1
nrc
nr
nj
n.1
n.2
...
n.c-1
n.c
nij : es el nmero de observado de elementos de la muestra que cae en el i-simo nivel de clasificacin
de la variable 2 y el j-simo nivel de clasificacin de la variable 1.
Sea pij la probabilidad de que un elemento seleccionado al azar caiga en el i-simo nivel de
clasificacin de la variable 2 y el j-simo de la variable 1.
Si los dos mtodos de clasificacin son independientes o las variables son independientes, la
probabilidad de que un elemento seleccionado al azar caiga en la clase ij es el producto de la
probabilidad de que caiga en la clase i por la probabilidad de que caiga en la clase j. Entonces,
suponiendo independencia de las dos variables:
(3.16)
Regla de decisin
El valor de la tabla se halla en una distribucin chi-cuadrado con (r-1)(c-1) grados de libertad y una
confiabilidad de (1-
no se rechaza
Nota . La frecuencia esperada en cada celda debe ser mayor o igual a cinco (e ij 5); si no se cumple
sta condicin, se deben unir las clasificaciones adyacentes de menor frecuencia y volver a hacer la
prueba. Si es una celda la que no cumple la condicin, se puede dejar as, ya que no afecta
seriamente la prueba, salvo que eij <1.
El supuesto de que cada e ij 5 es muy importante en una tabla dos por dos ya que slo tiene 1 grado
de libertad. Si no se cumple sta condicin se debe utilizar otro procedimiento.
El supuesto de que cada e ij 5 es muy importante en una tabla dos por dos ya que slo tiene 1 grado
de libertad. Si no se cumple sta condicin se debe utilizar otro procedimiento.
EJEMPLO
Con el propsito de saber si existe relacin entre el nmero de artculos defectuosos y el proceso
manufacturero utilizado se toma una muestra aleatoria de los artculos producidos por cada proceso,
obtenindose los siguientes resultados:
PROCESO
No DEFECTUOSO
DEFECTUOSO
TOTAL
94
100
90
10
100
85
12
97
TOTAL
269
28
297
Con una confiabilidad del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 2 grados de
libertad (r=3, c=2, entonces: (r-1)(c-1)=2) se obtiene un valor de 5,.99, (figura 3.23), por lo tanto la
estadstica de trabajo cae en la zona de no rechazo de la hiptesis nula, es decir no se rechaza que el
proceso utilizado y el nmero de artculos defectuosos producidos son independientes.
4. REGRESION Y CORRELACION
Cuando se posee informacin acerca de dos o ms variables relacionadas, es natural buscar un modo
de expresar la forma de la relacin funcional entre ellas. Adems, es deseable conocer la consistencia
de la relacin. Es decir, no se busca solamente una relacin matemtica que nos diga de qu manera
estn relacionadas las variables, sino que se desea saber tambin con qu precisin se puede predecir
o pronosticar el valor de una variable, si se conocen o suponen valores para las otras variables. Las
tcnicas usadas para lograr estos dos objetivos se conocen como mtodo de regresin y correlacin.
Los mtodos de regresin se usan para elegir la "mejor" relacin funcional entre las variables, es decir,
la funcin o ecuacin que mejor se ajuste a los datos. Mientras que los mtodos de correlacin se
utilizan para medir el grado de asociacin o de relacin entre las distintas variables.
Se debe tener en cuenta que la nica persona que puede decir con seguridad, que las variables
bsicas son las que se estn utilizando y que el mecanismo bsico opera de acuerdo con la funcin
matemtica elegida, es una persona bien entrenada en el asunto o campo en el cual se est
investigando. El anlisis estadstico es solamente un instrumento que ayuda en el anlisis e
interpretacin de los datos.
4.1 METODOLOGIA
Para dar un ejemplo de la metodologa, consideramos la teora Keynesiana del consumo 1 : los hombres
estn dispuestos, por regla general y en promedio, a aumentar su consumo a medida que su ingreso
crece, aunque no tanto como el crecimiento de dicho ingreso.
Especificacin del modelo . Aunque Keynes postula una relacin positiva entre consumo e ingreso,
no especifica la forma precisa de la relacin funcional entre las dos variables, entonces se puede
sugerir la siguiente forma para la funcin de consumo de Keynes:
Y=
donde:
Y: son los gastos de consumo
X: ingreso
y
parmetros, siendo
Estimacin : especificado el modelo, se hacen las estimaciones de los parmetros del modelo a partir
de los datos disponibles.
Verificacin : Una vez obtenidas las estimaciones de los parmetros, se establece si las estimaciones
obtenidas estn de acuerdo con lo que se espera de la teora que se est verificando.
Predicciones : La ecuacin obtenida se utiliza para predecir el valor futuro de la variable dependiente
con base en valores supuestos para la variable independiente.
______________________________________________________________________
Gujarati, Damodar. Econometra , Segunda edicin. Ed. Mc Graw Hill. Bogot, 1990.
Xi
se denominan coeficientes de
Para un valor dado de Xi , los valores de Y se concentran alrededor del promedio de Y, lo cual indica
que se van a presentar algunas diferencias o desviaciones de un valor individual de Y i alrededor de su
valor esperado, por lo tanto:
Y i = E(Y/Xi ) + ui
Donde ui es una variable aleatoria que toma valores positivos o negativos. Esta u i se puede considerar
como una variable sustitutiva de todas las variables omitidas que pueden afectar a Y, pero que por una
u otra razn no pudieron incluirse en el modelo de regresin.
Reemplazando el E(Y/Xi ) se tiene:
Yi=
Xi + ui
El caso ms simple de regresin es cuando se tienen dos variables (una dependiente y una
independiente o explicativa), es decir, n parejas de datos.
Una vez especificadas las variables es necesario determinar la relacin entre ellas, de la cual se puede
tener una idea general, graficando las variables en un sistema de coordenadas, en donde, en el eje de
las abscisas se ubica la variable independiente y en el de las ordenadas la variable dependiente; esta
grfica se llama nube de puntos .
La relacin ms sencilla es la lineal, la funcin de regresin poblacional es:
Yi =
Xi + ui
Donde:
Debido a que los valores observados no forman exactamente una lnea recta, es necesario elegir un
mtodo para estimar los coeficientes de regresin
que haga mnima la diferencia entre los
valores observados y los estimados o ajustados, este mtodo es el de los mnimos cuadrados, (el
procedimiento para obtener estos coeficientes se halla en el anexo A) el cual proporciona las
ecuaciones 4.2 y 4.3:
2. No existe Autocorrelacin entre los errores; por lo tanto la covarianza (Cov) de los errores es igual
a cero, Cov (ei , ej ) = 0 , lo cual implica que no existe Autocorrelacin en la variable dependiente, es
decir, Cov (Yi , Yj ) = 0.
3. La varianza de los errores es constante, es decir existe la Homocedasticidad V(e i /Xi ) =
, lo cual
Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuacin ajustada a
unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y. La distancia que hay
entre el valor observado y la media
, es decir:
y la distancia
Siendo:
: Distancia Total.
(4.4)
Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variacin de los
residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la ayuda de X y la
otra parte describe los valores ajustados de Y, es decir, representa aquella porcin de la SCT que ha
sido explicada por la regresin de Y sobre X.
Dividiendo la ecuacin 4.4 por SCT se obtiene:
Donde:
La medida que indica si la variacin de los coeficientes es grande o pequea es la desviacin o error
estndar de cada uno de ellos.
La desviacin es un valor necesario para evaluar la confiabilidad de una ecuacin de regresin. Cuando
las desviaciones para los coeficientes de regresin son pequeas, se puede esperar que el valor
estimado o proyectado para la variable dependiente sea confiable. El problema radica en que el valor
del error o la desviacin estndar de stos coeficientes est relacionado con la magnitud de los
coeficientes de regresin; por lo tanto, no se puede decir a partir de dnde un error es grande o
pequeo y es por sta razn que los errores se utilizan para hacerle prueba de hiptesis a cada uno de
los coeficientes de regresin.
Las frmulas para obtener los errores de los coeficientes de regresin son las siguientes:
H1 :
Estadstica de trabajo:
, es un estimador puntual
es:
Este intervalo se interpreta como los valores dentro de los cuales aumentar (si
o disminuir
si
la variable dependiente (Y) por cada aumento de una unidad en la variable independiente
(X), con un nivel de confianza del (1- ) por ciento.
4.2.7 Proyeccin
El principal objetivo del anlisis de regresin es el proyectar o estimar el valor de la variable
dependiente (Y) cuando se conoce o se supone un valor para la variable independiente (X). Este
objetivo se logra cuando se reemplaza en la ecuacin de regresin 4.1 el valor supuesto para X. El
valor obtenido, es una estimacin puntual, por lo tanto se puede construir una estimacin por
intervalo, ya sea para el valor individual de Y dado un valor de X o para el valor promedio de Y.
4.2.7.1 Proyeccin individual. Si se desea el intervalo de confianza para el valor individual de Y i
dado un valor de X como X i , es necesario obtener la desviacin estndar para esta estimacin, la cual
es:
4.2.7.2 Proyeccion media. Como en el caso anterior, para obtener el valor promedio de Y dado un
valor de X como Xi , se debe obtener la desviacin estndar para esta estimacin:
Cuando se utiliza la ecuacin de regresin para hacer proyecciones, se debe tener muy presente que a
medida de que nos alejemos del rango dentro del cual se observ X, la proyeccin pierde confiabilidad
y adems estos valores proyectados tienen sentido en la medida que se conserven las condiciones
bajo las cuales se observaron las variables.
Despus de realizado el anlisis de regresin, se deben tener algunos criterios para saber
qu tan "buenos" son los resultados?. Ante todo, los signos de los coeficientes estimados deben estar
de acuerdo con las expectativas tericas o previas.... Segundo, si la teora o la experiencia previa nos
lleva a creer que un coeficiente determinado es, en trminos estadsticos, significativamente diferente
de cero, ... ,entonces si los resultados reales son de hecho significativos, nuevamente se puede decir
que stos son consistentes con la teora. Tercero, puesto que el R 2 mide la bondad global del ajuste del
modelo de regresin estimado, se puede decir que el modelo es satisfactorio si el valor de R 2 es
razonablemente alto, digamos, alrededor de 0,8. Pero este criterio no se debe ponderar
demasiado , puesto que siempre se puede aumentar el R 2 agregando al modelo variables
explicativas adicionales. Por tanto, si los dos primeros criterios se cumplen y R 2 es razonablemente
alto, todo est bien. Pero si se satisfacen los dos primeros criterios y el valor de R 2 es bajo, por
ejemplo, menor que 0.6, no debemos desanimarnos." 1
EJEMPLO
Con la informacin sobre el consumo anual de agua y el nmero de suscriptores al servicio de
acueducto en Manizales entre 1977 y 1988 (cuadro 4.1) se aplica toda la teora vista anteriormente.
Primero se debe identificar cul es la variable dependiente y cul la independiente; en ste caso, el
consumo de agua depende del nmero de suscriptores.
Para tener una idea general sobre el modelo o ecuacin que se puede ajustar a stos datos se grafica
la informacin en un sistema de coordenadas (Figura 4.4). En sta grfica se puede observar que los
datos siguen un comportamiento aproximadamente lineal; por lo tanto se trabaja con la ecuacin 4.1.
Cuadro 4.1. Manizales: consumo anual facturado (en miles de metros cbicos) y nmero de
suscriptores al servicio de acueducto en el sector residencial. 1977-1988
AOS
CONSUMO (Y)
SUSCRIPTORES (X)
1977
9.775
22.192
1978
11.028
23.256
1979
11.120
24.747
1980
13.267
27.869
1981
12.045
29.636
1982
12.879
32.458
1983
13.740
36.230
1984
13.673
39.074
1985
13.593
40.729
1986
13.940
41.823
1987
14.990
43.380
1988
15.163
44.684
Para obtener
El coeficiente de interseccin (
) indica que el consumo promedio anual de agua, debido a otras
variables no consideradas en el modelo, es de 6'636.730 (6.636,73 * 1000) metros cbicos.
La pendiente por ser positiva, indica que hay una relacin directa entre el nmero de suscriptores y
el consumo de agua. El valor de 0,1861 indica que por cada suscriptor ms, el consumo anual de agua
se incrementa en 186,1 (0,1861 * 1000) metros cbicos.
El coeficiente de determinacin (R2 ) se obtiene con la ecuacin 4.5, para lo cual es necesario hallar la
Suma de Cuadrados Explicada (SCE) y la Suma de Cuadrados Total (SCT), con las ecuaciones 4.6 y
4.7 respectivamente.
La Suma de Cuadrados de los Residuos (SCR) se obtiene con la ecuacin 4.8:
Este resultado indica que la ecuacin es confiable, ya que tenemos un valor cercano a 1. Adems,
quiere decir que el 86,26% del consumo de agua se debe o est explicado por el nmero de
suscriptores.
Para hacerle la prueba de hiptesis a cada uno de los coeficientes de regresin ( b 0 y b 1 ), es
necesario hallar los errores de los coeficientes, los cuales se obtienen con las ecuaciones 4.10 y 4.11:
Regla de decisin: Para una confiabilidad del 95%, el valor en la distribucin t con 10 grados de
libertad es: 2,228. El valor de la estadstica de trabajo (T) est en la zona de rechazo para H 0 (figura
4.5), por lo tanto se acepta que b 0 es diferente de cero, es decir que el coeficiente de interseccin es
necesario en el modelo.
H0 :
H1 :
El valor de la estadstica de trabajo (T) est en la zona de rechazo para H 0 (figura 4.5), por lo tanto se
acepta H1 , lo cual indica que s hay relacin entre el consumo de agua y el nmero de suscriptores.
Con el valor obtenido en el coeficiente de determinacin, los signos de los coeficientes de regresin y
el resultado de las pruebas de hiptesis se puede concluir que el modelo es confiable y por lo tanto, lo
son las proyecciones o pronsticos que se hagan con dicho modelo.
Intervalo de confianza para
: El valor que se obtuvo para b 1 es una estimacin puntual. La
estimacin por intervalo se obtiene con la ecuacin 4.13:
Indicando que con una confiabilidad del 95%, por cada suscriptor ms, el consumo anual de agua se
incrementa entre 129 y 234 metros cbicos.
Proyeccin media . Se desea estimar o proyectar el consumo promedio anual de agua, si se tienen
52.900 suscriptores.
Por lo tanto, si se tienen 52.900 suscriptores, el consumo promedio anual de agua, es de 16'508.420
metros cbicos.
La desviacin estndar para ste valor proyectado, se obtiene con la ecuacin 4.16:
El intervalo de confianza para el consumo promedio anual, se obtiene con la ecuacin 4.17:
Por lo tanto, con una confiabilidad del 95%, si el nmero de suscriptores es de 52.900, el consumo
promedio anual de agua, estar entre 15'430.270 y 17' 585.730 metros cbicos .
________________________________________________________________
Ibid . p. 128-129.
Si una variable dependiente (Y) est relacionada linealmente con K variables independientes, su
relacin funcional puede describirse como una generalizacin de la funcin de regresin muestral, con
el siguiente modelo:
Si se hacen n observaciones se tienen n ecuaciones con K incgnitas cada una; stas son:
El primer subndice corresponde al nmero de la variable y el segundo al de la observacin.
Las n ecuaciones anteriores se pueden expresar matricialmente de la siguiente forma:
Donde:
Y : vector columna con datos de la variable dependiente, de n*1
X : matriz de datos de las variables independientes, de n*(k+1)
Lo que interesa es estimar los valores para el vector de los coeficientes de regresin ( ). Esta
estimacin se obtiene utilizando el mtodo de los mnimos cuadrados (en el anexo C se presenta la
demostracin), a partir del cual se obtiene que:
Mide el efecto total de la variable dependiente cuando todas y cada una de las variables
aumenta una unidad.
4.3.1 Coeficiente de determinacin.
Para evaluar la bondad o confiabilidad del modelo de regresin se utiliza el coeficiente de
determinacin y las pruebas de hiptesis para cada uno de los coeficientes de regresin.
donde:
(x'x)-1 : es el elemento (i+1) de la diagonal principal de la matriz (X'X) -1
SCR: es la suma de cuadrados de los residuos .
H1 :
Si se acepta la de hiptesis nula, se est aceptando que no hay relacin entre Y y X i , por lo tanto,
sta variable se debe sacar del modelo.
La estadstica de trabajo se resuelve suponiendo que la hiptesis nula (H 0 ) es verdadera. Dicha
estadstica de trabajo es:
Regla de decisin . Si el nmero de observaciones es mayor que 30, los valores de Z se hallan en la
distribucin normal. Si el nmero de observaciones es menor o igual a 30 , los valores de Z se hallan
en la distribucin t con n-k-1 grados de libertad. Siendo k el nmero de variables independientes en el
modelo.
<T<
Una vez elegidas las variables independientes que realmente influyen en el comportamiento de Y, se
pueden construir intervalos de confianza para cada uno de los coeficientes de regresin poblacional (
)
Este intervalo nos proporciona, con una confiabilidad del (1- )%, los valores dentro de los cuales
variar Y si Xi vara en una unidad y las dems variables permanecen constantes. El intervalo se
construye as:
4.3.4 Proyeccin.
Cuando se tiene un modelo de regresin mltiple y se desea hacer una proyeccin, se supone un valor
para cada una de las variables independientes. Con estos valores se construye el vector x 0 , que tiene
la siguiente forma:
El valor proyectado de Y se obtiene haciendo el producto entre la traspuesta del vector x 0 y el vector
de los coeficientes de regresin
as:
La desviacin estndar o el error para el valor proyectado se obtiene con la siguiente expresin:
Donde:
X0' es la traspuesta del vector que contiene los valores supuestos para las variables independientes.
4.3.4.2 Intervalo de confianza para la proyeccin media. El intervalo de confianza para la
proyeccin del valor promedio de Y es:
La desviacin estndar o error para el valor promedio de Y se obtiene con la siguiente expresin:
4.4
ATRIBUTOS
DE
UN
BUEN
MODELO
DE
REGRESION
Una vez obtenido el modelo de regresin debe evaluarse integralmente, los principales criterios a
tener en cuenta son los siguientes:
Parsimonia . ... un modelo se debe mantener tan simple como sea posible, ... Lo anterior implica
sencillamente que se deben introducir ms pocas variables claves en el modelo y que constituyen la
esencia del fenmeno que se est estudiando, relegando todas las influencias menores y aleatorias el
error e t .
Identificabilidad . Significa que para un conjunto de datos determinado, los parmetros estimados
deben tener valores nicos o, lo que es lo mismo, existe nicamente un estimativo para un parmetro
dado.
Bondad del ajuste . Puesto que la razn bsica de los modelos de regresin es lograr explicar la
mayor cantidad posible de la variacin de la variable dependiente utilizando variables explicativas
incluidas en el modelo, se dice que este es bueno si esta explicacin, medida por el coeficiente de
determinacin ajustado, es tan alta como sea posible. ... el criterio del R 2 elevado por s mismo no se
debe sobreestimar, sino que junto con otros criterios (por ejemplo, signos o valores de los coeficientes
esperados a priori), un R 2 elevado siempre debe constituir un signo alentador de un ajuste
aparentemente adecuado.
Consistencia terica . Un modelo puede no ser bueno, a pesar de que se obtenga un R 2 alto, si los
signos de uno o ms de los coeficientes de regresin estimados tienen los signos equivocados.
Poder predictivo . ...la nica prueba de validez relevante de una hiptesis (modelo) es la
comparacin de sus predicciones con la experiencia 1.
________________________________________________________________________
Ibid. p. 337-338.
EJEMPLO
A continuacin se desarrolla un ejemplo sobre regresin mltiple, en donde se aplica toda la teora
vista anteriormente.
En el cuadro 4.2, se presenta la informacin correspondiente a la edad (en aos), la estatura (en cms)
y el peso en (Ks.)de un grupo de estudiantes de la universidad Nacional, Sede Manizales.
Cuadro 4.2 Edad, estatura y peso de un grupo de estudiantes de la Universidad Nacional Sede
Manizales. 1993.
EDAD
ESTATURA
PESO
EDAD
ESTATURA
PESO
EDAD
ESTATURA
PESO
23
178
58
20
174
70
20
180
75
20
172
65
21
170
65
21
175
72
20
167
60
22
170
65
25
160
52
23
161
65
23
165
65
21
173
59
22
163
50
22
173
65
20
163
56
20
165
65
25
165
65
22
158
50
22
173
63
24
180
65
21
170
66
23
157
50
25
180
70
22
164
59
21
148
47
21
177
62
21
165
48
20
158
51
23
162
60
22
160
52
21
178
62
22
171
66
21
160
50
26
160
53
30
165
65
22
174
64
26
155
55
20
162
58
22
175
53
32
155
54
23
168
53
20
175
53
22
150
50
24
160
53
26
180
72
23
163
55
22
165
54
24
177
67
23
150
41
28
170
78
21
180
70
30
169
75
28
179
79
22
180
68
25
169
64
22
180
75
19
178
72
24
179
70
21
171
56
20
170
48
28
173
73
23
150
68
19
156
48
24
169
70
24
160
58
21
167
51
28
156
48
21
163
53
24
175
70
25
170
78
21
173
52
21
172
60
21
165
53
21
175
90
22
176
72
23
180
72
20
180
69
X 2 : es la edad en aos
Para hallar los coeficientes de regresin ( i) se puede utilizar un paquete estadstico como el
Statgraphics o se puede hacer manualmente, para lo cual se debe resolver la ecuacin (4.20).
Como se tienen 2 variables independientes, la dimensin de la matriz (X'X) es de 3*3 y la de (X'Y) es
de 3*1. Estas matrices contienen la siguiente informacin:
1 = 0,7949 indica que por cada centmetro ms en la estatura de una persona y permaneciendo
constante la edad, el peso se aumenta en 0,7949 kilos.
2 = 0,9825 indica que por cada ao ms que tenga una persona y permaneciendo constante la
estatura, el peso se aumenta en 0,9825 kilos.
Para evaluar el modelo, es decir su grado de confiabilidad, se halla el coeficiente de determinacin
El coeficiente de determinacin significa que el 52,39% del peso de una persona, se debe o est
explicado por la estatura y la edad.
Para determinar si cada una de las variables presentes en el modelo, realmente estn relacionadas
con el peso (Y), se realiza la prueba de hiptesis para cada una do los coeficientes de regresin.
Para hacer sta prueba, es necesario hallar los errores de cada uno de los coeficientes de regresin
con la ecuacin (4.27)
Para realizar las pruebas de hiptesis se utiliza la ecuacin (4.28) y se plantean en los siguientes
trminos:
Prueba de hiptesis para
H0 :
H1 :
Como el tamao de la muestra es grande (n=77), los valores para construir la regla de decisin se
hallan en una tabla de la distribucin normal para un nivel de confianza del 95% . El valor de la
estadstica de trabajo es -5,42, por lo tanto, se rechaza la hiptesis nula (figura 4.7), lo cual implica
que s se necesita el coeficiente de interseccin en el modelo.
H1 :
La regla de decisin es la misma que para la prueba anterior, en ste caso se acepta la hiptesis
alternativa, por lo tanto, la estatura y el peso s tienen relacin, lo cual equivale a decir que la variable
estatura s se necesita en el modelo.
H0 :
H1 :
En esta ocasin tambin se rechaza la hiptesis nula, por lo tanto, la edad y el peso s estn
relacionados, es decir, que la variable edad se necesita en el modelo.
Considerando el resultado de las pruebas de hiptesis, se concluye que el peso s est relacionado con
las variables edad y estatura.
Intervalos de confianza para los coeficientes de regresin. Para la construccin de los intervalos
de confianza se utiliza la ecuacin (4.29)
Con una confiabilidad del 95% y permaneciendo constante la edad, por cada centmetro ms de
estatura, el peso aumenta entre 0,62 y 0,97 kilos.
Es decir, que con una confiabilidad del 95%, por cada ao ms de una persona el peso aumenta entre
0,41 y 1,55 kilos, siempre y cuando la estatura permanezca constante.
Proyeccin
Se desea estimar el peso de una persona de 26 aos que tiene 168 cms. de estatura. La estimacin se
obtiene reemplazando los valores de las variables en la ecuacin de regresin
Por lo tanto el peso estimado para una persona de 26 aos que mida 168 cms. es de 64,6 kilos.
El error para el valor estimado se obtiene con la ecuacin (4.33):
Por lo tanto, con una confiabilidad del 95% se puede afirmar que el peso de una persona de 26 aos
que mide 168 cms. est entre 51,24 y 77,98 kilos.
4.5 SUPUESTOS DEL MODELO DE REGRESION
A continuacin se presenta un resumen de los principales aspectos de algunos de los supuestos del
modelo de regresin, los problemas que ocasiona el no cumplimiento de ellos, la forma de detectarlos
y la solucin presentada en Gujarati 1.
__________________________________________________________________
Ibid . p. 213-359
4.5.1 Los errores tienen distribucin normal, con media cero y varianza constante
Los errores tienen distribucin normal, con media cero y varianza constante. Este supuesto no es
esencial si el objetivo es nicamente la estimacin. Independientemente de que se cumpla este
supuesto o no los estimadores son insesgados. No obstante, con el supuesto de normalidad, los
estimadores de regresin tienen distribucin normal y se pueden utilizar las pruebas t y F para evaluar
las diferentes hiptesis estadsticas, independientemente del tamao de la muestra.
Si los errores no tienen distribucin normal, las pruebas t y F continan siendo vlidas para muestras
grandes, no as para muestras pequeas.
El supuesto de normalidad es muy importante para pruebas de hiptesis y proyeccin de cifras. Por lo
tanto, teniendo presente la necesidad de realizar estimaciones e hiptesis y dado que las muestras
pequeas son la regla general y no la excepcin en la mayora de los anlisis econmicos, se
continuar con el supuesto de normalidad.
4.5.2 Multicolinealidad
No debe existir multicolinealidad entre las variables explicativas o independientes. La multicolinealidad
originalmente implicaba la existencia de una relacin lineal "perfecta o exacta" entre algunas o la
totalidad de las variables independientes de un modelo de regresin. En la actualidad el trmino
multicolinealidad se utiliza en un sentido ms amplio para incluir el caso de multicolinealidad perfecta,
as como tambin aquella situacin en donde las variables X estn intercorrelacionadas, pero no en
forma perfecta.
La multicolinealidad, incluye nicamente las relaciones lineales entre las variables independientes y
elimina las relaciones no lineales existentes entre ellas. Por ejemplo consideremos el siguiente modelo
de regresin:
Y=
1X+
2 X2 +
3 X3 + e
4.5.2.2 Cmo detectar la multicolinealidad. Existen reglas generales, algunas de ellas formales y
otras informales, para detectar la multicolinealidad varias de ellas son:
- Se obtiene un coeficiente de determinacin muy alto, pero ninguno de los coeficientes de regresin
es estadsticamente significativo, con base en la prueba t.
- En un modelo de regresin con dos variables independientes, se puede tener una idea de la
presencia de colinealidad con el coeficiente de correlacin simple entre las dos variables
independientes.
- Cuando se tiene un modelo con ms de dos variables independientes, las correlaciones elevadas
(superiores a 0.8) son una condicin suficiente pero no necesaria para la existencia de
multicolinealidad, debido a que sta puede existir, a pesar de que las correlaciones simples sean bajas
(inferiores a 0.5).
- La multicolinealidad surge debido a que una o ms variables son combinaciones exactas o
aproximadamente lineales de las otras variables, por lo tanto una manera de averiguar qu variable X
est relacionada con las otras variables independientes consiste en hacer una regresin entre cada X i y
las dems variables independientes, calculando el respectivo coeficiente de determinacin que se
notar como R2i; cada una de estas regresiones se denomina regresin auxiliar , auxiliar a la
regresin principal de Y con las X. Se define la siguiente variable:
X se corre ln Y =
ln X.
En general, el mejor enfoque consiste en incluir solamente variables explicativas que, en trminos
tericos, influyan directamente sobre la variable dependiente y que no sean explicadas por otras
variables ya incluidas en el modelo.
4.5.4.2 Prueba de errores de especificacin.
- Examen de los residuos . al examinar los residuos se obtiene un buen diagnstico visual para
determinar la Autocorrelacin o la heterocedasticidad. Pero estos residuos tambin se pueden
examinar, especialmente en los datos de corte transversal, para errores de especificacin de modelos
tales como la omisin de una variable importante o una forma funcional incorrecta. Si de hecho
existen tales errores, una grfica de los residuos presentar patrones especficos.
Existen otras pruebas como son la de Durbin-Watson y la de RESET.
4.5.5 Autocorrelacin
Uno de los supuestos importantes del modelo de regresin lineal es que los errores (e i ) son aleatorios
o no correlacionados. Si se viola este supuesto, se tiene el problema de correlacin serial o
Autocorrelacin.
La Autocorrelacin se define como la correlacin existente entre los miembros de una serie de
observaciones ordenadas en el tiempo o en el espacio. Existen diferentes razones por las cuales se
presenta la correlacin serial o Autocorrelacin, algunas de ellas son:
- Inercia . Una de las caractersticas sobresalientes de la mayora de las series econmicas es la
inercia; por lo tanto en las regresiones que involucren datos de series de tiempo, es probable que
observaciones sucesivas sean interdependientes.
- Sesgo de especificacin: por variables excluidas o la forma funcional es incorrecta . Cuando
se construye un modelo de regresin y se grafican los errores o residuos, si se observa un patrn muy
definido en el comportamiento de estos puede sugerir que en el modelo falta o faltan algunas
variables o que el modelo elegido no es el adecuado. Este es el caso del sesgo de especificacin
debido a una variable excluida, en el primer caso, o a que la funcin no es la adecuada, en el segundo
caso. Ocurre con mucha frecuencia que al incluirse tales variables o al cambiar de modelo se elimina el
patrn de correlacin observado entre los residuos.
4.5.5.1 Consecuencias de la Autocorrelacin. Como en el caso de la heterocedasticidad, los
coeficientes de regresin en presencia de Autocorrelacin continan siendo lineales, insesgados y
consistentes pero dejan de ser eficientes, es decir de varianza mnima.
4.5.5.2 Cmo detectar la Autocorrelacin.
- Mtodo grfico . El graficar los errores o residuos contra alguna de las variables, proporciona
informacin muy til no solamente sobre la Autocorrelacin sino tambin sobre la heterocedasticidad y
el sesgo de especificacin problemas que estn presentes en el caso de observarse un patrn definido
en el comportamiento de los errores.
El mtodo grfico es subjetivo o de naturaleza cualitativa, sin embargo existen pruebas de tipo
cuantitativo, siendo una de las ms comunes la de Durbin-Watson.
- Prueba de Durbin-Watson .
Las hiptesis son las siguientes:
H0 : No hay Autocorrelacin
H1 : Hay Autocorrelacin
La estadstica de trabajo es:
Los valores dL y dU se hallan en las tablas de Durbin-Watson. Los lmites de d estn entre 0 y 4. Como
regla general, si d es igual a 2 se puede suponer que no existe correlacin.
Una de las desventajas de la prueba de durbin-Watson es que si esta cae en la zona de indecisin o
regin de ignorancia no se puede concluir si existe Autocorrelacin; en tal caso se pueden utilizar las
pruebas no paramtricas diseadas para detectar la Autocorrelacin.
Para poder realizar la prueba de Durbin-Watson se deben cumplir los siguientes supuestos:
1. El modelo de regresin incluye el coeficiente de interseccin ,
2. El modelo no incluye el valor o valores rezagados de la variable dependiente como una de las
variables explicativas,
3. No hacen falta observaciones en los datos: en el caso de variables a travs del tiempo, todas las
observaciones deben ser consecutivas
4.5.5.3 Medidas remediales. Una de las soluciones al problema de la Autocorrelacin consiste en
transformar las variables originales de la siguiente forma:
Y * t = Yt - P Yt-1
X * t = X t - r X t-1
Para evitar la prdida de una observacin, las primeras observaciones de Y y X se transforman de la
siguiente manera:
5. SERIES CRONOLOGICAS
Toda institucin, ya sea una empresa, el gobierno o cualquier otra entidad, tiene que hacer planes
para el futuro. Las empresas para hacer frente a las variaciones de la demanda de sus productos, para
as mismo programar la produccin, los recursos econmicos, el mercadeo y otras fases de la
administracin.
La previsin y planificacin suele basarse en lo ocurrido en el pasado, por lo tanto, generalmente el
tiempo es una de las variables ms importantes ya que para estimar el valor de una variable o
predecir su valor en el futuro se requiere el comportamiento de esta en el pasado y en el presente.
Se llama serie de tiempo o cronolgica a cualquier sucesin de observaciones de un fenmeno que
es variable con respecto al tiempo y se observa en intervalos de tiempo regulares, es decir que, estas
observaciones se deben hacer en perodos igualmente espaciados. Una serie cronolgica describe la
variacin de los valores de la variable en el tiempo y tales variaciones son resultado del
comportamiento sistemtico o aleatorio de la variable.
El principal objetivo al hacer el anlisis de la serie cronolgica es la proyeccin o inferencia
, lo cual resulta complicado y difcil, debido a que las observaciones del fenmeno que aparecen en la
serie de tiempo, frecuentemente estn correlacionadas, con una correlacin que aumenta a medida
que el intervalo de tiempo entre un par de observaciones decrece. En consecuencia, los datos de una
serie de tiempo violan con frecuencia los supuestos bsicos de independencia que se requieren para
hacer un anlisis de regresin, es decir, que en una serie de tiempo generalmente se presenta la
Autocorrelacin.
5.1 COMPONENTES DE LAS SERIES CRONOLOGICAS
Las series de tiempo se suelen presentar por medio de una ecuacin matemtica que describa los
valores de la variable observada como una funcin del tiempo, es decir (Y =f(t)).
Al representar grficamente la informacin en un sistema de coordenadas, en el eje de las ordenadas
se ubica la variable y en el de las abscisas el tiempo. Esta representacin grfica es dificil para
detectar los movimientos de la serie, los cuales son causados por una variedad de factores que
pueden ser econmicos, naturales, institucionales o culturales.
Algunos factores tienden a afectar los movimientos de la serie a largo plazo y otros la afectan a corto
plazo, de tal manera que todos o algunos de los factores pueden aparecer en una misma serie de
tiempo.
Existen diferentes mtodos para analizar una serie de tiempo, siendo uno de ellos el modelo de
descomposicin , el cual considera que la serie est compuesta de cuatro patrones bsicos: la
tendencia (T), las variaciones estacionales (S), las variaciones c R clicas (C) y las variaciones
irregulares o aleatorias (I). Por lo tanto, la variable observada (Y) estar < en funcin de T, S, C, I.
5.1.2 Tendencia (T).
Es la componente que indica la evolucin de la variable a travs del tiempo, evolucin que se va a
medir como un crecimiento o descenso constante en un perodo de tiempo prolongado. El perodo de
observacin de la variable ha de ser suficientemente largo como para incluir dos o ms ciclos
econmicos y as poder tener una idea sobre la evolucin real de la variable. Lo que mide la tendencia
es la variacin promedio de la variable por unidad de tiempo. Esta tendencia se suele describir
mediante una recta o algn tipo de curva lisa.
En la figura 5.1 se puede observar que a pesar de tener altibajos durante todo el perodo de
observacin, la tendencia (T) de las tasas de desempleo es a disminuir.
Una razn para medir los movimientos estacionales es la de ajustar los datos estadsticamente
respecto a tales movimientos, quedando as las series compuestas nicamente por la tendencia, los
movimientos cclicos y las variaciones aleatorias. Los datos en esa forma son ms fciles de
interpretar para muchos fines, por disminuir la probabilidad de error en la apreciacin de la causa de
cualquier movimiento observado. Por ejemplo, si no se han ajustado los datos, puede tomarse un alza
estacional por una mejora en la condicin del negocio o viceversa.
Los ndices estacionales son las medidas de las variaciones estacionales en la marcha de cualquier
variable. Al hacer los anlisis de las variaciones estacionales se deben utilizar como mximo
datos trimestrales o semestrales.
Son los movimientos ascendentes y descendentes de la variable, los cuales difieren de las variaciones
estacionales en que se extienden por perodos de tiempo ms o menos largos (2 o ms aos) y,
supuestamente, resultan de un conjunto de causas totalmente diferentes que en general son de
naturaleza econmica y reflejan el estado de las actividades comerciales de tiempo en tiempo.
Los perodos recurrentes de expansin, cspide, contraccin y sima constituyen las 4 fases de un ciclo
y se consideran causados por factores diferentes del clima y las costumbres sociales que contribuyen a
las variaciones estacionales. La principal diferencia entre las variaciones cclicas y las estacionales es
que en las estacionales la periodicidad es de un ao como mximo, mientras que en las cclicas esta
periodicidad es mayor; por esta razn para detectar las variaciones cclicas se debe tener una serie
suficientemente larga.
El objetivo del anlisis de las series de tiempo es identificar aquellas componentes presentes para
detectar sus causas y predecir valores futuros de la serie.
En la mayora de los casos no resulta sencillo, en una serie de tiempo, distinguir entre las
componentes; frecuentemente estos efectos se han integrado tanto que resultan inseparables. Por el
contrario, si los efectos parecen distinguibles, no es difcil separarlos.
Para el anlisis de una serie de tiempo existen diferentes tipos de mtodos, los cuales son aplicables
dependiendo de las caractersticas de la informacin y de los recursos tcnicos (computador y
paquetes), ya que algunos mtodos son bastante complejos como para aplicarlos manualmente.
Dentro de los modelos ms sencillos est el de descomposicin y dentro de stos el modelo aditivo
y el multiplicativo. En el aditivo , se considera que la variable observada (Y) se puede descomponer
en la suma de los factores, es decir, Y=T + S + C + I. En el multiplicativo , el comportamiento de la
variable observada se expresa como el producto de los componentes, es decir, Y=T * S * C * I. El
criterio fundamental que se debe seguir en una situacin dada es utilizar el modelo que mejor se
ajuste a los datos.
En el estudio de series cronolgicas lo primero que debe hacerse es el anlisis grfico de la variable a
travs del tiempo, esto con el fin de detectar la tendencia, si la serie tiene estacionalidad y la longitud
de la misma. Si la variable a analizar no presenta estacionalidad, debe utilizarse otro mtodo diferente
al de descomposicin para estudiar la serie.
5.2.1 MODELO MULTIPLICATIVO
5.2.1 MODELO MULTIPLICATIVO
5.2.1.1 INDICES ESTACIONALES . A continuacin se presenta EL mtodo de los promedios
mviles, que es una de las metodologas existentes para obtener los ndices estacionales, ya sean
semanales, mensuales o trimestrales.
1. Como se plante anteriormente, el primer paso es graficar la informacin en un sistema de
coordenadas en donde en el eje de las abscisas est el tiempo y en el de las ordenadas la variable
observada. Con esta grfica se tiene una idea general sobre la tendencia de la variable, si hay
estacionalidad y la longitud de esta, es decir cada cuntos periodos se repite.
Por ejemplo, de la figura 5.2 se deduce que la serie es estacional y la longitud es de 12 perodos, es
decir, un ao, ya que cada 12 meses se repite ms o menos la misma situacin.
2. Se deben eliminar las fluctuaciones estacionales contenidas en la serie, para lo cual se calculan los
promedios mviles. El promedio mvil no elimina las fluctuaciones muy acentuadas de la serie, pero
reduce sustancialmente la amplitud de las variaciones de los datos originales, es decir, elimina total o
parcialmente las variaciones estacionales y las irregulares; por lo tanto, los promedios resultantes
reflejan la tendencia y las variaciones cclicas (T*C). El nmero de perodos incluidos en ste
promedio depende de la longitud de la estacin, la cual ha sido establecida en el anlisis grfico. Si los
datos se presentan en forma anual, ser imposible obtener ndices estacionales.
Se calcula un promedio mvil sumando los valores de un cierto nmero de perodos sucesivos y
dividiendo la suma por el nmero de perodos abarcados. As pues para cada promedio sucesivo, se
resta el dato que viene primero y se le suma el ltimo siguiente. Para el clculo de estos promedios
mviles se puede utilizar la siguiente frmula:
PERIODO
DATOS
184
188
156
PROMEDIO MOVIL
174,6
289
154,6
56
145,2
84
143,8
141
127,8
149
126,6
209
10
50
PERIODO
DATOS PROMEDIO
MOVIL PROMEDIO
283
454
368,5
392
366,25
MOVIL CENTRADO
367,375
345
350,75
358,5
274
325,25
338
392
291,5
308,375
290
277,5
284,5
210
275,0
276,25
218
10
382
3. El tercer paso consiste en dividir los datos originales entre los valores correspondientes a los
promedios m \ viles centrados, lo cual se hace para aislar los componentes estacionales e irregulares.
Para expresarlo en porcentaje el resultado obtenido se multiplica por 100.
4. Con los datos obtenidos en el paso anterior se construye una tabla de tal manera que los datos
correspondientes al mismo perodo queden en la misma columna y se promedian estos datos. Los
promedios sern entonces una estimacin de los ndices estacionales, la suma de estos debe ser igual
a 400, 1.200, 600, etc. si est trabajando con datos trimestrales, mensuales o bimestrales
respectivamente; si no es as se obtiene un factor de correccin (K) de la siguiente manera:
K * suma = D en donde D es 400, 1.200 o 600 dependiendo del caso.
La media de cada perodo se multiplica por k, obtenindose as los ndices estacionales. Los valores
finales de los ndices estacionales deben sumar (1200, 400, 600). Si un ndice estacional da por
ejemplo 89 % indica que el valor efectivo que se espera ser un 11 % inferior al que ser sin la
influencia estacional; si es del 117% indica que el valor esperado para ese perodo ser un 17%
superior al del mes promedio o debido a una variacin estacional.
5.2.1.2 Tendencia (T) . Los promedios mviles centrados obtenidos anteriormente se grafican con el
fin de identificar la forma funcional apropiada de la tendencia. Con estos promedios mviles se
obtiene la ecuacin correspondiente, para lo cual se utiliza el mtodo de los mnimos cuadradados.
5.2.1.3 Variacin cclica (C) . Una vez calculada la tendencia se estima el valor correspondiente a
cada perodo. Cada uno de los promedios mviles se divide por el respectivo valor estimado,
obtenindose as una aproximacin al componente cclico.
5.2.1.4 Variaciones irregulares (I) . El valor estimado para la tendencia en cada perodo se
multiplica por el correspondiente ndice estacional y el componente cclico. Cada uno de los valores
originales se divide por este producto, obtenindose una estimacin de las variaciones irregulares, es
decir:
EJEMPLO
La informacin presentada en la tabla 5.1, corresponde a las ventas trimestrales (en millones de
pesos) realizadas por una fbrica entre el primer trimestre de 1986 y el cuarto de 1991.
Tabla 5.1 Ventas trimestrales (en millones de pesos) 1986-1991
TRIMESTRE
AO
1986
38
35
40
52
1987
37
31
40
51
1988
35
31
38
51
1989
38
33
50
69
1990
51
46
56
74
1991
53
48
58
86
Como se plante anteriormente lo primero que debe hacerse con la informacin es el anlisis grfico.
En la figura 5.3 puede observarse que la tendencia de las ventas es a aumentar; adems se puede
concluir que los datos tienen estacionalidad y que la longitud de la estacin es de 4 trimestres, ya que
cada 4 trimestres se presenta aproximadamente el mismo patrn de comportamiento, es decir en el
segundo trimestre las ventas estn en su punto mnimo, en el tercero tienden a aumentar, llegando a
su punto mximo en el cuarto trimestre; la situacin descrita se presenta ao tras ao.
Como la longitud de la estacin es de 4 trimestres, se halla un promedio mvil de 4 perodos
(tabla5.2, columna 4). Debido a que el nmero de perodos incluidos en este promedio es par, se halla
un nuevo promedio mvil de 2 perodos con el fin de centrarlo (columna 5). Recuerde que los
promedios mviles se hallan para eliminar las variaciones estacionales y las irregulares con lo cual se
suaviza la serie y as se puede tener una idea ms clara sobre la tendencia. El suavizamiento obtenido
se comprueba en la figura 5.4.
El tercer paso es dividir el valor original de la variable por su correspondiente promedio mvil
centrado (tabla 5.2, col.6), obtenindose as una aproximacin a las variaciones estacionales e
irregulares.
La informacin de la columna 6 se pasa a la tabla 5.3, en donde los datos correspondientes al mismo
perodo quedan en la misma columna. Con el fin de eliminar las variaciones irregulares se halla un
promedio aritmtico para cada columna, obtenindose as una aproximacin al ndice estacional
correspondiente a cada trimestre.
Como se tienen datos trimestrales y la longitud de la estacin es de 4 perodos, se van a hallar 4
ndices estacionales, por lo tanto, la suma de estos 4 valores debe ser aproximadamente igual a 400,
AO
TRIMESTRE
VENTAS
PROMEDIO
PROM.MOVIL
[(3)/(5)]*100
(1)
(2)
(3)
MOVIL (4)
CENTRADO (5)
(6)
1986
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
38
34
40
52
37
31
40
51
35
31
38
51
38
33
50
69
51
46
56
74
53
48
41,00
40,75
40,00
40,00
39,75
39,25
39,25
38,75
38,75
39,50
40,00
43,00
47,50
50,75
54,00
55,50
56,75
57,25
57,75
58,25
40,88
40,38
40,00
39,88
39,50
39,25
39,00
38,75
39,13
39,75
41,50
45,25
49,13
52,38
54,75
56,13
57,00
57,50
58,00
97,86
128,79
92,50
77,74
101,27
129,94
89,74
80,00
97,12
128,30
91,57
72,93
101,78
131,74
93,15
81,96
98,25
128,70
91,38
1987
1988
1989
1990
1991
3
4
58
86
61,25
59,75
80,33
AO
TRIMESTRE
1986
97,86
128,79
SUMA
1987
92,50
77,74
101,27
129,94
1988
89,74
80,00
97,12
128,30
1989
91,57
72,93
101,78
131,74
1990
93,15
81,96
98,25
128,70
1991
91,38
80,33
91,67
78,59
99,26
129,49
399,01
91,90
78,79
99,50
129,82
400,00
PROMEDIO
ARITMETICO
INDICE
ESTACIONAL
Estimacin de la tendencia . Para hallar la ecuacin de regresin se trabaja con los promedios
mviles centrados como variable dependiente y como independiente el tiempo. Para esta ltima
variable se debe hacer una recodificacin, por lo tanto se debe tomar un punto de referencia u origen
que puede ser en cualquier perodo. Para el caso que nos ocupa se toma como origen el tercer
trimestre de 1986 en donde el valor de X = 0, en el cuarto trimestre de 1986, X = 1 y as
sucesivamente (tabla 5.4, col 3).
El comportamiento de los promedios mviles (figura 5.4) sugiere que a estos datos se les puede
ajustar un polinomio. Despus de haber evaluado polinomios de diferentes grados se concluy que el
ms adecuado es el de tercer grado, por su coeficiente de determinacin, porque al hacerle la prueba
de hiptesis a los coeficientes de regresin todos son significativamente diferentes de cero y por el
poder predictivo de la ecuacin. Los resultados obtenidos son los siguientes:
Y = 46,05774 - 3,51789 X + 0,420907 X2 - 0,010488 X3
R2 = 0,9544 (5.1)
AO TRIMESTRE
ORIGEN PROM.MOV
X
CENTRADO
VENTAS
ESTIMADAS
INDICE
ESTACIONAL
EST.AJUST
ESTACIONAL
(1)
(3)
(4)
(5)
(6)
(5)*(6)/100
0
1
2
3
4
5
6
40,88
40,38
40,00
39,88
39,50
39,25
39,00
46,06
42,95
40,62
39,01
38,05
37,68
37,84
99,50
129,82
91,90
78,79
99,50
129,82
91,90
45,83
55,76
37,33
30,74
37,86
48,92
34,77
(2)
1986 3
4
1987 1
2
3
4
1988 1
2
3
4
1989 1
2
3
4
1990 1
2
3
4
1991 1
2
7
8
9
10
11
12
13
14
15
16
17
18
19
38,75
39,13
39,75
41,50
45,25
49,13
52,38
54,75
56,13
57,00
57,50
58,00
59,75
38,46
39,48
40,84
42,48
44,33
46,33
48,42
50,53
52,60
54,56
56,37
57,94
59,23
78,79
99,50
129,82
91,90
78,79
99,50
129,82
91,90
78,79
99,50
129,82
91,90
78,79
30,30
39,29
53,02
39,04
34,93
46,10
62,85
46,43
41,44
54,29
73,18
53,25
46,67
Con este ejemplo se pretende demostrar la bondad que tiene el trabajar con el mtodo de
descomposicin para el anlisis de una serie de tiempo, ya que nos permite hacer una buena
aproximacin a la realidad del fenmeno o variable observada.
Figura 5.5 Ventas observadas y estimadas. 1986-1991
Donde:
St+1b es el pronstico para el perodo t+1
Yt es el valor observado en el perodo t
m es el nmero de perodos en el promedio mvil
El mtodo de los promedios mviles es til cuando se tienen series que no tienen ni tendencia, ni
Donde:
St-1es el pronstico para el perodo t+1
es la constante de suavizamiento
Yt es el valor observado en el perodo t
St es el valor suavizado o pronstico para el perodo t
Cuando se inicia el proceso de suavizamiento se asume que S 1 = Y1.
Para elegir la mejor constante de suavizamiento se deben hacer suavizamiento con diferentes , y se
obtiene el mejor suavizamiento cuando se minimicen los errores e i, es decir, cuando se minimicen las
diferencias entre los valores observados y estimados. Hay varios indicadores de los errores generados
por un procedimiento de pronsticos, como son la media absoluta de los errores (MAE), el error
cuadrtico medio (MSE) y la media absoluta del porcentaje de error (MAPE) el cual tiene la
caracterstica de ser independiente de las unidades y magnitudes que se estn manejando; estos
indicadores se definen como:
Cuando una serie de tiempo tiene un comportamiento constante en el tiempo o no tiene tendencia, la
suavizacin exponencial puede dar buenos resultados.
Donde:
Este mtodo es indicado cuando se tienen series de tiempo con una componente estacional
claramente definida. Estima separadamente para cada punto en el tiempo, el promedio suavizado, la
tendencia ajustada y el factor estacional, combinando despus estos tres componentes para obtener
los pronsticos.
Las proyecciones o pronsticos se obtienen con la siguientes ecuaciones:
Donde:
Y
t-m
y adems el coeficiente de
6. NOCIONES DE MUESTREO
El objetivo de la estadstica es, primordialmente, hacer inferencias o generalizaciones con base en la
informacin suministrada por una muestra, por lo tanto la confiabilidad de dichas inferencias depende
de la acertada seleccin de la muestra.
El muestreo es un mtodo cientfico que utiliza principios matemticos y estadsticos para la adecuada
seleccin de una muestra y manejo de la informacin obtenida a partir de ella, para as tener
estimaciones confiables. El muestreo consiste en la seleccin de una parte de la poblacin, de tal
manera que sta parte represente adecuadamente la poblacin.
En el presente captulo se definirn algunos trminos indispensables dentro del muestreo y se tratar
la forma de seleccionar una muestra y de obtener estimaciones a partir de ella cuando se trabaja con
muestreo irrestricto aleatorio y con muestreo estratificado.
Ibid . p.25
Si de una poblacin de tamao N se selecciona una muestra de tamao n, de tal manera que cada
muestra posible de tamao n tenga la misma probabilidad de ser seleccionada, el tipo de muestreo
utilizado se llama irrestricto aleatorio.
En la prctica, una muestra aleatoria simple es seleccionada unidad por unidad. Las unidades de
muestreo son numeradas de 1 a N, a continuacin se seleccionan n nmeros entre 1 y N, ya sea
utilizando una tabla de nmeros aleatorios o colocando los N nmeros en una urna y las unidades de
muestreo que lleven los nmeros seleccionados constituirn la muestra. La muestra se selecciona sin
repeticin o sin sustitucin, es decir, que cada unidad de muestreo solo puede aparecer una sola vez
en una muestra determinada.
Este tipo de muestreo se utiliza cuando: la poblacin es ms o menos homognea con respecto a las
caractersticas que se desean estudiar; cuando los elementos de la poblacin no se pueden enumerar
fcilmente; cuando las estimaciones que se deben obtener se refieren a todo el conjunto y no a
subgrupos de la poblacin.
Cuando se selecciona una muestra el objetivo es tener estimaciones para los parmetros a travs de
la informacin suministrada por la muestra. A continuacin se vern algunos estimadores como el
promedio aritmtico, el total y la proporcin con sus respectivas desviaciones estndar o errores.
6.5.1 Promedio aritmtico
Las estimaciones que tienen la propiedad de que sus valores esperados sean iguales a los valores
poblacionales se denominan estimaciones insesgadas. En el Muestreo Irrestricto Aleatoria (MIA) la
media muestral es una estimacin insesgada del promedio poblacional y se define como:
En donde:
Si la muestra es grande (n3; 30), Z pertenece a una distribucin normal y si la muestra es pequea (n
< 30), Z pertenece a una distribucin t con n-1 grado de libertad.
EJEMPLO
Se desea estimar el promedio de hectreas destinadas al cultivo de caf; para ello se toma una
muestra irrestricta aleatoria de 15 fincas de un total de 750 en el departamento de Caldas,
obtenindose los siguientes resultados en hectreas sembradas en caf:
FINCA
Has.CAFE
FINCA
Has.CAFE
FINCA
Has.CAFE
12
10
11
15
15
12
12
25
11
13
10
30
24
14
19
22
10
18
15
22
La desviacin estndar para el promedio se obtiene con la frmula 6.2, pero para aplicarla se necesita
la varianza corregida que se obtiene con la frmula 6.3:
Los anteriores resultados quieren decir que en el departamento de Caldas el promedio de hectreas
sembradas en caf por finca es de 16,73 con un margen de error de 1,74 hectreas .
El intervalo de confianza para el promedio se obtiene con la frmula 6.4. Teniendo en cuenta que la
muestra es pequea, el valor de Z se halla en una tabla de la distribucin t con 14 grados de libertad,
que para una confiabilidad del 95 por ciento es de 2,145.
Esto quiere decir que con una confiabilidad del 95 por ciento, el promedio de hectreas cultivadas en
caf por finca en el departamento de Caldas, est entre 13 y 20,47.
EJEMPLO
Con la informacin correspondiente al ejemplo 6.1, estime el total de hectreas cultivadas en caf en
el departamento de Caldas, y obtenga su correspondiente intervalo de confianza.
Solucin
Para calcular el total se utiliza la expresin 6.5 y para calcular la desviacin estndar se usa la
expresin 6.6:
Con una confiabilidad del 95 por ciento, se puede afirmar que el total de hectreas cultivadas en caf,
en el departamento de Caldas, est entre 9.751 y 15.349.
Donde: q = 1-p
EJEMPLO
Se desea conocer la proporcin de desempleados en una ciudad. Se sabe que la fuerza de trabajo es
de 35.250 personas. Se toma una MIA de 830, de las cuales 510 dicen que actualmente estn
laborando. Calcule la proporcin de empleados que tiene la ciudad y obtenga un intervalo de confianza
para la proporcin.
Solucin
La proporcin de empleados se calcula con la expresin 6.8 y la desviacin estndar con la 6.9:
Los anteriores resultados indican que el porcentaje de empleados en esa ciudad es del 61,45 por
ciento con un margen de error del 1,67 por ciento.
El intervalo de confianza se obtiene reemplazando en la expresin 6.10. El valor de Z se halla en una
distribucin normal, que para un nivel de confianza del 95 por ciento es 1,96:
Con una confiabilidad del 95 por ciento el porcentaje de empleados en esa ciudad, est entre el 58,18
y el 64,72 por ciento.
El tamao de la muestra depende bsicamente del tamao de la poblacin, del nivel de confianza o
confiabilidad de las estimaciones, del grado de variacin o dispersin de la variable a estudiar y del
error de estimacin.
El nivel de confianza o confiabilidad lo fija arbitrariamente quien est calculando el tamao de la
muestra, teniendo en cuenta que dicha confiabilidad debe estar entre el noventa y el noventa y nueve
por ciento. A mayor confiabilidad mayor tamao de muestra.
El grado de variacin o dispersin de la variable se mide a travs de la desviacin estndar, la cual
puede ser estimada a partir de una muestra piloto o a partir de la informacin recopilada en una
investigacin similar, realizada anteriormente.
El error de estimacin es la mxima diferencia en valor absoluto, que se est dispuesto a aceptar,
entre el valor del estimador y el valor del parmetro, a ste error de estimacin se le nota como B. El
valor del error de estimacin depende del estimador que se desee obtener y de la magnitud de la
variable. Por ejemplo si se va a estimar la proporcin de desempleados, un error de estimacin lgico
puede ser del 3 por ciento; pero si se va a estimar el peso promedio de un grupo de estudiantes, un
error de estimacin lgico puede ser de 7 kilos. A mayor error de estimacin menor tamao de
muestra.
Dependiendo del tipo de estimador que se desee obtener, se debe utilizar una frmula diferente para
calcular el tamao de la muestra.
EJEMPLO
Una empresa tiene 98 operarios y desea determinar el tamao de muestra necesario para estimar el
tiempo promedio que requiere un operario para completar una labor, con un error de estimacin
mximo de medio minuto y una confiabilidad del 95 por ciento.
Se toma una muestra piloto, con la cual se estima una desviacin estndar de 1,2 minutos
Solucin
El error de estimacin es 0,5 minutos (B=0,5). Para una confiabilidad del 95 por ciento, en la tabla de
la distribucin normal el valor de k es 1,96:
EJEMPLO
Si la misma empresa del ejemplo 6.4, desea estimar el tiempo total que necesitan sus obreros para
terminar la labor, con un error mximo de 35 minutos y una confiabilidad del 95 por ciento; por lo
tanto, (B = 35), y para una confiabilidad del 95 por ciento k=1,96. El tamao de muestra requerido
es:
Debe seleccionar una muestra aleatoria de 30 operarios, para estimar el tiempo total con un error
mximo de 35 minutos y una confiabilidad del 95 por ciento.
Donde: q = 1-p
Cuando no se conoce la proporcin (p), se puede suponer un valor para p de 0,5, ya que ste valor,
siempre y cuando permanezcan constantes las dems condiciones, es el que nos proporciona el mayor
tamao de muestra posible.
EJEMPLO
Se desea estimar el porcentaje de empleados en una ciudad que tiene una fuerza de trabajo de
35.250 personas. Por una trabajo realizado anteriormente se sabe que el porcentaje de empleados es
del 75 por ciento. Qu tamao de muestra ser necesario para estimar la proporcin con un error de
estimacin mximo del 8 por ciento.
Solucin
El error de estimacin (B) es 0,08 y asumiendo un nivel de confianza del 95 por ciento, k=1,96. Se
reemplaza en la ecuacin 6.13:
Por lo tanto se debe seleccionar una muestra aleatoria de 112 personas para estimar el porcentaje de
empleados.
6.6 MUESTREO ALEATORIO ESTRATIFICADO
El muestreo estratificado (ME) consiste en clasificar primero los elementos de la poblacin en grupos
que no presenten traslapes o intersecciones, y de estos grupos o estratos seleccionar una muestra
irrestricta aleatoria, tomando al menos un elemento de cada grupo o estrato.
El proceso que se sigue para establecer los grupos se conoce como estratificacin. Al formar los
estratos se debe buscar que los elementos de cada estrato sean lo ms homogneos entre s y que
haya marcadas diferencias entre un estrato y otro. Estos estratos pueden reflejar regiones geogrficas
de un pas, clases sociales dentro de una ciudad, etc.
Cuando se utiliza el muestreo estratificado las probabilidades de seleccin de un grupo al otro pueden
ser iguales o diferentes, aunque se debe conocer la probabilidad de seleccin que corresponde a cada
uno. Las muestras se seleccionan separadamente para cada estrato y las estimaciones se realizan
separadamente para cada estrato y se ponderan para obtener una estimacin combinada para la
poblacin.
El utilizar muestreo estratificado tiene sus ventajas como son: aumento en la exactitud de los
resultados, reduciendo el error de muestreo y permite obtener estimaciones para cada estrato. A
cambio de lo anterior, se necesita ms informacin que en MIA para definir los estratos y el clculo de
los errores es ms complejo que en MIA.
6.6.1 Razones para estratificar
Cuando los elementos de la poblacin son muy heterogneos respecto a las caractersticas a estudiar.
Para reducir las varianzas de las estimaciones, cuando existe mxima homogeneidad en los elementos
de cada estrato y mxima heterogeneidad en los diferentes estratos.
Para controlar o aislar los factores o variables que condicionan directa o indirectamente las diferencias
entre las caractersticas de los elementos de la poblacin, factores que constituyen los criterios bsicos
para estratificar.
Cuando adems de las estimaciones para toda la poblacin se necesitan estimaciones para subgrupos
de esa poblacin.
Para reducir el costo por observacin.
En l ME se requiere la siguiente notacin adicional:
L = nmero de estratos
Ni = nmero de unidades muestrales en el estrato i
N = tamao de la poblacin (N=N1 + N2 + ....... + NL )
Cuando se utiliza el muestreo estratificado, se pueden obtener estimaciones en cada uno de los
estratos, para lo cual se aplican las mismas frmulas del muestreo irrestricto aleatorio. As mismo
stas estimaciones se combinan para obtener estimaciones vlidas para toda la muestra.
Como en el MIA, se pueden obtener intervalos de confianza para cada uno de los estratos y para toda
la muestra, las frmulas bsicamente son las mismas que en MIA.
EJEMPLO
Tomado de1 . En una industria que elabora tapas de plstico existen 400 mquinas que fabrican ese
producto. Las mquinas han sido adquiridas por la empresa segn sus condiciones econmicas a
travs de varios aos y as, existen en ella 240 que son operadas manualmente y por lo tanto de bajo
rendimiento; 100 semiautomticas y 60 completamente automticas, de alto rendimiento. Se desea
estimar el nmero medio de tapas producidas por mquina en la primera semana de junio.
Considerando el modo de operacin de las mquinas se forman tres estratos: manual (1),
semiautomtica (2) y automtica (3). Se seleccion una muestra de 20 mquinas, con asignacin
proporcional, correspondindole doce al estrato uno, cinco al estrato dos y tres al estrato tres. Los
resultados, en nmero de tapas, son los siguientes:
ESTRATO
1
2.600
1.700
2.00
ESTRATO
2
4.000
5.200
6.000
8.300 6.600
ESTRATO
3
Solucin
El promedio en cada uno de los estratos se calcula con la ecuacin 6.14, los cuales son:
La desviacin estndar del promedio en cada uno de los estratos se obtiene con la ecuacin 6.16.
Estos son:
Por lo tanto la estimacin de la produccin media semanal de las mquinas manuales es de 1.958
tapas con un margen de error de 120 tapas; la produccin media de las mquinas semiautomticas es
de 6.020 tapas, con un margen de error de 699 tapas y la produccin media de las mquinas
automticas es de 20.300 tapas, con un margen de error de 1.830 tapas.
El promedio para toda la muestra, se obtiene con la ecuacin 6.15
Por lo tanto, la estimacin de la produccin media semanal por mquina es de 5.725 tapas, con un
margen de error de 333 tapas.
________________________________________________________________
ABAD, Adela y SERVIN, Luis A. Introduccin al muestreo. 2a. Ed. Mxico D.F. Limusa 1984. p.119
6.6.3.1 Error en la estimacin del total: El error de estimacin o la desviacin estndar para el
total en cada estrato se define como:
EJEMPLO
Con el enunciado del ejemplo 6.7, estime la produccin total semanal, por estrato y en toda la fbrica,
con sus respectivas desviaciones estndar.
Solucin
La estimacin del total en cada estrato se obtiene con la ecuacin 6.18
La estimacin de la produccin total semanal de las mquinas manuales es de 469.999 tapas, con un
margen de error de 28.716 tapas; la produccin de las mquinas semiautomticas es de 602.000
tapas con un margen de error de 69.906 tapas y la produccin de las mquinas automticas es de
1'218.000 tapas con un margen de error de 109.772 tapas.
La produccin total en toda la fbrica se calcula con la ecuacin 6.19
La desviacin estndar para el total de toda la muestra se obtiene con la ecuacin 6.21
Por lo tanto, la estimacin de la produccin total semanal en la fbrica es de 2'289.999 tapas con un
margen de error de 133.278 tapas.
Donde: xh es el total de elementos en la muestra del estrato h que tienen una caracterstica
determinada
La proporcin en toda la muestra se define como:
La desviacin estndar o error de estimacin para la proporcin de toda la muestra se define como:
EJEMPLO
Tomado de1. Un ejecutivo de seguros, preocupado porque la alta tasa de inflacin puede dejar a sus
clientes con una cobertura insuficiente en los seguros de incendio de sus viviendas, ha propuesto una
clusula que establece el incremento de la cobertura (y de las primas anuales) de acuerdo con la tasa
de inflacin anual. para conocer la opinin de los clientes sobre la poltica propuesta, el ejecutivo de
seguros decidi seleccionar una muestra aleatoria estratificada de los clientes de su compaa en los
tres municipios de su jurisdiccin. La informacin es la siguiente:
MUNICIPIO
Total de clientes
231
407
187
Clientes encuestados
21
37
17
20
Estime la proporcin de clientes que estn de acuerdo con la nueva poltica, con sus respectivos
errores, en cada uno de los municipios y en todos los municipios.
Solucin
Para calcular la proporcin en cada uno de los estratos se utiliza la ecuacin 6.22
La desviacin estndar para la proporcin en cada estrato se obtiene con la ecuacin 6.24
Por lo tanto, en el municipio A el porcentaje de clientes que aprueba la nueva poltica es del 38,1 por
ciento, con un margen de error del 10,35 por ciento; en el municipio B, el 54 por ciento de los clientes
aprueba la nueva poltica, con un margen de error del 7,92 por ciento y en el municipio C el 52,9 por
ciento de los clientes aprueba la nueva poltica, con un margen de error del 11,9 por ciento.
La proporcin en toda la muestra se obtiene con la ecuacin 6.23
La desviacin estndar para la proporcin en toda la muestra se obtiene con la ecuacin 6.25
Segn los anteriores resultados en toda la compaa, el 49,3 por ciento de los clientes est de acuerdo
con la nueva poltica, con un margen de error del 5,6 por ciento.
____________________________________________________________
MENDENHALL, William y REINMUTH, James. Estadstica para administracin y economa. EE.UU.
Wadsworth internacional/ iberoamrica. 1981. p. 555
1
. la muestra se reparte entre los estratos proporcionalmente a los tamaos de stos. Este tipo de
asignacin se utiliza cuando los costos y las varianzas de los estratos no son muy diferentes.
6.6.5.1.1 Tamao de muestra para estimar el promedio aritmtico con asignacin
proporcional .
EJEMPLO
Se desea estimar la nota promedio de los estudiantes de administracin de empresas diurna y
nocturna en una universidad. En la carrera diurna (estrato 1) hay 280 estudiantes y en la nocturna
(estrato 2) hay 200 estudiantes. Determine el tamao de muestra necesario para cumplir el objetivo
con un error mximo de 0,15 y una confiabilidad del 95 por ciento.
Por un estudio realizado tiempo atrs se conocen las varianzas de las notas de administracin diurna y
nocturna, las que respectivamente son: 0,31 y 0,28.
Solucin
Considerando que las varianzas son similares, se trabaja con muestreo estratificado con asignacin
proporcional. El error (B) es 0,15 y para una confiabilidad del 95 por ciento el valor correspondiente en
la distribucin normal es 1,96, entonces, k = 1,96:
EJEMPLO
Se desea hacer un estudio para estimar el consumo total de gasolina en una ciudad, halle el tamao
de muestra necesario para cumplir ste objetivo. Los vehculos se clasificaron en tres grupos o
estratos, particulares (1), pblicos (2) y oficiales (3). En la oficina de circulacin y trnsito se obtuvo
la siguiente informacin sobre los vehculos matriculados en la ciudad; vehculos particulares 7.627,
pblicos 2.392 y oficiales 534.
Solucin
Como no se dispone de estudios similares, se toma una muestra piloto, con la cual se obtienen las
siguientes varianzas sobre el consumo semanal en galones:
Asumiendo un error de estimacin mximo de 15.000 galones , (B = 15.000), y una confiabilidad del
95 por ciento, el valor de k en la distribucin normal es 1,96.
Considerando que las varianzas en los tres estratos son similares, se trabaja con muestreo
estratificado con asignacin proporcional. Para calcular el tamao de la muestra se utiliza la ecuacin
6.28 y para repartir la muestra en los estratos se usa la ecuacin 6.27
Para estimar el consumo total de gasolina con un error mximo de 15.000 galones/semana, se debe
seleccionar una muestra de 255 autos repartida as: 184 autos particulares, 58 pblicos y 13 oficiales.
Recuerde que si se desea, se puede disminuir el error mximo admisible, pero esto conlleva a un
aumento en el tamao de la muestra.
Una vez determinado el tamao de la muestra, se reparte entre los estratos utilizando la expresin
6.27
EJEMPLO
Tomado de1 . En vista de la recesin econmica existente, una empresa textil pretende reducir el
nmero de dial laborables por semana a cuatro. Otra alternativa consiste en clausurar una de sus tres
plantas y despedir a los trabajadores. Para tener una idea de la opinin de los trabajadores, el gerente
de personal de la empresa desea seleccionar una muestra de empleados de las tres plantas para
estimar la proporcin de trabajadores que prefieren la reduccin de la semana de trabajo, con un error
de estimacin mximo de 0,1.
La empresa emplea 150 personas en la planta 1, 65 en la planta 2 y 40 en la 3. Se estima que cerca
del 75 por ciento de los de la planta tres estn a favor de la reduccin de la semana de trabajo,
mientras que en las otras plantas este porcentaje parece corresponder al 50 por ciento. Encuentre el
tamao de muestra y la asignacin necesaria en cada estrato.
Solucin
Por la diferencia en el tamao de las plantas, se utiliza el muestreo estratificado con asignacin
proporcional.
Asumiendo un nivel de confianza del 95 por ciento, el valor correspondiente en la distribucin normal
es 1,96 (k=1,96).
Para determinar el tamao de la muestra se utiliza la ecuacin 6.29 y se reparte en los estratos con la
ecuacin 6.27
_______________________________________________________________
Ibid. p. 547.
EJEMPLO
Tomado de 1. Se desea hacer un estudio sobre produccin media de madera aserrada en los E.U.
Todos los aserraderos han sido agrupados en estratos, de acuerdo con la produccin. Hace 5 aos se
hizo un estudio similar en donde se estim la desviacin estndar de la produccin (en miles de pies
de tabla). Por lo tanto, se dispone de la siguiente informacin:
Determine el tamao de muestra necesario para estimar la produccin media de madera con un error
mximo de 25.000 pies de tabla y una confiabilidad del 95 por ciento.
Solucin
El error mximo es de 25.000 pies , pero se debe tener en cuenta que la produccin est dada en
miles, por lo tanto se divide por 1.000, es decir que B = 25.
Considerando la diferencia en el tamao de los estratos y en las desviaciones estndar se trabaja con
muestreo estratificado con la asignacin de Neyman. Para determinar el tamao de la muestra se
utiliza el ecuacin 6.30 y para repartir la muestra en los estratos se usa la ecuacin 6.31.
Se debe tomar una muestra de 1.473 aserraderos, repartidos as: 360 en el estrato uno, 424 en el
estrato dos y 690 en el estrato tres.
Se debe tomar una muestra de 1.473 aserraderos, repartidos as: 360 en el estrato uno, 424 en el
estrato dos y 690 en el estrato tres.
EJEMPLO
La fbrica de tapas del ejemplo 6.7, desea determinar el tamao de muestra necesario para estimar la
produccin semanal total, con un error mximo de 90.000 tapas y una confiabilidad del 95 por ciento.
Solucin
Se considera que la informacin suministrada en el ejemplo 6.7 corresponde a una muestra piloto, de
la cual se utilizan las varianzas obtenidas que son:
Teniendo en cuenta la gran diferencia presentada en las varianzas de los tres estratos y la diferencia
en el tamao de dichos estratos, el tipo de muestreo adecuado es el estratificado con asignacin de
Neyman.
La frmula para calcular el tamao de la muestra es la 6.32 y para repartirla en los estratos, se utiliza
la ecuacin 6.31
Por lo tanto, para estimar la produccin total con un error mximo de 90.000 tapas y una confiabilidad
del 95 por ciento, se debe seleccionar una muestra de 69 mquinas, repartidas as: 15 manuales, 24
semiautomticas y 30 automticas.
________________________________________________________________________
U.S. Bureau of the Census: curso suplementario para un estudio de caso sobre encuestas y censos.
Conferencias sobre muestreo. Washington D.C. 1971. p. 37
1
Cuando adems de tener marcadas diferencias en la dispersin o variabilidad dentro de los estratos, el
costo para obtener la informacin de un estrato a otro vara, se recomienda utilizar la asignacin
ptima. Con sta asignacin se tiene en cuenta el tamao de los estratos, la dispersin o variabilidad
dentro de ellos y el costo para recopilar la informacin.
6.6.5.3.1 Tamao de muestra para obtener la media con asignacin ptima
ANEXO A
METODO DE LOS MINIMOS CUADRADOS
Este mtodo exige que la diferencia entre el valor observado (Y i ) y el valor estimado (Y i ) sea
mnima, es decir, que el error sea mnimo. Ya que:
Para encontrar un mnimo, se requiere que las dos primeras derivadas sean mayores que cero. Se
deriva S parcialmente respecto a
Derivando respecto a
0:
Derivando respecto a
1:
Reemplazando
0 por su equivalente:
Factorizando
1:
Las ecuaciones (5) y (6) permiten estimar los coeficientes de regresin de la ecuacin:
Adems de que
residuos;
0y
estimados con las ecuaciones (5) y (6), minimizan la suma de cuadrados de los
y
. Es decir que:
ANEXO B
DESCOMPOSICION DE LA SUMA DE CUADRADOS TOTAL (SCT)
A continuacin se demuestra que la SCT = SCE + SCR
A partir de la figura 4.2 que aparece en el documento se lleg a la siguiente expresin:
Se desarrolla el binomio:
y con el primer
. Por lo tanto:
ANEXO C
METODO DE LOS MINIMOS CUADRADOS PARA LA REGRESION MULTIPLE
Si se tiene el modelo de regresin para K variables independientes:
En donde
En este caso, como en la regresin simple, el mtodo de los mnimos cuadrados plantea que la suma
de los residuos al cuadrado sea mnima, es decir:
De la ecuacin (2):
Debido a que una matriz multiplicada por su inversa, es igual a la matriz identidad, se obtiene que la
expresin (5) es:
La traspuesta de X es:
BIBLIOGRAFIA
SCHEAFFER, Richard L.; MENDENHALL, William y OTT, Lyman. Elementos de muestreo. Mxico D.F:
Grupo editorial iberoamrica, 1986. 321 p.
STEVENSON, William J. Estadstica para administracin y economa, conceptos y aplicaciones. Mxico
D.F.: Harla, 1981. 585 p.
U.S. Bureau of the census. Curso complementario para un estudio de caso sobre encuestas y censos.
Conferencias de muestreo. Washington D.C. 1971. 84 p.