Está en la página 1de 148

INTRODUCCIN

Con esta publicacin se pretende tener un material didctico que sirva de apoyo
en el desarrollo de la asignatura de Estadstica II, del programa curricular de las
carreras de Administracin de Empresas e Ingeniera Industrial de la Universidad
Nacional , Sede Manizales.
A pesar de que este material cubre en su totalidad el programa calendario se
requiere la gua del profesor para el adecuado desarrollo del curso y debe
tambin ser complementado con lecturas y problemas en donde se aplique la
teora vista.
En el captulo 1 se presentan los conceptos bsicos de inferencia estadstica,
necesarios para entender el desarrollo terico de los captulos 2 y 3, en donde se
trata el tema de los intervalos de confianza y las pruebas de hiptesis. Adems
de la teora se presentan ejemplos para aplicarla.
El captulo 4 trata del anlisis de regresin lineal y mltiple, se presentan adems
los supuestos tericos de los modelos y los problemas que puede acarrear el no
cumplimiento de stos. En el captulo 5, de series cronolgicas, se habla de los
factores que generalmente se presentan en una variable observada a travs del
tiempo. De todos los modelos existentes para analizar una serie de tiempo se
desarrolla el multiplicativo que, a pesar de su simplicidad, proporciona buenos
resultados. En el captulo 6 se presentan los temas bsicos de muestreo
aleatorio, tratando en detalle el muestreo irrestricto aleatorio y el estratificado.

TABLA DE CONTENIDO
CAPITULO 1: INTRODUCCION A LAS INFERENCIAS ESTADISTICAS
1.

Definicin de Trminos

2.

Inferencia

3.

Teorema central del Limite

4.

Distribuciones en muestreo
1.

Distribucin en el muestreo de la varianza

2.

Distribucin en el muestreo de la media

3.

Distribucin de la diferencia de medias

4.

Distribucin de la proporcin

5.

Distribucin de la diferencia de proporciones

6.

Distribucin del cociente de varianzas

CAPITULO 2 : ESTIMACION POR INTERVALOS


1.

Intervalo de confianza

2.

Intervalo de confianza para la media

3.

Intervalo de confianza para la proporcin

4.

Intervalo de confianza para la varianza

CAPITULO 3 : PRUEBA DE HIPOTESIS


1.

Hiptesis

2.

Prueba de hiptesis para la media

3.

Prueba de hiptesis para la proporcin

4.

Prueba de hiptesis para la varianza

5.

Prueba de hiptesis para el cociente de varianzas

6.

Prueba de hiptesis para la diferencia de medias

7.

Prueba de hiptesis para la diferencia de proporciones

8.

Prueba Chi-Cuadrado o bondad de ajuste

9.

Prueba de independencia

CAPITULO 4 : REGRESION Y CORRELACION


1.

Introduccin a la Regresin y Correlacin

2.

Metodologa

3.

Modelo lineal simple

4.

1.

Funcin de regresin poblacional

2.

Funcin de regresin muestral

3.

Supuestos tericos del mtodo de los mnimos cuadrados

4.

Coeficientes de determinacin

5.

Prueba de hiptesis para los coeficientes de regresin

6.

Proyeccin

7.

Evaluacin de resultados

Modelo lineal general


1.

Coeficientes de determinacin

2.

Errores de los coeficientes de regresin y pruebas de hiptesis

3.

Pruebas de hiptesis para los coeficientes de regresin

4.

Proyeccin

5.

Atributos de un buen modelo de regresin

6.

Supuestos del modelo de regresin


1.

Los errores tienen distribucin normal, con media cero y varianza constante

2.

Multicolinealidad

3.

Homocedasticidad

4.

Especificacin del modelo

5.

Autocorrelacin

CAPITULO 5: SERIES CRONOLOGICAS

1.

Introduccin a Series Cronolgicas

2.

Componentes de las series cronolgicas

3.

1.

Tendencia

2.

Variaciones estacionales

3.

Variaciones cclicas

4.

Variaciones aleatorias o irregulares

Tipos de modelos
1.

Modelo multiplicativo

CAPITULO 6: NOCIONES DE MUESTREO


1.

Introduccin a Nociones de Muestreo

2.

Conceptos generales
1.

Muestra

2.

Poblacin

3.

Unidad de anlisis

4.

Unidad de muestreo

5.

Marco de muestreo

3.

Errores estadsticos

4.

Ventajas del muestreo

5.

Criterios de aceptacin de un mtodo de muestreo

6.

Muestreo irrestricto aleatoria (MIA)


1.

Promedio aritmtico

2.

Estimacin del total

3.

Estimacin de la proporcin

4.

Determinacin del tamao de la muestra

5.

Tamao de muestra para estimar el promedio aritmtico

6.

Tamao de muestra para estimar el total

7.
7.

Tamao de muestra para estimar la proporcin

Muestreo aleatorio especificado


1.

Razones para especificar

2.

Estimacin de la media

3.

Estimacin del total

4.

Estimacin de la proporcin

5.

Determinacin del tamao de la muestra


1.

2.

3.

Muestreo estratificado con asignacin proporcional


1.

Tamao de muestra para estimar el total con asignacin proporcional

2.

Tamao de muestra para estimar la proporcin con asignacin


proporcional

Muestreo estratificado con asignacin Neyman


1.

Tamao de muestra para estimar la media con asignacin Neyman

2.

Tamao de muestra para estimar el total con asignacin Neyman

3.

Tamao de muestra para estimar la proporcin con asignacin Neyman

Muestreo estratificado con asignacin ptima


1.

Tamao de muestra para obtener la media con asignacin ptima

2.

Tamao de muestra para obtener el total con asignacin ptima

3.

Tamao de muestra para estimar la proporcin con asignacin ptima

ANEXOS
1.

Anexo A (Mtodo de los mnimos cuadrados)

2.

Anexo B (Descomposicin de la suma de cuadrados total -SCT-)

3.

Anexo C (Mtodo de los mnimos cuadrados para la regresin mltiple

BIBLIOGRAFIA

El objetivo de ste captulo es aclarar el significado de algunos trminos que son bastante utilizados
durante el curso y dar la fundamentacin terica para el desarrollo de los temas de intervalos de
confianza y pruebas de hiptesis.

1.1 DEFINICION DE TERMINOS


Parmetro: Es una medida estadstica (promedio, varianza, etc.) calculada con todos los elementos
de la poblacin. Generalmente se simbolizan con letras del alfabeto griego o con letras maysculas.

Estimador: Es una medida estadstica (promedio, varianza, etc.) calculada con la informacin
suministrada por una muestra. Generalmente se simbolizan con la letra que identifica al parmetro y
un ^ encima que se lee estimado, o con letras minsculas de nuestro alfabeto.
Estimacin: Es el valor numrico del estimador.

1.2 INFERENCIA

Generalmente, en estadstica no es posible tomar toda la informacin, es decir, no se puede hacer un


censo, por lo tanto se debe tomar una muestra para analizarla y con base en la informacin
suministrada por la muestra generalizar el comportamiento de la poblacin. A esta generalizacin o
paso de lo particular a lo general se le llama inferencia estadstica.
En la estadstica es fundamental el proceso de inferencia, ya que se afirma algo acerca del
comportamiento de la poblacin a partir de una muestra.
Dentro del proceso de inferencia hay dos tipos de estimacin: estimacin puntual y estimacin por
intervalo.
1.2.1 ESTIMACION PUNTUAL. Si se toma una muestra aleatoria y con la informacin suministrada
por ella se obtiene un indicador cualquiera (promedio, desviacin estndar o proporcin) es un
estimador puntual del valor del parmetro. Es decir que un estimador puntual es un solo valor que se
supone nos representa adecuadamente el comportamiento de una variable.
Un estimador puntual debe cumplir las siguientes condiciones mnimas para que sea considerado un
buen estimador. Estas condiciones o propiedades son: insesgado, consistente, eficiente o de varianza
mnima y suficiente.
Insesgado. Un estimador es insesgado si el valor promedio o esperanza matemtica del estimador es
igual al valor del parmetro.
Cuando un estimador es sesgado se puede introducir una correccin que elimine el sesgo.
Consistente. Un estimador es consistente, si a medida que aumenta el tamao de la muestra, el
valor del estimador se acerca al valor del parmetro.
Eficiente o de varianza mnima. Si se toman dos muestras aleatorias del mismo tamao
provenientes de la misma poblacin y si con cada una de estas muestras se obtiene un estimador
insesgado, es eficiente el que tenga menor varianza.
Suficiente. Un estimador es suficiente si para calcularlo se utiliza toda la informacin suministrada
por la muestra.

1.3 TEOREMA DEL LIMITE CENTRAL

Es frecuente tomar muestras de poblaciones que no son normales, cualquiera que sea la distribucin
de la poblacin con tal de que tenga varianza finita, la media muestral tendr aproximadamente, para
muestras grandes, la distribucin normal. Esta propiedad se conoce como teorema central del lmite.
La importancia de este teorema, en lo que concierne a aplicaciones prcticas, se debe al hecho de que
el promedio de una muestra aleatoria procedente de cualquier distribucin con varianza finita

y ,

tiene para muestras grandes, una distribucin aproximadamente normal con media m y varianza
/n.

1.4 DISTRIBUCIONES EN EL MUESTREO


De una poblacin de tamao N, se pueden sacar N combinado n muestras diferentes de tamao n.
Con cada una de estas muestras es posible obtener un estimador, ya sea la media, proporcin,
varianza, etc... La distribucin de estos estimadores se conoce como distribucin en el muestreo.
El conocer la distribucin en el muestreo de algunos de estos estimadores es til en el desarrollo
terico de los temas correspondientes a estimacin por intervalo y pruebas de hiptesis. A
continuacin se vern las distribuciones en el muestreo ms utilizadas.
1.4.1. DISTRIBUCION EN EL MUESTREO DE LA VARIANZA
1.4.2. DISTRIBUCION EN EL MUESTREO DE LA MEDIA
1.4.3. DISTRIBUCION DE LA DIFERENCIA DE MEDIAS
1.4.4. DISTRIBUCION DE LA PROPORCION
1.4.1. DISTRIBUCION EN EL MUESTREO DE LA VARIANZA
El supuesto fundamental es que la poblacin tiene distribucin normal con media
esta poblacin se obtiene una muestra aleatoria de tamao n.
La varianza de la muestra se define como:

Si se multiplica por n/

se obtiene:

y varianza

. De

(1.1)
La expresin (1.1) es similar a:

(1.2)
Que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si
la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de libertad.
Que tiene distribucin chi-cuadrado con n grados de libertad. La nica diferencia es que en el uno
interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si
la expresin (1.1) tambin tiene distribucin chi-cuadrado con n grados de libertad.
Recordemos que una variable aleatoria con distribucin normal estndar, elevada al cuadrado, tiene
distribucin chi-cuadrado y sus grados de libertad dependen del nmero de observaciones.
Si una variable aleatoria X tiene distribucin normal, N( ,

), por el teorema central del lmite:

(1.3)
Para hacer la demostracin partimos de la expresin (1.2), a la que se le resta y se le suma la media
muestral:

Desarrollando el binomio y aplicando propiedades de la suma se obtiene:

Por propiedades de la media:

Despejando:

Por lo tanto,

(1.4)

Es decir que la sustitucin de la media poblacional por la media muestral reduce en 1 los grados de
libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza un parmetro por
un estimador, se reduce en 1 los grados de libertad de la distribucin chi-cuadrado.
Si se utiliza la varianza corregida,

(1.5)
Lo anterior se debe a que la varianza corregida se define como:

En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos
especiales.

1.4.2. DISTRIBUCION EN EL MUESTREO DE LA MEDIA


Dependiendo de las caractersticas de la poblacin y del tamao de la muestra se tienen varios casos.
1.4.2.1 . Se selecciona una muestra aleatoria de tamao n de una poblacin con distribucin normal
con media m y varianza

, con s 2 conocida.

La media muestral tiene tambin distribucin normal,

(1.6)
1.4.2.2 . Se selecciona una muestra aleatoria de tamao n 30 de una poblacin con distribucin
diferente a la normal

(1.7)
1.4.2.3 . Se selecciona una muestra aleatoria de tamao n 30 . La distribucin t es adecuada para
trabajar con muestras pequeas, y se obtiene del cociente entre una distribucin normal estndar y la
raz cuadrada de una chi-cuadrado dividida por sus grados de libertad, por lo tanto:

(1.8)
Si se utiliza la varianza corregida:

(1.9)

1.4.3. DISTRIBUCION DE LA DIFERENCIA DE MEDIAS


Cuando se toman dos muestras aleatorias de poblaciones diferentes, generalmente se quieren
comparar los dos promedios o medir la diferencia que hay entre ellos.
Si se toman dos muestras aleatorias independientes, de tamaos n 1 y n2 procedentes de poblaciones
con medias y y varianzas
y
respectivamente:

1.4.3.1 . Si las muestras proceden de poblaciones con distribucin normal y las varianzas
poblacionales son conocidas :

(1.10)
1.4.3.2 . Si las muestras provienen de poblaciones no normales pero los tamaos de muestra son
grandes , es decir, n1 30 y n2 30, la distribucin de la diferencia de medias es como en el caso
anterior.
1.4.3.3 . Si las muestras provienen de poblaciones normales con varianzas poblacionales iguales pero
desconocidas y tamaos de muestra pequeos , es decir, n 1 30 y n2 30. Como se desconocen las
varianzas poblacionales se debe obtener una expresin que elimine dichas varianzas, y debido a que
las muestras son pequeas se debe obtener una distribucin t-Student

Simplificando se obtiene:

(1.11)
1.4.3.4 . Si las muestras provienen de poblaciones normales con varianzas poblacionales
desconocidas pero diferentes y tamaos de muestra pequeos , es decir, n 1 30 y n2 30:

(1.12)
Donde:

Cuando se va a hacer una prueba de hiptesis o un intervalo de confianza para la diferencia de medias
y las muestras son pequeas, primero se debe comprobar si las varianzas poblacionales son iguales o
no. En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos
especiales.

1.4.4. DISTRIBUCION DE LA PROPORCION

Una proporcin poblacional se define como =X/N, donde X es el nmero de elementos en la


poblacin que poseen cierta caracterstica y N es el total de elementos de la poblacin.
Una proporcin muestral se define como p = x/n, donde x es el nmero de elementos en la muestra
que poseen cierta caracterstica y n es el total de elementos de la muestra.
Cuando se desea estimar una proporcin, el tamao de la muestra siempre debe ser grande, es decir,
n 30.
Si la muestra se obtiene con reemplazo, x tiene distribucin binomial y debido a que la muestra es
grande, por el teorema central del lmite se aproxima a una distribucin normal; por consiguiente:

Debido a que se desconoce la proporcin poblacional, se utiliza la proporcin muestral para estimar la
varianza, por lo tanto:

(1.13)
1.4.5 DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES De dos poblaciones se toman dos
muestras aleatorias independientes de tamaos n 1 30 y n2 30, y en cada una de ellas se observa
una caracterstica o cualidad. La proporcin muestral de elementos con una caracterstica se define
como:

(1.14)
1.4.6 DISTRIBUCION DEL COCIENTE DE VARIANZAS De dos poblaciones con distribucin normal
y varianzas poblacionales
y
se toman dos muestras aleatorias independientes de tamaos n 1 y n2
.
Como se vi, en la distribucin de la varianza se llega a una distribucin chi-cuadrado y del cociente
de dos chi-cuadrado se obtiene una distribucin F de Snedecor.

(1.15)
Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la fundamentacin
terica que nos permite desarrollar el tema correspondiente a los intervalos de confianza y las pruebas
de hiptesis.

2 : ESTIMACION POR INTERVALOS


Hasta ahora se ha hablado de la estimacin puntual, en donde se halla un solo valor o indicador del
comportamiento de una variable, pero no se sabe qu tan cerca est el valor estimado del parmetro
y generalmente se necesita ms que un valor exacto, un rango dentro del cual esperamos que est el
valor del parmetro; por esta razn, es de gran utilidad la estimacin por intervalo en donde se tiene
en cuenta la dispersin de los datos y de antemano se conoce la confiabilidad de la estimacin.
En el presente captulo se desarrolla el tema correspondiente a los intervalos de confianza para la
media, la proporcin y la varianza.
2.1 INTERVALO DE CONFIANZA
Cuando se selecciona una muestra aleatoria y se obtiene un estimador puntual (promedio, proporcin,
etc.), no se sabe qu tan cerca est dicha estimacin del parmetro, por sta razn es necesario
construir un intervalo de confianza, en donde adems de tener en cuenta el grado de dispersin o
variacin de los datos y el tamao de la muestra se establece un nivel de confianza o probabilidad de
que el valor del parmetro est contenido en dicho intervalo o rango.
Para obtener un intervalo de confianza se determinan los valores Z 1 y Z2 y a tales que la confiabilidad
de que el parmetro q est dentro de los lmites Z 1 y Z2 sea - a , es decir:

Donde:
1-

= Se conoce como confiabilidad o nivel de confianza y generalmente est entre el 90 y el 99%

= Nivel de significancia o margen de error, del 1 al 10%

Z1 y Z2 = son percentiles correspondientes a una distribucin de probabilidad, la cual depende de la


distribucin en el muestreo del estimador con el que se est trabajando. Los valores de estos
percentiles tambin dependen del nivel de confianza.
Grficamente, se hallan dos valores tales que el rea que hay entre Z 1 y Z2 sea 1- y el rea restante
( ) se divide en dos partes iguales, quedando /2 en la parte inferior y el otro /2 en la parte
superior de la distribucin, tal como se observa en la figura 2.1. Por esta razn de ahora en adelante
Z1 y Z2 se notarn como
y
.

Figura 2.1 Nivel de confianza y nivel de significancia

2.2 INTERVALO DE CONFIANZA PARA LA MEDIA


Como en el caso de las distribuciones en el muestreo, se tienen varios casos, los cuales dependen de
las caractersticas de la poblacin y el tamao de la muestra.
CASOS DE LOS INTERVALOS DE CONFIANZA
CASOS :
2.2.1 . Intervalo de confianza para la media, cuando se selecciona una muestra aleatoria de
tamao n de una poblacin con distribucin normal con media

y varianza

conocida.

En este caso, por las condiciones de la muestra se utiliza la distribucin normal estndar, por lo tanto
y
pertenecen a una distribucin normal estndar. Como se trabaja con una distribucin
normal,
y
son iguales pero con diferente signo,
es negativo y
es positivo, por lo tanto
en la frmula se incluye el signo y
y
se reemplazan por Z. Para obtener el intervalo de
confianza para la media se utiliza la siguiente expresin:

(2.1)
Donde Z pertenece a una distribucin normal estndar.
Interpretando este intervalo se dir que el promedio poblacional estar entre:

Con una confiabilidad del (1-

) por ciento.

EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos, tiene una distribucin
normal con desviacin estndar de 8 unidades por hora. Se desea estimar un intervalo de confianza
del 90 por ciento para el promedio de unidades por hora producido con dicho proceso. Para tal efecto,
se toma una muestra aleatoria de la produccin por hora durante 25 horas y se obtiene un promedio
de 160 unidades.

Solucin . Como la distribucin de la poblacin es normal y se conoce la desviacin estndar


poblacional, se utiliza la expresin 2.1 para calcular el intervalo de confianza.
El valor de Z se halla en una tabla de la distribucin normal. La confiabilidad es del 90 por ciento, por
lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la cola inferior y a /2 en la
cola superior. En la figura 2.2, el rea que hay de - a Z es 0,95 y para sta rea el valor de Z en la
distribucin normal es 1,64

Figura 2.2 Percentil de la distribucin normal

Interpretacin . El promedio de unidades por hora producidas en dicha fbrica est entre 157 y 163
con una confiabilidad del 90 por ciento.

2.2.2. Intervalo de confianza para la media si se selecciona una muestra aleatoria de


tamao n 30 de una poblacin con distribucin diferente a la normal.
Por las condiciones de la muestra, se utiliza la expresin (1.7). Haciendo el mismo proceso que se hizo
en el caso anterior se obtiene:

(2.2)
Donde Z pertenece a una distribucin normal estndar.

EJEMPLO
En un estudio elaborado acerca de la duracin de 51 bombillas de semforos en cierta ciudad, se
determin un promedio de duracin de 1.795 horas con una desviacin estndar de 489 horas. Halle
un intervalo con el 95 por ciento de confiabilidad para estimar la media poblacional.
Solucin

Como el tamao de la muestra es mayor que 30, se utiliza la expresin 2.2 y para una confiabilidad
del 95 por ciento, el valor de Z en la distribucin normal es 1,96. Reemplazando:

Interpretacin . Con una confiabilidad del 95 por ciento, la duracin promedio de las bombillas de
semforos de dicha ciudad, est entre 1.661 y 1.921 horas.
2.2.3 . Intervalo de confianza para la media si se selecciona una muestra aleatoria de
tamao n<30 .
Como la muestra es pequea, se utiliza la expresin (1.8) para despejar el intervalo de confianza para
, obtenindose:

(2.3)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.

Si se trabaja con la desviacin estndar corregida, se utiliza la expresin (1.9), obtenindose:

(2.4)
En donde Z pertenece a una distribucin t con (n-1) grado de libertad.

EJEMPLO
Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes de
ingeniera industrial de la Universidad Nacional Sede Manizales. Para tal efecto, de los estudiantes de
dicha carrera se seleccion una muestra aleatoria de 15 personas a quienes se les pregunt su
estatura en metros, obtenindose los siguientes resultados:
ESTATURA: 1,50
1,63
1,70 1,70 1,65

1,50

1,69

1,69

1,79

1,73

1,69

1,56

1,70

1,65

1,74

Halle un intervalo de confianza del 95 por ciento.


Solucin . Con la informacin disponible se calcul el promedio aritmtico y la desviacin estndar,
los que respectivamente son 1,6613 y 0,0808

n = 15 y 1-

= 0,95

Como la muestra es pequea se utiliza la expresin 2.3. El valor de Z se halla en una tabla de la
distribucin t con 14 grados de libertad, que para un nivel de confianza del 95 por ciento es 2,145.
Reemplazando:

Interpretacin . Con un 95 por ciento de confiabilidad, se puede afirmar que la estatura promedio de
los estudiantes de ingeniera industrial de la universidad Nacional Sede Manizales, est entre 1,62 y
1,71 mts.

2.3 INTERVALO DE CONFIANZA PARA LA PROPORCION


Cuando se observa una caracterstica o cualidad en la muestra se puede estimar la proporcin de
elementos que tienen una caracterstica determinada; en estos casos, el tamao de la muestra
siempre debe ser grande, por lo tanto se tiene un solo caso.
Para despejar el intervalo de confianza se parte de la expresin (1.13) y haciendo el mismo proceso
que para el caso de la media, se obtiene:

(2.5)

Donde Z pertenece a la distribucin normal estndar.


Ejemplo
La Federacin Nacional de Cafeteros, realiz un estudio con el fin de conocer el porcentaje de
propietarios y arrendatarios de las fincas productoras del grano en la regin del viejo Caldas. Para tal
efecto se tom una muestra aleatoria de 100 fincas, en las cuales se encontr que 65 de los
caficultores eran dueos del predio. Halle un intervalo del 95 por ciento de confianza para el
porcentaje de propietarios de fincas en la regin del viejo Caldas.
Solucin

Se utiliza la expresin 2.5. El valor de Z se halla en la tabla de la distribucin normal, que para una
confiabilidad del 95 por ciento es de 1,96. Reemplazando:

Interpretacin . En la regin del Viejo Caldas, el porcentaje de propietarios de fincas cafeteras, est
entre el 55,7 y el 74,3 por ciento, con una confiabilidad del 95 por ciento.

2.4 INTERVALO DE CONFIANZA PARA LA VARIANZA


De una poblacin con distribucin normal con media m y varianza s 2 se obtiene una muestra
aleatoria de tamao n. Para obtener el intervalo de confianza para la varianza ( s 2 ) se parte de la
expresin (1.4):

Se divide por ns2 :

Se invierte:

Reescribiendo:

(2.6)
Donde
y

y
pertenecen a una distribucin chi-cuadrado con (n-1) grado de libertad, por lo tanto,
son diferentes y
<
.

Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs 2. Halle un intervalo
de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de sta marca.
Solucin . Se utiliza la expresin 2.6. Los valores de
y
pertenecen a una distribucin chicuadrado con 29 grados de libertad. Como puede observarse en la figura 2.3 el rea que hay por
debajo de Z a /2 es 0,05, por lo tanto
=17,71 y el rea que hay por debajo de
es 0,95, por lo
tanto
=42,56

Figura 2.3 Percentiles de la distribucin chi-cuadrado

Reemplazando en la expresin 2.6 se obtiene:

Por razones de utilidad se halla el intervalo de confianza para la desviacin estndar, sacando la raz
cuadrada de los lmites, por lo tanto:

Interpretacin . El promedio de variacin o de dispersin de la rotura de los cables de dicha marca,


est entre 150 y 233 lbs . Con una confiabilidad del 90 por ciento.

3. PRUEBA DE HIPOTESIS

Dentro del proceso de inferencia, adems de la estimacin puntual y la por intervalo, en muchas
ocasiones es necesario hacer pruebas de hiptesis, las cuales se hacen con base en la informacin
muestral.
En este captulo se ver la prueba de hiptesis para la media, la proporcin, la varianza, la diferencia
de medias, la diferencia de proporciones, el cociente de varianzas, la prueba de independencia y la
prueba de bondad de ajuste.
3.1 HIPOTESIS
Una hiptesis estadstica es un supuesto acerca del valor de un parmetro de una poblacin
determinada. Este supuesto debe comprobarse con la informacin suministrada por una muestra
aleatoria obtenida de dicha poblacin.
Cuando se realiza una prueba de hiptesis, se plantean dos hiptesis que deben ser mutuamente
excluyentes; una es la hiptesis nula que se nota como H 0 y la otra es la hiptesis alternativa que se
nota como H1 .
Se debe establecer un criterio o regla de decisin segn la cual no se rechace la hiptesis nula o se
rechace. Si se rechaza la hiptesis nula (H 0 ) se acepta hiptesis alternativa (H1 ). Para establecer esta
regla de decisin la distribucin de probabilidad se divide en dos categoras mutuamente excluyentes:
la que lleva al rechazo de H 0 , es decir est en la zona de rechazo y la que lleva al no rechazo de H 0 ,
es decir, est en la zona de no rechazo.
Debido a que se est trabajando con una muestra aleatoria, cuando se realiza una prueba de hiptesis
se pueden cometer dos tipos de errores. La hiptesis nula (H 0 ) es en realidad verdadera, pero debido
a que los datos muestrales parecen ser inconsistentes con ella, se la rechaza (ERROR TIPO I) y la
probabilidad de cometer un error tipo I se llama nivel de significancia ( ). Puesto que cuando se
comete un error tipo I, seguiramos una accin errnea, se puede definir el nivel de significancia como
la probabilidad de decidirnos por H1 dado que H0 es verdadera.
Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama ERROR TIPO
II.
.1.1 FORMULACION DE HIPOTESIS
El primer paso en la prueba de hiptesis es el planteamiento de las hiptesis, lo que en algunos casos
no es una tarea fcil.
Hay tres tipos de hiptesis, a saber:
- Prueba de hiptesis a dos colas

H0:

=k

H1:

- Prueba de hiptesis a una cola superior


H0 :

=k

H0:

H1 :

>k

H1 :

>k

- Prueba de hiptesis a una cola inferior


H0 :

=k

H0 :

H1 :

<k

H1 :

<k

Ntese que las hiptesis siempre se plantean para un parmetro

Una vez establecidas las hiptesis, se selecciona el nivel de significancia o margen de error
que generalmente se fija entre el uno y el diez por ciento.

( ) el

El tercer paso es la estadstica a probar o estadstica de trabajo, la cual depende de la distribucin en


el muestreo del estimador con el que se est trabajando y de los supuestos correspondientes a la
poblacin y al tamao de la muestra. Cuando se realizan los clculos siempre se supone que la
hiptesis nula (H0) es cierta.
El cuarto paso es establecer la regla de decisin, la cual depende de la distribucin de probabilidad de
la estadstica a probar, del nivel de significancia ( ) y de la hiptesis alternativa (H1).
Finalmente se toma la decisin de no rechazar la hiptesis nula o rechazarla.

3.2 PRUEBA DE HIPOTESIS PARA LA MEDIA

El promedio aritmtico poblacional es un indicador muy importante, por lo tanto, frecuentemente se


desea probar si dicho promedio ha permanecido igual, ha aumentado o ha disminuido. A travs de la
prueba de hiptesis se determina si la media poblacional es significativamente mayor o menor que
algn valor supuesto.
Hiptesis
Se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

=k

H1 :

- Prueba de hiptesis a una cola superior


H0 :

=k

H1 :

>k

H0 :
H1 :

k
>k

- Prueba de hiptesis a una cola inferior


H0 :

=k

H0 :

H1 :

<k

H1 :

<k

En las distribuciones en el muestreo se vi que para el caso de la media, hay tres situaciones, por
consiguiente la estadstica de trabajo a utilizar depende de los supuestos de la poblacin y del tamao
de la muestra.

3.2.1 Prueba de hiptesis para la media si la poblacin de donde se obtiene la muestra tiene
distribucin normal con conocida.
La estadstica de trabajo a usar corresponde a la expresin (1.6):

(3.1)
Donde:

es el valor que se est suponiendo en la hiptesis nula (H 0).

REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como: H 1 :
k se tiene una prueba de hiptesis a dos
colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos
valores en los extremos de la distribucin como se aprecia en la figura 3.1

Figura 3.1 Regla de decisin para una prueba de hiptesis a dos colas.

y
pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z x)
est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1. Es decir:

- Si se ha planteado la hiptesis alternativa como:


H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia (
en la parte superior de la distribucin, como se aprecia en la figura 3.2

Figura 3.2 Regla de decisin para una prueba de hiptesis a una cola superior.

pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z x) es


menor que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar
H1. Es decir,

Si se ha planteado la hiptesis alternativa como:


H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
en la parte inferior de la distribucin, como se aprecia en la figura 3.3

Figura 3.3 Regla de decisin para una prueba de hiptesis a una cola inferior.

Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z x) es mayor


que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1. Es
decir,

EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos aos da una produccin media
de 100 unidades por hora con una desviacin estndar de 8 unidades. Se acaba de introducir en el
mercado una nueva mquina para realizar ese tipo de producto. Aunque es muy cara comparada con
la que est ahora en uso, si la media de produccin de la nueva mquina es de ms de 150 unidades
por hora, su adopcin dara bastantes beneficios.
Para decidir si se debiera comprar la nueva mquina, a la gerencia de la fbrica se le permite hacer un
ensayo durante 35 horas, hallndose un promedio de 160 unidades por hora. Con sta informacin
qu decisin se debe tomar si se asume un nivel de confianza del 99 por ciento.
Solucin .
Segn el enunciado, solo se compra la mquina si la produccin es de ms de 150 unidades por hora,
por lo tanto las hiptesis son:
H0 :

= 150

H1 :

> 150

Para elegir la estadstica de trabajo se tiene en cuenta que se conoce la varianza poblacional, por lo
tanto se usa la expresin 3.1

por el planteamiento de la hiptesis alternativa se trabaja a una cola superior. En la distribucin


normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. como puede observarse en la
figura 3.4, la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por lo tanto, se
acepta que la produccin promedio por hora es superior a las 150 unidades y asumiendo un riesgo del
1 por ciento se puede comprar la nueva mquina.

Figura 3.4 Regla de decisin para una prueba de hiptesis a una cola inferior.

3.2.2 Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n
30 de una poblacin con cualquier distribucin.
La estadstica de trabajo a usar es la expresin (1.7):

REGLA DE DECISION
Es la misma que en el caso anterior y depende en todo caso de la hiptesis alternativa.

EJEMPLO
La duracin promedio de las llantas producidas por una fbrica de llantas, segn experiencias
registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal
efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duracin promedio de 45.050
kms. con una desviacin estndar de 3.070 kms.
Solucin

H1 :

= 46.050
46.050

Teniendo en cuenta que el tamao de la muestra es grande, como estadstica de trabajo se utiliza la
expresin 3.2

Por la hiptesis alternativa, la regla de decisin es a dos colas. La tabla a utilizar es la de la


distribucin normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores
de Z son -1,96 y 1,96. Como puede observarse en la figura 3.5, el valor de la estadstica de trabajo
est en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por
ciento se acepta que la duracin promedio de las llantas ha cambiado.

Figura 3.5 Regla de decisin para una prueba de hiptesis a dos colas

3.2.3 Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao
n<30 .
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o
corregida.
Si se utiliza la varianza sin corregir (

) la estadstica de trabajo es la expresin (1.8):

(3.3)
Si se utiliza la varianza corregida la estadstica de trabajo es la expresin (1.9):

(3.4)

EJEMPLO
En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria de doce
(12) sobres de caf de una empacadora. Se encuentra que el peso promedio del contenido de caf de
cada sobre es 15,97 grs. con una desviacin estndar de 0,15. La compaa empacadora afirma que el
peso promedio mnimo del caf es de 16 grs. por sobre. Puede aceptarse sta afirmacin si se asume
un nivel de confianza del 90 por ciento?
Solucin
Se desea probar si el peso mnimo es de 16 grs., es decir mayor o igual a 16 grs., as que las hiptesis
adecuadas son:
H0 :

16

H1 :

< 16

Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la
expresin 3.3
Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la
expresin 3.3

Como lo indica la hiptesis alternativa, se trabaja a una cola inferior en la tabla de la distribucin t con
11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363
Como puede observarse (figura 3.6), la estadstica de trabajo (-0,663) est ubicada en la zona de no
rechazo de la hiptesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza
que los empacadores de caf tienen la razn, por lo tanto se concluye que el peso promedio de los
sobres de caf es mayor o igual a 16 grs.

Figura 3.6 Regla de decisin para una prueba de hiptesis a una cola inferior

3.3 PRUEBA DE HIPOTESIS PARA LA PROPORCION


Frecuentemente se desea estimar la proporcin de elementos que tienen una caracterstica
determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza
informacin cualitativa y se est interesado en verificar un supuesto acerca de la proporcin
poblacional de elementos que tienen determinada caracterstica, es til trabajar con la prueba de
hiptesis para la proporcin.
HIPTESIS
Como en el caso de la media, se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

=k

H1 :

- Prueba de hiptesis a una cola superior


H0 :

=k

H1 :

>k

H0 :
H1 :

k
>k

- Prueba de hiptesis a una cola inferior


H0 :
H1:

=k
<k

H0 :

H1 :

<k

Cuando se va a estimar una proporcin el tamao de la muestra (n) siempre debe ser mayor a 30, por
lo tanto se tiene un solo caso.
La estadstica de trabajo a utilizar es la expresin (1.13):

(3.5)

REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1:
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura 3.1
y
pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z p)
est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si
< Zp <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia (
en la parte superior de la distribucin, vase figura 3.2

pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z p ) es menor


que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es
decir, si Zp <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
en la parte inferior de la distribucin, vase figura 3.3

Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Z p ) es mayor


que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es
decir, si Zp > Z no se rechaza H0 .

EJEMPLO
Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que
suministra a una fbrica guardan las formas especificadas. Un examen de 200 de esas piezas revel
que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto.
Solucin
H0 :

0,9

H1 :

< 0,9

Para realizar una prueba de hiptesis para la proporcin se utiliza la expresin 3.5

Asumiendo una confiabilidad del 95 por ciento, el valor correspondiente a Z en la distribucin normal
es -1,64

Como puede observarse en la figura 3.7, el valor de la estadstica de trabajo se encuentra en la zona
de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye
que la afirmacin del fabricante no es cierta.

Figura 3.7 Regla de decisin para una prueba de hiptesis a una cola inferior

3.4 PRUEBA DE HIPOTESIS PARA LA VARIANZA


Es frecuente que se desee comprobar si la variacin o dispersin de una variable ha tenido alguna
modificacin, lo cual se hace con la prueba de hiptesis para la varianza.
Hiptesis
Se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

=k

H1 :

- Prueba de hiptesis a una cola superior

H0 :

=k

H0 :

H1 :

>k

H1 :

>k

- Prueba de hiptesis a una cola inferior


H0 :

=k

H1 :

H1 :

<k

H1 :

<k

En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o
corregida.
Si se utiliza la varianza sin corregir (

) la estadstica de trabajo es la expresin (1.4):

(3.6)
Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):

(3.7)

REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura 3.8

Figura 3.8 Regla de decisin para una prueba de hiptesis a dos colas

y
pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de
trabajo (T) est entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo
cual implica aceptar H1 . Es decir, si
<T<
no se rechaza H0.
- Si se ha planteado la hiptesis alternativa como:
H1 :
> k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia (
) en la parte superior de la distribucin, vase figura 3.9

Figura 3.9 Regla de decisin para una prueba de hiptesis a una cola superior

Z1- pertenece a una distribucin X 2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo
(T) es menor que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si T <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 :
< k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
) en la parte inferior de la distribucin, vase figura 3.10

Figura 3.10 Regla de decisin para una prueba de hiptesis a una cola inferior

Z pertenece a una distribucin X 2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo
(T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
aceptar H1 . Es decir, si T >Z no se rechaza H0.

EJEMPLO

Se supone que los dimetros de cierta marca de vlvulas estn distribuidos normalmente con una
varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una
muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes
resultados en pulgadas: 5,5
5,4
5,4
5,6
5,8
5,4
5,5
5,4
5,6
5,7
Con sta informacin pruebe si lo que se cree es cierto.
Solucin
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 :

= 0,2

H1 :

> 0,2

Para realizar esta prueba de hiptesis se utiliza la expresin 3.6

Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9
grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el
valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por
consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no
ha aumentado.

Figura 3.11 Regla de decisin para una prueba de hiptesis a una cola superior

3.5. PRUEBA DE HIPOTESIS PARA EL COCIENTE DE VARIANZAS


Si de dos poblaciones con distribucin normal se seleccionan dos muestras aleatorias independientes
de tamaos n1 y n2 , se puede comparar la homogeneidad o variabilidad de dichas poblaciones a
travs de una prueba de hiptesis para el cociente de varianzas.

Cuando se planteen las hiptesis debe quedar en el numerador la poblacin cuya muestra tenga
mayor varianza. Es decir que la poblacin 1 ser la que tenga mayor varianza muestral.
Hiptesis
Se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

H1 :

H0 :
H1 :

/
/

=1
1

- Prueba de hiptesis a una cola superior


H0 :

H0 :

H1 :

>

H1 :

>1

- Prueba de hiptesis a una cola inferior


H0 :

H0 :

H1 :

<

H1 :

<1

La estadstica de trabajo es la expresin (1.15)

(3.8)

REGLA DE DECISION
Si se ha planteado la hiptesis alternativa como:
H1 :
H1 :
/
1 se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.8
y
pertenecen a una distribucin F con (n1 -1) grado de libertad en el numerador y (n 2-1) grado
de libertad en el denominador. Si el valor de la estadstica de trabajo (T) est entre
y
no se
rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es decir, si
<
T<
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 :
>
H1 :
/
> 1 , se tiene una prueba de hiptesis a una cola superior, quedando el nivel
de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.9

Z 1- a pertenece a una distribucin F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado
de libertad en el denominador. Si el valor de la estadstica de trabajo (T) es menor que Z 1- a no se
rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T <
Z 1- a no se rechaza H o .
- Si se ha planteado la hiptesis alternativa como:
H1 :
<
H1 :
/
< 1 , se tiene una prueba de hiptesis a una cola inferior, quedando el nivel
de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.10
Z a pertenece a una distribucin F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de
libertad en el denominador. Si el valor de la estadstica de trabajo (T) es mayor que Z a no se rechaza
la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no
se rechaza H0 .

EJEMPLO
Dos fuentes de materias primas estn siendo consideradas. Ambas fuentes parecen tener
caractersticas similares, pero no se est seguro de su homogeneidad. Una muestra de 10 grupos de la
fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una
varianza de 195. Con base en sta informacin se puede concluir que la varianza de la fuente A es
significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento.
Solucin
H

H1 :

A=
A>

B
B

Con un nivel de confianza del 99 por ciento, en la tabla de la distribucin F con 9 grados de libertad en
el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como
puede observarse en la figura 3.12, el valor de la estadstica de trabajo est en la zona de no rechazo
de la hiptesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la
variabilidad de las dos fuentes de materia prima es igual.

Figura 3.12 Regla de decisin para una prueba de Hiptesis a una cola superior

3.6. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS


Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaos n 1 y n 2 , se
puede comparar el comportamiento de dichas poblaciones a travs de los promedios.
Hiptesis
Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

H1 :

H0 :
H1 :

=k
k

- Prueba de hiptesis a una cola superior


H0 :

H0 :

H1 :

>

H1 :

>k

- Prueba de hiptesis a una cola inferior


H0 :

H0 :

H1 :

<

H1 :

<k

La estadstica de trabajo depende de las caractersticas de las poblaciones y del tamao de las
muestras.

3.6. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS


3.6.1 . Prueba de hiptesis para la diferencia de medias, si las muestras se obtienen de
poblaciones con distribucin normal, con varianzas poblacionales conocidas , la estadstica de
trabajo es la expresin (1.10):

(3.9)

REGLA DE DECISION
- Si se ha planteado la hiptesis alternativa como:
H1 :
>
H1 :
> k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.1
y
pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo est
entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica
aceptar H 1 . Es decir,

- Si se ha planteado la hiptesis alternativa como:


H1 : > H1 : - > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de
significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2
pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es menor que
se acepta la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H<sub>1 . Es
decir,

- Si se ha planteado la hiptesis alternativa como:


H1 : < H1 : - < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de
significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3
Z pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es mayor que
Z no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es
decir,

EJEMPLO
Un constructor est considerando dos lugares alternativos para construir un centro comercial. Como
los ingresos de los hogares de la comunidad son una consideracin importante en sta seleccin,

desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda
comunidad en cuando menos $1.500 diarios. Con la informacin de un censo realizado el ao anterior
sabe que la desviacin estndar del ingreso diario de la primera comunidad es de $1.800 y la de la
segunda es de $2.400
Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario
promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso
promedio diario es de $34.600. Pruebe la hiptesis con un nivel de confianza del 95 por ciento.
Solucin
Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o ms, por lo
tanto:
H0 :

1.500

H1 :

< 1.500

El tamao de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la
estadstica de trabajo a utilizar es la expresin 3.9

Para un nivel de confianza del 95 por ciento, en la tabla de la distribucin normal se tiene un valor de
Z de -1,64. Como puede observarse en la figura 3.13, la estadstica de trabajo se ubica en la zona de
aceptacin de la hiptesis nula; por lo tanto, con una confiabilidad del 95 por ciento, la diferencia
entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

Figura 3.13 Regla de decisin para una prueba de hiptesis a una cola inferior

3.6.2 Prueba de hiptesis para la diferencia de medias si las muestras se obtienen de


poblaciones con distribuciones diferentes a la normal, pero n 1 30 y n2 30 y varianzas
poblacionales desconocidas , la estadstica de trabajo es igual al caso anterior, solo que se
reemplaza la varianza poblacional por la muestral:

(3.10)

REGLA DE DECISIN
La regla de decisin es la misma que en caso anterior y en todo caso, depende de la hiptesis
alternativa.

EJEMPLO
Una muestra de 80 alambres de acero producidos por la fbrica A presenta una resistencia promedio a
la ruptura de 1.230 lbs . con una desviacin estndar de 120 lbs .. Una muestra de 100 alambres de
acero producidos por la fbrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con
una desviacin estndar de 90 lbs .. Con base en sta informacin pruebe si la resistencia promedio a
la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres
de acero de la marca B. Asuma un nivel de confianza del 99 por ciento.
Solucin
H0 :

A=

H1 :

A>

El tamao de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la
estadstica de trabajo a utilizar es la expresin 3.10

Con un nivel del confianza del 99 por ciento, en la tabla de la distribucin normal el valor de Z es 2,33.
como puede observarse en la figura 3.14, la estadstica de trabajo est en la zona de rechazo de la
hiptesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia
promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de
los alambres de la marca B.

Figura 3.14 Regla de decisin para una prueba de hiptesis a una cola superior

3.6.3 Prueba de hiptesis para la diferencia de medias si las muestras se obtienen de


poblaciones con distribucin normal, con varianzas poblacionales iguales pero desconocidas
y n1 <30 y n2 <30 , la estadstica de trabajo es la expresin (1.11):

(3.11)

REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores, pero los valores de la tabla se hallan en
una distribucin t con (n1 +n2 -2) grados de libertad.
Nota . Cuando se tienen muestras pequeas y se va a realizar una prueba de hiptesis para la
diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o diferentes, lo
cual se hace con la prueba de hiptesis para el cociente de varianzas. Si las varianzas son iguales se
aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4.

EJEMPLO
Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las bolsas de
papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal efecto se tom una
muestra aleatoria de 25 bolsas, midindose la cantidad de cera en cada lado de esas bolsas,
obtenindose los siguientes resultados:

Con base en esta informacin cul es su conclusin?. Asuma un nivel de confianza del 90 por ciento.
Solucin
Con la informacin suministrada se obtienen los estimadores necesarios:

En consideracin a que el tamao de las muestras es pequeo, antes de realizar la prueba de hiptesis
para la diferencia de medias, se debe probar si las varianzas poblacionales son iguales o diferentes.
H0 :

=1

H1 :

Para la estadstica de trabajo se utiliza la expresin 3.8:

Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 24 grados de libertad en el
numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es 0,505 y el valor de Z 0,95
es 1,98. como puede observarse en la figura 3.15, la estadstica de trabajo cae en la zona de no
rechazo de la hiptesis nula, por consiguiente las varianzas poblacionales son iguales.

Como las varianzas poblacionales son iguales, para realizar la prueba de hiptesis para la diferencia de
medias se usa la expresin 3.11
H0 :

H1 :

I>

E
E

Con una confiabilidad del 90 por ciento, en la tabla de la distribucin t con 48 grados de libertad, el
valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadstica de trabajo se encuentra en
la zona de no rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 90 por ciento se
concluye que la cantidad promedio de cera en el lado interno no es mayor que la cantidad promedio
de cera en el lado externo.

Figura 3.16 Regla de decisin para una prueba de hiptesis a una cola superior

3.6.4 Prueba de hiptesis para la diferencia de medias si las muestras se obtienen de


poblaciones con distribucin normal, con varianzas poblacionales diferentes pero
desconocidas y n1 <30 y n2 <30 , la estadstica de trabajo es la expresin (1.12):

(3.12)

REGLA DE DECISIN
La regla de decisin es la misma que en los casos anteriores pero los valores de la tabla se hallan en
una distribucin t con k grados de libertad, siendo:

(3.13)

EJEMPLO
Un fabricante de bombillos sospecha que una de sus lneas de produccin est produciendo bombillos
con una duracin promedio menor que la de otra lnea. Para probar su sospecha toma una muestra
aleatoria de 16 bombillos de la lnea sospechosa (s) y 18 de la otra lnea (c), obteniendo los siguientes
resultados:

Con sta informacin cul es su conclusin si se asume un nivel de confianza del 90 por ciento.
Solucin
Como el tamao de las muestras es pequeo, para decidir cul es la estadstica de trabajo adecuada
para la prueba de hiptesis de la diferencia de medias, primero se debe probar si las varianzas
poblacionales son iguales o no.
H0 :

=1

H1 :

La estadstica de trabajo es:

Con una confiabilidad del 90 por ciento, en la tabla de la distribucin F con 15 grados de libertad en el
numerador y 17 grados de libertad en el denominador, el valor de Z 0,05 es 0,43 y el valor de Z 0,95
es 2,31. como puede observarse en la figura 3.17, la estadstica de trabajo cae en la zona de rechazo
de la hiptesis nula, por consiguiente las varianzas poblacionales son diferentes.

Figura 3.17 Regla de decisin para una prueba de hiptesis a dos colas

Considerando que las varianzas poblacionales son diferentes, la estadstica de trabajo a utilizar para la
prueba de hiptesis para la diferencia de medias es la expresin 3.12
H0 :

S=

H1 :

S<

La estadstica de trabajo es:

Con la expresin 3.13 se calculan los grados de libertad de la distribucin t

En la tabla de la distribucin t, con 26 grados de libertad y una confiabilidad del 90 por ciento, el valor
de Z es -1,315. Como se observa en la figura 3.18, la estadstica de trabajo cae en la zona de no
rechazo de la hiptesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que no
hay diferencia en el promedio de produccin de las dos lneas.

Figura 3.18 Regla de decisin para una prueba de hiptesis a una cola inferior

3.7. PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES


Cuando se tienen dos poblaciones y se han tomado muestras aleatorias de tamaos n 1 y n 2, para
observar una caracterstica o cualidad, se puede comparar el comportamiento de dicha caracterstica
en las poblaciones a travs de la diferencia de proporciones.
Hiptesis

Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :

1=

H1 :

2 H0 :
2 H1 :

1-

1-

2=k

- Prueba de hiptesis a una cola superior


H0 :

1=

2 H0 :

H1 :

1>

2 H1 :

11-

2 k
2>k

- Prueba de hiptesis a una cola inferior


H0 :

1=

2 H0 :

H1 :

1<

2 H1 :

11-

2<k

La estadstica de trabajo es la expresin 1.14:

(3.14)

REGLA DE DECISION
Como en los casos anteriores depende del tipo de hiptesis que se haya planteado.
- Si se ha planteado la hiptesis alternativa como:
H1 : 1
2 H1 : p 1 - p 2 k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de
significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la
distribucin como se aprecia en la figura 3.1
y
pertenecen a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Z p1)
est
entre
y
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica
p2
aceptar H1 . Es decir, si
< Zp1-p2 <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:

H1 : 1 > 2 H1 : 1 - 2 > k, se tiene una prueba de hiptesis a una cola superior, quedando el
nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2
pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo es menor
que
no se rechaza la hiptesis nula, en caso contrario se rechaza H 0 lo cual implica aceptar H1 . Es
decir, si Zp1-p2 <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
H1 : 1 < 2 H1 : 1 - 2 < k, se tiene una prueba de hiptesis a una cola inferior, quedando el
nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura 3.3
Z pertenece a una distribucin Normal estndar. Si el valor de la estadstica de trabajo (Z p1-p2) es
mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H o lo cual implica aceptar
H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .

EJEMPLO
Se seleccion una muestra aleatoria de 100 hombres y 100 mujeres de un departamento de
Colombia; se hall que de los hombres 60 estaban a favor de una ley de divorcio y de las mujeres 55
estaban a favor de dicha ley. Con base en sta informacin, pruebe que la proporcin de hombres que
favorece sta ley es mayor que la proporcin de mujeres. Asuma un nivel de confianza del 99 por
ciento.
Solucin
H0 :

H=

H1 :

H>

Se utiliza la expresin 3.14

Por la hiptesis alternativa se trabaja a una cola superior. En la tabla de la distribucin normal con una
confiabilidad del 99 por ciento, el valor de Z es 2,33. La estadstica de trabajo est en la zona de no
rechazo de la hiptesis nula (figura 3.19), es decir, con una seguridad del 99 por ciento se concluye
que no hay diferencia en la proporcin de hombres y mujeres que favorecen la ley de divorcio.

Figura 3.19 Regla de decisin para una prueba de hiptesis a una cola superior

3.8. PRUEBA CHI-CUADRADO O BONDAD DE AJUSTE


Hasta ahora se han mencionado formas de probar lo que se puede llamar hiptesis paramtricas con
relacin a una variable aleatoria, o sea que se ha supuesto que se conoce la ley de probabilidad y se
vieron pruebas de hiptesis que declaran valores para los parmetros. En algunos casos se necesita
probar si una variable o unos datos siguen determinada distribucin de probabilidad, un mtodo para
hacer esta prueba es el de bondad de ajuste o chi-cuadrado.
La informacin debe estar presentada en un cuadro de distribucin de frecuencias. Sea m el nmero
de clases y nj el nmero de observaciones en cada clase (frecuencias observadas). Se trata de
comparar los valores o frecuencias observadas (n j ) con las frecuencias que habra en cada grupo o
clase o sea el valor esperado (ej ) si se cumple la hiptesis nula (H0 ).
Las diferencias entre lo observado y lo esperado dan las discrepancias entre la teora y la realidad. Si
no hay diferencias, la realidad coincidir perfectamente con la teora y por el contrario, si las
diferencias son grandes indica que la realidad y la teora no se parecen.
Los pasos a seguir son:
Hiptesis
H0 : La variable tiene distribucin X con tales parmetros
H1 : La variable no tiene la distribucin X

Estadstica de Trabajo

(3.15)

nj : frecuencia observada en la muestra


ej : frecuencia esperada segn la distribucin terica
n: tamao de la muestra
Nota. El nmero de observaciones esperadas en cada clase debe ser mayor o igual a 5, es decir, e j 5.
Si esto no ocurre se unen las clases adyacentes hasta cumplir el requisito. Al unir las clases se
disminuirn los grados de libertad de la chi-cuadrado.

La regla de decisin se observa en la figura 3.20.

Figura 3.20 Regla de decisin: prueba bondad de ajuste

EJEMPLO
Se desea probar si la estatura de los empleados tiene distribucin normal. Se toma una muestra
aleatoria de 200 empleados a quienes se les pregunta su estatura en pulgadas. Los resultados
obtenidos son:

ESTATURA

57,5-63,5

63,5-69,5

69,5-72,5

72,5-78,5

No. EMPLEADOS

29

75

68

28

Con base en sta informacin se puede concluir que su distribucin es normal?


Solucin
H0 : La estatura de los empleados tiene distribucin normal

H1 : La estatura de los empleados no tiene distribucin normal


Para hallar la estadstica de trabajo se utiliza la expresin 3.15. Para calcular la frecuencia esperada es
necesario obtener la probabilidad en cada intervalo y para sto se requiere el promedio aritmtico y la
desviacin estndar, que se obtienen con la informacin suministrada por la muestra, los que
respectivamente son: 68,42 y 4,4451.

ESTATURA

nj

pj

ej =n pj

57,5 - 63,5

29

0,.1335

26,70

63,5 - 69,5

75

0,4613

92,26

69,5 - 72,5

68

0,2264

45,28

72,5 - 78,5

28

0,1788

35,76

TOTAL

n = 200

1,0000

200

La estadstica de trabajo es:

Con una confiabilidad del 95 por ciento, en una tabla de la distribucin chi-cuadrado y un grado de
libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra: k=2,
promedio y desviacin estndar. Entonces m-k-1 = 1) se obtiene un valor para Z de 3,84. El valor de
la estadstica de trabajo est en la zona de rechazo de la hiptesis nula (Figura 3.21), por lo tanto con
una confiabilidad del 95 por ciento, se acepta que la estatura de los empleados no tiene distribucin
normal.

Figura 3.21 Regla de decisin para una prueba de bondad de ajuste

OTROS EJEMPLOS
OTROS EJEMPLOS :
Ejemplo 2
Se distribuy el nmero de clientes que visitaron la oficina de un joven abogado durante sus primeros
102 das de prctica, de la siguiente manera:

No. DE CLIENTES

No. DE DIAS

40

36

16

Pruebe si el nmero de clientes por da sigue una distribucin Poisson.


Solucin
H0 : El nmero de clientes por da tiene distribucin Poisson
H1 : El nmero de clientes por da no tiene distribucin Poisson
Para calcular la frecuencia esperada en cada clase, se necesita conocer la probabilidad en cada una de
dichas clases, para sto se utiliza la funcin de probabilidad de la distribucin Poisson que es:

donde: es el promedio de clientes por da.


Con la informacin disponible se obtiene un promedio aritmtico de 1, por lo tanto
promedio se puede calcular la probabilidad en cada clase:

=1. Conocido el

Para el clculo de la estadstica de trabajo se debe tener en cuenta que cada una de las frecuencias
esperadas debe ser mayor o igual a 5; para cumplir esta condicin se deben unir las tres ltimas
clases obtenindose as una frecuencia esperada de 8,16 y una frecuencia observada de 10.
Tabla 3.2 Clculo de las frecuencias esperadas

No. DE CLIENTES

No. DE DIAS

pj

ej

40

0,368

37,536

36

0,368

37,536

16

0,184

18,768

0,061

6,222

0,015

1,53

0,004

TOTAL

N=102

1,000

0,408

Por lo tanto la estadstica de trabajo es:

Asumiendo una confiabilidad del 99 por ciento, en una tabla de la distribucin chi-cuadrado y dos
grados de libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra,
la media, k=1. Entonces m-k-1 = 2) se obtiene un valor para Z de 9,21. El valor de la estadstica de
trabajo est en la zona de no rechazo de la hiptesis nula (Figura 3.22), por lo tanto con una
confiabilidad del 99 por ciento, se concluye que el nmero de clientes que visitan al abogado tiene una
distribucin Poisson.

Figura 3.22 Regla de decisin: prueba bondad de ajuste

EJEMPLO
Si los autos llegan a una supermercado siguiendo un proceso de Poisson, el tiempo entre llegadas
sucesivas es una variable aleatoria con distribucin exponencial. Se registraron las horas de llegada
para todos los automviles durante 2 horas y los tiempos entre llegadas (en minutos) se resumen a
continuacin:

TIEMPO ENTRE LLEGADAS

1-2

2-3

No. DE AUTOS

40

29

15

Pruebe si es cierto que el tiempo entre llegadas tiene distribucin exponencial.


Solucin
H0 : El tiempo entre llegadas tiene distribucin exponencial
H1 : El tiempo entre llegadas no tiene distribucin exponencial
Para calcular la probabilidad en cada clase, es necesario conocer la funcin de distribucin de la

exponencial, que es:


Con la informacin disponible se obtiene un promedio o valor esperado de 1,4, por lo tanto
autos por minuto. La probabilidad en cada clase es:

Tabla 3.3 Clculo de las frecuencias esperadas

TIEMPO

nj

pj

ej

40

0,5084

46,77

1-2

29

0,2499

22,99

2-3

15

0,1229

11,31

=0,71

TOTAL

0,1188

10,93

92

1,000

92

La estadstica de trabajo es:

Asumiendo una confiabilidad del 95 por ciento, en una tabla de la distribucin chi-cuadrado y dos
grado de libertad (nmero de clases: m=4, nmero de estimadores obtenidos a partir de la muestra:
k=1. Entonces m-k-1 = 2) se obtiene un valor para Z de 5,99. El valor de la estadstica de trabajo
est en la zona de no rechazo de la hiptesis nula (Figura 3.23), por lo tanto con una confiabilidad del
95 por ciento, no se rechaza que el tiempo entre llegadas de los autos tiene una distribucin
exponencial.

Figura 3.23 Regla de decisin: prueba bondad de ajuste

3.9. PRUEBA DE INDEPENDENCIA


Hasta ahora slo se ha observado o tenido en cuenta una variable, pero en algunas ocasiones se
observan dos variables simultneamente, por lo tanto la informacin se clasifica segn dos criterios o
variables, obtenindose as los cuadros de doble entrada. Si las dos variables son cualitativas stos
cuadros se llaman de contingencia.
Cuando la informacin se clasifica de acuerdo a dos o ms atributos, se puede utilizar la prueba de
independencia para determinar si los principios o criterios empleados para la clasificacin cruzada son
independientes o no; es decir, existe correlacin entre uno y otro criterio o no.

La variable 1 tiene c niveles o clases y la variable 2 tiene r niveles, por lo tanto, el nmero de
elementos de la muestra que cae dentro de categora se puede resumir en la siguiente forma:

Variable
2

Var1

Total

.....

c-1

nj

N11

N12

...

n1c-1

n1c

n1

N21

N22

...

n2c-1

n2c

n2

...

...

...

...

...

...

...

nr1

nr2

...

nrc-1

nrc

nr

nj

n.1

n.2

...

n.c-1

n.c

nij : es el nmero de observado de elementos de la muestra que cae en el i-simo nivel de clasificacin
de la variable 2 y el j-simo nivel de clasificacin de la variable 1.
Sea pij la probabilidad de que un elemento seleccionado al azar caiga en el i-simo nivel de
clasificacin de la variable 2 y el j-simo de la variable 1.
Si los dos mtodos de clasificacin son independientes o las variables son independientes, la
probabilidad de que un elemento seleccionado al azar caiga en la clase ij es el producto de la
probabilidad de que caiga en la clase i por la probabilidad de que caiga en la clase j. Entonces,
suponiendo independencia de las dos variables:

La estadstica de trabajo es:

(3.16)
Regla de decisin
El valor de la tabla se halla en una distribucin chi-cuadrado con (r-1)(c-1) grados de libertad y una
confiabilidad de (1-

). Como se puede observar en la figura 3.24. Si T <

no se rechaza

La hiptesis nula, en caso contrario se rechaza.

Figura 3.24 Regla de decisin: prueba de independencia

Nota . La frecuencia esperada en cada celda debe ser mayor o igual a cinco (e ij 5); si no se cumple
sta condicin, se deben unir las clasificaciones adyacentes de menor frecuencia y volver a hacer la
prueba. Si es una celda la que no cumple la condicin, se puede dejar as, ya que no afecta
seriamente la prueba, salvo que eij <1.
El supuesto de que cada e ij 5 es muy importante en una tabla dos por dos ya que slo tiene 1 grado
de libertad. Si no se cumple sta condicin se debe utilizar otro procedimiento.
El supuesto de que cada e ij 5 es muy importante en una tabla dos por dos ya que slo tiene 1 grado
de libertad. Si no se cumple sta condicin se debe utilizar otro procedimiento.

EJEMPLO
Con el propsito de saber si existe relacin entre el nmero de artculos defectuosos y el proceso
manufacturero utilizado se toma una muestra aleatoria de los artculos producidos por cada proceso,
obtenindose los siguientes resultados:

PROCESO

No DEFECTUOSO

DEFECTUOSO

TOTAL

94

100

90

10

100

85

12

97

TOTAL

269

28

297

Utilizando un nivel de confianza del 95 por ciento, qu conclusin puede obtener?


Solucin
H0 : No existe relacin o dependencia entre el proceso utilizado y el nmero de artculos defectuosos
H1 : Existe relacin entre el proceso utilizado y el nmero de artculos defectuosos
La estadstica de trabajo a utilizar es la expresin 3.16. Las frecuencias esperadas son:

La estadstica de trabajo es:

Con una confiabilidad del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 2 grados de
libertad (r=3, c=2, entonces: (r-1)(c-1)=2) se obtiene un valor de 5,.99, (figura 3.23), por lo tanto la

estadstica de trabajo cae en la zona de no rechazo de la hiptesis nula, es decir no se rechaza que el
proceso utilizado y el nmero de artculos defectuosos producidos son independientes.

4. REGRESION Y CORRELACION
Cuando se posee informacin acerca de dos o ms variables relacionadas, es natural buscar un modo
de expresar la forma de la relacin funcional entre ellas. Adems, es deseable conocer la consistencia
de la relacin. Es decir, no se busca solamente una relacin matemtica que nos diga de qu manera
estn relacionadas las variables, sino que se desea saber tambin con qu precisin se puede predecir
o pronosticar el valor de una variable, si se conocen o suponen valores para las otras variables. Las
tcnicas usadas para lograr estos dos objetivos se conocen como mtodo de regresin y correlacin.
Los mtodos de regresin se usan para elegir la "mejor" relacin funcional entre las variables, es decir,
la funcin o ecuacin que mejor se ajuste a los datos. Mientras que los mtodos de correlacin se
utilizan para medir el grado de asociacin o de relacin entre las distintas variables.
Se debe tener en cuenta que la nica persona que puede decir con seguridad, que las variables
bsicas son las que se estn utilizando y que el mecanismo bsico opera de acuerdo con la funcin
matemtica elegida, es una persona bien entrenada en el asunto o campo en el cual se est
investigando. El anlisis estadstico es solamente un instrumento que ayuda en el anlisis e
interpretacin de los datos.

4.1 METODOLOGIA

Para dar un ejemplo de la metodologa, consideramos la teora Keynesiana del consumo 1 : los hombres
estn dispuestos, por regla general y en promedio, a aumentar su consumo a medida que su ingreso
crece, aunque no tanto como el crecimiento de dicho ingreso.
Especificacin del modelo . Aunque Keynes postula una relacin positiva entre consumo e ingreso,
no especifica la forma precisa de la relacin funcional entre las dos variables, entonces se puede
sugerir la siguiente forma para la funcin de consumo de Keynes:
Y=

donde:
Y: son los gastos de consumo
X: ingreso
y

parmetros, siendo

la pendiente o propensin marginal a consumir.

Estimacin : especificado el modelo, se hacen las estimaciones de los parmetros del modelo a partir
de los datos disponibles.
Verificacin : Una vez obtenidas las estimaciones de los parmetros, se establece si las estimaciones
obtenidas estn de acuerdo con lo que se espera de la teora que se est verificando.

Predicciones : La ecuacin obtenida se utiliza para predecir el valor futuro de la variable dependiente
con base en valores supuestos para la variable independiente.
______________________________________________________________________
Gujarati, Damodar. Econometra , Segunda edicin. Ed. Mc Graw Hill. Bogot, 1990.

4.2 MODELO LINEAL SIMPLE


4.2.1 Funcin de regresin poblacional
Una funcin de regresin poblacional es la unin de los promedios condicionales de la variable
dependiente (Y) para los valores fijos de la variable independiente o explicativa (X), as que:
E(Y/Xi ) = f(Xi )
Si E(Y/Xi ) es una funcin lineal de Xi , se tiene:
E(Y/Xi ) =

Xi

Lo cual nos indica que el valor promedio de Y vara con X.


regresin y especficamente,
coeficiente de interseccin y
conoce como funcin de regresin poblacional.

se denominan coeficientes de

la pendiente. La ecuacin anterior se

Para un valor dado de Xi , los valores de Y se concentran alrededor del promedio de Y, lo cual indica
que se van a presentar algunas diferencias o desviaciones de un valor individual de Y i alrededor de su
valor esperado, por lo tanto:
Y i = E(Y/Xi ) + ui
Donde ui es una variable aleatoria que toma valores positivos o negativos. Esta u i se puede considerar
como una variable sustitutiva de todas las variables omitidas que pueden afectar a Y, pero que por una
u otra razn no pudieron incluirse en el modelo de regresin.
Reemplazando el E(Y/Xi ) se tiene:
Yi=

Xi + ui

que es la funcin de regresin poblacional.

4.2.2 Funcin de regresin muestral


Generalmente es necesario trabajar con informacin muestral y no poblacional, por lo tanto, se
plantea una ecuacin que nos permita estimar los valores de E(Y/X i ), b 0 , b 1 y u i ; as que el
objetivo es estimar la funcin de regresin poblacional con base en la funcin de regresin muestral:

El caso ms simple de regresin es cuando se tienen dos variables (una dependiente y una
independiente o explicativa), es decir, n parejas de datos.
Una vez especificadas las variables es necesario determinar la relacin entre ellas, de la cual se puede
tener una idea general, graficando las variables en un sistema de coordenadas, en donde, en el eje de
las abscisas se ubica la variable independiente y en el de las ordenadas la variable dependiente; esta
grfica se llama nube de puntos .
La relacin ms sencilla es la lineal, la funcin de regresin poblacional es:
Yi =

Xi + ui

La cual no se puede observar directamente, por lo tanto, la estimamos a partir de la funcin de


regresin muestral:

Donde:

El significado grfico de estos coeficientes aparece en la figura 4.1.

Debido a que los valores observados no forman exactamente una lnea recta, es necesario elegir un
mtodo para estimar los coeficientes de regresin
que haga mnima la diferencia entre los
valores observados y los estimados o ajustados, este mtodo es el de los mnimos cuadrados, (el
procedimiento para obtener estos coeficientes se halla en el anexo A) el cual proporciona las
ecuaciones 4.2 y 4.3:

Figura 4.1 Representacin grfica de los coeficientes de regresin

Interpretacin de los coeficientes de regresin:

Es el valor promedio de la variable dependiente cuando la independiente vale cero. Tambin se


interpreta como el efecto promedio sobre la variable dependiente de todas las variables omitidas en el
modelo de regresin.
Cuando el valor del coeficiente de interseccin
sea negativo y su interpretacin no sea lgica, se
interpreta como cero, pero para efectos de proyeccin se deja el valor obtenido.
Si

la relacin entre las variables es directa y mide el incremento de la variable dependiente

por cada aumento de una unidad en la variable independiente. Si


la relacin entre las variables
es inversa y mide el decremento de la variable dependiente por cada aumento de una unidad en la
variable independiente o viceversa.
4.2.3 Supuestos tericos del mtodo de los mnimos cuadrado
Los supuestos tericos generales bajo los cuales se ha desarrollado la teora de la regresin se
presentan a continuacin:
1. El valor promedio de los errores es igual a cero; E(e i /Xi ) = 0

2. No existe Autocorrelacin entre los errores; por lo tanto la covarianza (Cov) de los errores es igual
a cero, Cov (ei , ej ) = 0 , lo cual implica que no existe Autocorrelacin en la variable dependiente, es
decir, Cov (Yi , Yj ) = 0.
3. La varianza de los errores es constante, es decir existe la Homocedasticidad V(e i /Xi ) =

, lo cual

implica que V(Yi /Xi ) =


4. No existe correlacin entre los errores (ei ) y la variable independiente X, por lo tanto:
Cov (ei , Xi ) = 0
5. El modelo de regresin est correctamente especificado tanto en la forma funcional como en las
variables que estn en el modelo.
La explicacin sobre estos supuestos y sus implicaciones, se trata en el apartado 4.5.

4.2.4 Coeficiente de determinacin


El objetivo principal del anlisis de regresin es proyectar el valor de la variable dependiente
conociendo o suponiendo valores para la variable independiente. La confiabilidad de las proyecciones
est dada por la confiabilidad de la ecuacin, la cual se mide a travs del coeficiente de determinacin
y de los errores de los coeficientes de regresin. El coeficiente de determinacin (R 2 ) nos dice qu
tanto se ajusta la lnea de regresin a los datos.

Figura 4.2 Descomposicin de la variacin de Y

Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuacin ajustada a
unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y. La distancia que hay
entre el valor observado y la media

, puede descomponerse en dos partes que son: la

distancia entre el valor observado y el estimado con la ecuacin de regresin


entre el valor estimado y el promedio

, es decir:

y la distancia

Siendo:

: Distancia Total.

: Distancia de una observacin a la regresin o residuo

: Distancia de la lnea de regresin a la media o distancia de la regresin


Como se tienen n observaciones, para cada caso se presenta la misma situacin, por lo tanto se toma
la suma de estas distancias al cuadrado:

En el anexo B se presenta la demostracin de que:

Es decir: SCT = SCR + SCE

(4.4)

Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variacin de los
residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la ayuda de X y la
otra parte describe los valores ajustados de Y, es decir, representa aquella porcin de la SCT que ha
sido explicada por la regresin de Y sobre X.
Dividiendo la ecuacin 4.4 por SCT se obtiene:

El segundo trmino es el coeficiente de determinacin, as que:

Donde:

Como puede observarse, el coeficiente de determinacin es la proporcin de la variable dependiente


explicada por la variable independiente y por lo tanto est entre 0 y 1. Es decir: 0 R 2 1.

A medida que el R 2 se acerca a 1, la ecuacin de regresin es ms confiable, ya que de la expresin


4.5 se deduce que la SCR tiende a cero y entre ms cercano est el R 2 de cero, la ecuacin es menos
confiable ya que la SCE tiende a cero.

Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es el coeficiente de


correlacin (R) que es una medida del grado de asociacin entre dos

variables. Puede calcularse como:


Donde: Sx y Sy son las desviaciones estndar de X y Y respectivamente.
A continuacin se presentan algunas propiedades del coeficiente de correlacin (R):
- -1 R 1
- El signo de R depende del signo de la covarianza o de la pendiente (

- R es de naturaleza simtrica; lo anterior implica que el coeficiente de correlacin entre X y Y (R xy ) es


igual al coeficiente de correlacin entre Y y X (R xy ).
- Si X y Y son estadsticamente independientes, el coeficiente de correlacin entre ellos es cero, pero
si R=0, no se puede inferir que las dos variables sean independientes. En otras palabras, una
correlacin igual a cero no implica necesariamente independencia.
- Es una medida de asociacin lineal o dependencia lineal nicamente; por consiguiente no tiene
sentido, utilizarlo para describir relaciones no lineales.
En el contexto del anlisis de regresin, R 2 es una medida ms significativa que R, debido a que el
primero muestra la proporcin de la varianza en la variable dependiente explicada por la(s) variable(s)
explicativa(s) y, por tanto, proporciona una medida global de la magnitud del efecto que ejerce la
variacin existente en una variable sobre la variabilidad de la otra. De otro lado R no nos permite

realizar inferencias de este gnero. Adems, la interpretacin de R en un modelo de regresin mltiple


es de un valor dudoso"1
El coeficiente de determinacin (R 2) es til para evaluar la ecuacin de regresin integralmente, pero
es necesario evaluar la confiabilidad de cada uno de los coeficientes de regresin, lo cual se hace con
los errores de estos coeficientes y ms especficamente con las pruebas de hiptesis para cada uno de
ellos.
_____________________________________________________________
Gujarati, Damodar. Econometra , Segunda edicin. Pg. 71-72. Editorial Mc Graw Hill. Bogot,
1990.
1

4.2.5 Errores de los coeficientes de regresin regresin (

La medida que indica si la variacin de los coeficientes es grande o pequea es la desviacin o error
estndar de cada uno de ellos.
La desviacin es un valor necesario para evaluar la confiabilidad de una ecuacin de regresin. Cuando
las desviaciones para los coeficientes de regresin son pequeas, se puede esperar que el valor
estimado o proyectado para la variable dependiente sea confiable. El problema radica en que el valor
del error o la desviacin estndar de stos coeficientes est relacionado con la magnitud de los
coeficientes de regresin; por lo tanto, no se puede decir a partir de dnde un error es grande o
pequeo y es por sta razn que los errores se utilizan para hacerle prueba de hiptesis a cada uno de
los coeficientes de regresin.
Las frmulas para obtener los errores de los coeficientes de regresin son las siguientes:

4.2.6 Prueba de hiptesis para los coeficientes de regresin


Como en toda prueba de hiptesis, lo primero que se hace es plantear las hiptesis:
H0 :

= 0 (equivalente a decir que la variable Xi no se necesita en el modelo)

H1 :

0 (equivalente a decir que la variable Xi se necesita en el modelo)

Estadstica de trabajo:

Regla de decisin (figura 4.3): si


< T <
se acepta la hiptesis nula, en caso contrario se
rechaza la hiptesis nula. Si el tamao de la muestra es grande (n 30) los valores de Z se hallan en
una tabla de la distribucin normal. Si el tamao de la muestra es pequeo (n < 30) los valores de Z
se hallan en una tabla de la distribucin t con n-2 grados de libertad.
NOTA : Si la prueba de hiptesis es para
, en la hiptesis nula se est planteando que no es
necesario el coeficiente de interseccin en el modelo.
Una vez evaluado el modelo de regresin a travs del coeficiente de determinacin y de las pruebas de
hiptesis, es til construir un intervalo de confianza para la pendiente (
obtiene en el modelo de regresin para
El intervalo de confianza para

), ya que el valor que se

, es un estimador puntual

es:

Como en la prueba de hiptesis, el valor de Z se halla en la distribucin normal si n 30 y si n < 30


en la distribucin t con n-2 grados de libertad.

Este intervalo se interpreta como los valores dentro de los cuales aumentar (si

o disminuir

si
la variable dependiente (Y) por cada aumento de una unidad en la variable independiente
(X), con un nivel de confianza del (1- ) por ciento.

4.2.7 Proyeccin
El principal objetivo del anlisis de regresin es el proyectar o estimar el valor de la variable
dependiente (Y) cuando se conoce o se supone un valor para la variable independiente (X). Este
objetivo se logra cuando se reemplaza en la ecuacin de regresin 4.1 el valor supuesto para X. El
valor obtenido, es una estimacin puntual, por lo tanto se puede construir una estimacin por
intervalo, ya sea para el valor individual de Y dado un valor de X o para el valor promedio de Y.
4.2.7.1 Proyeccin individual. Si se desea el intervalo de confianza para el valor individual de Y i
dado un valor de X como X i , es necesario obtener la desviacin estndar para esta estimacin, la cual
es:

El intervalo de confianza para el valor de Yi es:

4.2.7.2 Proyeccion media. Como en el caso anterior, para obtener el valor promedio de Y dado un
valor de X como Xi , se debe obtener la desviacin estndar para esta estimacin:

El intervalo de confianza para el valor promedio de Y es:

Cuando se utiliza la ecuacin de regresin para hacer proyecciones, se debe tener muy presente que a
medida de que nos alejemos del rango dentro del cual se observ X, la proyeccin pierde confiabilidad
y adems estos valores proyectados tienen sentido en la medida que se conserven las condiciones
bajo las cuales se observaron las variables.

4.2.8 Evaluacion de resultados

Despus de realizado el anlisis de regresin, se deben tener algunos criterios para saber
qu tan "buenos" son los resultados?. Ante todo, los signos de los coeficientes estimados deben estar
de acuerdo con las expectativas tericas o previas.... Segundo, si la teora o la experiencia previa nos
lleva a creer que un coeficiente determinado es, en trminos estadsticos, significativamente diferente
de cero, ... ,entonces si los resultados reales son de hecho significativos, nuevamente se puede decir
que stos son consistentes con la teora. Tercero, puesto que el R 2 mide la bondad global del ajuste del
modelo de regresin estimado, se puede decir que el modelo es satisfactorio si el valor de R 2 es
razonablemente alto, digamos, alrededor de 0,8. Pero este criterio no se debe ponderar
demasiado , puesto que siempre se puede aumentar el R 2 agregando al modelo variables
explicativas adicionales. Por tanto, si los dos primeros criterios se cumplen y R 2 es razonablemente
alto, todo est bien. Pero si se satisfacen los dos primeros criterios y el valor de R 2 es bajo, por
ejemplo, menor que 0.6, no debemos desanimarnos." 1

EJEMPLO
Con la informacin sobre el consumo anual de agua y el nmero de suscriptores al servicio de
acueducto en Manizales entre 1977 y 1988 (cuadro 4.1) se aplica toda la teora vista anteriormente.
Primero se debe identificar cul es la variable dependiente y cul la independiente; en ste caso, el
consumo de agua depende del nmero de suscriptores.
Para tener una idea general sobre el modelo o ecuacin que se puede ajustar a stos datos se grafica
la informacin en un sistema de coordenadas (Figura 4.4). En sta grfica se puede observar que los
datos siguen un comportamiento aproximadamente lineal; por lo tanto se trabaja con la ecuacin 4.1.

Cuadro 4.1. Manizales: consumo anual facturado (en miles de metros cbicos) y nmero de
suscriptores al servicio de acueducto en el sector residencial. 1977-1988

AOS

CONSUMO (Y)

SUSCRIPTORES (X)

1977

9.775

22.192

1978

11.028

23.256

1979

11.120

24.747

1980

13.267

27.869

1981

12.045

29.636

1982

12.879

32.458

1983

13.740

36.230

1984

13.673

39.074

1985

13.593

40.729

1986

13.940

41.823

1987

14.990

43.380

1988

15.163

44.684

Fuente: DANE. Monografa de Manizales, 1988. Cuadro 20.1.3, Pg.283

Fuente: cuadro 4.1


Figura 4.4 Manizales: Consumo anual (en miles de metros cbicos) y nmero de suscriptores al
servicio de acueducto en el sector residencial. 1977-1988

Con la informacin del cuadro 4.1 se obtienen los siguientes resultados:


n=12 M(X) = 33.839,833 M(X2 ) = 1.206'677.103 V(X) = 61'542.783,3
M(Y) = 12.934,4167 V(Y) = 2'470.383,077 M(X,Y) = 449'151.787

Para obtener

se utiliza la ecuacin 4.2:

El coeficiente de interseccin (
) indica que el consumo promedio anual de agua, debido a otras
variables no consideradas en el modelo, es de 6'636.730 (6.636,73 * 1000) metros cbicos.
La pendiente por ser positiva, indica que hay una relacin directa entre el nmero de suscriptores y
el consumo de agua. El valor de 0,1861 indica que por cada suscriptor ms, el consumo anual de agua
se incrementa en 186,1 (0,1861 * 1000) metros cbicos.

El coeficiente de determinacin (R2 ) se obtiene con la ecuacin 4.5, para lo cual es necesario hallar la
Suma de Cuadrados Explicada (SCE) y la Suma de Cuadrados Total (SCT), con las ecuaciones 4.6 y
4.7 respectivamente.
La Suma de Cuadrados de los Residuos (SCR) se obtiene con la ecuacin 4.8:

Por lo tanto, el coeficiente de determinacin (R2 ) es:

Este resultado indica que la ecuacin es confiable, ya que tenemos un valor cercano a 1. Adems,
quiere decir que el 86,26% del consumo de agua se debe o est explicado por el nmero de
suscriptores.
Para hacerle la prueba de hiptesis a cada uno de los coeficientes de regresin ( b 0 y b 1 ), es
necesario hallar los errores de los coeficientes, los cuales se obtienen con las ecuaciones 4.10 y 4.11:

Prueba de hiptesis para


H0 :
H1 :

= 0 (no es necesario el coeficiente de interseccin en el modelo)


0 (es necesario el coeficiente de interseccin en el modelo)

Regla de decisin: Para una confiabilidad del 95%, el valor en la distribucin t con 10 grados de
libertad es: 2,228. El valor de la estadstica de trabajo (T) est en la zona de rechazo para H 0 (figura
4.5), por lo tanto se acepta que b 0 es diferente de cero, es decir que el coeficiente de interseccin es
necesario en el modelo.

Figura 4.5 Regla de decisin: prueba de hiptesis para

Prueba de hiptesis para

H0 :

= 0 (no hay relacin entre consumo de agua y No. de suscriptores)

H1 :

0 (s hay relacin entre consumo de agua y No. de suscriptores)

El valor de la estadstica de trabajo (T) est en la zona de rechazo para H 0 (figura 4.5), por lo tanto se
acepta H1 , lo cual indica que s hay relacin entre el consumo de agua y el nmero de suscriptores.
Con el valor obtenido en el coeficiente de determinacin, los signos de los coeficientes de regresin y
el resultado de las pruebas de hiptesis se puede concluir que el modelo es confiable y por lo tanto, lo
son las proyecciones o pronsticos que se hagan con dicho modelo.
Intervalo de confianza para
: El valor que se obtuvo para b 1 es una estimacin puntual. La
estimacin por intervalo se obtiene con la ecuacin 4.13:

Indicando que con una confiabilidad del 95%, por cada suscriptor ms, el consumo anual de agua se
incrementa entre 129 y 234 metros cbicos.
Proyeccin media . Se desea estimar o proyectar el consumo promedio anual de agua, si se tienen
52.900 suscriptores.

Se reemplaza el valor de X en la ecuacin de regresin obtenida, as que:

Por lo tanto, si se tienen 52.900 suscriptores, el consumo promedio anual de agua, es de 16'508.420
metros cbicos.
La desviacin estndar para ste valor proyectado, se obtiene con la ecuacin 4.16:

El intervalo de confianza para el consumo promedio anual, se obtiene con la ecuacin 4.17:

Por lo tanto, con una confiabilidad del 95%, si el nmero de suscriptores es de 52.900, el consumo
promedio anual de agua, estar entre 15'430.270 y 17' 585.730 metros cbicos .
________________________________________________________________
Ibid . p. 128-129.

4.3 MODELO LINEAL GENERAL


En la prctica se puede ver fcilmente que suele haber ms de un factor o variable que afecta a cierto
resultado, es decir, al comportamiento de una variable dependiente. Por ejemplo, el logro de una
produccin es frecuentemente una funcin de diferentes variables de insumo, tales como mano de
obra, tierra, capital, etc. y en la demanda de dicho bien tendrn efecto no slo el precio del bien, sino
otros factores como el ingreso disponible, gastos en publicidad y precios de otros productos similares.
En stos casos es muy til el anlisis de regresin mltiple.

Si una variable dependiente (Y) est relacionada linealmente con K variables independientes, su
relacin funcional puede describirse como una generalizacin de la funcin de regresin muestral, con
el siguiente modelo:

Representan la variacin sistemtica de Y y e representa la variacin aleatoria de Y.


Adems de cumplir los supuestos del modelo de regresin simple, se deben cumplir los siguientes
supuestos:
1. Puede existir relacin de dependencia lineal entre las variables independientes pero su correlacin
no debe ser perfecta, es decir, no debe haber multicolinealidad.
2. El nmero de observaciones de la muestra supera al nmero de variables independientes o
explicativas.
El no cumplimiento de alguno(s) de estos supuestos puede ocasionar serios problemas en el modelo.
La manera de verificar el cumplimiento de los supuestos se trata en el apartado 4.5.
Cuando se trabaja con un modelo de regresin mltiple se recomienda utilizar matrices, ya que el
manejo de las frmulas es ms sencillo. Por lo tanto, todas las ecuaciones se expresan en forma
matricial.

Si se hacen n observaciones se tienen n ecuaciones con K incgnitas cada una; stas son:
El primer subndice corresponde al nmero de la variable y el segundo al de la observacin.
Las n ecuaciones anteriores se pueden expresar matricialmente de la siguiente forma:

Donde:
Y : vector columna con datos de la variable dependiente, de n*1
X : matriz de datos de las variables independientes, de n*(k+1)

: vector columna con los coeficientes de regresin , de (k+1)*1


e : vector columna con los residuos o errores, de n*1
k : nmero de variables independientes
n : tamao de la muestra

Lo que interesa es estimar los valores para el vector de los coeficientes de regresin ( ). Esta
estimacin se obtiene utilizando el mtodo de los mnimos cuadrados (en el anexo C se presenta la
demostracin), a partir del cual se obtiene que:

Las matrices (X'X) y (X'Y) tienen la siguiente forma:

La interpretacin de los coeficientes de regresin es la siguiente:


: Es la ordenada en el origen o constante de regresin y se interpreta como el valor promedio de la
variable dependiente (Y) debido al efecto de las variables que no han sido consideradas en el modelo.
Como en el caso de la regresin simple, si el valor de
es negativo y su interpretacin no es lgica,
se interpreta como cero; pero para hacer proyecciones se trabaja con el valor obtenido.
(para i = 1,2,...,k) son los coeficientes de regresin parcial y miden el cambio o variacin de Y por
cada cambio unitario en Xi , mantenindose constantes las dems variables independientes. Si
> 0, mide el aumento de Y por cada aumento de X i . Si
aumento de Xi o viceversa.

< 0 , es la disminucin de Y por cada

Mide el efecto total de la variable dependiente cuando todas y cada una de las variables
aumenta una unidad.
4.3.1 Coeficiente de determinacin.
Para evaluar la bondad o confiabilidad del modelo de regresin se utiliza el coeficiente de
determinacin y las pruebas de hiptesis para cada uno de los coeficientes de regresin.

El coeficiente de determinacin mltiple se define como en la regresin simple:


Para hallar el coeficiente de determinacin, se debe tener en cuenta que la suma total de cuadrados
de Y se puede particionar, como se hizo en la regresin lineal simple, en suma de cuadrados debido a
la regresin o explicada (SCE) y suma de cuadrados de los residuos (SCR), as que:

El coeficiente de determinacin mltiple nos proporciona el porcentaje de variacin de la variable


dependiente explicado o debido a todas las variables independientes. Por lo tanto, entre ms cercano
a 1 est el coeficiente de determinacin, ms confiable es el modelo de regresin.
Cuando se evala el modelo de regresin a travs del coeficiente de determinacin, puede suceder
que a pesar de tener un valor alto, alguna o algunas de las variables independientes no tengan
ninguna relacin con la variable dependiente (Y), por lo tanto es importante plantear pruebas de
hiptesis para cada una de las variables independientes (X i ) y as saber si realmente est relacionada
con Y.

4.3.2 Errores de los coeficientes de regresin y pruebas de hiptesis.


Para realizar las pruebas de hiptesis, se requieren los errores de cada uno de los coeficientes de
regresin, los cuales se obtienen con la siguiente expresin:

donde:
(x'x)-1 : es el elemento (i+1) de la diagonal principal de la matriz (X'X) -1
SCR: es la suma de cuadrados de los residuos .

4.3.3 Prueba de hiptesis para los coeficientes de regresin.


H0 :

= 0 (equivale a plantear que no hay relacin entre Y y Xi )

H1 :

0 (equivale a plantear que s hay relacin entre Y y X i )

Si se acepta la de hiptesis nula, se est aceptando que no hay relacin entre Y y X i , por lo tanto,
sta variable se debe sacar del modelo.
La estadstica de trabajo se resuelve suponiendo que la hiptesis nula (H 0 ) es verdadera. Dicha
estadstica de trabajo es:

Regla de decisin . Si el nmero de observaciones es mayor que 30, los valores de Z se hallan en la
distribucin normal. Si el nmero de observaciones es menor o igual a 30 , los valores de Z se hallan
en la distribucin t con n-k-1 grados de libertad. Siendo k el nmero de variables independientes en el
modelo.

Figura 4.6 Regla de decisin, prueba de hiptesis para


Si

<T<

se acepta la hiptesis nula, en caso contrario se rechaza (figura 4.6).

Una vez elegidas las variables independientes que realmente influyen en el comportamiento de Y, se
pueden construir intervalos de confianza para cada uno de los coeficientes de regresin poblacional (
)
Este intervalo nos proporciona, con una confiabilidad del (1- )%, los valores dentro de los cuales
variar Y si Xi vara en una unidad y las dems variables permanecen constantes. El intervalo se
construye as:

Como en el caso de la prueba de hiptesis, si n 30 los valores de Z se hallan en la distribucin


normal, y si n < 30 los valores de Z se hallan en la distribucin t con n-k-1 grados de libertad.

4.3.4 Proyeccin.
Cuando se tiene un modelo de regresin mltiple y se desea hacer una proyeccin, se supone un valor
para cada una de las variables independientes. Con estos valores se construye el vector x 0 , que tiene
la siguiente forma:

El valor proyectado de Y se obtiene haciendo el producto entre la traspuesta del vector x 0 y el vector
de los coeficientes de regresin

as:

4.3.4.1 Intervalo de confianza para la proyeccin individual. El intervalo de confianza de


confianza para la proyeccin individual es:

La desviacin estndar o el error para el valor proyectado se obtiene con la siguiente expresin:

Donde:
X0' es la traspuesta del vector que contiene los valores supuestos para las variables independientes.
4.3.4.2 Intervalo de confianza para la proyeccin media. El intervalo de confianza para la
proyeccin del valor promedio de Y es:

La desviacin estndar o error para el valor promedio de Y se obtiene con la siguiente expresin:

4.4

ATRIBUTOS

DE

UN

BUEN

MODELO

DE

REGRESION

Una vez obtenido el modelo de regresin debe evaluarse integralmente, los principales criterios a
tener en cuenta son los siguientes:
Parsimonia . ... un modelo se debe mantener tan simple como sea posible, ... Lo anterior implica
sencillamente que se deben introducir ms pocas variables claves en el modelo y que constituyen la
esencia del fenmeno que se est estudiando, relegando todas las influencias menores y aleatorias el
error e t .
Identificabilidad . Significa que para un conjunto de datos determinado, los parmetros estimados
deben tener valores nicos o, lo que es lo mismo, existe nicamente un estimativo para un parmetro
dado.
Bondad del ajuste . Puesto que la razn bsica de los modelos de regresin es lograr explicar la
mayor cantidad posible de la variacin de la variable dependiente utilizando variables explicativas
incluidas en el modelo, se dice que este es bueno si esta explicacin, medida por el coeficiente de
determinacin ajustado, es tan alta como sea posible. ... el criterio del R 2 elevado por s mismo no se
debe sobreestimar, sino que junto con otros criterios (por ejemplo, signos o valores de los coeficientes
esperados a priori), un R 2 elevado siempre debe constituir un signo alentador de un ajuste
aparentemente adecuado.
Consistencia terica . Un modelo puede no ser bueno, a pesar de que se obtenga un R 2 alto, si los
signos de uno o ms de los coeficientes de regresin estimados tienen los signos equivocados.
Poder predictivo . ...la nica prueba de validez relevante de una hiptesis (modelo) es la
comparacin de sus predicciones con la experiencia 1.
________________________________________________________________________
Ibid. p. 337-338.

EJEMPLO
A continuacin se desarrolla un ejemplo sobre regresin mltiple, en donde se aplica toda la teora
vista anteriormente.
En el cuadro 4.2, se presenta la informacin correspondiente a la edad (en aos), la estatura (en cms)
y el peso en (Ks.)de un grupo de estudiantes de la universidad Nacional, Sede Manizales.
Cuadro 4.2 Edad, estatura y peso de un grupo de estudiantes de la Universidad Nacional Sede
Manizales. 1993.

EDAD

ESTATURA

PESO

EDAD

ESTATURA

PESO

EDAD

ESTATURA

PESO

23

178

58

20

174

70

20

180

75

20

172

65

21

170

65

21

175

72

20

167

60

22

170

65

25

160

52

23

161

65

23

165

65

21

173

59

22

163

50

22

173

65

20

163

56

20

165

65

25

165

65

22

158

50

22

173

63

24

180

65

21

170

66

23

157

50

25

180

70

22

164

59

21

148

47

21

177

62

21

165

48

20

158

51

23

162

60

22

160

52

21

178

62

22

171

66

21

160

50

26

160

53

30

165

65

22

174

64

26

155

55

20

162

58

22

175

53

32

155

54

23

168

53

20

175

53

22

150

50

24

160

53

26

180

72

23

163

55

22

165

54

24

177

67

23

150

41

28

170

78

21

180

70

30

169

75

28

179

79

22

180

68

25

169

64

22

180

75

19

178

72

24

179

70

21

171

56

20

170

48

28

173

73

23

150

68

19

156

48

24

169

70

24

160

58

21

167

51

28

156

48

21

163

53

24

175

70

25

170

78

21

173

52

21

172

60

21

165

53

21

175

90

22

176

72

23

180

72

20

180

69

El modelo planteado es:

En donde: Y : es el peso en kilogramos


X 1 : es la estatura en centmetros

X 2 : es la edad en aos

Para hallar los coeficientes de regresin ( i) se puede utilizar un paquete estadstico como el
Statgraphics o se puede hacer manualmente, para lo cual se debe resolver la ecuacin (4.20).
Como se tienen 2 variables independientes, la dimensin de la matriz (X'X) es de 3*3 y la de (X'Y) es
de 3*1. Estas matrices contienen la siguiente informacin:

Para hallar la inversa de (X'X) se necesita la adjunta de (X'X) y el determinante de (X'X).


det (X'X) = [(77 * 2'181.424 * 40.314) + (12.944 * 293.978 * 1.750) * 2] - [(1.750 * 1.750 *
2'181.424) + (293.978 * 293.978 * 77) + (12.944 * 12.944 * 40.314)] = 225'494.000.

El vector de los coeficientes de regresin (

i) se halla resolviendo la ecuacin (4.20):

Por lo tanto la ecuacin de regresin es:

Teniendo en cuenta que (


0 ) da un valor negativo y que su interpretacin no es lgica, en este caso
no se interpreta dicho coeficiente de interseccin.

1 = 0,7949 indica que por cada centmetro ms en la estatura de una persona y permaneciendo
constante la edad, el peso se aumenta en 0,7949 kilos.

2 = 0,9825 indica que por cada ao ms que tenga una persona y permaneciendo constante la
estatura, el peso se aumenta en 0,9825 kilos.
Para evaluar el modelo, es decir su grado de confiabilidad, se halla el coeficiente de determinacin

(R2 ), con la ecuacin (4.23):


Para hallar el coeficiente de determinacin es necesario hallar la suma de cuadrados total (SCT), la
suma de cuadrados de los residuos (SCR) y la suma de cuadrados explicada (SCE) con las ecuaciones
(4.24), (4.25) y (4.26) respectivamente:

El coeficiente de determinacin significa que el 52,39% del peso de una persona, se debe o est
explicado por la estatura y la edad.
Para determinar si cada una de las variables presentes en el modelo, realmente estn relacionadas
con el peso (Y), se realiza la prueba de hiptesis para cada una do los coeficientes de regresin.
Para hacer sta prueba, es necesario hallar los errores de cada uno de los coeficientes de regresin
con la ecuacin (4.27)
Para realizar las pruebas de hiptesis se utiliza la ecuacin (4.28) y se plantean en los siguientes
trminos:
Prueba de hiptesis para
H0 :
H1 :

= 0 (el coeficiente de interseccin no se necesita en el modelo)


0 (el coeficiente de interseccin se necesita en el modelo)

Como el tamao de la muestra es grande (n=77), los valores para construir la regla de decisin se
hallan en una tabla de la distribucin normal para un nivel de confianza del 95% . El valor de la
estadstica de trabajo es -5,42, por lo tanto, se rechaza la hiptesis nula (figura 4.7), lo cual implica
que s se necesita el coeficiente de interseccin en el modelo.

Figura 4.7 Regla de decisin para la prueba de hiptesis de

Prueba de hiptesis para


H0 :

= 0 (no hay relacin entre el peso y la estatura)

H1 :

0 (s hay relacin entre el peso y la estatura)

La regla de decisin es la misma que para la prueba anterior, en ste caso se acepta la hiptesis
alternativa, por lo tanto, la estatura y el peso s tienen relacin, lo cual equivale a decir que la variable
estatura s se necesita en el modelo.

Prueba de hiptesis para

H0 :

2 = 0 (no hay relacin entre el peso y la edad)

H1 :

0 (s hay relacin entre el peso y la edad)

En esta ocasin tambin se rechaza la hiptesis nula, por lo tanto, la edad y el peso s estn
relacionados, es decir, que la variable edad se necesita en el modelo.
Considerando el resultado de las pruebas de hiptesis, se concluye que el peso s est relacionado con
las variables edad y estatura.
Intervalos de confianza para los coeficientes de regresin. Para la construccin de los intervalos
de confianza se utiliza la ecuacin (4.29)

Con una confiabilidad del 95% y permaneciendo constante la edad, por cada centmetro ms de
estatura, el peso aumenta entre 0,62 y 0,97 kilos.

Intervalo de confianza para

Es decir, que con una confiabilidad del 95%, por cada ao ms de una persona el peso aumenta entre
0,41 y 1,55 kilos, siempre y cuando la estatura permanezca constante.

Proyeccin
Se desea estimar el peso de una persona de 26 aos que tiene 168 cms. de estatura. La estimacin se
obtiene reemplazando los valores de las variables en la ecuacin de regresin

Por lo tanto el peso estimado para una persona de 26 aos que mida 168 cms. es de 64,6 kilos.
El error para el valor estimado se obtiene con la ecuacin (4.33):

El intervalo de confianza para este valor estimado es:

Por lo tanto, con una confiabilidad del 95% se puede afirmar que el peso de una persona de 26 aos
que mide 168 cms. est entre 51,24 y 77,98 kilos.
4.5 SUPUESTOS DEL MODELO DE REGRESION
A continuacin se presenta un resumen de los principales aspectos de algunos de los supuestos del
modelo de regresin, los problemas que ocasiona el no cumplimiento de ellos, la forma de detectarlos
y la solucin presentada en Gujarati 1.
__________________________________________________________________
Ibid . p. 213-359

4.5.1 Los errores tienen distribucin normal, con media cero y varianza constante
Los errores tienen distribucin normal, con media cero y varianza constante. Este supuesto no es
esencial si el objetivo es nicamente la estimacin. Independientemente de que se cumpla este
supuesto o no los estimadores son insesgados. No obstante, con el supuesto de normalidad, los

estimadores de regresin tienen distribucin normal y se pueden utilizar las pruebas t y F para evaluar
las diferentes hiptesis estadsticas, independientemente del tamao de la muestra.
Si los errores no tienen distribucin normal, las pruebas t y F continan siendo vlidas para muestras
grandes, no as para muestras pequeas.
El supuesto de normalidad es muy importante para pruebas de hiptesis y proyeccin de cifras. Por lo
tanto, teniendo presente la necesidad de realizar estimaciones e hiptesis y dado que las muestras
pequeas son la regla general y no la excepcin en la mayora de los anlisis econmicos, se
continuar con el supuesto de normalidad.
4.5.2 Multicolinealidad
No debe existir multicolinealidad entre las variables explicativas o independientes. La multicolinealidad
originalmente implicaba la existencia de una relacin lineal "perfecta o exacta" entre algunas o la
totalidad de las variables independientes de un modelo de regresin. En la actualidad el trmino
multicolinealidad se utiliza en un sentido ms amplio para incluir el caso de multicolinealidad perfecta,
as como tambin aquella situacin en donde las variables X estn intercorrelacionadas, pero no en
forma perfecta.
La multicolinealidad, incluye nicamente las relaciones lineales entre las variables independientes y
elimina las relaciones no lineales existentes entre ellas. Por ejemplo consideremos el siguiente modelo
de regresin:
Y=

1X+

2 X2 +

3 X3 + e

Donde Y es el costo total de produccin y X es la produccin. Las variables X 2 (produccin al cuadrado)


y X3 (produccin al cubo) estn funcionalmente relacionadas con X, pero la relacin no es lineal. Por lo
tanto modelos similares al anterior no violan el supuesto de no multicolinealidad.
Si la multicolinealidad es perfecta , los coeficientes de regresin son indeterminados y sus
desviaciones estndar o errores son infinitos. Si la multicolinealidad es menos que perfecta , los
coeficientes de regresin aunque determinados o finitos, poseen errores estndar demasiado grandes,
lo cual implica que los coeficientes no se pueden estimar con gran precisin o exactitud.
En casos de multicolinealidad muy alta, los coeficientes de regresin continan siendo insesgados y
consistentes pero dejan de ser eficientes o de varianza mnima.
4.5.2.1 Consecuencias prcticas de la multicolinealidad. A medida que aumenta la colinealidad,
las varianzas de los coeficientes de regresin aumentan y cuando es perfecta son infinitas.
- Debido a que los errores de los coeficientes de regresin no son eficientes, los intervalos de
confianza para los parmetros, tienden a ser ms amplios y la informacin muestral puede ser
compatible con un conjunto diverso de hiptesis, por consiguiente, la posibilidad de aceptar una
hiptesis falsa aumenta.
- En casos de alta colinealidad se tiende a aceptar con mayor facilidad la hiptesis nula de que el
verdadero valor poblacional es cero.
- En casos de alta colinealidad es posible encontrar, que uno o ms coeficientes de regresin sean
individualmente no significativos en trminos estadsticos con base en la prueba t. No obstante, el R 2
en tales situaciones puede ser elevado, digamos superior a 0.9.
- En casos de multicolinealidad alta, los estimadores ( b ) y sus errores estndar se tornan muy
sensibles, an al ms ligero cambio en los datos.

4.5.2.2 Cmo detectar la multicolinealidad. Existen reglas generales, algunas de ellas formales y
otras informales, para detectar la multicolinealidad varias de ellas son:
- Se obtiene un coeficiente de determinacin muy alto, pero ninguno de los coeficientes de regresin
es estadsticamente significativo, con base en la prueba t.
- En un modelo de regresin con dos variables independientes, se puede tener una idea de la
presencia de colinealidad con el coeficiente de correlacin simple entre las dos variables
independientes.
- Cuando se tiene un modelo con ms de dos variables independientes, las correlaciones elevadas
(superiores a 0.8) son una condicin suficiente pero no necesaria para la existencia de
multicolinealidad, debido a que sta puede existir, a pesar de que las correlaciones simples sean bajas
(inferiores a 0.5).
- La multicolinealidad surge debido a que una o ms variables son combinaciones exactas o
aproximadamente lineales de las otras variables, por lo tanto una manera de averiguar qu variable X
est relacionada con las otras variables independientes consiste en hacer una regresin entre cada X i y
las dems variables independientes, calculando el respectivo coeficiente de determinacin que se
notar como R2i; cada una de estas regresiones se denomina regresin auxiliar , auxiliar a la
regresin principal de Y con las X. Se define la siguiente variable:

La cual tiene distribucin F con k-1 y n-k grados de libertad.


R2Xi.X2X3...XK es el coeficiente de determinacin en la regresin de la variable X i en las restantes variables
independientes.
Si la estadstica de trabajo (F i ) es menor que el valor tabulado F (1- ) , la variable Xi no es colineal
con las restantes X; si es mayor, es colineal por lo tanto la variable X i debe eliminarse del modelo.
Los mtodos presentados para la deteccin de la multicolinealidad son esencialmente "mtodos de
pesca" ya que no se puede decir si ellos funcionan para una determinada aplicacin.
4.5.2.3 Medidas remediales. Una vez detectada la presencia de multicolinealidad en un modelo,
existen varios mtodos para solucionarla, unos ms complejos que otros. Uno de los ms simples
consiste en omitir del modelo una de las variables colineales; sin embargo, al eliminar una variable del
modelo podemos cometer el sesgo o error de especificacin.
Otra solucin al problema de la colinealidad es aumentar el tamao de la muestra.
4.5.3 Homocedasticidad
Significa que todos los errores de la funcin de regresin poblacional tienen la misma varianza. En
otras palabras, la varianza de Yi condicional al Xi dado sigue siendo igual, independientemente de los
valores que tome la variable X.

Si no existe Homocedasticidad, es decir en presencia de heterocedasticidad, los coeficientes de


regresin siguen siendo insesgados pero dejan de ser eficientes o de varianza mnima y como
consecuencia de esto, los intervalos de confianza sern muy amplios y las pruebas t y F posiblemente
producirn resultados inexactos.
La heterocedasticidad no es fcil de detectar por cuanto en investigacin economtrica es muy comn
que solamente se tenga un valor Y correspondiente a un valor de X dado, imposibilitando hallar la
varianza de los errores con base en esa nica observacin. Como consecuencia, se han creado algunos
mtodos informales y de aproximacin para detectar la presencia de heterocedasticidad. Estos
mtodos generalmente examinan los residuos obtenidos despus de haber obtenido la ecuacin de
regresin, para buscar en ellos patrones sistemticos, indicando as heterocedasticidad.
Una de las soluciones al problema en mencin, es la de hacerle una transformacin logartmica a los
datos, es decir en lugar de correr la regresin Y=

X se corre ln Y =

ln X.

4.5.4 Especificacin del modelo


Uno de los supuestos del modelo de regresin es que est correctamente especificado, lo cual implica
que no existe sesgo o error de especificacin, el cual puede ocurrir cuando se escoge la forma
funcional equivocada o por incluir variables que no deben estar en el modelo o excluir variables que
deben estar en el modelo.
Al especificar un modelo como el correcto, es probable que se cometan uno o ms de los siguientes
errores de especificacin:
- Omisin de una variable relevante
- Inclusin de una variable innecesaria
- Adopcin de una forma funcional equivocada
- Errores de medicin
Estos errores se cometen porque sabemos cul es el modelo correcto, pero no podemos implementarlo
debido a que no se encuentra disponible la informacin necesaria. Otra razn consiste en que se
puede saber cules variables incluir en el modelo, pero no se sabe la forma funcional exacta en que
las variables deban aparecer en el modelo. Finalmente, frecuentemente un error de especificacin es
realmente un error de una especificacin equivocada, puesto que no sabemos cul es el verdadero
modelo.
4.5.4.1 Consecuencias de los errores de especificacin . Si excluimos una variable relevante del
modelo los coeficientes de las variables que se retienen son generalmente sesgadas e inconsistentes,
mientras que la varianza del error se estima en forma incorrecta y se invalidan los procedimientos
usuales de pruebas de hiptesis.
Al incluir una variable irrelevante en el modelo se obtienen estimadores insesgados,
consistentes, se estima correctamente la varianza de los errores y continan siendo vlidos los
mtodos convencionales de pruebas de hiptesis. El nico castigo por incluir una variable superflua
consiste en que las varianzas estimadas de los coeficientes son ms grandes y, como resultado, las
inferencias sobre los parmetros son menos precisas.

En general, el mejor enfoque consiste en incluir solamente variables explicativas que, en trminos
tericos, influyan directamente sobre la variable dependiente y que no sean explicadas por otras
variables ya incluidas en el modelo.
4.5.4.2 Prueba de errores de especificacin.
- Examen de los residuos . al examinar los residuos se obtiene un buen diagnstico visual para
determinar la Autocorrelacin o la heterocedasticidad. Pero estos residuos tambin se pueden
examinar, especialmente en los datos de corte transversal, para errores de especificacin de modelos
tales como la omisin de una variable importante o una forma funcional incorrecta. Si de hecho
existen tales errores, una grfica de los residuos presentar patrones especficos.
Existen otras pruebas como son la de Durbin-Watson y la de RESET.
4.5.5 Autocorrelacin
Uno de los supuestos importantes del modelo de regresin lineal es que los errores (e i ) son aleatorios
o no correlacionados. Si se viola este supuesto, se tiene el problema de correlacin serial o
Autocorrelacin.
La Autocorrelacin se define como la correlacin existente entre los miembros de una serie de
observaciones ordenadas en el tiempo o en el espacio. Existen diferentes razones por las cuales se
presenta la correlacin serial o Autocorrelacin, algunas de ellas son:
- Inercia . Una de las caractersticas sobresalientes de la mayora de las series econmicas es la
inercia; por lo tanto en las regresiones que involucren datos de series de tiempo, es probable que
observaciones sucesivas sean interdependientes.
- Sesgo de especificacin: por variables excluidas o la forma funcional es incorrecta . Cuando
se construye un modelo de regresin y se grafican los errores o residuos, si se observa un patrn muy
definido en el comportamiento de estos puede sugerir que en el modelo falta o faltan algunas
variables o que el modelo elegido no es el adecuado. Este es el caso del sesgo de especificacin
debido a una variable excluida, en el primer caso, o a que la funcin no es la adecuada, en el segundo
caso. Ocurre con mucha frecuencia que al incluirse tales variables o al cambiar de modelo se elimina el
patrn de correlacin observado entre los residuos.
4.5.5.1 Consecuencias de la Autocorrelacin. Como en el caso de la heterocedasticidad, los
coeficientes de regresin en presencia de Autocorrelacin continan siendo lineales, insesgados y
consistentes pero dejan de ser eficientes, es decir de varianza mnima.
4.5.5.2 Cmo detectar la Autocorrelacin.
- Mtodo grfico . El graficar los errores o residuos contra alguna de las variables, proporciona
informacin muy til no solamente sobre la Autocorrelacin sino tambin sobre la heterocedasticidad y
el sesgo de especificacin problemas que estn presentes en el caso de observarse un patrn definido
en el comportamiento de los errores.
El mtodo grfico es subjetivo o de naturaleza cualitativa, sin embargo existen pruebas de tipo
cuantitativo, siendo una de las ms comunes la de Durbin-Watson.
- Prueba de Durbin-Watson .
Las hiptesis son las siguientes:
H0 : No hay Autocorrelacin

H1 : Hay Autocorrelacin
La estadstica de trabajo es:

En donde et y et-1 son los residuos en el perodo t y el t-1.


Regla de decisin:

Los valores dL y dU se hallan en las tablas de Durbin-Watson. Los lmites de d estn entre 0 y 4. Como
regla general, si d es igual a 2 se puede suponer que no existe correlacin.
Una de las desventajas de la prueba de durbin-Watson es que si esta cae en la zona de indecisin o
regin de ignorancia no se puede concluir si existe Autocorrelacin; en tal caso se pueden utilizar las
pruebas no paramtricas diseadas para detectar la Autocorrelacin.
Para poder realizar la prueba de Durbin-Watson se deben cumplir los siguientes supuestos:
1. El modelo de regresin incluye el coeficiente de interseccin ,
2. El modelo no incluye el valor o valores rezagados de la variable dependiente como una de las
variables explicativas,
3. No hacen falta observaciones en los datos: en el caso de variables a travs del tiempo, todas las
observaciones deben ser consecutivas
4.5.5.3 Medidas remediales. Una de las soluciones al problema de la Autocorrelacin consiste en
transformar las variables originales de la siguiente forma:
Y * t = Yt - P Yt-1
X * t = X t - r X t-1
Para evitar la prdida de una observacin, las primeras observaciones de Y y X se transforman de la
siguiente manera:

Siendo P = 1 - (d/2) y d es el valor obtenido en el Durbin-Watson de la regresin original.

5. SERIES CRONOLOGICAS
Toda institucin, ya sea una empresa, el gobierno o cualquier otra entidad, tiene que hacer planes
para el futuro. Las empresas para hacer frente a las variaciones de la demanda de sus productos, para
as mismo programar la produccin, los recursos econmicos, el mercadeo y otras fases de la
administracin.
La previsin y planificacin suele basarse en lo ocurrido en el pasado, por lo tanto, generalmente el
tiempo es una de las variables ms importantes ya que para estimar el valor de una variable o
predecir su valor en el futuro se requiere el comportamiento de esta en el pasado y en el presente.
Se llama serie de tiempo o cronolgica a cualquier sucesin de observaciones de un fenmeno que
es variable con respecto al tiempo y se observa en intervalos de tiempo regulares, es decir que, estas
observaciones se deben hacer en perodos igualmente espaciados. Una serie cronolgica describe la
variacin de los valores de la variable en el tiempo y tales variaciones son resultado del
comportamiento sistemtico o aleatorio de la variable.
El principal objetivo al hacer el anlisis de la serie cronolgica es la proyeccin o inferencia
, lo cual resulta complicado y difcil, debido a que las observaciones del fenmeno que aparecen en la
serie de tiempo, frecuentemente estn correlacionadas, con una correlacin que aumenta a medida
que el intervalo de tiempo entre un par de observaciones decrece. En consecuencia, los datos de una
serie de tiempo violan con frecuencia los supuestos bsicos de independencia que se requieren para
hacer un anlisis de regresin, es decir, que en una serie de tiempo generalmente se presenta la
Autocorrelacin.
5.1 COMPONENTES DE LAS SERIES CRONOLOGICAS
Las series de tiempo se suelen presentar por medio de una ecuacin matemtica que describa los
valores de la variable observada como una funcin del tiempo, es decir (Y =f(t)).
Al representar grficamente la informacin en un sistema de coordenadas, en el eje de las ordenadas
se ubica la variable y en el de las abscisas el tiempo. Esta representacin grfica es dificil para
detectar los movimientos de la serie, los cuales son causados por una variedad de factores que
pueden ser econmicos, naturales, institucionales o culturales.
Algunos factores tienden a afectar los movimientos de la serie a largo plazo y otros la afectan a corto
plazo, de tal manera que todos o algunos de los factores pueden aparecer en una misma serie de
tiempo.
Existen diferentes mtodos para analizar una serie de tiempo, siendo uno de ellos el modelo de
descomposicin , el cual considera que la serie est compuesta de cuatro patrones bsicos: la
tendencia (T), las variaciones estacionales (S), las variaciones c R clicas (C) y las variaciones
irregulares o aleatorias (I). Por lo tanto, la variable observada (Y) estar < en funcin de T, S, C, I.
5.1.2 Tendencia (T).
Es la componente que indica la evolucin de la variable a travs del tiempo, evolucin que se va a
medir como un crecimiento o descenso constante en un perodo de tiempo prolongado. El perodo de
observacin de la variable ha de ser suficientemente largo como para incluir dos o ms ciclos
econmicos y as poder tener una idea sobre la evolucin real de la variable. Lo que mide la tendencia

es la variacin promedio de la variable por unidad de tiempo. Esta tendencia se suele describir
mediante una recta o algn tipo de curva lisa.
En la figura 5.1 se puede observar que a pesar de tener altibajos durante todo el perodo de
observacin, la tendencia (T) de las tasas de desempleo es a disminuir.

Figura 5.1 Colombia: tasas de desempleo trimestrales. 1984-1994

5.1.3 Variaciones estacionales (S).


Corresponde a los movimientos en una serie de tiempo, que ocurren ao tras ao en los mismos
meses o perodos del ao poco ms o menos con la misma intensidad. Tambin se aplica la variacin
estacional a otros movimientos peridicos por naturaleza, como los que ocurren en un da, una
semana o un mes, cuyo perodo es como mximo un ao.
Entre los factores ms importantes que originan variaciones estacionales, se encuentran las
condiciones climticas, las costumbres sociales y las fiestas religiosas. Las climticas son la causa ms
importante de las variaciones estacionales en la produccin agrcola, la construccin y el turismo.
En la figura 5.2 puede observarse que generalmente el PIB en los meses de noviembre y diciembre
est en su punto mximo y en los meses de enero, marzo y junio en su punto mnimo, presentndose
ms o menos el mismo comportamiento todos los aos. La situacin descrita se considera una
variacin estacional.
Existen diversas razones para calcular las variaciones estacionales; si se sabe que los precios de
algunos artculos tienen una fluctuacin caracterstica, es posible comprar en poca de precio bajo y
reservar los artculos para su posterior empleo o venta. Antes de tomar una decisin a este respecto
debe tenerse en cuenta el costo de almacenamiento y otros costos que impliquen la operacin.

Figura 5.2 Colombia: Producto Interno Bruto (PIB) mensual. 1985-1988

Una razn para medir los movimientos estacionales es la de ajustar los datos estadsticamente
respecto a tales movimientos, quedando as las series compuestas nicamente por la tendencia, los
movimientos cclicos y las variaciones aleatorias. Los datos en esa forma son ms fciles de
interpretar para muchos fines, por disminuir la probabilidad de error en la apreciacin de la causa de
cualquier movimiento observado. Por ejemplo, si no se han ajustado los datos, puede tomarse un alza
estacional por una mejora en la condicin del negocio o viceversa.
Los ndices estacionales son las medidas de las variaciones estacionales en la marcha de cualquier
variable. Al hacer los anlisis de las variaciones estacionales se deben utilizar como mximo
datos trimestrales o semestrales.

5.1.4 Variaciones cclicas (C).

Son los movimientos ascendentes y descendentes de la variable, los cuales difieren de las variaciones
estacionales en que se extienden por perodos de tiempo ms o menos largos (2 o ms aos) y,
supuestamente, resultan de un conjunto de causas totalmente diferentes que en general son de
naturaleza econmica y reflejan el estado de las actividades comerciales de tiempo en tiempo.
Los perodos recurrentes de expansin, cspide, contraccin y sima constituyen las 4 fases de un ciclo
y se consideran causados por factores diferentes del clima y las costumbres sociales que contribuyen a

las variaciones estacionales. La principal diferencia entre las variaciones cclicas y las estacionales es
que en las estacionales la periodicidad es de un ao como mximo, mientras que en las cclicas esta
periodicidad es mayor; por esta razn para detectar las variaciones cclicas se debe tener una serie
suficientemente larga.

5.1.5 Variaciones aleatorias o irregulares (I).


Se deben a razones aleatorias o espordicas y por lo tanto impredecibles. No obstante, estos sucesos
se pueden reconocer e identificar fcilmente. Las variaciones aleatorias son de dos clases: a)
variaciones provocadas por acontecimientos especiales, como elecciones, guerras, inundaciones,
terremotos, huelgas, etc. b) variaciones aleatorias o por casualidad, cuyas causas no se pueden
sealar en forma exacta.
Las variaciones aleatorias a menudo son poco importantes y se suelen considerar como parte de las
estacionales o cclicas o simplemente se las ignora.
5.2 TIPOS DE MODELOS

El objetivo del anlisis de las series de tiempo es identificar aquellas componentes presentes para
detectar sus causas y predecir valores futuros de la serie.
En la mayora de los casos no resulta sencillo, en una serie de tiempo, distinguir entre las
componentes; frecuentemente estos efectos se han integrado tanto que resultan inseparables. Por el
contrario, si los efectos parecen distinguibles, no es difcil separarlos.
Para el anlisis de una serie de tiempo existen diferentes tipos de mtodos, los cuales son aplicables
dependiendo de las caractersticas de la informacin y de los recursos tcnicos (computador y
paquetes), ya que algunos mtodos son bastante complejos como para aplicarlos manualmente.
Dentro de los modelos ms sencillos est el de descomposicin y dentro de stos el modelo aditivo
y el multiplicativo. En el aditivo , se considera que la variable observada (Y) se puede descomponer
en la suma de los factores, es decir, Y=T + S + C + I. En el multiplicativo , el comportamiento de la
variable observada se expresa como el producto de los componentes, es decir, Y=T * S * C * I. El
criterio fundamental que se debe seguir en una situacin dada es utilizar el modelo que mejor se
ajuste a los datos.
En el estudio de series cronolgicas lo primero que debe hacerse es el anlisis grfico de la variable a
travs del tiempo, esto con el fin de detectar la tendencia, si la serie tiene estacionalidad y la longitud
de la misma. Si la variable a analizar no presenta estacionalidad, debe utilizarse otro mtodo diferente
al de descomposicin para estudiar la serie.
5.2.1 MODELO MULTIPLICATIVO
5.2.1 MODELO MULTIPLICATIVO
5.2.1.1 INDICES ESTACIONALES . A continuacin se presenta EL mtodo de los promedios
mviles, que es una de las metodologas existentes para obtener los ndices estacionales, ya sean
semanales, mensuales o trimestrales.
1. Como se plante anteriormente, el primer paso es graficar la informacin en un sistema de
coordenadas en donde en el eje de las abscisas est el tiempo y en el de las ordenadas la variable

observada. Con esta grfica se tiene una idea general sobre la tendencia de la variable, si hay
estacionalidad y la longitud de esta, es decir cada cuntos periodos se repite.
Por ejemplo, de la figura 5.2 se deduce que la serie es estacional y la longitud es de 12 perodos, es
decir, un ao, ya que cada 12 meses se repite ms o menos la misma situacin.
2. Se deben eliminar las fluctuaciones estacionales contenidas en la serie, para lo cual se calculan los
promedios mviles. El promedio mvil no elimina las fluctuaciones muy acentuadas de la serie, pero
reduce sustancialmente la amplitud de las variaciones de los datos originales, es decir, elimina total o
parcialmente las variaciones estacionales y las irregulares; por lo tanto, los promedios resultantes
reflejan la tendencia y las variaciones cclicas (T*C). El nmero de perodos incluidos en ste
promedio depende de la longitud de la estacin, la cual ha sido establecida en el anlisis grfico. Si los
datos se presentan en forma anual, ser imposible obtener ndices estacionales.
Se calcula un promedio mvil sumando los valores de un cierto nmero de perodos sucesivos y
dividiendo la suma por el nmero de perodos abarcados. As pues para cada promedio sucesivo, se
resta el dato que viene primero y se le suma el ltimo siguiente. Para el clculo de estos promedios
mviles se puede utilizar la siguiente frmula:

donde M: nmero de perodos.


Si en el clculo de un promedio mvil entra un nmero impar de perodos, el nmero de perodos
antes y despus del perodo para el cual se calcula el promedio es igual, quedando as el promedio en
el perodo central correspondiente. Si el nmero de perodos es par, no se pueden utilizar el mismo
nmero de perodos antes y despus de uno especificado, quedando el promedio entre dos perodos
consecutivos y no se relaciona con ninguno; este problema se resuelve calculando un nuevo promedio
mvil de 2 perodos de los promedios mviles ya obtenidos, hallndose as el promedio mvil
centrado.
A continuacin se da una ilustracin sobre el clculo de los promedio mviles:
Nmero impar de perodos en el promedio mvil . Se tienen 10 datos y se va a calcular un
promedio mvil de 5 per R odos. El primer promedio se obtiene con los 5 primeros datos; el siguiente
se obtiene eliminando el dato ms antiguo e incluyendo el siguiente y as sucesivamente hasta el
ltimo grupo de 5 datos. Observe que cada promedio mvil obtenido queda ubicado en el perodo
central.

PERIODO

DATOS

184

188

156

PROMEDIO MOVIL

174,6

289

154,6

56

145,2

84

143,8

141

127,8

149

126,6

209

10

50

ii) N d mero par de perodos en el promedio mvil . Se tienen 10 datos y se va a calcular un


promedio mvil de 4 perodos. El primer promedio se obtiene con los 4 primeros datos; el siguiente se
obtiene eliminando el ms antiguo e incluyendo el siguiente y as sucesivamente. Ntese que cada
promedio mvil queda ubicado entre los dos perodos centrales y no corresponde a ningn perodo
determinado, por lo tanto se debe hallar un nuevo promedio mvil de 2 perodos, cuyo nico objetivo
es centrarlo o hacerlo corresponder a un perodo especfico.

PERIODO

DATOS PROMEDIO

MOVIL PROMEDIO

283

454

368,5

392

366,25

MOVIL CENTRADO

367,375

345

350,75

358,5

274

325,25

338

392

291,5

308,375

290

277,5

284,5

210

275,0

276,25

218

10

382

3. El tercer paso consiste en dividir los datos originales entre los valores correspondientes a los
promedios m \ viles centrados, lo cual se hace para aislar los componentes estacionales e irregulares.
Para expresarlo en porcentaje el resultado obtenido se multiplica por 100.

4. Con los datos obtenidos en el paso anterior se construye una tabla de tal manera que los datos
correspondientes al mismo perodo queden en la misma columna y se promedian estos datos. Los
promedios sern entonces una estimacin de los ndices estacionales, la suma de estos debe ser igual
a 400, 1.200, 600, etc. si est trabajando con datos trimestrales, mensuales o bimestrales
respectivamente; si no es as se obtiene un factor de correccin (K) de la siguiente manera:
K * suma = D en donde D es 400, 1.200 o 600 dependiendo del caso.
La media de cada perodo se multiplica por k, obtenindose as los ndices estacionales. Los valores
finales de los ndices estacionales deben sumar (1200, 400, 600). Si un ndice estacional da por
ejemplo 89 % indica que el valor efectivo que se espera ser un 11 % inferior al que ser sin la
influencia estacional; si es del 117% indica que el valor esperado para ese perodo ser un 17%
superior al del mes promedio o debido a una variacin estacional.
5.2.1.2 Tendencia (T) . Los promedios mviles centrados obtenidos anteriormente se grafican con el
fin de identificar la forma funcional apropiada de la tendencia. Con estos promedios mviles se
obtiene la ecuacin correspondiente, para lo cual se utiliza el mtodo de los mnimos cuadradados.
5.2.1.3 Variacin cclica (C) . Una vez calculada la tendencia se estima el valor correspondiente a

cada perodo. Cada uno de los promedios mviles se divide por el respectivo valor estimado,
obtenindose as una aproximacin al componente cclico.

5.2.1.4 Variaciones irregulares (I) . El valor estimado para la tendencia en cada perodo se
multiplica por el correspondiente ndice estacional y el componente cclico. Cada uno de los valores
originales se divide por este producto, obtenindose una estimacin de las variaciones irregulares, es
decir:

5.2.1.5 Predicciones . Si la finalidad del anlisis de la serie es concentrarse sobre un solo


componente, la tcnica anterior resulta adecuada. Sin embargo, la mayora de las veces el principal
objetivo es pronosticar o proyectar la variable observada, para lo cual se combinan los componentes
individuales.
La tendencia, expresada en una recta de mnimos cuadrados, describe en promedio, lo ocurrido en el
pasado y permite estimar o proyectar el comportamiento de la variable.
El ndice estacional mide el porcentaje de aumento (si es mayor que 100 por ciento) o disminucin (si
es menor que 100 por ciento) con respecto al promedio del perodo considerado.
Multiplicando los valores estimados o proyectados (con la ecuacin de regresin) por los ndices
estacionales correspondientes, se obtienen las proyecciones teniendo en cuenta las variaciones
estacionales (proyecciones con ajuste estacional).
Generalmente las proyecciones se hacen considerando solamente la tendencia y los ndices
estacionales, debido a que los movimientos cclicos e irregulares son muy difciles de detectar cuando
no imposibles.

EJEMPLO
La informacin presentada en la tabla 5.1, corresponde a las ventas trimestrales (en millones de
pesos) realizadas por una fbrica entre el primer trimestre de 1986 y el cuarto de 1991.
Tabla 5.1 Ventas trimestrales (en millones de pesos) 1986-1991

TRIMESTRE

AO

1986

38

35

40

52

1987

37

31

40

51

1988

35

31

38

51

1989

38

33

50

69

1990

51

46

56

74

1991

53

48

58

86

Como se plante anteriormente lo primero que debe hacerse con la informacin es el anlisis grfico.
En la figura 5.3 puede observarse que la tendencia de las ventas es a aumentar; adems se puede
concluir que los datos tienen estacionalidad y que la longitud de la estacin es de 4 trimestres, ya que
cada 4 trimestres se presenta aproximadamente el mismo patrn de comportamiento, es decir en el
segundo trimestre las ventas estn en su punto mnimo, en el tercero tienden a aumentar, llegando a
su punto mximo en el cuarto trimestre; la situacin descrita se presenta ao tras ao.
Como la longitud de la estacin es de 4 trimestres, se halla un promedio mvil de 4 perodos
(tabla5.2, columna 4). Debido a que el nmero de perodos incluidos en este promedio es par, se halla
un nuevo promedio mvil de 2 perodos con el fin de centrarlo (columna 5). Recuerde que los
promedios mviles se hallan para eliminar las variaciones estacionales y las irregulares con lo cual se
suaviza la serie y as se puede tener una idea ms clara sobre la tendencia. El suavizamiento obtenido
se comprueba en la figura 5.4.

Figura 5.3 Ventas trimestrales en millones de pesos. 1986-1991

El tercer paso es dividir el valor original de la variable por su correspondiente promedio mvil
centrado (tabla 5.2, col.6), obtenindose as una aproximacin a las variaciones estacionales e
irregulares.

Figura 5.4 Promedios mviles y ventas observadas.

La informacin de la columna 6 se pasa a la tabla 5.3, en donde los datos correspondientes al mismo
perodo quedan en la misma columna. Con el fin de eliminar las variaciones irregulares se halla un
promedio aritmtico para cada columna, obtenindose as una aproximacin al ndice estacional
correspondiente a cada trimestre.
Como se tienen datos trimestrales y la longitud de la estacin es de 4 perodos, se van a hallar 4
ndices estacionales, por lo tanto, la suma de estos 4 valores debe ser aproximadamente igual a 400,

as que es necesario hallar el factor de correccin K:


K * suma = 400 en nuestro caso, K * 399,01 = 400
entonces K = 1,002481
Cada uno de los promedios obtenidos se multiplica por K, hallndose as la estimacin definitiva de los
ndices estacionales (?ltima fila tabla 5.3).
El valor mnimo de los ndices se obtiene en el segundo trimestre y el mximo en el cuarto trimestre,
lo cual es coherente con la informacin original (figura 5.3) ya que se observ el mnimo de ventas en
el segundo trimestre y el mximo en el cuarto.
El ndice del 91,9% correspondiente al primer trimestre, indica que en el primer trimestre las ventas
disminuyen un 8,1% con respecto al promedio trimestral debido a factores estacionales los cuales
pueden ser de tipo econmico. El ndice del 129,82% correspondiente al cuarto trimestre, indica que
las ventas en el cuarto trimestre aumentan un 29,82% con respecto al promedio trimestral, debido a
factores estacionales como son el aumento de la disponibilidad econmica de la gente por las primas
de navidad y por las costumbre de los regalos de navideos.
Tabla 5.2 Ventas trimestrales (en millones de pesos) y clculo de los promedios mviles. 1986-1991

AO

TRIMESTRE

VENTAS

PROMEDIO

PROM.MOVIL

[(3)/(5)]*100

(1)

(2)

(3)

MOVIL (4)

CENTRADO (5)

(6)

1986

1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2

38
34
40
52
37
31
40
51
35
31
38
51
38
33
50
69
51
46
56
74
53
48

41,00
40,75
40,00
40,00
39,75
39,25
39,25
38,75
38,75
39,50
40,00
43,00
47,50
50,75
54,00
55,50
56,75
57,25
57,75
58,25

40,88
40,38
40,00
39,88
39,50
39,25
39,00
38,75
39,13
39,75
41,50
45,25
49,13
52,38
54,75
56,13
57,00
57,50
58,00

97,86
128,79
92,50
77,74
101,27
129,94
89,74
80,00
97,12
128,30
91,57
72,93
101,78
131,74
93,15
81,96
98,25
128,70
91,38

1987

1988

1989

1990

1991

3
4

58
86

61,25

59,75

80,33

Fuente: Tabla 5.1

Tabla 5.3 Estimacin de los ndices estacionales

AO

TRIMESTRE

1986

97,86

128,79

SUMA

1987

92,50

77,74

101,27

129,94

1988

89,74

80,00

97,12

128,30

1989

91,57

72,93

101,78

131,74

1990

93,15

81,96

98,25

128,70

1991

91,38

80,33

91,67

78,59

99,26

129,49

399,01

91,90

78,79

99,50

129,82

400,00

PROMEDIO
ARITMETICO

INDICE
ESTACIONAL

Fuente: Tabla 5.2, columna (6).

Estimacin de la tendencia . Para hallar la ecuacin de regresin se trabaja con los promedios
mviles centrados como variable dependiente y como independiente el tiempo. Para esta ltima
variable se debe hacer una recodificacin, por lo tanto se debe tomar un punto de referencia u origen
que puede ser en cualquier perodo. Para el caso que nos ocupa se toma como origen el tercer
trimestre de 1986 en donde el valor de X = 0, en el cuarto trimestre de 1986, X = 1 y as
sucesivamente (tabla 5.4, col 3).
El comportamiento de los promedios mviles (figura 5.4) sugiere que a estos datos se les puede
ajustar un polinomio. Despus de haber evaluado polinomios de diferentes grados se concluy que el
ms adecuado es el de tercer grado, por su coeficiente de determinacin, porque al hacerle la prueba
de hiptesis a los coeficientes de regresin todos son significativamente diferentes de cero y por el
poder predictivo de la ecuacin. Los resultados obtenidos son los siguientes:
Y = 46,05774 - 3,51789 X + 0,420907 X2 - 0,010488 X3
R2 = 0,9544 (5.1)

(1,8857) (0,7587) (0,0829) (0,0026)


(origen: tercer trimestre de 1986)
En la figura 5.5 en donde se presentan las ventas observadas y las estimadas con la ecuacin de
regresin (ecuacin 5.1) reemplazando X por su correspondiente valor, se aprecia que existen grandes
discrepancias entre los valores observados y los estimados; por lo tanto para poder hacer
estimaciones confiables es necesario afectar los valores estimados por el factor estacional, es decir
que se hace la estimacin o proyeccin con ajuste estacional.
Como se est trabajando con el modelo multiplicativo, en donde se supone que Y = T * S * C * I y se
ha estimado separadamente tanto la tendencia (ecuacin 5.1) como los ndices estacionales (tabla
5.3), lo que se hace es multiplicar la tendencia por el correspondiente ndice estacional (Y*S/100),
obtenindose as la estimacin con ajuste estacional (tabla 5.4, col.7).
En la figura 5.6 se puede apreciar que al multiplicar la tendencia por el ndice estacional se obtiene
una buena aproximacin a los valores observados, es decir que la estimacin con ajuste estacional es
ms confiable.
Tabla 5.4 Pronstico de ventas con ajuste estacional

AO TRIMESTRE

ORIGEN PROM.MOV
X
CENTRADO

VENTAS
ESTIMADAS

INDICE
ESTACIONAL

EST.AJUST
ESTACIONAL

(1)

(3)

(4)

(5)

(6)

(5)*(6)/100

0
1
2
3
4
5
6

40,88
40,38
40,00
39,88
39,50
39,25
39,00

46,06
42,95
40,62
39,01
38,05
37,68
37,84

99,50
129,82
91,90
78,79
99,50
129,82
91,90

45,83
55,76
37,33
30,74
37,86
48,92
34,77

(2)

1986 3
4
1987 1
2
3
4
1988 1

2
3
4
1989 1
2
3
4
1990 1
2
3
4
1991 1
2

7
8
9
10
11
12
13
14
15
16
17
18
19

38,75
39,13
39,75
41,50
45,25
49,13
52,38
54,75
56,13
57,00
57,50
58,00
59,75

38,46
39,48
40,84
42,48
44,33
46,33
48,42
50,53
52,60
54,56
56,37
57,94
59,23

78,79
99,50
129,82
91,90
78,79
99,50
129,82
91,90
78,79
99,50
129,82
91,90
78,79

30,30
39,29
53,02
39,04
34,93
46,10
62,85
46,43
41,44
54,29
73,18
53,25
46,67

Con este ejemplo se pretende demostrar la bondad que tiene el trabajar con el mtodo de
descomposicin para el anlisis de una serie de tiempo, ya que nos permite hacer una buena
aproximacin a la realidad del fenmeno o variable observada.
Figura 5.5 Ventas observadas y estimadas. 1986-1991

Fuente: tablas 5.1 y 5.4 columna 5

Figura 5.6 Ventas observadas y estimadas con ajuste estacional. 1986-1991

Fuente: Tablas 5.1 y 5.4 columna 7

5.2.2 SUAVIZAMIENTO DE PROMEDIOS MOVILES


5.2.2 SUAVIZAMIENTO DE PROMEDIOS MOVILES
El mtodo de los promedios mviles utiliza el promedio de varios perodos anteriores como pronstico
para el siguiente perodo. El promedio mvil implica que cuando se dispone de una nueva
observacin , se calcula una nueva media eliminando el valor ms antiguo y agregando el ms
reciente. Este nuevo promedio es el pronstico para el siguiente perodo. El nmero de perodos a
incluir en el promedio se define a criterio personal.
La ecuacin para obtener las proyecciones es:

Donde:
St+1b es el pronstico para el perodo t+1
Yt es el valor observado en el perodo t
m es el nmero de perodos en el promedio mvil
El mtodo de los promedios mviles es til cuando se tienen series que no tienen ni tendencia, ni

estacionalidad, es decir para series que tienen un comportamiento aleatorio.

5.2.3 SUAVIZAMIENTO EXPONENCIAL (BROWN)


La tcnica de suavizamiento exponencial usa un promedio ponderado de los valores pasados de una
serie de tiempo para obtener un pronstico o una proyeccin a corto plazo. La suavizacin exponencial
es un promedio mvil pero diferente al que se utiliza en el mtodo de descomposicin, ya que en este
suavizamiento se tienen en cuenta todos los valores pasados de la serie, dndosele mayor
ponderacin o importancia a los valores recientes y a medida que stos van siendo ms antiguos la
ponderacin o importancia va decreciendo exponencialmente.
Para utilizar ste mtodo se elige una constante de suavizamiento que debe estar entre cero y uno.
Las ponderaciones que se usan son: para la observacin ms reciente, (1- ) para la siguiente ms
reciente, (1- )2para la siguiente y as sucesivamente. De lo anterior se deduce que un cercano a
uno afecta ms al nuevo pronstico y por el contrario cuando
sea cercano a cero, el nuevo
pronstico ser muy parecido a la observacin ms antigua.
Aunque la eleccin de la constante de suavizamiento es a criterio personal, si se requieren pronsticos
estables y que se suavicen las variaciones aleatorias se necesita un pequea y si se desea una
respuesta rpida a los cambios de la variable se debe elegir una constante de suavizamiento grande.
La ecuacin bsica de suavizamiento para hacer la proyeccin es:

Donde:
St-1es el pronstico para el perodo t+1
es la constante de suavizamiento
Yt es el valor observado en el perodo t
St es el valor suavizado o pronstico para el perodo t
Cuando se inicia el proceso de suavizamiento se asume que S 1 = Y1.
Para elegir la mejor constante de suavizamiento se deben hacer suavizamiento con diferentes , y se
obtiene el mejor suavizamiento cuando se minimicen los errores e i, es decir, cuando se minimicen las
diferencias entre los valores observados y estimados. Hay varios indicadores de los errores generados
por un procedimiento de pronsticos, como son la media absoluta de los errores (MAE), el error
cuadrtico medio (MSE) y la media absoluta del porcentaje de error (MAPE) el cual tiene la
caracterstica de ser independiente de las unidades y magnitudes que se estn manejando; estos
indicadores se definen como:

Cuando una serie de tiempo tiene un comportamiento constante en el tiempo o no tiene tendencia, la
suavizacin exponencial puede dar buenos resultados.

5.2.4 SUAVIZAMIENTO EXPONENCIAL LINEAL DE HOLT


Cuando una serie de tiempo presenta alguna tendencia, ya sea creciente o decreciente, se puede
utilizar el suavizamiento de Holt que permite estimar por separado el valor suavizado de la serie y el
cambio en la tendencia a travs del tiempo.
Para utilizar el mtodo de Holt se requieren dos constantes de suavizamiento, que es la constante de
suavizamiento para el nivel de la serie y la constante de suavizamiento para la tendencia de la serie.
Estas dos constantes deben estar entre cero y uno. Para obtener el mejor ajuste se obtienen
estimaciones con diferentes valores de alpha y beta y la combinacin adecuada es la que produzca
una menor media absoluta de los errores (MAE) o una menor media absoluta del porcentaje de error
(MAPE)
Los valores de las estimaciones iniciales son:
S1= Y1
b1 = Y2 - Y1
Las proyecciones o pronsticos se obtienen con las siguientes ecuaciones:

Donde:

Yt+m es el pronstico para el perodo t+m


Yt es el valor observado en el perodo t
St es el valor suavizado de la serie en el perodo t
bt es la tendencia estimada en el perodo t
es la constante de suavizamiento para el nivel de la serie
es la constante de suavizamiento para la tendencia de la serie

5.2.5 SUAVIZAMIENTO EXPONENCIAL DE WINTER

Este mtodo es indicado cuando se tienen series de tiempo con una componente estacional
claramente definida. Estima separadamente para cada punto en el tiempo, el promedio suavizado, la
tendencia ajustada y el factor estacional, combinando despus estos tres componentes para obtener
los pronsticos.
Las proyecciones o pronsticos se obtienen con la siguientes ecuaciones:

Donde:
Y

t-m

es el pronstico para el perodo t+m

Yt es el valor observado en el perodo t


St es el valor suavizado de la serie en el perodo t
bt es la tendencia estimada en el perodo t
It es el factor estacional estimado para el perodo t
es la constante de suavizamiento para el nivel de la serie
es la constante de suavizamiento para la tendencia de la serie

Y es la constante de suavizamiento para la estacionalidad


L es la longitud de la estacionalidad
Las constantes de suavizamiento inicialmente son seleccionadas arbitrariamente, con la condicin de
que estn entre cero y uno. Como regla general y son pequeas, cercanas a 0.1, en tanto
la constante de suavizamiento para el factor estacional Y usualmente se fija cerca de 0.4 1.
Se deben probar varias combinaciones de , , Y hasta encontrar la que genere predicciones
suficientemente precisas.
Para iniciar el proceso de suavizamiento del nivel se puede asumir que: S 1 = Y o tambin se puede
emplear un promedio mvil centrado de igual longitud al perodo estacional. Para el valor inicial de la
tendencia se pueden utilizar los 2L primeros datos para hacer una regresin lineal; la pendiente (
es el valor inicial de la tendencia en el perodo inicial, es decir, b 1

y adems el coeficiente de

interseccin puede ser el valor inicial del nivel, S 1 =


. Se deben calcular L valores iniciales para el
factor estacional, es decir uno para cada uno de los perodos que conforman el ciclo estacional; cada
uno de estos factores se obtiene dividiendo el valor observado de la variable en cada perodo por el
valor de la tendencia para el correspondiente perodo. Usando los valores iniciales para el nivel, la
tendencia y cada uno de los factores estacionales, se inicia el uso de las ecuaciones para obtener las
proyecciones o pronsticos.
En resumen los pasos a seguir cuando se tiene una serie de tiempo son:
Graficar la informacin con respecto al tiempo, la cual permite observar si hay tendencias y/o
estacionalidades.
Elegir el mtodo para hacer las proyecciones, el cual depende de lo que se haya observado en la
grfica.
Evaluacin del modelo, a travs de uno de los indicadores mencionados, ya sea el MAE, MSE o
MAPE.
Hacer las proyecciones.
_______________________________________________________
Mendenhall, William y Reinmuth, James. Estadstica para administracin y economa , pg. 498.
Editorial Wadsworth Internacional/Iberoamrica. California, 1982
1

6. NOCIONES DE MUESTREO
El objetivo de la estadstica es, primordialmente, hacer inferencias o generalizaciones con base en la
informacin suministrada por una muestra, por lo tanto la confiabilidad de dichas inferencias depende
de la acertada seleccin de la muestra.
El muestreo es un mtodo cientfico que utiliza principios matemticos y estadsticos para la adecuada
seleccin de una muestra y manejo de la informacin obtenida a partir de ella, para as tener
estimaciones confiables. El muestreo consiste en la seleccin de una parte de la poblacin, de tal
manera que sta parte represente adecuadamente la poblacin.
En el presente captulo se definirn algunos trminos indispensables dentro del muestreo y se tratar
la forma de seleccionar una muestra y de obtener estimaciones a partir de ella cuando se trabaja con
muestreo irrestricto aleatorio y con muestreo estratificado.

6.1 CONCEPTOS GENERALES


6.1.1 Muestra . Es un subconjunto de una poblacin. Este subconjunto debe ser representativo de la
poblacin que se seleccion.
6.1.2 Poblacin . Cualquier conjunto de unidades o elementos claramente definido para el que se
obtienen las estimaciones. Cuando se va a hacer una investigacin se debe tener muy claro cul es su
cobertura o alcance para as mismo definir la poblacin.
6.1.3 Unidad de anlisis o elemento de muestreo es el objeto en el cual se toman las mediciones.
Estas unidades pueden ser personas, familias, fincas, empresas, tarjetas, etc.
6.1.4 Unidades de muestreo "son colecciones no traslapadas de elementos de la poblacin que
cubren la poblacin completa" 1 es decir que no debe haber interseccin entre una unidad y otra, por
lo tanto, cada elemento de muestreo puede pertenecer a slo una unidad de muestreo. Estas unidades
pueden ser manzanas de barrios, barrios, familias, fincas, parcelas, sectores, etc.. Si cada unidad de
muestreo contiene un solo elemento, entonces la unidad de muestreo y el elemento de muestreo son
iguales.
6.1.5 Marco de muestreo es un listado o mapa que contiene todas las unidades de muestreo y por
consiguiente cubre a toda la poblacin.
____________________________________________________________
Scheaffer/Mendenhall/Ott. Elementos de muestreo . Mxico D.F., Ed. Grupo editorial Iberoamrica.
1986. p.21
1

6.2 ERRORES ESTADISTICOS


Un error en estadstica es la diferencia entre el valor de un estimador y el del parmetro
correspondiente. Existen varias causas para producir estos errores. Segn la causa son clasificados en
errores de muestreo y de no muestreo.
El error de no muestreo puede ocurrir en cualquier encuesta, sea un censo o una muestra. Estos
errores comprenden errores sistemticos y equivocaciones.
Los factores que causan error sistemtico son: falta de definicin clara de la poblacin, inadecuada
elaboracin del marco de muestreo, falta de definicin del cuestionario, vaga concepcin de la
informacin deseada, mtodos imprecisos de entrevistas.
Surgen errores por equivocacin cuando las respuestas son anotadas en lugares equivocados, cuando
los entrevistados no responden, dan respuestas incorrectas o inapropiadas y cuando se hacen clculos
y anotaciones incorrectas al procesar los datos. "Los errores de no muestreo pueden ser controlados
mediante una atencin cuidadosa en la construccin de los cuestionarios y en los detalles del trabajo
de campo"1. Estos errores en las encuestas pueden ser minimizados as: la no respuesta con un plan
para hacer reentrevistas a los elementos muestreados, con recompensas e incentivos para quien
responde y entrevistadores adiestrados; la respuesta incorrecta se puede corregir si los cuestionarios
despus de diligenciados son revisados por alguien diferente al encuestador.
Los errores de muestreo son resultado de la eleccin casual de unidades de muestreo. Este tipo de
error ocurre porque solo se observa una parte de la poblacin; as que si se hace un censo, puede
esperarse que desaparezca el error de muestreo.
___________________________________________________________________

Ibid . p.25

6.3 VENTAJAS DEL MUESTREO


Hay dos formas de estudiar las poblaciones: por censo o por muestreo. En el censo se analizan todos
y cada una uno de los elementos de una poblacin y en el muestreo se analiza una parte de la
poblacin.
Las principales ventajas del muestreo comparadas con el censo son:
a. Costo reducido . Si la informacin se obtienen nicamente para una parte de la poblacin, los
gastos son menores que los se tendran si se realiza un censo.
b. Mayor rapidez . La informacin puede ser recolectada y procesada ms rpidamente cuando se
selecciona una muestra que cuando se realiza un censo.
c. Mayor exactitud . Cuando los errores ajenos al muestreo son necesariamente grandes, una
muestra puede dar mejores resultados que un censo, ya que esos errores se controlan con ms
facilidad si la operacin es de pequea escala. Como el volumen de trabajo se reduce, se puede
emplear personal calificado y realizar una supervisin cuidadosa del trabajo de campo y del
procesamiento de la informacin, reduciendo as los errores de no muestreo.
d. Posibilidad de hacerse . En la industria algunas pruebas son destructivas, por lo tanto, ciertas
investigaciones slo pueden realizarse con una muestra de productos. Por ejemplo, un estudio sobre la
duracin de los bombillos o la resistencia de cualquier material
6.4 CRITERIOS DE ACEPTACION DE UN METODO DE MUESTREO
Si bien es cierto que una muestra es una parte de una poblacin, implicara tener un concepto
equivocado el llamar muestra a cualquier subconjunto simplemente porque se trata de una parte de
una poblacin. Para que una muestra sea aceptable es necesario que sea representativa de la
poblacin, que tenga una confiabilidad susceptible de medicin y que responda a un plan prctico y
eficaz.
Para que la muestra represente apropiadamente a la poblacin, se debe atribuir a cada unidad una
probabilidad conocida de ser elegida, la que debe ser siempre distinta de cero.
La confiabilidad de las estimaciones debe ser susceptible de medir, es decir, que la muestra, adems
de dar las estimaciones de las caractersticas de la poblacin debe proporcionar medidas de la
precisin de tales estimaciones.
La viabilidad de la muestra se refiere a que el plan de muestreo debe ser prctico, es decir, que el plan
debe ser lo suficientemente simple y directo como para poder llevarlo a cabo de la forma proyectada.
La economa y eficiencia se refiere a que entre los distintos mtodos de muestreo que satisfacen los
tres criterios anteriores, se debe elegir aqul, que en la medida de nuestro conocimiento, sea capaz de
producir la mayor cantidad de informacin al menor costo.
Dentro de los muestreos probabilsticos hay varios tipos, aqu se tratar nicamente el muestreo
irrestricto aleatorio o aleatoria simple y el muestreo estratificado.
6.5 MUESTREO IRRESTRICTO ALEATORIA (MIA)

Si de una poblacin de tamao N se selecciona una muestra de tamao n, de tal manera que cada
muestra posible de tamao n tenga la misma probabilidad de ser seleccionada, el tipo de muestreo
utilizado se llama irrestricto aleatorio.
En la prctica, una muestra aleatoria simple es seleccionada unidad por unidad. Las unidades de
muestreo son numeradas de 1 a N, a continuacin se seleccionan n nmeros entre 1 y N, ya sea
utilizando una tabla de nmeros aleatorios o colocando los N nmeros en una urna y las unidades de
muestreo que lleven los nmeros seleccionados constituirn la muestra. La muestra se selecciona sin
repeticin o sin sustitucin, es decir, que cada unidad de muestreo solo puede aparecer una sola vez
en una muestra determinada.
Este tipo de muestreo se utiliza cuando: la poblacin es ms o menos homognea con respecto a las
caractersticas que se desean estudiar; cuando los elementos de la poblacin no se pueden enumerar
fcilmente; cuando las estimaciones que se deben obtener se refieren a todo el conjunto y no a
subgrupos de la poblacin.
Cuando se selecciona una muestra el objetivo es tener estimaciones para los parmetros a travs de
la informacin suministrada por la muestra. A continuacin se vern algunos estimadores como el
promedio aritmtico, el total y la proporcin con sus respectivas desviaciones estndar o errores.
6.5.1 Promedio aritmtico
Las estimaciones que tienen la propiedad de que sus valores esperados sean iguales a los valores
poblacionales se denominan estimaciones insesgadas. En el Muestreo Irrestricto Aleatoria (MIA) la
media muestral es una estimacin insesgada del promedio poblacional y se define como:

Las muestras tienden a dar estimaciones relativamente ms confiables, es decir se aproximan ms al


valor verdadero, a medida que aumenta el tamao de la muestra. La concentracin cada vez mayor de
las estimaciones muestrales alrededor del valor verdadero a medida que aumenta el tamao de la
muestra, es lo que se conoce como la consistencia del estimador.
El error en la estimacin del promedio o error de muestreo o desviacin estndar de la media en el
MIA se define como:

En donde:

s2 recibe el nombre de varianza corregida y es un estimador insesgado de la varianza poblacional.


En general, el error estndar es utilizado principalmente para cuantificar la dispersin del estimador
obtenido.

El intervalo de confianza para la media es:

Si la muestra es grande (n3; 30), Z pertenece a una distribucin normal y si la muestra es pequea (n
< 30), Z pertenece a una distribucin t con n-1 grado de libertad.

EJEMPLO
Se desea estimar el promedio de hectreas destinadas al cultivo de caf; para ello se toma una
muestra irrestricta aleatoria de 15 fincas de un total de 750 en el departamento de Caldas,
obtenindose los siguientes resultados en hectreas sembradas en caf:

FINCA

Has.CAFE

FINCA

Has.CAFE

FINCA

Has.CAFE

12

10

11

15

15

12

12

25

11

13

10

30

24

14

19

22

10

18

15

22

Una vez estimado el promedio obtenga un intervalo de confianza para el promedio.


Solucin .
El promedio se calcula con la frmula 6.1, reemplazando:

La desviacin estndar para el promedio se obtiene con la frmula 6.2, pero para aplicarla se necesita
la varianza corregida que se obtiene con la frmula 6.3:

Los anteriores resultados quieren decir que en el departamento de Caldas el promedio de hectreas
sembradas en caf por finca es de 16,73 con un margen de error de 1,74 hectreas .
El intervalo de confianza para el promedio se obtiene con la frmula 6.4. Teniendo en cuenta que la
muestra es pequea, el valor de Z se halla en una tabla de la distribucin t con 14 grados de libertad,
que para una confiabilidad del 95 por ciento es de 2,145.

Esto quiere decir que con una confiabilidad del 95 por ciento, el promedio de hectreas cultivadas en
caf por finca en el departamento de Caldas, est entre 13 y 20,47.

6.5.2 Estimacin del total


En algunas ocasiones se desea estimar el valor total de una variable, como por ejemplo el total de
hectreas cultivadas de caf en una regin, el peso total de un grupo de estudiantes, etc.
El total estimado de la poblacin es:

El error en la estimacin del total es:

El intervalo de confianza para el total se define como:

Si la muestra es grande (n 30), Z pertenece a una distribucin normal y si la muestra es pequea (n


< 30), Z pertenece a una distribucin t con n-1 grado de libertad.

EJEMPLO
Con la informacin correspondiente al ejemplo 6.1, estime el total de hectreas cultivadas en caf en
el departamento de Caldas, y obtenga su correspondiente intervalo de confianza.

Solucin
Para calcular el total se utiliza la expresin 6.5 y para calcular la desviacin estndar se usa la
expresin 6.6:

El total de hectreas cultivadas en caf en el departamento de Caldas, es de 12.550 con un margen de


error de 1.305 Has.
Para obtener el intervalo de confianza se utiliza la expresin 6.7

Con una confiabilidad del 95 por ciento, se puede afirmar que el total de hectreas cultivadas en caf,
en el departamento de Caldas, est entre 9.751 y 15.349.

6.5.3 Estimacin de la proporcin


Cuando se analiza una caracterstica o atributo, la estimacin de la proporcin de unidades en la
poblacin que poseen dicha caracterstica constituye un indicador muy til.
Cada elemento de la muestra slo puede tomar uno de dos valores: cero o uno. Si el elemento posee
cierta caracterstica en la que se est interesado, se le asigna el valor 1 y si no la posee se le asigna el
valor cero.
La proporcin en la muestra se define como:

Donde: x es el total de elementos en la muestra que tienen una caracterstica determinada.


La proporcin muestral es un estimador insesgado de la proporcin poblacional.
El error en la estimacin de la proporcin o la desviacin estndar de la proporcin se define como:

Donde: q = 1-p

El intervalo de confianza para la proporcin es:

Cuando se trabaja con la proporcin la muestra debe ser grande (n


distribucin normal.

30), entonces Z pertenece a una

EJEMPLO
Se desea conocer la proporcin de desempleados en una ciudad. Se sabe que la fuerza de trabajo es
de 35.250 personas. Se toma una MIA de 830, de las cuales 510 dicen que actualmente estn
laborando. Calcule la proporcin de empleados que tiene la ciudad y obtenga un intervalo de confianza
para la proporcin.
Solucin
La proporcin de empleados se calcula con la expresin 6.8 y la desviacin estndar con la 6.9:

Los anteriores resultados indican que el porcentaje de empleados en esa ciudad es del 61,45 por
ciento con un margen de error del 1,67 por ciento.
El intervalo de confianza se obtiene reemplazando en la expresin 6.10. El valor de Z se halla en una
distribucin normal, que para un nivel de confianza del 95 por ciento es 1,96:

Con una confiabilidad del 95 por ciento el porcentaje de empleados en esa ciudad, est entre el 58,18
y el 64,72 por ciento.

6.5.4 Determinacin del tamao de la muestra


Cuando deseamos estimar el tamao de la muestra se debe tener en cuenta que los objetivos de la
encuesta suelen requerir varias estadsticas y que al considerar cada una de ellas pueden llevar a un
diseo diferente, por lo tanto, para determinar el tamao de la muestra se debe elegir el principal
objetivo y calcular el tamao de muestra necesario para cumplir dicho objetivo. En caso de ser varios
los objetivos principales se determina un tamao de muestra para cumplir cada objetivo y entre todos
ellos, se elige el mayor.

El tamao de la muestra depende bsicamente del tamao de la poblacin, del nivel de confianza o
confiabilidad de las estimaciones, del grado de variacin o dispersin de la variable a estudiar y del
error de estimacin.
El nivel de confianza o confiabilidad lo fija arbitrariamente quien est calculando el tamao de la
muestra, teniendo en cuenta que dicha confiabilidad debe estar entre el noventa y el noventa y nueve
por ciento. A mayor confiabilidad mayor tamao de muestra.
El grado de variacin o dispersin de la variable se mide a travs de la desviacin estndar, la cual
puede ser estimada a partir de una muestra piloto o a partir de la informacin recopilada en una
investigacin similar, realizada anteriormente.
El error de estimacin es la mxima diferencia en valor absoluto, que se est dispuesto a aceptar,
entre el valor del estimador y el valor del parmetro, a ste error de estimacin se le nota como B. El
valor del error de estimacin depende del estimador que se desee obtener y de la magnitud de la
variable. Por ejemplo si se va a estimar la proporcin de desempleados, un error de estimacin lgico
puede ser del 3 por ciento; pero si se va a estimar el peso promedio de un grupo de estudiantes, un
error de estimacin lgico puede ser de 7 kilos. A mayor error de estimacin menor tamao de
muestra.
Dependiendo del tipo de estimador que se desee obtener, se debe utilizar una frmula diferente para
calcular el tamao de la muestra.

6.5.5 Tamao de muestra para estimar el promedio aritmtico


Donde: B = es el error de estimacin
k = percentil que se halla en una tabla de la distribucin normal y depende del nivel de confianza (1)

EJEMPLO
Una empresa tiene 98 operarios y desea determinar el tamao de muestra necesario para estimar el
tiempo promedio que requiere un operario para completar una labor, con un error de estimacin
mximo de medio minuto y una confiabilidad del 95 por ciento.
Se toma una muestra piloto, con la cual se estima una desviacin estndar de 1,2 minutos
Solucin
El error de estimacin es 0,5 minutos (B=0,5). Para una confiabilidad del 95 por ciento, en la tabla de
la distribucin normal el valor de k es 1,96:

Debe seleccionar una muestra aleatoria de 18 obreros.

6.5.6 Tamao de muestra para estimar el total

Donde: B = es el error de estimacin


k = percentil que se halla en una tabla de la distribucin normal y depende del nivel de confianza

EJEMPLO
Si la misma empresa del ejemplo 6.4, desea estimar el tiempo total que necesitan sus obreros para
terminar la labor, con un error mximo de 35 minutos y una confiabilidad del 95 por ciento; por lo
tanto, (B = 35), y para una confiabilidad del 95 por ciento k=1,96. El tamao de muestra requerido
es:

Debe seleccionar una muestra aleatoria de 30 operarios, para estimar el tiempo total con un error
mximo de 35 minutos y una confiabilidad del 95 por ciento.

6.5.7 Tamao de muestra para estimar la proporcin

Donde: q = 1-p

Cuando no se conoce la proporcin (p), se puede suponer un valor para p de 0,5, ya que ste valor,
siempre y cuando permanezcan constantes las dems condiciones, es el que nos proporciona el mayor
tamao de muestra posible.

EJEMPLO
Se desea estimar el porcentaje de empleados en una ciudad que tiene una fuerza de trabajo de
35.250 personas. Por una trabajo realizado anteriormente se sabe que el porcentaje de empleados es
del 75 por ciento. Qu tamao de muestra ser necesario para estimar la proporcin con un error de
estimacin mximo del 8 por ciento.
Solucin
El error de estimacin (B) es 0,08 y asumiendo un nivel de confianza del 95 por ciento, k=1,96. Se
reemplaza en la ecuacin 6.13:

Por lo tanto se debe seleccionar una muestra aleatoria de 112 personas para estimar el porcentaje de
empleados.
6.6 MUESTREO ALEATORIO ESTRATIFICADO
El muestreo estratificado (ME) consiste en clasificar primero los elementos de la poblacin en grupos
que no presenten traslapes o intersecciones, y de estos grupos o estratos seleccionar una muestra
irrestricta aleatoria, tomando al menos un elemento de cada grupo o estrato.
El proceso que se sigue para establecer los grupos se conoce como estratificacin. Al formar los
estratos se debe buscar que los elementos de cada estrato sean lo ms homogneos entre s y que
haya marcadas diferencias entre un estrato y otro. Estos estratos pueden reflejar regiones geogrficas
de un pas, clases sociales dentro de una ciudad, etc.
Cuando se utiliza el muestreo estratificado las probabilidades de seleccin de un grupo al otro pueden
ser iguales o diferentes, aunque se debe conocer la probabilidad de seleccin que corresponde a cada
uno. Las muestras se seleccionan separadamente para cada estrato y las estimaciones se realizan
separadamente para cada estrato y se ponderan para obtener una estimacin combinada para la
poblacin.
El utilizar muestreo estratificado tiene sus ventajas como son: aumento en la exactitud de los
resultados, reduciendo el error de muestreo y permite obtener estimaciones para cada estrato. A
cambio de lo anterior, se necesita ms informacin que en MIA para definir los estratos y el clculo de
los errores es ms complejo que en MIA.
6.6.1 Razones para estratificar
Cuando los elementos de la poblacin son muy heterogneos respecto a las caractersticas a estudiar.
Para reducir las varianzas de las estimaciones, cuando existe mxima homogeneidad en los elementos
de cada estrato y mxima heterogeneidad en los diferentes estratos.

Para controlar o aislar los factores o variables que condicionan directa o indirectamente las diferencias
entre las caractersticas de los elementos de la poblacin, factores que constituyen los criterios bsicos
para estratificar.
Cuando adems de las estimaciones para toda la poblacin se necesitan estimaciones para subgrupos
de esa poblacin.
Para reducir el costo por observacin.
En l ME se requiere la siguiente notacin adicional:
L = nmero de estratos
Ni = nmero de unidades muestrales en el estrato i
N = tamao de la poblacin (N=N1 + N2 + ....... + NL )
Cuando se utiliza el muestreo estratificado, se pueden obtener estimaciones en cada uno de los
estratos, para lo cual se aplican las mismas frmulas del muestreo irrestricto aleatorio. As mismo
stas estimaciones se combinan para obtener estimaciones vlidas para toda la muestra.

6.6.2 Estimacin de la media


El promedio aritmtico en cada estrato se define como:

El promedio aritmtico de toda la muestra se define como:

6.6.2.1 Error en la estimacin de la media:


El error de estimacin o la desviacin estndar para la media en cada estrato se define como:

El error de estimacin para la media de toda la muestra se define como:

Como en el MIA, se pueden obtener intervalos de confianza para cada uno de los estratos y para toda
la muestra, las frmulas bsicamente son las mismas que en MIA.

EJEMPLO
Tomado de1 . En una industria que elabora tapas de plstico existen 400 mquinas que fabrican ese
producto. Las mquinas han sido adquiridas por la empresa segn sus condiciones econmicas a
travs de varios aos y as, existen en ella 240 que son operadas manualmente y por lo tanto de bajo
rendimiento; 100 semiautomticas y 60 completamente automticas, de alto rendimiento. Se desea
estimar el nmero medio de tapas producidas por mquina en la primera semana de junio.
Considerando el modo de operacin de las mquinas se forman tres estratos: manual (1),
semiautomtica (2) y automtica (3). Se seleccion una muestra de 20 mquinas, con asignacin
proporcional, correspondindole doce al estrato uno, cinco al estrato dos y tres al estrato tres. Los
resultados, en nmero de tapas, son los siguientes:

ESTRATO
1

2.600

1.700

2.00

2.400 1.800 1.100 1.700 2.100 2.400 2.300 1.600 1.800

ESTRATO
2

4.000

5.200

6.000

8.300 6.600

ESTRATO
3

17.900 24.000 19.000

Solucin

El promedio en cada uno de los estratos se calcula con la ecuacin 6.14, los cuales son:

Las varianzas corregidas se obtienen con la ecuacin 6.3, stas son:

La desviacin estndar del promedio en cada uno de los estratos se obtiene con la ecuacin 6.16.
Estos son:

Por lo tanto la estimacin de la produccin media semanal de las mquinas manuales es de 1.958
tapas con un margen de error de 120 tapas; la produccin media de las mquinas semiautomticas es
de 6.020 tapas, con un margen de error de 699 tapas y la produccin media de las mquinas
automticas es de 20.300 tapas, con un margen de error de 1.830 tapas.
El promedio para toda la muestra, se obtiene con la ecuacin 6.15

La desviacin estndar de la muestra se obtiene con la ecuacin 6.17

Por lo tanto, la estimacin de la produccin media semanal por mquina es de 5.725 tapas, con un
margen de error de 333 tapas.
________________________________________________________________

ABAD, Adela y SERVIN, Luis A. Introduccin al muestreo. 2a. Ed. Mxico D.F. Limusa 1984. p.119

6.6.3 Estimacin del total


El valor total de una variable, en cada estrato se define como:

El valor total de una variable en toda la muestra se define como:

6.6.3.1 Error en la estimacin del total: El error de estimacin o la desviacin estndar para el
total en cada estrato se define como:

La desviacin estndar para el total en toda la muestra se define como:

EJEMPLO
Con el enunciado del ejemplo 6.7, estime la produccin total semanal, por estrato y en toda la fbrica,
con sus respectivas desviaciones estndar.
Solucin
La estimacin del total en cada estrato se obtiene con la ecuacin 6.18

La desviacin estndar en cada estrato se obtiene con la ecuacin 6.20

La estimacin de la produccin total semanal de las mquinas manuales es de 469.999 tapas, con un
margen de error de 28.716 tapas; la produccin de las mquinas semiautomticas es de 602.000
tapas con un margen de error de 69.906 tapas y la produccin de las mquinas automticas es de
1'218.000 tapas con un margen de error de 109.772 tapas.
La produccin total en toda la fbrica se calcula con la ecuacin 6.19

La desviacin estndar para el total de toda la muestra se obtiene con la ecuacin 6.21

Por lo tanto, la estimacin de la produccin total semanal en la fbrica es de 2'289.999 tapas con un
margen de error de 133.278 tapas.

6.6.4 Estimacin de la proporcin

Donde: xh es el total de elementos en la muestra del estrato h que tienen una caracterstica
determinada
La proporcin en toda la muestra se define como:

6.6.4.1 Error en la estimacin de la proporcin . La desviacin estndar para la proporcin de


cada estrato se define como:

La desviacin estndar o error de estimacin para la proporcin de toda la muestra se define como:

EJEMPLO
Tomado de1. Un ejecutivo de seguros, preocupado porque la alta tasa de inflacin puede dejar a sus
clientes con una cobertura insuficiente en los seguros de incendio de sus viviendas, ha propuesto una
clusula que establece el incremento de la cobertura (y de las primas anuales) de acuerdo con la tasa
de inflacin anual. para conocer la opinin de los clientes sobre la poltica propuesta, el ejecutivo de
seguros decidi seleccionar una muestra aleatoria estratificada de los clientes de su compaa en los
tres municipios de su jurisdiccin. La informacin es la siguiente:

MUNICIPIO

Total de clientes

231

407

187

Clientes encuestados

21

37

17

Clientes que aprueban la nueva poltica

20

Estime la proporcin de clientes que estn de acuerdo con la nueva poltica, con sus respectivos
errores, en cada uno de los municipios y en todos los municipios.
Solucin

Para calcular la proporcin en cada uno de los estratos se utiliza la ecuacin 6.22

La desviacin estndar para la proporcin en cada estrato se obtiene con la ecuacin 6.24

Por lo tanto, en el municipio A el porcentaje de clientes que aprueba la nueva poltica es del 38,1 por
ciento, con un margen de error del 10,35 por ciento; en el municipio B, el 54 por ciento de los clientes
aprueba la nueva poltica, con un margen de error del 7,92 por ciento y en el municipio C el 52,9 por
ciento de los clientes aprueba la nueva poltica, con un margen de error del 11,9 por ciento.
La proporcin en toda la muestra se obtiene con la ecuacin 6.23

La desviacin estndar para la proporcin en toda la muestra se obtiene con la ecuacin 6.25

Segn los anteriores resultados en toda la compaa, el 49,3 por ciento de los clientes est de acuerdo
con la nueva poltica, con un margen de error del 5,6 por ciento.
____________________________________________________________
MENDENHALL, William y REINMUTH, James. Estadstica para administracin y economa. EE.UU.
Wadsworth internacional/ iberoamrica. 1981. p. 555
1

6.6.5 Determinacin del tamao de la muestra


Cuando se utiliza muestreo estratificado se debe seleccionar al menos un elemento de muestreo de
cada estrato. As que primero se determina el tamao de la muestra y despus se determina cuntos
elementos se deben seleccionar de cada estrato. Dependiendo de los criterios que se tengan en cuenta
para distribuir la muestra entre los estratos se tienen diferentes tipos de asignacin o afijacin y ellos
son: proporcional, de Neyman y ptima.
6.6.5.1 Muestreo estratificado con asignacin proporcional

. la muestra se reparte entre los estratos proporcionalmente a los tamaos de stos. Este tipo de
asignacin se utiliza cuando los costos y las varianzas de los estratos no son muy diferentes.
6.6.5.1.1 Tamao de muestra para estimar el promedio aritmtico con asignacin
proporcional .

Donde: B = error de estimacin


k = percentil que se halla en la tabla de la distribucin normal y depende del nivel de confianza
Una vez determinado el tamao de la muestra, para repartirla proporcionalmente al tamao de los
estratos se utiliza la siguiente expresin:

EJEMPLO
Se desea estimar la nota promedio de los estudiantes de administracin de empresas diurna y
nocturna en una universidad. En la carrera diurna (estrato 1) hay 280 estudiantes y en la nocturna
(estrato 2) hay 200 estudiantes. Determine el tamao de muestra necesario para cumplir el objetivo
con un error mximo de 0,15 y una confiabilidad del 95 por ciento.
Por un estudio realizado tiempo atrs se conocen las varianzas de las notas de administracin diurna y
nocturna, las que respectivamente son: 0,31 y 0,28.
Solucin
Considerando que las varianzas son similares, se trabaja con muestreo estratificado con asignacin
proporcional. El error (B) es 0,15 y para una confiabilidad del 95 por ciento el valor correspondiente en
la distribucin normal es 1,96, entonces, k = 1,96:

Para hallar el tamao de muestra se utiliza la ecuacin 6.26

El tamao de la muestra es de 46 estudiantes. Esta muestra se reparte proporcionalmente al tamao


de los estratos, con la ecuacin 6.27

Se deben seleccionar 27 estudiantes de administracin de empresas diurna y 19 de la nocturna.

6.6.5.1.2 Tamao de muestra para estimar el total con asignacin proporcional

Para repartir la muestra entre los estratos, se utiliza la expresin 6.27

EJEMPLO
Se desea hacer un estudio para estimar el consumo total de gasolina en una ciudad, halle el tamao
de muestra necesario para cumplir ste objetivo. Los vehculos se clasificaron en tres grupos o
estratos, particulares (1), pblicos (2) y oficiales (3). En la oficina de circulacin y trnsito se obtuvo
la siguiente informacin sobre los vehculos matriculados en la ciudad; vehculos particulares 7.627,
pblicos 2.392 y oficiales 534.
Solucin
Como no se dispone de estudios similares, se toma una muestra piloto, con la cual se obtienen las
siguientes varianzas sobre el consumo semanal en galones:

Asumiendo un error de estimacin mximo de 15.000 galones , (B = 15.000), y una confiabilidad del
95 por ciento, el valor de k en la distribucin normal es 1,96.
Considerando que las varianzas en los tres estratos son similares, se trabaja con muestreo
estratificado con asignacin proporcional. Para calcular el tamao de la muestra se utiliza la ecuacin
6.28 y para repartir la muestra en los estratos se usa la ecuacin 6.27

Para estimar el consumo total de gasolina con un error mximo de 15.000 galones/semana, se debe
seleccionar una muestra de 255 autos repartida as: 184 autos particulares, 58 pblicos y 13 oficiales.
Recuerde que si se desea, se puede disminuir el error mximo admisible, pero esto conlleva a un
aumento en el tamao de la muestra.

6.6.5.1.3 Tamao de muestra para estimar la proporcin con asignacin proporcional

Una vez determinado el tamao de la muestra, se reparte entre los estratos utilizando la expresin
6.27

EJEMPLO
Tomado de1 . En vista de la recesin econmica existente, una empresa textil pretende reducir el
nmero de dial laborables por semana a cuatro. Otra alternativa consiste en clausurar una de sus tres
plantas y despedir a los trabajadores. Para tener una idea de la opinin de los trabajadores, el gerente
de personal de la empresa desea seleccionar una muestra de empleados de las tres plantas para
estimar la proporcin de trabajadores que prefieren la reduccin de la semana de trabajo, con un error
de estimacin mximo de 0,1.
La empresa emplea 150 personas en la planta 1, 65 en la planta 2 y 40 en la 3. Se estima que cerca
del 75 por ciento de los de la planta tres estn a favor de la reduccin de la semana de trabajo,
mientras que en las otras plantas este porcentaje parece corresponder al 50 por ciento. Encuentre el
tamao de muestra y la asignacin necesaria en cada estrato.
Solucin

Por la diferencia en el tamao de las plantas, se utiliza el muestreo estratificado con asignacin
proporcional.
Asumiendo un nivel de confianza del 95 por ciento, el valor correspondiente en la distribucin normal
es 1,96 (k=1,96).
Para determinar el tamao de la muestra se utiliza la ecuacin 6.29 y se reparte en los estratos con la
ecuacin 6.27

_______________________________________________________________
Ibid. p. 547.

6.6.5.2 Muestreo estratificado con asignacin de Neyman


. Cuando existen marcadas diferencias en la variabilidad de las observaciones dentro de los estratos,
es recomendable utilizar la asignacin de Neyman, ya que adems de tener en cuenta el tamao de
los estratos se tiene en cuenta la dispersin de los datos dentro de cada estrato. De sta manera se
obtendr una muestra ms grande de aquellos estratos que sean ms heterogneos.
6.6.5.2.1 Tamao de muestra para estimar la media con asignacin de Neyman

Para repartir la muestra entre los estratos se utiliza la siguiente expresin:

EJEMPLO

Tomado de 1. Se desea hacer un estudio sobre produccin media de madera aserrada en los E.U.
Todos los aserraderos han sido agrupados en estratos, de acuerdo con la produccin. Hace 5 aos se
hizo un estudio similar en donde se estim la desviacin estndar de la produccin (en miles de pies
de tabla). Por lo tanto, se dispone de la siguiente informacin:

Determine el tamao de muestra necesario para estimar la produccin media de madera con un error
mximo de 25.000 pies de tabla y una confiabilidad del 95 por ciento.
Solucin

El error mximo es de 25.000 pies , pero se debe tener en cuenta que la produccin est dada en
miles, por lo tanto se divide por 1.000, es decir que B = 25.
Considerando la diferencia en el tamao de los estratos y en las desviaciones estndar se trabaja con
muestreo estratificado con la asignacin de Neyman. Para determinar el tamao de la muestra se
utiliza el ecuacin 6.30 y para repartir la muestra en los estratos se usa la ecuacin 6.31.
Se debe tomar una muestra de 1.473 aserraderos, repartidos as: 360 en el estrato uno, 424 en el
estrato dos y 690 en el estrato tres.

Se debe tomar una muestra de 1.473 aserraderos, repartidos as: 360 en el estrato uno, 424 en el
estrato dos y 690 en el estrato tres.

6.6.5.2.2 Tamao de muestra para estimar el total con asignacin de Neyman

La muestra se reparte entre los estratos utilizando la expresin 6.31

EJEMPLO

La fbrica de tapas del ejemplo 6.7, desea determinar el tamao de muestra necesario para estimar la
produccin semanal total, con un error mximo de 90.000 tapas y una confiabilidad del 95 por ciento.
Solucin
Se considera que la informacin suministrada en el ejemplo 6.7 corresponde a una muestra piloto, de
la cual se utilizan las varianzas obtenidas que son:

Teniendo en cuenta la gran diferencia presentada en las varianzas de los tres estratos y la diferencia
en el tamao de dichos estratos, el tipo de muestreo adecuado es el estratificado con asignacin de
Neyman.
La frmula para calcular el tamao de la muestra es la 6.32 y para repartirla en los estratos, se utiliza
la ecuacin 6.31

Por lo tanto, para estimar la produccin total con un error mximo de 90.000 tapas y una confiabilidad
del 95 por ciento, se debe seleccionar una muestra de 69 mquinas, repartidas as: 15 manuales, 24
semiautomticas y 30 automticas.

6.6.5.2.3 Tamao de muestra para estimar la proporcin con asignacin de Neyman

Para repartir la muestra entre los estratos se utiliza la expresin:

________________________________________________________________________
U.S. Bureau of the Census: curso suplementario para un estudio de caso sobre encuestas y censos.
Conferencias sobre muestreo. Washington D.C. 1971. p. 37
1

6.6.5.3 Muestreo estratificado con asignacin ptima

Cuando adems de tener marcadas diferencias en la dispersin o variabilidad dentro de los estratos, el
costo para obtener la informacin de un estrato a otro vara, se recomienda utilizar la asignacin
ptima. Con sta asignacin se tiene en cuenta el tamao de los estratos, la dispersin o variabilidad
dentro de ellos y el costo para recopilar la informacin.
6.6.5.3.1 Tamao de muestra para obtener la media con asignacin ptima

Donde: ch = costo de hacer una observacin individual en el estrato h.


Una vez obtenido el tamao de la muestra, se reparte entre los estratos utilizando la siguiente
expresin

Donde: ch = costo de hacer una observacin individual en el estrato h.


6.6.5.3.2 Tamao de muestra para obtener el total con asignacin ptima

La muestra se reparte entre los distintos estratos, utilizando la expresin 6.36


6.6.5.3.3 Tamao de muestra para estimar la proporcin con asignacin ptima

Donde: ch = costo de hacer una observacin individual en el estrato h.

La muestra se reparte entre los distintos estratos, utilizando la expresin

ANEXO A
METODO DE LOS MINIMOS CUADRADOS
Este mtodo exige que la diferencia entre el valor observado (Y i ) y el valor estimado (Y i ) sea
mnima, es decir, que el error sea mnimo. Ya que:

Los coeficientes de regresin (


y
) son los que hacen que estos errores sean mnimos, por lo
tanto, se deben hallar las expresiones que permitan estimar los coeficientes de regresin minimizando
los errores. Al considerar los n valores de las variables, es necesario que:

Para encontrar un mnimo, se requiere que las dos primeras derivadas sean mayores que cero. Se
deriva S parcialmente respecto a

Derivando respecto a

0:

La ecuacin (1) se iguala a cero y se obtiene:

Derivando respecto a

1:

La ecuacin (3) se iguala a cero y se obtiene:

Las segundas derivadas no dependen de los estimadores


0 y
1 y adems dichas ecuaciones son
siempre positivas, lo que garantiza que los valores encontrados al resolver las ecuaciones (2) y (4),
denominadas ecuaciones normales cumplen con lo exigido por el mtodo de los mnimos cuadrados.
Dividiendo la ecuacin (2) por n se obtiene:

Dividiendo la ecuacin (4) por n se obtiene:

Reemplazando

0 por su equivalente:

Factorizando

1:

Las ecuaciones (5) y (6) permiten estimar los coeficientes de regresin de la ecuacin:

Adems de que

residuos;

1son estimadores insesgados de

0y

estimados con las ecuaciones (5) y (6), minimizan la suma de cuadrados de los
y

. Es decir que:

ANEXO B
DESCOMPOSICION DE LA SUMA DE CUADRADOS TOTAL (SCT)
A continuacin se demuestra que la SCT = SCE + SCR
A partir de la figura 4.2 que aparece en el documento se lleg a la siguiente expresin:

Teniendo en cuenta que:

Se desarrolla el binomio:

Teniendo en cuenta el cuarto supuesto del modelo de regresin, se tiene que


supuesto, se tiene que

y con el primer

. Por lo tanto:

ANEXO C
METODO DE LOS MINIMOS CUADRADOS PARA LA REGRESION MULTIPLE
Si se tiene el modelo de regresin para K variables independientes:

Que se puede escribir matricialmente como:

En donde

es el vector de los coeficientes de regresin a estimar.

En este caso, como en la regresin simple, el mtodo de los mnimos cuadrados plantea que la suma
de los residuos al cuadrado sea mnima, es decir:

De la ecuacin (2):

Teniendo en cuenta que:

Igualando la primera derivada a cero se obtiene:

Premultiplicando a ambos lados de la ecuacin (4) por la inversa de X'X se obtiene:

Debido a que una matriz multiplicada por su inversa, es igual a la matriz identidad, se obtiene que la
expresin (5) es:

Teniendo en cuenta que:

La traspuesta de X es:

Haciendo el producto de X'X y de X'Y se obtiene:

BIBLIOGRAFIA

Damodar Guaraji. ECONOMETRIA, tercera edicin. Ed. Mc Graww - Hill.


ABAD, Adela y SERVIN, Luis A. Introduccin al muestreo, segunda edicin. Mxico D.F: Ed. Limusa,
1984. 216 p.
BERENSON, Mark L. y LEVINE , David M. Estadstica bsica en administracin, conceptos y
aplicaciones. Mxico: Prentice-Hall Hispanoamericana S.A. 1992. 946 p.
CANAVOS, George C. Probabilidad y estadstica, aplicaciones y mtodos. Mxico D.F: Ed. Mc. Graw
Hill, 1986. 651 p.
GUJARATI, Damodar N. Econometra, segunda edicin. Bogot: Ed. Mc. Graw Hill, 1990. 597 p.
HARNETT, Donald L. y MURPHY, James L. Introduccin al anlisis estadstico. Mxico D.F.: AdisonWesley Iberoamericana, 1987. 712 p.
LARSON, Harold J. Introduccin a la teora de probabilidades e inferencia estadstica. Mxico D.F:
Limusa, 1978. 466 p
MENDENHALL, William y REINMUTH, James E. Estadstica para administracin y economa. California:
Ed. Wadsworth Internacional/Iberoamrica, 1982. 707 p.

SCHEAFFER, Richard L.; MENDENHALL, William y OTT, Lyman. Elementos de muestreo. Mxico D.F:
Grupo editorial iberoamrica, 1986. 321 p.
STEVENSON, William J. Estadstica para administracin y economa, conceptos y aplicaciones. Mxico
D.F.: Harla, 1981. 585 p.
U.S. Bureau of the census. Curso complementario para un estudio de caso sobre encuestas y censos.
Conferencias de muestreo. Washington D.C. 1971. 84 p.

También podría gustarte