Está en la página 1de 136

MANUAL DE

ESTADÍSTICA APLICADA

Jorge Córdova Egocheaga


Manual de
Estadística Aplicada
© Jorge Córdova Egocheaga

1ra Edición: Marzo del 2003

SOBRE EL AUTOR

Estudios Doctorales en Ciencias Administrativas (UNFV), Maître


en Administration des Affaires (MBA-UQAM, Canadá), Magíster
en Administración (ESAN), Magíster Scientiae (MSc) en
Economía (UNA), Especialista en Formulación y Evaluación de
Proyectos de Inversión (UNMSM), Profesor de Estadística en la
Maestría en Administración de la Universidad de San Martín de
Porres, Docente de Estadística y de Informática Aplicada en el
área de Salud en la Escuela Universitaria de Post Grado de la
Universidad Nacional Federico Villarreal, Profesor Principal y Jefe
de la División de Evaluación y Estadísticas de la Escuela de
Sanidad Naval de la Marina de Guerra del Perú, Profesor de
Estadística y Métodos Cuantitativos para los Negocios en el MBA
de la Universidad San Ignacio de Loyola, Consultor y Expositor
Independiente. Director Ejecutivo del Centro de Capacitación y
Asesoría de Negocios, CECAN.

Los derechos intelectuales de esta obra son de propiedad exclusiva de


Jorge Córdova Egocheaga.

Toda reproducción total o parcial del contenido de esta obra requerirá la


autorización del propietario de los derechos intelectuales.
CAPÍTULO 1
ESTIMACIÓN DE
PARÁMETROS

OBJETIVOS
Al finalizar el Capítulo 1, el participante será capaz de:
1. Diferenciar estimación puntual y estimación de
intervalos.
2. Discutir los criterios para la selección de un buen
estimador.
3. Realizar estimaciones puntuales.
4. Construir e interpretar intervalos de confianza para
m, p y s2.
5. Ajustar el intervalos en poblaciones finitas.
6. Determinar el tamaño de una muestra.
Manual de Estadística Aplicada

1.1 INTRODUCCIÓN

La estadística se divide en DESCRIPTIVA e INFERENCIAL

DESCRIPTIVA
ESTADISTICA Estimación
INFERENCIAL
Prueba de
Hipótesis

1.1.1 Tipos de estimaciones

A) Estimación puntual

Un sólo número se utiliza para estimar un


parámetro desconocido. Para ser útil debe de estar
acompañado del error.

Ejemplo:

Para el próximo mes se espera que las ventas sean


700 unidades con un error de ±10%.

B)Estimación por intervalo

Un intervalo de valores se utiliza para estimar un


parámetro desconocido. El error se indica de dos
manera: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de
la población que se encuentra dentro del intervalo.

Ejemplo:

Para el próximo mes se espera que el número de


consultas en el Servicio de Reumatología sean
entre 670 y 730 pacientes, con un error ±5%.

4
Jorge Córdova Egocheaga

1.1.2 CRITERIOS PARA SELECCIONAR UN ESTIMADOR:


CESI.

Coherencia: si al aumentar n, el estimador se


aproxima al parámetro.

Eficiencia: proporciona menor error estándar que


otros estimadores.

Suficiente: utiliza mayor cantidad de la


información contenida en la muestra que otro
estimador.

Insesgado (o imparcial): si el estimador tiende a


tomar valores por encima y por debajo del
parámetro que estima, con la misma frecuencia.

1.2 LAS ESTIMACIONES PUNTUALES

(A) De la media poblacional

La media muestral estima a la media poblacional µ

(B) De la varianza y la desviación estándar

S2 estima ____ σ2 S estima ____ σ

(C) De la proporción poblacional

p estima ____ π

1.3 LOS INTERVALOS DE CONFIANZA

Conceptos

5
Manual de Estadística Aplicada

Nivel de confianza: probabilidad que asociamos con


una estimación del intervalo. Se representa con (1 - α).
Los niveles más utilizados son 0,90 0,95 y 0,99.

Intervalos de confianza: es el alcance de la estimación


que estamos haciendo.

1.4 INTERVALO PARA LA MEDIA

1.4.1 A partir de muestras grandes


x -µ
pero Z =
σ
n
-Z0 Z0
Pr {− Z 0 ≤ Z ≤ Z 0 } = 1 − α
 x−µ 
Pr − Z 0 ≤ ≤ Z0  = 1−α
 σx 
 σ σ 
Pr  x − Z0 ≤ µ ≤ x + Z0  = 1−α
 n n 

Ejemplo:

En un estudio de mercado, se realizó una encuesta a


400 familias calculando un gasto medio anual en
zapatos de S/. 740 por familia. La desviación estándar
fue S/. 400. Construya e interprete un intervalo de
confianza al 0,95 de la estimación del gasto medio anual
de zapatos por familia en esa ciudad.
 σ σ 
Pr x − Z0 ≤ µ ≤ x + Z0  = 1 −α
 n n 

 400 400 
Pr740 − (1.96) ≤ µ ≤ 740 + (1.96) = 0.95
 400 400 

Pr{700.80 ≤ µ ≤ 779.20} = 0.95

6
Jorge Córdova Egocheaga

Interpretación:

Hay 0,95 de confianza que el intervalo hallado se


encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional (µ).

µ Ls

LI

muestra
1 2 3 4 5 6 7 8

1.4.2 A partir de muestras pequeñas

Pero, x-µ
t =
S
-t0 t0 n
Pr{− t0 ≤ t ≤ t0 } = 1 − α
 
 x−µ 
Pr − t 0 ≤ ≤ t0  = 1 − α
 S 
 n 
 s s 
Pr  x − t 0 ≤ µ ≤ x + t0  = 1−α
 n n

Ejemplo

Se desea estimar el tiempo medio de estancia


hospitalaria para cierto tipo de pacientes. Se
selecciona una muestra aleatoria de 25 HC y se
calculó x = 5,7 y S = 4,5 días. Estimar m con
0,95 de confianza.

7
Manual de Estadística Aplicada

 S S 
Pr x − t n−1 ≤ µ ≤ x + t n−1  = 1− α
 n n
 4,8 4,8 
Pr 5,7 − 2,064 ≤ µ ≤ 5,7 + 2,064  = 1 − 0,1
 25 25 
Pr {3,72 ≤ µ ≤ 7,68 } = 0,90

Interpretación:

Hay 0,90 de confianza que el intervalo construido se


encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional (µ) de la estancia
hospitalaria.

Ejemplo 2
n=9
x = 41,27

S = 16,23
α = 0,05
 S S
Pr x − t n−1 ≤ µ ≤ x + tn−1  = 1− α
 n n

 16,23 16,23 
Pr 41,27 − 2,306 ≤ µ ≤ 41,27 − 2,306  = 0,95
 9 9 

Pr {28 ,80 ≤ µ ≤ 53 ,74 } = 0,95

Interpretación:

Hay 0,95 de confianza que el intervalo construido se


encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional (µ).

Ejemplo:

Nueve automóviles del mismo modelo fueron


conducidos de idéntica manera usando un litro de
gasolina corriente. La distancia media recorrida por
estos automóviles fue de 8 Kms. con una desviación

8
Jorge Córdova Egocheaga

estándar de 1,14 Kms. Construya e interprete un


intervalo de confianza al 0,95 para estimar el kilometraje
medio por litro de gasolina para este modelo de
automóvil.

Solución:
GL= n - 1 = 8 t = 2,306

 1.14 
Pr8 − 2.306( ) ≤ µ ≤ 8 + 2.306(1.14) = 0,95
 9 9 

Pr {7,12372
. ≤ µ ≤ 8,.87628}= 0,
. 95

Interpretación:

Hay 0,95 de confianza que el intervalo hallado se


encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional.

1.5 INTERVALO PARA LA PROPORCIÓN

Pero
p −π
Z =
σ
-Z0 Z0 p

donde
Pr{−Zo ≤ Z ≤ Z} =1−α
p (1 − p )
σ =
p −π p
n
Pr{−Zo ≤ ≤ Z} =1−α
σ` p
Pr{p − Zσ p ≤ π ≤ p + Zoσ p} =1−α
Ejemplo:

Suponga que 1600 de 2000 trabajadores sindicalizados que


se muestrearon de una gran industria dijeron que planean

9
Manual de Estadística Aplicada

votar por unirse a una federación. Si se utiliza un nivel de


confianza de 0,95 ¿cuál es la estimación de intervalo para la
proporción de la población?. Interprete.

1600 (0,80)(1− 0,80)


p= = 0.80 σp =
2000 2000
Z = 1,96 σ p = 0,00894
Pr{0,80-1,96(0,00894) < π< 0,80 +1,96(0,00894) }= 0,95

Pr{0,782 < π < 0,818} = 0,95

Interpretación:

Hay 0,95 de confianza que el intervalo calculado pertenece


al grupo de intervalos que contienen a la verdadera
proporción poblacional.

1.6 AJUSTE PARA POBLACIONES FINITAS

El error estándar de la estimación sufre un ajuste, cuando se


trata de una población finita.

Error estándar de la media


σ N −n
σX = .
n N −1

Error estándar de la proporción


p (1 − p ) N − n
σp = .
n N −1
Si la proporción n/N es menor a 0,05 se omite el ajuste.

Ejemplo 1
Hay 250 familias en un pequeño poblado. Una encuesta con
40 familias reveló que la contribución media anual a obras
comunitarias es de US $450, con una desviación estándar
de US $ 75. Establezca un intervalo de confianza de 0,95
para la contribución media anual. Interprételo.

10
Jorge Córdova Egocheaga

Solución:

Como la muestra es mayor a 5%, procede el ajuste.

σ  N − n  σ  N − n 
Pr{x − Z   ≤ µ ≤ x+Z }= 1 − α

n N 1 n  N −1 
 75  250 − 40   75  250 − 40 
Pr{450 −1,96   ≤ µ ≤ 450 + 1,96  }= 0,95
 40  250 −1   40  250 −1 
Pr{450 − 23,24( 0,8433) ≤ µ ≤ 450 + 23,24( 0,8433)} = 0,95
Pr{428,66 ≤ µ ≤ 471,34} = 0,95

Interpretación:

Hay 0,95 de confianza que el intervalo elaborado pertenezca


al grupo de intervalos que contienen a la verdadera media
poblacional.

Ejemplo 2

Hay 300 técnicos en una gran empresa metal mecánica. Una


muestra de 50 reveló que 18 cuentan con una experiencia
previa en otra empresa similar. Establezca un intervalo de
confianza al 0,95 para la proporción de técnicos con
experiencia en otra empresa.

Solución:
(036)(1 − 0,36)
p=
18
= 0,36 σp =
50 50
σ p = 0,06788
 N − n)   
Pr{p − Zoσ p   ≤ π ≤ p + Z oσ p  N − n) } = 1 − α
N − 1   N −1 
   
 300 − 50   
Pr{0,36 − (1,96)(0,06788)  ≤ π ≤ 0,36(1,96)(0,06788) 300 − 50 } = 0,95
  
 300 −1   300 −1 
Pr{0,36 − 0,12165≤ π ≤ 0,36 + 0,12165} = 0,95
Pr{0,23835≤ π ≤ 0,48165} = 0,95

11
Manual de Estadística Aplicada

Interpretación:

Hay 0,95 de confianza que el intervalo construido pertenezca


al grupo de intervalos que contienen a la verdadera
proporción poblacional.

1.7 EL TAMAÑO DE LA MUESTRA Y EL ICA.

A) ¿De qué depende el tamaño de la muestra (n)?

Depende de:
1. La magnitud del máximo error permisible (e) y,
2. El nivel de confianza de que el error en la estimación
no exceda del máximo error permisible (1- α )

C) Derivación de la formula
σ σ
Pr{ x − Z o ≤ µ ≤ x+Z } = 1−α
n n
Error = e
Entonces Zσ
e=
n
Elevando al cuadrado
Z 2 .σ 2
e2 =
n

Z 2 .σ 2
n=
e2
Ejemplo 1

A fin de conocer el gasto mensual en medicinas por familia,


el Gerente de Marketing de un laboratorio farmacéutico
desea determinar el tamaño de la muestra que le
proporcione un nivel de confianza de 0,95 (Z = 1,96).
Además conoce por estudios anteriores que las compras
medias por familia eran de S/. 120 mensuales, con una
desviación estándar de 30. El Gerente busca un tamaño de
muestra que le permita estimar el nivel de gasto con un error
de ±10.

12
Jorge Córdova Egocheaga

Solución

Datos: Z 2
σ 2

1 - α = 0,95 n =
Z = 1,96 e 2

σ = 30
e = 10
(1 , 96 ) 2 ( 3 0 ) 2
n =
(1 0 ) 2

n = 35

Para proporciones se calcula a partir de la formula


donde
2 Z : Valor tabular para un
Z p(1-p) nivel de confianza
n= 2
e p(1-p): Variancia

Ejemplo 2

Un congresista desea determinar su popularidad en zona


norte del país. Especifica que la proporción de electores que
lo apoyarán debe calcularse dentro del ± 2% de la
proporción de la población, además, desea tener un grado
de confianza de 0,95. En las elecciones pasadas recibió 40%
de los votos en esa parte del país. Duda que esto haya
sufrido muchos cambios. ¿De cuántos electores debe ser la
muestra?.

13
Manual de Estadística Aplicada

Solución

Datos:
1 - α = 0,95 (1,96 ) 2 ( 0, 40 )( 0,60 )
n=
Z = 1,96 ( 0 ,02 ) 2
p = 0,40 0 ,921984
e = 0,02 n=
( 0 ,02 ) 2
n = 2305

1.8 INTERVALO PARA LA VARIANZA

(n - 1)S 2
Pero , χ (2n −1)
σ 2

χ 12-α 2 χ α2 2

 
P r  χ 1-2 α ≤ χ 2 ≤ χ α2  = 1 − α
 2 2 

Entonces:
 ( n − 1) S 2 
Pr  χ 12-α 2 ≤ ≤ χ α2 2  = 1 − α
 σ 2

 1 σ2 1 
Pr  2 ≥ ≥ 2  = 1−α
 χ 1 -α ( n − 1) S χα
2
2 2 
 ( n − 1) S 2 ( n − 1) S 2 
Pr  ≤σ 2
≤  = 1−α
 χ α 2 χ 12-α 2 
2

14
Jorge Córdova Egocheaga

Ejemplo:

El número de ventas realizadas durante 10 días (n = 10)


presenta una varianza de 9 (s2 = 9). Establezca un intervalo
de confianza para la varianza poblacional (σ2) al
0,90.Interprételo.

Solución:

Datos:  9(9) 9(9) 


Pr ≤σ2 ≤  = 0.90
S2= 9 16,919 3,325
n = 10
α = 0,10  81 81 
Pr ≤σ2 ≤  = 0.90
16,919 3,325

Pr{4.7875 ≤ σ 2 ≤ 24,3609} = 0.90

Interpretación:

Hay 0,90 de confianza que el intervalo hallado se encuentre


dentro del grupo de intervalos que contienen a la verdadera
varianza poblacional.

15
Manual de Estadística Aplicada

16
CAPÍTULO 2
HIPÓTESIS
CON UNA SOLA
MUESTRA

OBJETIVOS
Al finalizar el Capítulo 2, el participante será capaz de:
1. Utilizar datos provenientes de una muestra aleatoria
para conocer el parámetro poblacional.
2. Comprender los dos tipos de errores posibles que
se producen al probar una hipótesis.
3. Plantear pruebas de una cola y pruebas de dos
colas.
4. Realizar el procedimiento para probar hipótesis.
5. Usar con propiedad las distribuciones t ,Z y c2 para
probar hipótesis sobre medias, proporciones y
varianzas de población.
Manual de Estadística Aplicada

2.1 CONCEPTOS BÁSICOS

(A) Hipótesis: Suposición acerca del parámetro.

Hipótesis planteada o nula. ⇒ Hp ó H0


Es la suposición que el parámetro tome un
determinado valor.

Ejemplo: La hipótesis nula es que la media de la


población es igual a 200.
Ho : µ = 200

Hipótesis alternativa ⇒ (Ha o H1)


Es el complemento de la hipótesis nula. Se acepta
cuando se rechaza la hipótesis nula.
Formas

Si Ho : m = 200 Ha : m ¹200
Si Ho : m £ 200 Ha : m > 200
Si Ho : m ³ 200 Ha : m < 200

La condición “igual” siempre se considera en la


hipótesis nula

Las siguientes afirmaciones son hipótesis


estadísticas.

La media de vida de los peruanos es de 72 años.


La eficacia de dos medicamentos para curar el
cáncer es similar.
Las notas de la el aula sigue un modelo normal
de media de 12 y desviación estándar de 2.5

Una prueba de hipótesis permite aceptar o


rechazar si determinadas afirmaciones son ciertas o
falsas en función de los datos observados en una
muestra.

18
Jorge Córdova Egocheaga

(B) Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar


el valor calculado del estadístico (muestral), sino hacer
un juicio con respecto a la diferencia entre estadístico
de muestra y un valor planteado del parámetro.

(C) Nivel de significación (a)

α/2 (1 - α) α/2
Zona de
Aceptación
-Z0 Z0

Si suponemos que la hipótesis planteada es verdadera,


entonces, el nivel de significación indicará la
probabilidad de no aceptarla, es decir, estén fuera de
área de aceptación.

El nivel de confianza (1-a), indica la probabilidad de


aceptar la hipótesis planteada, cuando es verdadera en
la población.

(D) Tipos de errores

Cualquiera sea la decisión tomada a partir de una


prueba de hipótesis, ya sea de aceptación de la Hp o
de la Ha, puede incurrirse en error:

La muestra seleccionada conduce a


EN LA POBLACIÓN ACEPTAR Hp RECHAZAR Hp

Hp es cierta Decisión correcta Error tipo I ó α

Hp es falsa Error tipo II ó β Decisión correcta

19
Manual de Estadística Aplicada

(1 - α) Zona de rechazo
si Hp es cierta α

µo
Hp µ ≤ µo
Poder de la prueba
Ha µ > µo
(1 - β)

β
Zona de aceptación Hp
µ1
Zona de Rechazo Hp

Si la hipótesis planteada, Hp : m £ m0 , es cierta, la zona


de rechazo, a, medirá la probabilidad de que se rechace
dicha hipótesis siendo cierta, incurriendo en Error Tipo I
o a.

Supongamos que la hipótesis planteada es falsa, Hp: m


£ m0 , y que la alternante Ha: m > m 0 es verdadera, y si
los resultados de la muestra nos conducen a aceptar la
hipótesis planteada, estamos cometiendo el Error Tipo II
ób

La magnitud del Error β depende de la magnitud del


Error a y de la discrepancia entre µ 0 Y µ 1

Se observa la existencia de una relación inversa entre la


magnitud de los errores α y β : conforme a aumenta, β
disminuye.

Esto obliga a establecer con cuidado el valor de a para


las pruebas estadísticas. Lo ideal sería establecer α y β.

En la práctica se establece el nivel a y para disminuir el


Error β se incrementa el número de observaciones en la

20
Jorge Córdova Egocheaga

muestra, pues así se acortan los limites de confianza


respecto a la hipótesis planteada.

La meta de las pruebas estadísticas es rechazar la


hipótesis planteada. En otras palabras, es deseable
aumentar a cuando ésta es verdadera, o sea,
incrementar lo que se llama poder de la prueba (1- β)

La aceptación de la hipótesis planteada debe


interpretarse como que la información aleatoria de la
muestra disponible no permite detectar la falsedad de
esta hipótesis.

(E) Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis


planteada se formula con la igualdad

Ejemplo
α/2 (1 - α) α/2
Hp : µ = 200 Zona de
Aceptación
Ha : µ ≠ 200 -Z0 Z0

b) Pruebas unilateral o de un extremo: la hipótesis


planteada se formula con ³ o ≤ .
Hp : µ ≥ 200 Hp : µ ≤ 200
Ha : µ < 200 Ha : µ > 200

α
α (1 - α) (1 - α)

21
Manual de Estadística Aplicada

2.2 PRUEBA DE HIPÓTESIS ACERCA DE LA MEDIA


POBLACIONAL

(A) Con varianzas conocidas (muestras grandes)

Ejemplo:

Se afirma que el salario diario medio de los técnicos de una


cierta zona minera es de S/.65,42, con una desviación
estándar S/. 2,32. Una muestra de 144 técnicos que laboran
en esa zona reciben un salario diario medio de 64,82 soles.
¿Puede considerarse este resultado como sustento para
afirmar que técnicos de esa zona tienen un salario diario
diferente de S/. 65,42 a un nivel de significación a = 0,05 ?.

Procedimiento

1) Plantear las hipótesis:


Hp : m = 65,42
Ha : m ¹ 65,42
2) Seleccionar el nivel de significación: a = 0.05
3) Elegir la prueba estadística:
x-µ
Ζc =
σx

Los supuestos son:


• la población está normalmente distribuida.
• la muestra ha sido seleccionada al azar.

4) Determinación de los criterios de decisión

α/2 α/2
(1 - α)

-Z0 Z0
-1.96 1,96

22
Jorge Córdova Egocheaga

Si { -1.96 ≤ Zc £ 1.96 } se acepta la Ho, en caso


contrario se rechaza.

5) Cálculos:

64 ,82 − 65 , 42
Ζc = = − 3,10
2 ,32
144

6) Conclusiones
(1) Se rechaza la hipótesis planteada y se acepta la
hipótesis alternante a un nivel de significación de 0,05.
La prueba resultó ser significativa.
(2) La evidencia estadística permite rechazar la
hipótesis planteada.
(3) Por lo tanto los datos muestrales confirman que
el promedio de salarios diarios de los técnicos de la
zona de estudio es menor de S/.65,42.

EJEMPLO

El administrador de un centro de salud desea saber si el


tiempo medio invertido por los pacientes en la sala de espera
es mayor que 20 minutos. Una muestra de 100 pacientes
permanecieron, en promedio, 23 minutos en la sala de
espera entre el registro y la atención por algún médico del
centro de salud. La desviación estándar de la muestra fue de
10. Sea α=0.05

1. Plantear las hipótesis


Ho : µ ≤ 20
Ha : µ > 20
2. Definir la prueba estadística: Como n = 100, entonces e
aplica PRUEBA Z
3. Seleccionar el nivel de significación α = 0,05
4. Determinar el valor crítico: Como α = 0,05 y es de una
sola cola, entonces Z = 1.645

23
Manual de Estadística Aplicada

Criterios de decisión
Si prueba Z es mayor que
1,645, se rechaza Ho.
Si prueba Z es menor o
0
1,645
igual que 1,645, se acepta
Ho.
5. Realizar el cálculo del estadístico Z
x − µ 23− 20 3
Z= = = =3
sx 10 1
100

6. Conclusiones
7.
(A) Se rechaza la hipótesis planteada, se acepta la
hipótesis alternante a un nivel de significación de
0,05. La prueba resultó significativa
(B) Los datos disponibles como evidencia empírica,
han permitido rechazar la hipótesis planteada.
(C) El tiempo que espera un paciente muy
probablemente sea mayor a los 20 minutos.

EJEMPLO

Una encuesta en 64 laboratorios médicos reveló que el


precio medio cobrado por realizar cierta prueba es de S/.
12.00 con una desviación estándar de S/. 6.00. ¿ Proveen
estos datos la suficiente información para indicar que la
media de la población es mayor que 10?.
Sea α = 0.01

EJEMPLO

Los siguientes datos son los consumos de oxígeno (en ml)


durante la incubación de una muestra aleatoria de 15
suspensiones celulares: 14.0, 14.1, 14.5, 13.2, 11.2, 14.0,
14.1, 12.2, 11.1, 13.7, 13.2, 16.0, 12.8, 14.4, 12.9.

24
Jorge Córdova Egocheaga

¿Proporcionan estos datos suficiente evidencia, aun nivel de


0.05 de significación , de que la media de la población no es
igual a 12 ml.?.

EJEMPLO

El administrador de una clínica quiere saber si la población


que concurre a una clínica A tiene un ingreso medio familiar
mayor al de la población que concurre a una clínica B. Los
datos consisten en los ingresos familiares de 75 pacientes
internados en la clínica A y 80 pacientes internados en la
clínica B. Las medias de las muestra son S/ 6800 y S/ 5450
respectivamente, y varianzas de S/ 600 y S/ 500
respectivamente.

EJEMPLO

Un epidemiólogo desea comparar dos vacunas antirrábicas


para averiguar si es posible concluir que existe diferencia en
su efectividad. Las personas que previamente habían sido
vacunada contra la rabia se dividieron en dos grupos. El
grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1,
y el grupo 2 recibió una dosis de refuerzo de la vacuna del
tipo 2. Las respuestas de los anticuerpos se registraron dos
semanas después:
Grupo n s
x
1 10 4.5 2.5

2 9 2.5 2.0

EJEMPLO

Doce individuos participaron en un experimento para


estudiar la efectividad de cierta dieta, combinada con un
programa de ejercicios, para la reducción de los niveles de
colesterol en suero. ¿ proporcionan estos datos la evidencia
suficiente para concluir que el programa de ejercicios y dieta

25
Manual de Estadística Aplicada

es efectivo para la reducción de los niveles de colesterol en


el suero?.

Antes: 201, 231, 221, 260, 228, 237, 326, 235, 240, 267,
284, 201
Después: 200, 236, 216, 233, 224, 216, 296, 195, 207, 247,
210, 209

EJEMPLO

Antes del inicio de un programa de inmunización contra la


rubéola en un área metropolitana, una encuesta reveló que
150 integrantes de una muestra de 500 niños de primaria
habían sido inmunizados contra esta enfermedad. ¿son
compatibles estos datos con el punto de vista de que el 50%
de los niños de primaria de dicha área habían sido
vacunados contra la rubéola?.

(B) Con varianzas desconocidas (muestras chicas)

Ejemplo:

En un programa de mejoramiento del desempeño en un


centro de salud los participantes miden su progreso
mediante el tiempo que les toma realizar cierto proceso.
Se tomó una muestra de 25 sujetos de esta empresa para
medirles el tiempo que requieren para culminar el proceso
(en minutos) de otorgar una cita a un paciente,
encontrándose una media muestral de 11,7 minutos y una
desviación de estándar de 2,3 minutos.

¿Se puede afirmar que el tiempo medio para culminar este


proceso es inferior de 12 minutos?. Utilice un nivel de
significación a = 0,05.

Solución

1) Hipótesis: Hp : µ ≥ 12

26
Jorge Córdova Egocheaga

Ha : µ < 12
2) Nivel de significación: α = 0,05
3) Prueba estadística:
x -µ
tc =
S
n
Los supuestos son:
•la población se distribuye normalmente.
•la muestra elegida al azar.
4) Criterios de decisión

α (1 - α)

-t0
-1.711
to con GL = 24 y α = 0,05
Si { tc>-1,711} se acepta la Hp en caso contrario se
rechaza

5) Cálculos:
− 12
t c = 112,,70
3
= − 0 , 6522
25

6) Conclusiones

Se acepta la hipótesis planteada a un nivel de


significación de a = 0,05. La prueba resultó no
significativa.

Los datos muestrales no permiten afirmar que el tiempo


requerido para culminar la tarea es inferior a 12 minutos.

27
Manual de Estadística Aplicada

Ejemplo

Se hizo un estudio de una muestra de 25 registros de


pacientes de un hospital de enfermedades crónicas tomando
como base pacientes externos. El número medio de visitas
por paciente fue 4,8 y la desviación estándar muestral fue de
2. ¿Puede concluirse a partir de estos datos que la media de
la población es mayor que cuatro visitas por paciente?.
Suponga que la probabilidad de cometer error del tipo I es de
0,05.

2.3 PRUEBA DE HIPÓTESIS ACERCA DE LA PROPORCIÓN


POBLACIONAL (p)

Ejemplo:

El Gerente de la Clínica Santa María afirma que por lo


menos 55% de los pacientes se encuentra plenamente
satisfecho con los servicios recibidos. ¿Qué conclusión
puede obtenerse si de una muestra aleatoria de 500
pacientes 245 manifestaron su preferencia?. Utilice un nivel
de significación a = 0,01 para comprobar la afirmación.

Proporción muestral
245
: p = = 0 , 49
500
1) Planteo de Hipótesis:
Hp : π ≥ 0,55
Ha : π < 0,55
2) Nivel de significación: α = 0,01
3) Prueba estadística:
p -π
Ζc =
σp
Los supuestos son:

• La población se distribuye normalmente.

28
Jorge Córdova Egocheaga

• La muestra ha sido seleccionada al azar

4) Criterios de decisión

α
(1 - α)
Z π
-2,33
Si { Zc>-2,33} se acepta la hipótesis planteada, en caso
contrario se rechaza.

5) Cálculos
π (1 − π )
σp =
n

(0,55)(0,45)
σp = = 0,022
500
Reemplazando valores en Z:

0,49− 0,55 −0,06


Z= = = −2,73
0,022 0,022

6) Conclusiones

1) Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación a =
0,01. La prueba resultó ser altamente significativa.
2) La evidencia empírica nos permite rechazar la
hipótesis planteada.
3) El Gerente de Clínica está equivocado en su
afirmación, puesto que el resultado de la prueba
indica que los pacientes que se encuentran
plenamente satisfechos es menor a 55%.

29
Manual de Estadística Aplicada

2.4 PRUEBA DE HIPÓTESIS ACERCA DE LA VARIANZA

Ejemplo:

El Gerente de Producción una fábrica productora de material


quirúrgico, entre ellos agujas N° 21, desea que la variabilidad
de éstas sea a lo más 0,0005 pulgadas cuadradas y para el
efecto, decide tomar una muestra de su producción
escogiéndola al azar obteniendo los resultados:

1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20;


1,14; 1,12; 1,19; 1,10; 1,14; 1,13.

La probabilidad de cometer error tipo I escogido por el


fabricante es 0,01.

1) Planteo de Hipótesis:
Hp : s2 £ 0,0005
Ha : s2 > 0,0005
2) Nivel de significación: α = 0,01
3) Prueba estadística: (n – 1) S2
σ2
Los supuestos son:
• La población se distribuye normalmente.
• La muestra ha sido seleccionada al azar.

4) Criterios de decisión

α/2=0,01
(1 - α)
0,99

χα2
2
26,217

30
Jorge Córdova Egocheaga

Si {x2 26,217 } se rechaza la hipótesis planteada, en


caso contrario se acepta

5) Cálculos
Datos:
n = 13
S2= 0,0011634

6) Conclusiones
1) Se rechaza la hipótesis planteada y se acepta la
hipótesis alternante a un nivel de significación α =
0,01. La prueba resultó ser altamente significativa.
2) La evidencia empírica nos permite rechazar la
hipótesis planteada.
3) La variabilidad de la longitud de las agujas N° 21
excede a los límites establecidos. El producto no
tiene una calidad uniforme.

31
Manual de Estadística Aplicada

32
CAPÍTULO 3
HIPÓTESIS CON
DOS MUESTRAS
INDEPENDIENTES

OBJETIVOS
Al finalizar el Capítulo 1, el participante será capaz de:
1. Utilizar muestras aleatorias provenientes de
diferentes poblaciones, para probar hipótesis acerca
de cómo están relacionadas las dos poblaciones.
2. Comprender cómo la prueba de hipótesis acerca de
las diferencias entre medias poblacionales toma
diversas formas.
3. Diferenciar entre muestras independientes y
dependientes cuando se comparan dos medias.
4. Probar una hipótesis acerca de las proporciones de
dos poblaciones que poseen el atributo de interés.
Manual de Estadística Aplicada

3.1 PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS


CONOCIDAS

Ejemplo:

En un estudio comparativo de las estaturas de niños de 10


años, en dos ciudades diferentes, se conoce que la
desviación estándar poblacional es 0,8 y 1,1 metros
respectivamente. Se desea conocer si existe diferencia entre
la media de talla de los niños de 10 años de las dos
ciudades; una muestra de 30 y 35 niños determinó una
media muestral de 1,30 y 1,35 metros respectivamente.
Probar la hipótesis respectiva usando un nivel de
significación de 5%.

Solución:

1) Planteo de Hipótesis
Hp : µ1 = µ2 Ha : µ1 ¹ µ2
2) Nivel de significación α = 0,05
3) Prueba de estadística
(x 1 − x 2 ) - ( µ1 − µ 2 )
Ζc =
σ 12 σ 22
+
n1 n2
con los supuestos
– Las distribuciones son normales
– Las muestras se seleccionaron al azar.

4) Criterios de decisión

µ1 < µ2 µ1 > µ2
α/2 = 0.025 α/2 = 0.025
(1 - α)
µ1 = µ2

-Z0 Z0
-1.96 1.96

34
Jorge Córdova Egocheaga

Si {−1,96 ≤ Zc ≤ 1,96 }se acepta Ho, en caso contrario


se rechaza.

5) Cálculos

Ζc =
(1,30 − 1,35) - 0 = −0,2115
(0,8)2 (1,1)2
+
30 35

6) Conclusiones

1° No se rechaza la hipótesis nula, a un nivel de


significación de 0,05. La prueba resultó no
significativa.
2° La evidencia estadística disponible permite concluir
que no hay diferencias entre las estaturas medias
de niños de 10 años en las dos ciudades

3.2 PRUEBA DE HOMOGENEIDAD DE VARIANZAS

Para prueba de dos colas, el estadístico de prueba está


dado por:
S 12
F =
S 22
S12 y S 22 son las variancias muestrales para las dos
muestras

La hipótesis nula se rechaza si el cálculo del estadístico de


prueba es más grande que el valor crítico (de tablas) con
nivel de confianza y grados de libertad para el numerador y
el denominador.

35
Manual de Estadística Aplicada

EJEMPLO 1

Colin, agente de bolsa del Critical Securities, reportó que la


tasa media de retorno en una muestra de 10 acciones de
software fue 12.6% con una desviación estándar de 3.9%. La
tasa media de retorno en una muestra de 8 acciones de
compañías de servicios fue 10.9% con desviación estándar
de 3.5%. Para .05 de nivel de significancia, ¿puede Colin
concluir que hay mayor variación en las acciones de
software?

– Paso 1:
H0:σs ≤ σu H1:σs > σu

– Paso 2:
H0 se rechaza si F > 3.68, gl = (9, 7), α = .05

– Paso 3:
F = (39 . ) 2 = 12416
. )2 / (35 .

– Paso 4:
H0 no se rechaza. No hay evidencia suficiente para
asegurar que hay mayor variación en las acciones de
software.

Ejemplo:

En un programa de salud para pacientes con problemas


cardíacos de dos grupos de edades: (40 - 49) y (50 - 59)
años, la Tasa de Recuperación Cardíaca (TRC) es un
indicador del progreso del paciente. Una muestra de
pacientes de cada grupo de edad fue considerado en un
estudio, que consistió en medir la TRC (minutos) de cada
paciente después de correr 3 Km.

36
Jorge Córdova Egocheaga

Datos
Tasa de Recuperación Cardiaca (minutos)

Grupo 1 (40 - 49):


12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 8,28
12,01 11,03 12,01 11,31
Grupo 2 (50 -59):
14,33 10,35 12,51 11,28 11,48 14,05 10,51 18,50
18,11 13,45

Determine si existe diferencia en la variabilidad de las TRC


en los dos grupos de edades. Utilice α = 0,10

Las medias y varianzas muestrales de las TRC en los


pacientes de los dos grupos de edades son:

Grupo1 Grupo 2
(40 - 49) (50 - 59)

X = 11,09 X = 13,46
S12 = 1,74 S 22 = 8,45
n1 = 13 n2 = 10

37
Manual de Estadística Aplicada

Solución

1) Planteo de Hipótesis:
H o : σ 12 = σ 22
H a : σ 12 ≠ σ 22

2) Nivel de significación:
α = 0,10

3) Prueba estadística:
2
SM
Fc =
S m2

S M2 : Varianza muestral mayor


S m2 : Varianza muestral menor
con los supuestos:
- las poblaciones están normalmente distribuidas.
- las muestras han sido seleccionadas al azar

4) Criterios de decisión

α/2 α/2
(1 - α)

F1- α/2 Fα/2


F0,.95 F0,05
0, 326 2,80

38
Jorge Córdova Egocheaga

Fα = con a 2 y con GL (9,12)=2,80


2
1 1
F1-α 2 = = = 0,326
F0,05 (12,9 ) 3,07

Si { 0,326 ≤ Fc ≤ 2,80
. } se acepta la Ho en caso contrario se rechaza.

5) Cálculos
2
Fc = S M2 =
8.45
1.74
= 4.86
Sm

6) Conclusiones

1° Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación de a =
0,10. Las varianzas no son homogéneas
2° La evidencia estadística no permite aceptar la Ho3°
Las TRC de pacientes en los dos grupos de edades
tienen variabilidad diferentes.

3.3 PRUEBA PARA DIFERENCIA DE MEDIAS CON


VARIANCIAS NO HOMOGÉNEAS Y N < 30

Con los datos del ejemplo anterior

1) Planteo de hipótesis
Ho : µ1 = µ2 Ha : µ1 ¹ µ2

2) Nivel de significación α = 0,05

3) Prueba estadística
(x − x 2 ) - ( µ1 − µ2 )
tc =
1

S12 S 22
+
n1 n2

39
Manual de Estadística Aplicada

con los supuestos


– las poblaciones se distribuyen normalmente
– las muestras han sido seleccionada al azar

4) Criterios de decisión

S12 S 22
t1 + t2 1,74
(2,179) +
8,45
(2,262)
t′ =
n1 n2 t′ = 13
1,74 8,45
10 = 2,25
S12 S 22 +
+ 13 10
n1 n2
µ1 < µ2 µ1 > µ2
α/2 (1 - α) α/2
µ1 = µ2
- t´ t´
-2,25 2,25
Si {−2,25 ≤ tc ≤ 2,25} se acepta la Ho, en caso contrario
se rechaza

5) Cálculos

tc = (11.09 − 13.46 ) - 0 = −0.2989


.37
= −2 . 4
1.74 8.45
+
13 10

6) Conclusiones
1° Se rechaza la Ho se acepta la H1 a un nivel de
significación de 5% . La prueba resultó ser
significativa.
2° La evidencia estadística no permite aceptar la Ho
3° Las TRC de pacientes en los dos grupos de edades
no tienen el mismo promedio.

40
Jorge Córdova Egocheaga

3.4 PRUEBA PARA


DIFERENCIA DE MEDIAS CON
VARIANCIAS HOMOGÉNEAS Y s2 DESCONOCIDOS

Ejemplo:

Leche Polvo Leche Madre

Incremento medio de peso X1 = 366,35 X2 = 369,74


Desviación estándar S1 = 16,71 S2 = 14,20
Tamaño de la muestra n1 = 25 n2 = 20

Se desea determinar si existen diferencias en los promedios


de incrementos de peso (gramos) de niños recién nacidos
(en un período 20 días) alimentados con leche materna y
leche en polvo.

Solución:

1) Planteo de hipótesis
Ho : µ1 = µ2 Ha : µ1 ¹ µ2
2) Nivel de significación α = 0,01
3) Prueba estadística
(x − x 2 ) - ( µ1 − µ2 )
tc =
1

1 1
S p2  + 
 n1 n2 
con los supuestos
las poblaciones se distribuyen normalmente
las muestras han sido seleccionadas al azar

Variancia
(n − 1)S + (n − 1)S
1
2
1 2
2
2
S 2p ponderada =
n1 + n2 − 2

41
Manual de Estadística Aplicada

4) Criterios de decisión

to con (n 1 + n2 -2)
α/2 (1 - α) α/2

- tO tO
-2,6956 2,6956
Si
{−2,6956 ≤ tc ≤ 2,6956} se acepta la Ho, en caso contrario se
rechaza
5) Cálculos
24(16,71) 2 + 19(14,20 )
2

S p2 =
25 + 20 − 2

10,532.538
S p2 = = 244,943
43

Entonces

tc = (366,35 − 369,74) − 0
 1 1 
244,943 + 
 25 20 
− 3,39
tc = = −0.72
22,045
6) Conclusiones

1° No se rechaza la hipótesis planteada a un nivel de


significación de 0,01. La prueba resultó no
significativa.
2° La evidencia estadística disponible no permite
rechazar la hipótesis nula.
3° Los incrementos medios de peso de los niños
alimentados de las dos formas no presentan
diferencias estadísticamente significativas.

42
Jorge Córdova Egocheaga

3.5 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE


PROPORCIONES

Ejemplo:

Se supone que el medicamento A es adecuado en personas


de ambos sexos, alteradas emocional- mente, para disminuir
el nivel de ansiedad. A un grupo de 200 varones alterados
emocionalmente se les dio el medicamento A y 72 de ellos
experimentaron una disminución en su nivel de ansiedad. El
medicamento fue efectivo en 49 de una muestra aleatoria
independiente de 200 mujeres con trastornos emocionales.
Pruebe la hipótesis que el medicamento A es igualmente
eficiente en personas de ambos sexos, con un α = 0,05 .

Solución:
1) Planteo de hipótesis
Ho : π1 = π2 Ha : π1 ≠ π2
2) Nivel de significación: α = 0,05
3) Prueba estadística
(p1 - p2 ) -(π1 - π2 )
Zc =
σp1-p2
con los supuestos
las poblaciones se distribuyen normalmente
las muestras se han elegido al azar
4) Criterios de decisión

(1 - α)
α/2 α/2

- ZO ZO
-1,96 1,96

43
Manual de Estadística Aplicada

Si {−1,96 ≤ Zc ≤1,96} se acepta la Ho, en caso contrario


se rechaza
5) Cálculos
n1p1 + n 2 p2 (200)(0,36) + (200)(0,245)
p̂ = = = 0,3025
n1 + n 2 200 + 200

p̂q̂ p̂q̂ (0,3025 )( 0,6975) (0,3025 )( 0,6975 )


σˆ p − p = + = +
1 2
n1 n2 200 200

σˆ p1 −p2 = 0,046
Entonces, (p1 - p 2 ) - (π 1 - π 2 ) (0,36 − 0,245) − 0
Zc = =
σ p1 - p 2 0,046
Z c = 2,5
6) Conclusiones

1) Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación de 0,05.
La prueba fue significativa.
2) La evidencia estadística no permite aceptar la hipótesis
nula.
3) Existe diferencia significativa en la proporción de
hombres y mujeres beneficiadas con el consumo del
medicamento.

44
CAPÍTULO 4
HIPÓTESIS CON
DOS MUESTRAS
DEPENDIENTES

OBJETIVOS
Al finalizar el Capítulo 4, el participante será capaz de:
1. Utilizar datos provenientes de dos muestras
recolectada al mismo marco muestral.
2. Aplicar el modelo antes-después para situaciones
relacionadas con la gestión hospitalaria.
Manual de Estadística Aplicada

4.1 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS


MEDIANTE EL APAREAMIENTO DE VARIABLES

Ejemplo:

Con la finalidad de reducir la producción defectuosa se


calibra las 10 maquinas que se utilizan para encapsular. A
continuación se presenta la información de los productos
defectuosos (en unidades) antes y después de la calibración.
Utilice un nivel de significación de 0,05 para probar que la
calibración tuvo efectos positivos en la reducción del número
de defectuosos.

Los datos registrados se presentan a continuación:

MAQUINAS 1 2 3 4 5 6 7 8 9 10

ANTES 73 77 68 62 72 80 76 64 70 72

DESPUÉS 68 72 64 60 71 77 74 60 64 68

46
Jorge Córdova Egocheaga

Cálculos previos

Antes Después Diferencias: d


n = 10
73 68 5
Σd = 36
77 72 5
68 64 4
Sd=1.578
62 60 2
72 71 1
d = 3.6
80 77 3
76 74 2 Sd 1.578
64 60 4 Sd = = = 0.499
n 10
70 64 6
72 68 4

1) Planteo de hipótesis
Ho : µd > 0 Ha : µd > 0

2) Nivel de significación: α = 0,05

d − µd
tc =
Sd

3) Prueba estadística

con los supuestos


la población (d) se distribuye normalmente
la muestra se ha elegido al azar

4) Criterios de decisión

to con (n - 1)
(1 - α)
α
tO
1,833

47
Manual de Estadística Aplicada

5) Cálculos
d − µd
tc =
Sd

3.6 − 0
= = 7.21
0.499

6) Conclusiones

1) Se rechaza Hp y se acepta la Ha a un nivel de


significación 0,05.La prueba fue significativa.
2) La evidencia estadística no permite aceptar la
hipótesis planteada.
3) El número de defectuosos después de la calibración
disminuyó.

Ejemplo 2

Se toman los niveles de colesterol total de una muestra


de 8 pacientes antes y después de participar en un
programa de dieta-ejercicio. ¿Puede concluirse que el
programa tuvo éxito favorable?. Utilice un nivel de
significación de 0,05.

48
CAPÍTULO 5
ANÁLISIS DE
VARIANZA CON UN
FACTOR VARIABLE

OBJETIVOS
Al finalizar el Capítulo 5, el participante será capaz de:
1. Comprender la noción general del análisis de variancia.
2. Enunciar las características de la distribución F.
3. Realizar una prueba de hipótesis para determinar si dos
variancias muestrales provienen de poblaciones iguales.
4. Establecer y organizar datos en una tabla ANOVA de una y
dos direcciones.
5. Definir los términos tratamiento y bloque.
6. Efectuar una prueba de hipótesis entre tres o más medias de
tratamiento.
7. Desarrollar intervalos de confianza para la diferencia entre
medias de tratamiento.
8. Realizar una prueba de hipótesis para determinar si hay alguna
diferencia entre medias de bloques.
Manual de Estadística Aplicada

5.1 ¿QUÉ ES EL ANOVA?

Es un método de cálculo para probar la hipótesis de que las


medias de dos o mas poblaciones son iguales.

Ejemplos:

– Comparación de efectos logrado por cinco clases de


antibióticos.
– Determinar cuál de los cuatro métodos de capacitación
produce un aprendizaje más rápido.
– La dosificación de drogas en un paciente.

5.2 SUPOSICIONES DEL ANOVA

La distribución F también se usa para probar la igualdad de


más de dos medias con una técnica llamada análisis de
variancia (ANOVA). El ANOVA requiere las siguientes
condiciones:

A. La población que se muestrea tiene una distribución


normal
B. Las poblaciones tienen desviaciones estándar iguales
C. Las muestras se seleccionan al azar y son
independientes

5.3 PROCEDIMIENTO PARA EL ANÁLISIS DE


VARIANCIA

Hipótesis nula: las medias de las poblaciones son


iguales.
Hipótesis alterna: al menos una de las medias es
diferente.
Estadístico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
Regla de decisión: para un nivel de significación a, la
hipótesis nula se rechaza si F calculada es mayor que F

50
Jorge Córdova Egocheaga

tabular con grados de libertad en el numerador y en el


denominador.

5.4 EL MODELO ADITIVO LINEAL : MAL

Se aplica como una suma y los exponentes son iguales a 1.


Explica cómo está formada una observación

Xi= µ + εi
Donde
ei = error, es decir la variabilidad (o diferencia) entre la
observación y el promedio

µ Xi

εi

El MAL para el ANOVA con un factor:

Xij = µ + τ i + ε ij
Donde
ti = efecto del tratamiento

∑X ∑(µ +τ + ε )
j=1
ij

µ=i = = µ +τ i ij

N N
µτ = µ +τ 1
1

µτ = µ +τ 2
2

Si la Hp : µ1= µ2

Reemplazando tenemos

51
Manual de Estadística Aplicada

Hp : µ + t1= µ + t2

Hp : t1= t2

Sólo se prueba la diferencia entre tratamientos

5.5 EL MODELO DE ANOVA CON IGUAL NÚMERO DE


REPETICIONES

T1 T2 T3

X11 X12 X13

X21 X22 X23

X31 X32 X33

X41 X42 X43

X51 X52 X53

X.1 X.2 X.3

La tabla del ANOVA

Fuentes de Suma de Cuadrado F F


variabilidad Cuadrados
t
GL Medio calculado teórico
Entre grupos ∑X
j=1
2
•j
X•2• t-1 CMe=
SCtrat Fc =
CMe trat Ft con (t-1) y
(Tratamientos) SCtrat = − CMe ee (rt-t)
r rt GL
Dentro de los grupos SC = X2 − ∑X•j r t - t SCee
2

(Error Experimental)
ee ∑ ij r CMe=
GL
X2••
SCtotal = ∑Xij −
2
Total rt r t -1

Aplicación 1

Se realiza un estudio para comparar la eficacia de tres


programas terapéuticos para el tratamiento del acné de tipo
medio a moderado. Se emplean tres métodos:

52
Jorge Córdova Egocheaga

II. Este método, el más antiguo, supone el lavado, dos


veces al día, con un cepillo de polietileno y un jabón
abrasivo, junto con el uso diario de 250 mg. de
tetraciclina.

III. Este método, el utilizado actualmente, consiste, en la


aplicación de crema de tretinoína, evitar el sol, lavado
dos veces al día con jabón emulsionante y agua, y
utilización, dos veces al día, de 250 mg. De tetraciclina.

IIII. Este es un método nuevo que consiste en evitar el


agua, lavado dos veces al día con limpiador sin lípidos,
y uso de crema de tretinoína y de peroxido de enzoilo.
Se comparan estos tres tratamientos en cuanto a su
eficacia en la reducción del número de lesiones de acné
en los pacientes. En el estudio participaban treinta
pacientes. Se les separó aleatoriamente en tres
subgrupos de tamaño 10. A uno de los subgrupos se le
asignó el tratamiento I, a otro el tratamiento II y al
tercero, el tratamiento III. Después de 16 semanas se
anotó para cada paciente la tasa porcentual de mejoría,
medido en número de lesiones.

Se obtuvieron los siguientes datos:

I II III
48.6 68.0 67.5
49.4 67.0 62.5
50.1 70.1 64.2
49.8 64.5 62.5
50.6 68.0 63.9
50.8 68.3 64.8
50.8 71.9 62.3
47.1 71.5 61.4
52.5 69.9 67.4
49.0 68.9 65.4
50.6 67.8 63.2
549.3 755.9 705.1

53
Manual de Estadística Aplicada

Solución

1. Planteamiento de hipótesis:
Hp : m1= m2= m3
Ha : m1= m2= m3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe
Fc = trat
CMe ee

4. Criterios de decisión

3,3158
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se
acepta.
5. Cálculos
Excel nos brinda los siguientes resultados:

Fuente de
variabilidad SC GL CMe F cal p-valor F teórico
Tratamientos 2107.20727 2 1053.60364 300.680769 1.42117E-20 3.31583294

Error experimental 105.121818 30 3.50406061

Total 2212.32909 32

6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
hipótesis alterna a un nivel de significación de 0,05. La
prueba fue significativa.

B. Al menos un método de capacitación es


diferente a los demás

54
Jorge Córdova Egocheaga

5.6 EL MODELO DE ANOVA CON DIFERENTE NÚMERO DE


REPETICIONES

T1 T2 T3
X11 X12 X13

X21 X22 X23

X31 X32 X33

X42 X43

X52

X.1 X.2 X.3

La tabla del ANOVA

Fuentes de Suma de Cuadrado F F


variabilidad Cuadrados GL Medio calculado teórico
t  X2 
X2 SCtrat
SCtrat = ∑ • j  − •• t-1 CMe trat
Ft con (t-1) y
Entre grupos j=1  rj  ∑rj CMe= Fc =
CMe ee
(Tratamientos) GL (rt-t)

 Xij2 
Dentro de los SCee = ∑Xij2 − ∑  r t - t SC
grupos (Error  rj  CMe= ee
Experimental) GL

X2••
SCtotal = ∑Xij −
2
Total
∑rj r t -1

Aplicación 2

El director de entrenamiento de una compañía está tratando


de evaluar tres diferentes métodos de entrenamiento para
empleados nuevos. El primer método consiste en asignar un
empleado nuevo con un trabajador experimentado para que
éste lo asista en la fábrica. El segundo método consiste en

55
Manual de Estadística Aplicada

ubicar a todos los empleados nuevos en un salón de


entrenamiento separado de la fábrica, y el tercer método
consiste en utilizar películas de entrenamiento y materiales
de aprendizaje. El director de entrenamiento escoge al azar
16 empleados nuevos asignados a los tres métodos y
registra su producción diaria después que terminaron sus
programas de entrenamiento:

M etod o 1 15 18 19 22 11

M etod o 2 22 27 18 21 17

M etod o 3 18 24 19 16 22 15

El director pregunta si existen diferencias en cuanto a la


efectividad entre los tres métodos.

Solución
1. Planteamiento de hipótesis:
Hp : m1= m2= m3
Ha : m1= m2= m3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe
Fc = trat
CMe ee

4. Criterios de decisión

3,81
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se
acepta.

56
Jorge Córdova Egocheaga

5. Cálculos
Excel nos brinda los siguientes resultados:

ANÁLISIS DE VARIANZA
Fuentes de Variabilidad SC GL CMe F cal p-valor F tabular

Entre grupos 40 2 20 1.35 0.29 3.81


Dentro de los grupos 192 13 14.7692308

Total 232 15

6. Conclusiones
A Se acepta la hipótesis planteada, se rechaza la
hipótesis alterna a un nivel de significación de
0,05. La prueba no resultó significativa.

B. Los datos muestrales no proporcionan evidencia


para afirmar que los tratamientos son diferentes.

5.7 MÉTODOS PARA ENCONTRAR DIFERENCIA ENTRE

tratamientos
Cuando se rechaza la hipótesis nula de que las medias son
iguales, quizá sea bueno saber qué medias de tratamiento
difieren.

Diferencia limite de significación (DLS): Para comparar


promedios de tratamientos.
Prueba de comparaciones múltiples de Duncan: Para
comparar todos contra todos.
Prueba de comparaciones múltiples de Tuckey
Prueba de comparaciones múltiples de Student,
Newman y Keuls.
Prueba de comparaciones de Dunnett: Para comparar
todos contra un testigo.

2 CMe
DLS = t α •
n

57
Manual de Estadística Aplicada

Ventajas

• Fácil de realizar
• De preferencia debe de utilizarse para hacer
comparaciones ortogonales o independientes, sin
embargo su validez no se ve seriamente afectada
cuando algunas comparaciones no son ortogonales,
pero han sido establecidas al momento de instalar el
experimento.

Desventajas

• Por ningún motivo debe usarse DLS para


comparaciones inducidas por los resultados
• No es válida para realizar todas las comparaciones
• Se ve afectada por el número de tratamientos: a mayor
número de tratamientos, se pierde algo de eficiencia.

5. 8 INFERENCIAS ACERCA DE LAS MEDIAS DE


TRATAMIENTO

Uno de los procedimientos más sencillo es el uso de los


intervalos de confianza.

Intervalos de confianza para la diferencia entre dos


Medias
1 1
(X 1 − X 2 ) ± t MSE  + 
 n1 n2 

donde t
Se obtiene de la tabla con (N - k) grados de libertad.
MSE = [SSE /(N - k)]

Las hipótesis se plantean de la siguiente manera:


Ho: Todos los tratamientos son iguales
Ha: Al menos un tratamiento es diferente.

58
Jorge Córdova Egocheaga

1. La técnica consiste en calcular de diferente


maneras la varianza de las muestras.

Existen dos maneras de calcular la varianza:


Dentro SMQD (conocida como varianza no explicada)
Entre SMQE (conocida como varianza explicada)
La prueba estadística que se utiliza es la prueba F
La distribución F es oblicua hacia la derecha y sus
valores son siempre positivos.

La distribución F depende del nivel a y de los grados de


libertad (d.f. = degree of fredom) del numerador y de los
grados de libertad del denominador.

D.f numerador = C – 1 donde C es el número de


grupos.
D.f. Denominador = C ( n – 1) donde n es el número
de observaciones en cada grupo.

5.9 SOLUCIÓN APLICANDO EXCEL

Como solo estamos evaluando el rendimiento de los


empleados con los diferentes métodos de capacitación,
aplicamos

análisis de varianza de un solo factor


Análisis de va rianza de un fac tor

Fuente de variabilidad SC GL CM F calculado p-v alo r F tabular

Entre grupos 23.44 2 11 .719 0.5 60087 0.58 43 3.805 6


Dentro de los grupos 272 13 20 .923

Total 295.4 15

59
Manual de Estadística Aplicada

EJEMPLO

Considere un estudio de diez años en el que se ha


observado una muestra de 15 personas que han usado
pastas dentales 1, 2 o 3, respectivamente. Supongamos que
cinco de los participantes se han asignado aleatoriamente a
cada uno de los tratamientos y que el estudio ha
proporcionado los datos siguientes:

60
Jorge Córdova Egocheaga

5.10 PRUEBA DE INDEPENDENCIA ESTADÍSTICA

1) Planteo de Hipótesis:
HO: Son independientes
H1 : Son dependientes

2) Nivel de significación:
a = 0,10

Prueba estadística:
(f − fe )
2

χ2 = ∑
0

fe
supuestos:
* la población se distribuye normalmente.
* la muestra se ha seleccionado al azar

Criterios de decisión

α/2=0,05 α/2=0,05
(1 - α)
0,90

0,352 7,815
χ12−α χα2
2 2

GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3


χ12−α = χ 02.95 con 3GL = 0.352
2

χα2 = χ 02.05 con 3GL = 7.815


{ }
2
Si 0.352 ≤ χ 2 ≤ 7815
. Se acepta la Ho en caso contrario se rechaza

Después se aplica la prueba

61
Manual de Estadística Aplicada

(f − fe)
2

χ c2 = ∑ 0

fe

(68 − 66.43) 2 (75 − 79.72) 2 (57 − 59.79) 2 (79 − 7307


. )2
χc2 = + + +
66.43 79.72 59.79 .
7307

(32 − 3357
. ) 2 (45 − 40.28) 2 (33 − 30.21) 2 (31 − 36.93) 2
+ + + +
.
3357 40.28 30.21 36.93

χc2 = 2.7638

Conclusiones
1) Se acepta Ho, se rechaza la Ha
2) La evidencia empírica disponible no permite rechazar la
hipótesis planteada
3) La actitud sobre le método de evaluación del desempeño
laboral, es independiente de la región en que labore el
trabajador.

EJEMPLO

En un hospital se somete a examen la eficacia de cinco


medicamentos a un determinado número de pacientes que
aparece reflejado en la siguiente tabla, determinándose si al
final del tratamiento mejoran o no. ¿Existe diferencia entre
los diferentes medicamentos a un nivel de significación 0.05?
¿Qué concluimos?

T ra ta m ie n to A B C D E
N º p a c ie n te s 50 52 46 54 48
P a c ie n te s m e jo ra d o s 11 9 8 17 7

EJEMPLO

Un grupo de investigadores, al llevar a cabo un estudio


acerca de hospitales, reunió datos sobre una muestra de 250
hospitales. El equipo calculó para cada hospital la tasa de

62
Jorge Córdova Egocheaga

ocupación de los pacientes admitidos. Se desea saber si los


datos proporcionan suficiente evidencia para indicar que la
muestra no proviene de una población que sigue una
distribución normal.

T a s a d e o c u p a c ió n
d e h o s p ita l e
d e p a c ie n t e s
0 40 16
40 50 18
50 60 22
60 70 51
70 80 62
80 90 55
90 10 0 22
10 0 11 0 4
250

EJEMPLO

La siguiente tabla muestra la distribución de las mediciones


de ácido úrico en 250 pacientes. Probar la bondad de ajuste
de estos datos a una distribución normal con m = 5.74 y s =
2.01. Sea a = 0,01

63
Manual de Estadística Aplicada

D e t e r m in a c ió n F r e c u e n c ia
á c id o ú r ic o o b s e rv a d a
m e no s 1 1
1 2 5
2 3 15
3 4 24
4 5 43
5 6 50
6 7 45
7 8 30
8 9 22
9 10 10
10 m as 5
250

5.11 PRUEBA DE BONDAD DE AJUSTE


La prueba ji-cuadrada puede utilizarse también para decidir
si una distribución de probabilidad en particular, tal como la
binomial, la de Poisson o la normal, es la distribución
apropiada.

Nos permite probar qué tan bien se ajusta una distribución


Siempre en una investigación estadística, necesitamos
escoger una cierta distribución de probabilidades para
representar la distribución de datos que tengamos que
trabajar.

La prueba ji cuadrada nos responde esta inquietud y probar


si existe diferencia significativa entre una distribución de
frecuencias observadas y una distribución de frecuencias
teóricas.

Las hipótesis a plantearse son:


Ho: la distribución empírica se ajusta a la distribución teórica
considerada.
Ha: Se rechaza el ajuste.

64
Jorge Córdova Egocheaga

Si aceptamos la Ho (aceptamos el ajuste), las diferencias


entre los valores observados y los valores esperados son
debido al azar y podemos decir que no existe evidencia para
rechazar la Ho.

El calculo de la prueba ji cuadrado, se realiza con la


siguiente formula:

Df = Nº clase(ajustado) – 1 – Nº
parámetros estimados
( fo − fe)
χ
2
2
=∑
fe α

Las frecuencias esperadas de las distintas modalidades


deben ser superiores a cinco; en caso de no ocurrir, se
deben agrupar clases contiguas en una sola clase hasta
lograr que la nueva frecuencia sea mayor que cinco.

EJEMPLO

Se reunieron los datos de 300 niñas de ocho años de edad.


Probar, a un nivel de significación de 0.05, la hipótesis que
indica que los datos se extrajeron de una población con
distribución normal. ¿Qué concluimos?

65
Manual de Estadística Aplicada

E s t a t u r a F r e c u e n c i a O b
( c m ) f o
1 1 4 1 1 6 5
1 1 6 1 1 8 1 0
1 1 8 1 2 0 1 4
1 2 0 1 2 2 2 1
1 2 2 1 2 4 3 0
1 2 4 1 2 6 4 0
1 2 6 1 2 8 4 5
1 2 8 1 3 0 4 3
1 3 0 1 3 2 4 2
1 3 2 1 3 4 3 0
1 3 4 1 3 6 1 1
1 3 6 1 3 8 5
1 3 8 1 4 0 4

66
CAPÍTULO 6
ANÁLISIS DE
VARIANZA CON
DOS FACTORES

OBJETIVOS
Al finalizar el Capítulo 6, el participante será capaz de:
Manual de Estadística Aplicada

6.1 EL MODELO ADITIVO LINEAL

El modelo aditivo lineal para dos factores quedará de la


siguiente forma
Xij = µ + τ i + β j + ε ij

De lo que se trata es encontrar un segundo factor que


permita descomponer el valor de la observación, de una
manera más analítica.

Esquema de un ANOVA con 3 tratamientos y 5 bloques

T1 T2 T3 TOTAL

B1 X11 X12 X13 X1•

B2 X21 X22 X23 X2•

B3 X31 X32 X33 X3•

B4 X41 X42 X43 X4•

B5 X51 X52 X53 X5•

TOTAL X•1 X•2 X•3 X••

Hay dos hipótesis posibles en este diseño: una


Fuente de Variabilidad SC GL CMe F cal F tab

Bloques (Factor A)

Tratamientos (Factor B)

Error Experimental

Total

68
Jorge Córdova Egocheaga

Para ANOVA de dos factores se prueba si existe una


diferencia significativa entre el efecto de tratamiento y si
existe una diferencia en la variable de bloqueo.
Sea Br el total de bloque (r según las filas)
SSB representa la suma de los cuadrados de los
bloques, donde:
 B 2  (ΣX )2
SSB = Σ  r  −
 k  n

EJEMPLO
La Bieber Manufacturing Co. opera 24 horas al día,
cinco días a la semana. Los trabajadores rotan su turno
cada semana. Todd Bieber, el propietario, se interesa en
saber si hay una diferencia en el número de unidades
producidas cuando los empleados trabajan diferentes
turnos. Se seleccionó una muestra de cinco
trabajadores y se registró su producción en cada turno.
Con 0,05 de nivel de significancia, ¿se puede concluir
que existe una diferencia en la producción media por
turno y por empleado?

Empleado Producción Producción Producción


en el día en la tarde en la noche
McCartney 31 25 35

Neary 33 26 33

Schoen 28 24 30

Thompson 30 29 28

Wagner 28 26 27

Variable de tratamiento
Paso 1: H0: m1= m2= m3 H1: no todas las medias son
iguales.

69
Manual de Estadística Aplicada

Paso 2: H0 se rechaza si F > 4.46, gl = (2, 8).


Calcule la variable de suma de cuadrados: SS(total)
= 139.73, SST = 62.53, SSB = 33.73, SSE = 43.47.
gl(bloque) = 4, gl(tratamiento) = 2, gl(error) = 8.
Paso 3: F = [62.53 /2] /[43.47 /8] = 5.75
Paso 4: H0 se rechaza. Existe una diferencia en el
número promedio de unidades producidas para los
distintos periodos o turnos.
Variable de bloqueo:
Paso 1: H0: m1= m2= m3= m4= m5 H1: no todas las
medias son iguales. Paso 2: H0 se rechaza si F > 3.84,
gl = (4,8)
Paso 3: F = [33.73 / 4] / [43.47 / 8] = 1.55
Paso 4: H0 no se rechaza ya que no existe una
diferencia significativa en el número promedio de
unidades producidas para los distintos trabajadores.

Ejemplo 2

Después de un año de estudiar un idioma extranjero, se


administró una prueba de vocabulario de 50 items a 24
estudiantes de inteligencia superior y promedio (factor A) por
uno los de tres métodos escogidos (factor B). Analizar las
siguientes puntuaciones:Efectuar con un nivel de
significación de 0.05, los contrastes F de las hipótesis nulas
para filas, columnas e interacción.

70
Jorge Córdova Egocheaga

FACTOR B
Método Método de Métodos
Auditivo-oral Traducción Combinados
36 26 19
Superior 29 23 30
(115 y más) 25 21 28
FACTOR A 31 18 20
Inteligencia 33 20 17
Promedio 19 22 13
(115 y
menos) 37 14 23
28 15 18

71
Manual de Estadística Aplicada

72
CAPÍTULO 7
REGRESIÓN Y
CORRELACIÓN
SIMPLE

OBJETIVOS
Al finalizar el Capítulo 7, el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la relación
entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el grado hasta
el cuál dos variables están relacionadas linealmente entre si.
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión simple
Manual de Estadística Aplicada

7.1 EL DIAGRAMA DE DISPERSIÓN

Es un gráfico que permite detectar la existencia de una


relación entre dos variables.
Visualmente se puede buscar patrones que indiquen el
tipo de relación que se da entre las variables.
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
Y Y Y
• •
Relaciones posibles • • •

•• • •

entre X y Y vistos •• • • •

• ••
• • • •
en diagramas de • • • • ••


dispersión •• X
•••
X X

Y • Y Y
• •• • • • ••
•• •

• • ••
•• • •• • • •
••
• •• • •• • •
••

•• • • ••
• • • • • ••

•• ••

•• •
•• •


• ••
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión

Aplicación

Los datos siguientes muestran las cantidades consumidas


de complemento nutricional (en Kg.) y el aumento de peso
de niños con signos de desnutrición.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

Presente la información en un diagrama de dispersión

Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya relación desea
estudiar y organice la información en una tabla.

74
Jorge Córdova Egocheaga

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos para X
e Y. Elija las escalas que se usarán en los ejes horizontal y
vertical, de manera que ambas longitudes sean
aproximadamente iguales, facilitando la lectura del diagrama.

20

15

10

0
0.0 2.0 4.0 6.0

3er Paso: Registre los datos en el gráfico. Cuando se


obtengan los mismos valores en diferentes observaciones,
muestre estos puntos haciendo círculos concéntricos (o), o
registre el segundo punto muy cerca del primero.

75
Manual de Estadística Aplicada

20

15

10

0
0.0 2.0 4.0 6.0

4to Paso: Agregue toda la información que puede ser de


utilidad para entender el diagrama, tal como: título del
diagrama, período de tiempo, número de pares de datos,
nombre de la variable y unidades de cada eje, entre otros.

R elación complemento nutricional y


aumento de peso

20
Aumento de peso

15
(Kg)

10

0
0.0 2.0 4.0 6.0
Complem ento nutricional (Kg)

76
Jorge Córdova Egocheaga

7.2 LAS ECUACIONES LINEALES SIMPLES

Si dos variables, como X e Y, están relacionadas, se


puede expresar como una relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:

a) Calcular el valor de Y para cualquier valor dado


de X
b) Conocer el cambio en Y, cuando X varía en 1

Por ejemplo: Y = 3 + 1,5X

V a lo r V a lo r C a m bi o
da d o d e X c a lc u la d o d e Y d e Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5

El aumento en Y, cuando X varía en una unidad, está


dado por el coeficiente de X.

Ejemplo:

En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2

En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8

A) Tipos de Variables

En una ecuación como Y=0+3X, el valor de Y depende


del valor que toma X, por eso a Y se le llama variable
dependiente, y a X se le llama variable independiente.

77
Manual de Estadística Aplicada

Y = b0 + b1 X

Variable Variable
Dependiente Independiente

B) Tipo de Relaciones

Cuando cambios en X provoca cambios en Y en igual


sentido (aumentos o disminuciones), las variables están
directamente relacionadas. Se observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o

Cuando cambios en X, provoca variaciones en Y en


sentido inverso (X aumenta, Y disminuye o viceversa),
las variables están inversamente relacionadas. Se
observa en la ecuación el signo -.
Y
Ejemplo: o
Y = 20 - 3X
o o

o o
o
o

C) Grado de la ecuación:

La ecuación es de primer grado si la variable


independiente está elevada al exponente 1. Su gráfica

78
Jorge Córdova Egocheaga

genera una línea recta (por lo que también se le llama


ecuación lineal)

Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor del
exponente. Su gráfica no es una línea recta.

Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado

D) Ecuaciones simples y múltiples:

Simples: Muestra la relación entre dos


variables
Y = 30 + 2X
Y = 10 - 3X2
Múltiple: Muestra la relación entre tres o más
variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W

E) Gráfica de una ecuación de primer grado:


Ejemplo: Y = 3 + 1,5X

X 1 2 3 4 5
Y 4,5 6,0 7,5 9,0 10,5
Los cinco pares de valores se diagraman de la forma
siguiente.

79
Manual de Estadística Aplicada

12
11

. .
.
10 (5,10.5)
9

.
8 (4,9)
7

.
6 (3,7.5)
5 (2,6)
4
3 (1,4.5)
2
1

1 2 3 4 5 X

E) Forma general:

La ecuación simple de primer grado tiene la siguiente


forma general
Y = b0 + b1 X
Donde:

b1: pendiente, o sea, el cambio en Y cuando DX = 1.


b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y

Ejemplo: Y = 3 + 1.5X

b0 = 3
.
X

80
Jorge Córdova Egocheaga

7.3 REGRESIÓN LINEAL SIMPLE

Es una técnica estadística que permite determinar la mejor


ecuación que represente la relación entre dos variables
relacionadas.

Para poder establecer la relación cuantitativa entre X e Y es


necesario disponer de pares de observaciones. Cada par ha
sido registrado a la misma unidad elemental.

A) Suposiciones de regresión y correlación

a) Normalidad: los valores de Y estarán distribuidos


normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal

B) El método de Mínimos Cuadrados

Es el procedimiento matemático utilizado para


determinar los valores numéricos de los coeficientes de
regresión: b0 y b1

La ecuación general Y = b0 + b1X se llama ecuación
de regresión y permite estimar o predecir los valores de
Y.
El método consiste en determinar una ecuación que la
suma de los errores al cuadrado sea mínima.

81
Manual de Estadística Aplicada

$ = error
Yi - Y
10

8
. Línea de
estimación

6

Min ∑ (Y - Y
$)
2
4 Error= -6

i

2


. Error= 2

X
2 4 6 8 10 12 14

El método utiliza un sistema de ecuación llamado


ecuaciones normales, que tienen la siguiente forma:

X Y X2 XY

∑ Y = nb + b ∑ X
1.0 8.0 1.0 8.0
0 1 1.5 10.0 2.3 15.0

∑ XY = b ∑ X + b ∑ X
0 1
2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0

Para aplicar las fórmulas, 3.5 13.0 12.3 45.5


4.0 15.0 16.0 60.0
tenemos que confeccionar 4.5 17.0 20.3 76.5

un cuadro como el 5.0 14.0 25.0 70.0


5.5 14.0 30.3 77.0
siguiente: 32.5 126.0 126.3 442.0
∑ X ∑ Y ∑X
2
∑ XY
Sustituyendo los valores
∑ Y = 126,0 , n = 5, ∑ X = 32,5
∑ XY = 442 y ∑ X2 = 126,3
,en las ecuaciones normales, obtenemos el siguiente
sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1Resolviendo el sistema tenemos:
b0 = 7,479 b1= 1,576 ,por lo tanto,
Ŷ = 7,479 + 1,576X

82
Jorge Córdova Egocheaga

C) Interpretación

b0 = 7,478 : Es probable que un paciente desnutrido que no


sea considerado dentro del Programa de Alimentación
Complementaria tenga un peso de 7,478 Kg.

b1 = 1,576:Por cada Kg. del alimento complementario, se


espera que probablemente el niño aumento su peso en
1,576 Kg.

D) Valor observado y valor estimado de Y

El valor observado (Yi) se refiere al nivel efectivo u


observado de la variable Y (peso del niño), mientras que el

valor estimado ( Y ), es el nivel estimado de la variable (peso
esperado), obtenido utilizando la ecuación de regresión.
X Y Ŷ
1.0 8.0 9.055

Y
.
Yi
1.5
2.0
10.0
9.0
9.843
10.630

.
Y$ 2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
5.5 14.0 16.146
xo X

7.4 ERROR ESTÁNDAR DE ESTIMACIÓN (SYX)


Mide la disparidad ¨promedio¨ entre los valores observados y
estimados de la variable Y. Se calcula por la siguiente
relación
2
∑(Y- Ŷ)
Syx =
n −2

83
Manual de Estadística Aplicada

X Y Ŷ (Y− Ŷ) (Y− Ŷ) 2

1.0 8.0 9.055 -1.1 1.112181


1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2
Reemplazando en la formula

21,20 21,20
Syx = = = 2,65
10−2 8
S yx = 1,628

El Syx es un indicador del grado de precisión con que la


ecuación de regresión describe la relación entre las dos
variables: cuanto más pequeño, los valores observado y
estimado de Y son razonablemente cercanos y, la ecuación
de regresión es una buena descripción esa la relación.

7.5 EL ANÁLISIS DE CORRELACIÓN

El análisis de correlación es la técnica estadística que


permite describir el grado hasta el cual una variable está
linealmente relacionada con otra.

Hay dos medidas que se usan para describir la correlación


El coeficiente de determinación
El coeficiente de correlación

84
Jorge Córdova Egocheaga

A) El coeficiente de determinación

Al construir un modelo de regresión, se define que “el valor Y


depende de X”.
Y = f (X)

Si la relación es lineal: Y = b0 + b1X


Pero en la práctica Y depende también de “otros factores”
diferentes a X:

Y = b0 + b1X + eParte de los cambios en Y pueden


explicarse por X, a otro se llama variación explicada. Pero
hay cambios en Y que no pueden explicarse por X, a lo que
se llama variación no explicada.
Yi
Y Variación
Variación no explicada
Total
(Yi - Y$ )
Yi - Y
( ) Variación
Explicada
y
Y$ - Y
( )

VARIACION VARIACION VARIACION


TOTAL = EXPLICADA + NO EXPLICADA

El coeficiente de determinación se puede calcular del modo


siguiente:
variacion explicada
r2 =
variacion total

r2 = ∑ (Ŷ - Y )2
∑ (Y - Y )
2
i
Se elevan al cuadrado, para evitar que
obteniéndose un número positivo.

85
Manual de Estadística Aplicada

1er Paso: Cálculo de la venta media por vendedor


son ( Y )
n
∑Y
Y= i=1 i

n
Y1 + Y2 + Y3 + Y4 + Y5
Y=
5

9 + 5 + 7 + 14 + 10 45
Y= =
5 5
Y = 9 unidades

2do Paso: Se calcula la variación total, es decir, la sumatoria


de las desviaciones de las ventas observadas (Yi) con
respecto a la media:

Y Y (Y − Y ) (Y− Y)2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
∑Y ∑Y ∑ (Y − Y ) ∑ (Y − Y )
2

86
Jorge Córdova Egocheaga

3er Paso: Se calcula la variación explicada, es decir, la


sumatoria de las desviaciones cuadráticas entre las ventas
∧ ∧
esperadas y la venta media de la muestra: ∑YY
Ŷ Y (Ŷ− Y) (Ŷ − Y) 2

9.055 12.6 -3.545 12.5699


9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
∑ Ŷ ∑Y ∑ (Ŷ − Y) ∑ (Ŷ − Y )2
4to Paso: Se compara la variación explicada y la variación
total.

variacion explicada ∑ (Ŷ - Y )2


r2 =
variacion total
r2 =
∑ (Yi - Y )2

51,2
r2 = = 0,707
72,4
5to Paso: Interpretación: 70,7% de las variaciones en el
incremento de peso, pueden explicarse por el consumo del
complemento nutricional.

87
Manual de Estadística Aplicada

Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda variación de Y
puede explicarse por X
Si r2 = 0 : no existe correlación entre X e Y. La variación
explicada es 0. La variable X no explica nada de los cambios
en Y

Resumen
0 ≤ r2 ≤ 1

Cuanto más cerca a uno, las variables tendrán mayor


correlación.

B) El coeficiente de correlación

Es la raíz cuadrada del coeficiente de determinación.

Sus valores oscilan entre -1 y 1


Cuando r es positivo, indica que X e Y están
directamente relacionados.
Cuando r es negativo, indica que X e Y están
inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión

Interpretación del coeficiente de correlación de Pearson


Fuerte Moderada Débil Débil Moderada Fuerte
Negativa Negativa Negativa Positiva Positiva Positiva

-1 -0,9 -0,5 0 0,5 0,9 1


Perfecta Perfecta
No existe
Negativa correlación Positiva

88
Jorge Córdova Egocheaga

Ejemplo:
r2= 0,707

r = 0,707
r = 0,84
el signo es positivo ya que X e Y están relacionados
directamente como lo indica el signo del coeficiente b1 en la
ecuación de regresión

Interpretación: El incremento de peso (Y) y el consumo del


complemento nutricional (X) se encuentran directamente
asociados.

7.6 DIAGNÓSTICO DE LA REGRESIÓN: ANÁLISIS


RESIDUAL

El análisis residual permite evaluar lo adecuado del modelo


de regresión que ha sido ajustado a los datos. También sirve
para detectar si los supuestos se cumplen.

A. Evaluación de lo adecuado de modelo ajustado


Los valores del error residual o estimado (ei) se define
como la diferencia entre los valores observados (Yi)

y los estimados ( Yi ) de la variable dependiente
para los valores dados de Xi

εi = Yi - Ŷi

Podemos evaluar lo adecuado del modelo de regresión


ajustado mediante el gráfico de los residuos (eje
vertical) con respecto a los correspondientes valores de
Xi de la variable independiente (eje horizontal).

89
Manual de Estadística Aplicada

Ejemplo

El gráfico muestra un adecuado ajuste entre el


crecimiento de peso y el consumo del complemento
nutricional. No se observa una tendencia.

Variable X 1 Gráfico de los residuales

1
Residuos

0
0 1 2 3 4 5 6
-1

-2

-3

Variable X 1

El análisis del gráfico nos brinda el criterio para adoptar el


modelo lineal o dejarlo de lado. Si fuese así, podríamos
probar con modelos no lineales como el cuadrático,
logaritmo o exponencial.

El análisis de residuos se complementa con el cálculo de los


residuos estandarizados (SRi), que resultan de la división del
residuo dividido por su error estándar.
εi
SRi =
SYX 1 − hi

En donde

90
Jorge Córdova Egocheaga

hi =
1
+
(X i − X )2
n
n
∑X
2
2
i − nX
i =1

Los valores estandarizados nos permiten tomar en cuenta la


magnitud de los residuos en unidades que reflejen la
variación estandarizada alrededor de la línea de regresión.

Análisis de los residuales


Observación Pronóstico para Y Residuos Residuos estándares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206

En el gráfico siguiente, los residuos estandarizados fueron


graficados en función de la variable independiente (cantidad
del complemento nutricional). Se puede observar de que
existe una dispersión amplia en la gráfica de residuos, no
existe un patrón evidente o una relación entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo de 0,
para diferentes valores de X. Podemos concluir que el
modelo ajustado parece ser adecuado.

91
Manual de Estadística Aplicada

R esiduos estándares

1. 5
1
0. 5
0
-0. 5 0 5 10 15 20

-1
-1. 5
-2

B. Evaluación de las suposiciones


a. Homoscedasticidad
b. Normalidad
c. Independencia: Los datos recolectados

7.7 MEDICIÓN DE LA AUTOCORRELACIÓN: DURBIN-


WATSON

Una de las suposiciones del modelo de regresión básico


es la independencia de los residuos. Esta suposición es
violada con frecuencia cuando los datos son recopilados en
periodos secuenciales, debido a que un residuo en
cualquier punto del tiempo puede tender a ser parecido a los
residuos que se encuentran en puntos de tiempo
adyacentes.

El estadístico D de Durbin-Watson mide la correlación de


cada residuo y el residuo del periodo inmediato anterior al
periodo de interés.

El estadístico D (Durbin-Watson)

92
Jorge Córdova Egocheaga

∑ (ε − ε i −1 )
2
i
D= i= 2
n

∑ε
i =1
i
2

En la que εi representa el residuo en el periodo i.

Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.

Si los resultados no están correlacionados, el valor D estará


cercano a 2.

Si se presentase una autocorrelación negativa, lo cual rara


vez sucede, de valor D tomará un valor mayor a 2 e, incluso
podría aproximarse a su valor máximo que es 4.
Los resultados de SPSS nos proporciona el valor de D de
Durbin-Watson
b
Model Summary

Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
Según este resultado permite afirmar que los residuos no
están correlacionados.

7.8 ESTIMACIÓN POR INTERVALOS

A. Intervalo de confianza para β 1


Lo que se va hacer es estimar
σ ε2 desconocido
SC x conocido

93
Manual de Estadística Aplicada

σ ε2 se estima mediante la siguiente formula:


 n
 (∑ Y ) 2

 − b 2 SC
∑
Y 2

n  1 x

S 2
=  i= 1

yx
n − 2

-t0 t0

Pr(−t 0 ≤ t ≤ t 0 )

 
 
 b −β 
Pr − t 0 ≤ 1 1 ≤ t 0  = 1− α
Syx
 
 SCx 

 S S 
Prb1 − t0 yx ≤ β1 ≤ b1 + t0 yx  = 1− α
 SCx SCx 

B. Intervalo de confianza para b0


 1 x  
2

b 0 ≈ Ν  β 0 ,σ ε2  +
  n SC  
  x 

b0 − β 0 b0 − β 0
= ≈ t n−2
S b0 1 x
2

S yx +
n SC x

donde: 
 Y2 − (∑ Y ) 2

 − b 2 SC
∑ n  0 x

S 2yx =  
n−2

94
Jorge Córdova Egocheaga

-t0 t0

Pr( −t 0 ≤ t ≤ t 0 )

 b − β0 
Pr  − t 0 ≤ 0 ≤ t0  = 1− α
 S b0 
 

( )
Pr b 0 − t 0 S b 0 ≤ β 0 ≤ b 0 + t 0 S b 0 = 1 − α

t0 con (n-2) grados de libertad y α

C. Intervalo de confianza para

 1 X −X
Ŷ ≈ N  µ y / X 0 , σ ε2  + 0
(2
) 
 n SC x 
  
Para un nivel dado de confianza, una variación aumentada
alrededor de la línea de regresión, medida a través del error
estándar de la estimación, tiene como resultado un intervalo
más amplio.

Sin embargo, como se esperaría, un tamaño de muestra


aumentado reduce el ancho del intervalo.

( )
Pr ŷ − t 0 S ŷ ≤ µ y / X 0 ≤ ŷ + t 0 S ŷ = 1 − α

donde:
 1 X − x2
S ŷ = S 2yx  + 0
( )
n SC x 
 

95
Manual de Estadística Aplicada

D. Intervalo de confianza para un valor individual


Además de obtener una estimación de intervalo de
confianza para el valor promedio, a menudo es
importante tener la capacidad de predecir la respuesta
que se obtendría para un valor individual.
  1 X − X  
Ŷ ≈ N µ y / X 0 , σ ε2  1 + + 0
2
( )
  n SC x  
 
El intervalo de predicción está estimando un valor
individual, no un parámetro.

(
Pr ŷ − t 0 S ŷ ≤ µ Y / X 0 ≤ ŷ + t 0 S ŷ = 1 − α )
donde:
 1 X −x
S ŷ = S 2yx  1 + + 0
2
( )
 n SC x 
 

7.9 ANÁLISIS DE VARIANZA DE LA REGRESIÓN SIMPLE

El análisis de varianza es una técnica que permite localizar


las fuentes de variabilidad que ayuden a explicar el
comportamiento de la variable dependiente.

SCtotal = SCerror + SCregresión


(SCresidual)

El cuadro de Análisis de
Varianza
Fuentes de Suma de Cuadrado F
variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresión
2
b SC X 1
2
b SC x
1
b12SCx
σε + β12SCx
2
S2yx
(∑Y) 2

σ ε2
Error
Experimental
∑Y 2

n
• b12SCx n − 2 S 2yx

Total SC total n −1

96
Jorge Córdova Egocheaga

Asumiendo que existe una regresión lineal,


determine:
A. La ecuación de regresión e interprete los coeficientes
de regresión.
B. El intervalo de confianza para b1y para un valor
individual si X=3,8.
C. El cuadro de ANOVA para la regresión lineal
D. El valor de cuando X = 5,1
E. La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F. Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.

Solución
Primero se realizan los cálculos necesarios:
n = 10
∑ Xi = 32,5
∑ Yi = 126
∑ Xi2 = 126,25
∑ Yi2 = 1660
∑ Xi Yi = 442
A. Cálculo de los coeficientes de regresión:
Ŷ = b 0 + b1X

b 0 = Y − b1 X

∑ X Y − ∑ n∑
X Y i i
442 −
(32,5 )(126 )
i i
10 32,5
b1 = = = = 1,57
( X) (32,5 )
∑X − ∑
2
2 i 126,25 − 20,62
i
n 10

b 0 = 12,6 − (1,57 )( 3,25 ) = 7,49

97
Manual de Estadística Aplicada

La ecuación de regresión será:


Ŷ = 7 ,49 + 1,57 X

Interpretación:
b0= Se espera que el peso que un niño que no consume
este complemento nutricional sea 7,49 Kg.
b1= Por cada Kg. de complemento nutricional, el peso del
niño se incrementará en 1,57 Kg.

B. Intervalo de confianza para b1

 S yx S yx 
Pr 1,57 − t (0 ,10 )(8 ) ≤ β 1 ≤ 1,57 + t (0 ,10 )(8 )  = 1 − 0,10
 SC x SC x 

 S S 
Pr 1,57 − 1,86 yx ≤ β 1 ≤ 1,57 + 1,86 yx  = 0,90
 4,54 4,54 

1660 −
(126 )2 − (1,57 )2 (20,62 )
10 72,7 − 50,82
S 2yx = = = 2,69
8 8

S yx = 1,642

  1,642   1,642 
Pr 1,57 − 1,86   ≤ β 1 ≤ 1,57 + 1,86    = 0,90
  4,54   4,54 

Pr {0,8973 ≤ β 1 ≤ 2,2427 } = 0,90

Interpretación: Hay 0,90 de confianza que el intervalo que se


ha construido, pertenezca al grupo de intervalos que
contienen al verdadero parámetro b1.Intervalo de confianza
para un valor individual

98
Jorge Córdova Egocheaga

Si X = 3,8 entonces Ŷ = 13,45

Pr {Ŷ − t 0 S Ŷ ≤ Yind ≤ Ŷ − t 0 S Ŷ } = 1 − α

Pr{13,45 − (1,86)S Ŷ ≤ Yind ≤ 13,45 − (1,86)S Ŷ } = 1 − α

1 (3,80 − 3,25 )
2
S Ŷ = 1,642 1 + + =
10 20,62

C. Análisis de Varianza
Fuentes de Suma de Cuadrado F
variabilidad Cuadrados GL Medio calculado E(CMe)
Debido a la
Regresión 50,82 1 50,82 18,84
Error
Experimental 21,58 8 2,697
Total
72,40 9

Interpretación: Se rechaza la hipótesis planteada. El


complemento nutricional si explica significativamente los
cambios en el peso de los niños.

D.Si X = 5,1
Ŷ = 7,49 + 1,57(5,51)
Ŷ = 16,14

E. Prueba de Hipótesis acerca de b1

1. Hp: β1= 0
Ha: β1≠ 0
2. α = 0,10
3. F = CMe regresión
c
CMe error
Supuestos
- La muestra seleccionada al azar

99
Manual de Estadística Aplicada

- La población se distribuye al azar


- Los valores de X fijas y de Y variables (o aleatorias)
- Asunciones de la regresión lineal simple

4. Criterios de decisión

F1-α/2 Fα/2

Si {5,32 ≤ Fc ≤ 0,0041}se rechaza la hipótesis planteada

5. Cálculos
50,82
Fc = = 18,84
2,697

6. Conclusiones
La variable “complemento nutricional” es apropiada para
explicar el comportamiento del “aumento de peso” en niños
desnutridos. Además, la ecuación de regresión puede ser
usada con fines de predicción hasta cierto límite.

F.¿ Para X = 6, que promedio de Y vamos a obtener?


{ }
Pr 16,91 − (1,86 )S Ŷ ≤ µ Y X0 ≤ 16,91 + (1,86 )S Ŷ = 1 − α
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6

100
Jorge Córdova Egocheaga

ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126

Coefic Error Estadíst Inferior Superior Inferior Superior


ientes típico ico t P-valor 95% 95% 95.0% 95.0%

Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448

Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

Ejemplo:
En la Farmacia Santa Rita, se desea determinar la relación
lineal simple entre la experiencia del vendedor y las ventas
durante un mes. Se seleccionan 5 vendedores, los datos
registrados se presentan a continuación:

VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL


EXPERIENCIA
(años):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10

Caso 1
Un equipo de profesionales en salud mental de un hospital
psiquiátrico donde el tiempo de permanencia es largo, quiere
medir el nivel de respuesta de pacientes retraídos mediante
un programa de terapia de remotivación. Para este propósito
se contaba con una prueba estandarizada, que era costosa y
su aplicación tomaba mucho tiempo. Para salvar este
obstáculo, el equipo creó una prueba más fácil de aplicar.

Para probar la utilidad de este nuevo instrumento para medir


el nivel de respuesta del paciente, el equipo decidió
examinar la relación entre las calificaciones obtenidas con la
nueva prueba y las calificaciones obtenidas con la prueba
estandarizada.

101
Manual de Estadística Aplicada

Paciente 1 2 3 4 5 6 7 8 9 10 11

Prueba nueva 50 55 60 65 70 75 80 85 90 95 100

Prueba estandar 61 61 59 71 80 76 90 106 98 100 114

Caso 2
Se llevo a cabo un experimento para estudiar el efecto de
cierto medicamento para disminuir la frecuencia cardiaca en
adultos. Se reunieron los siguientes datos: dosis en
miligramos del medicamento y la diferencia entre la
frecuencia cardiaca mas baja después de la administración
del medicamento y un control antes de administrarlo.

Dosis (mg) 1 1 1 1 2 2 2 2 3 3 3 3
Reduccion ritmo cardiaco 10 8 12 12 14 12 16 18 17 20 18 20

Determine la ecuación de regresión lineal y explique el valor


de los coeficientes de regresión. Calcule e interprete el
coeficiente de correlación y el coeficiente de determinación.

102
CAPÍTULO 8
REGRESIÓN Y
CORRELACIÓN
MÚLTIPLE

OBJETIVOS
Al finalizar el Capítulo 8, el participante será capaz de:
1. Construir un modelo utilizando dos o más variables
explicativas.
2. Probar una hipótesis para aceptar la validez de un
modelo de regresión múltiple
3. Realizar pruebas de hipótesis individuales para descartar
aquellas variables no significativas en un modelo de
regresión múltiple
4. Calcular en interpretar medidas de asociación múltiples.
5. Entender la importancia de los residuos en el análisis de
regresión.
Manual de Estadística Aplicada

8.1 EL MODELO

La regresión múltiple y el análisis de correlación múltiple


consiste en estimar una variable dependiente, utilizando dos
o más variables independientes.
El modelo genérico será

Yˆ = f ( X 1 , X 2 , X 3 ,....)
Variable Variables
dependiente independientes

Ejemplos

1. La cantidad de pacientes de enfermedades


respiratorias, dependen de la variación del clima, el nivel
nutricional del paciente y de la calidad de sus viviendas
entre otros factores.
2. La duración de la hospitalización depende del tipo de
afección, de la gravedad de la afección, de la presencia
de complicaciones, del sexo, de la edad y peso del
paciente, entre otros factores.
3. El nivel de colesterol de un paciente podría ser
explicado por la edad, el peso, el nivel de hemoglobina y
el perímetro abdominal.

La ventaja

Permite utilizar más información disponible para estimar la


variable dependiente de una manera confiable.

Proceso

En el proceso de regresión y correlación múltiple, se debe:

1. Describir la ecuación de regresión múltiple.


2. Examinar el error estándar de regresión múltiple de la
estimación.

104
Jorge Córdova Egocheaga

3. Utilizar la ecuación de regresión para determinar qué tan


bien describe los datos observados.

Alcance

1. Permite ajustar los datos tanto a curvas como a rectas.


2. Se puede incluir variables cualitativas, haciendo uso de
las “variables ficticias”.

8.2 LA ECUACIÓN DE REGRESIÓN MÚLTIPLE

La forma simbólica de la ecuación lineal con dos variables


independientes:

Donde :
Ŷ = b 0 + b 1 X 1 + b 2 X 2

Ŷ : Valor estimado correspondiente a la variable


dependiente
b0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente

Visualización:

Se puede representar una ecuación de regresión múltiple


con dos variables, como un plano

105
Manual de Estadística Aplicada

El método de mínimos cuadrados

El problema consiste en decidir cuál de los planos posibles


que podemos dibujar, será el que mejor se ajuste
El método de mínimos cuadrados garantiza que la suma de
los cuadrados de los errores es mínimo. Las ecuaciones
normales serán

∑ Y = nb + b ∑ X + b ∑ X
0 1 1 2 2

∑ X Y =b ∑ X +b ∑ X +b ∑ X X
1 0 1 1
2
1 2 1 2

∑ X Y =b ∑ X +b ∑ X X +b ∑ X
2 0 2 1 1 2 2
2
2

Donde bo, b1 y b2 son los coeficientes de regresión


estimados.

106
Jorge Córdova Egocheaga

Aplicación
En el siguiente caso, interesa construir un modelo para
determinar los niveles de colesterol, conociendo el peso (en
Kg), el diámetro de la cintura (en cms) y el nivel de
hemoglobina (en grs.)

COLESTEROL PESO CINTURA HEMOGLOBINA


250 76 80 13.5
220 61 72 12.1
200 50 70 11.6
350 94 122 12.5
210 55 75 13.5
205 61 95 14
285 80 120 12.5
190 52 68 14.5

Al aplicar las ecuaciones normales a los datos obtenemos


los siguientes coeficientes de regresión:

bo = 121,704 b1 = 2,949
b2 = 0,276 b3 = -7,843
Construyendo la siguiente ecuación de regresión:

Ŷ = 121,704 + 2,949 X1+ 0,276X2 - 7,843X3

8.3 EL ERROR ESTÁNDAR DE LA REGRESIÓN MÚLTIPLE


(SYX)
Es una medida de dispersión la estimación se hace más
precisa conforme el grado de dispersión alrededor del plano
de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

S yx =
∑ ( Y − Ŷ ) 2

n − k −1

107
Manual de Estadística Aplicada

donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la
ecuación de regresión
n : mínimo de datos
k : número de variables independientes

En los resultados de Excel se llama error típico y para el


caso de colesterol que se viene desarrollando es 14,89

8.4 EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R2)

Mide la tasa porcentual de los cambios de Y que pueden


ser explicados por X1, X2 y X3 simultáneamente.
SCregresión
r2 =
SCtotal
19950,57
r2 = = 0,95
20837,5
Interpretación: El 95% de los cambios en el nivel de
colesterol de un paciente puede ser explicado por el peso,
perímetro abdominal y nivel de hemoglobina.

Coeficiente de determinación múltiple ajustado (r2a)


Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n= número de datos
k= número de variables independientes
ra = 1 − (1 − r 2 )
2 n −1
n − k −1

8 −1
ra2 = 1 − (1 − 0,95 ) = 0,9125
8 − 3 −1

Coeficiente de correlación: r
r = r2

108
Jorge Córdova Egocheaga

Para el caso de colesterol, tenemos:


r = 0,95 = 0,9746
De acuerdo al valor de r podemos afirmar que las variables
peso, perímetro abdominal y hemoglobina se encuentran
asociadas en forma directa, de una manera muy fuerte.

Los resultados de Excel nos da la siguiente información:


Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r2 a
Error típico 14.89 Syx
Observaciones 8

8.5 LA PRUEBA GLOBAL DEL MODELO

No se debe perder de vista que como trabajamos con una


muestra, sólo tendremos estimaciones de los parámetros.

El modelo de la muestra es
Ŷ = b 0 + b 1 X 1 + b 2 X 2
Para el ejemplo será:

Ŷ = 121,704 + 2,949 X1+ 0,276X2 - 7,843X3


que estima al modelo de la población:
Y = βo + β 1X1 + β 2X2 + β 3X3

1. Formulación de hipótesis
Hp : b1 = b2 = b3 = 0
Ha : b1 ¹ b2 ¹ b3 ¹ 0

109
Manual de Estadística Aplicada

Si se acepta la hipótesis planteada, significa que ninguno de


los factores (X1,X2 y X3) son relevantes para explicar los
cambios en Y.

2. Determinación del nivel de significación


a = 0,10

3. Selección de la prueba estadística:


Se realiza a partir del Análisis de Varianza de la Regresión y
tiene como objeto aceptar o rechazar la validez del modelo.
CMeregresi ón
F=
CMeresiduo s

4. Determinación el criterio de decisión


El valor de F tabular se determina con 3 y 4 grados de
libertad y a/2 = 0,05
Si Fc es > 6,59 se rechaza la Hp

α/2=0,01
(1 -
α)
0,95

2
6,59
5. Cálculos
6650 ,19
Fc = = 29,99
221,73
Lo que se puede verificar con la salida de Excel.
El p-valor es 0,003 y como es menor al valor del nivel de
significación, por lo tanto se rechaza la Hp.

110
Jorge Córdova Egocheaga

Resultado en Excel
GL SC CMe F p-valor
calculado
Regresión 3 19950.57 6650.19 29.99 0.003
Residuos 4 886.926 221.73

Total 7 20837.5

6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la
alternante a un nivel de significación de 0,10. La
prueba resultó ser significativa.
B. Hay evidencia muestral suficiente para rechazar la
hipótesis planteada
C. Probablemente al menos uno de los factores
seleccionados (peso, diámetro de la cintura y
hemoglobina) explican el nivel de colesterol en un
paciente.

8.6 HIPÓTESIS SOBRE PARÁMETROS EN LA ECUACIÓN DE


REGRESIÓN

Una vez que se realiza la prueba global del modelo, y se


concluye que al menos uno de los factores tiene efecto
significativo sobre Y (nivel de colesterol), se deberá a probar
cada uno de los factores, a fin de determinar cuál o cuales
factores permanecen en el modelo, y cuales son
descartados.

(A) Hipótesis acerca de una pendiente individual: B1


Procedimiento
1) Planteo de hipótesis
Hp : b1 = 0
Ha : b1 ¹ 0
2) Nivel de significación
a = 0,10
3) Prueba estadística

111
Manual de Estadística Aplicada

b1 − B1
tc =
S b1

donde
bi : pendiente de la regresión ajustada
(muestra)

Bio : pendiente real hipotizada para la población


Sbi : error estándar del coeficiente de regresión

con los supuestos


a) La población normal con m, s2
b) La muestra fue seleccionada al azar
4) Criterios de decisión
t con Gl = n - k - 1
=8-3-1=6
α = 0,10

-1,94318 1,94318

Si (1,94318 ≤ tc ≤-1,94318) se acepta Hp, en caso


contrario se rechaza

112
Jorge Córdova Egocheaga

5) Cálculos
b − B
tc = 1 10
S b1

S yx
S b1 = = 0,704
∑ X 2 − n(x )
2

Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%

Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161

PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904

CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646

HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06


BINA

Reemplazando en la ecuación:
2 ,949 − 0
tc =
0 ,704

t c = 4 ,189
6) Conclusiones
A) Se rechaza la hipótesis planteada. Se acepta la
hipótesis nula.
B) Existe una diferencia suficientemente grande entre
el valor del estimador b1= 2,949 y el valor
hipotizado del parámetro b1= 0 y que nos permite
concluir que el factor X1 (peso del paciente) afecta
significativamente a Y (nivel de colesterol).
C) La variable X1 (peso) será considerada en el
modelo de regresión múltiple.

(B) Hipótesis acerca del coeficiente de correlación


poblacional: r (rho)
1. Planteo de hipótesis
Hp : r = 0

113
Manual de Estadística Aplicada

Ha : r ¹ 0
2. Nivel de significación
a = 0,05
3. Criterio de decisión:

-1,94318 1,94318

Si (1,94318 ≤ tc ≤-1,94318) se acepta Hp, en caso


contrario se rechaza

4. Prueba estadística
r n−2
tc =
1− r2

5. Cálculos
0,9746 8 − 2
tc = = 10 ,66
1 − (0,9746 )
2

6. Conclusiones
A) Se rechaza la hipótesis planteada, se acepta
la hipótesis alternante a un nivel de
significación de 0,10. La prueba fue
significativa.
B) La evidencia empírica permite afirmar que
existe una alta correlación entre los factores
peso, perímetro abdominal y hemoglobina.

114
Jorge Córdova Egocheaga

8.7 ANÁLISIS DE RESIDUOS

Multicolinealidad: Varias X tienen alta asociación entre


ellas.

Homoscedasticidad: Residuos constantes a lo largo de


toda la data.

115
Manual de Estadística Aplicada

116
CAPÍTULO 9
ANÁLISIS DE
SERIES DE
TIEMPO

OBJETIVOS
Al finalizar el Capítulo 9, el participante será capaz de:
1. Elaborar un modelo, que permita proyectar una
serie de datos, en un horizonte temporal
2. Desestacionalizar una serie histórica.
Manual de Estadística Aplicada

9.1 INTRODUCCIÓN

Los pronósticos o predicciones, son una herramienta


esencial en cualquier proceso de toma de decisiones.
La precisión de las predicciones depende de la calidad
de la información que se disponga
El análisis de las series de tiempo permite determinar
patrones en los datos recolectados a través del tiempo
Al proyectar estos patrones, se obtiene una estimación
para el futuro.

9.2 REPRESENTACIÓN GRÁFICA

Existen dos formas de graficar series temporales: diagrama


aritmético y diagrama logarítmico.

(A) Diagrama Aritmético:


La escala vertical es una escala ordinaria, cuyos intervalos
son de igual longitud. Cada intervalo representa, la misma
cantidad.
Año Ventas
Un diagrama de este tipo Millones de soles

representa la variación 1967


2,4
anual absoluta. 68
69
3,3
Ejemplo: Ventas de la 70
4,2
Compañía ABC 5,2
71
8,3
(1967-73) 72
15,6
73
17,1
Escala
Aritmética

118
Jorge Córdova Egocheaga

(B) Diagrama Logarítmico: Los intervalos en esta escala


no solo son diferentes en longitud, sino que esta
disminuye a medida que se aleja del origen. El diagrama
muestra la tasa porcentual de cambio anual de la serie.

9.3 VARIACIONES EN LAS SERIES DE TIEMPO

Las variaciones de una serie cronológica se clasifican en:

(A) Sistemática:

Ocurren en regularidad, pudiendo por lo tanto se medidas


estadísticamente y predecir su recurrencia futura. Pueden
ser: tendencia secular, fluctuación cíclica y variación
temporal.

(a) Tendencia Secular: El valor de la variable tiende


a disminuir o aumentar en un periodo muy largo (
largo plazo).

119
Manual de Estadística Aplicada

Se refiere a un aumento o disminución ¨estable¨ en el


tiempo. En el siguiente gráfico se muestra una tendencia
secular en una serie temporal creciente que fluctúa.

(b) Fluctuación Cíclica: Se caracteriza porque a


través del tiempo hay años en que el ciclo toma
valores mayores que la tendencia y otros años en
que toma valores menores que la tendencia.

El tiempo entre el pico y el punto más bajo, es


por lo menos 1 año, suele durar entre 15 - 20
años. Los ciclos no siguen un patrón regular.

(c) Variación Temporales o Estacional:


Son variaciones regulares o predecibles dentro de
un año.

Ejemplo: la venta de ropa abrigo en invierno y de


bebidas en verano.

120
Jorge Córdova Egocheaga

(B) Variaciones Aleatorias:

Son causadas por sucesos aislados, como guerras,


huelgas, terremotos, etc, en consecuencia, no pueden
se predecibles. En este caso el comportamiento de la
variable cambia en forma impredecible, es decir, en forma
aleatoria.

Ejemplo: La variación de los precios del pescado debido


a cambios en la Corriente del Niño.
Y

9.4 ANÁLISIS DE LA TENDENCIA(A) RAZONES PARA


ESTUDIAR TENDENCIAS

a) El estudio de tendencias seculares nos permite escribir


un patrón histórico.
b) El estudio de tendencias seculares nos
permite proyectar patrones parados (o tendencias),
hacia el futuro.

121
Manual de Estadística Aplicada

c) En muchas situaciones, el estudio de la tendencia


secular de una serie temporal nos permite eliminar la
componente de tendencia de una serie.

(A) Ajuste de la tendencia lineal: (Método de mínimos


cuadrados)
Ecuación
ŷ = b0 + b1x
A partir de las ecuaciones normales ya estudiadas se
puede deducir:

b1 =
∑ xy − n x y
∑ x - nx
b 0 = y - b1 x

(B) Codificación de la variable temporal:

Se codifica la variable temporal para simplificar los álculos,


si la serie es impar el año medio es cero, y hacia atrás
van los valores negativos y hacia adelante valores positivos
consecutivos.
Ejemplo:
X
Año Año Codificado
1990 -3
91 -2
92 -1
93 0 Año Medio
94 1
95 2
96 3

Si la serie es par el año medio es cero, pero no aparece en


la serie, pues se consideran semestres.Ejemplo:

122
Jorge Córdova Egocheaga

X X
Año Año Codificado
1991 -5
92 -3
93 -1 Año Medio = 0
94 1
95 3
1996 5

Ejemplo:
Número de intervenciones quirúrgicas en el Hospital María
Auxiliadora entre 1995 y 2002. Encontrar la ecuación que
describa la tendencia secular de las intervenciones.

AÑO (X) 1995 1 996 1997 1998 1 999 2000 2001 2 002
Núm ero de
98 105 116 119 135 156 177 208
intervenciones (Y)

Primero se elabora una tabla para los cálculos previos.

Año X Y XY X2
1995 -7 98 -686 49
1996 -5 105 -525 25
1997 -3 116 -348 9
1998 -1 119 -119 1
1999 1 135 135 1
2000 3 156 468 9
2001 5 177 885 25
2002 7 208 1456 49
TOTAL 0 1114 1266 168

Se calcula la pendiente (b1)

123
Manual de Estadística Aplicada

∑xy = 1266= 7,536


b1 = 2
∑x 168
b1 = 7,536

y la intersección
b0 = y

b0 =
∑y = 1114 = 139,25
n 8
Así, la secuencia lineal general, que describe la tendencia
secular de las intervenciones quirúrgicas es:
ŷ =b0 +b1x

ŷ = 139,25 + 7,536x

(C) Proyección de la ecuación de la tendencia

Si se tiene la ecuación de la tendencia, se puede proyectarla


para predecir la variable de interés.

Ejemplo:
Si ŷ = 139,25 + 7,536x y se desea estimar los cargamentos
para 1997.

Primero se desea convertir 1997 al valor de tiempo


codificado: como es una serie par, el intervalo es en
medio año.
x = 9 semestres
es decir, hay 9 semestres entre el “año medio” y 1997.

Sustituir este valor en la ecuación


ŷ = 139,25 + 7,536(9)
ŷ = 139,25 + 67,82

ŷ = 207 intervenciones quirurgicas

124
Jorge Córdova Egocheaga

(E) Ajuste de la tendencia parabólica

Muchas veces el modelo lineal de ajuste no describe


adecuadamente el comportamiento histórico de los
datos. Para salvar este inconveniente se suele utilizar
una curva parabólica, cuya forma general es:
2
y$ = a + bx + cx
Donde:
y$ = estimación de la
variable dependiente
a, b, c = coeficientes de
regresión

x = valor codificado de la
variable temporal

Búsqueda de los valores a, b, c


Utilizamos el método de mínimos cuadrados, de las cuales
se deducen las siguientes relaciones:
∑ y = an + c ∑ x 2

∑ x2y = a∑ x 2+ c∑ x4

∑ xy
b=
∑ x2
Una vez hallados los valores a, b, c, los sustituimos en la
ecuación de segundo grado.

Ejemplo: En los últimos años, las infecciones


postoperatorias en cirugías de no programadas. La tabla
siguiente muestra información acerca de las infecciones de
este tipo que nos será de ayuda para determinar la
tendencia parabólica que describe estas infecciones.

125
Manual de Estadística Aplicada

Año 1997 1998 1999 2000 2001


Infecciones 13 24 39 65 106

Elaboramos una tabla para los datos previos

Año X Y X2 X4 XY X2 Y
1997 -2 13 4 16 -26 52
1998 -1 24 1 1 -24 24
1999 0 39 0 0 0 0
2000 1 65 1 1 65 65
2001 2 106 4 16 212 424
TOTAL 0 247 10 34 227 565

Sustituyendo los valores de la tabla en las ecuaciones


anteriores, obtenemos.
247 = 5a + 10c 1

565 = 10a + 34 c 2
227 3
b=
10

De 3 , nos damos cuenta que:

b = 22.7

Ahora debemos encontrar a y c resolviendo las ecuaciones


y
1.- Multiplique la ecuación por dos, y resta la ecuación
de la ecuación .

126
Jorge Córdova Egocheaga

1 x2 494 = 10a + 20c


- 2 -565 = -10a - 34c
4 -71 = -14c
De la ecuación 4 , rápidamente encontramos el
valor de c
-14c = -71
c = -71/-14 c = 5.07

Sustituya el valor c en la ecuación


247 = 5a + 10c
247 = 5a + 10 (5.07)
247 = 5a + 50.7
196.3 = 5a
a = 39.3

Con los valores a, b, c se construye la ecuación de la


manera siguiente
2
y$ = a + bx + cx
y$ = 39.3 + 22.7x + 5.07x

¿Se ajusta la parábola a la serie temporal? Para esto se


debe graficar los datos y la curva.

127
Manual de Estadística Aplicada

Predicción
Suponga que deseamos predecir las ventas de relojes para
2002. El valor codificado de X es 3.
y$ = 39.3 + 22.7x + 5.07x 2
2
y$ = 3 9 .3 + 2 2 .7(3 ) + 5 .0 7(3 )

y$ = 3 9 .3 + 6 8 .1 + 4 5 .6 3

y$ = 1 5 3 .0 3

Para el año 2002 se estima 153 infecciones post operatorias


en cirugías no programadas.

Caso: Proyección de ventas En una Clínica de Lima, se


cuenta con un histórico de facturación mensual (en miles de
US $), desde enero de 1998 hasta junio del 2002.

Primero, se hace una evaluación de los pronósticos


empleando varios modelos, entre ellos:

medias móviles
medias ponderadas
pronóstico con suavizamiento exponencial
tendencia de pronóstico lineal
tendencia de pronóstico cuadrático
tendencia de pronóstico exponencial.

Para poder seleccionar el pronóstico más apropiado, se


puede considerar dos criterios:

MSE : Media de la Suma de los Errores (o


desviaciones) del pronóstico al cuadrado.
MAD : Desviación Absoluta Media, es el promedio de
los valores absolutos de todos los errores del
pronósticos.

128
Jorge Córdova Egocheaga

El modelo de pronóstico puede ser evaluado por


cualquiera de los dos criterios, pero el MSE es
influenciada por los errores grandes (ya que está al
cuadrado).

Se puede experimentar con varios modelos y elegir el


que genere el menor MSE o MAD.
VENTAS (en miles US $)
MES 1998 1999 2000 2001 2002
Enero 441.00 451.00 352.50 309.50 542.00
Febrero 434.50 543.50 314.50 250.50 382.00
Marzo 502.00 403.50 410.50 605.00 535.00
Abril 657.50 492.00 276.50 434.00 494.50
Mayo 606.50 299.50 357.50 456.00 468.00
Junio 364.00 797.00 323.00 382.00 560.50
Julio 417.50 263.00 274.50 543.50
Agosto 582.00 838.00 248.50 441.00
Septiembre 469.50 398.00 307.50 466.00
Octubre 406.50 462.50 361.00 583.00
Noviembre 506.50 396.50 333.50 620.00
Diciembre 832.00 380.50 302.00 360.00

Comparación entre el pronóstico con Medias Móviles y Medias


Ponderadas

Se elige el modelo que MES Ventas PMM EP EPC


presente el menor Error 1 441.00
Cuadrático Medio: MSE
2 434.50 459.17 42.83 1834.69
3 502.00 531.33 126.17 15918.03
Pronóstico con 4 657.50 588.67 17.83 318.03
Medias Móviles para 5 606.50 542.67 -178.67 31921.78
tres meses 6 364.00 462.67 -45.17 2040.03
50 382.00 486.33 48.67 2368.44
51 535.00 470.50 24.00 576.00
52 494.50 499.17 -31.17 971.36
53 468.00 507.67 52.83 2791.36
54 560.50
Suma de errores al cuadrado 474093
Error Cuadrático Medio 9117.18

129
Manual de Estadística Aplicada

Promedios móviles para tres meses

Actual
800 Predicted
Forecast
700 Actual
Predicted
600 Forecast
Ventas

500
Moving Average
400 Length: 3

300 MAPE: 23.8


MAD: 106.7
200 MSD: 21531.4

0 10 20 30 40 50
Time

Pronóstico con Media Ponderada para tres meses

MES Ventas PMP EP EPC Ponderaciones


1 441.00 Mes 1 0.2
2 434.50 469.55 32.45 1053.00 Mes 2 0.3
3 502.00 566.25 91.25 8326.56 Mes 3 0.5

4 657.50 600.9 5.60 31.36

51 535.00 484.15 10.35 107.12

52 494.50 489.35 -21.35 455.82

53 468.00 519.55 40.95 1676.90

54 560.50

Suma de Errores al Cuadrado 291910.64

Error Cuadrático Medio 5613.67

130
Jorge Córdova Egocheaga

Promedios móviles para tres meses


Row Period Forecast Lower Upper
1 55 507.667 220.064 795.269

Suavizamiento Exponencial para un a = 0.2


Row Period Forecast Lower Upper
1 55 494.661 248.938 740.384

Single Exponential Smoothing

850 Actual
Predicted
750 Forecast
Actual
650 Predicted
Forecast
Ventas

550

Smoothing Constant
450
Alpha: 0.200

350
MAPE: 22.8
MAD: 100.3
250 MSD: 17605.2

0 10 20 30 40 50
Time

Tendencia Lineal
Row Period Forecast
1 55 418.630

131
Manual de Estadística Aplicada

Tendencia Cuadrática
Row Period Forecast
1 55 418.630

Tendencia Cuadrática
Row Period Forecast
1 55 418.630

132
Jorge Córdova Egocheaga

Tendencia Exponencial
Row Period Forecast
1 55 405.787

¿Qué modelo se elige?


De acuerdo a lo expuesto, se puede tomar el MSE o el MAD.
Trabajaremos con el MAD. Veamos un resumen.

133
Manual de Estadística Aplicada

Modelo Forecast MAD


Promedio móviles 507.67 106.70
Suavizamiento exponencial 494.66 100.30
Tendencia lineal 418.63 106.70
Tendencia cuadrática 531.64 93.10
Tendencia exponencial 405.79 105.10

El modelo más apropiado es la Tendencia Cuadrática De


acuerdo a nuestro análisis, aún no se puede inferir que para
el periodo 55 (es decir julio del 2002), se proyecte una
ventas de 531,636.

Como se dispone de suficiente información, podemos


evaluar la estacionalidad mensual y hacer una proyección de
ventas más adecuada.
Procederemos a calcular el Índice de Estacionalidad
Mensual, para lo cual se ha tomado un intervalo de 3 meses
como intervalo.

Promedio Indice estacional Promedio Indice estacional


MES Ventas MES Ventas
Móvil 3 meses mensual Móvil 3 meses mensual
Ene-1998 441.00 Abr-2000 276.50 348.17 0.79415988511
Feb-1998 434.50 459.17 0.94627949183 May-2000 357.50 319.00 1.12068965517
Mar-1998 502.00 531.33 0.94479297365 Jun-2000 323.00 318.33 1.01465968586
Abr-1998 657.50 588.67 1.11693091733 Jul-2000 274.50 282.00 0.97340425532
May-1998 606.50 542.67 1.11762899263 Ago-2000 248.50 276.83 0.89765201686
Jun-1998 364.00 462.67 0.78674351585 Sep-2000 307.50 305.67 1.00599781897
Jul-1998 417.50 454.50 0.91859185919 Oct-2000 361.00 334.00 1.08083832335
Ago-1998 582.00 489.67 1.18856364874 Nov-2000 333.50 332.17 1.00401404917
Sep-1998 469.50 486.00 0.96604938272 Dic-2000 302.00 315.00 0.95873015873
Oct-1998 406.50 460.83 0.88209764919 Ene-2001 309.50 287.33 1.07714617169
Nov-1998 506.50 581.67 0.87077363897 Feb-2001 250.50 388.33 0.64506437768
Dic-1998 832.00 596.50 1.39480301760 Mar-2001 605.00 429.83 1.40752229546
Ene-1999 451.00 608.83 0.74076101834 Abr-2001 434.00 498.33 0.87090301003
Feb-1999 543.50 466.00 1.16630901288 May-2001 456.00 424.00 1.07547169811
Mar-1999 403.50 479.67 0.84120917304 Jun-2001 382.00 460.50 0.82953311618
Abr-1999 492.00 398.33 1.23514644351 Jul-2001 543.50 455.50 1.19319429199
May-1999 299.50 529.50 0.56562795090 Ago-2001 441.00 483.50 0.91209927611
Jun-1999 797.00 453.17 1.75873482898 Sep-2001 466.00 496.67 0.93825503356
Jul-1999 263.00 632.67 0.41570073762 Oct-2001 583.00 556.33 1.04793289395
Ago-1999 838.00 499.67 1.67711807872 Nov-2001 620.00 521.00 1.19001919386
Sep-1999 398.00 566.17 0.70297321166 Dic-2001 360.00 507.33 0.70959264126
Oct-1999 462.50 419.00 1.10381861575 Ene-2002 542.00 428.00 1.26635514019
Nov-1999 396.50 413.17 0.95966115369 Feb-2002 382.00 486.33 0.78546949966
Dic-1999 380.50 376.50 1.01062416999 Mar-2002 535.00 470.50 1.13708820404
Ene-2000 352.50 349.17 1.00954653938 Abr-2002 494.50 499.17 0.99065108514
Feb-2000 314.50 359.17 0.87563805104 May-2002 468.00 457.10 1.02384701502
Mar-2000 410.50 333.83 1.22965551672 Jun-2002 408.80

134
Jorge Córdova Egocheaga

Luego se calcula el Índice de Estacionalidad Mensual


promediando los índices mensuales de todos los años

Año Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
1998 0.9463 0.9448 1.1169 1.1176 0.7867 0.9186 1.1886 0.9660 0.8821 0.8708 1.3948
1999 0.7408 1.1663 0.8412 1.2351 0.5656 1.7587 0.4157 1.6771 0.7030 1.1038 0.9597 1.0106
2000 1.0095 0.8756 1.2297 0.7942 1.1207 1.0147 0.9734 0.8977 1.0060 1.0808 1.0040 0.9587
2001 1.0771 0.6451 1.4075 0.8709 1.0755 0.8295 1.1932 0.9121 0.9383 1.0479 1.1900 0.7096
2002 1.2664 0.7855 1.1371 0.9907 1.0238
Total 4.0938 3.4725 4.6155 3.8909 3.7856 3.6029 2.5823 3.4869 2.6472 3.2326 3.1537 2.6789
Media 1.0235 0.8838 1.1121 1.0016 0.9807 1.0974 0.8752 1.1689 0.9033 1.0287 1.0061 1.0184
I Típico 1.0150 0.8765 1.1029 0.9933 0.9726 1.0884 0.8680 1.1592 0.8959 1.0202 0.9978 1.0101

La suma de las medias debería dar 12.000000 pero por


errores de redondeo da 12.099513 por que hay aplicar un
factor de corrección igual a 0.991775427 (obtenido de dividir
12/12.099513) con el que se obtiene el INDICE TÏPICO.

9.5 ELIMINACIÓN DE LA ESTACIONALIDAD

Indice Típico Ventas Indice Típico Ventas


MES Ventas MES Ventas
de Estacionalidad Desestacionalizadas de Estacionalidad Desestacionalizadas
Ene-1998 441.00 1.0150347597 434.47 Abr-2000 276.50 0.99332087893 278.36
Feb-1998 434.50 0.87648360289 495.73 May-2000 357.50 0.97258760947 367.58
Mar-1998 502.00 1.10290746607 455.16 Jun-2000 323.00 1.08839199380 296.77
Abr-1998 657.50 0.99332087893 661.92 Jul-2000 274.50 0.86802445215 316.24
May-1998 606.50 0.97258760947 623.59 Ago-2000 248.50 1.15924489482 214.36
Jun-1998 364.00 1.08839199380 334.44 Sep-2000 307.50 0.89588944962 343.23
Jul-1998 417.50 0.86802445215 480.98 Oct-2000 361.00 1.02021148346 353.85
Ago-1998 582.00 1.15924489482 502.05 Nov-2000 333.50 0.99784212593 334.22
Sep-1998 469.50 0.89588944962 524.06 Dic-2000 302.00 1.01006128315 298.99
Oct-1998 406.50 1.02021148346 398.45 Ene-2001 309.50 1.01503475972 304.92
Nov-1998 506.50 0.99784212593 507.60 Feb-2001 250.50 0.87648360289 285.80
Dic-1998 832.00 1.01006128315 823.71 Mar-2001 605.00 1.10290746607 548.55
Ene-1999 451.00 1.01503475972 444.32 Abr-2001 434.00 0.99332087893 436.92
Feb-1999 543.50 0.87648360289 620.09 May-2001 456.00 0.97258760947 468.85
Mar-1999 403.50 1.10290746607 365.85 Jun-2001 382.00 1.08839199380 350.98
Abr-1999 492.00 0.99332087893 495.31 Jul-2001 543.50 0.86802445215 626.13
May-1999 299.50 0.97258760947 307.94 Ago-2001 441.00 1.15924489482 380.42
Jun-1999 797.00 1.08839199380 732.27 Sep-2001 466.00 0.89588944962 520.15
Jul-1999 263.00 0.86802445215 302.99 Oct-2001 583.00 1.02021148346 571.45
Ago-1999 838.00 1.15924489482 722.88 Nov-2001 620.00 0.99784212593 621.34
Sep-1999 398.00 0.89588944962 444.25 Dic-2001 360.00 1.01006128315 356.41
Oct-1999 462.50 1.02021148346 453.34 Ene-2002 542.00 1.01503475972 533.97
Nov-1999 396.50 0.99784212593 397.36 Feb-2002 382.00 0.87648360289 435.83
Dic-1999 380.50 1.01006128315 376.71 Mar-2002 535.00 1.10290746607 485.08
Ene-2000 352.50 1.01503475972 347.28 Abr-2002 494.50 0.99332087893 497.83
Feb-2000 314.50 0.87648360289 358.82 May-2002 468.00 0.97258760947 481.19
Mar-2000 410.50 1.10290746607 372.20 Jun-2002 408.80 1.08839199380 375.60

135
Manual de Estadística Aplicada

Tendencia de Ventas Desestacionalizadas

Utilizando los datos desestacionalizadas se procede a


construir un modelo de pronóstico

Las proyecciones de las ventas corregidas, quedarán de la


siguiente forma:

Periodo Mes Pronóstico Corregido


55 Jul-2002 507.27
56 Ago-2002 516.87
57 Sep-2002 526.86
58 Oct-2002 537.24
59 Nov-2002 548.02

136