Está en la página 1de 32

MODULO 4

4.- ANLISIS DE REGRESIN Y CORRELACIN

Bibliografa bsica:
Berenson y Levine (1996) Estadstica para Administracin y Economa. 6. Ed.
Prentice Hall Hispanoamericana. Madrid.
Captulos: 17 (Apartados 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2)

4.1.

ANLISIS DE REGRESIN LINEAL

La idea de poder predecir cierto valor de una variable a partir del conocimiento del
valor de otra que la determina o influye ha llevado a desarrollar las tcnicas que
presentamos en este mdulo.
En particular, la idea es detectar si existe una relacin lineal entre dos variables,
una que llamaremos dependiente que es condicionada por los valores de otra que
denominamos independiente o explicatoria.

Diagrama de dispersin
Como siempre en Estadstica, un primer anlisis exploratorio grfico posibilita un
avance en el conocimiento sobre un fenmeno, aunque no de manera concluyente.
Un grfico da la posibilidad de visualizar rpidamente la posible existencia de una
relacin entre las variables de inters.
El diagrama de dispersin, de amplia aplicacin en el caso del anlisis de
regresin, consiste en la representacin de puntos en un sistema de ejes
cartesianos, donde los valores de la variable dependiente se indican en las
ordenadas y los de la variable independiente en las abscisas. Cada punto del
grfico corresponde con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el nombre de
nube de puntos.
Un diagrama de dispersin permite visualizar la forma de la relacin, pero siempre
debe tomarse precauciones (no confiar en las apariencias), por lo cual siempre
necesitaremos los test y estimaciones estadsticas. No obstante, destacamos que
la primera aproximacin grfica es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la lnea recta ser una aproximacin aceptable de la
relacin o no.
En el ejemplo de Diagrama de dispersin que mostramos a continuacin, la
variable Y (dependiente) indica, en el marco de un estudio sobre productividad

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-1-

laboral en el contexto fabril, el nmero de errores en una tarea repetitiva de un


ocupado en el mercado laboral, mientras que la variable X (independiente) seala
el nmero de horas seguidas de repeticin de la actividad. Para describir la
relacin aparente entre estas variables, podramos indicar que si bien en nuestra
muestra hay pocos casos con muy pocas horas de realizacin la tarea repetitiva, a
medida que ms horas se lleva a cabo continuamente la misma, el nmero de
errores resulta ms elevado. Con la intencin de ser ms especficos y sintticos al
mismo tiempo, el modelo de regresin lineal intenta asociar la relacin entre estas
variables a travs de una lnea recta que generalice esta vinculacin, despreciando
las oscilaciones especficas de cada caso particular respecto de la lnea recta que
indicara la estructura de la relacin entre experiencia y salario inicial.

Y = nmero de errores en una tarea repetitiva

Figura: Diagrama de dispersin

X = nmero de horas seguidas de repeticin de la actividad


Fuente: Elaboracin propia

Actividad:
1. Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una
escala proporcional de cada variable) la siguiente relacin:
Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-2-

Sucursal

Superficie del local de Ventas


diarias
venta (m2)
miles de $)

300

425

350

435

450

550

500

600

700

860

760

770

770

980

900

1100

1200

1240

10

1400

1500

11

2000

2400

12

2050

2200

13

2100

2080

(en

2. Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el


programa, invierta unos minutos en explorar, conocer cmo realizar buenos
grficos con las herramientas estndar le puede ser muy til.

El modelo de regresin lneal


Como a partir del diagrama de dispersin comenzamos a sospechar de una
relacin aproximadamente lineal (es decir, que tiene forma de lnea recta),
trataremos de ver si realmente podemos indicar la relacin a partir de este
modelo.
El modelo lineal puede sintetizarse de manera que represente una lnea recta
con la siguiente expresin:

Yi 0 1 X i i
Donde:

0 la interseccin u ordenada al origen poblacional

1 la pendiente poblacional
i error aleatorio en Y para la i-sima observacin

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-3-

Y = nmero de errores en una tarea repetitiva

Figura: Relacin lineal positiva

X = nmero de horas seguidas de repeticin de la actividad


Fuente: Elaboracin propia

El coeficiente representa la ordenada al origen, es decir, el punto en que la


recta corta al eje vertical.
El coeficiente es la pendiente de la recta, el cual indica el cambio en el valor
esperado de la variable Y cuando se produce un cambio en una unidad de X.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-4-

Figura: Diferentes ordenadas al origen


Ordenada al origen: 3,95

Ordenada al origen: 2,7

Ordenada al origen: 1,6

Fuente: Elaboracin propia con la herramienta de simulacin provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.html

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-5-

La relacin lineal es uno de los modelos que puede seguir la relacin entre dos
variables. En este caso, a su vez, la relacin puede ser positiva (tal como la
ejemplificada) o negativa. No obstante, la relacin podr a tener otra forma
(curvilnea, constante, etc.) que pudiera tener enorme inters terico y prctico,
que se trabaja con tcnicas ms sofisticadas que las que presentaremos en
este mdulo. La siguiente figura ilustra algunas de las situaciones posibles.
Figura: formas de la relacin entre dos variables
Relacin lineal positiva

Relacin lineal negativa

Relacin cuadrtica entre las variables

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-6-

Variables que aparentemente no poseen


relacin

Fuente: Elaboracin propia

Determinacin de la ecuacin de regresin lineal simple


Hasta el momento hemos visto que podemos sospechar de la relacin lineal
entre las variables, pero no presentamos la manera de deducir el valor de los
valores de los estimadores de la pendiente y la ordenada al origen en base a
datos de una muestra.
El Mtodo de mnimos cuadrados es una manera de obtener la ecuacin que
mejor ajusta a la nube de puntos, justamente minimizando la suma de los
cuadrados de los errores (o residuos).
Figura: Recta de mnimos cuadrados

La ecuacin de la recta

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-7-

Yi b0 b1 X i
que mejor ajusta la nube de puntos del grfico de dispersin es la que
minimiza la suma de los cuadrados de los residuos.
Esta manera de obtener los valores de b0 y b1, permite seleccionar una de
todas las posibles rectas (algunos ejemplos pueden observarse en la figura
siguiente) que podran ser utilizadas para describir la relacin. El mtodo de
mnimos cuadrados aporta un criterio para determinar esa recta. Este criterio
corresponde a determinar la recta en la cual los valores reales y los valores
predichos tienen la mnima distancia. Como puede observarse en la figura
previa, la recta de mnimos cuadrados, es la que tiene las menores distancias
totales (ej: la distancia vertical indicada en la figura). En cuanto a si las
diferencias (ej) entre la recta de regresin y los valores observados, no interesa
si las diferencias son por exceso o por defecto, por lo tanto, se trabaja con la
suma de desvos elevados al cuadrado.
Figura: Otras rectas de regresin posibles

Para obtener los valores de los estimadores de los parmetros de la recta de


regresin, se minimiza la expresin

min e12 min (Yi Yi ) 2 min (Yi b0 b1 X i ) 2

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-8-

Los valores b0 y b1 que minimizan la funcin se obtienen al igualar a cero las


derivadas parciales de la funcin respecto de cada uno de los parmetros.
Tales estimadores verifican tambin la condicin de segundo orden de un
mnimo (estudiada en las materias vinculadas con el Anlisis Matemtico).
A travs de este proceso se obtienen las denominadas ecuaciones normales,
que permiten despejar las frmulas de clculo de los estimadores de la
pendiente y la ordenada al origen respectivamente.
Ecuacin I:

n.b0 b1 . X i

Ecuacin II:

X Y

i i

b0 X i b1 . X i2

Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los


estimadores:
Pendiente:

b1 .

X Y nXY
X nX
i i
2
i

Ordenada:

bo . Y b1 X

Veamos en un ejercicio cmo se aplican todos estos conceptos.


Ejercicio:
Los siguientes datos corresponden a informacin sobre pautas de consumo de
individuos adultos de una ciudad metropolitana.
La variable X indica la edad del individuo (medida en aos), mientras que la
variable Y seala la cantidad de veces que salieron a comer fuera de su casa,
en ocasiones de esparcimiento, en el ltimo ao. Los datos consideran una
muestra reducida de individuos de la ciudad, por tratarse de un estudio piloto.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

-9-

Datos del ejercicio


X

60

23

62

23

61

25

55

25

53

26

60

26

63

29

53

30

52

30

48

32

49

33

53

31

Descripcin grfica de los datos bivariados


Diagrama de dispersin

Obtencin de los estimadores de la pendiente y la ordenada al origen


a) Las medias de las variables son:

X 55,75 aos

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 10 -

Y 27,75 veces que sale a comer por ao


b) Tabla auxiliar
La siguiente tabla facilita el clculo posterior, debido a la manera en que se
sistematizan los datos:
X

X2

XY

60

23

62

23

61

25

55

25

53

26

60

26

63

29

53

30

52

30

48

32

49

33

53

31

3600
3844
3721
3025
2809
3600
3969
2809
2704
2304
2401
2809
37595

1380
1426
1525
1375
1378
1560
1827
1590
1560
1536
1617
1643
18417

Suma:

c) Clculo del estimador de la pendiente

b1 .

b1 .

X Y nXY
X nX
i i
2
i

18417 12.27,75.55,75
37595 12.(55,75) 2

b1 .

18417 18564,75
37595 37296,75
b1 . 0,495

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 11 -

Tal como esperbamos de analizar el grfico de la nube de puntos, la


pendiente de la recta de regresin es negativa.
d) Clculo del estimador de la ordenada al origen

bo . Y b1 X
bo . 27,75 (0,495)55,75
bo . 55,37
Por lo tanto, la ecuacin estimada de la recta es:

Yi 55,37 0,495. X i

Si queremos usar los resultados para, por ejemplo, predecir la cantidad de


salidas a comer de un consumidor, de por ejemplo, 50 aos, reemplazamos en la
ecuacin estimada, el valor de X por este valor especfico de la variable
independiente:

Yi 55,37 0,495.50
Yi 30,6 salidas a comer al ao, por esparcimiento

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 12 -

Figura: Predicciones utilizando la recta de regresin


En una recta de regresin, para
como la indicada, obtenemos la
prediccin reemplazando en la
ecuacin a X por el valor que se
desee
considerar,
y
luego
realizamos los clculos indicados en
la ecuacin.
En base a la recta planteada,
cuando X=2,3, Y predicho ser 2,38

Cuando X=3,65, Y predicho ser


3,19

Cuando X=4,35, Y predicho ser


3,61

Fuente: Elaboracin propia con la herramienta de simulacin provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.html

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 13 -

Predicciones: para interpolar y no para extrapolar


Es muy importante que los valores de X que se utilicen para predicciones
correspondan al intervalo de valores considerados al calcular los estimadores
de los parmetros.
No corresponde aplicar el modelo obtenido a valores de la variable que
excedan los valores considerados en la regresin, ya que nada asegura que la
relacin se mantenga ms all del rango de valores de estudio.

Error estndar de estimacin


Como se puede observar si en el ejemplo anterior calculan todos los valores
predichos en base al modelo estimado para los valores de X disponibles, las
predicciones basadas en el modelo no son exactas.

Yi Yi

(Yi Yi ) 2

Yi

60

23

62

23

61

25

55

25

53

26

60

26

63

29

53

30

52

30

48

32

49

33

53

31

25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104

-2,637
-1,646
-0,141
-3,114
-3,104
0,363
4,850
0,896
0,400
0,419
1,914
1,896

6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593

Suma:

0,096

61,057

El error estndar de la estimacin es una medida que informa cunto varan los
datos reales en torno de la recta de regresin.

sYX

(Y
i 1

Yi ) 2

n2

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 14 -

Donde Yi es el valor predicho para el valor Xi.

Para el problema ejemplificado anteriormente, el error estndar de la


estimacin, es:

61,047
10

sYX

sYX 2,47
El error estndar de la estimacin es la medida anloga a la desviacin
estndar, y est expresada en la misma unidad de medida que la variable Y.
Pregunta para reflexin: si el error estndar de la estimacin es anloga a la
desviacin estndar calculada en base a datos muestrales, por qu cree que
en la frmula se divide en n-2? (Ayuda: piense en el concepto de grados de
libertad, y analice a qu se asocian las prdidas de grados de libertad en este
caso).
Bondad de ajuste de la regresin
Una vez que hemos encontrado la recta de regresin, necesitamos disponer de
alguna medida que indique en qu grado es buena (o no) la representacin que
permite hacer la esa recta del conjunto de puntos iniciales.
Para construir una medida, construiremos algunas sumas de cuadrados que
permitan luego integrar esa medida.
La suma de cuadrados total (SST) indica la variabilidad de los valores de Y
respecto de su media:

SST (Yi Y ) 2
i 1

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 15 -

Figura: Descomposicin de los desvos respecto de la media

Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada o


debida a la regresin (SSR) y variabilidad no explicada asociada con el error
(SSE).

SST SSR SSE


Para obtener cada una de estas medidas, aplicamos las siguientes frmulas de
clculo basadas en la parte del desvo respecto de la media que les
corresponde.
Suma de cuadrados debida a la regresin:
n

SSR (Yi Y ) 2
i 1

Suma de cuadrados debida al error:


n

SSE (Yi Yi ) 2
i 1

A partir de estas sumas de cuadrados, se puede definir una medida, el


coeficiente de determinacin o R2, que mide el grado en que la regresin
explica la variabilidad total del conjunto de datos:

R2

SSR
SST

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 16 -

Figura: Relacin entre SSR y SSE


En la barra se indica
qu
proporcin
corresponde a SSR (en
verde) y a SSE (en
rosa) de la variabilidad
total para la recta
obtenida.

Fuente: Elaboracin propia con la herramienta de simulacin provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.html

Obtengamos ahora el coeficiente de determinacin para el ejemplo que


estbamos desarrollando.
Para ello, completemos la tabla que tenamos, con los desvos que
necesitamos y las respectivas sumas de desvos al cuadrado

Yi Yi

(Yi Yi ) 2

Yi

60

23

62

23

61

25

55

25

53

26

60

26

63

29

53

30

52

30

48

32

49

33

53

31

25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104

-2,637
-1,646
-0,141
-3,114
-3,104
0,363
4,850
0,896
0,400
0,419
1,914
1,896

6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593

Suma:

0,096

61,057

Yi Y

(Yi Y ) 2

-2,113
-3,104
-2,609
0,364
1,354
-2,113
-3,600
1,354
1,850
3,831
3,336

4,466
9,636
6,806
0,132
1,834
4,466
12,957
1,834
3,422
14,679
11,128

1,354

1,834
73,195

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 17 -

(Yi Yi ) 2

Yi

60

23

62

23

61

25

55

25

53

26

60

26

63

29

53

30

52

30

48

32

49

33

53

31

25,637
24,646
25,141
28,114
29,104
25,637
24,150
29,104
29,600
31,581
31,086
29,104

6,951
2,708
0,019
9,694
9,636
0,132
23,518
0,8022
0,160
0,175
3,663
3,593

Suma:

61,057

(Yi Y ) 2

Yi Y

(Yi Y ) 2

4,466
9,636
6,806
0,132
1,834
4,466
12,957
1,834
3,422
14,679
11,128

-4,75
-4,75
-2,75
-2,75
-1,75
-1,75
1,25
2,25
2,25
4,25
5,25

22,5625
22,5625
7,5625
7,5625
3,0625
3,0625
1,5625
5,0625
5,0625
18,0625
27,5625

1,834
73,195

3,25
0

10,5625
134,25

La suma de cuadrados debida a la regresin:


n

SSR (Yi Y ) 2
i 1

SSR 73,195
La suma de cuadrados debida al error:
n

SSE (Yi Yi ) 2
i 1

SSE 61,067
La suma de cuadrados total:

SST (Yi Y ) 2
i 1

SST 134,25

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 18 -

El coeficiente de determinacin:

R2

R2

SSR
SST

73,195
134,25

R 2 0,545
Por lo tanto, la regresin a travs de la recta obtenida, explica el 54,5% de la
variabilidad total de la variable Y observada.

4.2.

ANLISIS DE CORRELACIN
El objetivo del anlisis de correlacin es cuantificar la intensidad de relacin
lineal entre dos variables cuantitativas.
El coeficiente de correlacin, es un indicador que se ubica en el intervalo [-1,
1], donde estos valores extremos indican correlaciones exactas entre las
variables:
-1 Correlacin negativa perfecta
1 Correlacin positiva perfecta

En problemas orientados a la regresin, el coeficiente de correlacin, r, puede


obtenerse a partir del coeficiente de determinacin:

r R2
En estos casos, en que corresponda a una regresin, el signo de r ser el signo
de b1.
Sin embargo, en muchas ocasiones hacemos un anlisis de correlacin
independiente del anlisis de regresin. En particular, debido a que el anlisis
de correlacin no exige fijar a ninguna de las variables como dependiente de la
otra.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 19 -

Diferentes grados de correlacin


En
este
caso,
existe
correlacin negativa perfecta.

una

Vemos una correlacin negativa,


que si bien no es perfecta es
claramente una correlacin fuerte
entre las variables.

El grado de relacin es inferior.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 20 -

La correlacin negativa es menos


intensa.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 21 -

Este grfico ilustra una situacin en


la cual no hay correlacin lineal
entre las variables.

Si bien existe una correlacin lineal


positiva, sta es muy dbil.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 22 -

La correlacin es algo mayor que


en los casos anteriores.

Ahora vemos
positiva fuerte.

una

correlacin

Una correlacin positiva an mas


marcada.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 23 -

Y, finalmente, una correlacin


positiva perfecta entre las variables.

Fuente: Elaboracin propia con la herramienta de simulacin provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.html

Tras analizar estos grficos, con su conocimiento de estadstica, qu informacin


est faltando? Haga un comentario crtico al respecto.

En los casos en los cuales no se aplica el anlisis de regresin, el coeficiente de


correlacin se calcula a travs de las siguientes frmulas:
Opcin 1:
n

(X
i 1

X )(Yi Y )

( X i X )2 .
i 1

(Y

i 1

Y )2

Opcin 2:
n

X Y
i 1

i i

nX .Y

X i2 nX 2 .
i 1

Y
i 1

n.Y 2

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 24 -

Supuestos del anlisis de regresin


Los supuestos en este caso, son similares a los que mencionamos para el ANOVA.
Los cuatro supuestos bsicos que deben controlarse son:
1. Normalidad
Es necesario que los valores de Y se distribuyan de manera normal para cada
valor de X. No obstante, el anlisis de regresin es bastante robusto en cuanto
a este supuesto, en tanto la distribucin no sea demasiado asimtrica.
A travs de grficos Q-Q o P-P, que tienen en cuenta la prueba de normalidad
de Kolmogorff-Smirnov es posible diagnosticar la normalidad de las
distribuciones.
2. Homocedasticidad
Para cada nivel de la variable X, la variabilidad o dispersin de los valores de Y
debe ser la misma. Es muy importante el cumplimiento de este supuesto para
la aplicacin del mtodo de mnimos cuadrados ordinarios. Este supuesto es
ms frecuentemente vulnerado en los estudios de corte transversal.
Existen diferentes herramientas para diagnosticarla, una de ellas es la prueba
de Levene sobre igualdad de varianzas.
3. Independencia de error
Los residuos o errores (diferencia entre el valor observado y el predicho) no
debe estar correlacionado con el valor de X. Este supuesto se ve afectado con
frecuencia en los estudios de series de tiempo.
Para verificar su cumplimiento, se analiza el estadstico Durbin Watson (DW).
Este indicador toma el valor de 2 cuando los residuos son completamente
independientes, en tanto si el DW resulta inferior a 2, indica autocorrelacin
positiva, y si DW es mayor que dos, hay autocorrelacin negativa.
4. Linealidad
La relacin entre X e Y es lineal.
Como medida de diagnstico se recomienda el anlisis grfico de la nube de
puntos a travs de los diagramas de dispersin.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 25 -

Ejercicios
Resuelva los siguientes ejercicios, si tiene dudas o consultas, envelas a su tutor
virtual.
1. Con los siguientes datos, plantee y resuelva 2 problemas distintos de
regresin lineal
Empleo (en miles)
28,4
3,6
2,4
25,9
27,2
2,0
6,2
2,8
23,5
13,4
2,2
6,3
10,7
2,0
1,1
3,2
0,7

Turismo:
Nmero de viajeros (miles)
11.902,5
1.848,0
1.088,2
6.716,0
4.875,7
933,8
3.647,6
1.805,1
10.771,7
5.579,7
1.000,7
3.040,5
5.748,9
882,5
557,7
1.540,6
446,2

Turismo:
Estancia media
3,1
2,1
2,3
7,2
7,8
2,4
1,7
1,7
3,4
3,9
1,7
2,1
2,1
3,0
2,0
1,9
1,8

Los datos corresponden a distintas ciudades tursticas del un pas.


Empleo: indica el nmero de personas en cada ciudad que tienen un empleo asociado
con el turismo.
La variable nmero de viajeros, indica la cantidad total de viajeros o turistas que le
ciudad recibe por ao
La estancia media indica cuntos das en promedio, permanece un turista en la
ciudad.

Actividades:
1. Determine si existe correlacin entre la series.
2. Relacione las variables y trate de armar una vinculacin entre dos variables de
las listadas, en las cuales pueda existir una causalidad.
3. Plantee el modelo de regresin lineal simple a estimar
4. Grafique la nube de puntos a travs de un diagrama de dispersin
5. Obtenga los estimadores de los parmetros del modelo
6. Calcule una medida de bondad de ajuste y explique su significado

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 26 -

2. Con la siguiente informacin, analice la correlacin entre las variables

Ao

1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007

PIB
Consumo Hipotecas Viviendas
construccin
de
(valores
a
Cemento constantes) Construir
403.822
296.432
162.909
3.383
377.465
287.559
179.347
3.607
396.944
310.719
215.490
5.116
451.070
349.314
277.880
6.375
529.679
373.310
344.324
6.264
593.644
444.370
390.794
7.486
638.578
501.691
428.410
7.763
702.334
485.614
534.140
7.910
723.412
497.092
698.667
7.822
743.513
504.946
806.633
7.132
775.183
507.362
958.913
10.496
818.717
525.357
1.121.994
12.966
531.342
1.318.888
14.906

Empleo

65.294
63.612
64.268
75.728
86.031
90.260
97.318
103.272
107.684
110.478
115.640
125.699
137.097

Obtenga los coeficientes de correlacin entre las series y explique su


significado.

3. La tabla siguiente resume las puntuaciones de 10 individuos (N=10) en


dos variables X e Y.
X
1
2
3
4
5
-5
-4
-3
-2
-1

Y
1
4
9
16
25
25
16
9
4
1

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 27 -

4. La tabla siguiente recoge las puntuaciones de 10 individups (N=10) en


dos variables X e Y.

X
1
2
3
4
5
6
7
8
9
10

Y
2
4
6
8
10
12
14
16
18
20

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables? Indicar un
ejemplo.

5. La tabla siguiente recoge las puntuaciones de 10 individuos (N=10) en


dos variables X e Y.
X
4
4
4
4
4
4
4
4
4
10

Y
5
6
4
5
6
7
4
3
5
15

Actividades:
a. Calcular el coeficiente de correlacin de Pearson
b. En este caso el coeficiente calculado es adecuado para representar el
patrn de covariacin que muestran los datos?. por qu?. Ayuda:
construya el diagrama de dispersin. Elabore una conclusin

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 28 -

c. Qu relacin podra estar descripta por esas variables? Indicar un


ejemplo.
d. En base a los ejercicios 3, 4 y 5, elabore una conclusin general.

6. En una muestra de 10 personas se obtuvo informacin referida al


grado de extroversin, y se desea evaluar su posible relacin lineal
con la dimensin de personalidad estabilidad emocional. Estas
variables se han medido a travs un test y se han obtenido las
puntuaciones para cada sujeto en una escala de 0 a 10. Los valores
obtenidos se presentan en la siguiente tabla:
Sujetos X: Grado de
Extroversin
5
1
10
2
4
3
7
4
6
5
5
6
4
7
4
8
4
9
10
3

Y: Estabilidad
Emocional
6
6
3
8
6
3
5
9
10
9

Actividades
a. Realice un diagrama de dispersin. Sugerencia: intente hacerlo usando
alguna herramienta informtica como Excel.
b. Estime la ecuacin de regresin lineal simple.
c. Cul es el nivel de estabilidad predicho para un sujeto cuyo grado de
extroversin es cero?. Este valor corresponde a algn coeficiente de la
recta calculada?
d. En cunto se diferenciaran las puntuaciones ajustadas de dos sujetos con
puntuaciones consecutivas en grado de extroversin? Este valor
corresponde a algn coeficiente de la recta calculada?
e. Complete la tabla anterior aadiendo para cada sujeto su puntuacin
f.

predicha ( Y ) y el error cometido.


Identifique al sujeto mejor ajustado por la relacin lineal estimada y al peor.

7. Se obtienen los siguientes estadsticos con las notas de 100 alumnos


en las asignaturas X= Estadstica 1, e Y= Estadstica 2.

X 6,

Y 7,

X X

360,

Y Y

240,

X X Y Y 300

a. Estimar la ecuacin de regresin de Y sobre X

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 29 -

8. Con los datos de una muestra de 300 individuos hemos estimado la


ecuacin de regresin que relaciona aos trabajados y estrs laboral y
hemos obtenido la siguiente ecuacin:

Y 10 0,05 X
Tenga en cuenta que:
la escala de estrs puede tomar valores entre 1 y 30
que la media fue de 15
Indicar cules de las siguientes afirmaciones son correctas y justificar:
a) A mayor nmero de aos trabajados mayor estrs.
b) 0,05 es la media de estrs de los sujetos que no trabajan
c) A mayor nmero de aos trabajados menor es el estrs.
d) -10 es el estrs medio estimado de aquellas personas que no trabajan
e) El ao prximo, si sigues trabajando, tu nivel medio de estrs se
incrementar en 0,05 puntos.

9. A un propietario de departamentos para alquilar le interesa averiguar


si la renta de sus departamentos son tpicas
Para ello, ha escogido una muestra aleatoria de 11 alquileres y del
tamao de los departamentos de edificios similares. Los datos se
transcriben a continuacin.
Renta
230
190
450
310
218
185
340
245
125
350
280

Nmero de habitaciones
2
1
3
2
2
2
2
1
1
2
1

a. Desarrollar el modelo de regresin lineal simple que mejor describa estos


datos e interpretar los coeficientes de regresin.
b. Graficar los datos y ajuste al grafico la lnea recta obtenida.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 30 -

c. Calcular, interpretar los coeficientes de correlacin y de determinacin, y


estimar la renta de un departamento de 2 habitaciones.

10. Un encargado de costos desea predecir los costos C (en millones de


pesos), basndose en la cantidad de insumos de materias primas M
(cientos de kilos) que recibe un fabricante de pantalones.
Costos
10
7
5
6
7
6

Materia prima
25
20
16
17
19
18

a. Determinar el modelo de regresin lineal simple.


b. Graficar la nube de puntos y la recta de regresin obtenida
c. Obtener un indicador de bondad de ajuste y explicarlo

11. Una cadena nacional de tiendas ha tenido grandes fluctuaciones en


sus ingresos durante los ltimos aos. Bastantes ofertas, nuevos
productos y tcnicas de publicidad se han utilizado durante este
tiempo, por lo cual es difcil determinar cules de esos factores tienen
la influencia ms profunda en las ventas.
El rea de marketing ha estudiado varias relaciones y piensa que los
gastos mensuales destinados a carteles pueden ser significativos.
Realiz una muestra de 7 meses y descubri lo siguiente:
Gasto mensual en carteles (en miles
de pesos)
250
260
420
340
100
210
190

Ingresos mensuales por venta


(millones de pesos)
340
140
480
320
260
290
200

a. Desarrollar el modelo de regresin lineal simple que mejor describa estos

datos y calcular el error estndar de estimacin.

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 31 -

12. En la contabilidad de costos, con frecuencia se trata de estimar los


gastos indirectos basndose en el nmero de unidades producidas.
La gerencia de una empresa manufacturera, ha reunido informacin
sobre esos gastos y las unidades producidas en diferentes plantas y
le gustara estimar una ecuacin de regresin para predecir los gastos
indirectos en el futuro.
Gastos indirectos (en miles de pesos)
191
170
272
155
280
173
234
116
153
178

Unidades producidas (en miles)


40
42
53
35
56
39
48
30
37
40

a. Desarrollar la ecuacin de regresin


b. Interpretar los parmetros del modelo
c. Estimar el gasto general cuando se producen 50 unidades.

d. Calcular e interpretar el error estndar de estimacin, los coeficientes de


correlacin y de determinacin.
13. Qu tipo de correlacin (positiva, negativa o cero) debemos esperar
de estas variables?
a) Capacidad de los supervisores y productividad de sus subordinados
b) Antigedad en su trabajo de tiempo completo y nmero de aos de
escolaridad

Materia: HERRAMIENTAS MATEMTICAS V ESTADSTICA II


Profesora: Vernica Herrero

- 32 -

También podría gustarte