Está en la página 1de 22

CORRELACION Y REGRESION

Ejercicios resueltos
Cuestiones
1. Calcular la media, desviacin estndar, varianza, intervalo, etc. utilizando los clculos intermedios y
funciones de Excel.
2. Dibujar un diagrama de dispersin.
3. Dibujar un diagrama de probabilidad normal para cada variable.
4. Calcular el coeficiente de correlacin.
5. Qu parte de la variacin observada en la concentracin cataltica de Fosfatasa alcalina (columna X )
se explica por la aproximadamente relacin linear con la ALT (columna Y )?
6. Determinar la ecuacin de regresin por mnimos cuadrados.
7. Hallar los residuales. Dibujar un diagrama de residuales, diagrama QQ de residuales y diagrama de
residuales frente a valores ajustados: es apropiado el modelo lineal?
8. Suponiendo un valor de x = 0,85 , cul es el valor esperado de y ?

Datos
Determinaciones de enzimas marcadores de hepatopata: fosfatasa alcalina y ALT.
Columna X:
resultados de determinar fosfatasa alcalina;
Columna Y:
resultados de determinar ALT

n = 49 supuestos pacientes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

X
0,10
0,20
0,10
0,20
0,10
0,01
0,01
0,10
0,90
0,80
1,00
0,80
0,01
0,01
0,30
0,20
0,10
0,01
0,10
0,60
1,19
2,40
0,01

Y
20
30
25
30
35
35
40
30
60
55
60
30
20
25
20
25
45
25
40
45
50
75
40

24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

0,58
1,30
1,20
2,40
1,50
1,40
2,00
2,50
2,50
1,25
1,50
1,90
2,40
2,41
2,38
1,50
2,00
2,50
1,20
2,00
2,40
2,60
2,00
1,50
2,38
2,39

35
60
65
80
65
65
65
70
75
60
65
70
70
60
85
50
60
70
60
65
90
80
70
60
65
80

El aspecto de los primeros 12 datos en Excel es:

El clculo de las cantidades necesarias para la realizar un estudio estadstico descriptivo se hace utilizando
las siguientes funciones1

frmula

funcin Excel

Suma

(1)

x
i =1
n

Suma de cuadrados

(2)

x
i =1

2
i

Para acceder a estas funciones, debe teclearse directamente la instruccin o acceder al men funciones, como se
explica en el Apndice A.
2

frmula

funcin Excel

(3)

Suma de productos

i =1

yi

El resultado es el siguiente:

frmula
Media

(4)

x =

1 n
xi
n i =1

(5)

s2 =

1 n
2
( xi x )

n 1 i =1

(6)

xi
1 n 2 i =1
2
s =
xi n
n 1 i =1

(7)

s = s2

Varianza

Desviacin tpica

funcin Excel

Los resultados, utilizando el clculo con las frmulas o directamente con las funciones es el mismo:

Una forma alternativa es utilizar la opcin

del men

Al pulsar

[ sobre esta opcin se abre la siguiente ventana:

y seleccionar

[ la opcin

con

para dar paso a la siguiente pantalla:

En el que hay que introducir en la ventana

las celdas que contienen las observaciones, indicando que estn agrupadas por columnas:

Ntese que al marcar ; en la opcin


se ha introducido la fila 1 en la definicin del
conjunto de observaciones. El resto de opciones se dejan por defecto.

Al

esta pantalla, en una hoja de clculo nueva aparece el resultado del anlisis descriptivo:

2. Dibujar un grfico de dispersin


Pulsar

[ en la barra de herramientas de Excel la opcin

Pulsar

[ en la opcin

que abre el men

para iniciar una serie de cuatro pasos del asistente para grficos en la

primera pantalla:

Seleccionar

[ la opcin

y pulsar

[ en

para acceder a la pantalla:

Es posible introducir cambios y rtulos utilizando las ventanas de la pestaa


y mejorar
estticamente el aspecto de los diagramas. Sin embargo, para simplificar esta exposicin se obviaran estos
detalles.

Pulsar

[ en

para acceder a la tercera pgina del asistente, donde se puede introducir la

informacin complementaria e introducir rtulos en el diagrama:

Pulsar

[ en

para acceder a la cuarta pgina:

que seala la ubicacin del diagrama de dispersin y se procede a finalizarlo


:

Situar el cursor y pulsar

[ sobre un punto cualquiera del diagrama

[ pulsando en

Abrir el men contextual pulsando el botn derecho del ratn

Seleccionar

] la opcin

Seleccionar

] la opcin

La pestaa

]:

para abrir el men siguiente:

abre la siguiente pantalla

Marcar

] ; en las opciones

[ pulsar en

para obtener el diagrama con una lnea recta orientativa del modelo que

puede seguir la relacin entre X e Y :

3. Dibujar un diagrama de probabilidad normal


Una forma prctica es utilizar la opcin
anteriormente para obtener la estadstica descriptiva:

del men

como se hizo

Al pulsar

[ sobre esta opcin se abre la siguiente ventana:

y pulsando

[,la opcin

se selecciona con

para dar paso a la siguiente pantalla:

En este men se entra el intervalo de celdas correspondientes a la variable Y , y a la variable X ,


mencionando si la primera celda contiene informacin del nombre de la variable:

10

Debe indicarse el destino de la informacin que Excel va a procesar, indicando la celda que ser el extremo
superior izquierdo de la salida (como se indica en este ejemplo) o si por el contrario se desea en una hoja o
libro aparte:

Para obtener un grfico de probabilidad normal, debe

y aceptar

[ pulsando

[ marcarse la correspondiente opcin:

para obtener el siguiente resultado:

junto con la informacin de la regresin:

11

y el correspondiente anlisis de la varianza y de los coeficientes de regresin que tendr inters desde el
punto de vista inferencial:

4. Dibujar un diagrama de probabilidad normal


Primeramente debe establecerse las clases en que clasificar los datos. En este ejemplo se han escogido 26
clases entre 0 y 2,6 con intervalos crecientes de 0,1 unidades:
0,1
0,2
0,3
0,4
0,5
0,6
0,7
etc.
Para hallar la frecuencia acumulada en cada clase se

[ situar el cursor en la celda que queda delante

de la definicin del primer grupo:

Y se proceder a insertar la funcin que proporciona la frecuencia acumulada. Para ello, se debe pulsar
en

y seleccionar

en el men:

12

Para que se abra el men correspondiente a la funcin:

entrando en Datos el intervalo de casos y en Grupos el cdigo de la primera celda de la lista de clases.
Pulsar

[ y en esta celda queda registrado el valor de la distribucin acumulada emprica. En la celda de

la derecha se expresar este valor en forma de fraccin dividiendo por n + 1 :

de forma que el aspecto de esta primera lnea es:

En la celda de la derecha se obtendr el correspondiente inverso de la distribucin normal insertando la


funcin apropiada: pulsando en

y seleccionando

13

en el men

Entrar pulsando

para obtener el men:

En el que se entra la celda donde est la probabilidad acumulada tecleando el cdigo de entrada y aceptar
para que devuelva el valor de z . Copiando los contenidos de estas tres celdas (en
pulsando
el ejemplo F2:H2) a todo el intervalo de clases, se obtiene la siguiente tabla:

14

Finalmente, se trata de dibujar un diagrama de dispersin entre la marca de clase (en abscisas) y el valor de
la desviacin de la distribucin normal estndar inversa ( z ) en ordenadas:

5. Calcular el coeficiente de correlacin de Pearson y de Spearman


Para el clculo del coeficiente de correlacin de Pearson se requieren los siguientes clculos intermedios:

frmula
Suma del cuadrado de las
desviaciones

Suma del producto de


desviaciones

S xx 2

SS yx 2

n
xi
n
2
= xi i =1
n
i =1

funcin Excel
2

n n
yi xi
n
= yi xi i =1 i =1
n
i =1

15

cov ( X , Y ) =

Covarianza
Coeficiente de correlacin de
Pearson

r=

S yx
n

S yx
S yy S xx

El resultado de aplicar las funciones Excel es:

El coeficiente de correlacin de 0,91 es sugestivo de que la relacin entre X e Y es lineal.


Una forma alternativa es utilizar el men

Y seleccionar

para obtener como resultado una matriz de correlacin:

6. Qu parte de la variacin observada en una variable se explica por la relacin


linear con la otra?
Para investigar la parte de la variabilidad en la concentracin cataltica de Fosfatasa alcalina ( X ) atribuible
2
a la variabilidad de ALT ( Y ), debe calcularse el coeficiente de determinacin R :
frmula
funcin Excel
Coeficiente de determinacin

S yx
R2 = r 2 =
S yy S xx

El resultado es:
Es decir, el 82,3 % de la variabilidad de X es atribuible a la variabilidad de Y .

7. Determinar la ecuacin de regresin por mnimos cuadrados


El modelo de regresin yi =

Pendiente
Interceptacin

+ xi + i

donde

i N ( 0, 2 )
frmula
S
= yx
S xx

= y x

16

implica los siguientes clculos:

funcin Excel

El resultado es:

El uso de la funcin
tambin permite estimar los valores de la pendiente y de la
interceptacin, sin embargo su utilizacin (algo ms compleja) es ms apropiada para clculos
inferenciales,.

8. Hallar los residuales. Dibujar un diagrama de residuales, diagrama QQ de


residuales y diagrama de residuales frente a valores ajustados: es apropiado el
modelo lineal?
Si en el men:

se ha

[ seleccionado la opcin

Puede a su vez

Al pulsar

[ seleccionarse las siguientes opciones para hacer un anlisis de residuales:

aparecen los siguientes datos:

Anlisis de los residuales


Observacin Pronstico Y
1 32,20679888

Residuos Residuos estndares


-12,2067989 -1,47656835

17

Resultados de datos de probabilidad


Percentil
Y
1,020408163
20

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

34,09774421
32,20679888
34,09774421
32,20679888
30,50494809
30,50494809
32,20679888
47,3343615
45,44341617
49,22530683
45,44341617
30,50494809
30,50494809
35,98868954
34,09774421
32,20679888
30,50494809
32,20679888

-0,49567454
-0,87175444
-0,49567454
0,337873378
0,543733985
1,148547896
-0,26694053
1,53207087
1,155990967
1,303336863
-1,86807859
-1,27070775
-0,66589384
-1,93403637
-1,10048845
1,547501199
-0,66589384
0,942687289

3,06122449
5,102040816
7,142857143
9,183673469
11,2244898
13,26530612
15,30612245
17,34693878
19,3877551
21,42857143
23,46938776
25,51020408
27,55102041
29,59183673
31,63265306
33,67346939
35,71428571
37,75510204

20
20
25
25
25
25
30
30
30
30
35
35
35
40
40
40
45
45

20 41,66152552 3,338474482 0,403831161

39,79591837

50

21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

41,83673469
43,87755102
45,91836735
47,95918367
50
52,04081633
54,08163265
56,12244898
58,16326531
60,20408163
62,24489796
64,28571429
66,32653061
68,36734694
70,40816327
72,44897959
74,48979592
76,53061224
78,57142857
80,6122449
82,65306122
84,69387755
86,73469388
88,7755102
90,81632653
92,85714286
94,89795918
96,93877551
98,97959184

50
55
60
60
60
60
60
60
60
60
65
65
65
65
65
65
65
70
70
70
70
70
75
75
80
80
80
85
90

52,81810295
75,69854141
30,50494809
41,28333645
54,89814281
53,00719748
75,69854141
58,68003346
56,78908813
68,1347601
77,58948673
77,58948673
53,95267014
58,68003346
66,24381477
75,69854141
75,88763594
75,32035234
58,68003346
68,1347601
77,58948673
53,00719748
68,1347601
75,69854141
79,48043206
68,1347601
58,68003346
75,32035234
75,50944687

-4,09774421
-7,20679888
-4,09774421
2,793201117
4,495051912
9,495051912
-2,20679888
12,6656385
9,556583828
10,77469317
-15,4434162
-10,5049481
-5,50494809
-15,9886895
-9,09774421
12,79320112
-5,50494809
7,793201117

-2,81810295
-0,69854141
9,495051912
-6,28333645
5,101857192
11,99280252
4,301458595
6,319966538
8,210911865
-3,1347601
-7,58948673
-2,58948673
6,047329856
6,319966538
3,75618523
-5,69854141
-15,8876359
9,67964766
-8,68003346
-8,1347601
-7,58948673
6,99280252
-3,1347601
14,30145859
0,519567941
1,865239903
1,319966538
-10,3203523
4,490553128

-0,34088557
-0,08449751
1,148547896
-0,76004986
0,61713484
1,450682758
0,520316399
0,764480735
0,993214743
-0,3791893
-0,91804543
-0,31323152
0,731501844
0,764480735
0,454358616
-0,68931142
-1,92181264
1,170877111
-1,049961
-0,98400321
-0,91804543
0,845868848
-0,3791893
1,72994422
0,062848384
0,225624608
0,159666825
-1,24837853
0,5431898

18

Y los grficos correspondientes a los residuales y a la recta ajustada

9. Suponiendo un valor de x = 0,85 , cul es el valor esperado de y ?

y = 18,909 x + 30,316
y = 18,909 0,85 + 30,316
y = 43,39

19

Apndice A. Acceso a las funciones Excel.


1. Colocar el cursor en la celda donde se va a colocar el resultado de la funcin. Por ejemplo, B52:

2. En la barra de utilidades aparecer la identificacin de la celda

3. Pulsar

[ sobre el signo

o en

y aparece el men correspondiente a la ltima funcin

solicitada:

4. Pulsando

[ el botn

se despliega una lista de las funciones utilizadas ms recientemente:

[ sobre el nombre oportuno, por ejemplo


. Si no es ninguna de estas,
y se abrir el men Pegar funcin
marcar [ la opcin
5. Pulsar

20

con diferentes posibilidades clasificadas por categoras. Marcar, por ejemplo

para

obtener

x
i =1

yi

y aceptar la seleccin con

para que se abra el men de la funcin en la hoja de clculo:

6. A esta ventana se puede acceder de forma ms directa pulsando


la tecla
el siguiente men:

7. Pulsar

[ en

21

directamente en
que hace aparecer

8. En la ventana

hay que introducir el intervalo de


n

datos correspondiente al primer factor de

x
i =1

yi : B2:B50. Alternativamente,

[ pulsando

se accede

a la hoja de clculo en modo marcar intervalo de celdas para identificar con el cursor el conjunto de
registros que se desea multiplicar. La ventana

que queda abierta indica el intervalo marcado. Finalizar

[ pulsando sobre el icono

de esta ventana

para regresar al men de la funcin.


Repetir este procedimiento para la ventana Matriz2, que tendr este aspecto:

Obsrvese como en la parte inferior de la ventana del men de funcin aparece el resultado de aplicar la
funcin:
.

Aceptar

[ pulsando en

Y en la celda de destino queda registrado este mismo resultado:

22

También podría gustarte