Está en la página 1de 48

Tabla de contingencia

Correlacin
Regresin lineal

Estadstica descriptiva: Anlisis bivariado


Giancarlo Sal y Rosas
Departmento de Ciencias
Pontificia Universidad Catlica del Per

April 11, 2016

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Outline

Tabla de contingencia

Correlacin

Regresin lineal

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Estudio de tuberculosis
La siguiente tabla muestra el sexo de la persona (X ) y el
estatus de VIH reportada por esta (Y )

Estatus de VIH
Negativo
Positivo
No se sabe

Sexo de la persona
Hombre
Mujer
30
30
3
1
10
5

Existe alguna relacin el sexo de la persona y el tener


VIH ?
En que grupo observamos mas casos de VIH ?
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Tripulacin del Titanic


La distribucin de los pasajeros y tripulacin del Titanic y su
destino se presentan en la siguiente tabla:

Vivo
Muerte
Total

Primera
203
122
325

Clase
Segunda Tercera
118
178
167
528
285
706

Tripulacin
212
673
885

Total
711
1490
2201

Sea X la variable clase de tripulante y Y la variable estatus de


vida (vivo o muerto).
Estan las variables asociadas ?
Daba lo mismo ir en primera, segunda o tercera clase ?
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Tipos de distribuciones
Marginal: Es la distribucin de frecuencias de una de las
variables.
La distribucin de frecuencias del sexo de los participantes
La distribucin de frecuencias del conocimiento del estatus
de VIH en los participantes.

Condicional: Es la distribucin de frecuencias de una de


las variables dado un valor de la otra variable:
La distribucin de frecuencias del conocimiento del estatus
de VIH dado que el participante es hombre.
La distribucin de frecuencias del conocimiento del estatus
de VIH dado que el participante es mujer.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Table: Distribucin marginal: Estatus de VIH

Categoria

Frecuencia

Negativo
Positivo
No sabe
Total

60
4
15
79

Frecuencia
relativa
0,759
0,051
0,19
1,0

Porcentaje
75,9 %
5,1 %
19,0 %
100 %

Table: Distibucin marginal: Sexo de la persona

Categoria
Hombre
Mujer
Total

Frecuencia
43
36
79
EST 103

Frecuencia
relativa
0,544
0,456
1,0
Estadstica descriptiva

Porcentaje
54,4 %
45,6 %
100 %

Tabla de contingencia
Correlacin
Regresin lineal

0.6
0.4
0.0

0.2

Frecuencia relativa

0.8

1.0

Distribucin marginal

Negativo

Positivo

No se sabe

Figure: Distribucin del estatus de VIH reportado por los


participantes
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

0.6
0.4
0.0

0.2

Frecuencia relativa

0.8

1.0

Distribucin marginal

hombre

mujer

Figure: Distribucin del sexo de los participantes


EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Distribucin condicional

Table: Distribucin Condicional: Estatus de VIH en hombres

Categoria

Frecuencia

Negativo
Positivo
No sabe
Total

30
3
10
43

EST 103

Frecuencia
relativa
0,7
0,1
0,2
1,0

Estadstica descriptiva

Porcentaje
70,0 %
10,0 %
20,0 %
100 %

Tabla de contingencia
Correlacin
Regresin lineal

Distribucin condicional

Table: Distribucin Condicional: Estatus de VIH en mujeres

Categoria

Frecuencia

Negativo
Positivo
No sabe
Total

30
1
5
36

EST 103

Frecuencia
relativa
0,83
0,03
0,14
1,0

Estadstica descriptiva

Porcentaje
83,3 %
2,8 %
13,9 %
100 %

Tabla de contingencia
Correlacin
Regresin lineal

0.8

Distribucin condicional

0.0

0.2

0.4

0.6

Negativo
Positivo
No se sabe

hombre

mujer

Figure: Distribucin condicional del estatus de VIH para hombres y


mujeres
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

1.0

Distribucin condicional

0.0

0.2

0.4

0.6

0.8

Vivo
Muerto

Primera clase

Segunda clase

Tercera clase

Tripulacin

Figure: Distribucin condicional del estatus de viva de acuerdo al tipo


de pasajero
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Table: Porcentaje de consumo de marihuana y otras drogas en


poblacin adulta en 11 paises desarrollados

Pais
Republica Checa
Dinamarca
Inglaterra
Finlandia
Irlanda
Italia
Irlanda del norte
Noruega
Portugal
Escocia
EEUU

% de consumo
de marihuana
22
17
40
5
37
19
23
6
7
53
34
EST 103

% de consumo
de tras drogas
4
3
21
1
16
8
14
3
3
31
24

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

25

30

20

15

10

% consumo otras drogas

10

20

30

40

% consumo de marihuana

EST 103

Estadstica descriptiva

50

Tabla de contingencia
Correlacin
Regresin lineal

Sea X el % de consumo de marihuana y sea Y el % de


consumo de otras drogas.
El patrn en el grfico sugiere una asociacin positiva.
A mayor % de consumo de marihuana, mayor % de
consumo de otras drogas
A menor % de consumo de marihuana, menor % de
consumo de otras drogas

Preguntas:
Cun fuerte es esta asociacin ?
Si tuvieras que poner un nmero entre 0 y 1 para la
asociacin, cunto pondria ?

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Para no depender de la escala, es crucial estandarizar los


datos. Es decir lugar de graficar (x, y ), graficamos


Y Y
X X
,
(zX , zY ) =
SX
SY
donde
n

X
=1
X
Xi
n
i=1
n
X
=1
Y
Yi
n
i=1

1 X
)2
,
=
(Xi X
n1
i=1
n
X
1
)2
, SY2 =
(Yi Y
n1
Sx2

i=1

son la media y la varianza muestral de X e Y , respectivamente.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

2.0

Marihuana y otras drogas

1.5

0.5

0.0

0.5

1.0

Y estandarizado

1.0

1.0

0.5

0.0

0.5

1.0

1.5

X estandarizado
EST 103
Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Marihuana y otras drogas


Para los puntos en verde, ambos zs son positivos o
negativos.
En ambos casos el producto zx zy es positivo.

Por otro lado para los puntos en rojo, zx y zy tienen signos


opuestos
En ambos casos, su producto zx zy es negativo

Podemos resumir la fuerza y direccin de la asociacin


con
n
X
zx zy
i=1

Puntos lejos del origen tiene valores grandes de z y


contribuyen mas a la suma
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Definicin
No queremos que este nmero dependan de la cantidad
de datos:
La correlacin debe la misma aun cuando tenemos 1000 o
2000 datos.

Para solucionar esto, los estadsticos lo dividimos pr n 1


Pn
zx zy
rxy = i=1
n1
La divisin por n 1 logra dos cosas:
Ajusta el estimador por el nmero de datos
Hace que la correlacin este entre 1 y 1
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Definicin
Si usamos la data original la formula anterior se puede
expresar como
n
X

rxy

n
X
(xi x )(yi y )

zx,i zy ,i

i=1

n1

= vi=1
uX
u n
t (xi x )2 (yi y )2
i=1

n
X
(xi x )(yi y )

i=1

(n 1)sx sy

n
X

xi yi nx y

i=1

(n 1)sx sy

que es la formula mas popular para describir la correlacin de


Pearson.
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Supuesto y condiciones


La correlacin mide la fuerza de la correlacin lineal entre
dos variables cuantitativas.
Para interpretar una correlacin uno debe asumir que
existe una relacin lineal subyacente entre las variables X
e Y.
Esto casi nunca lo sabemos: Lo que si podemos hacer es
revisar nuestros datos y chequear si este supuesto es
pausible
Esta ultima afirmacin se reduce por lo general a pensar
como la data fue recogida o mirar un grfico que la
describa.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Supuestos y condiciones


Al mirar un grfico, hay tres condiciones que uno debe
entender antes de usar la correlacin
Variables cuantitativas: Variables categoricas y
correlacin no se conocen ni se conoceran
Evidencia de linea: Deberiamos ser capaces de mirar
una linea (razonable) en el diagrama de dispersin
Valores extremos /atpicos: Mucho cuidado con estos
pues pueden cambiar el signo de la correlacin. Es facil
descubrirlos en el diagrama de dispersin.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Propiedades
El signo de la correlacin nos brinda la direccin de la
asociacin:
rxy > 0: Correlacin positiva
rxy < 0: Correlacin negativa

La correlacin esta siempre entre 1 y 1.


La correlacin trata a X e Y de manera simtrica. Es decir
rxy = ryx
La correlacin no tiene unidades de medicin.
La correlacin no se afecta si realizamos una
transformacin lineal de X y/o Y
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Propiedades
La asociacin lineal perfecta entre dos variables X e Y se
da si y solo si
rxy = 1
El grado de la fuerza se mide en el valor absoluto de rxy y
la relevancia del valor de rxy depende del area en que se
este trabajando:
En Gestin, economia y ciencias contables un valor de rxy
mayor de 0,5 es lo que se busca.
En Econmia, Sociologia y Ciencias Polticas un valor de
rxy mayor de 0,8 es lo que se busca.
En medicina, un valor de |rxy | > 0, 3 es un valor importante.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Consumo de marihuana y/o otras drogas


Pais
Republica Checa
Dinamarca
Inglaterra
Finlandia
Irlanda
Italia
Irlanda del norte
Noruega
Portugal
Escocia
EEUU
Total

X
22
17
40
5
37
19
23
6
7
53
34

Y
4
3
21
1
16
8
14
3
3
31
24

EST 103

zx
0.12
0.44
1.03
1.22
0.84
0.32
0.06
1.15
1.09
1.87
0.65

zy
0.75
0.84
0.91
1.04
0.43
0.36
0.23
0.84
0.84
1.89
1.21

Estadstica descriptiva

zx zy
0.09
0.37
0.94
1.27
0.36
0.12
0.01
0.97
0.92
3.53
0.79
9.33

Tabla de contingencia
Correlacin
Regresin lineal

Consumo de marihuana y otras drogas


La correlacin esta dada por
rxy =

9.33
= 0.93
11 1

La otra forma es calcular


= 23.9
X

= 10.2
Y

n
X

xi yi = 4548

i=1

SX = 15.6 , SY = 10.2
entonces
rxy =

4549 11 23.9 10.2


= 0.93
(10 1) 15.6 10.2
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Pearson: Interpretacin

25

30

20

15

10

% consumo otras drogas

10

20

30

40

50

% consumo de marihuana

Interpretacin: Existe evidencia de una relacin lineal


positiva muy fuerte entre el % de consumo de marihuana y
el % de consumo de otras drogas.
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Correlacin 6= Causalidad
Un diagrama de dispersin del costo en soles causado a
casa por incendios y el nmero de bomberos que acuden
a apagar este, mostrara que estas variables tiene una alta
correlacin.
Note que hay una relacin positiva entre estas dos
variables: A mayor bomberos probablemente se de un
mayor costo de los daos causado por el incendio.
Esto haria que usted no llame a los bomberos ?
En este ejemplo: Las dos variables estan relacionadas
pero no existe causalidad entre estas.

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Correlacin 6= Causalidad
Aun si la correlacin entre dos variables se debe a una
relacin causal, por si misma no nos puede decir que
causo que:
(X causa Y o Y causa X )

El concepto de causalidad esta asociado a un


experimento.
Ejemplo:
Por muchos aos se tuvo evidencia que el fumar
demasiado estaba asociado con un incremento en la
proporcin de casos de cancer de pulmon.
Sin embargo esto no prueba causalidad. Esta fue la razon
por la que el ministerio de Salud americano le demoro
tanto en obligar a los fabricantes poner "avisos de
precaucin" en sus cigarros.
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Sir Ronal Fisher: Sobre la relacin entre fumar y


cncer (traducido de Intro Stats)
Es posible que el cancer de pulmon sea una de las causas
para fumar cigarros ?. No creo que pueda ser descartado... las
condiciones pre cancerijenas involucran cierta tipo de
inflamacin crnica....
Una pequea inflamacin ... esta comunmente acompaada
por sacar un cigarro y tener una pequea compensacin por el
dolor (en esa forma)... Por lo tanto, no es improbable que este
asociada con un mayor frecuencia de fumar
Ironicamente, fueron los principios de diseos de
experimentos diseados por Fisher los que sirvieron para
probar que el fumar causa cancer de pulmn.
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Volumen espiratorio forzado

El volumen espiratorio forzado (FEV) es el volumen de aire


que se puede expirar durante un segundo despues de una
expiracin completa
Es una de las medidas fundamentales para evaluar si el
pulmon esta funcionando adecuadamente.
Sus unidades son litros/segundo
En la base de datos "fev" se tiene las medidas de FEV
para 725 pacientes

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

3
2

Volumen espiratorio forzado

65

70

75

80

85

90

95

100

Edad (aos)

Figure: Grafico de dispersin de FEV y edad


EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Volumen espiratorio forzado (estandarizada)

Edad (estandarizada)

Figure: Grafico de dispersin de FEV y edad (estandarizada)


EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Volumen espiratorio forzado (estandarizada)

= 0,22

Edad (estandarizada)

Figure: Grafico de dispersin de FEV y edad (estandarizada)


EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

25

30

20

15

10

% consumo otras drogas

10

20

30

40

50

% consumo de marihuana

Figure: Relacin entre consumo de marihuana y consumo de otras


drogas

Pregunta: Si tuvieran que escoger una linea que describa


mejor sus datos, cul escogerian?
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Anlisis de regresin lineal


Hemos usado la correlacin para explicar la asociacin
lineal entre las variables X e Y
Existen escenarios en que uno puede caracterizar a X
como la variable de explicacin e Y la variable a ser
explicada.
En este escenario, es de interes poder estimar valores de
Y dado un valor de X :
Podemos usar el % de consumo de marihuana en un pas
para predecir el % de consumo de otras drogas ?
Podemos usar la edad de la persona para predecir sus
nivels de FEV?
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Regresin lineal
La idea es trazar una recta que refleje la tendencia lineal
encontrada en el diagrama de dispersin.
Dado un conjunto de datos (x1 , y1 ), . . . , (xn , yn ) se desea:
yi = a + bxi + ei
donde e1 , . . . , en son los margenes de error.
Bajo esa definicin, los margenes de error estan dado por
ei = yi a bxi
pero estos dependen de a y b (y no los conocemos!)
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Regresin lineal
Para cada par (a, b) que pensemos, podriamos calcular los
errores. Cul debemos escoger ?
Podriamos escoger a y b de tal manera que
n
X

ei =

i=1

n
X

(yi a bxi )

i=1

sea el valor mas pequeo posible


Podriamos escoger a y b de tal manera que
n
X

ei2 =

i=1

n
X

(yi a bxi )2

i=1

sea el valor mas pequeo posible


EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Una tecnica para hallar a y b es lo que se conoce como el


metodo de mnimos cuadrados.
Este metodo consiste en minimizar la suma de los
errores al cuadrado:
SCE(a, b) =

n
X
i=1

ei2 =

n
X
(yi a bxi )2 .
i=1

La solucin a (1) es
= rxy SY
b
SX

EST 103

b
X

=Y
, a

Estadstica descriptiva

(1)

Tabla de contingencia
Correlacin
Regresin lineal

La recta de regresin estimada sera


=a

+ bx
Y
es el valor estimado de de la variable Y dado el
donde Y
valor X = x.
Interpretacin:
es el valor esperado de Y cuando el valor de X es igual a
a
cero.
es aumento en el valor esperado de Y cuando el valor de
b
la variable X aumenta en una unidad.

Definimos los errores estimados por


i Yi
i = Y
e
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Propiedades
Si
=a

+ bx
Y
es la recta de regresin de mnimos cuadrados. Entonces
,Y
) pertenece a la recta de regresin.
(X
La media de los errores estimados es igual a cero
n

i=1

i=1

X
1X
= 1
i =
e
e
(Yi Yi ) = 0
n
n
La media de los valores estimados es igual a la media de
los valores observados:

=Y

Y
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Problema de drogas
Deseamos plantear el modelo
% Otras drogas = a + b % marihuana
Los resultados preliminares son
= 23.91 Y
= 11.64 Rxy = 0.93
X
SX = 15.55 SY = 10.24
entonces
0.93 10.24
= 0.61
15.55
= 11.64 0.61 23.91 = 2.95
a

=
b

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Problema de drogas
Los valores estimadores de los parmetros de regressin
son:
= 2, 95 + 0, 61X
Y
no tiene
Intercepcin: Note que en este caso a
interpretacin cientfica
podemos entender que se
Pendiente: En el caso de b
espera un aumento en 0,61% en el porcentaje de
personas que reportan haber consumido "Otras drogas" si
el % de personas que reportan haber consumido
marihuana aumenta en 1%

EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

25

30

% Otras drogas = 3,07 + 0,62 % Marihuana

20

15

10

% consumo otras drogas

10

20

30

40

50

% consumo de marihuana

Figure: Relacin % de consumo de marihuana y % de consumo de


otras drogas
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Volumen espiratorio forzado


Deseamos plantear el modelo
FEV = a + b Edad + error
Los valores estimadores de los parmetros de regressin
son:
= 4, 27 0, 03X
Y
no tiene
Intercepcin: Note que en este caso a
interpretacin cientfica
podemos entender que se
Pendiente: En el caso de b
espera que el volumen de espiratorio forzado caiga en
0,03 lt/seg ante un aumento en el edad en un ao
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

3
2

Volumen espiratorio forzado

FEV = 4,27 0,03Edad

65

70

75

80

85

90

95

Edad (aos)

Figure: Relacin entre FEV y edad


EST 103

Estadstica descriptiva

100

Tabla de contingencia
Correlacin
Regresin lineal

Ajuste del modelo


La suma de los residuos al cuadrado (SRC) esta dada por
n
X
SRC =
(yi yi )2
i=1

Suma de cuadrados totales (SCT) esta dada por


n
X
SCT =
(yi y )2
i=1

Definimos el coeficiente de determinacin, R 2 , por


R2 =

SCT SRC
SRC
=1
SCT
SCT
EST 103

Estadstica descriptiva

Tabla de contingencia
Correlacin
Regresin lineal

Ajuste del modelo


Se puede probar que
2
R 2 = rxy

donde rxy es el coeficiente de correlacin


R 2 (0, 1) mide cuan bien el modelo ajusta los datos en
general:
Mide el % de variabilidad entre las variables X e Y
explicado por el modelo.
En el caso de el estudio de drogas R 2 = 0, 932 = 0, 86. Es
decir, el 86% de la variabilidad es explicado por el modelo

EST 103

Estadstica descriptiva

También podría gustarte