Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Outline
Tabla de contingencia
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Estudio de tuberculosis
La siguiente tabla muestra el sexo de la persona (X ) y el
estatus de VIH reportada por esta (Y )
Estatus de VIH
Negativo
Positivo
No se sabe
Sexo de la persona
Hombre
Mujer
30
30
3
1
10
5
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Vivo
Muerte
Total
Primera
203
122
325
Clase
Segunda Tercera
118
178
167
528
285
706
Tripulacin
212
673
885
Total
711
1490
2201
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Tipos de distribuciones
Marginal: Es la distribucin de frecuencias de una de las
variables.
La distribucin de frecuencias del sexo de los participantes
La distribucin de frecuencias del conocimiento del estatus
de VIH en los participantes.
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Categoria
Frecuencia
Negativo
Positivo
No sabe
Total
60
4
15
79
Frecuencia
relativa
0,759
0,051
0,19
1,0
Porcentaje
75,9 %
5,1 %
19,0 %
100 %
Categoria
Hombre
Mujer
Total
Frecuencia
43
36
79
EST 103
Frecuencia
relativa
0,544
0,456
1,0
Estadstica descriptiva
Porcentaje
54,4 %
45,6 %
100 %
Tabla de contingencia
Correlacin
Regresin lineal
0.6
0.4
0.0
0.2
Frecuencia relativa
0.8
1.0
Distribucin marginal
Negativo
Positivo
No se sabe
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
0.6
0.4
0.0
0.2
Frecuencia relativa
0.8
1.0
Distribucin marginal
hombre
mujer
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Distribucin condicional
Categoria
Frecuencia
Negativo
Positivo
No sabe
Total
30
3
10
43
EST 103
Frecuencia
relativa
0,7
0,1
0,2
1,0
Estadstica descriptiva
Porcentaje
70,0 %
10,0 %
20,0 %
100 %
Tabla de contingencia
Correlacin
Regresin lineal
Distribucin condicional
Categoria
Frecuencia
Negativo
Positivo
No sabe
Total
30
1
5
36
EST 103
Frecuencia
relativa
0,83
0,03
0,14
1,0
Estadstica descriptiva
Porcentaje
83,3 %
2,8 %
13,9 %
100 %
Tabla de contingencia
Correlacin
Regresin lineal
0.8
Distribucin condicional
0.0
0.2
0.4
0.6
Negativo
Positivo
No se sabe
hombre
mujer
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
1.0
Distribucin condicional
0.0
0.2
0.4
0.6
0.8
Vivo
Muerto
Primera clase
Segunda clase
Tercera clase
Tripulacin
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pais
Republica Checa
Dinamarca
Inglaterra
Finlandia
Irlanda
Italia
Irlanda del norte
Noruega
Portugal
Escocia
EEUU
% de consumo
de marihuana
22
17
40
5
37
19
23
6
7
53
34
EST 103
% de consumo
de tras drogas
4
3
21
1
16
8
14
3
3
31
24
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
25
30
20
15
10
10
20
30
40
% consumo de marihuana
EST 103
Estadstica descriptiva
50
Tabla de contingencia
Correlacin
Regresin lineal
Preguntas:
Cun fuerte es esta asociacin ?
Si tuvieras que poner un nmero entre 0 y 1 para la
asociacin, cunto pondria ?
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
X
=1
X
Xi
n
i=1
n
X
=1
Y
Yi
n
i=1
1 X
)2
,
=
(Xi X
n1
i=1
n
X
1
)2
, SY2 =
(Yi Y
n1
Sx2
i=1
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
2.0
1.5
0.5
0.0
0.5
1.0
Y estandarizado
1.0
1.0
0.5
0.0
0.5
1.0
1.5
X estandarizado
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pearson: Definicin
No queremos que este nmero dependan de la cantidad
de datos:
La correlacin debe la misma aun cuando tenemos 1000 o
2000 datos.
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pearson: Definicin
Si usamos la data original la formula anterior se puede
expresar como
n
X
rxy
n
X
(xi x )(yi y )
zx,i zy ,i
i=1
n1
= vi=1
uX
u n
t (xi x )2 (yi y )2
i=1
n
X
(xi x )(yi y )
i=1
(n 1)sx sy
n
X
xi yi nx y
i=1
(n 1)sx sy
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pearson: Propiedades
El signo de la correlacin nos brinda la direccin de la
asociacin:
rxy > 0: Correlacin positiva
rxy < 0: Correlacin negativa
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pearson: Propiedades
La asociacin lineal perfecta entre dos variables X e Y se
da si y solo si
rxy = 1
El grado de la fuerza se mide en el valor absoluto de rxy y
la relevancia del valor de rxy depende del area en que se
este trabajando:
En Gestin, economia y ciencias contables un valor de rxy
mayor de 0,5 es lo que se busca.
En Econmia, Sociologia y Ciencias Polticas un valor de
rxy mayor de 0,8 es lo que se busca.
En medicina, un valor de |rxy | > 0, 3 es un valor importante.
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
X
22
17
40
5
37
19
23
6
7
53
34
Y
4
3
21
1
16
8
14
3
3
31
24
EST 103
zx
0.12
0.44
1.03
1.22
0.84
0.32
0.06
1.15
1.09
1.87
0.65
zy
0.75
0.84
0.91
1.04
0.43
0.36
0.23
0.84
0.84
1.89
1.21
Estadstica descriptiva
zx zy
0.09
0.37
0.94
1.27
0.36
0.12
0.01
0.97
0.92
3.53
0.79
9.33
Tabla de contingencia
Correlacin
Regresin lineal
9.33
= 0.93
11 1
= 10.2
Y
n
X
xi yi = 4548
i=1
SX = 15.6 , SY = 10.2
entonces
rxy =
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Pearson: Interpretacin
25
30
20
15
10
10
20
30
40
50
% consumo de marihuana
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Correlacin 6= Causalidad
Un diagrama de dispersin del costo en soles causado a
casa por incendios y el nmero de bomberos que acuden
a apagar este, mostrara que estas variables tiene una alta
correlacin.
Note que hay una relacin positiva entre estas dos
variables: A mayor bomberos probablemente se de un
mayor costo de los daos causado por el incendio.
Esto haria que usted no llame a los bomberos ?
En este ejemplo: Las dos variables estan relacionadas
pero no existe causalidad entre estas.
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Correlacin 6= Causalidad
Aun si la correlacin entre dos variables se debe a una
relacin causal, por si misma no nos puede decir que
causo que:
(X causa Y o Y causa X )
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
3
2
65
70
75
80
85
90
95
100
Edad (aos)
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Edad (estandarizada)
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
= 0,22
Edad (estandarizada)
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
25
30
20
15
10
10
20
30
40
50
% consumo de marihuana
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Regresin lineal
La idea es trazar una recta que refleje la tendencia lineal
encontrada en el diagrama de dispersin.
Dado un conjunto de datos (x1 , y1 ), . . . , (xn , yn ) se desea:
yi = a + bxi + ei
donde e1 , . . . , en son los margenes de error.
Bajo esa definicin, los margenes de error estan dado por
ei = yi a bxi
pero estos dependen de a y b (y no los conocemos!)
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Regresin lineal
Para cada par (a, b) que pensemos, podriamos calcular los
errores. Cul debemos escoger ?
Podriamos escoger a y b de tal manera que
n
X
ei =
i=1
n
X
(yi a bxi )
i=1
ei2 =
i=1
n
X
(yi a bxi )2
i=1
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
n
X
i=1
ei2 =
n
X
(yi a bxi )2 .
i=1
La solucin a (1) es
= rxy SY
b
SX
EST 103
b
X
=Y
, a
Estadstica descriptiva
(1)
Tabla de contingencia
Correlacin
Regresin lineal
+ bx
Y
es el valor estimado de de la variable Y dado el
donde Y
valor X = x.
Interpretacin:
es el valor esperado de Y cuando el valor de X es igual a
a
cero.
es aumento en el valor esperado de Y cuando el valor de
b
la variable X aumenta en una unidad.
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Propiedades
Si
=a
+ bx
Y
es la recta de regresin de mnimos cuadrados. Entonces
,Y
) pertenece a la recta de regresin.
(X
La media de los errores estimados es igual a cero
n
i=1
i=1
X
1X
= 1
i =
e
e
(Yi Yi ) = 0
n
n
La media de los valores estimados es igual a la media de
los valores observados:
=Y
Y
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Problema de drogas
Deseamos plantear el modelo
% Otras drogas = a + b % marihuana
Los resultados preliminares son
= 23.91 Y
= 11.64 Rxy = 0.93
X
SX = 15.55 SY = 10.24
entonces
0.93 10.24
= 0.61
15.55
= 11.64 0.61 23.91 = 2.95
a
=
b
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Problema de drogas
Los valores estimadores de los parmetros de regressin
son:
= 2, 95 + 0, 61X
Y
no tiene
Intercepcin: Note que en este caso a
interpretacin cientfica
podemos entender que se
Pendiente: En el caso de b
espera un aumento en 0,61% en el porcentaje de
personas que reportan haber consumido "Otras drogas" si
el % de personas que reportan haber consumido
marihuana aumenta en 1%
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
25
30
20
15
10
10
20
30
40
50
% consumo de marihuana
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
3
2
65
70
75
80
85
90
95
Edad (aos)
Estadstica descriptiva
100
Tabla de contingencia
Correlacin
Regresin lineal
SCT SRC
SRC
=1
SCT
SCT
EST 103
Estadstica descriptiva
Tabla de contingencia
Correlacin
Regresin lineal
EST 103
Estadstica descriptiva