Está en la página 1de 7

Descripción breve del tema

1. Introducción
Descripción conjunta de 2. Distribuciones de frecuencias
„ Distribución conjunta
dos variables „
„
Distribuciones marginales
Distribuciones condicionadas
„ Independencia entre variables
Tema 2 3. Representaciones gráficas
„ Diagrama de dispersión
„ Otras representaciones
4. Medidas de dependencia lineal
„ Covarianza
„ Correlación

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Objetivos Descripción breve del tema


1. Introducción
† Reconocer la importancia del estudio
2. Distribuciones de frecuencias
conjunto de varias variables. „ Distribución conjunta
„ Distribuciones marginales
† Calcular distribuciones marginales y „ Distribuciones condicionadas
condicionadas a partir de la conjunta. „ Independencia entre variables
3. Representaciones gráficas
† Comprender el concepto de independencia „ Diagrama de dispersión
„ Otras representaciones
entre variables. 4. Medidas de dependencia lineal
„ Covarianza
† Conocer medidas de dependencia lineal e „ Correlación
interpretar su signo.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 3 Ignacio Cascos Depto. Estadística, Universidad Carlos III 4
Introducción Descripción breve del tema
1. Introducción
† El estudio conjunto de dos variables, nos
2. Distribuciones de frecuencias
permite analizar las relaciones entre ellas. „ Distribución conjunta
„ Distribuciones marginales
† La ausencia total de relación lleva el nombre „ Distribuciones condicionadas
de independencia. „ Independencia entre variables
3. Representaciones gráficas
† Puede predecirse una variable a partir de otra. „ Diagrama de dispersión
„ Otras representaciones
† Las representaciones gráficas son de gran 4. Medidas de dependencia lineal
„ Covarianza
ayuda. „ Correlación

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5 Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

Distribuciones de frecuencias Distribución conjunta de frecuencias


Podemos tener cualquier combinación de variables cuantitativas / Podemos construir una tabla (de contingencia o de doble entrada)
cualitativas. para la distribución conjunta de frecuencias de X e Y (con frec.
Partimos de dos variables X e Y tales que relativas o absolutas).
„ X toma k valores distintos, x1,…, xk
Y y1 y2 … yr
( si cuantitativa x1< … < xk ) X\
„ Y toma r valores distintos, y1,…, yr
x1 n11 n12 … n1r
( si cuantitativa y1< … < yr )
† Frecuencia absoluta conjunta del par ( xi , yj ) x2 n21 n22 … n2r
número de veces que el dato ( xi , yj ) aparece en la muestra, nij
… … … … …
† Frecuencia relativa conjunta del par ( xi , yj )
cociente de frecuencia absoluta entre tamaño, fij= nij /n xk nk1 nk2 … nkr
Ignacio Cascos Depto. Estadística, Universidad Carlos III 7 Ignacio Cascos Depto. Estadística, Universidad Carlos III 8
Distribución conjunta de frecuencias
PAU 2005, Madrid Distribuciones marginales
RES. Aprobados Suspensos RES. Aprobados Suspensos Se obtienen al estudiar cada variable por separado.
UNI. \ UNI. \
Nos interesa sólo el comportamiento de X (o de Y).
Alcalá de 2780 617 Alcalá de 0’09 0’02
Henares Henares † Frecuencias absolutas marginales
Autónoma 7203 1664 Autónoma de 0’233 0’054 ni· número de veces que la variable X toma el valor xi en la
de Madrid Madrid muestra. Es la suma de nij con j de 1 a r.
Carlos III 2734 636 Carlos III 0’088 0’021 n·j número de veces que la variable Y toma el valor yj en la
muestra. Es la suma de nij con i de 1 a k.
Complutense 9686 2608 Complutense 0’313 0’084 † Frecuencias relativas marginales
de Madrid de Madrid
cociente de frecuencia absoluta entre tamaño, f(xi)=fi·= ni·/n
Rey Juan 2189 796 Rey Juan 0’071 0’026
Carlos Carlos cociente de frecuencia absoluta entre tamaño, f(yj)=f·j= n·j/n
Ignacio Cascos Depto. Estadística, Universidad Carlos III 9 Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

Distribuciones marginales
PAU 2005 Distribuciones condicionadas
RES. Aprobados Suspensos Total UNI. Nos interesan sólo los individuos que toman el valor xi en la variable X.
UNI. \
ni fi
· ·
ual 3397 0’11 La variable Y definida en ese conjunto se denomina variable
Alcalá de Henares 2780 617 3397
uam 8867 0’287 condicionada y se representa Y|X=xi
Autónoma de 7203 1664 8867 uc3m 3370 0’109 † Frecuencias relativas condicionadas
Madrid
ucm 12294 0’398 la frecuencia relativa de yj condicionada a X=xi representa la
Carlos III 2734 636 3370
urjc 2985 0’096 proporción de individuos que presentan Y=yj de entre los que
Complutense de 9686 2608 12294 tienen X=xi ; f(yj|xi)= nij/ni·= f( xi , yj)/f(xi)
RES. n f
Madrid ·j ·j la frecuencia relativa de xi condicionada a Y=yj representa la
Rey Juan Carlos 2189 796 2985 Aprobado 24592 0’796 proporción de individuos que presentan X=xi de entre los que
Suspensos 6321 0’204 tienen Y=yj ; f(xi|yj)= nij/n·j= f( xi , yj)/f(yj)
Total 24592 6321 30913

Ignacio Cascos Depto. Estadística, Universidad Carlos III 11 Ignacio Cascos Depto. Estadística, Universidad Carlos III 12
Distribuciones condicionadas Distribuciones condicionadas
RESULTADO RESULTADO RESULTADO En la tabla superior se estudia la
n1j f(yj|x1) n2j f(yj|x2) n3j f(yj|x3)
| UNIV=ual | UNIV=uam | UNIV=uc3m variable Resultado condicionada a
Aprobados 2780 0’818 Aprobados 7203 0’812 Aprobados 2734 0’811 que la variable Universidad tome

Suspensos 617 0’182 Suspensos 1664 0’188 Suspensos 636 0’189


el valor Carlos III.

RESULTADO RESULTADO En la tabla inferior se estudia la


n4j f(yj|x4) n5j f(yj|x5) RESULTADO
| UNIV=ucm | UNIV=urjc n
·j f
·j variable marginal Resultado.
Aprobados 9686 0’788 Aprobados 2189 0’733 Aprobados 24592 0’796

Suspensos 2608 0’212 Suspensos 796 0’267 Suspensos 6321 0’204

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13 Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

Independencia entre variables Independencia entre variables


Dos variables son independientes si no existe ninguna relación Ejemplo: Realizamos una encuesta a 280 personas para
entre ellas. estudiar si el hábito de fumar está relacionado con el
A partir del valor que toma una variable no obtenemos ninguna
sexo del individuo (si es más frecuente en hombres o en
información sobre el valor que tomará la otra.
La distribución de frecuencias relativas condicionadas de Y|X=xi mujeres).
es la misma, independientemente del valor que tome i H\F 0 1 ni· H\F 0 1 fi·
f(yj|xi)=f(yj) para todo i,j 0 72 48 120 0 9/35 6/35 3/7

X e Y independientes si f(xi , yj)=f(yj|xi)f(xi)=f(xi)f(yj) para todo i,j 1 96 64 160 1 12/35 8/35 4/7
n·j 168 112 280 f·j 3/5 2/5 1
Ignacio Cascos Depto. Estadística, Universidad Carlos III 15 Ignacio Cascos Depto. Estadística, Universidad Carlos III 16
Descripción breve del tema Diagrama de dispersión
Plot of 100m vs long jump
1. Introducción En una nube de puntos o 11,6
11,4
2. Distribuciones de frecuencias diagrama de dispersión, cada 11,2

100m
„ Distribución conjunta dato (xi,yj) de la muestra, se 11

„ Distribuciones marginales 10,8

„ Distribuciones condicionadas
representa por un único punto 10,6
10,4

„ Independencia entre variables de abscisa xi y ordenada yj 6,6 6,9 7,2 7,5 7,8 8,1
long jump
3. Representaciones gráficas Plot of long jump vs shot put Plot of shot put vs 100m
„ Diagrama de dispersión 8,1 17

„ Otras representaciones 7,8


16

long jump

shot put
4. Medidas de dependencia lineal 7,5
15

„
7,2
Covarianza 14
6,9
„ Correlación 6,6 13
13 14 15 16 17 10,4 10,6 10,8 11 11,2 11,4 11,6
shot put 100m
Ignacio Cascos Depto. Estadística, Universidad Carlos III 17 Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Diagrama de dispersión Diagramas de barras agrupados


Plot of peso vs altura
En una nube de puntos 97
Barchart

podemos ver distintos tipos de 87


Para variables cualitativas ual aprobados
suspensos
uam
77
dependencias entre las
peso

67
o cuantitativas discretas uc3m

variables. 57 con pocos valores, la


ucm

urjc
47

Plot for iris setosa and versicolor


160 165 170 175 180 185 190 representación más 0 2 4
frequency
6 8 10
(X 1000)
También podemos altura
Plot for iris setosa and versicolor habitual son los diagramas Barchart
observar visualmente
4.0

de barras agrupados ual aprobados


sepal width

3.5

la presencia de
4.0

suspensos
uam
3.0

sepal width

3.5

mezcla de uc3m
2.5

3.0

ucm
poblaciones
2.0

2.5

urjc
4.5 5.0 5.5 6.0 6.5 7.0
0 10 20 30 40
2.0

sepal length
percentage
Ignacio Cascos Depto. Estadística, Universidad Carlos III 4.5 5.0 5.5 6.0 6.5 7.0 19 Ignacio Cascos Depto. Estadística, Universidad Carlos III 20

sepal length
Descripción breve del tema Medidas de dependencia lineal
1. Introducción † Covarianza: mide la asociación lineal entre dos
2. Distribuciones de frecuencias variables
„ Distribución conjunta
f ij ( xi − x )( y j − y )
k r k r
„
s XY = ∑ ∑ s XY = ∑ ∑f
Distribuciones marginales
„ Distribuciones condicionadas ; ij ix yj − x ⋅ y
i =1 j =1 i =1 j =1
„ Independencia entre variables
3. Representaciones gráficas Si X e Y son independientes, entonces sXY = 0, pero
„ Diagrama de dispersión
„ Otras representaciones el recíproco no es cierto.
4. Medidas de dependencia lineal
„ Covarianza La covarianza viene dada en la unidad producto de las
„ Correlación
de X e Y y su signo resulta muy interesante.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 21 Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Signo de la covarianza Covarianza Plot of 100m vs long jump


11,6

2,8 2,8 Resultados en los 100m lisos, salto 11,4

1,8 1,8 de longitud y lanzamiento de peso 11,2

100m
0,8
0,8 de los 29 atletas que puntuaron en 11
10,8
-0,2
-0,2 las tres pruebas en la decatlón de las x:7,26816
sXY=-0’054
y:10,9224
10,6
-1,2
-1,2
Olimpiadas de Atenas 2004. 10,4
-2,2 6,6 6,9 7,2 7,5 7,8 8,1
-2,2
-1,4 -0,4 0,6 1,6 2,6
-2 -1 0 1 2 long jump
Plot of long jump vs shot put Plot of shot put vs 100m
8,1 17
2,8 5,6
7,8
16
long jump
1,8 4,6

shot put
3,6 7,5
0,8
15
2,6 7,2
-0,2
1,6 x:14,5702
14
sXY=-0’09
x:10,9286
-1,2 6,9 sXY=0’059
y:7,26124 y:14,574
0,6
-2,2 -0,4 6,6 13
-2,5 -1,5 -0,5 0,5 1,5 2,5 -2,2 -1,2 -0,2 0,8 1,8 2,8 13 14 15 16 17 10,4 10,6 10,8 11 11,2 11,4 11,6
shot put 100m
Ignacio Cascos Depto. Estadística, Universidad Carlos III 23 Ignacio Cascos Depto. Estadística, Universidad Carlos III 24
Correlación Correlación Plot of 100m vs long jump
11,6

† Correlación: mide la asociación lineal entre dos Resultados en los 100m lisos, salto de 11,4
longitud y lanzamiento de peso de los 11,2
variables y es adimensional.

100m
29 atletas que puntuaron en las tres 11
10,8
pruebas en la decatlón de las x:7,26816
rXY=-0’686
Tiene el mismo signo que la covarianza. Olimpiadas de Atenas 2004.
10,6 y:10,9224

10,4
s
rXY = XY
6,6 6,9 7,2 7,5 7,8 8,1
long jump
Plot of long jump vs shot put Plot of shot put vs 100m
s X sY 8,1 17

− 1 ≤ rXY ≤ 1
7,8
16

long jump

shot put
7,5
15
7,2
„ Si rXY = 0 X e Y se dicen incorreladas. 6,9
x:14,5702
rXY=0’196
y:7,26124 14
rx:10,9286
XY=-0’429
y:14,574
„ Si rXY = 1 ó rXY = -1, la relación lineal entre X e Y es 6,6 13
13 14 15 16 17
perfecta. shot put
10,4 10,6 10,8
100m
11 11,2 11,4 11,6

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25 Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

También podría gustarte