Está en la página 1de 27

Estadı́stica Descriptiva Multivariada Descripción bivariada

Estadı́stica Descriptiva Multivariada


Descripción bivariada

Campo Elı́as Pardo


cepardot@unal.edu.co

March 21, 2022


Estadı́stica Descriptiva Multivariada Descripción bivariada

Contenido
Ejemplo: admitidos
Agrupar categorı́as
División en clases de una variable continua
Dos variables continuas
Variables cualitativa y continua
Razón de correlación
Ordenamiento por valores test
Dos variables cualitativas
Dos medidas de asociación entre variables cualitativas
Dos medidas de asociación entre variables cualitativas
Ordenamiento por valores test para describir una variable
cualitativa según varias variables cualitativas
Estadı́stica Descriptiva Multivariada Descripción bivariada

Contenido
Ejemplo: admitidos
Estadı́stica Descriptiva Multivariada Descripción bivariada

Contenido
Ejemplo: admitidos
Agrupar categorı́as
Estadı́stica Descriptiva Multivariada Descripción bivariada

Contenido
Ejemplo: admitidos
Agrupar categorı́as
División en clases de una variable continua
Estadı́stica Descriptiva Multivariada Descripción bivariada

Contenido
Ejemplo: admitidos
Agrupar categorı́as
División en clases de una variable continua
Dos variables continuas
Variables cualitativa y continua
Razón de correlación
Ordenamiento por valores test
Dos variables cualitativas
Dos medidas de asociación entre variables cualitativas
Dos medidas de asociación entre variables cualitativas
Ordenamiento por valores test para describir una variable
cualitativa según varias variables cualitativas
Estadı́stica Descriptiva Multivariada Descripción bivariada
Ejemplo: admitidos

Ejemplo: admitidos a la Facultad de Ciencias I

445 estudiantes admitidos a las 7 carreras de la Facultad de


Ciencias, para el primer semestre de 2013.
Estadı́stica Descriptiva Multivariada Descripción bivariada
Ejemplo: admitidos

Quim 14.2
Mate 11.9
Geol 10.1
Fisi 18.4
Farm 16.4 Otro 21.6
Esta 14.8 M 71.2 Cund 8.5
Biol 14.2 F 28.8 Bogo 69.9

0 100 200 300 400 0 100 200 300 400 0 100 200 300 400

carr gene orig

E6 0.2
E5 1.8
E4 16.2
E3 41.6
E2 31.7
E1 8.1 noLE 89.7 noMa 29.2
E0 0.4 siLE 10.3 siMa 70.8

0 100 200 300 400 0 100 200 300 400 0 100 200 300 400

stra niLE niMa


Estadı́stica Descriptiva Multivariada Descripción bivariada
Ejemplo: admitidos

mate cien soci


200 200 200

150 150 150

Frequency

Frequency

Frequency
100 100 100

50 50 50

0 0 0

8 10 12 14 16 18 8 10 12 14 16 18 8 10 12 14 16 18

text i]
admi[, imagi]
admi[, exami]
admi[,
200 200 120
100
150 150
Frequency

Frequency

Frequency
80
100 100 60
40
50 50
20
0 0 0

8 10 12 14 16 18 8 10 12 14 16 18 600 800 1000 1200

age i]
admi[, age i]
admi[, exami]
admi[,
400 45
1100
40
300 1000
35
Frequency

900
200 30 800
25 700
100
20 600

0 15 500

15 20 25 30 35 40 45
Estadı́stica Descriptiva Multivariada Descripción bivariada
Agrupar categorı́as

estrato de 7 a 3 categorı́as

Estrato <- as . integer ( admi $ stra ) -1


Estrato [ Estrato <3] <- 1; Estrato [ Estrato ==3] <- 2; Estrato [ Estrato >3] <-3
Estrato <- factor ( Estrato , labels = c ( " bajo " ," medio " ," alto " ) )
summary ( Estrato )
# # bajo medio alto
# # 179 185 81
Estadı́stica Descriptiva Multivariada Descripción bivariada
División en clases de una variable continua

Edad en grupos

edad <- cut ( admi $ age , fivenum ( admi $ age ) , include . lowest = T ,
labels = c ( " a16m " ," a17 " ," a18 " ," a19M " ) )
summary ( edad )
# # a16m a17 a18 a19M
# # 118 171 56 100
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas

Resultados del examen

0.4 15
16 16
14 14
0.3 14
14 13
12
y

12

Y
0.2 12
12 11
10 10
0.1 10
10
9
8 8
0.0
10 12 14 16 18 10 12 14 16 18 10 12 14 16 18 10 12 14 16 18 10 12 14 16 18
mate ●
0.4
X X X X

18 15
16
14 14
16 0.3
● ● ● ● ● ● ●
13 14
● ● ● ● ●

14 ● ● ● ● ● ● ● ● ● 12
y

0.2 12
Y

Y
● ● ● ● ● ● ● ●

● ● ● ● ● ● 12
● ● ● ● ● ● ● ●


● ●
















● ●

● ●
11
12 ●
● ●
















10






















● 0.1 10 10
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●

10 ● ● ● ● ● ● ●
9
● ● ●
8 8
● ●
0.0
10 11 12 13 14 15 16 10 12 14 16 10 12 14 16 10 12 14 16 10 12 14 16

X cien ●
X X X

18 0.5
16
16
● ●
14
15
16 ● ● ● ● 0.4
● ● ● ●
14 ● ● 14
● ● ● ● ● ● ● ●

0.3 12
14 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

y
13
Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12
● ● ● ● ● ● ● ● ● ●



● ●
















12
● ●



● ●










0.2
12 ●















● ●
● ● ● ● ● ● ● ● ● ● ● ●
10




















● 11 ●
● ●










10
● ● ● ●















● ● ● ● ● ● ● ● ● 0.1
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

10 ● ● ● ● ● ● ● ● ● ●
10 ● ● ● ● ● ●
● ●
8 8
● ● ● ● ● ●
0.0
9 10 11 12 13 14 15 9 10 11 12 13 14 15 9 10 11 12 13 14 15 9 10 11 12 13 14 15 9 10 11 12 13 14 15
X X
15 soci X X

18
● ● ●
0.5
16
● ● 14 ● ●

14
15 0.4
16 ● ● ●
● ● ● ● ● ●

● ● ● ● ● 13 ● ● ● ● ● ● ● ●
14 ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.3
14 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 12
12 ● ● ● ● ● ● ● ● ● ● ● ●

y
13
Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ●




● ●





● ●


● ●
12
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
0.2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
11 ● ● ● ● ● ● ● ● ● ●

12 ●




















● ●


● ●










● ● ●
● ● ● ● ● ● ● ● ● ● ●
10
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● 11 ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●

0.1
● ●

● ●













● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● 10 ● ● ●


● ●





● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

10 ● ●

● ●

● ● ● ●

10 ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ●
9 ● ● ●
0.0 8
8 10 12 14 16 8 10 12 14 16 8 10 12 14 16 8 10 12 14 16 8 10 12 14 16
X

X
● 15 X
● ●
text X

18 16 0.4
16
● ● 14 ● ●

15 ● ● ● ●

16 ● ● ● ●
● ● ● ●

0.3
● ● ● ● ● 13 ● ● ● ● ● ● ● ● ●
14
14 ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●

14 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
12 ● ● ● ● ● ● ● ● ● ● ● ●

y
13 ● ● ● ● ● ● ● ● ● ● ●
0.2
Y

Y
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
12 ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●




















12 ● ● ● ● ● ● ● ● ● ● ●
11 ● ● ● ● ● ● ● ● ● ● ● ●






















12 ●




















● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ●





● ●









● ●


● ●





















● 11 ●

● ●

● ●







● ●



● ● ● ● ● ● ● ● ● ● ● ●
10 ● ●
● ● ●





● ●





0.1
● ● ●



















● ●
● ● ● ● ● ● ● ● ● ● ● 10 ●




● ● ● ●


● ●

● ●
● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

10 ● ● ●

● ● ● ●



● ●
10 ● ● ● ● ● ● ● ● ● ● ● ●


● ● ● ● ● ●
9 ● ● ●

8

0.0
9 10 11 12 13 14 9 10 11 12 13 14 9 10 11 12 13 14 9 10 11 12 13 14 8 10 12 14
imag
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas

Matriz de varianzas y covarianzas Matriz de correlaciones


mate cien soci text imag mate cien soci text imag
mate 1.28 0.39 0.24 0.27 0.24 mate 1.00 0.34 0.24 0.24 0.21
cien 0.39 1.00 0.14 0.20 0.12 cien 0.34 1.00 0.16 0.20 0.12
soci 0.24 0.14 0.75 0.32 0.09 soci 0.24 0.16 1.00 0.37 0.11
text 0.27 0.20 0.32 0.98 0.05 text 0.24 0.20 0.37 1.00 0.05
imag 0.24 0.12 0.09 0.05 1.00 imag 0.21 0.12 0.11 0.05 1.00

V<- (n-1)/n*var(admi[,2:6]) R<-cor(admi[,2:6])


xtable(V,digits=rep(2,6)) xtable(R,digits=rep(2,6))
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Variables cualitativa y continua

1100

1000

900

800

700

600

500

Biol Esta Farm Fisi Geol Mate Quim

boxplot(admi$exam~admi$carr,las=1)
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Razón de correlación

Razón de correlación

I Razón de correlación:
2
2 σentre
ηXY = (1)
σ2
I Varianza entre:
K
2
X nk
σentre = (X k − X )2
n
k=1

P 1
I donde X k = Xi
i∈Ik nk

I Entre las notas de los exámenes y carrera, utilizando la función


centroids{FactoClass}:
mate cien soci text imag exam
15.86 4.31 3.22 2.34 4.42 11.87
xtable(centroids(admi[,2:7],admi$carr)$cr*100,digits = rep(2,7))
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test

Esquema de obtención del valor test: diferencia entre x k y x, en número de desviaciones

estándar

Extracción aleatoria sin reemplazo


Una muestra de
nk tamaño nk
n
Xk
µ

Individuos que asumen


la categoria k
Urna con n datos nk

xk
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test

Valor test I

I Comparación de medias: media del grupo k vs. media global


I Valor test: distancia de la media del grupo k a la media global, en
número de desviaciones estándar.
I Distribución de referencia: la de la media una muestra aleatoria de
tamaño k sin reemplazamiento.
I Media como variable aleatora: X k
I La distribución de X k tiene media µ = x̄.
I Varianza de la distribución:

n − nk σ 2
σk2 =
n − 1 nk
I Valor test: r
x̄k − µ (n − 1)nk x̄k − µ
tk = = (2)
σk n − nk σ
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test

Valor test II

I Ejemplo en la Carrera de Estadı́stica: n = 445, nesta = 66, x̄esta = 680,


x̄ = 718, var (X ) = 8039
I
 
2 445 − 66 8039 680 − 718
sesta (X ) = = 104 testa = √ = −3.73
444 66 104
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test

Caracterización de las carreras según los resultados del examen

categoria carrera v.test media frecuencia media


clase clase global
mate Biol -2.258 11.5 63 11.8
text Esta -2.598 11.1 66 11.4
soci -2.839 11.1 11.4
cien -3.576 11.2 11.6
exam -3.745 680.2 718.4
imag Farm -2.945 11.0 73 11.3
exam -3.399 685.7 718.4
mate -4.472 11.3 11.8
mate Fisi 3.374 12.2 82 11.8
exam 3.316 748.0 82 718.4
cien 2.482 11.8 82 11.6
exam Geol 2.467 749.6 45 718.4
mate 2.045 12.1 11.8
mate Mate 5.816 12.6 53 11.8
exam 3.909 763.5 718.4
imag 3.128 11.7 11.3
mate Quim -2.100 11.5 63 11.8
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Dos variables cualitativas

Tablas de frecuencias absolutas y relativas; gráficas de perfiles

Edad Estrato
Frecuencia Porcentaje
bajo medio alto totF bajo medio alto totF
a16m 44 47 27 118 9.9 10.6 6.1 26.5
a17 58 74 39 171 13.0 16.6 8.8 38.4
a18 22 26 8 56 4.9 5.8 1.8 12.6
a19M 55 38 7 100 12.4 8.5 1.6 22.5
totC 179 185 81 445 40.2 41.6 18.2 100.0

a16m a17 a18 a19M

marg

alto

medio

bajo

0.0 0.2 0.4 0.6 0.8 1.0


bajo medio alto
marg
a19M
a18
a17
a16m

0.0 0.2 0.4 0.6 0.8 1.0


Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Dos medidas de asociación entre variables cualitativas

asociación entre variables cualitativas

I Estadı́stica ji-cuadrado
 nj· n·k 2
J X K njk −
n
2
X
χ = nj· n·k (3)
j=1 k=1
n
I Distribución asintótica: χ2 con (J − 1)(K − 1)
I Valor p: P(χ2 ≥ χ2c )
I Valor test:

t tal que P(Z ≥ t) = valor p, donde Z ∼ N(0, 1)


Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Dos medidas de asociación entre variables cualitativas

Table: Estadı́sticas χ2 entre carreras y variables sociodemográficas


variable χ2 dfr pval tval φ2
gene 44.1 6 0.000 5.264 0.099
estr 29.2 12 0.004 2.679 0.066
orig 9.7 12 0.644 -0.370 0.022
edad 33.6 18 0.014 2.189 0.075
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test para describir una variable cualitativa según varias variables cualitativas

Extracción aleatoria sin reemplazo


Una muestra de
tamaño k
nk
n
N bolas con la
N
nj característica j
Individuos de la clase
k nk
n kj
Urna con n bolas
n j bolas con la carac−
terística j n kj bolas con la
característica j

Esquema para obtener el valor p como ı́ndice de comparación entre la proporción de la categorı́a j dentro de la

clase k y su proporción global


Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test para describir una variable cualitativa según varias variables cualitativas

Ordenamiento de categorı́as caracterizantes por valores test

I En la urna hay n “bolas”con nj que tienen la caracterı́stica j


I de la urna se extrae una muestra sin reemplazamiento de tamaño nk
I se define la variable aleatoria N =“número de bolas con la caracterı́stica j
al extraer nk bolas”
I N ∼ H(n, nj , nk )
I Para el resultado de la “estimación” nkj se calcula P(N > nkj ), si
nkj nj
>
nk n
I el valor test es el cuantil de la normal estándar que deja a la derecha un
área igual a la mitad de esta probabilidad
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test para describir una variable cualitativa según varias variables cualitativas

Obtención del valores test en la N(0, 1)

0.4

0.3

0.2

0.1

Area Area
0.00043 0.00043
0.0
−3.332 3.332
−4 −2 0 2 4

> vp <- phyper (54 , 315 , 130 ,63 , lower . tail = FALSE ) ; vp
[1] 0.000862394
> qnorm ( vp / 2 , lower . tail = FALSE )
[1] 3.331951
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test para describir una variable cualitativa según varias variables cualitativas

Caracterización de las carreras según algunas variables cualitativas


categoria carrera v.test p.valor Cl/cat cat/Cl global ncat
niMa.siMa Biol 3.332 0.001 17.5 87.3 70.8 315
niMa.noMa -3.332 0.001 6.2 12.7 29.2 130
niLE.siLE Esta 2.235 0.025 26.1 18.2 10.3 46
niMa.siMa 2.034 0.042 16.8 80.3 70.8 315
niMa.noMa -2.034 0.042 10.0 19.7 29.2 130
niLE.noLE -2.235 0.025 13.5 81.8 89.7 399
gene.F Farm 5.152 0.000 31.2 54.8 28.8 128
niMa.siMa 4.355 0.000 21.0 90.4 70.8 315
edad.a18 2.252 0.024 26.8 20.5 12.6 56
estr.alto -2.281 0.023 8.6 9.6 18.2 81
niMa.noMa -4.355 0.000 5.4 9.6 29.2 130
gene.M -5.152 0.000 10.4 45.2 71.2 317
niMa.noMa Fisi 3.475 0.001 28.5 45.1 29.2 130
gene.M 3.045 0.002 21.8 84.1 71.2 317
gene.F -3.045 0.002 10.2 15.9 28.8 128
niMa.siMa -3.475 0.001 14.3 54.9 70.8 315
estr.alto Geol 3.677 0.000 22.2 40.0 18.2 81
niMa.noMa 2.706 0.007 16.2 46.7 29.2 130
edad.a17 2.554 0.011 14.6 55.6 38.4 171
niMa.siMa -2.706 0.007 7.6 53.3 70.8 315
estr.medio -3.242 0.001 4.9 20.0 41.6 185
niMa.noMa Mate 4.467 0.000 23.1 56.6 29.2 130
edad.a19M 3.683 0.000 23.0 43.4 22.5 100
gene.M 3.218 0.001 14.8 88.7 71.2 317
edad.a17 -2.089 0.037 8.2 26.4 38.4 171
gene.F -3.218 0.001 4.7 11.3 28.8 128
niMa.siMa -4.467 0.000 7.3 43.4 70.8 315
edad.a16m Quim 2.320 0.020 20.3 38.1 26.5 118
edad.a17 -2.189 0.029 9.9 27.0 38.4 171
Estadı́stica Descriptiva Multivariada Descripción bivariada
Dos variables continuas
Ordenamiento por valores test para describir una variable cualitativa según varias variables cualitativas

Tablas de nivela-Matemáticas × carreras

Tabla de contingencia
niMa Biol Esta Farm Fisi Geol Mate Quim marR
siMa 55 53 66 45 24 23 49 315
noMa 8 13 7 37 21 30 14 130
marC 63 66 73 82 45 53 63 445

Frecuencias relativas en porcentaje


siMa 12.4 11.9 14.8 10.1 5.4 5.2 11.0 70.8
noMa 1.8 2.9 1.6 8.3 4.7 6.7 3.1 29.2
marC 14.2 14.8 16.4 18.4 10.1 11.9 14.2 100.0

Perfiles fila
siMa 17.5 16.8 21.0 14.3 7.6 7.3 15.6
noMa 6.2 10.0 5.4 28.5 16.2 23.1 10.8
marg 14.2 14.8 16.4 18.4 10.1 11.9 14.2

Perfiles columna
siMa 87.3 80.3 90.4 54.9 53.3 43.4 77.8 70.8
noMa 12.7 19.7 9.6 45.1 46.7 56.6 22.2 29.2

También podría gustarte