Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS ESTADÍSTICO
MULTIVARIANTE
Tema:
DISTRIBUCIÒN ESTADÌSTICA UNITARIA
BIVARIANTE
Integrantes:
Gordillo Kathia (275)
Miranda Geovanny (247)
Olmedo Beatriz (309)
Toapanta Erika (252)
Periodo Académico
2021-2022
DISTRIBUCIÒN ESTADÌSTICA UNITARIA
BIVARIANTE
Las técnicas estadísticas bivariantes permiten el análisis conjunto de dos características de
los individuos de una población con el propósito de detectar posibles relaciones entre ellas.
La naturaleza (nominal, ordinal o numérica) de las características objeto de estudio
determinará las herramientas más adecuadas para su análisis.
y la frecuencia relativa
𝑛𝑖𝑗
𝑓𝑖𝑗 = = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ò𝑛 𝑑𝑒 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠 𝑞𝑢𝑒 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑛 𝑒𝑙 𝑝𝑎𝑟 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑑𝑎𝑑𝑒𝑠 (𝐴𝑖 , 𝐵𝑗 )
𝑁
Caso Bivariante
Cuando p = 2; la función de densidad de la normal bivariante se puede expresar en función
de las medias y varianzas 𝑢1 , 𝜎12 , 𝑢2 , 𝜎22 y del coeficiente de correlación 𝑝 = 𝑐𝑜𝑟(𝑋1 , 𝑋2 ):
1
𝑓(𝑥1 , 𝑥2 ) =
2𝜋 𝜎1 𝜎2 √1 − 𝜌2
1 1 (𝑥1 − 𝑢1 )2 (𝑥1 − 𝑢1 ) ((𝑥2 − 𝑢2 )) (𝑥2 − 𝑢2 )2
𝑋 exp [− {− − 2𝜌 + }] ,
2 1 − 𝜌2 𝜎12 𝜎1 𝜎2 𝜎22
𝜎2
𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ò𝑛 𝑛𝑜𝑟𝑚𝑎𝑙 𝑁 (𝑢2 + 𝜌 ( ) (𝑥1 − 𝑢1 ), 𝜎22 (1 − 𝜌2 )).
𝜎1
Ilustración 1: Función de densidad de una distribución normal bivariante de medias 1 y 1, desviaciones típicas 2 y 2,
coeficiente de correlación 0.8.
X
Claros Oscuros Total
y Claros 23 12 35
Oscuros 17 12 29
Total 40 24 64
Distribución conjunta
Ejemplo
x = Asistencia semanal al teatro
y = Asistencia semanal al cine
x
0 1 2 3 4
0 12 5 4 2 1
1 4 3 2 1 0
y 2 3 3 2 0 0
3 1 0 0 0 0
x
0 1 2 3 4
0 0,279 0,116 0,093 0,047 0,023
1 0,093 0,070 0,047 0,023 0,000
y 2 0,070 0,070 0,047 0 0,000 0,000
3 0,023 0,000 0,000 0,000 0,000
Frecuencias relativas, marginales y condicionadas
Frecuencias marginales
Se obtienen de sumar frecuencias conjuntas (absolutas o relativas) por filas y por columnas.
Si denominamos fr (xi, yi) a la frecuencia relativa correspondiente a los valores (x = xi, y =
yj), tendremos que
∑ ∑ 𝑓𝑟(𝑥𝑖 , 𝑦𝑖 ) = 1
𝑖 𝑗
𝑓𝑟(𝑥𝑖 ) = ∑𝑗 𝑓𝑟(𝑥𝑖 , 𝑦𝑗 )
𝑓𝑟(𝑦𝑖 ) = ∑ 𝑓𝑟(𝑥𝑖 , 𝑦𝑗 )
𝑖
Frecuencias marginales
Ejemplo
x = Trabajadores
y = Ventas
x
1-24 25-49 50-74 75-99 Total
1-100 0,293 0,122 0,098 0,049 0,561
y 101-200 0,098 0,073 0,049 0,024 0,244
201-300 0,073 0,073 0,049 0,000 0,195
Total 0,463 0,268 0,195 0,073 1,000
Frecuencias marginales
x
1-24 25-49 50-74 75-99 Total
1-100 0,293 0,122 0,098 0,049 0,561
y 101-200 0,098 0,073 0,049 0,024 0,244
201-300 0,073 0,073 0,049 0,000 0,195
Total 0,463 0,268 0,195 0,073 1,000
x
1-24 25-49 50-74 75-99 Total
1-100 0,293 0,122 0,098 0,049 0,561
y 101-200 0,098 0,073 0,049 0,024 0,244
201-300 0,073 0,073 0,049 0,000 0,195
Total 0,463 0,268 0,195 0,073 1,000
Tipos de relación
Existen distintas formas en que dos variables pueden estar relacionadas: ausencia de relación
Prueba de Chi Cuadrado: Se utiliza para poder observar si las variables en estudio son
independientes o dependientes.
Medidas de dependencia lineal
Buscamos una medida descriptiva que, mediante un único valor, nos indique si entre dos
variables x e y existe una relación de tipo lineal o no.
Representaciones gráficas
La representación gráfica más útil para dos variables continuas es a través del llamado
diagrama de dispersión.
1 PRIMARIA ALTO
2 PRIMARIA ALTO
3 SECUNDARIA ALTO
4 SECUNDARIA ALTO
5 SECUNDARIA ALTO
6 PRIMARIA MEDIO
7 SECUNDARIA MEDIO
8 SUPERIOR BAJO
9 SECUNDARIA ALTO
10 SUPERIOR BAJO
11 PRIMARIA ALTO
12 PRIMARIA ALTO
13 SECUNDARIA MEDIO
14 PRIMARIA MEDIO
15 SUPERIOR BAJO
16 SECUNDARIA ALTO
17 SECUNDARIA MEDIO
18 SECUNDARIA MEDIO
19 PRIMARIA MEDIO
20 SECUNDARIA MEDIO
⋮ ⋮ ⋮
113 SECUNDARIA ALTO
114 SECUNDARIA ALTO
115 SECUNDARIA ALTO
116 SECUNDARIA ALTO
117 PRIMARIA ALTO
118 SECUNDARIA MEDIO
Súper Matriz Indicadores
𝑍 = [𝑋, 𝑌]
𝐍 = (𝐧𝐢𝐣 ) = 𝐗 𝐭 𝐘
𝐼 𝐽 2
2
(𝑛𝑖𝑗 − 𝑛𝑖 𝑛𝑗 /𝑛)
Estadístico de Prueba 𝑥 = 𝑛∑∑
𝑛𝑖 𝑛𝑗
𝑖=1 𝑗=1
𝑥 2 = 102.06
Matriz de Correspondencias
𝟏
𝐅= 𝐍 = (𝐟𝐢𝐣 )
𝐧
2 1 𝑡
𝑟 = (𝑓1 , 𝑓2,… , 𝑓𝐼 ) = 𝑋 1
𝑛
2 1 ′
𝑐 = (𝑓1 , 𝑓2,… , 𝑓𝐼 ) = 𝑌1
𝑛
1
𝐌𝐚𝐭𝐫𝐢𝐳 Dr = X t X
n
0,186440678 0 0
0 0,703389831 0
0 0 0,110169492
1 t
𝐌𝐚𝐭𝐫𝐢𝐳 Dc = YY
n
0,677966102 0 0
0 0,194915254 0
0 0 0,127118644
Las matrices diagonales que contienen los valores marginales de las filas y columnas de F.
Se verifica:
𝑛𝐷𝑟 = 𝑋 𝑡 𝑋
22 0 0
0 83 0
0 0 13
𝑛𝐷𝑐 = 𝑌 𝑡 𝑌
80 0 0
0 23 0
0 0 15
𝑋 ′ 𝑌 = 𝑛𝐹 = 𝑁
15 7 0
65 16 2
0 0 13
Matriz de covarianzas entre las modalidades de Nivel de Estudio
𝑆11 = 𝐷𝑟 − 𝑟𝑟 𝑡
𝑆22 = 𝐷𝑐 − 𝑐𝑐 𝑡
−
𝑆11 = 𝐷𝑟−1
5,363636364 0 0
0 1,421686747 0
0 0 9,076923077
−
𝑆22 = 𝐷𝑐−1
1,475 0 0
0 5,130434783 0
0 0 7,866666667
´ ´
𝒂 = (𝒂𝟏,…, 𝒂𝑰 ) , 𝒃 = (𝒃𝟏,…, 𝒃𝑱 )
𝑼 = 𝒂´ 𝑿, 𝑽 = 𝒃´ 𝒀,
Encontrar estos vectores tales que entre estos exista máxima correlación lineal.
Descomposición Singular
−1/2 −1/2
𝐸 = 𝐷𝑟 (𝐹 − 𝑟 𝑐 ′ )𝐷𝑐 = 𝑈𝐷𝜆 𝑉 ′
𝐸 = 𝑈𝐷𝜆 𝑉 ′
𝑬𝑬𝒕
0,038238176 0,03703312 -0,143318089
0,03703312 0,070219826 -0,22560594
-0,143318089 -0,22560594 0,756497175
𝐔: 𝐀𝐮𝐭𝐨𝐯𝐞𝐜𝐭𝐨𝐫𝐞𝐬 𝐝𝐞 𝐄𝐄𝐭
Autovalores de 𝑬𝑬𝒕
0,850942857 0 0
0 0,014012319 0
0 0 6,10E-10
𝑹𝒂𝒏𝒈𝒐(𝑬) = 𝟐, número de valores singulares
𝑬𝒕 𝑬
0,086169988 0,039855895 -0,24835376
0,039855895 0,036024314 -0,13665138
-0,248353756 -0,136651375 0,742760874
𝐕: 𝐀𝐮𝐭𝐨𝐯𝐞𝐜𝐭𝐨𝐫𝐞𝐬 𝐝𝐞 𝑬𝒕 𝑬
-0,312358592 0,473778423 0,823386979
-0,17194253 -0,880636433 0,441492061
0,934273984 -0,003671402 0,356537016
Autovalores de 𝑬𝒕 𝑬
0,850942857 0 0
0 0,014012319 0
0 0 1,08E-10
Los vectores que cuantifican las categorías de A y B son las columnas de las siguientes matrices:
−1/2
𝐴0 = 𝐷𝑟 𝑈
-0,414727318 2,047348934 0,999999979
-0,334995108 -0,556295797 1,000000005
2,840661145 0,086990446 1
−1/2
𝐵0 = 𝐷𝑐 𝑉
-0,3794 0,5754 1,0000
-0,3895 -1,9947 1,0000
2,6204 -0,0103 1,0000
−1/2
𝐴 = 𝐷𝑟 𝑈𝐷𝜆
-0,382571701 0,24235215 2,46986E-05
-0,309021476 -0,06585076 2,46986E-05
2,620412301 0,010297376 2,46986E-05
−1/2
𝐵 = 𝐷𝑐 𝑉𝐷𝜆
-0,3499 0,0681 0
-0,3593 -0,2361 0
2,4172 -0,0012 0
𝑸𝒓 = 𝑫−𝟏
𝒓 𝑭 = (𝒇𝒋/𝒊 )
0,681818182 0,318181818 0
0,78313253 0,192771084 0,024096386
0 0 1
0,1875 0,8125 0
0,304347826 0,69565217 0
0 0,13333333 0,866666667
Coordenadas principales
−1/2
𝐴 = 𝐷𝑟 𝑈𝐷𝜆
Mapa Perceptual de A
0.3
PRIMARA
0.25
0.2
0.15
0.1
SUPERIOR
0.05
0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
SECUNDARIA -0.05
-0.1
−1/2
𝐵 = 𝐷𝑐 𝑉𝐷𝜆
-0,3499 0,0681 0
-0,3593 -0,2361 0
2,4172 -0,0012 0
ALTO
Mapa Perceptual de B
0.1000
0.0500 BAJO
0.0000
-1.5000 -1.0000 -0.5000 0.0000 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000
-0.0500
-0.1000
-0.1500
MEDIO -0.2000
-0.2500
-0.3000
Representación conjunta
𝐴 = 𝐷𝑟−1 𝐹𝐵𝐷𝜆−1 ; 𝐴 = 𝑄𝑟 𝐵𝐷𝜆−1
A
-0,382571701 -0,242352168 0,999999995
-0,309021476 0,065850742 1,000000001
2,620412302 -0,010297393 1
-0,382571701 -0,242352168
-0,309021476 0,065850742
2,620412302 -0,010297393
Las coordenadas de las filas son las medias de las coordenadas de las columnas, ponderadas
por los perfiles de las filas. Por lo tanto, las coordenadas de las modalidades del Nivel de
Estudio son las medias de las coordenadas de las modalidades de Nivel Socioeconómico,
ponderadas por la incidencia del Nivel de Estudio en el Nivel Socioeconómico.
B
-0,349944897 -0,06811241 1,000000001
-0,359261432 0,236117817 0,999999998
2,417240311 0,001218947 1,000000001
-0,349944897 -0,06811241
-0,359261432 0,236117817
2,417240311 0,001218947
Las coordenadas de las columnas son las medias de las coordenadas de las filas, ponderadas por los
perfiles de las columnas. Por lo tanto, Las coordenadas de las modalidades del Nivel Socioeconómico
son las medias de las coordenadas de las modalidades del Nivel de Estudio, ponderadas por la
incidencia del Nivel Socioeconómico en el Nivel de Estudio.
Solución asimétrica
La representación utilizando las matrices
−1/2 −1/2
𝐴 = 𝐷𝑟 𝑈𝐷𝜆 𝐵0 = 𝐷𝑐 𝑉
Es decir, coordenadas principales para las filas y coordenadas estándar para las columnas, es
la llamada solución asimétrica. Esta solución verifica
P − rc ′ = Dr AB0′ Dc
y por lo tanto A; 𝐵0 reproducen mejor la dependencia entre filas y columnas.
Mapa Perceptual de A y Bo
PRIMARA 1
0
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
-0.5
MEDIO
-1
-1.5
SECUNDARIA
-2
-2.5
Solución simétrica
Mapa Perceptual de A y B
0.3
PRIMARA
0.2
ALTO
0.1
BAJO SUPERIOR
0
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
SECUNDARIA -0.1
MEDIO -0.2
-0.3
Gráficamente se observa que la modalidad Superior del tipo Nivel de Estudio y la modalidad
Nivel bajo del tipo Nivel Socioeconómico están cercanas siendo éste un indicio de relación
existente entre estas modalidades, teniendo así que muchos Niveles de Estudio Superior tiene
un Nivel Socioeconómico bajo. Cuanto mayor cercano están los puntos en el mapa
perceptual, la frecuencia de esa celda en la tabla de contingencia es alta.
∑m 2
k=1 λk
Pm = siendo K = min(I, J)
∑kk=1 λ2k
m=2
P2 = 99.99
Bibliografía:
http://halweb.uc3m.es/esp/Personal/personas/amalonso/esp/EItema2.pdf
Nuevos métodos de análisis multivariante C.M. Cuadras (Barcelona 2018)