Conceptos Premiliminares

Inferencia Multivariada:
Conceptos Preliminares
Hugo Alberto Brango García1

Roger Jesús Tovar Falón2
1 InstitutoButantan, São Paulo, Brasil

2 Departamento de Matemáticas y Estadística
Universidad de Córdoba
Febrero de 2021
Introducción
Introducción
I La complejidad de la mayoría de los fenómenos exigen que

el investigador recoja información sobre muchas variables
diferentes.
Introducción

diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
Introducción

diferentes.
I Métodos de reducción de datos
Introducción

diferentes.
I Métodos de Ordenamiento y agrupación
Introducción

diferentes.
I Métodos para investigar las relaciones de dependencia entre
las variables
Introducción

diferentes.
las variables
I Métodos de predicción
Introducción

diferentes.
las variables
I Métodos de predicción
I Construcción y pruebas de hipótesis
Datos
Datos
I Tipos de datos: Los datos recolectados pueden ser

generados por:
Datos

generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
Datos

generados por:
I Presentación de los datos: su objetivo es facilitar el análisis
Datos

generados por:
I Tablas
Datos

generados por:
I Tablas
I Arreglos matriciales
Datos

generados por:
I Tablas
I Medidas resúmenes o descriptivas
Datos

generados por:
I Tablas
I Medidas resúmenes o descriptivas
I Gráficos
Tablas
I Sea xjk el valor que toma la k−ésima variable sobre el

j−ésimo objeto (o unidad experimental)
Tablas

I Si se toman n observaciones sobre p variables de interés, el
conjunto de datos puede ser presentado como
Tablas

I Si se toman n observaciones sobre p variables de interés, el
conjunto de datos puede ser presentado como
Objeto Var 1 Var 2 ... Var k ... Var p

1 x11 x12 ... x1k ... x1p
2 x21 x22 ... x2k ... x2p
.. .. .. .. ..
. . . . .
j xj1 xj2 ... xjk ... xjp
.. .. .. .. ..
. . . . .
n xn1 xn2 ... xnk ... xnp
Organización de datos
Los datos también pueden ser presentados usando arreglos
matriciales:
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
xn1 xn2 ··· xnk · · · xnp
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
En este arreglo matricial,
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
I una columna representa la información de los n individuos
sobre una variable,
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
I una columna representa la información de los n individuos
sobre una variable,
I una fila representa la información de las p variables sobre
un individuo.
I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
I Mucha de la información contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente
ciertas características de los datos: localización, dispersión,
correlación, simetría, curtosis.
Estadísticas descriptivas
Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1

n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1
I Varianza muestral para la k−ésima variable

n
1X
Sk2 = (xjk − xk )2
n
j=1

n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1
I Varianza muestral para la k−ésima variable

n
1X
Sk2 = (xjk − xk )2
n
j=1
I Desviación estándar para la k−ésima variable

q
sk = s2k
I Covarianza muestral: es una medida de asociación

lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como

n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

n
1X
n
j=1
Interpretación:

n
1X
n
j=1
Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .

n
1X
n
j=1
Interpretación:
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .

n
1X
n
j=1
Interpretación:
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .
I sik = 0 indica que no hay asociación lineal entre las
variables xi y xk .
I Correlación muestral: Es otra medida de asociación
lineal.
lineal.
sik
rik = √ √ .
sii skk
lineal.
sik
rik = √ √ .
sii skk
Propiedades
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi xjk − xk
zji = √ y zjk = √ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
xk
zji = √ y zjk = √ ,
sii skk
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
xk
zji = √ y zjk = √ ,
sii skk
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
4. sik y rik son sensibles a la existencia de datos atípicos
(outliers).
Arreglos basados en estadísticas descriptivas
I Vector de medias muestral:

 
x1
 x2 
x=
 
.. 
 . 
xp
I Vector de medias muestral:

 
x1
 x2 
x=
 
.. 
 . 
xp
I Matriz de varianzas y covarianzas muéstrales:
 
s11 s12 . . . s1p
 s21 s22 . . . s2p 
S= .
 
. .. . . .. 
 . . . . 
sp1 sp2 . . . spp
Sn es una matriz simétrica, es decir Sn = Stn
I Matriz de correlaciones muéstrales

 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= .
 
. .. . . .. 
 . . . . 
rp1 rp2 . . . 1
I Matriz de correlaciones muéstrales

 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= .
 
. .. . . .. 
 . . . . 
rp1 rp2 . . . 1
R también es una matriz simétrica
Ejemplo 1
Suponga que se tienen los valores para p = 2 y n = 4

Variable 1 42 52 48 58
Variable 2 4 5 4 3
Encontrar los arreglos X, Sn y R.
Solución
Primero escribamos matricialmente el arreglo de los datos:

   
x11 x12 42 4
 x21 x22   52 5 
X=  x31 x32  =  48 4 
  
x41 x42 58 3
Ejemplo 1
Vector de medias: primero calculamos las medias para cada

variable
4
X 1
x1 = 14 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1

x1 50
=⇒ x = =
x2 4
Ejemplo 1
Vector de medias: primero calculamos las medias para cada

variable
4
X 1
x1 = 14 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1

x1 50
=⇒ x = =
x2 4
La matriz de varianzas y covarianzas viene dada por

s11 s21
S=
s12 s22
Ejemplo 1
n
1X
s11 = (xj1 − x1 )2
4
j=1
1h i
= (42 − 50)2 + (52 − 50)2 + (48 − 50)2 + (50 − 50)2 = 34
4
n
1X
s22 = (xj2 − x2 )2
4
j=1
1h i
= (4 − 4)2 + (5 − 4)2 + (4 − 4)2 + (3 − 4)2 = 0,5
4
n
1X
s12 = (xj1 − x1 ) (xj2 − x2 )
4
j=1
1
= [(42 − 50) (4 − 4) + (52 − 50)
4
+ (48 − 50) (4 − 4) + (50 − 50) (3 − 4)] = −1, 5
s21 = s12
Ejemplo 1
Entonces, la matriz de varianzas y covarianzas muestrales queda:

34 −1,5
Sn = .
−1,5 0,5
La matriz de correlación muestral es:

s12 −1, 5
r12 = √ √ =√ √ = −0,36
s11 s22 34 0,5
entonces,

1 −0,36
R= .
−0,36 1

Conceptos Premiliminares

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos Premiliminares

Cargado por

Copyright:

Formatos disponibles

Inferencia Multivariada:

Hugo Alberto Brango García1

1 InstitutoButantan, São Paulo, Brasil

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I La complejidad de la mayoría de los fenómenos exigen que

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Tipos de datos: Los datos recolectados pueden ser

I Sea xjk el valor que toma la k−ésima variable sobre el

I Sea xjk el valor que toma la k−ésima variable sobre el

I Sea xjk el valor que toma la k−ésima variable sobre el

Objeto Var 1 Var 2 ... Var k ... Var p

Sean n observaciones sobre p variables:

Sean n observaciones sobre p variables:

Sean n observaciones sobre p variables:

I Varianza muestral para la k−ésima variable

Sean n observaciones sobre p variables:

I Varianza muestral para la k−ésima variable

I Desviación estándar para la k−ésima variable

I Covarianza muestral: es una medida de asociación

I Covarianza muestral: es una medida de asociación

I Covarianza muestral: es una medida de asociación

I Covarianza muestral: es una medida de asociación

I Covarianza muestral: es una medida de asociación

I Covarianza muestral: es una medida de asociación

I Vector de medias muestral:

I Vector de medias muestral:

I Matriz de correlaciones muéstrales

I Matriz de correlaciones muéstrales

Suponga que se tienen los valores para p = 2 y n = 4

Encontrar los arreglos X, Sn y R.

Primero escribamos matricialmente el arreglo de los datos:

Vector de medias: primero calculamos las medias para cada

Vector de medias: primero calculamos las medias para cada

Entonces, la matriz de varianzas y covarianzas muestrales queda:

La matriz de correlación muestral es:

También podría gustarte