Está en la página 1de 57

Inferencia Multivariada:

Conceptos Preliminares

Hugo Alberto Brango García1


Roger Jesús Tovar Falón2

1 InstitutoButantan, São Paulo, Brasil


2 Departamento de Matemáticas y Estadística
Universidad de Córdoba

Febrero de 2021
Introducción
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
I Métodos de predicción
Introducción

I La complejidad de la mayoría de los fenómenos exigen que


el investigador recoja información sobre muchas variables
diferentes.
I El Análisis de datos multivariados proporciona al
investigador métodos para analizar esta clase de datos:
I Métodos de reducción de datos
I Métodos de Ordenamiento y agrupación
I Métodos para investigar las relaciones de dependencia entre
las variables
I Métodos de predicción
I Construcción y pruebas de hipótesis
Datos
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
I Presentación de los datos: su objetivo es facilitar el análisis
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
I Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
I Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
I Arreglos matriciales
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
I Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
Datos

I Tipos de datos: Los datos recolectados pueden ser


generados por:
I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
I Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
I Gráficos
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)
I Si se toman n observaciones sobre p variables de interés, el
conjunto de datos puede ser presentado como
Tablas

I Sea xjk el valor que toma la k−ésima variable sobre el


j−ésimo objeto (o unidad experimental)
I Si se toman n observaciones sobre p variables de interés, el
conjunto de datos puede ser presentado como

Objeto Var 1 Var 2 ... Var k ... Var p


1 x11 x12 ... x1k ... x1p
2 x21 x22 ... x2k ... x2p
.. .. .. .. ..
. . . . .
j xj1 xj2 ... xjk ... xjp
.. .. .. .. ..
. . . . .
n xn1 xn2 ... xnk ... xnp
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
xn1 xn2 ··· xnk · · · xnp
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
I una columna representa la información de los n individuos
sobre una variable,
Organización de datos
I Arreglos matriciales
Los datos también pueden ser presentados usando arreglos
matriciales:
 
x11 x12 ··· x1k ··· x1p
 x21 x22
 ··· x2k ··· x2p 

 .. .. .. .. 
 . . . . 
X= 
 xj1 xj2
 ··· xjk ··· xjp 

 .. .. .. .. 
 . . . . 
xn1 xn2 ··· xnk · · · xnp
En este arreglo matricial,
I una columna representa la información de los n individuos
sobre una variable,
I una fila representa la información de las p variables sobre
un individuo.
Organización de datos

I Estadísticas descriptivas:
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
Organización de datos

I Estadísticas descriptivas:
I Los conjuntos de datos generalmente son voluminosos.
I Esto es un serio obstáculo para extraer información
relevante visualmente.
I Mucha de la información contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente
ciertas características de los datos: localización, dispersión,
correlación, simetría, curtosis.
Estadísticas descriptivas

Sean n observaciones sobre p variables:


Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1
Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1

I Varianza muestral para la k−ésima variable


n
1X
Sk2 = (xjk − xk )2
n
j=1
Estadísticas descriptivas

Sean n observaciones sobre p variables:


I Media muestral para la k−ésima variable
n
1X
xk = xjk k = 1, 2 . . . , p.
n
j=1

I Varianza muestral para la k−ésima variable


n
1X
Sk2 = (xjk − xk )2
n
j=1

I Desviación estándar para la k−ésima variable


q
sk = s2k
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .
Estadísticas descriptivas

I Covarianza muestral: es una medida de asociación


lineal entre los datos de dos variables. Para los datos de la
i-ésima y k-ésima variable se define como
n
1X
sik = (xji − xi ) (xjk − xk )
n
j=1

Interpretación:
I sik > 0 indica una asociación lineal positiva entre las
variables xi y xk .
I sik < 0 indica una asociación lineal negativa entre las
variables xi y xk .
I sik = 0 indica que no hay asociación lineal entre las
variables xi y xk .
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi xjk − xk
zji = √ y zjk = √ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi xjk − xk
zji = √ y zjk = √ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
Estadísticas descriptivas
I Correlación muestral: Es otra medida de asociación
lineal.
sik
rik = √ √ .
sii skk
Propiedades
1. −1 ≤ rik ≤ 1
2. Considere las versiones estandarizadas de las variables xi y
xk
xji − xi xjk − xk
zji = √ y zjk = √ ,
sii skk
entonces rik es la covarianza muestral entre zik y zjk .
3. sik y rik solo informan sobre la existencia o no de una
asociación lineal.
4. sik y rik son sensibles a la existencia de datos atípicos
(outliers).
Arreglos basados en estadísticas descriptivas
Arreglos basados en estadísticas descriptivas

I Vector de medias muestral:


 
x1
 x2 
x=
 
.. 
 . 
xp
Arreglos basados en estadísticas descriptivas

I Vector de medias muestral:


 
x1
 x2 
x=
 
.. 
 . 
xp
I Matriz de varianzas y covarianzas muéstrales:
 
s11 s12 . . . s1p
 s21 s22 . . . s2p 
S= .
 
. .. . . .. 
 . . . . 
sp1 sp2 . . . spp
Sn es una matriz simétrica, es decir Sn = Stn
Arreglos basados en estadísticas descriptivas
Arreglos basados en estadísticas descriptivas

I Matriz de correlaciones muéstrales


 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= .
 
. .. . . .. 
 . . . . 
rp1 rp2 . . . 1
Arreglos basados en estadísticas descriptivas

I Matriz de correlaciones muéstrales


 
1 r12 . . . r1p
 r21 1 . . . r2p 
R= .
 
. .. . . .. 
 . . . . 
rp1 rp2 . . . 1
R también es una matriz simétrica
Ejemplo 1

Suponga que se tienen los valores para p = 2 y n = 4


Variable 1 42 52 48 58
Variable 2 4 5 4 3

Encontrar los arreglos X, Sn y R.

Solución

Primero escribamos matricialmente el arreglo de los datos:


   
x11 x12 42 4
 x21 x22   52 5 
X=  x31 x32  =  48 4 
  

x41 x42 58 3
Ejemplo 1

Vector de medias: primero calculamos las medias para cada


variable
4
X 1
x1 = 14 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1
   
x1 50
=⇒ x = =
x2 4
Ejemplo 1

Vector de medias: primero calculamos las medias para cada


variable
4
X 1
x1 = 14 xj1 = (42 + 52 + 48 + 58) = 50
4
j=1
4
1
X 1
x2 = 4 (4 + 5 + 4 + 3) = 4
xj2 =
4
j=1
   
x1 50
=⇒ x = =
x2 4
La matriz de varianzas y covarianzas viene dada por
 
s11 s21
S=
s12 s22
Ejemplo 1
n
1X
s11 = (xj1 − x1 )2
4
j=1
1h i
= (42 − 50)2 + (52 − 50)2 + (48 − 50)2 + (50 − 50)2 = 34
4
n
1X
s22 = (xj2 − x2 )2
4
j=1
1h i
= (4 − 4)2 + (5 − 4)2 + (4 − 4)2 + (3 − 4)2 = 0,5
4
n
1X
s12 = (xj1 − x1 ) (xj2 − x2 )
4
j=1
1
= [(42 − 50) (4 − 4) + (52 − 50)
4
+ (48 − 50) (4 − 4) + (50 − 50) (3 − 4)] = −1, 5
s21 = s12
Ejemplo 1

Entonces, la matriz de varianzas y covarianzas muestrales queda:


 
34 −1,5
Sn = .
−1,5 0,5

La matriz de correlación muestral es:


s12 −1, 5
r12 = √ √ =√ √ = −0,36
s11 s22 34 0,5
entonces,
 
1 −0,36
R= .
−0,36 1

También podría gustarte