Está en la página 1de 63

Análisis de Datos Multivariantes

Análisis y Construcción de Índices

Andrés Alejandro Galvis Correa

Dirección Académica
Sociedad Ecuatoriana de Estadı́stica

Noviembre, 2020
Contenido

Introducción

Espacio de Probabilidad

Noción de Variable Aleatoria

Inferencia Estadı́stica

Análisis Multivariante

Análisis Exploratorio de Datos Multivariantes

2 of 63
La estadı́stica moderna es el resultado de la unión de dos disciplinas
que evolucionan independientemente: cálculo de probabilidades y la
estadı́stica propiamente dicha...

... la primera nace como teorı́a matemática de los juegos de azar, en


tanto que la segunda estudia la descripción de datos y tiene unas
raı́ces más antiguas.

”La integración de ambas lineas de pensamiento da lugar a una


ciencia que estudia cómo obtener conclusiones de la investigación
empı́rica mediante el uso de modelos matemáticos.”

3 of 63
Espacio de Probabilidad
Definición
Un espacio de probabilidad, (Ω, F, P), es un espacio medible con
medida total uno.
 Ω es un conjunto, llamado espacio muestral, compuesto resultados
del experimento o puntos muestrales, ω.
 F o σ-álgebra, es un conjunto formado por subconjuntos de Ω,
llamados eventos.
 P es una función de F a [0, 1] con P(Ω) = 1, tal que si
A1 , A2 , ... ∈ F son eventos disjuntos, entonces
 

[ X∞
P  Aj  = P (Aj )
j=1 j=1

4 of 63
Espacio de Probabilidad

Definición
Una colección F de subconjuntos de Ω es una σ-álgebra si cumple
las siguientes condiciones.
 Ω ∈ F.
 Si A ∈ F, entonces Ac ∈ F.
S∞
 Si A1 , A2 , . . . ∈ F, entonces j=1 Aj ∈F

Observación: Es una colección de subconjuntos de Ω que no es vacı́a,


es cerrada bajo las operaciones de tomar complemento y uniones
infinitas numerables. Estas propiedades garantizan que la colección es
cerrada al efectuar las operaciones usuales entre conjuntos.

5 of 63
Espacio de Probabilidad

Medida de Probabilidad
Sea (Ω), F un espacio medible. Una medida de probabilidad es una
función P : F −→ [0, 1] que satisface
1. P(Ω) = 1.
2. P(A) ≥ 0, para cualquier A ∈ F.
3. Si A1 , A2 , · · · ∈ F son disjuntos dos a dos, entonces
 

[ X∞
P  Aj  = P (Aj )
j=1 j=1

6 of 63
Ejemplo
Consideremos un experimento con los siguientes posibles resultados:

Ω = {1, 2, 3, 4},

se puede observar que cada uno de ellos son puntos muestrales.


Luego, se formula el conjunto de eventos o σ-álgebra. tal que:

F = {∅, Ω, {1}, {2, 3}, {4}, {1, 2, 3}, {2, 3, 4}, {1, 4}}

Finalmente, se determinan las probabilidades de los elementos que


pertenecen al conjunto de eventos, F, tal que
1 2 1 3
P ({1}) = , P ({2, 3}) = , P ({4}) = , P ({1, 2, 3}) = ,
4 4 4 4
3 2
P ({2, 3, 4}) = , P ({1, 4}) = .
4 4
7 of 63
Espacio de Probabilidad

Proposición
La intersección finita, infinita numerable o bien arbitraria de
σ-álgebras es nuevamente una σ-álgebra.

8 of 63
Espacio de Probabilidad

Definición
Sea C una colección no vacı́a de subconjuntos de Ω. La σ-álgebra
generada por C, denotada por σ(C), es la colección
\
σ(C) = {F : F es σ-álgebra y C ⊆ F}

Observación: La colección σ(C) es la intersección de todas aquellas


σ-álgebra que contienen a C.

9 of 63
Ejemplo

Sean A, B ⊆ Ω con A y B disjuntos. Defina la colección C = {A, B}.


En general esta colección no es una σ-álgebra pero podemos añadirle
algunos subconjuntos de Ω para encontrar la σ-álgebra generada por
C. Resulta que la mı́nima σ-álgebra que contiene a la colección C es la
siguiente:

σ(C) = {∅, A, B, (A ∪ B)c , A ∪ B, Ac , B c , Ω}.

10 of 63
Espacio de Probabilidad

Definición
Sea la colección de los todos los intervalos abiertos (a, b) de R, en
donde a ≤ b. A la mı́nima σ-álgebra generada por esta colección se le
denomina σ-álgebra de Borel de R, B(R), tal que

B(R) = σ{(a, b) ⊆ R : a ≤ b}

Observación: Se puede asociar la σ-álgebra de Borel al conjunto de


números reales, y obtener ası́ el espacio medible (R, B(R)).

11 of 63
Espacio de Probabilidad

Proposición
Para cualquier par de números reales a ≤ b, los intervalos
[a, b] , (a, ∞) , (−∞, b) , [a, b) , (a, b] y {a}, son todos elementos de
B(R)).

12 of 63
Espacio de Probabilidad Discreto
Definición
Sea (Ω, F, P) un espacio de probabilidad, donde Ω es discreto, es
decir, Ω = {ω1 , ω2 , ....}, y F es el correspondiente conjunto potencia
del conjunto Ω, es decir, F = {A : A ⊆ Ω}. Entonces
 Cada evento A ∈ F es finito o enumerable, es decir, el evento A es
a los más una unión enumerable de eventos disjuntos dos a dos.
 Debido a la aditividad de la medida P se tiene que
X
P(A) = P(ω),
w ∈A

es decir que la probabilidad del evento es únicamente determinado


a través de las probabilidades de los puntos muestrales o resultados
del experimento, ω.
13 of 63
Espacio de Probabilidad Laplaciano
Definición
Un espacio de probabilidad (Ω, F, P) se llama espacio de probabilidad
laplaciano si Ω es finito, F es el conjunto potencia de Ω y cada
evento elemental ω ∈ Ω tiene la misma probabilidad. De esta manera,
1
se tiene que P(ω) = #Ω para todo ω ∈ Ω. Por consiguiente, para
cada evento A ∈ F tenemos que
!
[ X X 1 #A
P(A) = P {ω} = P(ω) = =
#Ω #Ω
ω∈A ω∈A ω∈A

Por lo tanto,
Número de casos favorables de A
P(A) =
Número de casos totales
14 of 63
Ejemplo

Un estante tiene 3 libros de matemática y 2 de fı́sica. Se extraen 3


libros al azar sin reposición, ¿cuál es la probabilidad de obtener los
tres libros de matemática?
 ¿(M, F , F ) es un posible resultado del experimento?.
 Determine el número de casos totales o puntos muestrales, ω: C53
 Determine el número de casos favorables, A: C33 × C20
Finalmente,
C33 × C20
P(A) =
C53

15 of 63
Probabilidad Condicional

Definición
Sean A,B ∈ F dos eventos cualquiera y P(B) > 0. La probabilidad
condicional del evento A, dado el evento B, se denota por el sı́mbolo
P(A|B) y se define como el cociente

P(A ∩ B)
P(A|B) = .
P(B)

De esta forma, diremos que el evento B representa un evento que ha


ocurrido, y la probabilidad condicional P(A|B) es la probabilidad de A
modificada con la información adicional de que B ha ocurrido.

16 of 63
Probabilidad Condicional

Figura: Probabilidad Condicional

(Rincón, 2016)

17 of 63
Noción intuitiva de variable aleatoria

Definición
Una variable aleatoria es una transformación X del espacio muestral
Ω al conjunto de números reales, esto es,

X : Ω −→ R

tal que para cualquier número real x,

{w ∈ Ω : X (ω) ≤ x} ∈ F

18 of 63
Noción intuitiva de variable aleatoria

Proposición
Una función X : Ω −→ R es una variable aleatoria si, y sólo si, para
cada x ∈ R se cumple que (X ≤ x) ∈ F.

19 of 63
Noción intuitiva de variable aleatoria

Figura: Noción de variable aleatoria

(Rincón, 2016)

20 of 63
Noción intuitiva de variable aleatoria

Medida de probabilidad inducida


Para cualquier intervalo de la forma (−∞, x] se puede obtener su
imagen inversa bajo X, es decir,X −1 (−∞, x] = {w ∈ Ω : X (w ) ≤ x},
Como este conjunto pertenece a F se puede aplicar la medida de
probabilidad P pues ésta tiene como dominio F.

Figura: Noción de variable aleatoria

21 of 63
Noción intuitiva de variable aleatoria

Figura: Imagen inversa de un conjunto de Borel

(Rincón, 2016)

22 of 63
Función de Probabilidad
Función de probabilidad Discreta
Sea X una variable aleatoria discreta con valores x1 , x2 , . . . xn . La
función de probabilidad de X , denotada por f (x) : R −→ R se define
como sigue:

23 of 63
Función de Probabilidad
Función de probabilidad Continua
Sea X una variable aleatoria continua. Decimos que la función es
integrable y no negativa f (x) : R −→ R es la función de densidad de
X si para cualquier intervalo [a, b] de R se cumple la igualdad:

24 of 63
Función de Distribución

Definición
Sea X una variable aleatoria cualquiera. La función de distribución de
X , denotada por F (x) , se define como la probabilidad:

F (x) = P(X ≤ x).

En particular, para el caso discreto y continuo se tiene:


X Z x
F (x) = f (u), F (x) = f (u)du
u≤x −∞

25 of 63
Función de Distribución

Figura: Funciones de Distribución Discreta y Continua

(Rincón, 2016)

26 of 63
Caracterı́sticas Numéricas

Esperanza
Sea X con función de distribución F (x). La esperanza de X ,
denotada por E (X ), se define como el número
Z ∞
E (X ) = µ = xdF (X ),
−∞

cuando esta integral sea absolutamente convergente, es decir cuando


tiene esperanza finita.

27 of 63
Caracterı́sticas Numéricas

Proposición
Sean X y Y variables aleatorias con esperanza finita, y sea c una
constante. Entonces
1. E (c) = c.
2. E (cX ) = cE (X )
3. Si X ≤ 0, entonces E (X ) ≤ 0.
4. Si X ≥ Y , entonces E (X ) ≤ E (Y ).
5. E (X + Y ) = E (X ) + E (Y ).

28 of 63
Caracterı́sticas Numéricas

Varianza
La varianza de una variable aleatoria X , denotada por Var (X ), se
define como la siguiente esperanza, si ésta existe

Var (X ) = E (X − E (x))2 ,

29 of 63
Caracterı́sticas Numéricas

Proposición
Sean X y Y variables aleatorias con varianza finita, y sea c una
constante. Entonces
1. Var (X ) ≥ 0
2. Var (c) = 0.
3. Var (cX ) = c 2 Var (X )
4. Var (X + c) = Var (X )
5. Var (X ) = E (X 2 ) − E 2 (X ).
6. Var (X + Y ) = Var (X ) + Var (Y ) si X y Y son independientes.

30 of 63
Modelando la naturaleza
Distribución de Binomial y Normal
 Binomial, Bin(n, p)

 Normal, N(µ, σ 2 )

31 of 63
¿Qué es la Inferencia Estadı́stica?

Un primer supuesto fundamental:


El espacio probabilı́stico es un dato, el dato de partida, y en los
problemas de su estricta competencia, ha de disponerse de
información suficiente sobre el fenómeno en estudio para poder
construir el espacio probabilı́stico adecuado.

¿Por qué el supuesto?


 Es necesario conocer los parámetros de la función de distribución.
 No se puede deducir la distribución exacta mediante
consideraciones teóricas.

32 of 63
¿Qué es la Inferencia Estadı́stica?

Estadı́stica Matemática o Inferencia Estadı́stica


Tiene como objeto el obtener información a partir de la observación
no exhaustiva de un fenómeno aleatorio, que luego es analizada e
interpretada para obtener conclusiones sobre su ley de probabilidad.

Tipos de conclusiones
 Estimación puntual.
 Estimación por intervalo de confianza.
 Contraste de hipótesis.

33 of 63
Conceptos básicos
Concepto de población
Considerando:
 Cierto grado de desconocimiento de la ley de probabilidad que rige
un fenómeno aleatorio.
 Cierta variable aleatoria X , cuya distribución, F , denominada
distribución teórica o de la población, es más o menos desconocida.
 El grado de desconocimiento de la distribución, F , se refleja
mediante la familia, F, de distribuciones candidatas a ser
realmente la distribución del fenómeno aleatorio.

F = {F1 , F2 , . . . , Fn }

.
34 of 63
Conceptos básicos

Entonces...

¿Qué es población?

35 of 63
Conceptos básicos

Un segundo supuesto fundamental:


La familia de distribuciones, F, está compuesta por distribuciones, F ,
conocidas, dependientes de un parámetro θ, de una o más
dimensiones, que varı́a dentro de un subconjunto Θ de Rk ,
denominado espacio paramétrico. Esto es:

F = {Fθ |θ ∈ Θ ⊂ Rk }. (1)

Precisamente, a este supuesto es el que se le atribuye la noción de


estadı́stica paramétrica. Contrario a la noción de no paramétrico que
implica el desconocimiento de la distribución teórica.

36 of 63
Conceptos básicos
Ejemplos
 Supongamos que el peso de una persona es una variable aleatoria,
X , que sigue una distribución normal, X ∼ N µ, σ 2 . Entonces:


µ, σ 2 ,

θ = Parámetro bidimensional.
Θ = R × (0, ∞) ⊂ R2 , Espacio paramétrico.

 Supongamos una variable aleatoria, X , con dos posibles resultados,


que sigue una distribución de Bernoulli, X ∼ Be (p). Entonces:

θ = p, Parámetro unidimensional.
Θ = (0, 1) , Espacio paramétrico.

37 of 63
Conceptos básicos

Concepto de muestra aleatoria


Una muestra aleatoria simple, de tamaño n, de una variable aleatoria
X con distribución teórica F , son n variables aleatorias,

(X1 , X2 , . . . , Xn ) ,

independientes e idénticamente distribuidas, v .a.i.i.d, con


distribución común F . Además,

F (x1 , x2 , . . . , xn ) = F (x1 ) F (x2 ) · · · F (xn ) , (2)

representa la distribución conjunta de la muestra aleatoria simple,


correspondiente a una distribución de la población F .

38 of 63
Conceptos básicos

Por lo tanto...

¿Qué es una muestra aleatoria?

¿Cuál es su distribución de muestreo?

39 of 63
Conceptos básicos

Figura: Esquema de la Inferencia Estadı́stica

40 of 63
¿Por qué el Análisis Multivariante?

Motivación
 Describir cualquier situación real, requiere tener en cuenta
simultáneamente varias variables.
 La investigación cientı́fica es un proceso iterativo: hipótesis,
recolección de datos y contraste a través del análisis de datos.
 Desarrollo computacional para el análisis fenómenos complejos.

41 of 63
¿Por qué el Análisis Multivariante?

¿Qué es el Análisis Multivariante?


 Extensión del análisis bivariante.
 Rama del análisis estadı́stico que se centra en la investigación
simultánea de dos o más caracterı́sticas medidas en un
conjunto de objetos.
 Análisis de las covarianzas o correlaciones que reflejan la relación
entre tres o más variables.

42 of 63
¿Por qué el Análisis Multivariante?

¿Cuáles son sus objetivos?


 Resumir los datos mediante un pequeño conjunto de nuevas
variables, con la mı́nima perdida de información.
 Encontrar grupos en los datos.
 Clasificar nuevas observaciones en grupos definidos.
 Relacionar dos conjuntos de variables o caracterı́sticas.

43 of 63
¿Por qué el Análisis Multivariante?

¿Cuál es la materia prima para llevar a cabo el análisis?


 Medir es el proceso con el cual se asocian números o sı́mbolos a
determinadas caracterı́sticas de los objetos, y el tipo de escala
de medición es fundamental en la elección y aplicación correcta del
análisis multivariante; esto es: no métricas (nominal-ordinal) y
métricas (intervalo-razón).
 Los datos de partida están en una tabla de dos o más
dimensiones, que de manera conveniente suele denominarse
matriz.

44 of 63
¿Por qué el Análisis Multivariante?

¿Cómo se clasifican las técnicas multivariantes?


 En función del problema:
 Técnicas de análisis de dependencias.
 Técnicas de análisis de interdependencias.
 En función de su naturaleza:
 Métodos de exploración de datos.
 Métodos de inferencia.

45 of 63
¿Por qué el Análisis Multivariante?
En función del problema...

46 of 63
¿Por qué el Análisis Multivariante?
En función del problema...

47 of 63
¿Por qué el Análisis Multivariante?

En función de su naturaleza...
 Métodos exploratorios
 Análisis gráfico y datos atı́picos.
 Componentes principales.
 Escalado multidimensional.
 Análisis de correspondencias.
 Análisis de conglomerados.
 Métodos de inferencia
 Análisis factorial.
 Análisis discriminante.
 Métodos de clasificación lógistica.
 Correlación canónica.
 Ecuaciones estructurales.

48 of 63
¿Por qué el Análisis Multivariante?

Antes de plantear la elección...


1. ¿Responde la investigación a un problema de dependencia o
interdependencia entre las variables?
2. ¿Cómo están medidas las variables, en escalas métricas o no
métricas?
3. Si estamos ante un problema de dependencia. ¿Cuántas relaciones
se plantean entre las variables?, ¿cuántas variables dependientes
existen?

49 of 63
¿Por qué el Análisis Multivariante?

Estructura básica
1. Suponga dos grupos de variables.
2. Análisis de dependencia: busca la existencia o ausencia de
relaciones entre los dos grupos de variables que previamente
fueron clasificados como dependientes e independientes, de
forma conjunta o individualmente.
3. Análisis de interdependencia: cuando no es posible distinguir
teóricamente entre variables dependientes e independientes.

50 of 63
¿Por qué el Análisis Multivariante?

Estructura de una relación entre variables


(Y1 , Y2 , Y3 , . . . , Yn ) = (X1 , X2 , X3 , . . . , Xm )

Estructura de varias relaciones entre variables

Y1 = (X11 , X12 , X13 , . . . , X1m )


Y2 = (X21 , X22 , X23 , . . . , X2m )
.. .. ..
. . .
Yn = (Xn1 , Xn2 , Xn3 , . . . , Xnm )

La estructura métrica de X y Y definirá el tipo de técnica o modelo a utilizar.

51 of 63
¿Por qué el Análisis Multivariante?

Elección y aplicación correcta de una técnica multivariante


1. Definición del problema, objetivos y fundamento teórico (Perspectivas teóricas).
2. Desarrollo del plan de análisis (Instrumentos, Tamaños de muestra).
3. Análisis de las condiciones de aplicabilidad de la técnica (Supuestos).
4. Estimación del modelo, contrates globales e individuales.
5. Interpretación de los resultados.
6. Validación del modelo (Verificación de supuestos).

52 of 63
¿Cómo se describen los datos multivariantes?

1. Suponemos que se ha observado una muestra de variables de una


muestra de elementos de una población.
2. Resumir los valores de las variables.
3. Describir su estructura de dependencia.
4. Representar los datos gráficamente.
5. Elegir transformaciones de las variables originales para tener una
descripción más simple.
6. Análisis de valores atı́picos.

53 of 63
¿Cómo se describen los datos multivariantes?

Observaciones...
1. El análisis descriptivo debe siempre aplicarse como primer paso
para comprender la estructura de los datos.
2. Permite extraer la información que contienen, antes de pasar a los
métodos más complejos.
3. Las herramientas simples pueden resolver el problema que ha
motivado la recogida de los datos (relacionar variables o comparar
conjuntos de datos).
4. En la descripción de datos se utiliza el concepto de distancia
entre puntos, este concepto se le atribuye a Mahalanobis.

54 of 63
¿Cómo se describen los datos multivariantes?

Información de partida
1. La existencia de una hipótesis que se desee contrastar o una
realidad que se espera descubrir. .
2. Tabla con los valores de p variables observadas sobre n
elementos.
3. Variables cuantitativas y cualitativas.

55 of 63
¿Cómo se describen los datos multivariantes?

Matriz de datos
 Cada una de las p variables se denomina variable escalar o univariante.
 El conjunto de las p variables forman una variable vectorial o multivariante.
 Los valores de las p variables escalares en cada uno de los n elementos se
representan en una matriz, X, de dimensiones (n × p), llamada matriz de
datos.
 Se denota por xij al elemento genérico de esta matriz y representa el valor de
la variable escalar j sobre el individuo i.

X = {xij }

56 of 63
Estructura de datos y Modelado
Matriz de datos
···
 
x11 x12 x1p  0
x1
x21
 x22 ··· x2p 
 x02 
X = x31
 x32 ··· x3p 
=  . ,
 
 . ..  .. 
 ..

. 
x0n
xn1 xn2 ··· xnp

donde cada variable x0i es un vector fila, p × 1, que representa los valores de las p
variables sobre el individuo i. Alternativamente,
 
X = x(1) . . . x(p) ,
donde cada variable x(j) es un vector columna, n × 1, que representa la variable
escalar xj medida en los n elementos de la población. Finalmente,
x = (x1 , . . . , xp )0 ,
representa la variable multivariante formada por la p variables escalares que toma
los valores particulares x1 , . . . , xn , en los n elementos observados.
57 of 63
Análisis Exploratorio

Procedimiento de Análisis
El siguiente procedimiento es tomado de Aldás-Uriel:
1. Definición del problema, objetivos y selección de la técnica.
2. Desarrollo del plan de análisis.
3. Análisis de la aplicabilidad de la técnica.
4. Especificación, estimación y validación del modelo.
5. Interpretación de los resultados.
6. Realizar transformaciones sobre las variables originales.

58 of 63
Análisis Exploratorio

Proceso
La matriz de datos es una muestra de elementos que proviene de una
población, donde se pretende resumir los valores de las caracterı́sticas
y describir la estructura de dependencia e interdependencia. De esta
manera:
 Resumir los valores de las caracterı́sticas o variables.
 Describir la estructura de dependencia e interdependencia.
 Representar gráficamente los datos.
 Realizar transformaciones sobre las variables originales.

59 of 63
Ejemplo

Supongamos que se desea construir un modelo de regresión lineal y se


tiene la estructura de datos anterior.
 Y = β0 + β1 X1 + β2 X2
 Y = β0 + β1 X1 + β2 X2 + ε
 Ŷ = β̂0 + β̂1 X1 + β̂2 X2

¿Qué supuestos se observan en la secuencia de modelización y


que representa cada una de las expresiones?

60 of 63
Visualización del Problema de Regresión

Figura: Plano de Regresión

61 of 63
Regresión Lineal

Caso RLS: Cantidad de Café


Se formula el siguiente modelo para explicar la cantidad de café
vendido por semana (cafeqt) en función del precio del café (cafepr ).

cafeqt = β0 + β1 cafepr + ε

62 of 63
Conclusiones

63 of 63

También podría gustarte