Estadística unidimensional: Variables aleatorias, medidas de centralización y dispersión

ESTADISTICA UNIDIMENSIONAL
VARIABLE ALEATORIA Y VARIABLE ESTADISTICA
Dado un experimento aleatorio, los posibles resultados que puedan ocurrir son sucesos
que dependen del azar y que dan lugar a una variable cuyos valores tendrán una cierta
probabilidad de repetirse. Estas nuevas variables se llaman variables aleatorias.
Por contra, si tomamos muestras en un experimento realizado, esos resultados reales

conforman lo que se denomina variable estadística.
Los conceptos variable aleatoria y probabilidad son conceptos teóricos que resultan de
una abstracción hecha sobre los conceptos de variable estadística y frecuencia,
conceptos estos últimos que se consideran después de la ejecución del experimento,
mientras que los primeros se consideran antes de la ejecución.
Una variable aleatoria es discreta cuando sólo puede tomar un número finito de
valores.
MEDIDAS DE CENTRALIZACION
Una medida de centralización es un valor, que es representativo de un conjunto de

datos y que tiende a situarse en el centro del conjunto de datos, ordenados según su
magnitud.
Mediana
Es el valor de la variable estadística que divide en dos partes iguales a los individuos
de una población, supuestos ordenados en orden creciente. En general, es el valor
donde la función de distribución F(x) toma el valor 1/2, pero así definida puede no ser
única en cuyo caso se toma la media aritmética de los valores de mediana, o no existir
en cuyo caso se toma como mediana el valor de la población más cercano a esa
mediana 'ideal'.
Moda
Es el valor más frecuente de la variable estadística; valor que se corresponde al

máximo del histograma.
Si la variable es discreta, puede darse el caso de que haya más de una mediana.
Media aritmética
Es la suma de los productos de los posibles valores que tome la variable xi, entre el
número de valores que esa variable contenga.
MEDIDAS DE DISPERSION
Son medidas que representan el grado en el que los valores numéricos tienden a
extenderse alrededor de un valor medio.
Recorrido
Es la diferencia entre el mayor y menor valor de una variable estadística.
Varianza.
Una forma natural de medir la dispersión en torno a la media es calcular la media de

las diferencias:
pero como habrá valores por encima y por debajo de la media que se compensarán,
calcularemos mejor el cuadrado de las diferencias. Se define así varianza de una
variable estadística, como la media de los cuadrados de las desviaciones de sus valores
respecto a su media. Se representa por s2:
Se distingue aquí entre los casos de variable estadística y variable aleatoria. En el

primer caso, tendremos una serie de valores concretos, de los que vamos a calcular su
varianza, la varianza muestral. La fórmula es la que se acaba de expresar. En el caso
de variable aleatoria, estaremos calculando una varianza estimada, ya que no estamos
tomando muestras de un conjunto de datos inmenso y por lo tanto la media y varianza
son estimadas, no conocidas. La expresión que la define cambia en un pequeño
detalle: en vez de dividir el resultado de la suma entre (n-1), se divide entre (n), así:
Desviación típica (o estándar).
Es la raíz cuadrada de la varianza.
Al igual que con la varianza, se distinguen los casos de variables aleatorias y

estadísticas. En esta fórmula se expresa también la desviación típica muestral, que es
la que usaremos.
Coeficiente de variación.
Es el cociente entre la desviación típica y la media. Eliminamos con esta medida la

influencia de la escala escogida en las mediciones efectuadas.
EXPERIMENTOS BIVARIANTES
Hasta ahora se han considerado experimentos en los que tomábamos una sola medida
o valor en cada ensayo. Pero muy corrientemente, al efectuar un experimento, se
deben medir dos características. Estos experimentos se conocen por el nombre de
bivariantes. Por ejemplo en un grupo de personas se miden el peso y la altura.
El objeto de un experimento bivariante es determinar si hay alguna relación entre las

variables que se miden. Y si la hay, intentar calcular:
 Una medida de ese grado de relación.

 Una ecuación matemática que describa con mayor o menor exactitud esa
relación.
Un gráfico para ilustrar los datos bivariantes es el diagrama de dispersión, o nube de

puntos:
A una de las variables (por ejemplo la X) se le denomina variable independiente,

mientras que a la otra (la Y) se le denomina variable dependiente.
Se usa el término correlación cuando se habla de relaciones entre variables de

experimentos bivariantes.
COEFICIENTE DE CORRELACION LINEAL
Es una medida del grado de asociación lineal entre las variables X e Y. Se representa
por r:
donde sx, sy son las desviaciones típicas de las variables X e Y respectivamente, y Sxy es
la covarianza muestral de X e Y, que se define como la media de los productos de las
desviaciones correspondientes de X e Y y de sus medias muestrales.
Propiedades
 r está siempre comprendido entre -1 y 1.

 Si r = 1 ó r = -1 entonces los puntos de la muestra están situados en línea
recta (correlación lineal perfecta).
 Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre ambas
variables.
 Si r es cercano a 0, habrá una asociación lineal muy débil.
 r no varía cuando en las variables se realiza un cambio de escala o de origen.
Esto demuestra que r no tiene dimensión.
Dos consideraciones sobre el coeficiente de correlación.
1. Se trata de una medida matemática que luego hay que interpretar. Aunque un
alto grado de correlación indique buena aproximación a un modelo matemático
lineal, su interpretación puede no tener ningún sentido. Por ejemplo puede
haber un alto grado de correlación entre el número de usuarios de IDL y el
consumo de alcohol en Rusia, pero ambas variables están claramente
disociadas.
2. Aunque el grado de correlación sea cercano a cero (pobre aproximación al
modelo lineal) eso no significa que no haya relación entre las dos variables.
Puede ser que dicha relación sea no lineal.
MATRIZ DE CORRELACION
Sea un experimento de n variables (X1, X2, ... Xn). Podemos ordenar en una matriz los
diferentes coeficientes de correlación de cada variable con el resto y consigo misma,
obteniendo una matriz con cada elemento igual a:
El resultado es una matriz simétrica, con la diagonal principal igual a 1.

MATRIZ DE VARIANZA-COVARIANZA
Sea un experimento de n variables (X1, X2, ... Xn). Podemos ordenar en una matriz las
diferentes covarianzas entre variables y varianzas de variables.
Significado de la varianza y la covarianza
Sean dos nubes de puntos (representadas como en la figura, por elipsoides que las
rodean). La varianza es una medida de la dispersión. Las variables X e Y tienen ambas
la misma varianza en el caso de la elipse y del círculo, pero la covarianza en el círculo
es cero y la de la elipse es más o menos alta, y positiva.
Relación entre matriz de varianza-covarianza y matriz de correlación
Si las n variables tienen medidas incompatibles (kg, m, s, ...) las varianzas no son
comparables. Entonces se recurre a la matriz de correlación. Las correlación es la
covarianza medida para valores estandarizados. Por eso la correlación de una variable
consigo misma da uno; es la varianza de cualquier variable estandarizada.
TRANSFORMACION DE KARHUNEN-LOEVE
También llamada transformación de Hotelling ó Análisis de Componentes Principales. El

origen de esta técnica suele asociarse a la publicación de un artículo de K. Pearson en
1901. Sin embargo, el nombre de componentes principales y su primer desarrollo
teórico no aparecen hasta 1933, en un artículo de Hotelling. Es bastante empleada en
ciencias sociales y naturales, cuando se trata de resumir un grupo amplio de variables
en un nuevo conjunto, más pequeño, sin perder una parte significativa de la
información original. Consiste en definir el número de dimensiones que están
presentes en un conjunto de datos y buscar los coeficientes que especifican la posición
de los ejes que apuntan en las direcciones de máxima variabilidad de los datos.
Su origen está en la redundancia que hay muchas veces entre distintas variables. La
redundancia son datos, no información. Lo que se pretende es:
 Facilitar el estudio de las relaciones existentes entre las variables.
 Facilitar el análisis de la dispersión de las observaciones (poniendo en evidencia
posibles agrupamientos, detectando las variables que son responsables de dicha
dispersión).
FORMULACION DESCRIPTIVA
En un sistema multivariante, la forma de la elipse n-dimensional está definida por la

matriz de varianza-covarianza calculada para las n variables. La varianza es
proporcional a la dispersión de puntos en la dirección paralela al eje de esa variable. La
covarianza define la forma de esa elipse (más o menos afilada). Si las variables no
tienen dimensiones comparables, las varianzas tampoco se pueden comparar. Por eso
se recurre a la matriz de correlación, ya que el coeficiente de correlación no es sino la
covarianza medida para valores estandarizados (normalizados zi),
por eso la diagonal principal es todo unos. Por tanto utilizaremos si podemos, la matriz
de varianza-covarianza, y si no, la de correlación.
En la figura vemos cómo la dispersión de las variables X e Y permite que efectuando

una transformación que pase de X e Y a A y B, se consigue obtener dos variables
nuevas tal que casi toda la varianza (la información) se sitúa en la variable A y muy
poca en la B. Además, la correlación de X e Y era alta, mientras que la de A y B es
matemáticamente cero.
A partir de esas matrices, se calculan sus valores y vectores propios. Los valores
propios dan la longitud de los ejes principales de la elipsoide n-dimensional. Los
vectores propios apuntan precisamente en las direcciones de esos ejes principales.
Además, equivalen a los coeficientes de regresión en una transformación lineal
estándar, siendo las variables a transformar las variables independientes y las
componentes principales, las dependientes.
Las nuevas variables así obtenidas, pierden el sentido físico que pudieran tener las
variables originales.
FORMULACION MATEMATICA
Notación y ordenamiento de los datos
Sea una serie de datos, en este caso bidimensionales (una imagen) de la forma:
Podemos ordenar esa matriz en forma de un vector, bien poniendo una fila tras otra, o
bien por columnas. Lo importante no es tomar uno u otro tipo de ordenación sino que
éste sea consistente con todas las imágenes que vayan a participar en la
transformación.
En definitiva se trata de obtener:
Donde podemos expresar ese vector en función de un sólo subíndice:
Como tendremos varias imágenes, para diferenciar unas de otras en la notación,

introducimos como subíndice los números '1', '2', '3', etc. para las distintas imágenes.
Nótese que ahora el elemento x11 no representa el valor del píxel de la fila 1, columna
1, sino que de la imagen 1 es el píxel 1 (ahora es un vector, no una matriz de dos
dimensiones). Así:
El primer paso consiste en hallar la matriz de correlación de estas variables.
Cálculo de la matriz de correlación
Se puede efectuar de dos formas:
1. Con los datos originales
Con lo cual se aplica la fórmula de cálculo del coeficiente de correlación lineal

entre dos variables (coeficiente de correlación de Pearson):
Coeficiente de correlación entre las variables Xa y Xb se denota rab y se define

como:
donde Sxa, Sxb son las desviaciones típicas de las variables Xa y Xb
respectivamente y Sxaxb es la covarianza muestral. Nos limitaremos a poner la
fórmula completa para r, que quedaría de la forma:
Coeficiente, que como ya se explica en el apartado correspondiente al tema,

está comprendido siempre en el rango [-1, 1] con los consiguientes significados
matemáticos.
La matriz de correlación se forma entonces ordenando los distintos coeficientes

de correlación en una matriz de filas y columnas de la forma:
A priori ya podemos conocer dos cosas de M: que esta será simétrica, ya que rab
= rba y que la diagonal principal será todo unos, esto porque raa = 1.
2. Con los datos normalizados
La otra posibilidad para calcular la matriz de correlación evitándonos esa

fórmula relativamente complicada, es hallando la matriz de varianza-
covarianza para los datos normalizados.
o Normalización de los datos
Se calculan primeramente las estadísticas básicas de cada

variable Xa, su media y desviación estándar:
Con esos datos, ya podemos estandarizar las distintas variables

(recordemos que al estandarizar estamos transformando ese
conjunto de datos en otro, con media cero y desviación estándar
uno. Pasamos de la variable Xa a la Za, y así con todas, pasando
cada valor de esta forma:
A partir de las variables estandarizadas Z1, Z2, Z3, ..., Zp, se

calculan sus varianzas (evidentemente dan uno) y las covarianzas
entre variables:
Ordenando esos valores en forma de matriz, con filas y columnas

representando variables, en virtud de la relación entre la matriz
de varianza-covarianza y la matriz de correlación tendremos ya
calculada la matriz de correlación:
1. Una tercera forma de calcular la matriz de correlación a partir de las variables

estandarizadas es ordenar primeramente dichas variables estandarizadas en
forma de matriz (por ejemplo por filas):
Y efectuar la siguiente operación matricial:
Donde Zt significa matriz traspuesta. Este resultado también se

corresponderá con la matriz de correlación que queremos calcular.
Valores y vectores propios
El siguiente paso es calcular los valores y vectores propios de la matriz de correlación

calculada. Los valores propios son las raíces del polinomio:
I representa la matriz identidad, de las mismas dimensiones que la matriz M. Esta
expresión da como resultado un polinomio cuyas raíces serán los valores propios de M,
que se denotan como ll, l2, ..., li.
Los vectores propios asociados a esos valores propios, se calcularán sustituyendo los
valores propios en la fórmula:
Para cada valor propio li, obtenemos una ecuación diferente, y de esta ecuación
obtenemos también un vector propio vi diferente y asociado a su respectivo li.
Componentes principales
Las coordenadas de los vectores propios hallados son los coeficientes de la

transformación que hay que realizar para pasar de las variables originales a las nuevas
variables 'componentes principales'. Los valores propios nos dan el orden en el que hay
que poner esos vectores propios; el valor propio mayor nos está indicando que su
vector propio asociado apunta en la dirección de máxima variabilidad de los datos, es
decir, en la de la primera componente principal; el segundo valor propio hace lo mismo
con su vector propio, indicando que apunta en la siguiente dirección de máxima
variabilidad ortogonal con la anterior, y así sucesivamente. Es por ello que la obtención
de los componentes principales se realiza de la forma:
donde Z es la matriz de valores estandarizados, aunque también se podría emplear X

(la de valores originales), y V es una matriz de p filas y q columnas, que recoge todos
los vectores propios, ordenados según valores propios. Podemos desarrollar uno de los
elementos de la matriz CP de componentes principales:
Obteniendo las variables CP1, CP2, ..., CPp. Podemos realizar simples cálculos para
comprobar que:
Visualizar las componentes principales
Para el caso concreto que nos ocupa, reconocimiento facial, donde las variables eran
originalmente bidimensionales pero los cálculos se han efectuado unidimensionales,
puede ser interesante visualizar esas componentes principales (llamadas eigenfaces en
este caso) como imágenes bidimensionales. Para ello simplemente hay que deshacer el
cambio del comienzo y reordenar el vector de (n x m) valores como una matriz
bidimensional de m filas por n columnas.
Coordenadas
Ya sólo resta calcular las coordenadas de las variables originales en la nueva base de
variables componentes principales. Este cálculo se realiza por mero producto matricial,
de la forma:
Donde también se puede usar si se prefiere la matriz X de datos originales en vez de

Z. Esas coordenadas formarán la 'huella dactilar' o 'firma facial' de cada cara, y
servirán para distinguir unas de otras.
TEMA SIGUIENTE (Tratamiento digital de imágenes)
INICIO

Estadística unidimensional: Variables aleatorias, medidas de centralización y dispersión

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística unidimensional: Variables aleatorias, medidas de centralización y dispersión

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA UNIDIMENSIONAL

VARIABLE ALEATORIA Y VARIABLE ESTADISTICA

Por contra, si tomamos muestras en un experimento realizado, esos resultados reales

Una medida de centralización es un valor, que es representativo de un conjunto de

Es el valor más frecuente de la variable estadística; valor que se corresponde al

Es la diferencia entre el mayor y menor valor de una variable estadística.

Una forma natural de medir la dispersión en torno a la media es calcular la media de

Se distingue aquí entre los casos de variable estadística y variable aleatoria. En el

Desviación típica (o estándar).

Es la raíz cuadrada de la varianza.

Al igual que con la varianza, se distinguen los casos de variables aleatorias y

Es el cociente entre la desviación típica y la media. Eliminamos con esta medida la

El objeto de un experimento bivariante es determinar si hay alguna relación entre las

 Una medida de ese grado de relación.

Un gráfico para ilustrar los datos bivariantes es el diagrama de dispersión, o nube de

A una de las variables (por ejemplo la X) se le denomina variable independiente,

Se usa el término correlación cuando se habla de relaciones entre variables de

 r está siempre comprendido entre -1 y 1.

Dos consideraciones sobre el coeficiente de correlación.

El resultado es una matriz simétrica, con la diagonal principal igual a 1.

Significado de la varianza y la covarianza

Relación entre matriz de varianza-covarianza y matriz de correlación

También llamada transformación de Hotelling ó Análisis de Componentes Principales. El

En un sistema multivariante, la forma de la elipse n-dimensional está definida por la

En la figura vemos cómo la dispersión de las variables X e Y permite que efectuando

Notación y ordenamiento de los datos

En definitiva se trata de obtener:

Donde podemos expresar ese vector en función de un sólo subíndice:

Como tendremos varias imágenes, para diferenciar unas de otras en la notación,

El primer paso consiste en hallar la matriz de correlación de estas variables.

Cálculo de la matriz de correlación

Se puede efectuar de dos formas:

1. Con los datos originales

Con lo cual se aplica la fórmula de cálculo del coeficiente de correlación lineal

Coeficiente de correlación entre las variables Xa y Xb se denota rab y se define

Coeficiente, que como ya se explica en el apartado correspondiente al tema,

La matriz de correlación se forma entonces ordenando los distintos coeficientes

2. Con los datos normalizados

La otra posibilidad para calcular la matriz de correlación evitándonos esa

o Normalización de los datos

Se calculan primeramente las estadísticas básicas de cada

Con esos datos, ya podemos estandarizar las distintas variables

A partir de las variables estandarizadas Z1, Z2, Z3, ..., Zp, se

Ordenando esos valores en forma de matriz, con filas y columnas

1. Una tercera forma de calcular la matriz de correlación a partir de las variables

Y efectuar la siguiente operación matricial:

Donde Zt significa matriz traspuesta. Este resultado también se

Valores y vectores propios

El siguiente paso es calcular los valores y vectores propios de la matriz de correlación

Las coordenadas de los vectores propios hallados son los coeficientes de la

donde Z es la matriz de valores estandarizados, aunque también se podría emplear X

Visualizar las componentes principales

Donde también se puede usar si se prefiere la matriz X de datos originales en vez de

TEMA SIGUIENTE (Tratamiento digital de imágenes)

También podría gustarte