Está en la página 1de 11

TEMA 3: ANÁLISIS ESTADÍSTICO EN

DISTRIBUCIONES BIDIMENSIONALES

1.- DISTRIBUCIÓN DE FRECUENCIAS. TABLAS DE CORRELACIÓN Y CONTINGENCIA

2.- DISTRIBUCIONES MARGINALES

3.- DISTRIBUCIONES CONDICIONADAS

4.- DEPENDENCIA E INDPENDENCIA ESTADÍSTICA

5.- REPRESENTACION GRÁFICA

6.- MOMENTOS BIDIMENSIONALES

7.- REGRESIÓN LINEAL. COEFICIENTE DE CORRELACION LINEAL Y COEFICIENTE


DE DETERMINACION
TEMA 3: ANÁLISIS ESTADÍSTICO EN
DISTRIBUCIONES BIDIMENSIONALES

1.- DISTRIBUCION DE FRECUENCIAS. TABLAS DE CORRELACION Y


CONTINGENCIA

Una variable estadística bidimensional estudia conjuntamente dos características


de una población (X,Y), proporcionando parejas de observaciones (x i,yj). Estas
características pueden ser tanto cuantitativas como cualitativas. Centraremos nuestro
estudio en las de tipo cuantitativo. Es muy importante en el estudio de estas variables
buscar las posibles relaciones existentes entre ellas.

En el estudio de estas, surgen nuevos conceptos: frecuencia conjunta tanto


absoluta (nij) como relativa (fij), distribuciones marginales y distribuciones condicionadas.

La forma de disponer los valores en este tipo de variables es, o bien en una tabla
con los valores de todas las observaciones y su respectiva frecuencia (tabla de datos
apareados):

xiyj nij
X1y1 n11
…… ……

x1yk n1k
….. ……

xhyk nhk

O bien, en una tabla de doble entrada que se denomina tabla de correlación,


cuando las variables son cuantitativas, o tabla de contingencia cuando las variables son
cualitativas.

X/ Y y1 y2 ... yj ... yk n i.
x1 n11 n12 ... n 1j ... n 1k n 1.
x2 n21 n22 ... n 2j ... n 2k n 2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... n ij ... n ik n i.
... ... ... ... ... ... ... ...
xh nh1 nh2 ... nhj ... n hk nh.
n .j n .1 n .2 ... n .j ... n .k N

…………………………………………………………………..….Cristóbal Rojas Montoya 2


La frecuencia absoluta conjunta (nij) representa el número de veces que se
presentan simultáneamente el valor i de la variable X y el j de la variable Y. (i=1,2,…,h y
j=1, 2,….,k)

Si sumamos todas las frecuencias conjuntas, el resultado sería N, o sea, el número


total de observaciones: 
i
nij  N
j

nij
La frecuencia relativa conjunta es: f ij 
N
y  fi j
ij 1

Si la variable se expresa con intervalos, se utiliza la marca de clase.

El estudio conjunto de tres o más variables da lugar a distribuciones


tridimensionales,.. y en general las distribuciones n-dimensionales (x1,x2,…,xn) se
presentan con una matriz de observaciones donde cada xij es el valor de la variable Xi en
la observación j.

X1 X2 ... Xn
1º observación x11 x21 ... x n1
2º observación x12 x22 ... x n2
... .... ... ... ...
Kº observación x1k x2k x nk

2.- DISTRIBUCION MARGINAL

Una distribución marginal es una distribución unidimensional que expresa los


valores de una variable acompañados de sus respectivas frecuencias independientes de
los valores que tome la otra variable. De una variable bidimensional, surgen dos
distribuciones marginales, la de X y la de Y.

La distribución marginal de X esta formada por la primera y última columna de la


tabla de correlación (xi ,ni.):

X n i.
x1 n 1.
x2 n 2. k
... ... Donde ni.  ni1  ni 2  ....  nik =  nij
xi n i. j 1
... ...
xh nh.
N

…………………………………………………………………..….Cristóbal Rojas Montoya 3


La de Y por la primera y última fila (yj,n.j) :

Y n. i
y1 n. 1
y2 n .2
h
... ... Donde n. j  nij  n2 j  ....  nhj   nij
yi n.j i 1
... ...
yk n.k.
N

Las ni. y las n.j, se denotan frecuencias absolutas marginales, siendo fi. y f.j las
frecuencias relativas marginales respectivamente.

Son por tanto distribuciones unidimensionales donde solamente se tiene en cuenta


una variable, sin considerar los valores que toma la otra. Por tanto puede calcularse en
estas distribuciones marginales todas las medidas estadísticas concernientes a una
variable: media, varianza, coeficiente de variación….

De una distribución conjunta se pueden obtener siempre las distribuciones


marginales, pero no al contrario.

Se cumple que:  n
i j
ij   ni   n j  n  N
i j

Si la distribución fuera n-dimensional, se obtendrían n distribuciones marginales.

3.- DISTRIBUCION CONDICIONADA

Una distribución condicionada es también una distribución unidimensional que


expresa los valores de una variable acompañada de sus respectivas frecuencias,
condicionadas a que la otra variable tome un determinado valor. Se expresa:
x ó x y
y ó y , aunque la condición no tiene porque ser un
y  yj yj x  xi xi
único valor de la variable. Por ejemplo podemos calcular la distribución
x xi
ó
y  yj y1  y 2

Concretamente la distribución x estaría formada por las dos columnas de


y  y2
borde rojo e
y estaría formada por las dos filas de borde azul:
x  xh

…………………………………………………………………..….Cristóbal Rojas Montoya 4


X/ Y y1 y2 ... yj ... yh n i.
x1 n11 n12 ... n 1j ... n 1k n 1.
x2 n21 n22 ... n 2j ... n 2k n 2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... n ij ... n ik n i.
... ... ... ... ... ... ... ...
xh nh1 nh2 ... nhj ... n hk nh.
n .j n .1 n .2 ... n .j ... n .k N

nij nij
La frecuencia relativa condicionada es fi  y fj  Hay que tener en
j n j i ni.
cuenta que, cuando usamos las frecuencias relativas, la suma ha de ser 1.

En estas distribuciones, al ser unidimensionales, pueden calcularse todas las


medidas propias de variables unidimensionales

4.- DEPENDENCIA E INDEPENDENCIA ESTADITICA

Dependencia funcional...........Dependencia estadistica............Independencia

Dos variables estadísticas son independientes si se cumple:

nij n i  n j
  i, j o f ij  f i. f . j i, j
N N N

Cuando existe independencia entre 2 variables:


ni. n. j
nij N  ni   f
f i       
bajo indpendencia
i
j n j n. j N

ni. n. j
nij N  n. j  f
fj       
bajo indpendencia
.j
i ni . ni . N
La frecuencia relativa condicionada es igual a la frecuencia relativa marginal, o
sea, sin existencia de condicionante alguno. Una forma sencilla de ver si dos variables son
independientes es comprobar que las filas y columnas de la tabla de frecuencias son
proporcionales. La independencia siempre es mutua, es decir, X e Y son independientes
entre si.

La DEPENDENCIA FUNCIONAL X=f(Y) aparece cuando cada modalidad o valor de Y


sólo está relacionado con una modalidad o valor de X.

…………………………………………………………………..….Cristóbal Rojas Montoya 5


Vamos a verlo con un ejemplo de tabla:

X \ Y 1 2 3

A 0 20 10 30

B 40 0 0 40

40 20 10 70

Como se ve, si un individuo tiene Y=2, la X es A, pero si un individuo es X=A, no


sabemos si la Y vale 2 ó 3, luego la 'X' depende de 'Y' pero la 'Y' no depende de 'X'

5.- REPRESENTACION GRAFICA

Cuando los datos son no agrupados, la más usual, es la nube de puntos o diagrama
de dispersión, que consiste en representar los valores de x en abscisas y los de y en
ordenadas. Cada punto es un par (xi,yj). Si la frecuencia fuera distinta de la unitaria, se
haría constar en el gráfico:

Aunque en ese caso es más normal representarlo en un eje tridimensional, donde


en el plano XY, se presentan los valores conjuntos de la variable, que sirven de base para
representar barras cuya altura sea igual o proporcional a la frecuencia conjunta:

…………………………………………………………………..….Cristóbal Rojas Montoya 6


Mediante la representación gráfica podemos saber si las variaciones son
dependientes o independientes.

Para valores agrupados la representación es similar al histograma, pero en tres


dimensiones, por lo que la frecuencia pasa de ser el área de un rectángulo a ser el
volumen de un prisma (V). Se cumple que V=nij=cicjhij.

6.- MOMENTOS BIDIMENSIONALES


Tenemos dos clases de momentos:
Momentos ordinarios con respecto al origen (ars):

nij
a rs    x ir y sj
i j N
De todos los momentos ordinarios los más utilizados son:
nij nij n i
a10    x i y 0j   xi    xi x
i j N i j N i N

a 01  y a 20 
x 2
i n i
a 02 
y 2
j j n
a11    x i y j
nij
N N i j N
Momentos centrales con respecto a la media (mrs): Son de la forma:

  y 
nij
mrs    x i  x
r s
j y
i j N
Los más usados son:

m10  0 m01  0 m20   xi  x  


2 ni 
N
 S x2 m02   y j  y  
2 n j
N
 S y2

m11   xi  x y j  y    nN ij
 S xy
i j

El momento m11 se denomina covarianza.


Los momentos centrales se pueden expresar en función de los momentos ordinarios.

…………………………………………………………………..….Cristóbal Rojas Montoya 7


7.- REGRESIÓN LINEAL. COEFICIENTE DE CORRELACION LINEAL Y
COEFICIENTE DE DETERMINACION

Cuando representamos una nube de puntos podemos obtener una de estas


posibilidades

(a) Relación matemática exacta

(b) Ninguna relación

(c) y (d) Hay una relación matemática aproximada

La idea de la regresión es encontrar una función matemática que se 'ajuste' lo


mejor posible a la nube de puntos, de forma que podamos aproximar una de las variables
conociendo el valor de la otra.

El ajuste de una recta es el más utilizado. Queremos minimizar la distancia de los


puntos a la recta. Bajo este criterio se calculan unos valores que permiten conocer la recta
de regresión de Y sobre X óptima:

Sin entrar en desarrollos matemáticos, los valores bo y b1 se calculan de la


siguiente manera y se denominan coeficientes de regresión:

De forma similar se podría calcular la recta de regresión de X sobre Y.

Covarianza: Es el momento central bidimensional m11, denominado Sxy:

 
S xy  m11   xi  x y j  y  nN
ij

i j

Es una medida de dispersión conjunta, que estudia la co-variación entre de ambas


variables.

La covarianza de una variable y ella misma es la varianza. Puede tener cualquier


valor: positivo, negativo y 0.

…………………………………………………………………..….Cristóbal Rojas Montoya 8


Cuando es igual a 0 indica que no existe relación o dependencia lineal entre las
variables, aunque podría existir otro tipo de relación. Cuando es positiva o negativa indica
que existe una relación lineal directa o inversa respectivamente entre las variables pero al
poder tomar cualquier valor no nos dice si el grado de dependencia es fuerte o débil.

Se puede expresar en función de los momentos ordinarios. Así

n
  N   x y
ij


nij nij nij nij
S xy  m11    x i  x y j  y  x  y j  y  xi  xy 
i j
i j
i j i j N i j N i j N N
 a11  xy  yx  xy  a11  xy  a11  a10 a 01

En caso de independencia su valor es 0:

nij ni n j n n j
a11   xi y j   xi y j
 indep
   xi i  y j  a10a01  m11  0
i j N i j N N i N j N

Pero el que su covarianza sea 0, no implica que las variables sean


independientes, solamente que no tienen dependencia lineal, pero pueden
tenerla de otra forma.

En cuanto a las transformaciones en las variables, es fácil deducir que los cambios
de origen –al igual que en la varianza- no la afectan, pero sí los de escala. Por lo cual ante
una transformación lineal en las variables, la covarianza queda afectada de la siguiente
forma:

x  a1  b1 x y  a2  b2 y


S x  y    xi  x y j  y   nN  b b  x  xy
ij
1 2 i j  y  nN  b b S
ij
1 2 xy
i j i j

En resumen, las propiedades de la covarianza son:

Puede tomar cualquier valor


S xy  S yx
S xx  S x2
Cov (b1 X , b2Y )  b1b 2 Cov ( X ,Y )
Cov ( a1  X , Y )  Cov ( X , Y )
Cov ( a1  b1 X , a2  b2Y )  b1b 2 Cov ( X , Y )

Se calcula : S xy 
x y ni j ij
 xy
N
…………………………………………………………………..….Cristóbal Rojas Montoya 9
La covarianza tiene como inconvenientes que depende de las unidades de medida,
y que puede tomar cualquier valor (no esta acotada).

Coeficiente de correlación lineal de Pearson (rxy):

Permite cuantificar qué grado de relación existe entre las variables X e Y.

S xy
rxy 
SxS y

Este coeficiente salva los inconvenientes de la covarianza, ya que se caracteriza


por:

 Es adimensional

 Tiene el mismo signo que la covarianza porque el denominador siempre es


positivo.

 No se ve afectado por las transformaciones de las variables:

x  a1  b1 x y  a2  b2 y
S x y b1 b2 S xy S xy
rx  y      rxy
S x S y b1 S x b2 S y Sx S y

 Está comprendido entre -1 y 1 porque Sxy SxSy. Cuanto más se acerca a 1 o


-1, mayor es el grado de dependencia lineal directa o inversa respectivamente,
siendo perfecta si es exactamente 1 ó -1. Si es próximo a 0 hay ausencia de
relación lineal o están incorreladas. Si las variables son independientes también
estarán incorreladas, pero si están incorreladas no siempre son
independientes.

r>0 r<0 r=0 indep. r=0 pero hay dependencia.

La representación gráfica mediante un diagrama de dispersión es una


buena herramienta para visualizar el tipo de relación existente entre las variables

En el caso de que alguna variable tenga algún valor muy dispar (outlier),
podría desvirtuar el valor de r, y puede ser más conveniente eliminarlo.

…………………………………………………………………..….Cristóbal Rojas Montoya 10


Se estudia correlación entre variables, cuando existe una relación de
causalidad entre ellas. A las posibles correlaciones que pueden existir entre
variables que no tienen relación de causalidad se las llama espúreas.

El cuadrado del coeficiente de correlación lineal se denomina coeficiente de


determinación.

R2 varía entre 0 y 1 y nos indica la proporción de la variabilidad de Y que queda


explicada por su relación lineal con X.

…………………………………………………………………..….Cristóbal Rojas Montoya 11

También podría gustarte